En este tutorial, insertarás 28 millones de filas de datos de Hacker News en una tabla de ClickHouse desde archivos CSV y Parquet, y ejecutarás algunas consultas sencillas para explorar los datos.
CSV
Descargar CSV
Se puede descargar una versión en CSV del conjunto de datos desde nuestro bucket público de S3, o ejecutando este comando:Tomar una muestra de los datos
clickhouse-local permite procesar rápidamente archivos locales sin
tener que desplegar y configurar el servidor de ClickHouse.Antes de almacenar datos en ClickHouse, tomemos una muestra del archivo con clickhouse-local.
En la consola, ejecute:Query
Response
file le permite leer el archivo desde un disco local, especificando solo el formato CSVWithNames.
Lo más importante es que el esquema se infiere automáticamente a partir del contenido del archivo.
Observe también cómo clickhouse-local puede leer el archivo comprimido, infiriendo el formato gzip a partir de la extensión.
El formato Vertical se utiliza para ver más fácilmente los datos de cada columna.Cargar los datos con inferencia de esquema
La herramienta más sencilla y potente para cargar datos esclickhouse-client: un cliente nativo de línea de comandos con numerosas funciones.
Para cargar datos, también puedes aprovechar la inferencia de esquema y dejar que ClickHouse determine los tipos de las columnas.Ejecuta el siguiente comando para crear una tabla e insertar los datos directamente desde el archivo CSV remoto, accediendo al contenido mediante la función url.
El esquema se infiere automáticamente:DESCRIBE TABLE nos permite ver los tipos asignados.Query
Response
INSERT INTO, SELECT.
Con la función url, los datos se transmitirán directamente desde la URL:Explorar los datos
Obtenga una muestra de las historias de Hacker News y de columnas concretas ejecutando la siguiente consulta:Query
Response
Definir un esquema
Una optimización inmediata y evidente es definir un tipo para cada campo. Además de declarar el campo de tiempo como de tipoDateTime, definimos un tipo adecuado para cada uno de los campos siguientes después de eliminar el dataset existente.
En ClickHouse, el id de la clave primaria de los datos se define mediante la cláusula ORDER BY.Seleccionar los tipos adecuados y elegir qué columnas incluir en la cláusula ORDER BY
ayudará a mejorar la velocidad de las consultas y la compresión.Ejecute la consulta siguiente para eliminar el esquema anterior y crear el esquema mejorado:Query
clickhouse-client, inserta el archivo mediante la cláusula INFILE con un INSERT INTO explícito.Query
Ejecutar consultas de muestra
A continuación se presentan algunas consultas de ejemplo para que puedas inspirarte al escribir tus propias consultas.¿Con qué frecuencia aparece el tema “ClickHouse” en Hacker News?
El campo score proporciona una métrica de popularidad para las historias, mientras que el campoid y el operador de concatenación || pueden usarse para generar un enlace a la publicación original.Query
Response
time
como DateTime, ya que usar un tipo de dato adecuado permite utilizar la función toYYYYMM():Query
Response
¿Quiénes son los principales comentaristas en los artículos relacionados con ClickHouse?
Query
Response
¿Qué comentarios generan más interés?
Query
Response
Parquet
Insertar los datos
Ejecuta la siguiente consulta para leer los mismos datos en formato Parquet, de nuevo con la función url para leer los datos remotos:Claves nulas en ParquetComo requisito del formato Parquet, tenemos que aceptar que las claves puedan ser
NULL,
aunque no lo sean en los datos.Response
Añade un índice de descarte para acelerar las consultas
Para averiguar cuántos comentarios mencionan “ClickHouse”, ejecuta la siguiente consulta:Query
Response
system.data_skipping_indices).Vuelve a ejecutar la consulta una vez que se haya creado el índice:Query
Response
EXPLAIN puede usarse para entender por qué la incorporación de este índice
mejoró la consulta aproximadamente 3,4 veces.Response
Query
Response
Query
Response