Lago de datos - ClickHouse Documentation

ClickHouse se integra con formatos de tabla abiertos, incluidos Apache Iceberg, Delta Lake, Apache Hudi y Apache Paimon. Esto permite conectar ClickHouse a datos ya almacenados en estos formatos dentro de sistemas de almacenamiento de objetos, combinando la potencia analítica de ClickHouse con la infraestructura existente de su lago de datos.

¿Por qué usar ClickHouse con formatos de tabla abiertos?

Consultar datos existentes in situ

ClickHouse puede consultar formatos de tabla abiertos directamente en el almacenamiento de objetos sin duplicar los datos. Las organizaciones que han estandarizado en Iceberg, Delta Lake, Hudi o Paimon pueden indicar a ClickHouse las tablas existentes y usar de inmediato su dialecto SQL, sus funciones analíticas y su eficiente lector nativo de Parquet. Al mismo tiempo, herramientas como clickhouse-local y chDB permiten realizar análisis exploratorios y ad hoc en más de 70 formatos de archivo en almacenamiento remoto, lo que permite a los usuarios explorar interactivamente conjuntos de datos de lagos de datos sin necesidad de configurar infraestructura. Los usuarios pueden lograrlo ya sea con lectura directa, mediante funciones de tabla y motores de tabla, o conectándose a un catálogo de datos.

Cargas de trabajo analíticas en tiempo real con ClickHouse

Para las cargas de trabajo que requieren alta concurrencia y baja latencia en las respuestas, los usuarios pueden cargar datos desde formatos de tabla abiertos en el motor MergeTree de ClickHouse. Esto proporciona una capa de analítica en tiempo real sobre datos procedentes de un lago de datos, y permite crear dashboards, informes operativos y otras cargas de trabajo sensibles a la latencia que se benefician del almacenamiento columnar de MergeTree y de sus capacidades de indexación. Consulte la guía de primeros pasos para acelerar la analítica con MergeTree.

Capacidades

Leer datos directamente

ClickHouse proporciona funciones de tabla y motores para leer formatos de tabla abiertos directamente desde el almacenamiento de objetos. Funciones como iceberg(), deltaLake(), hudi() y paimon() permiten consultar tablas en formato de tabla abierto dentro de una instrucción SQL sin necesidad de configuración previa. Existen versiones de estas funciones para los almacenes de objetos más comunes, como S3, Azure Blob Storage y GCS. Estas funciones también tienen motores de tabla equivalentes que pueden usarse para crear tablas en ClickHouse que hagan referencia al almacenamiento de objetos subyacente en formato de tabla abierto, lo que facilita las consultas. Consulte nuestra guía de primeros pasos para consultar directamente o para conectarse a un catálogo de datos.

Exponer catálogos como bases de datos

Con el motor de base de datos DataLakeCatalog, los usuarios pueden conectar ClickHouse a un catálogo externo y exponerlo como una base de datos. Las tablas registradas en el catálogo aparecen como tablas dentro de ClickHouse, lo que permite usar de forma transparente toda la sintaxis de ClickHouse SQL y sus funciones analíticas. Esto significa que los usuarios pueden consultar, combinar y agregar datos entre tablas gestionadas por el catálogo como si fueran tablas nativas de ClickHouse, beneficiándose de la optimización de consultas, la ejecución en paralelo y las capacidades de lectura de ClickHouse. Los catálogos compatibles incluyen:

Catálogo	Guía
AWS Glue	Guía de Glue Catalog
BigLake Metastore	Guía de BigLake Metastore
Databricks Unity Catalog	Guía de Unity Catalog
Iceberg REST Catalog	Guía de REST Catalog
Lakekeeper	Guía de Lakekeeper Catalog
Project Nessie	Guía de Nessie Catalog
Microsoft OneLake	Guía de OneLake Catalog

Consulte la guía de primeros pasos para conectarse a catálogos.

Escritura de datos en formatos de tabla abiertos

ClickHouse admite escribir datos en formatos de tabla abiertos, lo cual resulta útil en escenarios como:

Del tiempo real al almacenamiento a largo plazo - Los datos pasan por ClickHouse como capa de analítica en tiempo real, y los usuarios necesitan trasladar los resultados a Iceberg u otros formatos para un almacenamiento duradero y rentable a largo plazo.
ETL inverso - Los usuarios realizan transformaciones dentro de ClickHouse mediante vistas materializadas o consultas programadas y desean conservar los resultados en formatos de tabla abiertos para su consumo por otras herramientas del ecosistema de datos.

Consulta la guía de primeros pasos para escribir en lagos de datos.

Siguientes pasos

¿Listo para probarlo? La guía de primeros pasos explica cómo consultar formatos de tabla abiertos directamente, conectarse a un catálogo, cargar datos en MergeTree para una analítica rápida y volver a escribir los resultados, todo en un único flujo de trabajo de principio a fin.

​¿Por qué usar ClickHouse con formatos de tabla abiertos?

​Consultar datos existentes in situ

​Cargas de trabajo analíticas en tiempo real con ClickHouse

​Capacidades

​Leer datos directamente

​Exponer catálogos como bases de datos

​Escritura de datos en formatos de tabla abiertos

​Siguientes pasos