Ingestión de datos - ClickHouse Documentation

ClickHouse se integra con diversas soluciones de integración y transformación de datos. Para más información, consulta las páginas siguientes:

Herramienta de ingestión de datos	Descripción
Airbyte	Una plataforma de integración de datos de código abierto. Permite crear pipelines de datos ELT y se distribuye con más de 140 conectores listos para usar.
Apache Spark	Un motor multilenguaje para ejecutar tareas de ingeniería de datos, ciencia de datos y aprendizaje automático en máquinas de un solo nodo o clusters.
Apache Flink	Ingestión y procesamiento de datos en tiempo real en ClickHouse mediante la API DataStream de Flink, con compatibilidad con escrituras por lotes.
Amazon Glue	Un servicio de integración de datos totalmente gestionado y sin servidor proporcionado por Amazon Web Services (AWS) que simplifica el proceso de descubrir, preparar y transformar datos para analítica, aprendizaje automático y desarrollo de aplicaciones.
Artie	Una plataforma de streaming de datos en tiempo real totalmente gestionada que replica datos de producción en ClickHouse, lo que permite ofrecer analítica orientada al cliente, flujos de trabajo operativos y Agentic AI en producción.
Azure Synapse	Un servicio de analítica en la nube totalmente gestionado proporcionado por Microsoft Azure, que combina big data y data warehousing para simplificar la integración, transformación y analítica de datos a escala mediante SQL, Apache Spark y pipelines de datos.
Azure Data Factory	Un servicio de integración de datos basado en la nube que le permite crear, programar y orquestar flujos de trabajo de datos a escala.
Apache Beam	Un modelo de programación unificado y de código abierto que permite a los desarrolladores definir y ejecutar pipelines de procesamiento de datos tanto por lotes como de flujo continuo (stream).
BladePipe	Una herramienta integral de integración de datos en tiempo real con latencia inferior a un segundo, que impulsa un flujo de datos fluido entre plataformas.
dbt	Permite a los ingenieros de analítica transformar datos en sus warehouses simplemente escribiendo sentencias SELECT.
dlt	Una biblioteca de código abierto que puede añadir a sus scripts de Python para cargar datos desde diversas fuentes de datos, a menudo desordenadas, en conjuntos de datos activos y bien estructurados.
Estuary	Una plataforma de datos en tiempo real que permite pipelines ETL con latencia de milisegundos y opciones flexibles de implementación.
Fivetran	Una plataforma automatizada de movimiento de datos que mueve datos desde, hacia y entre sus plataformas de datos en la nube.
NiFi	Un software de gestión de flujos de trabajo de código abierto diseñado para automatizar el flujo de datos entre sistemas de software.
Vector	Un pipeline de datos de observabilidad de alto rendimiento que permite a las organizaciones mantener el control de sus datos de observabilidad.