Saltar al contenido principal
Google Dataflow es un servicio totalmente gestionado de procesamiento de datos en streaming y por lotes. Admite pipelines escritos en Java o Python y está basado en el SDK de Apache Beam. Hay dos formas principales de usar Google Dataflow con ClickHouse; ambas aprovechan el ClickHouseIO Apache Beam connector. Estas son:

Runner de Java

El runner de Java le permite implementar pipelines personalizados de Dataflow con la integración ClickHouseIO del SDK de Apache Beam. Este enfoque proporciona flexibilidad y control totales sobre la lógica del pipeline, lo que le permite adaptar el proceso de ETL a requisitos específicos. Sin embargo, esta opción requiere conocimientos de programación en Java y familiaridad con el framework Apache Beam.

Características principales

  • Alto grado de personalización.
  • Ideal para casos de uso complejos o avanzados.
  • Requiere saber programar y comprender la API de Beam.

Plantillas predefinidas

ClickHouse ofrece plantillas predefinidas diseñadas para casos de uso específicos, como importaciones por lotes desde BigQuery o la ingestión en streaming desde Pub/Sub a ClickHouse. Estas plantillas están listas para usar y simplifican el proceso de integración, por lo que son una excelente opción si prefieres una solución sin necesidad de código.

Características principales

  • No requiere programación en Beam.
  • Configuración rápida y sencilla para casos de uso simples.
  • También es adecuado si se tienen conocimientos mínimos de programación.
Ambos enfoques son totalmente compatibles con Google Cloud y el ecosistema de ClickHouse, y ofrecen flexibilidad en función de los conocimientos técnicos y los requisitos del proyecto.
Última modificación el 10 de junio de 2026