Integración de Apache Spark con ClickHouse

Apache Spark es un motor compatible con varios lenguajes para ejecutar tareas de ingeniería de datos, ciencia de datos y aprendizaje automático en máquinas de un solo nodo o en clústeres. Hay dos formas principales de conectar Apache Spark y ClickHouse:

Spark Connector - El conector de Spark implementa DataSourceV2 y cuenta con su propia gestión de catálogo. A día de hoy, esta es la forma recomendada de integrar ClickHouse y Spark.
Spark JDBC - Integra Spark y ClickHouse mediante un origen de datos JDBC.

Ambas soluciones se han probado correctamente y son totalmente compatibles con varias API, incluidas Java, Scala, PySpark y Spark SQL.

Entornos de ejecución de Spark

Entornos de ejecución estándar de Spark

El Spark Connector funciona de inmediato en entornos que siguen de cerca el runtime original de Apache Spark, como Amazon EMR o implementaciones de Spark basadas en Kubernetes.

Plataformas de Spark administradas

Plataformas como AWS Glue y Databricks introducen abstracciones adicionales y comportamientos específicos del entorno. Aunque la integración principal sigue siendo la misma, pueden requerir configuración dedicada y pasos de instalación específicos. Consulta las páginas de documentación correspondientes para obtener más detalles.

​Entornos de ejecución de Spark

​Entornos de ejecución estándar de Spark

​Plataformas de Spark administradas

Entornos de ejecución de Spark

Entornos de ejecución estándar de Spark

Plataformas de Spark administradas