Integração do Apache Spark com ClickHouse

Apache Spark é um mecanismo multilíngue para executar engenharia de dados, ciência de dados e aprendizado de máquina em máquinas de um único nó ou clusters. Há duas formas principais de conectar o Apache Spark ao ClickHouse:

Spark Connector - O Spark connector implementa o DataSourceV2 e tem seu próprio gerenciamento de catálogo. Atualmente, esta é a forma recomendada de integrar o ClickHouse ao Spark.
Spark JDBC - Integre o Spark ao ClickHouse usando uma fonte de dados JDBC.

Ambas as soluções foram testadas com sucesso e são totalmente compatíveis com várias APIs, incluindo Java, Scala, PySpark e Spark SQL.

Ambientes de runtime para Spark

Runtimes padrão do Spark

O Spark Connector funciona sem configuração adicional em ambientes que seguem de perto o runtime padrão do Apache Spark, como o Amazon EMR ou implantações do Spark baseadas em Kubernetes.

Plataformas Spark gerenciadas

Plataformas como AWS Glue e Databricks introduzem abstrações adicionais e comportamentos específicos de cada ambiente. Embora a integração principal permaneça a mesma, elas podem exigir configuração e etapas de instalação específicas. Consulte as respectivas páginas da documentação para mais detalhes.

​Ambientes de runtime para Spark

​Runtimes padrão do Spark

​Plataformas Spark gerenciadas

Ambientes de runtime para Spark

Runtimes padrão do Spark

Plataformas Spark gerenciadas