Apache Spark と ClickHouse の統合 - ClickHouse Documentation

Apache Spark は、単一ノードのマシンまたはクラスター上で、データエンジニアリング、データサイエンス、機械学習を実行するためのマルチ言語対応エンジンです。 Apache Spark と ClickHouse を接続する主な方法は 2 つあります。

Spark Connector - Spark コネクタは DataSourceV2 を実装しており、独自のカタログ管理機能を備えています。現時点では、これが ClickHouse と Spark を連携するための推奨方法です。
Spark JDBC - JDBC data source を使用して Spark と ClickHouse を連携します。

どちらのソリューションもテストで十分に検証されており、Java、Scala、PySpark、Spark SQL などの各種 API と完全に互換性があります。

Spark ランタイム環境

標準的な Spark ランタイム

Spark Connector は、Amazon EMR や Kubernetes ベースの Spark デプロイメントなど、Apache Spark のアップストリームランタイムに近い環境で、そのまま利用できます。

マネージド Spark プラットフォーム

AWS Glue や Databricks などのプラットフォームでは、追加の抽象化や環境固有の挙動が生じます。コアとなるインテグレーション自体は同じですが、個別の設定やセットアップ手順が必要になる場合があります。詳細は、それぞれのドキュメントページを参照してください。

最終更新日 2026年6月10日

Spark ネイティブコネクタClickHouse での Apache Spark の概要