メインコンテンツへスキップ
Apache Spark は、単一ノードのマシンまたはクラスター上で、データエンジニアリング、データ サイエンス、機械学習を実行するためのマルチ言語対応エンジンです。 Apache Spark と ClickHouse を接続する主な方法は 2 つあります。
  1. Spark Connector - Spark コネクタは DataSourceV2 を実装しており、独自のカタログ 管理機能を備えています。現時点では、これが ClickHouse と Spark を連携するための推奨方法です。
  2. Spark JDBC - JDBC data source を使用して Spark と ClickHouse を連携します。

どちらのソリューションもテストで十分に検証されており、Java、Scala、PySpark、Spark SQL などの各種 API と完全に互換性があります。

Spark ランタイム環境

標準的な Spark ランタイム

Spark Connector は、Amazon EMR や Kubernetes ベースの Spark デプロイメントなど、Apache Spark のアップストリームランタイムに近い環境で、そのまま利用できます。

マネージド Spark プラットフォーム

AWS GlueDatabricks などのプラットフォームでは、追加の抽象化や環境固有の挙動が生じます。 コアとなるインテグレーション自体は同じですが、個別の設定やセットアップ手順が必要になる場合があります。詳細は、それぞれのドキュメントページを参照してください。
最終更新日 2026年6月10日