Postgres から ClickHouse へのデータ取り込み (CDC（変更データキャプチャ）を使用)

ClickPipes を使用すると、ソースの Postgres データベースから ClickHouse Cloud にデータを取り込めます。ソースの Postgres データベースは、オンプレミス環境のほか、Amazon RDS、Google Cloud SQL、Azure Database for Postgres、Supabase などのクラウド環境でもホストできます。 Postgres ClickPipes は、ClickPipes UI を使用して手動でデプロイおよび管理できるほか、OpenAPI や Terraform を使用してプログラムからデプロイおよび管理することもできます。

前提条件

開始するには、まず Postgres データベースが正しく設定されていることを確認する必要があります。使用するソース Postgres インスタンスに応じて、以下のいずれかのガイドに従ってください。

Amazon RDS Postgres
Amazon Aurora Postgres
Supabase Postgres
Google Cloud SQL Postgres
Azure Flexible Server for Postgres
Neon Postgres
Crunchy Bridge Postgres
Generic Postgres Source: 他の Postgres プロバイダーを使用している場合、またはセルフホストのインスタンスを使用している場合。
TimescaleDB: マネージドサービスまたはセルフホストのインスタンスで TimescaleDB 拡張機能を使用している場合。

PgBouncer、RDS Proxy、Supabase Pooler などの Postgres プロキシは、CDC (変更データキャプチャ) ベースのレプリケーションではサポートされていません。ClickPipes のセットアップではこれらを使用せず、代わりに実際の Postgres データベースの接続情報を指定してください。

ソース Postgres データベースの設定が完了したら、ClickPipe の作成に進めます。

ClickPipe の作成

ClickHouse Cloud アカウントにログインしていることを確認してください。まだアカウントをお持ちでない場合は、こちらから登録できます。

ClickHouse Cloud コンソールで、ご利用の ClickHouse Cloud サービスを開きます。

左側のメニューで Data Sources ボタンを選択し、「Set up a ClickPipe」をクリックします。

Postgres CDC タイルを選択します。

ソース Postgres データベース接続の追加

前提条件の手順で設定したソース Postgres データベースの接続情報を入力します。

接続情報の入力を始める前に、ファイアウォールルールで ClickPipes IP アドレスを許可リストに追加していることを確認してください。ClickPipes IP アドレスの一覧はこちらで確認できます。詳細については、このページの上部にリンクされているソース Postgres のセットアップガイドを参照してください。

(任意) AWS プライベートリンクの設定

ソースの Postgres データベースが AWS でホストされている場合は、AWS プライベートリンクを使用して接続できます。データ転送を非公開のままにしたい場合に便利です。接続を設定するためのセットアップガイドを参照してください。

(任意) SSH トンネリングを設定する

ソースの Postgres データベースにパブリックアクセスできない場合は、SSH トンネリングの詳細を指定できます。

「Use SSH Tunnelling」トグルを有効にします。
SSH の接続情報を入力します。
鍵ベース認証を使用するには、「Revoke and generate key pair」をクリックして新しい鍵ペアを生成し、生成された公開鍵を SSH サーバーの ~/.ssh/authorized_keys にコピーします。
「Verify Connection」をクリックして、接続を確認します。

ClickPipes が SSH トンネルを確立できるように、SSH 踏み台ホストのファイアウォールルールで ClickPipes IP アドレスを必ず許可してください。

接続情報の入力が完了したら、「Next」をクリックします。

レプリケーション設定の構成

事前準備の手順で作成したレプリケーションスロットを、ドロップダウンリストから選択してください。

詳細設定

必要に応じて詳細設定を構成できます。各設定の簡単な説明を以下に示します。

Sync interval: ClickPipes が変更を確認するためにソースデータベースをポーリングする間隔です。この値は宛先の ClickHouse サービスのコストにも影響するため、コストを重視する場合は高めの値 (3600 より大きい値) に設定することを推奨します。
Parallel threads for initial load: 初期スナップショットの取得に使用する並列ワーカー数です。テーブル数が多い場合に、初期スナップショットの取得に使う並列ワーカー数を制御するのに役立ちます。この設定はテーブルごとに適用されます。
Pull batch size: 1 回のバッチで取得する行数です。この設定はベストエフォートで適用されるため、常にそのとおりになるとは限りません。
Snapshot number of rows per partition: 初期スナップショット時に各パーティションで取得する行数です。テーブル内の行数が非常に多い場合に、各パーティションで取得する行数を制御するのに役立ちます。
Snapshot number of tables in parallel: 初期スナップショット時に並列で取得するテーブル数です。テーブル数が多い場合に、並列で取得するテーブル数を制御するのに役立ちます。

テーブルの設定

ここでは、ClickPipe の宛先データベースを選択できます。既存のデータベースを選択することも、新しく作成することもできます。
ソースの Postgres データベースからレプリケートするテーブルを選択できます。テーブルを選択する際には、宛先の ClickHouse データベースでテーブル名を変更したり、特定のカラムを除外したりすることもできます。

ClickHouse で、Postgres の主キーとは異なる ordering key を定義する場合は、関連する注意事項を必ず確認してください

権限を確認して ClickPipe を開始する

権限のドロップダウンから「Full access」ロールを選択し、「Complete Setup」をクリックします。

次は

ClickPipe の設定を完了し、PostgreSQL から ClickHouse Cloud へのデータレプリケーションを開始したら、次は最適なパフォーマンスを得るためのデータのクエリ方法やモデル設計に注力できます。要件に最も適した戦略を見極めるには移行ガイドを参照してください。また、CDC (変更データキャプチャ) (変更データキャプチャ) ワークロードのベストプラクティスについては、重複排除戦略 (CDC (変更データキャプチャ) を使用) と Ordering Keys の各ページを参照してください。 PostgreSQL CDC (変更データキャプチャ) に関する一般的な質問やトラブルシューティングについては、Postgres よくある質問ページを参照してください。

​前提条件

​ClickPipe の作成

​ソース Postgres データベース接続の追加

​ (任意) AWS プライベートリンクの設定

​ (任意) SSH トンネリングを設定する

​レプリケーション設定の構成

​詳細設定

​テーブルの設定

​権限を確認して ClickPipe を開始する

​次は

前提条件

ClickPipe の作成

ソース Postgres データベース接続の追加

(任意) AWS プライベートリンクの設定

(任意) SSH トンネリングを設定する

レプリケーション設定の構成

詳細設定

テーブルの設定

権限を確認して ClickPipe を開始する

次は