データウェアハウジング - ClickHouse Documentation

現代のデータウェアハウスでは、ストレージとコンピュートはもはや密結合ではありません。代わりに、ストレージ、ガバナンス、クエリ処理を担う、独立しながらも相互に連携するレイヤーによって、ワークフローに適したツールを柔軟に選択できます。クラウドオブジェクトストレージにオープンテーブルフォーマットと ClickHouse のような高性能クエリエンジンを組み合わせることで、データレイクのオープン性を損なうことなく、ACID トランザクション、スキーマ適用、高速な分析クエリといったデータベース並みの機能を利用できます。この組み合わせにより、高性能と、相互運用性に優れた費用対効果の高いストレージを両立でき、従来の分析ワークロードから最新の AI/ML ワークロードまで支えられます。

このアーキテクチャで得られるもの

オープンなオブジェクトストレージとテーブルフォーマットを、クエリエンジンとしての ClickHouse と組み合わせることで、次のような利点が得られます。

利点	説明
一貫したテーブル更新	テーブル状態へのアトミックな commit により、同時書き込みが発生してもデータの破損や不完全なデータは生じません。これにより、生のデータレイクにおける最大の課題の 1 つを解決できます。
スキーマ管理	検証の強制とスキーマ進化の追跡により、スキーマの不整合が原因でデータが使えなくなる「データスワンプ」問題を防げます。
クエリパフォーマンス	索引、統計情報、データスキッピングやクラスタリングといったデータレイアウトの最適化により、SQL クエリを専用のデータウェアハウスに匹敵する速度で実行できます。さらに ClickHouse の列指向 engine と組み合わせることで、この特性はオブジェクトストレージに保存されたデータにも当てはまります。
ガバナンス	カタログとテーブルフォーマットにより、行レベルおよびカラムレベルできめ細かなアクセス制御と監査が可能になり、基本的なデータレイクでは不十分だったセキュリティ制御を補えます。
ストレージとコンピュートの分離	ストレージとコンピュートは、汎用オブジェクトストレージ上でそれぞれ独立してスケールでき、独自仕様のウェアハウスストレージより大幅に低コストです。こうした分離は最新のクラウドウェアハウスでは一般的ですが、オープンフォーマットであれば、データに合わせてどのコンピュートエンジンをスケールさせるかを選べます。

ClickHouseが支えるデータウェアハウスの仕組み

データはストリーミングプラットフォームや既存のウェアハウスからオブジェクトストレージを経由してClickHouseに取り込まれ、そこで変換・最適化されたうえで、BI/AIツールに提供されます。

ハイブリッドアーキテクチャ: 両方の利点を活かす

データレイクをクエリするだけでなく、超低レイテンシが求められるユースケース — リアルタイムダッシュボード、運用分析、インタラクティブなアプリケーションなど — に向けて、パフォーマンスクリティカルなデータを ClickHouse ネイティブの MergeTree ストレージに取り込むこともできます。これにより、階層化されたデータ戦略を採用できます。高頻度でアクセスされるホットデータは、サブ秒のクエリ応答を実現する ClickHouse の最適化されたストレージに配置し、完全なデータ履歴はデータレイクに保持したままクエリ可能です。また、ClickHouse の materialized view を使用して、データレイク内のデータを継続的に変換・集約し、最適化されたテーブルへ自動的に反映させることもできます。これにより、2 つの層を自動的に橋渡しできます。データをどこに置くかは、技術的な制約ではなく、パフォーマンス要件に基づいて決められます。

ClickHouse Academyさらに詳しく知りたい方は、無料の ClickHouse を使ったデータウェアハウジングコースをご受講ください。

​このアーキテクチャで得られるもの

​ClickHouseが支えるデータウェアハウスの仕組み

​ハイブリッドアーキテクチャ: 両方の利点を活かす

このアーキテクチャで得られるもの

ClickHouseが支えるデータウェアハウスの仕組み

ハイブリッドアーキテクチャ: 両方の利点を活かす