Зачем использовать ClickHouse с открытыми табличными форматами?
Выполняйте запросы к существующим данным без их перемещения
Рабочие нагрузки аналитики в реальном времени с ClickHouse
Привилегии
Чтение данных напрямую
iceberg(), deltaLake(), hudi() и paimon(), позволяют выполнять запросы к таблицам в открытых табличных форматах прямо из SQL-оператора, без какой-либо предварительной настройки. Для большинства распространённых объектных хранилищ, таких как S3, Azure Blob Storage и GCS, существуют соответствующие версии этих функций. У этих функций также есть эквивалентные движки таблиц, которые можно использовать для создания таблиц в ClickHouse, ссылающихся на базовое объектное хранилище с открытыми табличными форматами, — это делает выполнение запросов более удобным.
См. наше руководство «Начало работы»: прямое выполнение запросов или подключение к каталогу данных.
Подключение каталогов как баз данных
DataLakeCatalog пользователи могут подключать ClickHouse к внешнему каталогу и представлять его как базу данных. Таблицы, зарегистрированные в каталоге, отображаются в ClickHouse как обычные таблицы, что позволяет прозрачно использовать весь синтаксис ClickHouse SQL и аналитические функции. Это означает, что пользователи могут выполнять запросы, JOIN и агрегации по таблицам, управляемым каталогом, так, как если бы это были собственные таблицы ClickHouse, пользуясь преимуществами оптимизации запросов, параллельного выполнения и возможностей чтения ClickHouse.
Поддерживаются следующие каталоги:
| Каталог | Руководство |
|---|---|
| AWS Glue | Руководство по Glue Catalog |
| BigLake Metastore | Руководство по BigLake Metastore |
| Databricks Unity Catalog | Руководство по Unity Catalog |
| Iceberg REST Catalog | Руководство по REST Catalog |
| Lakekeeper | Руководство по Lakekeeper Catalog |
| Project Nessie | Руководство по Nessie Catalog |
| Microsoft OneLake | Руководство по OneLake Catalog |
Обратная запись в открытые табличные форматы
- Из real-time в долгосрочное хранилище — данные проходят через ClickHouse как слой Real-time аналитики, после чего пользователям требуется выгружать результаты в Iceberg или другие форматы для надежного и экономичного долгосрочного хранения.
- Reverse ETL — пользователи выполняют преобразования в ClickHouse с помощью materialized view или запросов по расписанию и хотят сохранять результаты в открытых табличных форматах, чтобы их могли использовать другие инструменты в экосистеме данных.