跳转到主要内容
DataLakeCatalog 数据库引擎使您能够将 ClickHouse 连接到外部 数据目录,并查询开放表格式中的数据,而无需复制数据。 这使 ClickHouse 成为一个强大的查询引擎,可与您现有的 数据湖基础设施无缝集成。

支持的目录

DataLakeCatalog 引擎 支持以下数据目录:
  • AWS Glue Catalog - 适用于 AWS 环境中的 Iceberg 表
  • Databricks Unity Catalog - 适用于 Delta Lake 和 Iceberg 表
  • Hive Metastore - 传统 Hadoop 生态系统中的目录
  • REST Catalogs - 任何支持 Iceberg REST 规范的目录

创建数据库

要使用 DataLakeCatalog 引擎,你需要启用下面的相关设置:
SET allow_experimental_database_iceberg = 1;
SET allow_experimental_database_unity_catalog = 1;
SET allow_experimental_database_glue_catalog = 1;
SET allow_experimental_database_hms_catalog = 1;
SET allow_experimental_database_paimon_rest_catalog = 1;
可使用以下语法创建带有 DataLakeCatalog 引擎的数据库:
CREATE DATABASE database_name
ENGINE = DataLakeCatalog(catalog_endpoint[, user, password])
SETTINGS
catalog_type,
[...]
支持以下设置:
设置说明
catalog_type目录 类型:glueunity (Delta) 、rest (Iceberg) 、hiveonelake (Iceberg)
warehouse在目录中使用的仓库/数据库名称。
catalog_credential目录的身份验证凭据 (例如 API key 或令牌)
auth_header用于与目录服务进行身份验证的自定义 HTTP 请求头
auth_scope用于身份验证的 OAuth2 作用域 (如果使用 OAuth)
storage_endpoint底层存储的端点 URL
oauth_server_uri用于身份验证的 OAuth2 授权服务器 URI
vended_credentials布尔值,表示是否使用目录提供的凭据 (支持 AWS S3 和 Azure ADLS Gen2)
aws_access_key_id用于访问 S3/Glue 的 AWS access key ID (如果不使用目录提供的凭据)
aws_secret_access_key用于访问 S3/Glue 的 AWS secret access key (如果不使用目录提供的凭据)
region服务所在的 AWS 区域 (例如 us-east-1)
dlf_access_key_id用于访问 DLF 的 access key ID
dlf_access_key_secret用于访问 DLF 的 access key Secret

示例

有关使用 DataLakeCatalog 引擎 的示例,请参见以下章节:
  • Unity Catalog
  • Glue Catalog
  • OneLake Catalog 可通过启用 allow_experimental_database_icebergallow_database_iceberg 使用。
CREATE DATABASE database_name
ENGINE = DataLakeCatalog(catalog_endpoint)
SETTINGS
   catalog_type = 'onelake',
   warehouse = warehouse,
   onelake_tenant_id = tenant_id,
   oauth_server_uri = server_uri,
   auth_scope = auth_scope, 
   onelake_client_id = client_id, 
   onelake_client_secret = client_secret;
SHOW TABLES IN database_name;
SELECT count() from database_name.table_name;
最后修改于 2026年6月10日