오픈 테이블 포맷과 함께 ClickHouse를 사용하는 이유
기존 데이터를 원본 위치에서 쿼리하기
ClickHouse를 사용한 실시간 분석 워크로드
capability
데이터 직접 읽기
iceberg(), deltaLake(), hudi(), paimon()과 같은 함수는 별도의 사전 구성 없이 SQL 문 내에서 오픈 테이블 포맷 테이블을 쿼리할 수 있게 합니다. 이러한 함수는 S3, Azure Blob Storage, GCS와 같은 널리 사용되는 대부분의 객체 스토리지용 버전도 제공합니다. 또한 이 함수들에 대응하는 테이블 엔진도 있으므로, 기반이 되는 오픈 테이블 포맷 객체 스토리지를 참조하는 테이블을 ClickHouse 내에 생성하여 더 편리하게 쿼리할 수 있습니다.
직접 쿼리하기 또는 데이터 카탈로그에 연결하기에 대한 시작하기 가이드를 참조하십시오.
카탈로그를 데이터베이스로 노출하기
DataLakeCatalog 데이터베이스 엔진을 사용하면 ClickHouse를 외부 카탈로그에 연결해 데이터베이스로 노출할 수 있습니다. 카탈로그에 등록된 테이블은 ClickHouse 내부의 테이블로 표시되므로 ClickHouse SQL 구문과 분석 함수를 모두 별도 변경 없이 사용할 수 있습니다. 즉, 카탈로그가 관리하는 테이블에서도 네이티브 ClickHouse 테이블과 마찬가지로 쿼리, 조인, 집계를 수행할 수 있으며, ClickHouse의 쿼리 최적화, 병렬 실행, 읽기 기능의 이점을 활용할 수 있습니다.
지원되는 카탈로그는 다음과 같습니다:
| 카탈로그 | Guide |
|---|---|
| AWS Glue | Glue 카탈로그 가이드 |
| BigLake Metastore | BigLake 메타스토어 가이드 |
| Databricks Unity Catalog | Unity 카탈로그 가이드 |
| Iceberg REST Catalog | REST 카탈로그 가이드 |
| Lakekeeper | Lakekeeper 카탈로그 가이드 |
| Project Nessie | Nessie 카탈로그 가이드 |
| Microsoft OneLake | OneLake 카탈로그 가이드 |
오픈 테이블 포맷에 다시 쓰기
- 실시간 분석에서 장기 스토리지로 - 데이터가 실시간 분석 계층으로서 ClickHouse를 거치며, 결과를 Iceberg 또는 다른 포맷으로 오프로드해 내구성이 높고 비용 효율적인 장기 스토리지에 저장해야 하는 경우입니다.
- 역방향 ETL - ClickHouse 내에서 materialized view 또는 예약 쿼리를 사용해 변환을 수행한 뒤, 그 결과를 데이터 생태계의 다른 도구에서 활용할 수 있도록 오픈 테이블 포맷에 저장하려는 경우입니다.