데이터 레이크 - ClickHouse Documentation

ClickHouse는 Apache Iceberg, Delta Lake, Apache Hudi, Apache Paimon을 포함한 오픈 테이블 포맷과 통합됩니다. 이를 통해 객체 스토리지에 이러한 포맷으로 이미 저장된 데이터를 ClickHouse에 연결하고, ClickHouse의 분석 성능을 기존 데이터 레이크 인프라와 결합할 수 있습니다.

오픈 테이블 포맷과 함께 ClickHouse를 사용하는 이유

기존 데이터를 원본 위치에서 쿼리하기

ClickHouse는 데이터를 복제하지 않고도 객체 스토리지에 있는 오픈 테이블 포맷을 직접 쿼리할 수 있습니다. Iceberg, Delta Lake, Hudi 또는 Paimon을 표준으로 사용하는 조직은 ClickHouse가 기존 테이블을 가리키도록 설정한 뒤 즉시 SQL 방언, 분석 함수, 효율적인 네이티브 Parquet 리더를 활용할 수 있습니다. 동시에 clickhouse-local 및 chDB와 같은 도구를 사용하면 원격 스토리지의 70개 이상의 파일 포맷에 걸쳐 탐색적이고 애드혹 분석을 수행할 수 있으므로, 별도의 인프라 설정 없이 데이터 레이크 데이터셋을 대화형으로 탐색할 수 있습니다. 이 작업은 테이블 함수와 테이블 엔진을 사용하는 직접 읽기 방식이나 데이터 카탈로그에 연결하는 방식으로 수행할 수 있습니다.

ClickHouse를 사용한 실시간 분석 워크로드

높은 동시성(Concurrency)과 짧은 지연 시간의 응답이 필요한 워크로드에서는 오픈 테이블 포맷의 데이터를 ClickHouse의 MergeTree 엔진으로 로드할 수 있습니다. 이를 통해 데이터 레이크에서 비롯된 데이터 위에 실시간 분석 계층을 구축할 수 있으며, 대시보드, 운영 보고, 그리고 MergeTree의 열 지향 저장 방식과 인덱싱 기능의 이점을 활용하는 기타 지연 시간 민감형 워크로드를 지원합니다. 자세한 내용은 MergeTree로 분석 가속화하기 시작하기 가이드를 참조하십시오.

capability

데이터 직접 읽기

ClickHouse는 객체 스토리지에 있는 오픈 테이블 포맷을 직접 읽을 수 있는 테이블 함수와 엔진을 제공합니다. iceberg(), deltaLake(), hudi(), paimon()과 같은 함수는 별도의 사전 구성 없이 SQL 문 내에서 오픈 테이블 포맷 테이블을 쿼리할 수 있게 합니다. 이러한 함수는 S3, Azure Blob Storage, GCS와 같은 널리 사용되는 대부분의 객체 스토리지용 버전도 제공합니다. 또한 이 함수들에 대응하는 테이블 엔진도 있으므로, 기반이 되는 오픈 테이블 포맷 객체 스토리지를 참조하는 테이블을 ClickHouse 내에 생성하여 더 편리하게 쿼리할 수 있습니다. 직접 쿼리하기 또는 데이터 카탈로그에 연결하기에 대한 시작하기 가이드를 참조하십시오.

카탈로그를 데이터베이스로 노출하기

DataLakeCatalog 데이터베이스 엔진을 사용하면 ClickHouse를 외부 카탈로그에 연결해 데이터베이스로 노출할 수 있습니다. 카탈로그에 등록된 테이블은 ClickHouse 내부의 테이블로 표시되므로 ClickHouse SQL 구문과 분석 함수를 모두 별도 변경 없이 사용할 수 있습니다. 즉, 카탈로그가 관리하는 테이블에서도 네이티브 ClickHouse 테이블과 마찬가지로 쿼리, 조인, 집계를 수행할 수 있으며, ClickHouse의 쿼리 최적화, 병렬 실행, 읽기 기능의 이점을 활용할 수 있습니다. 지원되는 카탈로그는 다음과 같습니다:

카탈로그	Guide
AWS Glue	Glue 카탈로그 가이드
BigLake Metastore	BigLake 메타스토어 가이드
Databricks Unity Catalog	Unity 카탈로그 가이드
Iceberg REST Catalog	REST 카탈로그 가이드
Lakekeeper	Lakekeeper 카탈로그 가이드
Project Nessie	Nessie 카탈로그 가이드
Microsoft OneLake	OneLake 카탈로그 가이드

카탈로그 연결 방법은 카탈로그 연결하기 시작하기 가이드를 참조하십시오.

오픈 테이블 포맷에 다시 쓰기

ClickHouse는 데이터를 오픈 테이블 포맷에 다시 쓰는 기능을 지원하며, 이는 다음과 같은 시나리오와 관련이 있습니다.

실시간 분석에서 장기 스토리지로 - 데이터가 실시간 분석 계층으로서 ClickHouse를 거치며, 결과를 Iceberg 또는 다른 포맷으로 오프로드해 내구성이 높고 비용 효율적인 장기 스토리지에 저장해야 하는 경우입니다.
역방향 ETL - ClickHouse 내에서 materialized view 또는 예약 쿼리를 사용해 변환을 수행한 뒤, 그 결과를 데이터 생태계의 다른 도구에서 활용할 수 있도록 오픈 테이블 포맷에 저장하려는 경우입니다.

자세한 내용은 데이터 레이크에 쓰기 시작하기 가이드를 참조하세요.

다음 단계

직접 사용해 볼 준비가 되셨습니까? 시작하기 가이드에서는 오픈 테이블 포맷을 직접 쿼리하고, 카탈로그(catalog)에 연결하며, 빠른 분석을 위해 MergeTree에 데이터를 로드하고, 결과를 다시 기록하는 전 과정을 하나의 엔드 투 엔드 워크플로로 안내합니다.

​오픈 테이블 포맷과 함께 ClickHouse를 사용하는 이유

​기존 데이터를 원본 위치에서 쿼리하기

​ClickHouse를 사용한 실시간 분석 워크로드

​capability

​데이터 직접 읽기

​카탈로그를 데이터베이스로 노출하기

​오픈 테이블 포맷에 다시 쓰기

​다음 단계