지원 포맷
기능
일회성 수집
지속적인 수집
사전식 순서
file1, file2, file3라는 이름의 파일은 순차적으로 수집되지만, 새 file 0이 버킷에 추가되면 파일 이름이 마지막으로 수집된 파일보다 사전식으로 뒤에 있지 않으므로 무시됩니다.
이 모드에서 GCS ClickPipe는 지정된 경로의 모든 파일을 초기 적재한 후, 구성 가능한 인터벌로 새 파일을 폴링합니다(기본값: 30초). 특정 파일이나 특정 시점부터 수집을 시작하는 것은 불가능합니다 — ClickPipes는 항상 지정된 경로의 모든 파일을 적재합니다.
임의의 순서
공개 버킷에서는 unordered mode가 지원되지 않습니다. 이 기능을 사용하려면 Service Account 인증과 버킷에 연결된 Google Cloud Pub/Sub subscription이 필요합니다.
OBJECT_FINALIZE 알림을 수신합니다. 이전에 확인한 파일에 대한 메시지, 지정된 경로와 일치하지 않는 파일, 또는 다른 유형의 이벤트는 모두 무시됩니다. 특정 파일이나 특정 시점부터 수집을 시작할 수는 없습니다. ClickPipes는 항상 선택한 경로의 모든 파일을 적재합니다.
파일 패턴 매칭
*.csv 대신 data-2024-*.csv).
지원되는 패턴
| 패턴 | 설명 | 예시 | 일치하는 항목 |
|---|---|---|---|
? | 정확히 1개의 문자(/ 제외)와 일치합니다 | data-?.csv | data-1.csv, data-a.csv, data-x.csv |
* | 0개 이상의 문자(/ 제외)와 일치합니다 | data-*.csv | data-1.csv, data-001.csv, data-report.csv, data-.csv |
** 재귀 | 0개 이상의 문자(/ 포함)와 일치합니다. 재귀적으로 디렉터리를 순회할 수 있습니다. | logs/**/error.log | logs/error.log, logs/2024/error.log, logs/2024/01/error.log |
https://bucket.s3.amazonaws.com/folder/*.csvhttps://bucket.s3.amazonaws.com/logs/**/data.jsonhttps://bucket.s3.amazonaws.com/file-?.parquethttps://bucket.s3.amazonaws.com/data-2024-*.csv.gz
지원되지 않는 패턴
| 패턴 | 설명 | 예시 | 대안 |
|---|---|---|---|
{abc,def} | 중괄호 확장 - 대체 항목 지정 | {logs,data}/file.csv | 각 경로에 대해 별도의 ClickPipes를 생성하십시오. |
{N..M} | 숫자 범위 확장 | file-{1..100}.csv | file-*.csv 또는 file-?.csv를 사용하십시오. |
https://bucket.s3.amazonaws.com/{documents-01,documents-02}.jsonhttps://bucket.s3.amazonaws.com/file-{1..100}.csvhttps://bucket.s3.amazonaws.com/{logs,metrics}/data.parquet
정확히 한 번 처리 의미 체계
가상 컬럼
_file 가상 컬럼을 포함하세요. _file 가상 컬럼에는 원본 객체의 파일명이 포함되어 있으며, 이를 사용해 어떤 파일이 처리되었는지 쿼리할 수 있습니다.
접근 제어
권한
GCS 버킷
storage.objects.list 및 `storage.objects.get IAM 권한이 포함됩니다.
Pub/Sub subscription
roles/pubsub.subscriber— 메시지를 수신하고 승인하기 위해 필요합니다.roles/pubsub.viewer— subscription 메타데이터를 조회하기 위해 필요합니다.
인증
서비스 계정
HMAC 자격 증명
Credentials를 선택하십시오. 그런 다음 Access key와 Secret key에 각각 액세스 키(예: GOOGTS7C7FUP3AIRVJTE2BCDKINBTES3HC2GY5CBFJDCQ2SYHV6A6XXVTJFSA)와 시크릿 키(예: bGoa+V7g/yqDXvKRqq+JTFn4uQZbPiQJo4pf9RzJ)를 입력하십시오.
HMAC 키가 포함된 서비스 계정을 생성하려면 이 가이드를 따르십시오.
네트워크 액세스
-
IP 기반 액세스 제어의 경우, GCS 버킷의 IP 필터링 규칙에서 여기에 나열된 ClickPipes 서비스 리전의 고정 IP와 ClickHouse Cloud 서비스의 고정 IP를 모두 허용해야 합니다. 사용 중인 ClickHouse Cloud 리전의 고정 IP를 확인하려면 터미널을 열고 다음 명령을 실행하십시오:
고급 설정
| 설정 | 기본값 | 설명 |
|---|---|---|
Max insert bytes | 10GB | 단일 삽입 배치에서 처리할 바이트 수입니다. |
Max file count | 100 | 단일 삽입 배치에서 처리할 최대 파일 수입니다. |
Max threads | auto(3) | 파일 처리를 위한 최대 동시 스레드 수입니다. |
Max insert threads | 1 | 파일 처리를 위한 최대 동시 삽입 스레드 수입니다. |
Min insert block size bytes | 1GB | 테이블에 삽입할 수 있는 블록의 최소 바이트 크기입니다. |
Max download threads | 4 | 최대 동시 다운로드 스레드 수입니다. |
Object storage polling interval | 30s | ClickHouse 클러스터에 데이터를 삽입하기 전까지의 최대 대기 시간을 설정합니다. |
Parallel distributed insert select | 2 | 병렬 분산 insert select 설정입니다. |
Parallel view processing | false | attached 상태인 뷰로의 푸시를 순차 처리 대신 동시에 수행할지 여부입니다. |
Use cluster function | true | 여러 노드에서 파일을 병렬로 처리할지 여부입니다. |
스케일링
알려진 제한 사항
파일 크기
호환성
gs:// 대신 https://storage.googleapis.com/ 버킷 접두사를 사용해야 하며 인증에는 HMAC keys를 사용해야 합니다.