ClickHouse로 데이터를 내보내는 데 얼마나 걸리나요?
| 테이블 | 행 수 | 내보낸 파일 수 | 데이터 크기 | BigQuery 내보내기 | 슬롯 시간 | ClickHouse 가져오기 |
|---|---|---|---|---|---|---|
| blocks | 16,569,489 | 73 | 14.53GB | 23초 | 37분 | 15.4초 |
| transactions | 1,864,514,414 | 5169 | 957GB | 1분 38초 | 1일 8시간 | 18분 5초 |
| traces | 6,325,819,306 | 17,985 | 2.896TB | 5분 46초 | 5일 19시간 | 34분 55초 |
| contracts | 57,225,837 | 350 | 45.35GB | 16초 | 1시간 51분 | 39.4초 |
| 합계 | 82.6억 | 23,577 | 3.982TB | 8분 3초 | > 6일 5시간 | 53분 45초 |
테이블 데이터를 GCS로 내보내기
이 단계에서는 BigQuery SQL 워크스페이스를 사용해 SQL 명령을 실행합니다. 아래에서는EXPORT DATA SQL 문을 사용하여 mytable이라는 BigQuery 테이블의 데이터를 GCS 버킷으로 내보냅니다.uri 매개변수에 * 문자가 포함되어 있습니다. 이렇게 하면 내보낸 데이터가 1GB를 초과할 경우 출력이 여러 파일로 분할되고, 각 파일 이름에는 숫자가 증가하는 접미사가 붙습니다.이 접근 방식에는 여러 가지 장점이 있습니다.- Google은 하루 최대 50TB까지 GCS로 무료로 내보내기를 허용합니다. 사용자는 GCS 스토리지 비용만 지불하면 됩니다.
- 내보내기를 수행하면 여러 파일이 자동으로 생성되며, 각 파일은 최대 1GB의 테이블 데이터로 제한됩니다. 따라서 가져오기를 병렬화할 수 있어 ClickHouse에 유리합니다.
- Parquet는 컬럼 지향 포맷이므로 더 적합한 데이터 교환 포맷입니다. 기본적으로 압축되어 있어 BigQuery에서 더 빠르게 내보낼 수 있고 ClickHouse에서도 더 빠르게 쿼리할 수 있습니다.
GCS에서 ClickHouse로 데이터 가져오기
내보내기가 완료되면 이 데이터를 ClickHouse 테이블로 가져올 수 있습니다. 아래 명령은 ClickHouse SQL 콘솔 또는clickhouse-client를 사용해 실행할 수 있습니다.먼저 ClickHouse에서 테이블을 생성해야 합니다:parallel_distributed_insert_select 설정을 활성화하십시오. ClickHouse 노드가 1개뿐이라면 이 단계는 건너뛰어도 됩니다:INSERT INTO SELECT 명령을 사용해 GCS의 데이터를 ClickHouse 테이블에 삽입할 수 있습니다. 이 명령은 SELECT 쿼리 결과를 기반으로 테이블에 데이터를 삽입합니다.INSERT할 데이터를 가져오려면, GCS가 Amazon S3와 상호 운용되므로 s3Cluster function을 사용해 GCS 버킷에서 데이터를 가져올 수 있습니다. ClickHouse 노드가 하나뿐이면 s3Cluster 함수 대신 s3 table function를 사용할 수 있습니다.ACCESS_ID 및 SECRET은 GCS 버킷에 연결된 HMAC key입니다.널 허용 컬럼을 내보낼 때
ifNull을 사용하세요위 쿼리에서는 some_text 컬럼에 ifNull 함수를 사용하여 기본값으로 ClickHouse 테이블에 데이터를 삽입합니다. ClickHouse에서 컬럼을 널 허용(Nullable)으로 만들 수도 있지만, 성능에 부정적인 영향을 줄 수 있으므로 권장되지 않습니다.또는 SET input_format_null_as_default=1을 설정하면, 기본값이 지정된 경우 누락되었거나 NULL인 값은 각 컬럼의 기본값으로 대체됩니다.데이터 내보내기 성공 여부 확인
데이터가 올바르게 삽입되었는지 확인하려면 새 테이블에서SELECT 쿼리를 실행하세요: