구문
인수
| 인수 | 설명 |
|---|---|
URI | HDFS에 있는 파일의 상대 URI입니다. 파일 경로에서는 읽기 전용 모드에서 다음 글롭 패턴을 지원합니다: *, ?, {abc,def} 및 {N..M}. 여기서 N, M은 숫자이고 'abc', 'def'는 문자열입니다. |
format | 파일의 포맷입니다. |
structure | 테이블 구조입니다. 포맷은 'column1_name column1_type, column2_name column2_type, ...'입니다. |
반환 값
hdfs://hdfs1:9000/test의 테이블과 여기서 처음 두 행을 선택하는 예시입니다:
경로의 글롭 패턴
*— 빈 문자열을 포함하되/를 제외한 임의 개수의 문자를 나타냅니다.**— 폴더 내부의 모든 파일을 하위 디렉터리까지 포함해 재귀적으로 나타냅니다.?— 임의의 단일 문자를 나타냅니다.{some_string,another_string,yet_another_one}— 문자열'some_string','another_string','yet_another_one'중 하나로 치환합니다. 문자열에는/기호가 포함될 수 있습니다.{N..M}—>= N이고<= M인 임의의 숫자를 나타냅니다.
{}를 사용하는 구문은 remote 및 file 테이블 함수와 비슷합니다.
예시
- HDFS에 다음 URI를 가진 여러 파일이 있다고 가정합니다.
- ‘hdfs://hdfs1:9000/some_dir/some_file_1’
- ‘hdfs://hdfs1:9000/some_dir/some_file_2’
- ‘hdfs://hdfs1:9000/some_dir/some_file_3’
- ‘hdfs://hdfs1:9000/another_dir/some_file_1’
- ‘hdfs://hdfs1:9000/another_dir/some_file_2’
- ‘hdfs://hdfs1:9000/another_dir/some_file_3’
- 이 파일들의 행 수를 조회합니다.
- 이 두 디렉터리 내 모든 파일의 행 수를 쿼리합니다:
파일 목록에 앞자리가 0인 숫자 범위가 포함되어 있으면 각 자릿수별로 중괄호를 사용하는 구문을 사용하거나
?를 사용하십시오.file000, file001, … , file999와 같은 이름의 파일에서 데이터를 쿼리합니다:
가상 컬럼
_path— 파일의 경로입니다. 유형:LowCardinality(String)._file— 파일 이름입니다. 유형:LowCardinality(String)._size— 파일 크기(바이트)입니다. 유형:Nullable(UInt64). 크기를 알 수 없으면 값은NULL입니다._time— 파일의 마지막 수정 시각입니다. 유형:Nullable(DateTime). 시간을 알 수 없으면 값은NULL입니다.
use_hive_partitioning 설정
use_hive_partitioning 설정을 1로 지정하면 ClickHouse가 경로(/name=value/)에서 Hive 스타일 파티셔닝을 감지하고, 쿼리에서 파티션 컬럼을 가상 컬럼으로 사용할 수 있습니다. 이러한 가상 컬럼은 파티셔닝된 경로의 이름과 동일한 이름을 가집니다.
예시
Hive 스타일 파티셔닝으로 생성된 가상 컬럼 사용
스토리지 설정
- hdfs_truncate_on_insert - 파일에 데이터를 삽입하기 전에 해당 파일을 비울 수 있도록 합니다. 기본적으로 비활성화되어 있습니다.
- hdfs_create_new_file_on_insert - 포맷에 접미사가 있는 경우, 삽입할 때마다 새 파일을 생성할 수 있도록 합니다. 기본적으로 비활성화되어 있습니다.
- hdfs_skip_empty_files - 읽는 중에 빈 파일을 건너뛸 수 있도록 합니다. 기본적으로 비활성화되어 있습니다.