Apache ORC は、Hadoop エコシステムで広く利用されている列指向ストレージフォーマットです。
以下の表は、サポートされている ORC のデータ型と、INSERT および SELECT クエリでそれぞれ対応する ClickHouse の データ型 を比較したものです。
ORC data type (INSERT) | ClickHouse data type | ORC data type (SELECT) |
|---|
Boolean | UInt8 | Boolean |
Tinyint | Int8/UInt8/Enum8 | Tinyint |
Smallint | Int16/UInt16/Enum16 | Smallint |
Int | Int32/UInt32 | Int |
Bigint | Int64/UInt32 | Bigint |
Float | Float32 | Float |
Double | Float64 | Double |
Decimal | Decimal | Decimal |
Date | Date32 | Date |
Timestamp | DateTime64 | Timestamp |
String, Char, Varchar, Binary | String | Binary |
List | Array | List |
Struct | Tuple | Struct |
Map | Map | Map |
Int | IPv4 | Int |
Binary | IPv6 | Binary |
Binary | Int128/UInt128/Int256/UInt256 | Binary |
Binary | Decimal256 | Binary |
- その他の型はサポートされていません。
- Array はネスト可能で、引数として
Nullable 型の値を取ることもできます。Tuple 型と Map 型もネストできます。
- ClickHouse テーブルのカラムのデータ型は、対応する ORC のデータフィールドと一致している必要はありません。データを挿入する際、ClickHouse はまず上記の表に従ってデータ型を解釈し、その後、ClickHouse テーブルのカラムに設定されたデータ型へデータを CAST します。
次のデータを含む、football.orc という名前の ORC ファイルを使用します。
┌───────date─┬─season─┬─home_team─────────────┬─away_team───────────┬─home_team_goals─┬─away_team_goals─┐
1. │ 2022-04-30 │ 2021 │ Sutton United │ Bradford City │ 1 │ 4 │
2. │ 2022-04-30 │ 2021 │ Swindon Town │ Barrow │ 2 │ 1 │
3. │ 2022-04-30 │ 2021 │ Tranmere Rovers │ Oldham Athletic │ 2 │ 0 │
4. │ 2022-05-02 │ 2021 │ Port Vale │ Newport County │ 1 │ 2 │
5. │ 2022-05-02 │ 2021 │ Salford City │ Mansfield Town │ 2 │ 2 │
6. │ 2022-05-07 │ 2021 │ Barrow │ Northampton Town │ 1 │ 3 │
7. │ 2022-05-07 │ 2021 │ Bradford City │ Carlisle United │ 2 │ 0 │
8. │ 2022-05-07 │ 2021 │ Bristol Rovers │ Scunthorpe United │ 7 │ 0 │
9. │ 2022-05-07 │ 2021 │ Exeter City │ Port Vale │ 0 │ 1 │
10. │ 2022-05-07 │ 2021 │ Harrogate Town A.F.C. │ Sutton United │ 0 │ 2 │
11. │ 2022-05-07 │ 2021 │ Hartlepool United │ Colchester United │ 0 │ 2 │
12. │ 2022-05-07 │ 2021 │ Leyton Orient │ Tranmere Rovers │ 0 │ 1 │
13. │ 2022-05-07 │ 2021 │ Mansfield Town │ Forest Green Rovers │ 2 │ 2 │
14. │ 2022-05-07 │ 2021 │ Newport County │ Rochdale │ 0 │ 2 │
15. │ 2022-05-07 │ 2021 │ Oldham Athletic │ Crawley Town │ 3 │ 3 │
16. │ 2022-05-07 │ 2021 │ Stevenage Borough │ Salford City │ 4 │ 2 │
17. │ 2022-05-07 │ 2021 │ Walsall │ Swindon Town │ 0 │ 3 │
└────────────┴────────┴───────────────────────┴─────────────────────┴─────────────────┴─────────────────┘
データを挿入します:
INSERT INTO football FROM INFILE 'football.orc' FORMAT ORC;
ORCフォーマットを使用してデータを読み込みます。
SELECT *
FROM football
INTO OUTFILE 'football.orc'
FORMAT ORC
ORC はバイナリ形式のため、ターミナル上では人間が読める形では表示されません。ORC ファイルを出力するには、INTO OUTFILE を使用してください。
| 設定 | 説明 | デフォルト |
|---|
output_format_arrow_string_as_string | String カラムには、Binary ではなく Arrow の String 型を使用します。 | false |
output_format_orc_compression_method | 出力 ORC フォーマットで使用する圧縮方式。デフォルト値 | none |
input_format_arrow_case_insensitive_column_matching | Arrow のカラムと ClickHouse のカラムを照合する際に、大文字・小文字を区別しません。 | false |
input_format_arrow_allow_missing_columns | Arrow データの読み取り時に、欠落しているカラムを許可します。 | false |
input_format_arrow_skip_columns_with_unsupported_types_in_schema_inference | Arrow フォーマットのスキーマ推論時に、未対応の型を持つカラムをスキップできるようにします。 | false |
Hadoop とデータをやり取りするには、HDFS テーブルエンジン を使用できます。