在这种格式中,所有数据都表示为一个 JSON 对象,其中每一行都对应该对象中的一个独立字段,类似于 JSONEachRow 格式。
给定如下 JSON:
{
"row_1": {"num": 42, "str": "hello", "arr": [0,1]},
"row_2": {"num": 43, "str": "hello", "arr": [0,1,2]},
"row_3": {"num": 44, "str": "hello", "arr": [0,1,2,3]}
}
如果要将对象名称用作列值,可以使用特殊设置 format_json_object_each_row_column_for_object_name。
该设置的值应设为某个列名,该列名会在结果对象中用作某一行的 JSON 键。
假设我们有一个名为 test 的表,包含两列:
┌─object_name─┬─number─┐
│ first_obj │ 1 │
│ second_obj │ 2 │
│ third_obj │ 3 │
└─────────────┴────────┘
下面以 JSONObjectEachRow 格式输出,并使用 format_json_object_each_row_column_for_object_name 设置:
SELECT * FROM test SETTINGS format_json_object_each_row_column_for_object_name='object_name'
{
"first_obj": {"number": 1},
"second_obj": {"number": 2},
"third_obj": {"number": 3}
}
假设我们将上一个示例的输出保存到了名为 data.json 的文件中:
SELECT * FROM file('data.json', JSONObjectEachRow, 'object_name String, number UInt64') SETTINGS format_json_object_each_row_column_for_object_name='object_name'
┌─object_name─┬─number─┐
│ first_obj │ 1 │
│ second_obj │ 2 │
│ third_obj │ 3 │
└─────────────┴────────┘
这也适用于 schema inference:
DESCRIBE file('data.json', JSONObjectEachRow) SETTING format_json_object_each_row_column_for_object_name='object_name'
┌─name────────┬─type────────────┐
│ object_name │ String │
│ number │ Nullable(Int64) │
└─────────────┴─────────────────┘
INSERT INTO UserActivity FORMAT JSONEachRow {"PageViews":5, "UserID":"4324182021466249494", "Duration":146,"Sign":-1} {"UserID":"4324182021466249494","PageViews":6,"Duration":185,"Sign":1}
ClickHouse 允许:
ClickHouse 会忽略元素之间的空格以及对象后面的逗号。你可以将所有对象写在同一行中传入,无需用换行符将它们分隔开。
ClickHouse 会用相应数据类型的默认值来填补被省略的值。
如果指定了 DEFAULT expr,ClickHouse 会根据 input_format_defaults_for_omitted_fields 设置采用不同的填补规则。
请看下表:
CREATE TABLE IF NOT EXISTS example_table
(
x UInt32,
a DEFAULT x * 2
) ENGINE = Memory;
- 如果
input_format_defaults_for_omitted_fields = 0,则 x 和 a 的默认值均为 0 (即 UInt32 数据类型的默认值) 。
- 如果
input_format_defaults_for_omitted_fields = 1,则 x 的默认值为 0,但 a 的默认值为 x * 2。
当以 input_format_defaults_for_omitted_fields = 1 插入数据时,相比 input_format_defaults_for_omitted_fields = 0,ClickHouse 会消耗更多计算资源。
以 UserActivity 表为例:
┌──────────────UserID─┬─PageViews─┬─Duration─┬─Sign─┐
│ 4324182021466249494 │ 5 │ 146 │ -1 │
│ 4324182021466249494 │ 6 │ 185 │ 1 │
└─────────────────────┴───────────┴──────────┴──────┘
查询 SELECT * FROM UserActivity FORMAT JSONEachRow 的返回结果为:
{"UserID":"4324182021466249494","PageViews":5,"Duration":146,"Sign":-1}
{"UserID":"4324182021466249494","PageViews":6,"Duration":185,"Sign":1}
与 JSON 格式不同,这里不会替换无效的 UTF-8 序列。值的转义方式与 JSON 相同。
字符串中可以输出任意字节序列。如果你确定表中的数据可以在不丢失任何信息的情况下格式化为 JSON,请使用 JSONEachRow 格式。
如果你的表中包含 Nested 数据类型的列,则可以插入具有相同结构的 JSON 数据。可通过 input_format_import_nested_json 设置启用此功能。
例如,考虑如下表:
CREATE TABLE json_each_row_nested (n Nested (s String, i Int32) ) ENGINE = Memory
正如 Nested 数据类型说明中所示,ClickHouse 会将嵌套结构的每个组成部分视为单独的列 (在我们的表中即 n.s 和 n.i) 。你可以按如下方式插入数据:
INSERT INTO json_each_row_nested FORMAT JSONEachRow {"n.s": ["abc", "def"], "n.i": [1, 23]}
要将数据作为层级化 JSON 对象插入,请设置 input_format_import_nested_json=1。
{
"n": {
"s": ["abc", "def"],
"i": [1, 23]
}
}
如果未启用此设置,ClickHouse 会抛出异常。
SELECT name, value FROM system.settings WHERE name = 'input_format_import_nested_json'
┌─name────────────────────────────┬─value─┐
│ input_format_import_nested_json │ 0 │
└─────────────────────────────────┴───────┘
INSERT INTO json_each_row_nested FORMAT JSONEachRow {"n": {"s": ["abc", "def"], "i": [1, 23]}}
Code: 117. DB::Exception: Unknown field found while parsing JSONEachRow format: n: (at row 1)
SET input_format_import_nested_json=1
INSERT INTO json_each_row_nested FORMAT JSONEachRow {"n": {"s": ["abc", "def"], "i": [1, 23]}}
SELECT * FROM json_each_row_nested
┌─n.s───────────┬─n.i────┐
│ ['abc','def'] │ [1,23] │
└───────────────┴────────┘