在本教程中,你将把 CSV 和 Parquet 格式的 2800 万行 Hacker News 数据插入 ClickHouse 表中,并运行一些简单查询来探索这些数据。
CSV
对数据进行采样
clickhouse-local 可让你快速处理本地文件,而无需
部署和配置 ClickHouse 服务器。在将任何数据存储到 ClickHouse 之前,先使用 clickhouse-local 对文件进行采样。
在终端中运行:Query
Response
file 操作符允许你从本地磁盘读取文件,只需指定 CSVWithNames 格式。
最重要的是,系统会根据文件内容自动为你推断 schema。
还要注意,clickhouse-local 能够读取压缩文件,并根据扩展名推断出 gzip 格式。
这里使用 Vertical 格式,以便更直观地查看每一列的数据。通过 schema inference 加载数据
用于加载数据的最简单且最强大的工具是clickhouse-client:一款功能丰富的原生命令行客户端。
要加载数据,你也可以再次利用 schema inference,由 ClickHouse 自动确定各列的类型。运行以下命令来创建表,并通过 url 函数直接从远程 CSV 文件插入数据。
schema 会自动推断:DESCRIBE TABLE 命令可帮助我们了解这些已分配的类型。Query
Response
INSERT INTO ... SELECT 命令。
结合 url 函数,数据将直接从该 URL 导入:查看数据
运行以下查询,对 Hacker News 的新闻条目和特定列进行采样:Query
Response
定义 schema
一个显而易见的优化方式,就是为每个字段定义类型。 除了将时间字段声明为DateTime 类型之外,在删除现有数据集后,我们还将为下列每个字段定义合适的类型。
在 ClickHouse 中,数据的主键 id 是通过 ORDER BY 子句定义的。选择合适的类型,并确定在 ORDER BY
子句中包含哪些列,有助于提升查询速度和压缩效果。运行以下查询以删除旧 schema 并创建优化后的 schema:Query
clickhouse-client,通过带有 INFILE 子句的显式 INSERT INTO 语句插入该文件。Query
运行示例查询
以下提供了一些示例查询,希望能为您编写自己的查询提供参考。“ClickHouse” 在 Hacker News 上是一个多热门的话题?
score 字段提供了衡量故事热度的指标,而id 字段与 || 拼接运算符可用于生成原始帖子的链接。Query
Response
time 字段定义为 DateTime 的价值所在——使用合适的数据类型,即可调用 toYYYYMM() 函数:Query
Response
谁是 ClickHouse 相关文章中评论最多的用户?
Query
Response
哪些评论最能引发关注?
Query
Response
Parquet
插入数据
运行以下查询,以 Parquet 格式读取相同的数据,并再次使用 url 函数读取远程数据:Parquet 中的
NULL 键受 Parquet 格式特性的影响,我们必须接受键可能为 NULL,
即使数据中并不存在这些键。Response
添加数据跳过索引以加快查询速度
要查看有多少条评论提到了 “ClickHouse”,请运行以下查询:Query
Response
system.data_skipping_indices) 。索引创建完成后,再次运行该查询:Query
Response
EXPLAIN 子句来了解,为什么添加该索引后
查询性能提升了约 3.4 倍。Response
Query
Response
Query
Response