这种架构提供了什么
| Benefit | Description |
|---|---|
| 一致的表更新 | 对表状态进行原子提交,这意味着并发写入不会产生损坏或不完整的数据。这解决了原始数据湖中最棘手的问题之一。 |
| schema 管理 | 强制验证和对 schema 演进的跟踪,可防止出现“数据沼泽”问题,即数据因 schema 不一致而变得无法使用。 |
| 查询性能 | 索引、统计信息,以及数据跳过、聚簇等数据布局优化,让 SQL 查询能够达到与专用数据仓库相当的速度。再结合 ClickHouse 的列式引擎,即使数据存储在对象存储中,也同样如此。 |
| 治理 | 目录和表格式可在行级和列级提供细粒度的访问控制和审计能力,从而弥补基础数据湖在安全控制方面的不足。 |
| 存储与计算分离 | 存储和计算可在通用对象存储上独立扩展,而其成本显著低于专有仓库存储。虽然这种分离在现代云仓库中已是标准做法,但开放格式让你可以选择由 哪种 计算引擎随数据一起扩展。 |