跳转到主要内容
ClickHouse Cloud 中的服务开箱即用,内置监控组件,可为用户提供仪表板和通知。默认情况下,Cloud 控制台中的所有用户都可以访问这些仪表板。

仪表盘

服务健康

“服务健康”仪表板可用于监控服务的整体健康状态。ClickHouse Cloud 会从系统表中抓取并存储该仪表板显示的指标,以便在服务进入休眠状态时仍可查看。

资源利用率

Infrastructure 仪表板可详细查看 ClickHouse 进程使用的资源。ClickHouse Cloud 会从系统表中抓取并存储此仪表板显示的指标,因此即使服务处于休眠状态,也可以查看这些指标。

内存和 CPU

Allocated CPUAllocated Memory 图表显示了服务中每个副本可用的总计算资源。这些资源配额可通过 ClickHouse Cloud 的扩缩容功能进行调整。 Memory UsageCPU Usage 图表会估算每个副本中 ClickHouse 进程实际占用的 CPU 和内存,包括查询以及合并等后台进程。
性能下降如果内存或 CPU 使用率接近已分配的内存或 CPU,可能就会开始出现性能下降。为解决此问题,我们建议:
  • 优化查询
  • 调整表引擎的分区方式
  • 使用扩缩容为服务添加更多计算资源
以下是这些图表中显示的系统表对应指标:
图表对应的指标名称聚合说明
已分配内存CGroupMemoryTotal最大值
已分配 CPUCGroupMaxCPU最大值
已使用内存MemoryResident最大值
已使用 CPU系统 CPU 指标最大值通过 Prometheus 端点获取的 ClickHouseServer_UsageCores

数据传输

图表显示与 ClickHouse Cloud 之间的数据传入和传出情况。有关更多信息,请参阅网络数据传输

高级仪表板

此仪表板基于内置高级可观测性仪表板修改而来,其中每个序列表示各个副本的指标。它可用于监控和排查 ClickHouse 特有的问题。
ClickHouse Cloud 会从系统表中抓取并存储此仪表板显示的指标,因此即使服务处于休眠状态,也仍然可以查看这些指标。访问这些指标不会向底层服务发起查询,也不会唤醒休眠中的服务。
下表列出了高级仪表板中各个图表对应的 ClickHouse 指标、系统表来源和聚合类型:
图表对应的 ClickHouse 指标名称系统表聚合类型
查询数/秒ProfileEvent_Querymetric_logSum / bucketSizeSeconds
运行中的查询CurrentMetric_Querymetric_logAvg
运行中的合并CurrentMetric_Mergemetric_logAvg
已选取字节数/秒ProfileEvent_SelectedBytesmetric_logSum / bucketSizeSeconds
IO 等待ProfileEvent_OSIOWaitMicrosecondsmetric_logSum / bucketSizeSeconds
S3 读取等待ProfileEvent_ReadBufferFromS3Microsecondsmetric_logSum / bucketSizeSeconds
S3 读取错误数/秒ProfileEvent_ReadBufferFromS3RequestsErrorsmetric_logSum / bucketSizeSeconds
CPU 等待ProfileEvent_OSCPUWaitMicrosecondsmetric_logSum / bucketSizeSeconds
OS CPU 使用率 (userspace,归一化)OSUserTimeNormalizedasynchronous_metric_log
OS CPU 使用率 (kernel,归一化)OSSystemTimeNormalizedasynchronous_metric_log
从磁盘读取ProfileEvent_OSReadBytesmetric_logSum / bucketSizeSeconds
从文件系统读取ProfileEvent_OSReadCharsmetric_logSum / bucketSizeSeconds
内存 (已跟踪,字节)CurrentMetric_MemoryTrackingmetric_log
MergeTree parts 总数TotalPartsOfMergeTreeTablesasynchronous_metric_log
单个分区的最大 parts 数MaxPartCountForPartitionasynchronous_metric_log
从 S3 读取ProfileEvent_ReadBufferFromS3Bytesmetric_logSum / bucketSizeSeconds
文件系统缓存大小CurrentMetric_FilesystemCacheSizemetric_log
Disk S3 写请求数/秒ProfileEvent_DiskS3PutObject + ProfileEvent_DiskS3UploadPart + ProfileEvent_DiskS3CreateMultipartUpload + ProfileEvent_DiskS3CompleteMultipartUploadmetric_logSum / bucketSizeSeconds
Disk S3 读请求数/秒ProfileEvent_DiskS3GetObject + ProfileEvent_DiskS3HeadObject + ProfileEvent_DiskS3ListObjectsmetric_logSum / bucketSizeSeconds
FS 缓存命中率sum(ProfileEvent_CachedReadBufferReadFromCacheBytes) / (sum(ProfileEvent_CachedReadBufferReadFromCacheBytes) + sum(ProfileEvent_CachedReadBufferReadFromSourceBytes))metric_log
页缓存命中率greatest(0, (sum(ProfileEvent_OSReadChars) - sum(ProfileEvent_OSReadBytes)) / (sum(ProfileEvent_OSReadChars) + sum(ProfileEvent_ReadBufferFromS3Bytes)))metric_log
网络接收字节数/秒NetworkReceiveBytesasynchronous_metric_logSum / bucketSizeSeconds
网络发送字节数/秒NetworkSendBytesasynchronous_metric_logSum / bucketSizeSeconds
并发 TCP 连接数CurrentMetric_TCPConnectionmetric_log
并发 MySQL 连接数CurrentMetric_MySQLConnectionmetric_log
并发 HTTP 连接数CurrentMetric_HTTPConnectionmetric_log
如需了解各项可视化的详细信息以及如何用它们进行故障排查,请参阅高级仪表板文档

Query insights

Query Insights 功能借助各种可视化和表格,让 ClickHouse 内置的查询日志更易使用。ClickHouse 的 system.query_log 表是用于查询优化、调试以及监控整体集群健康状态和性能的关键信息来源。 选择某个服务后,左侧边栏中的 Monitoring 导航项会展开,并显示 Query insights 子项:

顶层指标

顶部的统计卡片显示的是所选时间范围内的基础查询指标。下方的时间序列图表则按查询类型 (select、insert、other) 分类展示查询量、延迟和错误率。延迟图表可切换为显示 p50、p90 和 p99 延迟:

最近查询

表格会显示所选时间窗口内按归一化查询哈希和用户分组的查询日志条目。最近查询可按任何可用字段进行过滤和排序,还可将表格配置为显示或隐藏其他字段,例如表、p90 和 p99 延迟:

查询下钻

在 Recent queries 表中选择某个查询后,会打开一个弹出面板,其中包含该查询的相关指标和信息: Query info 选项卡中的所有指标都是聚合后的指标;如果选择 Query history 选项卡,还可以查看每次单独运行的指标: 在此面板中,可以展开每次查询运行对应的 SettingsProfile Events 项,以查看更多信息。
  • 通知 — 配置扩缩容事件、错误和计费相关告警
  • 高级仪表板 — 各仪表板可视化项的详细参考
  • 查询系统表 — 对系统表运行自定义 SQL 查询,深入查看内部信息
  • Prometheus 端点 — 将指标导出到 Grafana、Datadog 或其他兼容 Prometheus 的工具
最后修改于 2026年6月10日