Панели мониторинга
Состояние сервиса
Использование ресурсов
Память и CPU
Снижение производительностиЕсли использование памяти или CPU приближается к выделенному объему памяти или CPU, вы можете начать замечать снижение производительности. Чтобы решить проблему, мы рекомендуем:
- Оптимизировать запросы
- Изменить схему партиционирования таблиц
- Добавить сервису больше вычислительных ресурсов с помощью масштабирования
| График | Соответствующее имя метрики | Агрегация | Примечания |
|---|---|---|---|
| Выделенная память | CGroupMemoryTotal | Max | |
| Выделенный CPU | CGroupMaxCPU | Max | |
| Использование памяти | MemoryResident | Max | |
| Использование CPU | Системная метрика CPU | Max | ClickHouseServer_UsageCores через конечную точку Prometheus |
Передача данных
Advanced dashboard
ClickHouse Cloud собирает и хранит метрики, отображаемые на этой панели мониторинга, из системных таблиц, поэтому их можно просматривать, даже когда сервис переведен в неактивное состояние. Доступ к этим метрикам не отправляет запрос к самому сервису и не выводит неактивные сервисы из этого состояния.
| Graph | Corresponding ClickHouse metric name | System table | Aggregation Type |
|---|---|---|---|
| Запросы/сек | ProfileEvent_Query | metric_log | Сумма / bucketSizeSeconds |
| Выполняющиеся запросы | CurrentMetric_Query | metric_log | Среднее |
| Выполняющиеся слияния | CurrentMetric_Merge | metric_log | Среднее |
| Выбранные байты/сек | ProfileEvent_SelectedBytes | metric_log | Сумма / bucketSizeSeconds |
| Ожидание ввода-вывода | ProfileEvent_OSIOWaitMicroseconds | metric_log | Сумма / bucketSizeSeconds |
| Ожидание чтения из S3 | ProfileEvent_ReadBufferFromS3Microseconds | metric_log | Сумма / bucketSizeSeconds |
| Ошибки чтения из S3/сек | ProfileEvent_ReadBufferFromS3RequestsErrors | metric_log | Сумма / bucketSizeSeconds |
| Ожидание CPU | ProfileEvent_OSCPUWaitMicroseconds | metric_log | Сумма / bucketSizeSeconds |
| Использование CPU ОС (userspace, normalized) | OSUserTimeNormalized | asynchronous_metric_log | |
| Использование CPU ОС (kernel, normalized) | OSSystemTimeNormalized | asynchronous_metric_log | |
| Чтение с диска | ProfileEvent_OSReadBytes | metric_log | Сумма / bucketSizeSeconds |
| Чтение из файловой системы | ProfileEvent_OSReadChars | metric_log | Сумма / bucketSizeSeconds |
| Память (tracked, байт) | CurrentMetric_MemoryTracking | metric_log | |
| Всего частей MergeTree | TotalPartsOfMergeTreeTables | asynchronous_metric_log | |
| Максимум частей на партицию | MaxPartCountForPartition | asynchronous_metric_log | |
| Чтение из S3 | ProfileEvent_ReadBufferFromS3Bytes | metric_log | Сумма / bucketSizeSeconds |
| Размер файлового кэша | CurrentMetric_FilesystemCacheSize | metric_log | |
| Запросы записи Disk S3/сек | ProfileEvent_DiskS3PutObject + ProfileEvent_DiskS3UploadPart + ProfileEvent_DiskS3CreateMultipartUpload + ProfileEvent_DiskS3CompleteMultipartUpload | metric_log | Сумма / bucketSizeSeconds |
| Запросы чтения Disk S3/сек | ProfileEvent_DiskS3GetObject + ProfileEvent_DiskS3HeadObject + ProfileEvent_DiskS3ListObjects | metric_log | Сумма / bucketSizeSeconds |
| Доля попаданий в файловый кэш | sum(ProfileEvent_CachedReadBufferReadFromCacheBytes) / (sum(ProfileEvent_CachedReadBufferReadFromCacheBytes) + sum(ProfileEvent_CachedReadBufferReadFromSourceBytes)) | metric_log | |
| Доля попаданий в page cache | greatest(0, (sum(ProfileEvent_OSReadChars) - sum(ProfileEvent_OSReadBytes)) / (sum(ProfileEvent_OSReadChars) + sum(ProfileEvent_ReadBufferFromS3Bytes))) | metric_log | |
| Полученные по сети байты/сек | NetworkReceiveBytes | asynchronous_metric_log | Сумма / bucketSizeSeconds |
| Отправленные по сети байты/сек | NetworkSendBytes | asynchronous_metric_log | Сумма / bucketSizeSeconds |
| Одновременные TCP-соединения | CurrentMetric_TCPConnection | metric_log | |
| Одновременные MySQL-соединения | CurrentMetric_MySQLConnection | metric_log | |
| Одновременные HTTP-соединения | CurrentMetric_HTTPConnection | metric_log |
Query insights
system.query_log — важный источник информации для оптимизации запросов, отладки и мониторинга общего состояния и производительности кластера.
После выбора сервиса пункт Monitoring на левой боковой панели раскрывается, и в нем появляется подпункт Query insights:
Метрики верхнего уровня
Недавние запросы
Детализация запроса
Settings и Profile Events, чтобы увидеть дополнительную информацию.
- Уведомления — Настройка оповещений о событиях масштабирования, ошибках и биллинге
- Advanced dashboard — Подробное описание каждой визуализации панели мониторинга
- Запросы к системным таблицам — Выполнение пользовательских SQL-запросов к системным таблицам для углублённой диагностики
- Конечная точка Prometheus — Экспорт метрик в Grafana, Datadog и другие инструменты, совместимые с Prometheus