system.asynchronous_metrics - ClickHouse Documentation

Запросы в ClickHouse CloudДанные в этой системной таблице хранятся локально на каждом узле ClickHouse Cloud. Поэтому, чтобы получить полное представление обо всех данных, требуется функция clusterAllReplicas. Дополнительные сведения см. здесь.

Описание

Содержит метрики, которые периодически рассчитываются в фоновом режиме. Например, объём используемой оперативной памяти.

Столбцы

metric (String) — Название метрики.
value (Float64) — Значение метрики.
description (String - Описание метрики)

Пример

SELECT * FROM system.asynchronous_metrics LIMIT 10

┌─metric──────────────────────────────────┬──────value─┬─description────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
│ AsynchronousMetricsCalculationTimeSpent │ 0.00179053 │ Time in seconds spent for calculation of asynchronous metrics (this is the overhead of asynchronous metrics).                                                                                                                                              │
│ NumberOfDetachedByUserParts             │          0 │ The total number of parts detached from MergeTree tables by users with the `ALTER TABLE DETACH` query (as opposed to unexpected, broken or ignored parts). The server does not care about detached parts and they can be removed.                          │
│ NumberOfDetachedParts                   │          0 │ The total number of parts detached from MergeTree tables. A part can be detached by a user with the `ALTER TABLE DETACH` query or by the server itself it the part is broken, unexpected or unneeded. The server does not care about detached parts and they can be removed. │
│ TotalRowsOfMergeTreeTables              │    2781309 │ Total amount of rows (records) stored in all tables of MergeTree family.                                                                                                                                                                                   │
│ TotalBytesOfMergeTreeTables             │    7741926 │ Total amount of bytes (compressed, including data and indices) stored in all tables of MergeTree family.                                                                                                                                                   │
│ NumberOfTables                          │         93 │ Total number of tables summed across the databases on the server, excluding the databases that cannot contain MergeTree tables. The excluded database engines are those who generate the set of tables on the fly, like `Lazy`, `MySQL`, `PostgreSQL`, `SQlite`. │
│ NumberOfDatabases                       │          6 │ Total number of databases on the server.                                                                                                                                                                                                                   │
│ MaxPartCountForPartition                │          6 │ Maximum number of parts per partition across all partitions of all tables of MergeTree family. Values larger than 300 indicates misconfiguration, overload, or massive data loading.                                                                       │
│ ReplicasSumMergesInQueue                │          0 │ Sum of merge operations in the queue (still to be applied) across Replicated tables.                                                                                                                                                                       │
│ ReplicasSumInsertsInQueue               │          0 │ Sum of INSERT operations in the queue (still to be replicated) across Replicated tables.                                                                                                                                                                   │
└─────────────────────────────────────────┴────────────┴────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘

Описание метрик

AsynchronousHeavyMetricsCalculationTimeSpent

Время в секундах, затраченное на вычисление асинхронных ресурсоёмких метрик (связанных с таблицами); это накладные расходы асинхронных метрик.

AsynchronousHeavyMetricsUpdateInterval

Интервал обновления ресурсоёмких метрик (связанных с таблицами)

AsynchronousMetricsCalculationTimeSpent

Время в секундах, затрачиваемое на вычисление асинхронных метрик (это накладные расходы на асинхронные метрики).

AsynchronousMetricsUpdateInterval

Интервал обновления метрик

BlockActiveTime_name

Время в секундах, в течение которого запросы ввода-вывода к блочному устройству находились в очереди. Это общесистемная метрика: она включает все процессы на хост-машине, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockDiscardBytes_name

Количество байтов, отброшенных на блочном устройстве. Эти операции актуальны для SSD. Операции discard не используются в ClickHouse, но могут использоваться другими процессами в системе. Это общесистемная метрика: она включает все процессы на хост-машине, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockDiscardMerges_name

Количество операций discard, запрошенных у блочного устройства и объединённых планировщиком ввода-вывода ОС. Эти операции важны для SSD. ClickHouse не использует операции discard, но их могут использовать другие процессы в системе. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockDiscardOps_name

Количество операций discard, запрошенных у блочного устройства. Эти операции актуальны для SSD. ClickHouse не использует операции discard, но они могут использоваться другими процессами в системе. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockDiscardTime_name

Время в секундах, затраченное на выполнение операций discard, запрошенных у блочного устройства, суммарно по всем операциям. Эти операции актуальны для SSD. ClickHouse не использует операции discard, но их могут использовать другие процессы в системе. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockInFlightOps_name

Это значение показывает количество запросов ввода-вывода, отправленных драйверу устройства, но ещё не завершённых. Оно не включает запросы ввода-вывода, которые находятся в очереди, но ещё не были отправлены драйверу устройства. Это общесистемная метрика: она охватывает все процессы на хосте, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockQueueTime_name

Это значение показывает суммарное количество миллисекунд, в течение которых запросы ввода-вывода ожидали обработки на этом блочном устройстве. Если одновременно ожидают несколько запросов ввода-вывода, это значение увеличивается на величину, равную произведению количества миллисекунд на число ожидающих запросов. Это общесистемная метрика: она учитывает все процессы на хост-машине, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockReadBytes_name

Количество байтов, прочитанных с блочного устройства. Оно может быть меньше количества байтов, прочитанных из файловой системы, из-за использования страничного кэша ОС, который уменьшает число операций ввода-вывода. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockReadMerges_name

Количество операций чтения, запрошенных у блочного устройства и объединённых планировщиком ввода-вывода ОС. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockReadOps_name

Количество операций чтения, запрошенных у блочного устройства. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockReadTime_name

Время в секундах, затраченное на операции чтения с блочного устройства, суммарно по всем операциям. Это общесистемная метрика; она включает все процессы на хост-машине, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockWriteBytes_name

Количество байтов, записанных на блочное устройство. Оно может быть меньше количества байтов, записанных в файловую систему, из-за использования страничного кэша ОС, который позволяет сократить ввод-вывод. Запись на блочное устройство может происходить позже, чем соответствующая запись в файловую систему, из-за кэширования со сквозной записью. Это системная метрика: она включает все процессы на хосте, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockWriteMerges_name

Количество операций записи, запрошенных у блочного устройства и объединённых планировщиком ввода-вывода ОС. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockWriteOps_name

Количество операций записи, запрошенных у блочного устройства. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

BlockWriteTime_name

Время в секундах, затраченное на операции записи, запрошенные у блочного устройства, в сумме по всем операциям. Это общесистемная метрика: она включает все процессы на хост-машине, а не только clickhouse-server. Источник: /sys/block. См. https://www.kernel.org/doc/Documentation/block/stat.txt

CPUFrequencyMHz_name

Текущая частота процессора, в МГц. Большинство современных процессоров динамически регулируют частоту для энергосбережения и Turbo Boost.

DictionaryMaxUpdateDelay

Максимальная задержка обновления словаря (в секундах).

DictionaryTotalFailedUpdates

Число ошибок с момента последней успешной загрузки во всех словарях.

DiskAvailable_name

Количество доступных байтов на диске (виртуальной файловой системе). Для удалённых файловых систем это значение может быть большим, например 16 EiB.

DiskTotal_name

Общий размер диска в байтах (виртуальной файловой системы). Для удалённых файловых систем может отображаться большое значение, например 16 EiB.

DiskUnreserved_name

Доступные байты на диске (в виртуальной файловой системе) без учета места, зарезервированного под слияния, загрузки и перемещения. Удаленные файловые системы могут показывать большое значение, например 16 EiB.

DiskUsed_name

Количество использованных байтов на диске (виртуальной файловой системе). Удалённые файловые системы не всегда предоставляют эту информацию.

FilesystemCacheBytes

Общее количество байтов в виртуальной файловой системе cache. Этот кэш хранится на диске.

FilesystemCacheFiles

Общее число кэшированных сегментов файлов в виртуальной файловой системе cache. Этот кэш хранится на диске.

FilesystemLogsPathAvailableBytes

Количество доступных байт на томе, где смонтирован каталог журналов ClickHouse. Если это значение приближается к нулю, следует настроить ротацию журналов в конфигурационном файле.

FilesystemLogsPathAvailableINodes

Количество доступных инод на томе, на котором смонтирован каталог журналов ClickHouse.

FilesystemLogsPathTotalBytes

Размер тома, на который смонтирован каталог журналов ClickHouse, в байтах. Для журналов рекомендуется выделить не менее 10 ГБ.

FilesystemLogsPathTotalINodes

Общее количество инодов на томе, где смонтирован каталог журналов ClickHouse.

FilesystemLogsPathUsedBytes

Занятые байты на томе, где смонтирован каталог журналов ClickHouse.

FilesystemLogsPathUsedINodes

Количество занятых инодов на томе, где смонтирован каталог журналов ClickHouse.

FilesystemMainPathAvailableBytes

Доступные байты на томе, где смонтирован основной путь ClickHouse.

FilesystemMainPathAvailableINodes

Количество доступных инодов на томе, где смонтирован основной путь ClickHouse. Если оно близко к нулю, это указывает на неправильную конфигурацию, и вы получите ошибку ‘no space left on device’, даже если диск не заполнен.

FilesystemMainPathTotalBytes

Размер тома, на котором смонтирован основной путь ClickHouse, в байтах.

FilesystemMainPathTotalINodes

Общее количество инодов на томе, где смонтирован основной путь ClickHouse. Если оно меньше 25 миллионов, это указывает на ошибку конфигурации.

FilesystemMainPathUsedBytes

Количество использованных байт на томе, где смонтирован основной путь ClickHouse.

FilesystemMainPathUsedINodes

Количество используемых инодов на томе, где смонтирован основной путь ClickHouse. Это значение в основном соответствует числу файлов.

HTTPThreads

Количество потоков в сервере HTTP-интерфейса (без TLS).

HTTPSecureThreads

Количество потоков на сервере HTTPS-интерфейса.

InterserverThreads

Количество потоков в сервере протокола связи между репликами (без TLS).

InterserverSecureThreads

Количество потоков на сервере, используемых протоколом связи между репликами (с TLS).

Jitter

Разница между моментом, на который было запланировано пробуждение потока для вычисления асинхронных метрик, и моментом его фактического пробуждения. Косвенный показатель общей задержки и отзывчивости системы.

LoadAverageN

Средняя нагрузка на всю систему, вычисленная с экспоненциальным сглаживанием за 1 минуту. Нагрузка показывает количество потоков всех процессов (сущностей планирования ядра ОС), которые в данный момент выполняются на CPU, ожидают IO либо готовы к выполнению, но в этот момент не запланированы. Это число включает все процессы, а не только clickhouse-server. Оно может быть больше числа ядер CPU, если система перегружена и многие процессы готовы к выполнению, но ожидают CPU или IO.

MaxPartCountForPartition

Максимальное количество частей в одной партиции среди всех партиций всех таблиц семейства MergeTree. Значения выше 300 указывают на неверную конфигурацию, перегрузку или массовую загрузку данных.

MemoryCode

Объём виртуальной памяти, сопоставленной со страницами машинного кода серверного процесса, в байтах.

MemoryDataAndStack

Объём виртуальной памяти, отображённой для использования стеком и выделенной памятью, в байтах. Не указано, включает ли он стеки отдельных потоков и большую часть выделенной памяти, то есть памяти, выделенной с помощью системного вызова ‘mmap’. Эта метрика существует лишь для полноты. Для мониторинга рекомендую использовать метрику MemoryResident.

MemoryResidentMax

Максимальный объём физической памяти, используемой серверным процессом, в байтах.

MemoryResident

Объём физической памяти, используемой серверным процессом, в байтах.

MemoryShared

Объём памяти, используемой процессом сервера и также совместно используемой другими процессами, в байтах. ClickHouse не использует разделяемую память, но ОС по своим причинам может помечать часть памяти как разделяемую. За этой метрикой почти нет смысла следить, и она существует только для полноты.

MemoryVirtual

Размер виртуального адресного пространства, выделенного процессу сервера, в байтах. Размер виртуального адресного пространства обычно значительно превышает объём физической памяти и не должен использоваться для её оценки. Большие значения этой метрики совершенно нормальны и имеют только технический смысл.

MySQLThreads

Количество потоков на сервере протокола совместимости с MySQL.

NetworkReceiveBytes_name

Количество байтов, полученных через сетевой интерфейс. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server.

NetworkReceiveDrop_name

Количество байтов в пакетах, отброшенных при получении через сетевой интерфейс. Это общесистемная метрика; она учитывает все процессы на хост-машине, а не только clickhouse-server.

NetworkReceiveErrors_name

Количество ошибок, возникших при получении данных через сетевой интерфейс. Это общесистемная метрика: она включает все процессы на хост-машине, а не только clickhouse-server.

NetworkReceivePackets_name

Количество сетевых пакетов, полученных через сетевой интерфейс. Это общесистемная метрика: она учитывает все процессы на хосте, а не только clickhouse-server.

NetworkSendBytes_name

Количество байтов, отправленных через сетевой интерфейс. Это системная метрика: она включает все процессы на хосте, а не только clickhouse-server.

NetworkSendDrop_name

Количество случаев, когда пакет был отброшен при отправке через сетевой интерфейс. Это общесистемная метрика: она учитывает все процессы на хост-машине, а не только clickhouse-server.

NetworkSendErrors_name

Количество случаев, когда при отправке через сетевой интерфейс возникала error (например, повторная передача TCP). Это системная метрика: она охватывает все процессы на хосте, а не только clickhouse-server.

NetworkSendPackets_name

Количество сетевых пакетов, отправленных через сетевой интерфейс. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server.

NumberOfDatabases

Общее число баз данных на сервере.

NumberOfDetachedByUserParts

Общее количество частей таблиц MergeTree, отсоединённых пользователями с помощью запроса ALTER TABLE DETACH (в отличие от неожиданных, повреждённых или проигнорированных частей). Сервер не обращает внимания на отсоединённые части, поэтому их можно удалить.

NumberOfDetachedParts

Общее количество отсоединённых частей таблиц MergeTree. Часть может быть отсоединена пользователем с помощью запроса ALTER TABLE DETACH или самим сервером, если она повреждена, неожиданна или больше не нужна. Сервер не использует отсоединённые части, и их можно удалить.

NumberOfTables

Общее количество таблиц во всех базах данных на сервере, за исключением баз данных, которые не могут содержать таблицы MergeTree. Исключаются движки баз данных, которые формируют набор таблиц на лету, например Lazy, MySQL, PostgreSQL, SQlite.

Переключения контекста ОС

Количество переключений контекста в системе на хосте. Это системная метрика: она учитывает все процессы на хосте, а не только clickhouse-server.

OSGuestNiceTime

Доля времени, в течение которого выполнялся виртуальный CPU для гостевых операционных систем под управлением ядра Linux, когда гостевая ОС работала с повышенным приоритетом (см. man procfs). Это общесистемная метрика: она включает все процессы на хост-машине, а не только clickhouse-server. Эта метрика не имеет особого значения для ClickHouse, но всё же присутствует для полноты. Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSGuestNiceTimeCPU_N

Отношение времени, затраченного на выполнение виртуального CPU для гостевых операционных систем под управлением ядра Linux, когда для гостевой системы был задан более высокий приоритет (см. man procfs). Это общесистемная метрика: она включает все процессы на хост-машине, а не только clickhouse-server. Для ClickHouse эта метрика несущественна, но сохраняется для полноты. Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSGuestNiceTimeNormalized

Значение похоже на OSGuestNiceTime, но делится на количество ядер CPU, чтобы находиться в диапазоне [0..1] независимо от числа ядер. Это позволяет усреднять значения этой метрики по нескольким серверам в кластере, даже если число ядер различается, и при этом получать среднее значение метрики использования ресурсов. При соответствующей настройке вместо фактического количества ядер CPU может использоваться квота CPU для Cgroup, делённая на её период; в этом случае значение этой метрики в отдельные моменты может превышать 1.

OSGuestTime

Доля времени, затраченного на выполнение виртуального CPU для гостевых операционных систем под управлением ядра Linux (см. man procfs). Это общесистемная метрика: она включает все процессы на хост-машине, а не только clickhouse-server. Для ClickHouse эта метрика несущественна, но всё же присутствует для полноты. Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSGuestTimeCPU_N

Доля времени, в течение которого виртуальный CPU выполнялся для гостевых операционных систем под управлением ядра Linux (см. man procfs). Это общесистемная метрика: она включает все процессы на хост-машине, а не только clickhouse-server. Для ClickHouse эта метрика неактуальна, но сохраняется для полноты. Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSGuestTimeNormalized

Значение похоже на OSGuestTime, но делится на количество ядер CPU, чтобы независимо от их числа находиться в интервале [0..1]. Это позволяет усреднять значения этой метрики по нескольким серверам в кластере, даже если число ядер различается, и при этом по-прежнему получать метрику среднего использования ресурсов. Если указано, вместо фактического числа ядер CPU можно использовать квоту CPU Cgroup, делённую на её период; в этом случае значение этой метрики в отдельные моменты может превышать 1.

OSIOWaitTime

Отношение времени, в течение которого ядро CPU не выполняло код, а ядро ОС не запускало на этом CPU никакой другой процесс, поскольку процессы ожидали операций ввода-вывода. Это общесистемная Метрика: она включает все процессы на хост-машине, а не только clickhouse-server. Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSIOWaitTimeCPU_N

Доля времени, в течение которого процессорное ядро не выполняло код, а ядро ОС не запускало на этом CPU другие процессы, поскольку они ожидали операций ввода-вывода. Это метрика для всей системы: она включает все процессы на хосте, а не только clickhouse-server. Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSIOWaitTimeNormalized

Это значение аналогично OSIOWaitTime, но делится на количество ядер CPU, поэтому оно измеряется в интервале [0..1] независимо от их числа. Это позволяет усреднять значения этой метрики по нескольким серверам в кластере, даже если количество ядер различается, и при этом получать среднюю метрику использования ресурсов. При необходимости вместо фактического количества ядер CPU можно использовать квоту CPU в Cgroup, делённую на её период; в таком случае значение этой метрики в отдельные моменты может превышать 1.

OSIdleTime

Доля времени, в течение которого ядро CPU бездействовало (то есть не было готово даже выполнять процесс, ожидающий ввода-вывода), с точки зрения ядра ОС. Это общесистемная метрика: она учитывает все процессы на хосте, а не только clickhouse-server. Сюда не входит время, когда CPU недоиспользовался по причинам, связанным с его внутренней работой (задержки доступа к памяти, простои конвейера, ошибочные предсказания переходов, выполнение на другом SMT-потоке). Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

Время простоя ОС CPU_N

Доля времени, в течение которого ядро CPU простаивало (то есть даже не было готово выполнять процесс, ожидающий IO), с точки зрения ядра ОС. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server. Сюда не входит время, когда CPU был недозагружен по внутренним для него причинам (загрузки из памяти, остановки конвейера, неверные предсказания ветвлений, выполнение на другом SMT-ядре). Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSIdleTimeNormalized

Значение похоже на OSIdleTime, но делится на количество ядер CPU, чтобы находиться в интервале [0..1] независимо от числа ядер. Это позволяет усреднять значения этой метрики по нескольким серверам в кластере, даже если число ядер различается, и при этом всё равно получать метрику среднего использования ресурсов. Если задано, вместо фактического количества ядер CPU может использоваться квота CPU в Cgroup, делённая на её период; в этом случае значение этой метрики в отдельные моменты может превышать 1.

Прерывания ОС

Количество прерываний на хосте. Это метрика всей системы: она учитывает все процессы на хосте, а не только clickhouse-server.

OSIrqTime

Отношение времени, затраченного на обработку аппаратных прерываний процессором. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server. Высокое значение этой метрики может указывать на неправильную конфигурацию оборудования или очень высокую сетевую нагрузку. Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSIrqTimeCPU_N

Доля времени, затраченного на обработку аппаратных прерываний CPU. Это общесистемная метрика: она учитывает все процессы на хосте, а не только clickhouse-server. Высокое значение этой метрики может указывать на неправильную конфигурацию оборудования или очень высокую сетевую нагрузку. Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSIrqTimeNormalized

Значение похоже на OSIrqTime, но делится на количество ядер CPU, чтобы оставаться в интервале [0..1] независимо от их числа. Это позволяет усреднять значения этой Метрики по нескольким серверам в кластере, даже если количество ядер различается, и при этом получать метрику среднего использования ресурсов. Если задана квота CPU в Cgroup, разделённая на её период, её можно использовать вместо фактического количества ядер CPU; в этом случае значение этой Метрики в отдельные моменты может превышать 1.

Доступная память ОС

Объём памяти, доступный для использования программами, в байтах. Эта метрика очень похожа на OSMemoryFreePlusCached. Это системная метрика: она включает все процессы на хосте, а не только clickhouse-server.

OSMemoryBuffers

Объём памяти, используемой буферами ядра ОС, в байтах. Как правило, он должен быть небольшим, а большие значения могут указывать на некорректную конфигурацию ОС. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server.

OSMemoryCached

Объем памяти, используемой кэшем страниц ОС, в байтах. Обычно кэш страниц ОС использует почти всю доступную память, поэтому высокие значения этой метрики — это нормально и ожидаемо. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server.

OSMemoryFreePlusCached

Объём свободной памяти и памяти, используемой кэшем страниц ОС в хост-системе, в байтах. Эта память доступна для использования программами. Значение должно быть очень близко к OSMemoryAvailable. Это общесистемная метрика: она включает все процессы на хост-машине, а не только clickhouse-server.

OSMemoryFreeWithoutCached

Объём свободной памяти в хост-системе в байтах. Сюда не входит память, используемая кэшем страниц ОС. Однако память кэша страниц также доступна для использования программами, поэтому значение этой метрики может вводить в заблуждение. Вместо неё используйте метрику OSMemoryAvailable. Для удобства мы также предоставляем метрику OSMemoryFreePlusCached, которая должна быть в некоторой степени похожа на OSMemoryAvailable. См. также https://www.linuxatemyram.com/. Это системная метрика: она включает все процессы на хост-машине, а не только clickhouse-server.

OSMemoryTotal

Общий объём памяти хост-системы, в байтах.

OSNiceTime

Доля времени, в течение которого ядро ЦП выполняло код в пользовательском пространстве с повышенным приоритетом. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server. Значение для одного ядра ЦП находится в интервале [0..1]. Значение для всех ядер ЦП рассчитывается как сумма значений по всем ядрам [0..num cores].

OSNiceTimeCPU_N

Отношение времени, в течение которого ядро CPU выполняло код в пользовательском пространстве с повышенным приоритетом. Это общесистемная метрика: она учитывает все процессы на хосте, а не только clickhouse-server. Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSNiceTimeNormalized

Значение похоже на OSNiceTime, но делится на количество ядер CPU, чтобы находиться в интервале [0..1] независимо от числа ядер. Это позволяет усреднять значения этой метрики по нескольким серверам в кластере, даже если число ядер различается, и при этом получать среднюю метрику использования ресурсов. При необходимости вместо фактического количества ядер CPU можно использовать квоту CPU в Cgroup, делённую на её период; в этом случае значение этой метрики в отдельные моменты может превышать 1.

OSOpenFiles

Общее количество открытых файлов на хосте. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server.

OSProcessesBlocked

Количество потоков, заблокированных в ожидании завершения операций ввода-вывода (man procfs). Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server.

OSProcessesCreated

Количество созданных процессов. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server.

OSProcessesRunning

Количество потоков, которые могут выполняться (то есть выполняются или готовы к выполнению) по данным операционной системы. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server.

OSSoftIrqTime

Отношение времени, затраченного на обработку программных прерываний на CPU. Это общесистемная метрика: она включает все процессы на хосте, а не только clickhouse-server. Высокое значение этой Метрики может указывать на неэффективную работу программного обеспечения в системе. Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSSoftIrqTimeCPU_N

Отношение времени, затраченного на обработку программных прерываний на CPU. Это метрика всей системы: она включает все процессы на хосте, а не только clickhouse-server. Высокое значение этой метрики может указывать на неэффективно работающее в системе программное обеспечение. Значение для одного ядра CPU находится в диапазоне [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSSoftIrqTimeNormalized

Значение аналогично OSSoftIrqTime, но делится на количество ядер CPU, чтобы находиться в интервале [0..1] независимо от их числа. Это позволяет усреднять значения этой Метрики по нескольким серверам в кластере, даже если количество ядер различается, и при этом получать среднюю метрику использования ресурсов. Если задана квота CPU в Cgroup, вместо фактического количества ядер CPU может использоваться она, делённая на свой период; в этом случае значение этой метрики в отдельные моменты может превышать 1.

OSStealTime

Доля времени, которое CPU в виртуализированной среде тратит на выполнение других операционных систем. Это общесистемная метрика: она включает все процессы на хост-машине, а не только clickhouse-server. Эта метрика доступна не во всех виртуализированных средах, и в большинстве из них её нет. Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по ним [0..num cores].

OSStealTimeCPU_N

Отношение времени, в течение которого ЦП выполняет задачи других операционных систем при работе в виртуализированной среде. Это общесистемная метрика: она включает все процессы на хост-машине, а не только clickhouse-server. Эта метрика доступна не во всех виртуализированных средах; более того, в большинстве из них она отсутствует. Значение для одного ядра ЦП находится в интервале [0..1]. Значение для всех ядер ЦП вычисляется как сумма по всем ядрам [0..num cores].

OSStealTimeNormalized

Это значение похоже на OSStealTime, но делится на количество ядер CPU, чтобы находиться в интервале [0..1] независимо от числа ядер. Это позволяет усреднять значения этой метрики по нескольким серверам в кластере, даже если количество ядер неодинаково, и при этом получать среднюю метрику использования ресурсов. Если указано, вместо фактического числа ядер CPU можно использовать квоту CPU в Cgroup, разделённую на её период; в этом случае значение этой метрики в отдельные моменты может превышать 1.

OSSystemTime

Доля времени, в течение которого ядро CPU выполняло код ядра ОС (system). Это общесистемная метрика: она учитывает все процессы на хосте, а не только clickhouse-server. Значение для одного ядра CPU находится в диапазоне [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSSystemTimeCPU_N

Доля времени, в течение которого процессорное ядро выполняло код ядра ОС (system). Это общесистемная метрика: она включает все процессы на хост-машине, а не только clickhouse-server. Значение для одного процессорного ядра находится в интервале [0..1]. Значение для всех процессорных ядер вычисляется как сумма по всем ядрам [0..num cores].

OSSystemTimeNormalized

Значение похоже на OSSystemTime, но делится на количество ядер CPU, чтобы находиться в интервале [0..1] независимо от числа ядер. Это позволяет усреднять значения этой метрики по нескольким серверам в кластере, даже если число ядер различается, и при этом получать среднюю метрику использования ресурсов. Если задана квота CPU в Cgroup, вместо фактического количества ядер CPU можно использовать её, разделённую на период; в этом случае значение этой метрики в отдельные моменты может превышать 1.

OSThreadsRunnable

Общее количество потоков в состоянии «готов к выполнению» с точки зрения планировщика ядра ОС.

OSThreadsTotal

Общее число потоков с точки зрения планировщика ядра ОС.

OSUptime

Время непрерывной работы хост-сервера (машины, на которой работает ClickHouse), в секундах.

OSUserTime

Доля времени, в течение которого ядро CPU выполняло код в пользовательском пространстве. Это общесистемная метрика: она включает все процессы на хост-машине, а не только clickhouse-server. Сюда также входит время, когда CPU был недозагружен по внутренним причинам самого CPU (загрузки памяти, простои конвейера, неверные предсказания ветвлений, выполнение другого SMT-потока). Значение для одного ядра CPU находится в диапазоне [0..1]. Значение для всех ядер CPU вычисляется как сумма по ним [0..num cores].

OSUserTimeCPU_N

Доля времени, в течение которого ядро CPU выполняло код в пространстве пользователя. Это общесистемная метрика: она учитывает все процессы на хост-машине, а не только clickhouse-server. Сюда также входит время, когда CPU был недозагружен по внутренним для него причинам (ожидание загрузки данных из памяти, простои конвейера, ошибочные предсказания ветвлений, выполнение на другом SMT-ядре). Значение для одного ядра CPU находится в интервале [0..1]. Значение для всех ядер CPU вычисляется как сумма по всем ядрам [0..num cores].

OSUserTimeNormalized

Значение похоже на OSUserTime, но делится на число ядер CPU, чтобы находиться в интервале [0..1] независимо от их количества. Это позволяет усреднять значения этой Метрики по нескольким серверам в кластере, даже если число ядер различается, и при этом получать среднее значение использования ресурсов. При необходимости вместо фактического числа ядер CPU можно использовать квоту CPU в Cgroup, делённую на её период; в таком случае значение этой Метрики в отдельные моменты может превышать 1.

PostgreSQLThreads

Количество потоков сервера протокола совместимости с PostgreSQL.

Использование памяти запросами

Общий объём памяти, который в данный момент используют все выполняющиеся на сервере запросы, в байтах. Полезно для оценки того, какая часть нагрузки на память приходится на параллельно выполняющиеся запросы.

QueriesPeakMemoryUsage

Сумма пикового потребления памяти запросами по всем пользователям, отслеживаемым в ProcessList, в байтах. Пик каждого пользователя — это максимальное значение, достигнутое его трекером памяти; оно сбрасывается, когда у пользователя не остается выполняющихся запросов. Таким образом, это агрегированное значение текущих отслеживаемых пользовательских пиков, а не единый общесерверный пик по всем запросам с момента запуска.

ReplicasMaxAbsoluteDelay

Максимальная разница в секундах между самой свежей реплицируемой частью и самой свежей частью данных, которую ещё предстоит реплицировать, среди таблиц Replicated. Очень большое значение указывает на реплику без данных.

ReplicasMaxInsertsInQueue

Максимальное количество операций INSERT в очереди (которые ещё предстоит реплицировать) во всех таблицах Replicated.

ReplicasMaxMergesInQueue

Максимальное количество операций слияния в очереди (которые ещё не применены) по всем таблицам Replicated.

ReplicasMaxQueueSize

Максимальный размер очереди (по количеству операций, таких как get и merge) среди таблиц Replicated.

ReplicasMaxRelativeDelay

Максимальная разница между задержкой реплики и задержкой самой актуальной реплики той же таблицы среди таблиц Replicated.

ReplicasSumInsertsInQueue

Сумма операций INSERT в очереди (которые ещё предстоит реплицировать) во всех таблицах Replicated.

ReplicasSumMergesInQueue

Сумма операций слияния в очереди (которые ещё не применены) по всем таблицам Replicated.

ReplicasSumQueueSize

Суммарный размер очереди (по числу операций, таких как get и merge) во всех таблицах Replicated.

TCPThreads

Количество потоков TCP на сервере (без TLS).

TCPSecureThreads

Количество потоков TCP-сервера (с TLS).

GRPCThreads

Количество потоков в сервере протокола GRPC.

PrometheusThreads

Количество потоков в сервере конечной точки Prometheus. Примечание: конечные точки Prometheus также можно использовать через стандартные порты HTTP/HTTPS.

KeeperTCPThreads

Количество потоков на сервере TCP-протокола Keeper (без TLS).

KeeperTCPSecureThreads

Количество потоков на сервере протокола Keeper TCP (с TLS).

Температура_N

Температура соответствующего устройства в ℃. Датчик может возвращать некорректное значение. Источник: /sys/class/thermal

Температура_name

Температура в ℃, сообщаемая соответствующим аппаратным монитором и датчиком. Датчик может возвращать некорректное значение. Источник: /sys/class/hwmon

Общее количество байтов во всех таблицах семейства MergeTree

Общее количество байтов в сжатом виде (включая данные и индексы), хранящихся во всех таблицах семейства MergeTree.

TotalPartsOfMergeTreeTables

Общее количество частей данных во всех таблицах семейства MergeTree. Значения свыше 10 000 негативно влияют на время запуска сервера и могут указывать на неудачный выбор ключа партиционирования.

TotalPrimaryKeyBytesInMemory

Общий объём памяти (в байтах), занимаемый значениями первичного ключа (учитываются только активные части).

TotalPrimaryKeyBytesInMemoryAllocated

Общий объём памяти (в байтах), выделенной для значений первичного ключа (учитываются только активные части).

TotalRowsOfMergeTreeTables

Общее количество строк (записей), хранящихся во всех таблицах семейства MergeTree.

Время непрерывной работы

Время непрерывной работы сервера в секундах. Включает время, затраченное на инициализацию сервера до начала приема подключений.

ZooKeeperClientLastZXIDSeen

Последний ZXID, зафиксированный в текущем клиентском сеансе ZooKeeper. Это значение монотонно увеличивается по мере того, как клиент получает данные о транзакциях из ZooKeeper.

LongestRunningMerge

Время в секундах, прошедшее с начала самого длительного из фоновых слияний, выполняющихся в данный момент.