Просмотр метрик KUMA
Для отслеживания работы своих компонентов , потока событий, контекста корреляции в KUMA выполняется сбор и хранение большого количества параметров. Для сбора, хранения и анализа параметров используется решение VictoriaMetrics, представляющее собой СУБД в формате временных рядов. Визуализация собранных метрик осуществляется с помощью Grafana. В разделе KUMA Метрики представлены панели мониторинга с визуализацией ключевых параметров работы различных компонентов KUMA.
Сервис Ядра KUMA выполняет настройку параметров VictoriaMetrics и Grafana автоматически, участие пользователя не требуется.
Визуализация собранных метрик осуществляется с помощью решения Grafana. RPM-пакет службы kuma-core формирует конфигурацию Grafana и создает отдельную панель мониторинга для визуализации метрик каждого сервиса. Графики в разделе Метрики появляются с задержкой около 1,5 минут. Если Grafana не работает, в разделе KUMA Метрики будет отображаться пустой экран.
Полная информация о метриках доступна в разделе Метрики веб-интерфейса KUMA. При выборе этого раздела открывается автоматически обновляемый портал Grafana, развернутый во время установки Ядра. Если в разделе Метрики вы видите core:<номер порта>, это означает, что KUMA развернута в отказоустойчивой конфигурации и метрики получены с хоста, на котором было установлено Ядро KUMA. В прочих конфигурациях отображается имя хоста, с которого KUMA получает метрики.
Чтобы определить, на каком хосте работает Ядро, в терминале одного из контроллеров выполните следующую команду:
k0s kubectl get pod -n kuma -o wide
Чтобы определить, на каком хосте работает Ядро, в терминале одного из контроллеров выполните следующую команду:
k0s kubectl get pod -n kuma -o wide
Метрики коллектора
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса
Normalization (нормализация) – метрики, относящиеся к нормализаторам
Название метрики
|
Описание
|
Raw & Normalized event size (размер сырых и нормализованных событий)
|
Размер необработанного и нормализованного событий. Отображается медиана.
|
Errors (ошибки)
|
Количество ошибок нормализации, возникших за секунду.
|
Filtration (фильтрация) – метрики, относящиеся к фильтрам
Название метрики
|
Описание
|
EPS (события, обрабатываемые за секунду)
|
Количество событий, удовлетворяющих условиям фильтра и отправленных в обработку за секунду. Коллектор обрабатывает события, удовлетворяющие условиям фильтра, только если пользователь добавил фильтр в конфигурацию сервиса коллектора.
|
Aggregation (агрегация) – метрики, относящиеся к правилам агрегации
Название метрики
|
Описание
|
EPS (события, обрабатываемые в секунду)
|
Количество событий, полученных и созданных правилом агрегации за секунду. Эта метрика помогает определить эффективность правил агрегации.
|
Buckets (контейнеры)
|
Количество контейнеров в правиле агрегации.
|
Enrichment (обогащение) – метрики, относящиеся к правилам обогащения
Название метрики
|
Описание
|
Cache RPS (запросы к кешу в секунду)
|
Количество запросов, отправленных локальному кешу за секунду.
|
Source RPS (запросы к источнику в секунду)
|
Количество запросов, отправленных источнику обогащения, например словарю, за секунду.
|
Source Latency (задержка источника)
|
Время в миллисекундах, затраченное на отправку запроса источнику обогащения и получение от него ответа. Отображается медиана.
|
Queue (очередь)
|
Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения.
|
Errors (ошибки)
|
Количество ошибок, возникших за секунду при отправке запросов источнику обогащения.
|
Process (процессы) – метрики, относящиеся к процессам
Название метрики
|
Описание
|
Memory (память)
|
Использование RAM (RSS) в мегабайтах.
|
Disk BPS (считанные/записанные байты диска)
|
Количество байтов, считанных/записанных на диск за секунду.
|
Network BPS (байты, принятые/переданные по сети)
|
Количество байтов, принятых/переданных по сети за секунду.
|
Network Packet Loss (потеря пакетов)
|
Количество сетевых пакетов, потерянных за секунду.
|
GC Latency (задержка сборщика мусора)
|
Время в миллисекундах, затраченное на проведение цикла сборщика мусора GO (Garbage Collector). Отображается медиана.
|
Goroutines (горутины)
|
Количество активных горутин. Это число отличается от количества потоков операционной системы.
|
OS (операционная система) – метрики, относящиеся к операционной системе
Название метрики
|
Описание
|
Load (нагрузка)
|
Средняя нагрузка.
|
CPU (ЦП)
|
Загрузка центрального процессора в процентах.
|
Memory (память)
|
Использование RAM (RSS) в процентах.
|
Disk (диск)
|
Использование дискового пространства в процентах.
|
Метрики коррелятора
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса
Название метрики
|
Описание
|
Processing EPS (обрабатываемые события в секунду)
|
Количество событий, обработанных в секунду.
|
Output EPS (вывод событий)
|
Количество событий, отправленных точке назначения в секунду.
|
Output Latency (задержка вывода)
|
Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана.
|
Output Errors (ошибки вывода)
|
Количество ошибок, возникших в секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.
|
Output Event Loss (потеря событий)
|
Количество событий, потерянных в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе.
|
Output Disk Buffer Size (размер дискового буфера)
|
Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно.
|
Write Network BPS (скорость передачи данных в сеть в секунду)
|
Количество байт, полученных в сеть за 1 секунду.
|
Correlation (корреляция) – метрики, относящиеся к правилам корреляции
Название метрики
|
Описание
|
EPS (события, обрабатываемые в секунду)
|
Количество корреляционных событий, созданных правилом корреляции за секунду.
|
Buckets (контейнеры)
|
Количество контейнеров в правиле корреляции стандартного типа.
|
Rate Limiter Hits (лимит срабатываний)
|
Количество превышений правилом корреляции лимита срабатываний за секунду.
|
Active Lists OPS (запросы к активному листу в секунду)
|
Количество запросов на выполнение операций, отправленных активному листу за секунду, и сами операции.
|
Active Lists Records (записи в активном листе)
|
Количество записей в активном листе.
|
Active Lists On-Disk Size (размер на диске)
|
Размер активного листа на диске в байтах.
|
Context Tables OPS (количество операций с контекстными таблицами в секунду)
|
Количество обращений к контекстной таблице за 1 секунду с указанием операции.
|
Context Tables Records (записи в контекстной таблице)
|
Текущее количество записей в контекстной таблице.
|
Context Tables On-Disk Size (размер контекстной таблицы на диске)
|
Текущий размер контекстной таблицы на диске.
|
Enrichment (обогащение) – метрики, относящиеся к правилам обогащения
Название метрики
|
Описание
|
Cache RPS (запросы к кешу в секунду)
|
Количество запросов, отправленных локальному кешу за секунду.
|
Source RPS (запросы к источнику в секунду)
|
Количество запросов, отправленных источнику обогащения, например словарю, за секунду.
|
Source Latency (задержка источника)
|
Время в миллисекундах, затраченное на отправку запроса источнику обогащения и получение от него ответа. Отображается медиана.
|
Queue (очередь)
|
Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения.
|
Errors (ошибки)
|
Количество ошибок, возникших за секунду при отправке запросов источнику обогащения.
|
Response (ответ) – метрики, относящиеся к правилам реагирования
Название метрики
|
Описание
|
RPS (запросы в секунду)
|
Количество активаций правила реагирования за секунду.
|
Process (процессы) – метрики, относящиеся к процессам
Название метрики
|
Описание
|
Memory (память)
|
Использование RAM (RSS) в мегабайтах.
|
Disk BPS (считанные/записанные байты диска)
|
Количество байтов, считанных/записанных на диск за секунду.
|
Network BPS (байты, принятые/переданные по сети)
|
Количество байтов, принятых/переданных по сети за секунду.
|
Network Packet Loss (потеря пакетов)
|
Количество сетевых пакетов, потерянных за секунду.
|
GC Latency (задержка сборщика мусора)
|
Время в миллисекундах, затраченное на проведение цикла сборщика мусора GO (Garbage Collector). Отображается медиана.
|
Goroutines (горутины)
|
Количество активных горутин. Это число отличается от количества потоков операционной системы.
|
OS (операционная система) – метрики, относящиеся к операционной системе
Название метрики
|
Описание
|
Load (нагрузка)
|
Средняя нагрузка.
|
CPU (ЦП)
|
Загрузка центрального процессора в процентах.
|
Memory (память)
|
Использование RAM (RSS) в процентах.
|
Disk (диск)
|
Использование дискового пространства в процентах.
|
Метрики хранилища
IO (ввод-вывод) – метрики, относящиеся к состоянию узлов кластера ClickHouse
Название метрики
|
Описание
|
Output EPS (вывод событий)
|
Количество событий в секунду, которые были вставлены в узел ClickHouse или в дисковый буфер узла.
|
Output Latency (задержка вывода)
|
Задержка вставки пакета либо в узел ClickHouse, либо в дисковый буфер узла.
|
Output Errors (ошибки вывода)
|
Количество ошибок в секунду при вставке пакета в узел ClickHouse или в дисковый буфер узла.
|
Output Disk Buffer Size (размер дискового буфера)
|
Размер дискового буфера узла ClickHouse.
|
Output Event Loss (потеря событий)
|
Количество событий, которые были безвозвратно потеряны на каждом узле ClickHouse.
|
Batch size (размер пакета)
|
Размер пакета событий для вставки в узел ClickHouse.
|
Insert interval 5min Q1 (интервал вставки)
|
Длительность первого квартиля интервала вставки событий за последние 5 минут.
|
ClickHouse / General (общие параметры) – метрики, относящиеся к общим параметрам кластера ClickHouse
Название метрики
|
Описание
|
Active Queries (активные запросы)
|
Количество выполняемых запросов, отправленных кластеру ClickHouse. Эта метрика отображается для каждого экземпляра ClickHouse.
|
QPS (запросы в секунду)
|
Количество запросов, отправленных кластеру ClickHouse в секунду.
|
Failed QPS (безуспешные запросы в секунду)
|
Количество безуспешных запросов, отправленных кластеру ClickHouse в секунду.
|
Allocated memory (назначенная память)
|
Количество RAM, назначенное процессу ClickHouse (зависит от технических характеристик сервера и может выражаться, например, в ГБ или МБ).
|
Active parts (активные части)
|
Количество активных частей.
Активные части – это данные (файлы на диске), которые используются для обработки запросов в настоящее время.
|
Detached parts (count) (количество отключенных частей)
|
Количество отключенных (отсоединенных) частей.
Отключенные части – это данные, которые существуют на диске, но не участвуют в файловых операциях чтения и записи.
|
Detached parts (size) (размер отключенных частей)
|
Объем дискового пространства, который занимают отключенные части.
Вы можете указать максимальное значение размера отключенных частей от 1% до 90%. По умолчанию установлено значение 1%.
Если размер отключенных частей превышает установленное максимальное значение, KUMA присваивает желтый статус запущенному сервису хранилища в разделе Активные сервисы.
|
ClickHouse / Insert (вставка) – метрики, относящиеся к вставке событий в экземпляр ClickHouse
Название метрики
|
Описание
|
Insert EPS (вставка событий)
|
Количество событий, вставленных в экземпляр ClickHouse за секунду.
|
Insert QPS (запросы на вставку в секунду)
|
Количество запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду.
Если на метрике Insert QPS растет очередь из запросов и показатель превышает 1, мы рекомендуем посмотреть также значение метрики Batch size, чтобы скорректировать параметры буферизации хранилища в настройках конфигурации сервиса хранилища.
Пример:
Показатель метрики Insert QPS превышает 1 и равен 8.
Показатель Batch size - 1,2 ГБ (в байтах).
В этом случае следует определить размер буфера, перемножив показатели метрик Insert QPS и Batch size:
8 * 1.2 = 9.6 ГБ.
Полученное значение 9.6 следует округлить и указать в байтах (например, 10000000000 байт) в качестве значения параметра Размер буфера на вкладке Дополнительные параметры в настройках конфигурации сервиса хранилища. Также следует указать значение параметра Интервал очистки буфера - 2 с. Увеличение размера буфера и интервала очистки буфера позволит разгрузить очередь запросов. В норме показатель метрики Insert QPS не превышает 1.
|
Failed Insert QPS (безуспешные запросы на вставку в секунду)
|
Количество безуспешных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду.
|
Delayed Insert QPS (отложенные запросы на вставку в секунду)
|
Количество отложенных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отложены узлом ClickHouse из-за превышения мягкого лимита активных слияний.
|
Rejected Insert QPS (отклоненные запросы на вставку в секунду)
|
Количество отклоненных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отклонены узлом ClickHouse из-за превышения жесткого лимита активных слияний.
|
Active Merges (активные слияния)
|
Количество активных слияний.
|
Distribution Queue (очередь распределения)
|
Количество временных файлов с событиями, которые не удалось вставить в экземпляр ClickHouse из-за того, что он был недоступен. Эти события невозможно найти с помощью поиска.
|
ClickHouse / Select (выборка) – метрики, относящиеся к выборке событий в экземпляре ClickHouse
Название метрики
|
Описание
|
Select QPS (запросы на выборку в секунду)
|
Количество запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду.
|
Failed Select QPS (безуспешные запросы на выборку в секунду)
|
Количество безуспешных запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду.
|
ClickHouse / Replication (репликация) – метрики, относящиеся к репликам узлов ClickHouse
Название метрики
|
Описание
|
Active Zookeeper Connections (активные подключения к Zookeeper)
|
Количество активных подключений к узлам кластера Zookeeper. При нормальной работе это число должно быть равным количеству узлов кластера Zookeeper.
|
Read-only Replicas (реплики read-only)
|
Количество реплик узлов ClickHouse в режиме read-only. При нормальной работе таких реплик узлов ClickHouse быть не должно.
|
Active Replication Fetches (активные процессы скачивания)
|
Количество активных процессов скачивания данных с узла ClickHouse при репликации данных.
|
Active Replication Sends (активные процессы отправки)
|
Количество активных процессов отправки данных узлу ClickHouse при репликации данных.
|
Active Replication Consistency Checks (активные процессы проверки консистентности)
|
Количество активных проверок консистентности данных на репликах узлов ClickHouse при репликации данных.
|
ClickHouse / Networking (сеть) – метрики, относящиеся к сети кластера ClickHouse
Название метрики
|
Описание
|
Active HTTP Connections (активные HTTP-подключения)
|
Количество активных подключений к HTTP-серверу кластера ClickHouse.
|
Active TCP Connections (активные TCP-подключения)
|
Количество активных подключений к TCP-серверу кластера ClickHouse.
|
Active Interserver Connections (активные подключения между серверами)
|
Количество активных служебных подключений между узлами ClickHouse.
|
Agents (агенты)
Название метрики
|
Описание
|
Memory (память)
|
Использование RAM (RSS) в мегабайтах.
|
Disk BPS (считанные/записанные байты диска)
|
Количество байтов, считанных/записанных на диск за секунду.
|
Network BPS (байты, принятые/переданные по сети)
|
Количество байтов, принятых/переданных по сети за секунду.
|
Network Packet Loss (потеря пакетов)
|
Количество сетевых пакетов, потерянных за секунду.
|
GC Latency (задержка сборщика мусора)
|
Время в миллисекундах, затраченное на проведение цикла сборщика мусора GO (Garbage Collector). Отображается медиана.
|
Goroutines (горутины)
|
Количество активных горутин. Это число отличается от количества потоков операционной системы.
|
OS (операционная система) – метрики, относящиеся к операционной системе
Название метрики
|
Описание
|
Load (нагрузка)
|
Средняя нагрузка.
|
CPU (ЦП)
|
Загрузка центрального процессора в процентах.
|
Memory (память)
|
Использование RAM (RSS) в процентах.
|
Disk (диск)
|
Использование дискового пространства в процентах.
|
Disk used (events) (используемое пространство диска с событиями)
|
Часть раздела /opt в процентах, занятая событиями.
|
Disk used (except events) (используемое пространство диска без событий)
|
Часть раздела /opt в процентах, занятая данными, за исключением событий.
|
Метрики Ядра KUMA
Raft – метрики, относящиеся к чтению и обновлению состояния Ядра KUMA
Название метрики
|
Описание
|
Lookup RPS (запросы на чтение в секунду)
|
Количество запросов на выполнение процедур чтения, отправленных Ядру KUMA за секунду, и сами процедуры.
|
Lookup Latency (время обработки запроса на чтение)
|
Время в миллисекундах, затраченное на выполнение процедур чтения, и сами процедуры. Отображается время для 99-ого процентиля процедур чтения. Один процент процедур чтения может выполняться дольше.
|
Propose RPS (запросы на обновление состояния в секунду)
|
Количество запросов на выполнение процедур обновления состояния Raft (SQLite), отправленных Ядру KUMA за секунду, и сами процедуры.
|
Propose Latency (время обработки запроса на обновление состояния)
|
Время в миллисекундах, затраченное на выполнение процедур обновления состояния Raft (SQLite), и сами процедуры. Отображается время для 99-ого процентиля процедур обновления состояния. Один процент процедур обновления состояния может выполняться дольше.
|
Data mining – метрики, относящиеся к сбору и анализу данных
Название метрики
|
Описание
|
Executing Rules (количество запущенных планировщиков)
|
Количество запущенных планировщиков для выполнения запросов сбора и анализа данных.
|
Queued Rules (количество планировщиков в очереди)
|
Количество планировщиков для выполнения запросов сбора и анализа данных в очереди.
|
Execution Errors (количество ошибок запуска планировщика)
|
Количество ошибок при выполнении запуска планировщика сбора и анализа данных.
|
Execution Latency (время выполнения)
|
Время выполнения запросов планировщика.
|
Tasks – метрики, относящиеся к мониторингу выполнения задач на Ядре KUMA
Название метрики
|
Описание
|
Active tasks (выполняемые задачи)
|
Количество выполняемых задач за единицу времени.
|
Task Execution latency (время выполняемых задач)
|
Время выполняемых задач в секундах.
|
Errors (количество ошибок)
|
Количество ошибок при выполнении задач.
|
API – метрики, относящиеся к API-запросам
Название метрики
|
Описание
|
RPS (запросы в секунду)
|
Количество API-запросов, отправленных Ядру KUMA за секунду.
|
Latency (задержка)
|
Время в миллисекундах, затраченное на обработку одного API-запроса к Ядру KUMA. Отображается медиана.
|
Errors (ошибки)
|
Количество ошибок, возникших за секунду при отправке API-запросов Ядру KUMA.
|
Notification Feed (фид уведомлений) – метрики, относящиеся к активности пользователей
Название метрики
|
Описание
|
Subscriptions (подписки)
|
Количество клиентов, подключенных к Ядру KUMA через SSE для получения сообщений сервера в реальном времени. Обычно это число равно количеству клиентов, использующих веб-интерфейс KUMA.
|
Errors (ошибки)
|
Количество ошибок, возникших в секунду при отправке уведомлений пользователям.
|
Schedulers (планировщики) – метрики, относящиеся к задачам Ядра KUMA
Название метрики
|
Описание
|
Active (активные)
|
Количество повторяющихся активных системных задач. Задачи, созданные пользователем, игнорируются.
|
Latency (задержка)
|
Время в миллисекундах, затраченное на выполнение задачи. Отображается медиана.
|
Errors (ошибки)
|
Количество ошибок, возникших в секунду при выполнении задач.
|
Alerts Queue (очередь алертов)
|
Количество алертов в очереди на вставку в базу данных.
|
IO (ввод-вывод) – метрики, относящиеся к состоянию узлов Ядра KUMA
Название метрики
|
Описание
|
Output Disk Buffer Size (размер дискового буфера)
|
Размер каждого из дисковых файловых буферов на узле Ядра KUMA для задач отправки событий аудита, мониторинга, сбора и анализа данных на корреляторы.
|
Process (процессы) – метрики, относящиеся к процессам
Название метрики
|
Описание
|
Memory (память)
|
Использование RAM (RSS) в мегабайтах.
|
Disk BPS (считанные/записанные байты диска)
|
Количество байтов, считанных/записанных на диск за секунду.
|
Network BPS (байты, принятые/переданные по сети)
|
Количество байтов, принятых/переданных по сети за секунду.
|
Network Packet Loss (потеря пакетов)
|
Количество сетевых пакетов, потерянных за секунду.
|
GC Latency (задержка сборщика мусора)
|
Время в миллисекундах, затраченное на проведение цикла сборщика мусора GO (Garbage Collector). Отображается медиана.
|
Goroutines (горутины)
|
Количество активных горутин. Это число отличается от количества потоков операционной системы.
|
OS (операционная система) – метрики, относящиеся к операционной системе
Название метрики
|
Описание
|
Load (нагрузка)
|
Средняя нагрузка.
|
CPU (ЦП)
|
Загрузка центрального процессора в процентах.
|
Memory (память)
|
Использование RAM (RSS) в процентах.
|
Disk (диск)
|
Использование дискового пространства в процентах.
|
Метрики агента KUMA
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса
Название метрики
|
Описание
|
Processing EPS (обрабатываемые события в секунду)
|
Количество событий, обработанных в секунду.
|
Output EPS (вывод событий)
|
Количество событий, отправленных точке назначения в секунду.
|
Output Latency (задержка вывода)
|
Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана.
|
Output Errors (ошибки вывода)
|
Количество ошибок, возникших в секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.
|
Output Event Loss (потеря событий)
|
Количество событий, потерянных в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе.
|
Output Disk Buffer Size (размер дискового буфера)
|
Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно.
|
Write Network BPS (байты, принятые в сеть)
|
Количество байт, принятых в сеть в секунду.
|
Process (процессы) – метрики, относящиеся к процессам
Название метрики
|
Описание
|
Memory (память)
|
Использование RAM (RSS) в мегабайтах.
|
Disk BPS (считанные/записанные байты диска)
|
Количество байтов, считанных/записанных на диск за секунду.
|
Network BPS (байты, принятые/переданные по сети)
|
Количество байтов, принятых/переданных по сети за секунду.
|
Network Packet Loss (потеря пакетов)
|
Количество сетевых пакетов, потерянных за секунду.
|
GC Latency (задержка сборщика мусора)
|
Время в миллисекундах, затраченное на проведение цикла сборщика мусора GO (Garbage Collector). Отображается медиана.
|
Goroutines (горутины)
|
Количество активных горутин. Это число отличается от количества потоков операционной системы.
|
OS (операционная система) – метрики, относящиеся к операционной системе
Название метрики
|
Описание
|
Load (нагрузка)
|
Средняя нагрузка.
|
CPU (ЦП)
|
Загрузка центрального процессора в процентах.
|
Memory (память)
|
Использование RAM (RSS) в процентах.
|
Disk (диск)
|
Использование дискового пространства в процентах.
|
Метрики маршрутизатора событий
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса
Название метрики
|
Описание
|
Processing EPS (обрабатываемые события в секунду)
|
Количество событий, обработанных в секунду.
|
Output EPS (вывод событий)
|
Количество событий, отправленных точке назначения в секунду.
|
Output Latency (задержка вывода)
|
Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана.
|
Output Errors (ошибки вывода)
|
Количество ошибок, возникших в секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.
|
Output Event Loss (потеря событий)
|
Количество событий, потерянных в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе.
|
Output Disk Buffer Size (размер дискового буфера)
|
Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно.
|
Write Network BPS (байты, принятые в сеть)
|
Количество байт, принятых в сеть в секунду.
|
Process (процессы) – метрики, относящиеся к процессам
Название метрики
|
Описание
|
Memory (память)
|
Использование RAM (RSS) в мегабайтах.
|
Disk BPS (считанные/записанные байты диска)
|
Количество байтов, считанных/записанных на диск за секунду.
|
Network BPS (байты, принятые/переданные по сети)
|
Количество байтов, принятых/переданных по сети за секунду.
|
Network Packet Loss (потеря пакетов)
|
Количество сетевых пакетов, потерянных за секунду.
|
GC Latency (задержка сборщика мусора)
|
Время в миллисекундах, затраченное на проведение цикла сборщика мусора GO (Garbage Collector). Отображается медиана.
|
Goroutines (горутины)
|
Количество активных горутин. Это число отличается от количества потоков операционной системы.
|
OS (операционная система) – метрики, относящиеся к операционной системе
Название метрики
|
Описание
|
Load (нагрузка)
|
Средняя нагрузка.
|
CPU (ЦП)
|
Загрузка центрального процессора в процентах.
|
Memory (память)
|
Использование RAM (RSS) в процентах.
|
Disk (диск)
|
Использование дискового пространства в процентах.
|
Метрики, относящиеся к тенантам
Tenants Overview – метрики, относящиеся к тенантам
Название метрики
|
Описание
|
License EPS (событий в секунду по условиям лицензии)
|
Количество событий в секунду, поступающих в рамках тенанта.
|
Срок хранения метрик
По умолчанию данные о работе KUMA хранятся 3 месяца. Этот срок можно изменить.
Чтобы изменить срок хранения метрик KUMA:
- Войдите в ОС сервера, на котором установлено Ядро KUMA.
- В файле /etc/systemd/system/multi-user.target.wants/kuma-victoria-metrics.service в параметре ExecStart измените флаг
--retentionPeriod=<срок хранения метрик в месяцах>, подставив нужный срок. Например, --retentionPeriod=4 означает, что метрики будут храниться 4 месяца. - Перезапустите KUMA, выполнив последовательно следующие команды:
systemctl daemon-reloadsystemctl restart kuma-victoria-metrics
Срок хранения метрик изменен.
В начало