Просмотр метрик KUMA

Для отслеживания работы своих компонентов, потока событий, контекста корреляции в KUMA выполняется сбор и хранение большого количества параметров. Для сбора, хранения и анализа параметров используется решение VictoriaMetrics, представляющее собой СУБД в формате временных рядов. Визуализация собранных метрик осуществляется с помощью Grafana. В разделе KUMA → Meтрики представлены панели мониторинга с визуализацией ключевых параметров работы различных компонентов KUMA.
Сервис Ядра KUMA выполняет настройку параметров VicrtoriaMectics и Grafana автоматически, участие пользователя не требуется.

Визуализация собранных метрик осуществляется с помощью решения Grafana. RPM-пакет службы kuma-core формирует конфигурацию Grafana и создает отдельную панель мониторинга для визуализации метрик каждого сервиса. Графики в разделе Метрики появляются с задержкой около 1,5 минут.

Полная информация о метриках доступна в разделе Метрики веб-интерфейса KUMA. При выборе этого раздела открывается автоматически обновляемый портал Grafana, развернутый во время установки Ядра. Если в разделе Метрики вы видите core:<номер порта>, это означает, что KUMA развернута в отказоустойчивой конфигурации и метрики получены с хоста, на котором было установлено Ядро. В прочих конфигурациях отображается имя хоста, с которого KUMA получает метрики.

Метрики коллекторов

Название метрики

Описание

IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.

Processing EPS (обрабатываемые события в секунду)

Количество событий, обработанных за секунду.

Output EPS (вывод событий)

Количество событий, отправленных точке назначения за секунду.

Output Latency (задержка вывода)

Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана.

Output Errors (ошибки вывода)

Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.

Output Event Loss (потеря событий)

Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе.

Output Disk Buffer SIze (размер дискового буфера)

Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно.

Write Network BPS (байты, принятые в сеть)

Количество байт, принятых в сеть за секунду.

Connector errors (ошибки коннектора)

Количество ошибок в логах коннектора.

Normalization (нормализация) – метрики, относящиеся к нормализаторам.

Raw & Normalized event size (размер сырых и нормализованных событий)

Размер необработанного и нормализованного событий. Отображается медиана.

Errors (ошибки)

Количество ошибок нормализации, возникших за секунду.

Filtration (фильтрация) – метрики, относящиеся к фильтрам.

EPS (события, обрабатываемые за секунду)

Количество событий, удовлетворяющих условиям фильтра и отправленных в обработку за секунду. Коллектор обрабатывает события, удовлетворяющие условиям фильтра, только если пользователь добавил фильтр в конфигурацию сервиса коллектора.

Aggregation (агрегация) – показатели, относящиеся к правилам агрегации.

EPS (события, обрабатываемые в секунду)

Количество событий, полученных и созданных правилом агрегации за секунду. Эта метрика помогает определить эффективность правил агрегации.

Buckets (контейнеры)

Количество контейнеров в правиле агрегации.

Enrichment (обогащение) – метрики, относящиеся к правилам обогащения.

Cache RPS (запросы к кешу в секунду)

Количество запросов, отправленных локальному кешу за секунду.

Source RPS (запросы к источнику в секунду)

Количество запросов, отправленных источнику обогащения, например словарю, за секунду.

Source Latency (задержка источника)

Время в миллисекундах, затраченное на отправку запроса источнику обогащения и получение от него ответа. Отображается медиана.

Queue (очередь)

Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения.

Errors (ошибки)

Количество ошибок, возникших за секунду при отправке запросов источнику обогащения.

Метрики корреляторов

Название метрики

Описание

IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.

Processing EPS (обрабатываемые события в секунду)

Количество событий, обработанных за секунду.

Output EPS (вывод событий)

Количество событий, отправленных точке назначения за секунду.

Output Latency (задержка вывода)

Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана.

Output Errors (ошибки вывода)

Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.

Output Event Loss (потеря событий)

Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе.

Output Disk Buffer SIze (размер дискового буфера)

Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно.

Correlation (корреляция) – метрики, относящиеся к правилам корреляции.

EPS (события, обрабатываемые в секунду)

Количество корреляционных событий, созданных правилом корреляции за секунду.

Buckets (контейнеры)

Количество контейнеров в правиле корреляции стандартного типа.

Rate Limiter Hits (лимит срабатываний)

Количество превышений правилом корреляции лимита срабатываний за секунду.

Active Lists OPS (запросы к активному листу в секунду)

Количество запросов на выполнение операций, отправленных активному листу за секунду, и сами операции.

Active Lists Records (записи в активном листе)

Количество записей в активном листе.

Active Lists On-Disk Size (размер на диске)

Размер активного листа на диске в байтах.

Enrichment (обогащение) – метрики, относящиеся к правилам обогащения.

Cache RPS (запросы к кешу в секунду)

Количество запросов, отправленных локальному кешу за секунду.

Source RPS (запросы к источнику в секунду)

Количество запросов, отправленных источнику обогащения, например словарю, за секунду.

Source Latency (задержка источника)

Время в миллисекундах, затраченное на отправку запроса источнику обогащения и получение от него ответа. Отображается медиана.

Queue (очередь)

Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения.

Errors (ошибки)

Количество ошибок, возникших за секунду при отправке запросов источнику обогащения.

Response (ответ) – метрики, относящиеся к правилам реагирования.

RPS (запросы в секунду)

Количество активаций правила реагирования за секунду.

Метрики хранилища

Название метрики

Описание

Clickhouse / General (общие параметры) – метрики, относящиеся к общим параметрам кластера ClickHouse.

Active Queries (активные запросы)

Количество выполняемых запросов, отправленных кластеру ClickHouse. Эта метрика отображается для каждого экземпляра ClickHouse.

QPS (запросы в секунду)

Количество запросов, отправленных кластеру ClickHouse за секунду.

Failed QPS (безуспешные запросы в секунду)

Количество безуспешных запросов, отправленных кластеру ClickHouse за секунду.

Allocated memory (назначенная память)

Количество RAM в гигабайтах, назначенное процессу ClickHouse.

Clickhouse / Insert (вставка) – метрики, относящиеся к вставке событий в экземпляр ClickHouse.

Insert EPS (вставка событий)

Количество событий, вставленных в экземпляр ClickHouse за секунду.

Insert QPS (запросы на вставку в секунду)

Количество запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду.

Failed Insert QPS (безуспешные запросы на вставку в секунду)

Количество безуспешных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду.

Delayed Insert QPS (отложенные запросы на вставку в секунду)

Количество отложенных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отложены узлом ClickHouse из-за превышения мягкого лимита активных слияний.

Rejected Insert QPS (отклоненные запросы на вставку в секунду)

Количество отклоненных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отклонены узлом ClickHouse из-за превышения жесткого лимита активных слияний.

Active Merges (активные слияния)

Количество активных слияний.

Distribution Queue (очередь распределения)

Количество временных файлов с событиями, которые не удалось вставить в экземпляр ClickHouse из-за того, что он был недоступен. Эти события невозможно найти с помощью поиска.

Clickhouse / Select (выборка) – метрики, относящиеся к выборке событий в экземпляре ClickHouse.

Select QPS (запросы на выборку в секунду)

Количество запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду.

Failed Select QPS (безуспешные запросы на выборку в секунду)

Количество безуспешных запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду.

Clickhouse / Replication (репликация) – метрики, относящиеся к репликам узлов ClickHouse.

Active Zookeeper Connections (активные подключения к Zookeeper)

Количество активных подключений к узлам кластера Zookeeper. При нормальной работе это число должно быть равным количеству узлов кластера Zookeeper.

Read-only Replicas (реплики read-only)

Количество реплик узлов ClickHouse в режиме read-only. При нормальной работе таких реплик узлов ClickHouse быть не должно.

Active Replication Fetches (активные процессы скачивания)

Количество активных процессов скачивания данных с узла ClickHouse при репликации данных.

Active Replication Sends (активные процессы отправки)

Количество активных процессов отправки данных узлу ClickHouse при репликации данных.

Active Replication Consistency Checks (активные процессы проверки консистентности)

Количество активных проверок консистентности данных на репликах узлов ClickHouse при репликации данных.

Clickhouse / Networking (сеть) – метрики, относящиеся к сети кластера ClickHouse.

Active HTTP Connections (активные HTTP-подключения)

Количество активных подключений к HTTP-серверу кластера ClickHouse.

Active TCP Connections (активные TCP-подключения)

Количество активных подключений к TCP-серверу кластера ClickHouse.

Active Interserver Connections (активные подключения между серверами)

Количество активных служебных подключений между узлами ClickHouse.

Метрики Ядра

Название метрики

Описание

Raft – метрики, относящиеся к чтению и обновлению состояния Ядра.

Lookup RPS (запросы на чтение в секунду)

Количество запросов на выполнение процедур чтения, отправленных Ядру за секунду, и сами процедуры.

Lookup Latency (время обработки запроса на чтение)

Время в миллисекундах, затраченное на выполнение процедур чтения, и сами процедуры. Отображается время для 99-ого процентиля процедур чтения. Один процент процедур чтения может выполняться дольше.

Propose RPS (запросы на обновление состояния в секунду)

Количество запросов на выполнение процедур обновления состояния, отправленных Ядру за секунду, и сами процедуры.

Propose Latency (время обработки запроса на обновление состояния)

Время в миллисекундах, затраченное на выполнение процедур обновления состояния, и сами процедуры. Отображается время для 99-ого процентиля процедур обновления состояния. Один процент процедур обновления состояния может выполняться дольше.

API – метрики, относящиеся к API-запросам.

RPS (запросы в секунду)

Количество API-запросов, отправленных Ядру за секунду.

Latency (задержка)

Время в миллисекундах, затраченное на обработку одного API-запроса к Ядру. Отображается медиана.

Errors (ошибки)

Количество ошибок, возникших за секунду при отправке API-запросов Ядру.

Notification Feed (фид уведомлений) – метрики, относящиеся к активности пользователей.

Subscriptions (подписки)

Количество клиентов, подключенных к Ядру через SSE для получения сообщений сервера в реальном времени. Обычно это число равно количеству клиентов, использующих веб-интерфейс KUMA.

Errors (ошибки)

Количество ошибок, возникших за секунду при отправке уведомлений пользователям.

Schedulers (планировщики) – метрики, относящиеся к задачам Ядра.

Active (активные)

Количество повторяющихся активных системных задач. Задачи, созданные пользователем, игнорируются.

Latency (задержка)

Время в миллисекундах, затраченное на выполнение задачи. Отображается медиана.

Errors (ошибки)

Количество ошибок, возникших за секунду при выполнении задач.

Метрики агента KUMA

Название метрики

Описание

IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.

Processing EPS (обрабатываемые события в секунду)

Количество событий, обработанных за секунду.

Output EPS (вывод событий)

Количество событий, отправленных точке назначения за секунду.

Output Latency (задержка вывода)

Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана.

Output Errors (ошибки вывода)

Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.

Output Event Loss (потеря событий)

Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе.

Output Disk Buffer SIze (размер дискового буфера)

Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно.

Write Network BPS (байты, принятые в сеть)

Количество байт, принятых в сеть за секунду.

Метрики Event routers

Название метрики

Описание

IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.

Processing EPS (обрабатываемые события в секунду)

Количество событий, обработанных за секунду.

Output EPS (вывод событий)

Количество событий, отправленных точке назначения за секунду.

Output Latency (задержка вывода)

Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана.

Output Errors (ошибки вывода)

Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно.

Output Event Loss (потеря событий)

Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе.

Output Disk Buffer SIze (размер дискового буфера)

Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно.

Write Network BPS (байты, принятые в сеть)

Количество байт, принятых в сеть за секунду.

Connector Errors (ошибки коннектора)

Количество ошибок в журнале коннектора.

Метрики, общие для всех сервисов

Название метрики

Описание

Process – общие метрики процесса.

Memory (память)

Использование RAM (RSS) в мегабайтах.

DISK BPS (считанные/записанные байты диска)

Количество байтов, считанных/записанных на диск за секунду.

Network BPS (байты, принятые/переданные по сети)

Количество байтов, принятых/переданных по сети за секунду.

Network Packet Loss (потеря пакетов)

Количество сетевых пакетов, потерянных за секунду.

GC Latency (задержка сборщика мусора)

Время в миллисекундах, затраченное на проведение цикла сборщика мусора GO (Garbage Collector). Отображается медиана.

Goroutines (гоурутины)

Количество активных гоурутин. Это число отличается от количества потоков операционной системы.

OS (ОС) – метрики, относящиеся к операционной системе.

Load (нагрузка)

Средняя нагрузка.

CPU (ЦП)

Загрузка центрального процессора в процентах.

Memory (память)

Использование RAM (RSS) в процентах.

Disk (диск)

Использование дискового пространства в процентах.

Срок хранения метрик

По умолчанию данные о работе KUMA хранятся 3 месяца. Этот срок можно изменить.

Чтобы изменить срок хранения метрик KUMA:

  1. Войдите в ОС сервера, на котором установлено Ядро KUMA.
  2. В файле /etc/systemd/system/multi-user.target.wants/kuma-victoria-metrics.service в параметре ExecStart измените флаг --retentionPeriod=<срок хранения метрик в месяцах>, подставив нужный срок. Например, --retentionPeriod=4 означает, что метрики будут храниться 4 месяца.
  3. Перезапустите KUMA, выполнив последовательно следующие команды:
    1. systemctl daemon-reload
    2. systemctl restart kuma-victoria-metrics

Срок хранения метрик изменен.

В начало