Для отслеживания работы своих компонентов, потока событий, контекста корреляции в KUMA выполняется сбор и хранение большого количества параметров. Для сбора, хранения и анализа параметров используется решение VictoriaMetrics, представляющее собой СУБД в формате временных рядов. Визуализация собранных метрик осуществляется с помощью Grafana. В разделе KUMA → Meтрики представлены панели мониторинга с визуализацией ключевых параметров работы различных компонентов KUMA.
Сервис Ядра KUMA выполняет настройку параметров VicrtoriaMectics и Grafana автоматически, участие пользователя не требуется.
Визуализация собранных метрик осуществляется с помощью решения Grafana. RPM-пакет службы kuma-core формирует конфигурацию Grafana и создает отдельную панель мониторинга для визуализации метрик каждого сервиса. Графики в разделе Метрики появляются с задержкой около 1,5 минут.
Полная информация о метриках доступна в разделе Метрики веб-интерфейса KUMA. При выборе этого раздела открывается автоматически обновляемый портал Grafana, развернутый во время установки Ядра. Если в разделе Метрики вы видите core:<номер порта>, это означает, что KUMA развернута в отказоустойчивой конфигурации и метрики получены с хоста, на котором было установлено Ядро. В прочих конфигурациях отображается имя хоста, с которого KUMA получает метрики.
Метрики коллекторов
Название метрики |
Описание |
---|---|
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. |
|
Processing EPS (обрабатываемые события в секунду) |
Количество событий, обработанных за секунду. |
Output EPS (вывод событий) |
Количество событий, отправленных точке назначения за секунду. |
Output Latency (задержка вывода) |
Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана. |
Output Errors (ошибки вывода) |
Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss (потеря событий) |
Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе. |
Output Disk Buffer SIze (размер дискового буфера) |
Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно. |
Write Network BPS (байты, принятые в сеть) |
Количество байт, принятых в сеть за секунду. |
Connector errors (ошибки коннектора) |
Количество ошибок в логах коннектора. |
Normalization (нормализация) – метрики, относящиеся к нормализаторам. |
|
Raw & Normalized event size (размер сырых и нормализованных событий) |
Размер необработанного и нормализованного событий. Отображается медиана. |
Errors (ошибки) |
Количество ошибок нормализации, возникших за секунду. |
Filtration (фильтрация) – метрики, относящиеся к фильтрам. |
|
EPS (события, обрабатываемые за секунду) |
Количество событий, удовлетворяющих условиям фильтра и отправленных в обработку за секунду. Коллектор обрабатывает события, удовлетворяющие условиям фильтра, только если пользователь добавил фильтр в конфигурацию сервиса коллектора. |
Aggregation (агрегация) – показатели, относящиеся к правилам агрегации. |
|
EPS (события, обрабатываемые в секунду) |
Количество событий, полученных и созданных правилом агрегации за секунду. Эта метрика помогает определить эффективность правил агрегации. |
Buckets (контейнеры) |
Количество контейнеров в правиле агрегации. |
Enrichment (обогащение) – метрики, относящиеся к правилам обогащения. |
|
Cache RPS (запросы к кешу в секунду) |
Количество запросов, отправленных локальному кешу за секунду. |
Source RPS (запросы к источнику в секунду) |
Количество запросов, отправленных источнику обогащения, например словарю, за секунду. |
Source Latency (задержка источника) |
Время в миллисекундах, затраченное на отправку запроса источнику обогащения и получение от него ответа. Отображается медиана. |
Queue (очередь) |
Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения. |
Errors (ошибки) |
Количество ошибок, возникших за секунду при отправке запросов источнику обогащения. |
Метрики корреляторов
Название метрики |
Описание |
---|---|
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. |
|
Processing EPS (обрабатываемые события в секунду) |
Количество событий, обработанных за секунду. |
Output EPS (вывод событий) |
Количество событий, отправленных точке назначения за секунду. |
Output Latency (задержка вывода) |
Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана. |
Output Errors (ошибки вывода) |
Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss (потеря событий) |
Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе. |
Output Disk Buffer SIze (размер дискового буфера) |
Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно. |
Correlation (корреляция) – метрики, относящиеся к правилам корреляции. |
|
EPS (события, обрабатываемые в секунду) |
Количество корреляционных событий, созданных правилом корреляции за секунду. |
Buckets (контейнеры) |
Количество контейнеров в правиле корреляции стандартного типа. |
Rate Limiter Hits (лимит срабатываний) |
Количество превышений правилом корреляции лимита срабатываний за секунду. |
Active Lists OPS (запросы к активному листу в секунду) |
Количество запросов на выполнение операций, отправленных активному листу за секунду, и сами операции. |
Active Lists Records (записи в активном листе) |
Количество записей в активном листе. |
Active Lists On-Disk Size (размер на диске) |
Размер активного листа на диске в байтах. |
Enrichment (обогащение) – метрики, относящиеся к правилам обогащения. |
|
Cache RPS (запросы к кешу в секунду) |
Количество запросов, отправленных локальному кешу за секунду. |
Source RPS (запросы к источнику в секунду) |
Количество запросов, отправленных источнику обогащения, например словарю, за секунду. |
Source Latency (задержка источника) |
Время в миллисекундах, затраченное на отправку запроса источнику обогащения и получение от него ответа. Отображается медиана. |
Queue (очередь) |
Размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения. |
Errors (ошибки) |
Количество ошибок, возникших за секунду при отправке запросов источнику обогащения. |
Response (ответ) – метрики, относящиеся к правилам реагирования. |
|
RPS (запросы в секунду) |
Количество активаций правила реагирования за секунду. |
Метрики хранилища
Название метрики |
Описание |
---|---|
Clickhouse / General (общие параметры) – метрики, относящиеся к общим параметрам кластера ClickHouse. |
|
Active Queries (активные запросы) |
Количество выполняемых запросов, отправленных кластеру ClickHouse. Эта метрика отображается для каждого экземпляра ClickHouse. |
QPS (запросы в секунду) |
Количество запросов, отправленных кластеру ClickHouse за секунду. |
Failed QPS (безуспешные запросы в секунду) |
Количество безуспешных запросов, отправленных кластеру ClickHouse за секунду. |
Allocated memory (назначенная память) |
Количество RAM в гигабайтах, назначенное процессу ClickHouse. |
Clickhouse / Insert (вставка) – метрики, относящиеся к вставке событий в экземпляр ClickHouse. |
|
Insert EPS (вставка событий) |
Количество событий, вставленных в экземпляр ClickHouse за секунду. |
Insert QPS (запросы на вставку в секунду) |
Количество запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. |
Failed Insert QPS (безуспешные запросы на вставку в секунду) |
Количество безуспешных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. |
Delayed Insert QPS (отложенные запросы на вставку в секунду) |
Количество отложенных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отложены узлом ClickHouse из-за превышения мягкого лимита активных слияний. |
Rejected Insert QPS (отклоненные запросы на вставку в секунду) |
Количество отклоненных запросов на вставку событий в экземпляр ClickHouse, отправленных кластеру ClickHouse за секунду. Запросы были отклонены узлом ClickHouse из-за превышения жесткого лимита активных слияний. |
Active Merges (активные слияния) |
Количество активных слияний. |
Distribution Queue (очередь распределения) |
Количество временных файлов с событиями, которые не удалось вставить в экземпляр ClickHouse из-за того, что он был недоступен. Эти события невозможно найти с помощью поиска. |
Clickhouse / Select (выборка) – метрики, относящиеся к выборке событий в экземпляре ClickHouse. |
|
Select QPS (запросы на выборку в секунду) |
Количество запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду. |
Failed Select QPS (безуспешные запросы на выборку в секунду) |
Количество безуспешных запросов на выборку событий в экземпляре ClickHouse, отправленных кластеру ClickHouse за секунду. |
Clickhouse / Replication (репликация) – метрики, относящиеся к репликам узлов ClickHouse. |
|
Active Zookeeper Connections (активные подключения к Zookeeper) |
Количество активных подключений к узлам кластера Zookeeper. При нормальной работе это число должно быть равным количеству узлов кластера Zookeeper. |
Read-only Replicas (реплики read-only) |
Количество реплик узлов ClickHouse в режиме read-only. При нормальной работе таких реплик узлов ClickHouse быть не должно. |
Active Replication Fetches (активные процессы скачивания) |
Количество активных процессов скачивания данных с узла ClickHouse при репликации данных. |
Active Replication Sends (активные процессы отправки) |
Количество активных процессов отправки данных узлу ClickHouse при репликации данных. |
Active Replication Consistency Checks (активные процессы проверки консистентности) |
Количество активных проверок консистентности данных на репликах узлов ClickHouse при репликации данных. |
Clickhouse / Networking (сеть) – метрики, относящиеся к сети кластера ClickHouse. |
|
Active HTTP Connections (активные HTTP-подключения) |
Количество активных подключений к HTTP-серверу кластера ClickHouse. |
Active TCP Connections (активные TCP-подключения) |
Количество активных подключений к TCP-серверу кластера ClickHouse. |
Active Interserver Connections (активные подключения между серверами) |
Количество активных служебных подключений между узлами ClickHouse. |
Метрики Ядра
Название метрики |
Описание |
---|---|
Raft – метрики, относящиеся к чтению и обновлению состояния Ядра. |
|
Lookup RPS (запросы на чтение в секунду) |
Количество запросов на выполнение процедур чтения, отправленных Ядру за секунду, и сами процедуры. |
Lookup Latency (время обработки запроса на чтение) |
Время в миллисекундах, затраченное на выполнение процедур чтения, и сами процедуры. Отображается время для 99-ого процентиля процедур чтения. Один процент процедур чтения может выполняться дольше. |
Propose RPS (запросы на обновление состояния в секунду) |
Количество запросов на выполнение процедур обновления состояния, отправленных Ядру за секунду, и сами процедуры. |
Propose Latency (время обработки запроса на обновление состояния) |
Время в миллисекундах, затраченное на выполнение процедур обновления состояния, и сами процедуры. Отображается время для 99-ого процентиля процедур обновления состояния. Один процент процедур обновления состояния может выполняться дольше. |
API – метрики, относящиеся к API-запросам. |
|
RPS (запросы в секунду) |
Количество API-запросов, отправленных Ядру за секунду. |
Latency (задержка) |
Время в миллисекундах, затраченное на обработку одного API-запроса к Ядру. Отображается медиана. |
Errors (ошибки) |
Количество ошибок, возникших за секунду при отправке API-запросов Ядру. |
Notification Feed (фид уведомлений) – метрики, относящиеся к активности пользователей. |
|
Subscriptions (подписки) |
Количество клиентов, подключенных к Ядру через SSE для получения сообщений сервера в реальном времени. Обычно это число равно количеству клиентов, использующих веб-интерфейс KUMA. |
Errors (ошибки) |
Количество ошибок, возникших за секунду при отправке уведомлений пользователям. |
Schedulers (планировщики) – метрики, относящиеся к задачам Ядра. |
|
Active (активные) |
Количество повторяющихся активных системных задач. Задачи, созданные пользователем, игнорируются. |
Latency (задержка) |
Время в миллисекундах, затраченное на выполнение задачи. Отображается медиана. |
Errors (ошибки) |
Количество ошибок, возникших за секунду при выполнении задач. |
Метрики агента KUMA
Название метрики |
Описание |
---|---|
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. |
|
Processing EPS (обрабатываемые события в секунду) |
Количество событий, обработанных за секунду. |
Output EPS (вывод событий) |
Количество событий, отправленных точке назначения за секунду. |
Output Latency (задержка вывода) |
Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана. |
Output Errors (ошибки вывода) |
Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss (потеря событий) |
Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе. |
Output Disk Buffer SIze (размер дискового буфера) |
Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно. |
Write Network BPS (байты, принятые в сеть) |
Количество байт, принятых в сеть за секунду. |
Метрики Event routers
Название метрики |
Описание |
---|---|
IO (ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса. |
|
Processing EPS (обрабатываемые события в секунду) |
Количество событий, обработанных за секунду. |
Output EPS (вывод событий) |
Количество событий, отправленных точке назначения за секунду. |
Output Latency (задержка вывода) |
Время в миллисекундах, затраченное на отправку пакета событий точке назначения и получение от нее ответа. Отображается медиана. |
Output Errors (ошибки вывода) |
Количество ошибок, возникших за секунду при отправке пакетов событий точке назначения. Сетевые ошибки и ошибки записи в дисковый буфер точки назначения отображаются отдельно. |
Output Event Loss (потеря событий) |
Количество событий, потерянных за секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер точки назначения. События также теряются, если точка назначения отвечает кодом ошибки, например при недействительном запросе. |
Output Disk Buffer SIze (размер дискового буфера) |
Размер дискового буфера коллектора, связанного с точкой назначения, в байтах. Если отображается ноль, в дисковой буфер коллектора не помещен ни один пакет событий, и сервис работает правильно. |
Write Network BPS (байты, принятые в сеть) |
Количество байт, принятых в сеть за секунду. |
Connector Errors (ошибки коннектора) |
Количество ошибок в журнале коннектора. |
Метрики, общие для всех сервисов
Название метрики |
Описание |
---|---|
Process – общие метрики процесса. |
|
Memory (память) |
Использование RAM (RSS) в мегабайтах. |
DISK BPS (считанные/записанные байты диска) |
Количество байтов, считанных/записанных на диск за секунду. |
Network BPS (байты, принятые/переданные по сети) |
Количество байтов, принятых/переданных по сети за секунду. |
Network Packet Loss (потеря пакетов) |
Количество сетевых пакетов, потерянных за секунду. |
GC Latency (задержка сборщика мусора) |
Время в миллисекундах, затраченное на проведение цикла сборщика мусора GO (Garbage Collector). Отображается медиана. |
Goroutines (гоурутины) |
Количество активных гоурутин. Это число отличается от количества потоков операционной системы. |
OS (ОС) – метрики, относящиеся к операционной системе. |
|
Load (нагрузка) |
Средняя нагрузка. |
CPU (ЦП) |
Загрузка центрального процессора в процентах. |
Memory (память) |
Использование RAM (RSS) в процентах. |
Disk (диск) |
Использование дискового пространства в процентах. |
Срок хранения метрик
По умолчанию данные о работе KUMA хранятся 3 месяца. Этот срок можно изменить.
Чтобы изменить срок хранения метрик KUMA:
--retentionPeriod=<срок хранения метрик в месяцах>
, подставив нужный срок. Например, --retentionPeriod=4
означает, что метрики будут храниться 4 месяца.systemctl daemon-reload
systemctl restart kuma-victoria-metrics
Срок хранения метрик изменен.
В начало