Просмотр метрик KUMA

Полная информация о рабочих характеристиках Ядра, коллекторов, корреляторов и хранилищ KUMA доступна в разделе Метрики веб-интерфейса KUMA. При выборе этого раздела открывается автоматически обновляемый портал Grafana, развернутый во время установки Ядра KUMA. Если в разделе Метрики вы видите core:<номер порта>, это означает, что KUMA развернута в отказоустойчивой конфигурации и метрики получены с хоста, на котором было установлено Ядро. В прочих конфигурациях отображается имя хоста, с которого KUMA получает метрики.

Логин и пароль Grafana по умолчанию: admin и admin.

Доступные показатели метрик

Показатели коллекторов:

IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
- Processing EPS (Обрабатываемые события в секунду) – количество обрабатываемых событий в секунду.
- Processing Latency (Время обработки события) – время, необходимое для обработки одного события (отображается медиана).
- Output EPS (Вывод событий) – количество событий, отправляемых в точку назначения за секунду.
- Output Latency (Задержка вывода) – время, необходимое для отправки пакета событий в пункт назначения и получения от него ответа (отображается медиана).
- Output Errors (Ошибки вывода) – количество ошибок при отправке пакетов событий в пункт назначения в секунду. Сетевые ошибки и ошибки записи в дисковый буфер отображаются отдельно.
- Output Event Loss (Потеря событий) – количество потерянных событий в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер. События также теряются, если место назначения ответило кодом ошибки (например, если запрос был недействительным).
Normalization (Нормализация) – показатели, относящиеся к нормализаторам.
- Raw & Normalized event size (Размер сырых и нормализованных событий) – размер необработанного события и размер нормализованного события (отображается медиана).
- Errors (Ошибки) – количество ошибок нормализации в секунду.
Filtration (Фильтрация) – показатели, относящиеся к фильтрам.
- EPS (События, обрабатываемые в секунду) – количество событий, отклоняемых Коллектором за секунду. Коллектор отклоняет события только в том случае, если пользователь добавил фильтр в конфигурацию сервиса коллектора.
Aggregation (Агрегация) – показатели, относящиеся к правилам агрегации.
- EPS (События, обрабатываемые в секунду) – количество событий, полученных и созданных правилом агрегации за секунду. Этот показатель помогает определить эффективность правил агрегации.
- Buckets (Контейнеры) – количество контейнеров в правиле агрегации.
Enrichment (Обогащение) – показатели, относящиеся к правилам обогащения.
- Cache RPS (Запросы к кешу в секунду) – количество запросов к локальному кешу в секунду.
- Source RPS (Запросы к источнику в секунду) – количество запросов к источнику обогащения (например, к словарю).
- Source Latency (Задержка источника) – время, необходимое для отправки запроса к источнику обогащения и получения от него ответа (отображается медиана).
- Queue (Очередь) – размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения.
- Errors (Ошибки) – количество ошибок запроса источника обогащения в секунду.

Показатели корреляторов

IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
- Processing EPS (Обрабатываемые события в секунду) – количество обрабатываемых событий в секунду.
- Processing Latency (Время обработки события) – время, необходимое для обработки одного события (отображается медиана).
- Output EPS (Вывод событий) – количество событий, отправляемых в точку назначения за секунду.
- Output Latency (Задержка вывода) – время, необходимое для отправки пакета событий в пункт назначения и получения от него ответа (отображается медиана).
- Output Errors (Ошибки вывода) – количество ошибок при отправке пакетов событий в пункт назначения в секунду. Сетевые ошибки и ошибки записи в дисковый буфер отображаются отдельно.
- Output Event Loss (Потеря событий) – количество потерянных событий в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер. События также теряются, если место назначения ответило кодом ошибки (например, если запрос был недействительным).
Correlation (Корреляция) – показатели, относящиеся к правилам корреляции.
- EPS (События, обрабатываемые в секунду) – количество корреляционных событий, создаваемых за секунду.
- Buckets (Контейнеры) – количество контейнеров в правиле корреляции (только для правил корреляции стандартного типа).
Active Lists (Активные листы) – показатели, относящиеся к активным листам.
- RPS (Запросы в секунду) – количество запросов (и их тип) к активному листу в секунду.
- Records (Записи) – количество записей в активном листе.
- WAL Size (Размер журнала Write-Ahead-Log) – размер журнала упреждающей записи. Эта метрика помогает определить размер активного листа.

Показатели хранилища

IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
- RPS (Запросы в секунду) – количество запросов к Хранилищу в секунду.
- Latency (Задержка) – время проксирования одного запроса к узлу ClickHouse (отображается медиана).

Показатели Ядра

IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
- RPS (Запросы в секунду) – количество запросов к Ядру в секунду.
- Latency (Задержка) – время обработки одного запроса (отображается медиана).
- Errors (Ошибки) – количество ошибок запросов в секунду.
Notification Feed (Фид уведомлений) – показатели, относящиеся к активности пользователей.
- Subscriptions (Подписки) – количество клиентов, подключенных к Ядру через SSE для получения сообщений сервера в реальном времени. Это число обычно коррелирует с количеством клиентов, использующих веб-интерфейс KUMA.
- Errors (Ошибки) – количество ошибок отправки сообщений в секунду.
Schedulers (Планировщики) – показатели, относящиеся к задачам Ядра.
- Active (Активные) – количество повторяющихся активных системных задач. Задачи, созданные пользователем, игнорируются.
- Latency (Задержка) – время обработки одного запроса (отображается медиана).
- Position (Позиция) – позиция (отметка времени) задачи создания алерта. Следующее сканирование ClickHouse на предмет корреляционных событий начнется с этой позиции.
- Errors (Ошибки) – количество ошибок задач в секунду.

Метрики, общие для всех сервисов

Process (Процесс) – общие метрики процесса.
- CPU (ЦП) – загрузка ЦП.
- Memory (Память) – использование RAM (RSS).
- DISK IOPS (Операции чтения/записи диска) – количество операций чтения / записи на диск в секунду.
- DISK BPS (Считанные/записанные байты диска) – количество байтов, считываемых / записываемых на диск в секунду.
- Network BPS (Байты, принятые/переданные по сети) – количество байтов, полученных / отправленных в секунду.
- Network Packet Loss (Потеря пакетов) – количество сетевых пакетов, потерянных в секунду.
- GC Latency (Задержка сборщика мусора) – время цикла сборщика мусора GO (Garbage Collector), отображается медиана.
- Goroutines (Гоурутины) – количество активных гоурутин. Это число отличается от количества потоков.
OS (ОС) – показатели, относящиеся к операционной системе.
- Load (Нагрузка) – средняя нагрузка.
- CPU (ЦП) – загрузка ЦП.
- Memory (Память) – использование RAM (RSS).
- Disk (Диск) – использование дискового пространства.

Срок хранения метрик

По умолчанию данные о работе KUMA хранятся 3 месяца. Этот срок можно изменить.

Чтобы изменить срок хранения метрик KUMA:

Войдите в ОС сервера, на котором установлено Ядро KUMA.
В файле /etc/systemd/system/multi-user.target.wants/kuma-victoria-metrics.service в параметре ExecStart измените флаг --retentionPeriod=<срок хранения метрик в месяцах>, подставив нужный срок. Например, --retentionPeriod=4 означает, что метрики будут храниться 4 месяца.
Перезапустите KUMA, выполнив последовательно следующие команды:
1. systemctl daemon-reload
2. systemctl restart kuma-victoria-metrics

Срок хранения метрик изменен.

В начало