Полная информация о рабочих характеристиках Ядра, коллекторов, корреляторов и хранилищ KUMA доступна в разделе Метрики веб-интерфейса KUMA. При выборе этого раздела открывается автоматически обновляемый портал Grafana, развернутый во время установки Ядра KUMA. Если в разделе Метрики вы видите core:<номер порта>, это означает, что KUMA развернута в отказоустойчивой конфигурации и метрики получены с хоста, на котором было установлено Ядро. В прочих конфигурациях отображается имя хоста, с которого KUMA получает метрики.
Чтобы определить, на каком хосте работает Ядро, в терминале одного из контроллеров выполните следующую команду:
k0s kubectl get pod -n kuma -o wide
Логин и пароль Grafana по умолчанию: admin и admin.
Доступные показатели метрик
Показатели коллекторов:
IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
Processing EPS (Обрабатываемые события в секунду) – количество обрабатываемых событий в секунду.
Processing Latency (Время обработки события) – время, необходимое для обработки одного события (отображается медиана).
Output EPS (Вывод событий) – количество событий, отправляемых в точку назначения за секунду.
Output Latency (Задержка вывода) – время, необходимое для отправки пакета событий в пункт назначения и получения от него ответа (отображается медиана).
Output Errors (Ошибки вывода) – количество ошибок при отправке пакетов событий в пункт назначения в секунду. Сетевые ошибки и ошибки записи в дисковый буфер отображаются отдельно.
Output Event Loss (Потеря событий) – количество потерянных событий в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер. События также теряются, если место назначения ответило кодом ошибки (например, если запрос был недействительным).
Normalization (Нормализация) – показатели, относящиеся к нормализаторам.
Raw & Normalized event size (Размер сырых и нормализованных событий) – размер необработанного события и размер нормализованного события (отображается медиана).
Errors (Ошибки) – количество ошибок нормализации в секунду.
Filtration (Фильтрация) – показатели, относящиеся к фильтрам.
EPS (События, обрабатываемые в секунду) – количество событий, отклоняемых Коллектором за секунду. Коллектор отклоняет события только в том случае, если пользователь добавил фильтр в конфигурацию сервиса коллектора.
Aggregation (Агрегация) – показатели, относящиеся к правилам агрегации.
EPS (События, обрабатываемые в секунду) – количество событий, полученных и созданных правилом агрегации за секунду. Этот показатель помогает определить эффективность правил агрегации.
Buckets (Контейнеры) – количество контейнеров в правиле агрегации.
Enrichment (Обогащение) – показатели, относящиеся к правилам обогащения.
Cache RPS (Запросы к кешу в секунду) – количество запросов к локальному кешу в секунду.
Source RPS (Запросы к источнику в секунду) – количество запросов к источнику обогащения (например, к словарю).
Source Latency (Задержка источника) – время, необходимое для отправки запроса к источнику обогащения и получения от него ответа (отображается медиана).
Queue (Очередь) – размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения.
Errors (Ошибки) – количество ошибок запроса источника обогащения в секунду.
Показатели корреляторов
IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
Processing EPS (Обрабатываемые события в секунду) – количество обрабатываемых событий в секунду.
Processing Latency (Время обработки события) – время, необходимое для обработки одного события (отображается медиана).
Output EPS (Вывод событий) – количество событий, отправляемых в точку назначения за секунду.
Output Latency (Задержка вывода) – время, необходимое для отправки пакета событий в пункт назначения и получения от него ответа (отображается медиана).
Output Errors (Ошибки вывода) – количество ошибок при отправке пакетов событий в пункт назначения в секунду. Сетевые ошибки и ошибки записи в дисковый буфер отображаются отдельно.
Output Event Loss (Потеря событий) – количество потерянных событий в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер. События также теряются, если место назначения ответило кодом ошибки (например, если запрос был недействительным).
Correlation (Корреляция) – показатели, относящиеся к правилам корреляции.
EPS (События, обрабатываемые в секунду) – количество корреляционных событий, создаваемых за секунду.
Buckets (Контейнеры) – количество контейнеров в правиле корреляции (только для правил корреляции стандартного типа).
Active Lists (Активные листы) – показатели, относящиеся к активным листам.
RPS (Запросы в секунду) – количество запросов (и их тип) к активному листу в секунду.
Records (Записи) – количество записей в активном листе.
WAL Size (Размер журнала Write-Ahead-Log) – размер журнала упреждающей записи. Эта метрика помогает определить размер активного листа.
Показатели хранилища
IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
RPS (Запросы в секунду) – количество запросов к Хранилищу в секунду.
Latency (Задержка) – время проксирования одного запроса к узлу ClickHouse (отображается медиана).
Показатели Ядра
IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
RPS (Запросы в секунду) – количество запросов к Ядру в секунду.
Latency (Задержка) – время обработки одного запроса (отображается медиана).
Errors (Ошибки) – количество ошибок запросов в секунду.
Notification Feed (Фид уведомлений) – показатели, относящиеся к активности пользователей.
Subscriptions (Подписки) – количество клиентов, подключенных к Ядру через SSE для получения сообщений сервера в реальном времени. Это число обычно коррелирует с количеством клиентов, использующих веб-интерфейс KUMA.
Errors (Ошибки) – количество ошибок отправки сообщений в секунду.
Schedulers (Планировщики) – показатели, относящиеся к задачам Ядра.
Active (Активные) – количество повторяющихся активных системных задач. Задачи, созданные пользователем, игнорируются.
Latency (Задержка) – время обработки одного запроса (отображается медиана).
Position (Позиция) – позиция (отметка времени) задачи создания алерта. Следующее сканирование ClickHouse на предмет корреляционных событий начнется с этой позиции.
Errors (Ошибки) – количество ошибок задач в секунду.
Метрики, общие для всех сервисов
Process (Процесс) – общие метрики процесса.
CPU (ЦП) – загрузка ЦП.
Memory (Память) – использование RAM (RSS).
DISK IOPS (Операции чтения/записи диска) – количество операций чтения / записи на диск в секунду.
DISK BPS (Считанные/записанные байты диска) – количество байтов, считываемых / записываемых на диск в секунду.
Network BPS (Байты, принятые/переданные по сети) – количество байтов, полученных / отправленных в секунду.
Network Packet Loss (Потеря пакетов) – количество сетевых пакетов, потерянных в секунду.
GC Latency (Задержка сборщика мусора) – время цикла сборщика мусора GO (Garbage Collector), отображается медиана.
Goroutines (Гоурутины) – количество активных гоурутин. Это число отличается от количества потоков.
OS (ОС) – показатели, относящиеся к операционной системе.
Load (Нагрузка) – средняя нагрузка.
CPU (ЦП) – загрузка ЦП.
Memory (Память) – использование RAM (RSS).
Disk (Диск) – использование дискового пространства.
Срок хранения метрик
По умолчанию данные о работе KUMA хранятся 3 месяца. Этот срок можно изменить.
Чтобы изменить срок хранения метрик KUMA:
Войдите в ОС сервера, на котором установлено Ядро KUMA.
В файле /etc/systemd/system/multi-user.target.wants/kuma-victoria-metrics.service в параметре ExecStart измените флаг --retentionPeriod=<срок хранения метрик в месяцах>, подставив нужный срок. Например, --retentionPeriod=4 означает, что метрики будут храниться 4 месяца.
Перезапустите KUMA, выполнив последовательно следующие команды: