Kaspersky Unified Monitoring and Analysis Platform

Просмотр метрик KUMA

Полная информация о рабочих характеристиках Ядра, коллекторов, корреляторов и хранилищ KUMA доступна в разделе Метрики веб-интерфейса KUMA. При выборе этого раздела открывается автоматически обновляемый портал Grafana, развернутый во время установки Ядра KUMA. Если в разделе Метрики вы видите core:<номер порта>, это означает, что KUMA развернута в отказоустойчивой конфигурации и метрики получены с хоста, на котором было установлено Ядро. В прочих конфигурациях отображается имя хоста, с которого KUMA получает метрики.

Логин и пароль Grafana по умолчанию: admin и admin.

Доступные показатели метрик

Показатели коллекторов:

  • IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
    • Processing EPS (Обрабатываемые события в секунду) – количество обрабатываемых событий в секунду.
    • Processing Latency (Время обработки события) – время, необходимое для обработки одного события (отображается медиана).
    • Output EPS (Вывод событий) – количество событий, отправляемых в точку назначения за секунду.
    • Output Latency (Задержка вывода) – время, необходимое для отправки пакета событий в пункт назначения и получения от него ответа (отображается медиана).
    • Output Errors (Ошибки вывода) – количество ошибок при отправке пакетов событий в пункт назначения в секунду. Сетевые ошибки и ошибки записи в дисковый буфер отображаются отдельно.
    • Output Event Loss (Потеря событий) – количество потерянных событий в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер. События также теряются, если место назначения ответило кодом ошибки (например, если запрос был недействительным).
  • Normalization (Нормализация) – показатели, относящиеся к нормализаторам.
    • Raw & Normalized event size (Размер сырых и нормализованных событий) – размер необработанного события и размер нормализованного события (отображается медиана).
    • Errors (Ошибки) – количество ошибок нормализации в секунду.
  • Filtration (Фильтрация) – показатели, относящиеся к фильтрам.
    • EPS (События, обрабатываемые в секунду) – количество событий, отклоняемых Коллектором за секунду. Коллектор отклоняет события только в том случае, если пользователь добавил фильтр в конфигурацию сервиса коллектора.
  • Aggregation (Агрегация) – показатели, относящиеся к правилам агрегации.
    • EPS (События, обрабатываемые в секунду) – количество событий, полученных и созданных правилом агрегации за секунду. Этот показатель помогает определить эффективность правил агрегации.
    • Buckets (Контейнеры) – количество контейнеров в правиле агрегации.
  • Enrichment (Обогащение) – показатели, относящиеся к правилам обогащения.
    • Cache RPS (Запросы к кешу в секунду) – количество запросов к локальному кешу в секунду.
    • Source RPS (Запросы к источнику в секунду) – количество запросов к источнику обогащения (например, к словарю).
    • Source Latency (Задержка источника) – время, необходимое для отправки запроса к источнику обогащения и получения от него ответа (отображается медиана).
    • Queue (Очередь) – размер очереди запросов на обогащение. Эта метрика помогает найти "узкие места" в правилах обогащения.
    • Errors (Ошибки) – количество ошибок запроса источника обогащения в секунду.

Показатели корреляторов

  • IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
    • Processing EPS (Обрабатываемые события в секунду) – количество обрабатываемых событий в секунду.
    • Processing Latency (Время обработки события) – время, необходимое для обработки одного события (отображается медиана).
    • Output EPS (Вывод событий) – количество событий, отправляемых в точку назначения за секунду.
    • Output Latency (Задержка вывода) – время, необходимое для отправки пакета событий в пункт назначения и получения от него ответа (отображается медиана).
    • Output Errors (Ошибки вывода) – количество ошибок при отправке пакетов событий в пункт назначения в секунду. Сетевые ошибки и ошибки записи в дисковый буфер отображаются отдельно.
    • Output Event Loss (Потеря событий) – количество потерянных событий в секунду. События могут быть потеряны из-за сетевых ошибок или ошибок записи в дисковый буфер. События также теряются, если место назначения ответило кодом ошибки (например, если запрос был недействительным).
  • Correlation (Корреляция) – показатели, относящиеся к правилам корреляции.
    • EPS (События, обрабатываемые в секунду) – количество корреляционных событий, создаваемых за секунду.
    • Buckets (Контейнеры) – количество контейнеров в правиле корреляции (только для правил корреляции стандартного типа).
  • Active Lists (Активные листы) – показатели, относящиеся к активным листам.
    • RPS (Запросы в секунду) – количество запросов (и их тип) к активному листу в секунду.
    • Records (Записи) – количество записей в активном листе.
    • WAL Size (Размер журнала Write-Ahead-Log) – размер журнала упреждающей записи. Эта метрика помогает определить размер активного листа.

Показатели хранилища

  • IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
    • RPS (Запросы в секунду) – количество запросов к Хранилищу в секунду.
    • Latency (Задержка) – время проксирования одного запроса к узлу ClickHouse (отображается медиана).

Показатели Ядра

  • IO (Ввод-вывод) – метрики, относящиеся к вводу и выводу сервиса.
    • RPS (Запросы в секунду) – количество запросов к Ядру в секунду.
    • Latency (Задержка) – время обработки одного запроса (отображается медиана).
    • Errors (Ошибки) – количество ошибок запросов в секунду.
  • Notification Feed (Фид уведомлений) – показатели, относящиеся к активности пользователей.
    • Subscriptions (Подписки) – количество клиентов, подключенных к Ядру через SSE для получения сообщений сервера в реальном времени. Это число обычно коррелирует с количеством клиентов, использующих веб-интерфейс KUMA.
    • Errors (Ошибки) – количество ошибок отправки сообщений в секунду.
  • Schedulers (Планировщики) – показатели, относящиеся к задачам Ядра.
    • Active (Активные) – количество повторяющихся активных системных задач. Задачи, созданные пользователем, игнорируются.
    • Latency (Задержка) – время обработки одного запроса (отображается медиана).
    • Position (Позиция) – позиция (отметка времени) задачи создания алерта. Следующее сканирование ClickHouse на предмет корреляционных событий начнется с этой позиции.
    • Errors (Ошибки) – количество ошибок задач в секунду.

Метрики, общие для всех сервисов

  • Process (Процесс) – общие метрики процесса.
    • CPU (ЦП) – загрузка ЦП.
    • Memory (Память) – использование RAM (RSS).
    • DISK IOPS (Операции чтения/записи диска) – количество операций чтения / записи на диск в секунду.
    • DISK BPS (Считанные/записанные байты диска) – количество байтов, считываемых / записываемых на диск в секунду.
    • Network BPS (Байты, принятые/переданные по сети) – количество байтов, полученных / отправленных в секунду.
    • Network Packet Loss (Потеря пакетов) – количество сетевых пакетов, потерянных в секунду.
    • GC Latency (Задержка сборщика мусора) – время цикла сборщика мусора GO (Garbage Collector), отображается медиана.
    • Goroutines (Гоурутины) – количество активных гоурутин. Это число отличается от количества потоков.
  • OS (ОС) – показатели, относящиеся к операционной системе.
    • Load (Нагрузка) – средняя нагрузка.
    • CPU (ЦП) – загрузка ЦП.
    • Memory (Память) – использование RAM (RSS).
    • Disk (Диск) – использование дискового пространства.

Срок хранения метрик

По умолчанию данные о работе KUMA хранятся 3 месяца. Этот срок можно изменить.

Чтобы изменить срок хранения метрик KUMA:

  1. Войдите в ОС сервера, на котором установлено Ядро KUMA.
  2. В файле /etc/systemd/system/multi-user.target.wants/kuma-victoria-metrics.service в параметре ExecStart измените флаг --retentionPeriod=<срок хранения метрик в месяцах>, подставив нужный срок. Например, --retentionPeriod=4 означает, что метрики будут храниться 4 месяца.
  3. Перезапустите KUMA, выполнив последовательно следующие команды:
    1. systemctl daemon-reload
    2. systemctl restart kuma-victoria-metrics

Срок хранения метрик изменен.