Условия срабатывания алертов по метрикам KUMA

Если значение метрики KUMA о работе сервиса превышает пороговое значение соответствующего параметра, настроенного в разделе KUMA Мониторинг сервисов, от решения VictoriaMetrics поступает алерт, и в статусе этого сервиса отображается сообщение об ошибке.

Получение алертов от VictoriaMetrics происходит со следующей периодичностью:

Таким образом общая длительность задержки в обновлении статуса сервиса может достигать не более 2-3 минут.

Если вы отключили получение алертов от VictoriaMetrics, некоторые сервисы KUMA все равно могут отображаться с желтым статусом. Это может произойти в следующих случаях:

В таблице ниже представлена информация о том, какие сообщения об ошибке могут появиться в статусе сервиса при получении алерта от VictoriaMetrics и как и на основании каких метрик и параметров они рассчитываются. Подробнее о метриках KUMA, на основании которых могут сработать алерты VictoriaMetrics, см. Просмотр метрик KUMA.

Например, если в таблице Активные сервисы для сервиса отображается желтый статус и сообщение об ошибке High distribution queue (в таблице ниже – столбец "Сообщение об ошибке"), вы можете посмотреть данные в виджете Enrichment, метрика Distribution Queue (в таблице ниже – столбец "Метрики KUMA").

Описание сообщений об ошибках для сервисов KUMA

Сообщение об ошибке

Настраиваемые параметры для алертов

Метрика KUMA

Описание

QPS threshold reached

Интервал/Окно QPS, минуты

Порог QPS

Clickhouse / General (общие параметры) → Failed QPS (безуспешные запросы в секунду)

Сообщение об ошибке отображается, если значение метрики Failed QPS превышает заданное значение параметра Порог QPS в течение интервала времени, заданного параметром Интервал/Окно QPS, минуты.

Например, если из 100 запросов от решения VictoriaMetrics к сервису 25 пришли безуспешные, а параметр Порог QPS равен 0.2, алерт рассчитывается следующим образом:

(25 / 100) * 100 > 0.2 * 100

25% > 20%

Так как процент безуспешных запросов больше, чем заданный порог, для сервиса отобразится сообщение об ошибке.

Failed Insert QPS threshold reached

Интервал/Окно расчета ошибочных вставок QPS, минуты

Порог вставок QPS

Clickhouse / Insert (вставка) → Failed Insert QPS (безуспешные запросы на вставку в секунду)

Сообщение об ошибке отображается, если значение метрики Failed Insert QPS превышает заданное значение параметра Порог вставок QPS в течение интервала времени, заданного параметром Интервал/Окно расчета ошибочных вставок QPS, минуты.

Например, если из 100 запросов от решения VictoriaMetrics к сервису 25 пришли безуспешные, а параметр Порог вставок QPS равен 0.2, алерт рассчитывается следующим образом:

(25 / 100) * 100 > 0.2 * 100

25% > 20%

Так как процент безуспешных запросов больше, чем заданный порог, для сервиса отобразится сообщение об ошибке.

High distribution queue

Порог очереди распределения

Интервал/Окно расчета очереди распределения, минуты

Clickhouse / Insert (вставка) → Distribution Queue (очередь распределения)

Сообщение об ошибке отображается, если значение метрики Distribution Queue превышает заданное значение параметра Порог очереди распределения в течение интервала времени, заданного параметром Интервал/Окно расчета очереди распределения, минуты.

Low disk space

Порог свободного места на диске

OS (ОС) → Disk (диск)

Сообщение об ошибке отображается, если размер свободного места на диске (в процентах) в значении метрики Disk меньше, чем задано в параметре Порог свободного места на диске.

Например, сообщение об ошибке отобразится, если если раздел, на котором установлена KUMA, занимает все место на диске.

Low disk partition space

Порог свободного места на разделе диска

OS (ОС) → Disk (диск)

Сообщение об ошибке отображается, если размер свободного места в разделе диска, с которым работает KUMA (в процентах), осталось меньше, чем задано в параметре Порог свободного места на разделе диска.

Например, сообщение об ошибке отобразится в следующих случаях:

  • При установке KUMA в отказоустойчивой конфигурации, когда диск подключается как том.
  • Если диск монтирован в раздел /opt.

Output Event Loss increasing

Потери исходящих событий

IO (ввод-вывод) → Output Event Loss (потеря событий)

Сообщение об ошибке отображается, если значение метрики Output Event Loss возрастает в течение одной минуты. Вы можете включить или выключить отображение этого сообщения об ошибке с помощью параметра Потери исходящих событий.

Disk buffer size increasing

Интервал/Окно увеличения дискового буфера, минуты

IO (ввод-вывод) → Output Disk Buffer Size (размер дискового буфера)

Сообщение об ошибке отображается, если в течение 10 минут с интервалом, заданным параметром Интервал/Окно увеличения дискового буфера, минуты, значение метрики Output Disk Buffer Size монотонно возрастает.

Например, при значении параметра Интервал/Окно увеличения дискового буфера, минуты равном 2 минуты сообщение об ошибке отобразится, если в течение 10 минут размер дискового буфера будет монотонно возрастать каждые 2 минуты (см. рис. ниже).

Размер дискового буфера увеличивается каждые две минуты.

High enrichment queue

Интервал/Окно увеличения очереди обогащения, минуты

Enrichment (обогащение) → Queue (очередь)

Сообщение об ошибке отображается, если в течение 10 минут с интервалом, заданным параметром Интервал/Окно увеличения очереди обогащения, минуты, значение метрики Queue монотонно возрастает.

Например, при значении параметра Интервал/Окно увеличения очереди обогащения, минуты равном 3 минуты сообщение об ошибке отобразится, если в течение 10 минут очередь обогащения будет монотонно возрастать каждые три минуты.

В случае, изображенном на рисунке ниже, сообщение об ошибке не отобразится, так как на девятой минуте значение метрики уменьшилось, поэтому последовательного монотонного возрастания нет.

Очередь обогащения увеличивается на третьей минуте, а затем уменьшается на шестой минуте.

Enrichment errors increasing

Ошибки обогащения

Enrichment (обогащение) → Errors (ошибки)

Сообщение об ошибке отображается, если значение метрики Errors (количество ошибок) возрастает в течение одной минуты. Вы можете включить или выключить отображение этого сообщения об ошибке с помощью параметра Ошибки обогащения.

Connector log errors increasing

Отключить ошибки коннекторов

IO (ввод-вывод) → Connector Errors (ошибки коннектора)

Сообщение об ошибке отображается, если значение метрики Connector Errors (количество ошибок) возрастает между последовательными опросами метрики решением VictoriaMetrics в течение одной минуты. Вы можете включить или выключить отображение этого сообщения об ошибке с помощью параметра Отключить ошибки коннекторов.

В начало