Если значение метрики KUMA о работе сервиса превышает пороговое значение соответствующего параметра, настроенного в разделе KUMA Мониторинг сервисов, от решения VictoriaMetrics поступает алерт, и в статусе этого сервиса отображается сообщение об ошибке.
Получение алертов от VictoriaMetrics происходит со следующей периодичностью:
Таким образом общая длительность задержки в обновлении статуса сервиса может достигать не более 2-3 минут.
Если вы отключили получение алертов от VictoriaMetrics, некоторые сервисы KUMA все равно могут отображаться с желтым статусом. Это может произойти в следующих случаях:
В таблице ниже представлена информация о том, какие сообщения об ошибке могут появиться в статусе сервиса при получении алерта от VictoriaMetrics и как и на основании каких метрик и параметров они рассчитываются. Подробнее о метриках KUMA, на основании которых могут сработать алерты VictoriaMetrics, см. Просмотр метрик KUMA.
Например, если в таблице Активные сервисы для сервиса отображается желтый статус и сообщение об ошибке High distribution queue
(в таблице ниже – столбец "Сообщение об ошибке"), вы можете посмотреть данные в виджете Enrichment, метрика Distribution Queue (в таблице ниже – столбец "Метрики KUMA").
Описание сообщений об ошибках для сервисов KUMA
Сообщение об ошибке |
Настраиваемые параметры для алертов |
Метрика KUMA |
Описание |
---|---|---|---|
|
Интервал/Окно QPS, минуты Порог QPS |
Clickhouse / General (общие параметры) → Failed QPS (безуспешные запросы в секунду) |
Сообщение об ошибке отображается, если значение метрики Failed QPS превышает заданное значение параметра Порог QPS в течение интервала времени, заданного параметром Интервал/Окно QPS, минуты. Например, если из 100 запросов от решения VictoriaMetrics к сервису 25 пришли безуспешные, а параметр Порог QPS равен 0.2, алерт рассчитывается следующим образом: (25 / 100) * 100 > 0.2 * 100 25% > 20% Так как процент безуспешных запросов больше, чем заданный порог, для сервиса отобразится сообщение об ошибке. |
|
Интервал/Окно расчета ошибочных вставок QPS, минуты Порог вставок QPS |
Clickhouse / Insert (вставка) → Failed Insert QPS (безуспешные запросы на вставку в секунду) |
Сообщение об ошибке отображается, если значение метрики Failed Insert QPS превышает заданное значение параметра Порог вставок QPS в течение интервала времени, заданного параметром Интервал/Окно расчета ошибочных вставок QPS, минуты. Например, если из 100 запросов от решения VictoriaMetrics к сервису 25 пришли безуспешные, а параметр Порог вставок QPS равен 0.2, алерт рассчитывается следующим образом: (25 / 100) * 100 > 0.2 * 100 25% > 20% Так как процент безуспешных запросов больше, чем заданный порог, для сервиса отобразится сообщение об ошибке. |
|
Порог очереди распределения Интервал/Окно расчета очереди распределения, минуты |
Clickhouse / Insert (вставка) → Distribution Queue (очередь распределения) |
Сообщение об ошибке отображается, если значение метрики Distribution Queue превышает заданное значение параметра Порог очереди распределения в течение интервала времени, заданного параметром Интервал/Окно расчета очереди распределения, минуты. |
|
Порог свободного места на диске |
OS (ОС) → Disk (диск) |
Сообщение об ошибке отображается, если размер свободного места на диске (в процентах) в значении метрики Disk меньше, чем задано в параметре Порог свободного места на диске. Например, сообщение об ошибке отобразится, если если раздел, на котором установлена KUMA, занимает все место на диске. |
|
Порог свободного места на разделе диска |
OS (ОС) → Disk (диск) |
Сообщение об ошибке отображается, если размер свободного места в разделе диска, с которым работает KUMA (в процентах), осталось меньше, чем задано в параметре Порог свободного места на разделе диска. Например, сообщение об ошибке отобразится в следующих случаях:
|
|
Потери исходящих событий |
IO (ввод-вывод) → Output Event Loss (потеря событий) |
Сообщение об ошибке отображается, если значение метрики Output Event Loss возрастает в течение одной минуты. Вы можете включить или выключить отображение этого сообщения об ошибке с помощью параметра Потери исходящих событий. |
|
Интервал/Окно увеличения дискового буфера, минуты |
IO (ввод-вывод) → Output Disk Buffer Size (размер дискового буфера) |
Сообщение об ошибке отображается, если в течение 10 минут с интервалом, заданным параметром Интервал/Окно увеличения дискового буфера, минуты, значение метрики Output Disk Buffer Size монотонно возрастает. Например, при значении параметра Интервал/Окно увеличения дискового буфера, минуты равном 2 минуты сообщение об ошибке отобразится, если в течение 10 минут размер дискового буфера будет монотонно возрастать каждые 2 минуты (см. рис. ниже). |
|
Интервал/Окно увеличения очереди обогащения, минуты |
Enrichment (обогащение) → Queue (очередь) |
Сообщение об ошибке отображается, если в течение 10 минут с интервалом, заданным параметром Интервал/Окно увеличения очереди обогащения, минуты, значение метрики Queue монотонно возрастает. Например, при значении параметра Интервал/Окно увеличения очереди обогащения, минуты равном 3 минуты сообщение об ошибке отобразится, если в течение 10 минут очередь обогащения будет монотонно возрастать каждые три минуты. В случае, изображенном на рисунке ниже, сообщение об ошибке не отобразится, так как на девятой минуте значение метрики уменьшилось, поэтому последовательного монотонного возрастания нет. |
|
Ошибки обогащения |
Enrichment (обогащение) → Errors (ошибки) |
Сообщение об ошибке отображается, если значение метрики Errors (количество ошибок) возрастает в течение одной минуты. Вы можете включить или выключить отображение этого сообщения об ошибке с помощью параметра Ошибки обогащения. |
|
Отключить ошибки коннекторов |
IO (ввод-вывод) → Connector Errors (ошибки коннектора) |
Сообщение об ошибке отображается, если значение метрики Connector Errors (количество ошибок) возрастает между последовательными опросами метрики решением VictoriaMetrics в течение одной минуты. Вы можете включить или выключить отображение этого сообщения об ошибке с помощью параметра Отключить ошибки коннекторов. |