ML и ИИ в системе мониторинга: прогнозирование и предотвращение инцидентов

ML и ИИ в системе мониторинга: прогнозирование и предотвращение инцидентов

Вы уже создали систему мониторинга, которая отслеживает инциденты в реальном времени. Теперь наступает следующий этап — переход от реакции на сбои к их предотвращению. Это возможно с помощью ML-моделей, способных прогнозировать поведение метрик на 15 минут вперёд.

Почему именно 15 минут?

Прогноз на слишком большой горизонт теряет точность, а на слишком короткий — полезность. 15 минут — это баланс между достоверностью и временем на реакцию.

За это время можно запустить как автоматическое восстановление (auto-healing), так и ручной разбор инцидента, если сценарий неизвестен или требует анализа.

Какие метрики можно предсказывать?

Модель работает с инфраструктурными, прикладными и бизнес-метриками. Основная метрика, которую нужно прогнозировать, дополняется 5–6 вспомогательными — они повышают точность предсказания.

В число предсказывающих можно включать метрики смежных систем, участвующих в одном бизнес-процессе.

Почему нужен ML, а не просто тренд?

Базовые тренды улавливают линейные изменения, которые видны невооружённым глазом. ML же способен выявлять сложные, неочевидные паттерны и корреляции между метриками, которые недоступны даже опытным администраторам.

На графиках это проявляется как высокая точность прогноза: оранжевая линия (прогноз на 15 минут вперёд) близка к синей (реальным значениям).

Три уровня реакции на прогноз

  • Полная автоматизация: auto-healing и auto-recovery без подтверждения.
  • Контроль человека: автоматическое уведомление администратора для принятия решения.
  • Ручной разбор: при новых или непонятных сценариях — регистрация инцидента и созыв команды. У команды есть 15 минут на анализ и устранение проблемы до её влияния на клиентов.

Кто настраивает модель?

Требуются два специалиста: Data Scientist и Data Analyst. Они могут быть выделены из текущей команды на 10–20% рабочего времени.

Для первичной настройки нужно минимум пять недель исторических данных. Это позволяет модели учесть циклы активности: по дням недели и времени суток.

Обучение модели возможно даже на обычном ноутбуке. Не нужны суперкомпьютеры или огромные хранилища данных.

При сборе метрик раз в минуту (5–6 метрик) объём данных составляет всего несколько мегабайт в сутки.

Срок жизни модели

Модель необходимо переобучать как минимум раз в квартал. Это особенно важно при изменениях в инфраструктуре, бизнес-функциональности или поведении клиентов.

В банковской сфере такие изменения могут быть связаны с изменением ставок, акциями, государственными праздниками или новогодним сезоном.

Как сохранить доверие к модели

Достаточная точность — около 80%. Если из пяти предсказанных событий четыре действительно приводят к инцидентам, модель работает эффективно.

Важно понимать: 100% точности не существует. ML не может предсказать внештатные события, например, обрыв кабеля из-за строительной техники или масштабные сбои в Рунете.

ML-модель — не волшебство, а инструмент. Её задача — дать команде время на проактивные действия, а не заменить экспертов.

Читать оригинал