Вы уже создали систему мониторинга, которая отслеживает инциденты в реальном времени. Теперь наступает следующий этап — переход от реакции на сбои к их предотвращению. Это возможно с помощью ML-моделей, способных прогнозировать поведение метрик на 15 минут вперёд.
Почему именно 15 минут?
Прогноз на слишком большой горизонт теряет точность, а на слишком короткий — полезность. 15 минут — это баланс между достоверностью и временем на реакцию.
За это время можно запустить как автоматическое восстановление (auto-healing), так и ручной разбор инцидента, если сценарий неизвестен или требует анализа.
Какие метрики можно предсказывать?
Модель работает с инфраструктурными, прикладными и бизнес-метриками. Основная метрика, которую нужно прогнозировать, дополняется 5–6 вспомогательными — они повышают точность предсказания.
В число предсказывающих можно включать метрики смежных систем, участвующих в одном бизнес-процессе.
Почему нужен ML, а не просто тренд?
Базовые тренды улавливают линейные изменения, которые видны невооружённым глазом. ML же способен выявлять сложные, неочевидные паттерны и корреляции между метриками, которые недоступны даже опытным администраторам.
На графиках это проявляется как высокая точность прогноза: оранжевая линия (прогноз на 15 минут вперёд) близка к синей (реальным значениям).
Три уровня реакции на прогноз
- Полная автоматизация: auto-healing и auto-recovery без подтверждения.
- Контроль человека: автоматическое уведомление администратора для принятия решения.
- Ручной разбор: при новых или непонятных сценариях — регистрация инцидента и созыв команды. У команды есть 15 минут на анализ и устранение проблемы до её влияния на клиентов.
Кто настраивает модель?
Требуются два специалиста: Data Scientist и Data Analyst. Они могут быть выделены из текущей команды на 10–20% рабочего времени.
Для первичной настройки нужно минимум пять недель исторических данных. Это позволяет модели учесть циклы активности: по дням недели и времени суток.
Обучение модели возможно даже на обычном ноутбуке. Не нужны суперкомпьютеры или огромные хранилища данных.
При сборе метрик раз в минуту (5–6 метрик) объём данных составляет всего несколько мегабайт в сутки.
Срок жизни модели
Модель необходимо переобучать как минимум раз в квартал. Это особенно важно при изменениях в инфраструктуре, бизнес-функциональности или поведении клиентов.
В банковской сфере такие изменения могут быть связаны с изменением ставок, акциями, государственными праздниками или новогодним сезоном.
Как сохранить доверие к модели
Достаточная точность — около 80%. Если из пяти предсказанных событий четыре действительно приводят к инцидентам, модель работает эффективно.
Важно понимать: 100% точности не существует. ML не может предсказать внештатные события, например, обрыв кабеля из-за строительной техники или масштабные сбои в Рунете.
ML-модель — не волшебство, а инструмент. Её задача — дать команде время на проактивные действия, а не заменить экспертов.