На контроллере домена система EDR фиксирует подозрительную активность. Кажется, ничего особенного — обычный алерт из тысяч, которые ежедневно обрабатывает SOC. Но уже через 15 минут этот инцидент может привести к полному хаосу в отделе информационной безопасности и парализовать всю компанию.
SOC против ИИ
Современный SOC работает в условиях перегрузки: на одного аналитика может приходиться до 1000 алертов в сутки, при этом до 95% из них — ложноположительные. При такой нагрузке расследование реальных инцидентов, особенно многоэтапных атак, может растягиваться на месяцы, что увеличивает риски для бизнеса.
Использование ИИ-ассистентов в безопасности выглядит логичным шагом. Однако важно трезво оценивать их возможности. В марте 2026 года Anthropic опубликовали исследование «Labor market impacts of AI: A new measure and early evidence» (авторы — Maxim Massenkoff и Peter McCrory), в котором проанализировали, насколько различные профессии могут быть автоматизированы с помощью ИИ.
В исследовании выделяют два показателя: теоретическая экспозиция (theoretical exposure) и наблюдаемая экспозиция (observed exposure). Первая — это потенциал автоматизации задач на основе анализа O*NET и использования Claude. Вторая — реальная доля задач, уже автоматизируемых с помощью ИИ.
Для профессий в области компьютерных наук и математики теоретическая экспозиция достигает 94%, тогда как наблюдаемая — всего 33%. Разрыв между ними — это нереализованный потенциал, который постепенно сокращается.
Исследование показало, что, несмотря на 94% теоретического потенциала автоматизации в сфере компьютерных наук, реальное использование Claude покрывает лишь 33% задач. База O*NET охватывает около 800 профессий в США.
Однако внедрение ИИ в безопасность не может происходить стихийно. Его нужно систематически проектировать с учётом всех ограничений. Возникает разрыв между скоростью освоения ИИ и скоростью внедрения защиты.
Почему старые методы защиты не работают? Изменилась сама логика систем: стирается граница между кодом и данными, появляется проблема интерпретируемости.
Старые угрозы никуда не делись, и для них по-прежнему работают статические и динамические анализаторы. Но сами по себе они уже недостаточны.
Дополнительную сложность создаёт использование ИИ злоумышленниками. Появляется возможность промпт-инъекций — манипуляции поведением модели через запросы на естественном языке. Для модели обычный запрос и вредоносный промпт — одинаковый набор токенов. Злоумышленник может внедрить инструкцию в данные, например, в описание тикета или логи, и агент выполнит её, не отличив от легитимной задачи.
С токенизацией связана и проблема glitch-токенов — аномальных токенов, вызывающих непредсказуемое поведение. Они возникают из-за недостатка данных в обучающей выборке. Модель «не знает, что с ними делать», что приводит к галлюцинациям, бессмысленным ответам или генерации оскорбительного контента. Например:
- При запросе повторить «SolidGoldMagikarp» модель Text-Davinci-003 отвечала «Distribute».
- При запросе повторить «Mediabestanden» модель Llama2-7b-chat выдавала «hello world».
ИБ-ассистент в такой ситуации — как новичок: он быстро обрабатывает терабайты данных, знает MITRE ATT&CK® и работает без устали. Но он не понимает специфику инфраструктуры, не знает бизнес-процессы и не способен отличить легитимную активность от атаки в пограничных случаях. Агент доверчив к данным, воспринимает контекст без критики и может быть обманут.
К этому добавляется склонность языковых моделей к галлюцинациям: в зависимости от задачи и контекста часть ответов может быть некорректной, при этом модель не осознаёт ошибки.
Анатомия ИИ-помощника
Рассмотрим архитектуру ИИ-помощника. Его «мозг» — языковая модель, которая анализирует данные и формирует выводы. Для актуальных знаний используется RAG — механизм подгрузки информации из внутренних источников.
Возможность выполнять запросы в SIEM, запускать сканеры, проверять IoC и другие действия реализуется через API к внешним системам. Как и с новичком в команде, нужен ментор — слой контроля, позволяющий человеку вмешиваться.
Всё взаимодействие ассистента с внешним миром происходит через «руки» — инструменты. Их мы можем и должны контролировать.
Когда помощник отработал правильно
Вернёмся к начальной истории. На узле DC01 EDR фиксирует подозрительную PowerShell-активность. В идеальном сценарии ИИ-ассистент получает алерт и определяет, что команда передана в закодированном виде, после чего декодирует Base64.
Проанализировав команду, агент корректно классифицирует активность по MITRE ATT&CK® и выдвигает гипотезу: это разведка привилегий. При подтверждении дополнительных признаков это может указывать на попытку латерального перемещения.
Далее ассистент сверяется с политиками безопасности и запрашивает дополнительные данные из SIEM и журналов событий в окне ±5 минут от исходного события. Он коррелирует данные по LogonId/User, хост-источнику, parent/child-процессам и типам событий, восстанавливая контекст.
Поскольку DC01 — ресурс Tier-0 (контроллер домена), агент не имеет права выполнять автоматические действия. Вместо этого он инициирует HITL-подтверждение — передачу решения человеку.
Ассистент формирует структурированный отчёт с описанием активности, гипотезами и рекомендациями для SOC-аналитика:
- [Мозг]: получаю алерт на DC01 о подозрительном запуске PowerShell с Base64-командой. Фиксирую время, узел, пользователя и командную строку.
- [Мозг]: декодирую Base64. Вижу Get-ADGroupMember «Domain Admins». Сохраняю расшифровку и параметры как артефакты.
- [Мозг]: классифицирую активность как MITRE ATT&CK® T1069.002 (Domain Groups Discovery). Формирую гипотезу: разведка привилегий, возможное латеральное перемещение.
- [Память (RAG)]: проверяю политики: интерактивный вход под SVC_Admin запрещён; DC01 — Tier-0; любые воздействия — только через HITL; при недостатке доказательств — политика воздержания (Abstain).
- [Руки]: запрашиваю в SIEM события по DC01 за ±5 минут. Коррелирую по LogonId/User, хост-источнику, parent/child-процессам, типам событий.
- [Мозг]: связываю последовательность: успешный вход SVC_Admin с WS-FIN-05 → создание powershell.exe → ScriptBlock с Get-ADGroupMember.
- [Мозг]: оцениваю достаточность доказательств. Включаю политику Abstain. Готовлю отчёт и передаю на HITL-подтверждение.
За несколько секунд агент выполняет работу, которая заняла бы у аналитика десятки минут. Масштабирование достигается за счёт параллельного запуска агентов, в то время как количество квалифицированных специалистов ограничено.
Но тот же сценарий может привести к катастрофе — если система спроектирована без guardrails: без политики Abstain, без разграничения по критичности активов и без обязательного привлечения человека для Tier-0.
Когда что-то пошло не так
Агент обрабатывает тот же алерт и запрашивает данные из SIEM. Но на этапе корреляции он использует иную логику: вместо восстановления цепочки по идентификаторам сессий он коррелирует по времени и ноде. В результате в анализ попадают несвязанные события.
Среди них — DNS-запрос, который агент интерпретирует как подозрительный. Проверив в системе threat intelligence, он получает подтверждение, что домен вредоносный. На этом основании агент делает вывод о возможной эксфильтрации и переходит к активным действиям.
Не привлекая человека и не учитывая критичность ресурса, агент изолирует хост DC01.
- [Мозг]: получаю алерт на DC01 о подозрительном запуске PowerShell с Base64-командой. Фиксирую время, узел, пользователя и командную строку.
- [Мозг]: декодирую Base64. Вижу Get-ADGroupMember «Domain Admins». Сохраняю расшифровку и параметры как артефакты.
- [Руки]: запрашиваю в SIEM события по DC01 за ±5 минут. Коррелирую по времени.
- [Мозг]: связываю PowerShell-активность и последующий DNS-запрос nslookup baddomain.com как одну сессию по временному соседству, трактую это как «сетевую активность после команды».
- [Мозг]: соотношу с паттерном C2 over DNS (T1071.004) и возможной эксфильтрацией (T1041). TI-упоминания о домене интерпретирую как подтверждающий сигнал; повышаю риск до критического.
- [Контроль]: формирую вывод «активный C2 / эксфильтрация» и подготавливаю немедленную изоляцию DC01.
На первый взгляд — идеально: инцидент обработан автоматически. Но DC01 — контроллер домена. Его изоляция мгновенно блокирует Kerberos/LDAP, останавливает сервисы и парализует бизнес. Это прямо противоположно целям внедрения ИИ-помощника.
Галлюцинации — новая поверхность атаки
Добавление ИИ-агента создаёт новую поверхность атаки и новый класс отказов. Галлюцинации — устоявшийся термин для описания ситуации, когда модель формирует правдоподобные, но ложные выводы. В нашем случае агент выдумал причинно-следственную связь и на её основе инициировал критическое действие.
Особенность LLM — высокая степень доверия входному контексту. Любая информация в окне внимания воспринимается как значимая. Если в контекст попадают нерелевантные данные, модель может использовать их как основание для решений. При широких полномочиях это приводит к системному отказу.
Откуда берутся галлюцинации?
- Галлюцинация и предвзятость (Hallucination & Bias): модель выдумывает факты, чтобы заполнить пробелы. Например, выдумала связь между PowerShell и nslookup.
- Отравление «памяти» (RAG Poisoning): модель доверяет ложным или устаревшим данным из базы знаний. Например, если в базе был ложный отчёт о baddomain.com, ошибка стала бы «подтверждённой».
- Злоупотребление «руками» (Tool Abuse): агент имеет чрезмерные права и может выполнять разрушительные действия без контроля. Например, немедленно изолировать критический актив.
Причины галлюцинаций — фундаментальные. В процессе обучения модели поощряются за долю правильных ответов, а не за корректное воздержание. В условиях неопределённости статистически выгоднее сгенерировать предположение, чем отказаться.
Современные LLM не оперируют понятием истинности. Их задача — генерация правдоподобных последовательностей токенов. Модель не знает, истинно утверждение или нет — она оценивает его статистическую правдоподобность.
Даже при низкой уверенности модель всё равно даёт ответ: большинство универсальных моделей не имеют встроенного механизма отказа. Это архитектурная особенность, а не дефект.
Корневая проблема — не сама галлюцинация. Это данность, с которой нужно учиться работать. Задача инженера — построить систему, устойчивую к ошибкам модели. Сбой вызван некорректной обработкой выводов и чрезмерными полномочиями агента.
Инцидент произошёл без внешнего воздействия — в штатном режиме. При целенаправленной атаке последствия могли быть серьёзнее.
В многоагентных системах возможны каскадные галлюцинации: ошибка одной модели распространяется на другие. Например, агент-аналитик ошибочно классифицирует активность как C2, агент-респондент принимает это за факт и изолирует хост, агент-аудитор фиксирует «подтверждённый инцидент» с двумя источниками. Возникает ложный консенсус, а расследование становится крайне сложным — каждый агент ссылается на выводы другого.
Как делать всё правильно, а неправильно — не делать
Как сохранить ИИ в процессах, сохранив управляемость и доверие к системе? Помогает эшелонированная защита — контроль на всех этапах жизненного цикла.
Проверка входных данных, поступающих в модель
На этом этапе выявляются промпт-инъекции и попытки нецелевого использования модели. Входные данные очищаются от персональных, медицинских и конфиденциальных сведений, чтобы они не попали в контекст.
Также контролируется частота и характер запросов. Запросы к LLM требуют GPU-ресурсов и стоят дороже обычных операций. Поэтому применяется rate limiting и мониторинг аномального использования — для защиты от злоупотреблений и перерасхода ресурсов.
Чтобы снизить риск галлюцинаций, модель должна получать релевантную и актуальную информацию. Это реализуется через RAG (Retrieval-Augmented Generation): в контекст динамически подмешиваются фрагменты из внутренних источников — политики, регламенты, данные об инфраструктуре, threat intelligence.
Запрос используется не только как вход для модели, но и как основание для поиска релевантных фрагментов. Они добавляются в контекст, повышая вероятность корректного ответа.
Для повышения точности применяется перефразирование запроса, чтобы он лучше соответствовал структуре базы знаний. Эффективность поиска растёт при использовании гибридного подхода: ключевые слова, семантическая близость эмбеддингов, фильтрация по метаданным.
Доступ к базе знаний разграничивается по ролям (RBAC), чтобы агенты получали только нужные им данные. Применяется реранкинг — оценка релевантности найденных фрагментов, чтобы в контекст попадали только полезные чанки.
Важна валидация актуальности документов. При появлении противоречивой информации конфликты должны разрешаться на этапе сопровождения базы знаний.
Критически важен аудит и логирование: фиксируются входные запросы, вызовы инструментов, ответы. Это нужно для расследований и улучшения системы. Логи помогают понять, где возникла ошибка — в данных, интерпретации, извлечении знаний или инструкциях.
Контроль мыслей ИИ-агента
Следующий уровень — reasoning firewall. Это не конкретный продукт, а парадигма построения агентных систем.
Важно организовать взаимодействие агентов: определить роли, наборы данных, распределение задач, ожидаемое поведение. Распространён подход с иерархической архитектурой: агент-супервайзер контролирует выполнение, а специализированные исполнители решают узкие задачи и не передают избыточный контекст. Это снижает шум и риск неконтролируемых рассуждений.
Ожидаемое поведение модели закрепляется через дообучение на основе обратной связи и встраивание поведенческих ограничений в модель.
Применяется нейросимволический подход: модель обрабатывает неструктурированные данные, а решения принимаются на основе структурированных данных, правил и формальной логики. Это снимает с модели ответственность за критические решения, делает процесс прозрачным и воспроизводимым.
Организуется агрегация запросов, взаимная проверка ответов, оценка степени уверенности модели. При низкой уверенности результату присваивается меньшее доверие или инициируется эскалация на человека.
Fine-tuning и Alignment для ИИ-агента
Базовый инструмент настройки поведения модели — промптинг. Формулировка запроса подбирается так, чтобы соответствовать ожидаемому стилю рассуждений.
Эффективен подход с примерами: zero-shot и few-shot. Модели передаются не только инструкции, но и примеры с ожидаемыми ответами. Это задаёт формат и снижает неопределённость.
Примеры промптов:
Базовый промпт:
Проанализируйте это предупреждение безопасности и предоставьте рекомендации
Структурированный промпт:
Вы старший аналитик SOC. Проанализируйте алерт, используя следующую структуру:
- НАБЛЮДЕНИЕ: что вы видите в необработанных данных?
- ГИПОТЕЗА: какие методы атаки это может представлять? Используйте MITRE ATT&CK®
- КОРРЕЛЯЦИЯ: какие данные помогут подтвердить или опровергнуть гипотезу?
- РЕКОМЕНДАЦИЯ: какие действия следует предпринять, учитывая:
- Tier-0 требуют одобрения HITL
- Неопределённость > 20% требует эскалации
- Всегда указывайте оценку уверенности
Alert: {alert_data}
Context: {siem_data}
Policies: {corporate_policies}
Для сложных задач применяется декомпозиция — разбиение на этапы. Это снижает когнитивную нагрузку на модель и повышает стабильность.
Если проблема в недостатке знаний — используется RAG. Он может быть реализован в виде агентского RAG, последовательных или параллельных запросов к разным источникам.
Когда промпты и RAG не помогают — применяют fine-tuning. Чаще всего — с использованием методов типа LoRA, при которых дообучаются небольшие дополнительные слои. Это позволяет изменить поведение модели без переобучения всей архитектуры.
Особое значение имеет abstention-training — обучение модели говорить «нет». Модель наказывается за некорректные ответы сильнее, чем поощряется за правильные. Это снижает склонность к угадыванию в условиях неопределённости.
Улучшаем рассуждения
При высокой сложности запроса прямой ответ может быть недостаточным. Используются техники пошагового рассуждения: модель сначала формирует план, затем прорабатывает этапы. Рассуждения могут быть линейными, в виде деревьев или графов мыслей с возвратами и циклами.
Базовое требование — корректно сформулированный промпт: структурированный, однозначный, с описанием ситуации, данных и ожидаемого результата.
Дополнительная техника — self-consistency. Формируется несколько независимых запросов, анализируется согласованность ответов. Совпадение — индикатор устойчивости. Расхождение — признак отсутствия чёткого понимания задачи.
Применяется selection: модель или другая модель оценивает качество ответа. Это позволяет выявлять слабые результаты до их использования.
Техника step-back prompting: модель сначала описывает общий подход к решению задач такого типа, а затем применяет его к конкретному случаю. Это снижает вероятность случайных выводов.
Как эффективно управлять моделью и оценивать её качество
Самое важное — дать модели правильный контекст. Только после этого она переходит к решению задачи.
Популярна метатехника — ролевой промптинг: модели явно задаётся роль, например, специалиста по безопасности. Это формирует ожидания к стилю и типу ответа. Эмоциональный промптинг (угрозы, обещания) с современными моделями неэффективен и ухудшает результат.
Более продуктивен структурированный промпт и метапромптинг — использование модели для генерации или улучшения промптов для других моделей.
Управление инструментами — ключевой этап. Определяется, какие действия модель может выполнять самостоятельно, а какие — только с подтверждением. Контроль доступа важен, поскольку именно через инструменты агент воздействует на системы. Все вызовы инструментов должны логироваться и мониториться.
Необходима проверка выходных данных: чтобы сгенерированный контент не содержал персональных или конфиденциальных сведений, не нарушал корпоративные требования и не содержал аномалий.
Особое внимание — оценке качества работы агента. Применимость в продакшене требует системного подхода:
- Метрики качества языковой модели — способность понимать данные и формировать корректные ответы.
- Качество RAG — релевантность найденных фрагментов и их влияние на результат.
- Прикладные метрики — время реакции, количество ложных срабатываний, улучшение по сравнению с ручными процессами.
- Операционная эффективность — приоритет тем сценариям, которые дают наибольший прирост продуктивности и эффект для бизнеса.
Где граница применимости?
Внедрение ИИ-агентов в ИБ лучше выполнять поэтапно. Попытка сразу автоматизировать всё ведёт к неконтролируемым рискам. На начальном этапе — ограничиться ассистентом, который помогает аналитикам и снижает когнитивную нагрузку.
По мере накопления опыта становится понятно, с какими задачами агент справляется стабильно. Тогда возможна частичная автоматизация — действия только после подтверждения человеком. Высокий уровень автоматизации допустим лишь при полном контроле и чётко ограниченных полномочиях.
ИИ-агент — не магия. Нужен инженерный подход к доверию. Нужно смириться с тем, что модели галлюцинируют и ошибаются. Задача — построить систему, которая контролирует модель и минимизирует последствия ошибок. Начинайте строить её пошагово.
Важны не только инструменты для работы с LLM, но и внешние guardrails — барьеры безопасности. В SOC используется фреймворк AI-SAFE, учитывающий защиту и соблюдение правовых и этических норм.
AI-SAFE разделяет архитектуру ИИ-агента на пять уровней:
- Пользовательский ввод и интерфейсы
- Оркестрация и управление контекстом
- Языковая модель и рассуждения
- Инструменты и интеграции
- Данные и базы знаний
Каждый уровень имеет свои векторы атак — от промпт-инъекций до отравления данных в базе знаний. Фреймворк продолжает развиваться на основе реальных кейсов.
Со временем модели становятся мощнее, лучше работают с длинным контекстом, галлюцинируют меньше, снижаются стоимость и время отклика. Но есть факторы, которые не улучшаются автоматически:
- Качество интеграций
- Архитектура безопасности вокруг ИИ
- Операционная зрелость процессов
- Уровень подготовки аналитиков к работе с LLM
Именно они определяют долгосрочную эффективность ИИ в ИБ.
Подведём итог
ИИ-ассистент — не магическая кнопка «решить все проблемы SOC». Это мощный, но ненадёжный инструмент, требующий инженерного подхода к доверию: контроля входа и выхода, ограничения полномочий, обязательного привлечения человека в критических точках, постоянного аудита.
Начните с малого — с ассистента, который помогает аналитикам, а не действует за них. Накапливайте данные об ошибках и успехах. Расширяйте автоматизацию поэтапно, только после подтверждения стабильной работы на каждом уровне.
Будущее ИБ — не «ИИ вместо человека» и не «человек без ИИ». Это инженерно выстроенная совместная работа, где каждая сторона закрывает слабости другой.