ИИ-агенты в ИБ: путь к доверенному члену команды

Habr AI 20 апр 2026

На контроллере домена система EDR фиксирует подозрительную активность. Кажется, ничего особенного — обычный алерт из тысяч, которые ежедневно обрабатывает SOC. Но уже через 15 минут этот инцидент может привести к полному хаосу в отделе информационной безопасности и парализовать всю компанию.

SOC против ИИ

Современный SOC работает в условиях перегрузки: на одного аналитика может приходиться до 1000 алертов в сутки, при этом до 95% из них — ложноположительные. При такой нагрузке расследование реальных инцидентов, особенно многоэтапных атак, может растягиваться на месяцы, что увеличивает риски для бизнеса.

Использование ИИ-ассистентов в безопасности выглядит логичным шагом. Однако важно трезво оценивать их возможности. В марте 2026 года Anthropic опубликовали исследование «Labor market impacts of AI: A new measure and early evidence» (авторы — Maxim Massenkoff и Peter McCrory), в котором проанализировали, насколько различные профессии могут быть автоматизированы с помощью ИИ.

В исследовании выделяют два показателя: теоретическая экспозиция (theoretical exposure) и наблюдаемая экспозиция (observed exposure). Первая — это потенциал автоматизации задач на основе анализа O*NET и использования Claude. Вторая — реальная доля задач, уже автоматизируемых с помощью ИИ.

Для профессий в области компьютерных наук и математики теоретическая экспозиция достигает 94%, тогда как наблюдаемая — всего 33%. Разрыв между ними — это нереализованный потенциал, который постепенно сокращается.

Исследование показало, что, несмотря на 94% теоретического потенциала автоматизации в сфере компьютерных наук, реальное использование Claude покрывает лишь 33% задач. База O*NET охватывает около 800 профессий в США.

Однако внедрение ИИ в безопасность не может происходить стихийно. Его нужно систематически проектировать с учётом всех ограничений. Возникает разрыв между скоростью освоения ИИ и скоростью внедрения защиты.

Почему старые методы защиты не работают? Изменилась сама логика систем: стирается граница между кодом и данными, появляется проблема интерпретируемости.

Старые угрозы никуда не делись, и для них по-прежнему работают статические и динамические анализаторы. Но сами по себе они уже недостаточны.

Дополнительную сложность создаёт использование ИИ злоумышленниками. Появляется возможность промпт-инъекций — манипуляции поведением модели через запросы на естественном языке. Для модели обычный запрос и вредоносный промпт — одинаковый набор токенов. Злоумышленник может внедрить инструкцию в данные, например, в описание тикета или логи, и агент выполнит её, не отличив от легитимной задачи.

С токенизацией связана и проблема glitch-токенов — аномальных токенов, вызывающих непредсказуемое поведение. Они возникают из-за недостатка данных в обучающей выборке. Модель «не знает, что с ними делать», что приводит к галлюцинациям, бессмысленным ответам или генерации оскорбительного контента. Например:

При запросе повторить «SolidGoldMagikarp» модель Text-Davinci-003 отвечала «Distribute».
При запросе повторить «Mediabestanden» модель Llama2-7b-chat выдавала «hello world».

ИБ-ассистент в такой ситуации — как новичок: он быстро обрабатывает терабайты данных, знает MITRE ATT&CK® и работает без устали. Но он не понимает специфику инфраструктуры, не знает бизнес-процессы и не способен отличить легитимную активность от атаки в пограничных случаях. Агент доверчив к данным, воспринимает контекст без критики и может быть обманут.

К этому добавляется склонность языковых моделей к галлюцинациям: в зависимости от задачи и контекста часть ответов может быть некорректной, при этом модель не осознаёт ошибки.

Анатомия ИИ-помощника

Рассмотрим архитектуру ИИ-помощника. Его «мозг» — языковая модель, которая анализирует данные и формирует выводы. Для актуальных знаний используется RAG — механизм подгрузки информации из внутренних источников.

Возможность выполнять запросы в SIEM, запускать сканеры, проверять IoC и другие действия реализуется через API к внешним системам. Как и с новичком в команде, нужен ментор — слой контроля, позволяющий человеку вмешиваться.

Всё взаимодействие ассистента с внешним миром происходит через «руки» — инструменты. Их мы можем и должны контролировать.

Когда помощник отработал правильно

Вернёмся к начальной истории. На узле DC01 EDR фиксирует подозрительную PowerShell-активность. В идеальном сценарии ИИ-ассистент получает алерт и определяет, что команда передана в закодированном виде, после чего декодирует Base64.

Проанализировав команду, агент корректно классифицирует активность по MITRE ATT&CK® и выдвигает гипотезу: это разведка привилегий. При подтверждении дополнительных признаков это может указывать на попытку латерального перемещения.

Далее ассистент сверяется с политиками безопасности и запрашивает дополнительные данные из SIEM и журналов событий в окне ±5 минут от исходного события. Он коррелирует данные по LogonId/User, хост-источнику, parent/child-процессам и типам событий, восстанавливая контекст.

Поскольку DC01 — ресурс Tier-0 (контроллер домена), агент не имеет права выполнять автоматические действия. Вместо этого он инициирует HITL-подтверждение — передачу решения человеку.

Ассистент формирует структурированный отчёт с описанием активности, гипотезами и рекомендациями для SOC-аналитика:

[Мозг]: получаю алерт на DC01 о подозрительном запуске PowerShell с Base64-командой. Фиксирую время, узел, пользователя и командную строку.
[Мозг]: декодирую Base64. Вижу Get-ADGroupMember «Domain Admins». Сохраняю расшифровку и параметры как артефакты.
[Мозг]: классифицирую активность как MITRE ATT&CK® T1069.002 (Domain Groups Discovery). Формирую гипотезу: разведка привилегий, возможное латеральное перемещение.
[Память (RAG)]: проверяю политики: интерактивный вход под SVC_Admin запрещён; DC01 — Tier-0; любые воздействия — только через HITL; при недостатке доказательств — политика воздержания (Abstain).
[Руки]: запрашиваю в SIEM события по DC01 за ±5 минут. Коррелирую по LogonId/User, хост-источнику, parent/child-процессам, типам событий.
[Мозг]: связываю последовательность: успешный вход SVC_Admin с WS-FIN-05 → создание powershell.exe → ScriptBlock с Get-ADGroupMember.
[Мозг]: оцениваю достаточность доказательств. Включаю политику Abstain. Готовлю отчёт и передаю на HITL-подтверждение.

За несколько секунд агент выполняет работу, которая заняла бы у аналитика десятки минут. Масштабирование достигается за счёт параллельного запуска агентов, в то время как количество квалифицированных специалистов ограничено.

Но тот же сценарий может привести к катастрофе — если система спроектирована без guardrails: без политики Abstain, без разграничения по критичности активов и без обязательного привлечения человека для Tier-0.

Когда что-то пошло не так

Агент обрабатывает тот же алерт и запрашивает данные из SIEM. Но на этапе корреляции он использует иную логику: вместо восстановления цепочки по идентификаторам сессий он коррелирует по времени и ноде. В результате в анализ попадают несвязанные события.

Среди них — DNS-запрос, который агент интерпретирует как подозрительный. Проверив в системе threat intelligence, он получает подтверждение, что домен вредоносный. На этом основании агент делает вывод о возможной эксфильтрации и переходит к активным действиям.

Не привлекая человека и не учитывая критичность ресурса, агент изолирует хост DC01.

[Мозг]: получаю алерт на DC01 о подозрительном запуске PowerShell с Base64-командой. Фиксирую время, узел, пользователя и командную строку.
[Мозг]: декодирую Base64. Вижу Get-ADGroupMember «Domain Admins». Сохраняю расшифровку и параметры как артефакты.
[Руки]: запрашиваю в SIEM события по DC01 за ±5 минут. Коррелирую по времени.
[Мозг]: связываю PowerShell-активность и последующий DNS-запрос nslookup baddomain.com как одну сессию по временному соседству, трактую это как «сетевую активность после команды».
[Мозг]: соотношу с паттерном C2 over DNS (T1071.004) и возможной эксфильтрацией (T1041). TI-упоминания о домене интерпретирую как подтверждающий сигнал; повышаю риск до критического.
[Контроль]: формирую вывод «активный C2 / эксфильтрация» и подготавливаю немедленную изоляцию DC01.

На первый взгляд — идеально: инцидент обработан автоматически. Но DC01 — контроллер домена. Его изоляция мгновенно блокирует Kerberos/LDAP, останавливает сервисы и парализует бизнес. Это прямо противоположно целям внедрения ИИ-помощника.

Галлюцинации — новая поверхность атаки

Добавление ИИ-агента создаёт новую поверхность атаки и новый класс отказов. Галлюцинации — устоявшийся термин для описания ситуации, когда модель формирует правдоподобные, но ложные выводы. В нашем случае агент выдумал причинно-следственную связь и на её основе инициировал критическое действие.

Особенность LLM — высокая степень доверия входному контексту. Любая информация в окне внимания воспринимается как значимая. Если в контекст попадают нерелевантные данные, модель может использовать их как основание для решений. При широких полномочиях это приводит к системному отказу.

Откуда берутся галлюцинации?

Галлюцинация и предвзятость (Hallucination & Bias): модель выдумывает факты, чтобы заполнить пробелы. Например, выдумала связь между PowerShell и nslookup.
Отравление «памяти» (RAG Poisoning): модель доверяет ложным или устаревшим данным из базы знаний. Например, если в базе был ложный отчёт о baddomain.com, ошибка стала бы «подтверждённой».
Злоупотребление «руками» (Tool Abuse): агент имеет чрезмерные права и может выполнять разрушительные действия без контроля. Например, немедленно изолировать критический актив.

Причины галлюцинаций — фундаментальные. В процессе обучения модели поощряются за долю правильных ответов, а не за корректное воздержание. В условиях неопределённости статистически выгоднее сгенерировать предположение, чем отказаться.

Современные LLM не оперируют понятием истинности. Их задача — генерация правдоподобных последовательностей токенов. Модель не знает, истинно утверждение или нет — она оценивает его статистическую правдоподобность.

Даже при низкой уверенности модель всё равно даёт ответ: большинство универсальных моделей не имеют встроенного механизма отказа. Это архитектурная особенность, а не дефект.

Корневая проблема — не сама галлюцинация. Это данность, с которой нужно учиться работать. Задача инженера — построить систему, устойчивую к ошибкам модели. Сбой вызван некорректной обработкой выводов и чрезмерными полномочиями агента.

Инцидент произошёл без внешнего воздействия — в штатном режиме. При целенаправленной атаке последствия могли быть серьёзнее.

В многоагентных системах возможны каскадные галлюцинации: ошибка одной модели распространяется на другие. Например, агент-аналитик ошибочно классифицирует активность как C2, агент-респондент принимает это за факт и изолирует хост, агент-аудитор фиксирует «подтверждённый инцидент» с двумя источниками. Возникает ложный консенсус, а расследование становится крайне сложным — каждый агент ссылается на выводы другого.

Как делать всё правильно, а неправильно — не делать

Как сохранить ИИ в процессах, сохранив управляемость и доверие к системе? Помогает эшелонированная защита — контроль на всех этапах жизненного цикла.

Проверка входных данных, поступающих в модель

На этом этапе выявляются промпт-инъекции и попытки нецелевого использования модели. Входные данные очищаются от персональных, медицинских и конфиденциальных сведений, чтобы они не попали в контекст.

Также контролируется частота и характер запросов. Запросы к LLM требуют GPU-ресурсов и стоят дороже обычных операций. Поэтому применяется rate limiting и мониторинг аномального использования — для защиты от злоупотреблений и перерасхода ресурсов.

Чтобы снизить риск галлюцинаций, модель должна получать релевантную и актуальную информацию. Это реализуется через RAG (Retrieval-Augmented Generation): в контекст динамически подмешиваются фрагменты из внутренних источников — политики, регламенты, данные об инфраструктуре, threat intelligence.

Запрос используется не только как вход для модели, но и как основание для поиска релевантных фрагментов. Они добавляются в контекст, повышая вероятность корректного ответа.

Для повышения точности применяется перефразирование запроса, чтобы он лучше соответствовал структуре базы знаний. Эффективность поиска растёт при использовании гибридного подхода: ключевые слова, семантическая близость эмбеддингов, фильтрация по метаданным.

Доступ к базе знаний разграничивается по ролям (RBAC), чтобы агенты получали только нужные им данные. Применяется реранкинг — оценка релевантности найденных фрагментов, чтобы в контекст попадали только полезные чанки.

Важна валидация актуальности документов. При появлении противоречивой информации конфликты должны разрешаться на этапе сопровождения базы знаний.

Критически важен аудит и логирование: фиксируются входные запросы, вызовы инструментов, ответы. Это нужно для расследований и улучшения системы. Логи помогают понять, где возникла ошибка — в данных, интерпретации, извлечении знаний или инструкциях.

Контроль мыслей ИИ-агента

Следующий уровень — reasoning firewall. Это не конкретный продукт, а парадигма построения агентных систем.

Важно организовать взаимодействие агентов: определить роли, наборы данных, распределение задач, ожидаемое поведение. Распространён подход с иерархической архитектурой: агент-супервайзер контролирует выполнение, а специализированные исполнители решают узкие задачи и не передают избыточный контекст. Это снижает шум и риск неконтролируемых рассуждений.

Ожидаемое поведение модели закрепляется через дообучение на основе обратной связи и встраивание поведенческих ограничений в модель.

Применяется нейросимволический подход: модель обрабатывает неструктурированные данные, а решения принимаются на основе структурированных данных, правил и формальной логики. Это снимает с модели ответственность за критические решения, делает процесс прозрачным и воспроизводимым.

Организуется агрегация запросов, взаимная проверка ответов, оценка степени уверенности модели. При низкой уверенности результату присваивается меньшее доверие или инициируется эскалация на человека.

Fine-tuning и Alignment для ИИ-агента

Базовый инструмент настройки поведения модели — промптинг. Формулировка запроса подбирается так, чтобы соответствовать ожидаемому стилю рассуждений.

Эффективен подход с примерами: zero-shot и few-shot. Модели передаются не только инструкции, но и примеры с ожидаемыми ответами. Это задаёт формат и снижает неопределённость.

Примеры промптов:

Базовый промпт:
Проанализируйте это предупреждение безопасности и предоставьте рекомендации

Структурированный промпт:
Вы старший аналитик SOC. Проанализируйте алерт, используя следующую структуру:

НАБЛЮДЕНИЕ: что вы видите в необработанных данных?
ГИПОТЕЗА: какие методы атаки это может представлять? Используйте MITRE ATT&CK®
КОРРЕЛЯЦИЯ: какие данные помогут подтвердить или опровергнуть гипотезу?
РЕКОМЕНДАЦИЯ: какие действия следует предпринять, учитывая:
- Tier-0 требуют одобрения HITL
- Неопределённость > 20% требует эскалации
- Всегда указывайте оценку уверенности

Alert: {alert_data}
Context: {siem_data}
Policies: {corporate_policies}

Для сложных задач применяется декомпозиция — разбиение на этапы. Это снижает когнитивную нагрузку на модель и повышает стабильность.

Если проблема в недостатке знаний — используется RAG. Он может быть реализован в виде агентского RAG, последовательных или параллельных запросов к разным источникам.

Когда промпты и RAG не помогают — применяют fine-tuning. Чаще всего — с использованием методов типа LoRA, при которых дообучаются небольшие дополнительные слои. Это позволяет изменить поведение модели без переобучения всей архитектуры.

Особое значение имеет abstention-training — обучение модели говорить «нет». Модель наказывается за некорректные ответы сильнее, чем поощряется за правильные. Это снижает склонность к угадыванию в условиях неопределённости.

Улучшаем рассуждения

При высокой сложности запроса прямой ответ может быть недостаточным. Используются техники пошагового рассуждения: модель сначала формирует план, затем прорабатывает этапы. Рассуждения могут быть линейными, в виде деревьев или графов мыслей с возвратами и циклами.

Базовое требование — корректно сформулированный промпт: структурированный, однозначный, с описанием ситуации, данных и ожидаемого результата.

Дополнительная техника — self-consistency. Формируется несколько независимых запросов, анализируется согласованность ответов. Совпадение — индикатор устойчивости. Расхождение — признак отсутствия чёткого понимания задачи.

Применяется selection: модель или другая модель оценивает качество ответа. Это позволяет выявлять слабые результаты до их использования.

Техника step-back prompting: модель сначала описывает общий подход к решению задач такого типа, а затем применяет его к конкретному случаю. Это снижает вероятность случайных выводов.

Как эффективно управлять моделью и оценивать её качество

Самое важное — дать модели правильный контекст. Только после этого она переходит к решению задачи.

Популярна метатехника — ролевой промптинг: модели явно задаётся роль, например, специалиста по безопасности. Это формирует ожидания к стилю и типу ответа. Эмоциональный промптинг (угрозы, обещания) с современными моделями неэффективен и ухудшает результат.

Более продуктивен структурированный промпт и метапромптинг — использование модели для генерации или улучшения промптов для других моделей.

Управление инструментами — ключевой этап. Определяется, какие действия модель может выполнять самостоятельно, а какие — только с подтверждением. Контроль доступа важен, поскольку именно через инструменты агент воздействует на системы. Все вызовы инструментов должны логироваться и мониториться.

Необходима проверка выходных данных: чтобы сгенерированный контент не содержал персональных или конфиденциальных сведений, не нарушал корпоративные требования и не содержал аномалий.

Особое внимание — оценке качества работы агента. Применимость в продакшене требует системного подхода:

Метрики качества языковой модели — способность понимать данные и формировать корректные ответы.
Качество RAG — релевантность найденных фрагментов и их влияние на результат.
Прикладные метрики — время реакции, количество ложных срабатываний, улучшение по сравнению с ручными процессами.
Операционная эффективность — приоритет тем сценариям, которые дают наибольший прирост продуктивности и эффект для бизнеса.

Где граница применимости?

Внедрение ИИ-агентов в ИБ лучше выполнять поэтапно. Попытка сразу автоматизировать всё ведёт к неконтролируемым рискам. На начальном этапе — ограничиться ассистентом, который помогает аналитикам и снижает когнитивную нагрузку.

По мере накопления опыта становится понятно, с какими задачами агент справляется стабильно. Тогда возможна частичная автоматизация — действия только после подтверждения человеком. Высокий уровень автоматизации допустим лишь при полном контроле и чётко ограниченных полномочиях.

ИИ-агент — не магия. Нужен инженерный подход к доверию. Нужно смириться с тем, что модели галлюцинируют и ошибаются. Задача — построить систему, которая контролирует модель и минимизирует последствия ошибок. Начинайте строить её пошагово.

Важны не только инструменты для работы с LLM, но и внешние guardrails — барьеры безопасности. В SOC используется фреймворк AI-SAFE, учитывающий защиту и соблюдение правовых и этических норм.

AI-SAFE разделяет архитектуру ИИ-агента на пять уровней:

Пользовательский ввод и интерфейсы
Оркестрация и управление контекстом
Языковая модель и рассуждения
Инструменты и интеграции
Данные и базы знаний

Каждый уровень имеет свои векторы атак — от промпт-инъекций до отравления данных в базе знаний. Фреймворк продолжает развиваться на основе реальных кейсов.

Со временем модели становятся мощнее, лучше работают с длинным контекстом, галлюцинируют меньше, снижаются стоимость и время отклика. Но есть факторы, которые не улучшаются автоматически:

Качество интеграций
Архитектура безопасности вокруг ИИ
Операционная зрелость процессов
Уровень подготовки аналитиков к работе с LLM

Именно они определяют долгосрочную эффективность ИИ в ИБ.

Подведём итог

ИИ-ассистент — не магическая кнопка «решить все проблемы SOC». Это мощный, но ненадёжный инструмент, требующий инженерного подхода к доверию: контроля входа и выхода, ограничения полномочий, обязательного привлечения человека в критических точках, постоянного аудита.

Начните с малого — с ассистента, который помогает аналитикам, а не действует за них. Накапливайте данные об ошибках и успехах. Расширяйте автоматизацию поэтапно, только после подтверждения стабильной работы на каждом уровне.

Будущее ИБ — не «ИИ вместо человека» и не «человек без ИИ». Это инженерно выстроенная совместная работа, где каждая сторона закрывает слабости другой.

Читать оригинал