ИИ против ИИ: нападение и защита в эпоху искусственного интеллекта

Habr AI 9 апр 2026

В новую эру кибербезопасности растет скорость и масштаб атак на инфраструктуру организаций, включая чат-ботов и агентов на базе искусственного интеллекта (ИИ). Современные угрозы требуют рассмотрения с нескольких сторон:

Атаки на инфраструктуру с использованием ИИ.
Защита от атак на ИИ-системы.
Реагирование на инциденты.

Но сначала важно понять, что такое ИИ и как он работает в реальных условиях.

Что такое искусственный интеллект?

ИИ — это технология, позволяющая компьютерам имитировать человеческие когнитивные функции: обучение, логические рассуждения, понимание языка и принятие решений. Он выполняет задачи, которые традиционно считались прерогативой человека.

Эволюция ИИ: от пассивных моделей к автономным агентам

Раньше ИИ использовался в пассивных задачах:

Ответы на вопросы.
Перевод текста.
Генерация изображений и голоса.

Такие системы требовали постоянного контроля со стороны человека. Сейчас происходит смена парадигмы: ИИ переходит от генерации контента к автономным действиям. Появляются агенты на базе ИИ — активные системы, способные самостоятельно достигать целей.

Что такое ИИ-агент?

ИИ-агент — это не просто модель, а полноценное приложение, которое может планировать и действовать автономно. Он сочетает способность языковой модели (LLM) к рассуждениям с возможностью взаимодействовать с внешними инструментами. Ключевые особенности агента:

Целеполагание — стремление к достижению цели.
Взаимодействие с окружающей средой — через API, MCP и другие интерфейсы.
Автономность — выполнение действий без постоянного контроля.
Планирование — разбиение цели на шаги и их последовательное выполнение.

Компоненты ИИ-агента

Агент состоит из нескольких ключевых элементов:

Приложение — интерфейс для взаимодействия с пользователем.
Интерфейсы и интеграции — подключение к внешним инструментам (например, NG SOAR, сканерам уязвимостей).
Языковая модель (LLM) — «мозг» агента, отвечающий за логику и обработку языка.
Память — краткосрочные и долгосрочные хранилища данных.
База знаний (RAG) — данные, на которых модель дообучается (например, MITRE ATT&CK, Threat Intelligence, базы уязвимостей).

Агент: два лица одной медали

ИИ-агенты используются как для защиты, так и для атак:

В роли защиты:

Поиск уязвимостей до их обнаружения злоумышленниками.
Прогнозирование векторов атак.
Моделирование угроз.
Обнаружение аномалий.
Реагирование на инциденты.
Поддержка команды кибербезопасности.

В роли атаки:

Фишинг и социальная инженерия.
Подделка голоса и внешности.
Поиск и эксплуатация уязвимостей.
Отравление данных в ИИ-системах.
Обход средств защиты.
Генерация вредоносного кода.

Также агенты применяются для анализа защищенности — например, в рамках AI Red Teaming, чтобы выявить уязвимости до того, как ими воспользуются злоумышленники.

Пример: ИИ-платформа HexStrike-AI

HexStrike-AI — открытая платформа для наступательной безопасности, предназначенная для тестирования защищенности инфраструктуры. В её состав входят:

Фреймворк и серверная платформа.
Специализированные агенты.
Инструменты безопасности.
Клиент и сервер по протоколу MCP (Model Context Protocol).

Среди агентов:

Intelligent Decision Engine — выбирает подходящие инструменты.
CVE-Intelligence Agent — управляет уязвимостями.
Exploit Generator — создает эксплойты.
Агенты для анализа сетей, веб-приложений и бинарных файлов.

HexStrike интегрируется более чем со ста инструментами кибербезопасности через MCP — протокол для взаимодействия LLM с внешними системами.

Работа MCP-сервера

MCP-сервер — ядро платформы. Он:

Принимает запросы от агентов.
Координирует запуск инструментов.
Управляет выполнением задач и результатами.

Его действия:

Анализ цели (хост, веб-приложение и т.д.).
Выбор оптимальных инструментов.
Настройка параметров (диапазон портов, глубина сканирования).
Формирование стратегии (разведка → сканирование → эксплуатация).

Как это работает?

Пользователь вводит запрос, например: «Найди уязвимости и проэксплуатируй их по IP-адресу».

MCP-сервер и модуль принятия решений преобразуют запрос в структурированные вызовы инструментов. Далее платформа работает автоматически: агенты выполняют задачи, анализируют результаты и при необходимости корректируют стратегию.

Результат — структурированный отчет по найденным уязвимостям и возможным сценариям атак.

Цепочка атаки на ИИ: отравление данных

Один из опасных векторов атак — отравление данных в базе знаний (RAG). Цепочка включает пять этапов:

Разведка.
Отравление.
Захват.
Сохранение.
Воздействие.

Этап 1: Разведка

Злоумышленник изучает систему, чтобы понять, как в неё можно внедрить вредоносные данные. Ключевые вопросы:

Какие данные попадают в модель?
Какие инструменты и API используются?
Какие библиотеки с открытым кодом задействованы?
Где применяются ограничения?
Как организована память?

Меры защиты:

Контроль доступа — только для авторизованных пользователей.
Минимизация информации — убирать детали ошибок и системные подсказки.
Мониторинг поведения — выявление подозрительных запросов.
Укрепление моделей — защита от утечек данных.

Этап 2: Отравление

Злоумышленник внедряет вредоносные данные в систему. Два основных способа:

Прямое внедрение — через обычный ввод (например, в чат).
Косвенное внедрение — через общие источники (базы RAG, документы), что увеличивает масштаб атаки.

Другие методы:

Отравление обучающих данных.
Состязательные примеры (манипуляции с изображениями, аудио).
Визуальные полезные нагрузки (например, наклейки для автономных автомобилей).

Меры защиты:

Очистка всех данных на входе.
Перефразирование пользовательского ввода.
Контроль источников данных.
Мониторинг всплесков активности в конвейерах данных.

Этап 3: Захват

Модель обрабатывает отравленные данные, и злоумышленник получает контроль над её поведением. Возможные сценарии:

Вызов инструментов под контролем злоумышленника.
Извлечение конфиденциальных данных.
Генерация дезинформации.
Контекстно-зависимые вредоносные действия.

В агентских системах захват особенно опасен: злоумышленник может манипулировать не только выводом, но и целями агента.

Меры защиты:

Разделение доверенных и ненадежных данных.
Повышение устойчивости модели (состязательное обучение, надежный RAG).
Проверка вызовов инструментов по контексту.
Фильтрация выходных данных перед использованием.

Этап 4: Сохранение

Злоумышленник закрепляет свое влияние на долгий срок. Способы:

Сохранение в истории сеанса.
Использование межсессионной памяти.
Отравление общих ресурсов (RAG, базы знаний).
Изменение целей агента.

Меры защиты:

Очистка данных перед сохранением.
Контроль пользователем своей памяти.
Контекстный вызов памяти.
Аудит и прослеживаемость данных.
Одобрение записей в общие хранилища.

Этап 5: Смена ориентира и воздействие

В агентских системах злоумышленник может итеративно расширять контроль:

Отравлять новые источники данных.
Переписывать цели агента.
Устанавливать канал командования (C2).

Меры защиты:

Ограничение доступа к инструментам.
Проверка планов агента на соответствие целям пользователя.
Изоляция ненадежных данных между итерациями.
Мониторинг аномалий в поведении агента.
Требование ручного подтверждения критических действий.

Воздействие

На этом этапе злоумышленник использует взломанную систему для реальных действий:

Изменение файлов, баз данных, конфигураций.
Финансовые операции (платежи, переводы).
Кража данных через URL, API и т.д.
Отправка сообщений от имени доверенных лиц.

Меры защиты:

Классификация критических действий.
Ограничение таких действий — с ручным или автоматическим одобрением.
Принцип минимальных привилегий — узкая функциональность инструментов.
Очистка выходных данных (удаление скриптов, путей, URL).
Политики безопасности контента — блокировка вредоносных вставок.

Интеграция защиты: SIEM, SOAR и агенты

Комбинация SIEM, SOAR и ИИ-агентов создает адаптивную систему безопасности:

Сбор и корреляция событий — SIEM фильтрует ложные срабатывания, агенты учатся их распознавать.
Анализ и прогноз — агенты выявляют аномалии, строят прогнозы и дают рекомендации.
Автоматическое реагирование — SOAR выполняет действия по утвержденным сценариям.

Цикл обратной связи

Результаты реагирования попадают в SIEM.
Агенты обновляют модели на основе новых данных.
SOC получает улучшенные рекомендации.

Результат: система становится умнее с каждым инцидентом.

Заключение

Атаки с использованием ИИ будут только расти — они не зависят от времени суток или календаря. Организациям необходимо строить многоуровневую, проактивную защиту: моделировать угрозы, повышать защищенность и оперативно реагировать на инциденты. Будущее — за автономными системами безопасности, но человеческий контроль останется ключевым элементом.

Читать оригинал

ИИ против ИИ: нападение и защита в эпоху искусственного интеллекта

Что такое искусственный интеллект?

Эволюция ИИ: от пассивных моделей к автономным агентам

Что такое ИИ-агент?

Компоненты ИИ-агента

Агент: два лица одной медали

Пример: ИИ-платформа HexStrike-AI

Работа MCP-сервера

Как это работает?

Цепочка атаки на ИИ: отравление данных

Этап 1: Разведка

Этап 2: Отравление

Этап 3: Захват

Этап 4: Сохранение

Этап 5: Смена ориентира и воздействие

Воздействие

Интеграция защиты: SIEM, SOAR и агенты

Цикл обратной связи

Заключение

ИИ против ИИ (нападение и защита от киберугроз)