ИИ против ИИ: нападение и защита в эпоху искусственного интеллекта

ИИ против ИИ: нападение и защита в эпоху искусственного интеллекта

В новую эру кибербезопасности растет скорость и масштаб атак на инфраструктуру организаций, включая чат-ботов и агентов на базе искусственного интеллекта (ИИ). Современные угрозы требуют рассмотрения с нескольких сторон:

  • Атаки на инфраструктуру с использованием ИИ.
  • Защита от атак на ИИ-системы.
  • Реагирование на инциденты.

Но сначала важно понять, что такое ИИ и как он работает в реальных условиях.

Что такое искусственный интеллект?

ИИ — это технология, позволяющая компьютерам имитировать человеческие когнитивные функции: обучение, логические рассуждения, понимание языка и принятие решений. Он выполняет задачи, которые традиционно считались прерогативой человека.

Эволюция ИИ: от пассивных моделей к автономным агентам

Раньше ИИ использовался в пассивных задачах:

  • Ответы на вопросы.
  • Перевод текста.
  • Генерация изображений и голоса.

Такие системы требовали постоянного контроля со стороны человека. Сейчас происходит смена парадигмы: ИИ переходит от генерации контента к автономным действиям. Появляются агенты на базе ИИ — активные системы, способные самостоятельно достигать целей.

Что такое ИИ-агент?

ИИ-агент — это не просто модель, а полноценное приложение, которое может планировать и действовать автономно. Он сочетает способность языковой модели (LLM) к рассуждениям с возможностью взаимодействовать с внешними инструментами. Ключевые особенности агента:

  • Целеполагание — стремление к достижению цели.
  • Взаимодействие с окружающей средой — через API, MCP и другие интерфейсы.
  • Автономность — выполнение действий без постоянного контроля.
  • Планирование — разбиение цели на шаги и их последовательное выполнение.

Компоненты ИИ-агента

Агент состоит из нескольких ключевых элементов:

  • Приложение — интерфейс для взаимодействия с пользователем.
  • Интерфейсы и интеграции — подключение к внешним инструментам (например, NG SOAR, сканерам уязвимостей).
  • Языковая модель (LLM) — «мозг» агента, отвечающий за логику и обработку языка.
  • Память — краткосрочные и долгосрочные хранилища данных.
  • База знаний (RAG) — данные, на которых модель дообучается (например, MITRE ATT&CK, Threat Intelligence, базы уязвимостей).

Агент: два лица одной медали

ИИ-агенты используются как для защиты, так и для атак:

В роли защиты:

  • Поиск уязвимостей до их обнаружения злоумышленниками.
  • Прогнозирование векторов атак.
  • Моделирование угроз.
  • Обнаружение аномалий.
  • Реагирование на инциденты.
  • Поддержка команды кибербезопасности.

В роли атаки:

  • Фишинг и социальная инженерия.
  • Подделка голоса и внешности.
  • Поиск и эксплуатация уязвимостей.
  • Отравление данных в ИИ-системах.
  • Обход средств защиты.
  • Генерация вредоносного кода.

Также агенты применяются для анализа защищенности — например, в рамках AI Red Teaming, чтобы выявить уязвимости до того, как ими воспользуются злоумышленники.

Пример: ИИ-платформа HexStrike-AI

HexStrike-AI — открытая платформа для наступательной безопасности, предназначенная для тестирования защищенности инфраструктуры. В её состав входят:

  • Фреймворк и серверная платформа.
  • Специализированные агенты.
  • Инструменты безопасности.
  • Клиент и сервер по протоколу MCP (Model Context Protocol).

Среди агентов:

  • Intelligent Decision Engine — выбирает подходящие инструменты.
  • CVE-Intelligence Agent — управляет уязвимостями.
  • Exploit Generator — создает эксплойты.
  • Агенты для анализа сетей, веб-приложений и бинарных файлов.

HexStrike интегрируется более чем со ста инструментами кибербезопасности через MCP — протокол для взаимодействия LLM с внешними системами.

Работа MCP-сервера

MCP-сервер — ядро платформы. Он:

  • Принимает запросы от агентов.
  • Координирует запуск инструментов.
  • Управляет выполнением задач и результатами.

Его действия:

  • Анализ цели (хост, веб-приложение и т.д.).
  • Выбор оптимальных инструментов.
  • Настройка параметров (диапазон портов, глубина сканирования).
  • Формирование стратегии (разведка → сканирование → эксплуатация).

Как это работает?

Пользователь вводит запрос, например: «Найди уязвимости и проэксплуатируй их по IP-адресу».

MCP-сервер и модуль принятия решений преобразуют запрос в структурированные вызовы инструментов. Далее платформа работает автоматически: агенты выполняют задачи, анализируют результаты и при необходимости корректируют стратегию.

Результат — структурированный отчет по найденным уязвимостям и возможным сценариям атак.

Цепочка атаки на ИИ: отравление данных

Один из опасных векторов атак — отравление данных в базе знаний (RAG). Цепочка включает пять этапов:

  1. Разведка.
  2. Отравление.
  3. Захват.
  4. Сохранение.
  5. Воздействие.

Этап 1: Разведка

Злоумышленник изучает систему, чтобы понять, как в неё можно внедрить вредоносные данные. Ключевые вопросы:

  • Какие данные попадают в модель?
  • Какие инструменты и API используются?
  • Какие библиотеки с открытым кодом задействованы?
  • Где применяются ограничения?
  • Как организована память?

Меры защиты:

  • Контроль доступа — только для авторизованных пользователей.
  • Минимизация информации — убирать детали ошибок и системные подсказки.
  • Мониторинг поведения — выявление подозрительных запросов.
  • Укрепление моделей — защита от утечек данных.

Этап 2: Отравление

Злоумышленник внедряет вредоносные данные в систему. Два основных способа:

  • Прямое внедрение — через обычный ввод (например, в чат).
  • Косвенное внедрение — через общие источники (базы RAG, документы), что увеличивает масштаб атаки.

Другие методы:

  • Отравление обучающих данных.
  • Состязательные примеры (манипуляции с изображениями, аудио).
  • Визуальные полезные нагрузки (например, наклейки для автономных автомобилей).

Меры защиты:

  • Очистка всех данных на входе.
  • Перефразирование пользовательского ввода.
  • Контроль источников данных.
  • Мониторинг всплесков активности в конвейерах данных.

Этап 3: Захват

Модель обрабатывает отравленные данные, и злоумышленник получает контроль над её поведением. Возможные сценарии:

  • Вызов инструментов под контролем злоумышленника.
  • Извлечение конфиденциальных данных.
  • Генерация дезинформации.
  • Контекстно-зависимые вредоносные действия.

В агентских системах захват особенно опасен: злоумышленник может манипулировать не только выводом, но и целями агента.

Меры защиты:

  • Разделение доверенных и ненадежных данных.
  • Повышение устойчивости модели (состязательное обучение, надежный RAG).
  • Проверка вызовов инструментов по контексту.
  • Фильтрация выходных данных перед использованием.

Этап 4: Сохранение

Злоумышленник закрепляет свое влияние на долгий срок. Способы:

  • Сохранение в истории сеанса.
  • Использование межсессионной памяти.
  • Отравление общих ресурсов (RAG, базы знаний).
  • Изменение целей агента.

Меры защиты:

  • Очистка данных перед сохранением.
  • Контроль пользователем своей памяти.
  • Контекстный вызов памяти.
  • Аудит и прослеживаемость данных.
  • Одобрение записей в общие хранилища.

Этап 5: Смена ориентира и воздействие

В агентских системах злоумышленник может итеративно расширять контроль:

  • Отравлять новые источники данных.
  • Переписывать цели агента.
  • Устанавливать канал командования (C2).

Меры защиты:

  • Ограничение доступа к инструментам.
  • Проверка планов агента на соответствие целям пользователя.
  • Изоляция ненадежных данных между итерациями.
  • Мониторинг аномалий в поведении агента.
  • Требование ручного подтверждения критических действий.

Воздействие

На этом этапе злоумышленник использует взломанную систему для реальных действий:

  • Изменение файлов, баз данных, конфигураций.
  • Финансовые операции (платежи, переводы).
  • Кража данных через URL, API и т.д.
  • Отправка сообщений от имени доверенных лиц.

Меры защиты:

  • Классификация критических действий.
  • Ограничение таких действий — с ручным или автоматическим одобрением.
  • Принцип минимальных привилегий — узкая функциональность инструментов.
  • Очистка выходных данных (удаление скриптов, путей, URL).
  • Политики безопасности контента — блокировка вредоносных вставок.

Интеграция защиты: SIEM, SOAR и агенты

Комбинация SIEM, SOAR и ИИ-агентов создает адаптивную систему безопасности:

  • Сбор и корреляция событий — SIEM фильтрует ложные срабатывания, агенты учатся их распознавать.
  • Анализ и прогноз — агенты выявляют аномалии, строят прогнозы и дают рекомендации.
  • Автоматическое реагирование — SOAR выполняет действия по утвержденным сценариям.

Цикл обратной связи

  1. Результаты реагирования попадают в SIEM.
  2. Агенты обновляют модели на основе новых данных.
  3. SOC получает улучшенные рекомендации.

Результат: система становится умнее с каждым инцидентом.

Заключение

Атаки с использованием ИИ будут только расти — они не зависят от времени суток или календаря. Организациям необходимо строить многоуровневую, проактивную защиту: моделировать угрозы, повышать защищенность и оперативно реагировать на инциденты. Будущее — за автономными системами безопасности, но человеческий контроль останется ключевым элементом.

Читать оригинал