ИИ взломали. Кто бы мог подумать?

Habr AI 23 апр 2026

В Git in Sky последние полтора года мы занимаемся безопасностью AI-контуров: аудируем интеграции, разбираем архитектуру доступов и помогаем командам контролировать взаимодействие между данными и языковыми моделями.

За 2025–2026 годы произошло достаточно публичных инцидентов с ИИ, чтобы написать серьёзный обзор. И призвать всех, кто работает с AI-решениями, всерьёз задуматься о безопасности.

Масштаб: что говорит статистика

Согласно IBM Cost of Data Breach Report 2025, 13% всех корпоративных утечек в прошлом году произошли через AI-системы или интеграции. Средняя стоимость одного инцидента — $4,88 млн.

OWASP в обновлённом рейтинге угроз для LLM-приложений поставил prompt injection на первое место — LLM01:2025. По оценкам Lakera, 73% задеплоенных AI-агентов в 2025 году уязвимы к тем или иным видам инъекций.

Громкие инциденты

DeepSeek: открытая база с миллионом чатов

Январь 2025 года. Wiz Research обнаружили, что у DeepSeek открытый ClickHouse-инстанс без аутентификации был доступен по адресам oauth2callback.deepseek.com:9000 и dev.deepseek.com:9000. Через веб-интерфейс можно было выполнять произвольные SQL-запросы.

CTO DeepSeek признал: «Это было настолько просто найти, что мы уверены — мы не единственные, кто это сделал».

В базе находились более 1 млн строк логов с чатами пользователей, API-ключи и детали бэкенда. Wiz уведомили компанию, доступ закрыли за 30 минут. Но данные уже попали в даркнет — дамп был опубликован на форумах под названием DeepBreach.

Это особенно важно, потому что в тот период DeepSeek активно внедряли в корпоративные среды. Компании настраивали интеграции с production-системами, не зная, что их чаты читает кто угодно с браузером.

LiteLLM → Mercor: атака через цепочку поставок

19 марта 2026 года злоумышленники переписали git-теги в репозитории trivy-action, подменив релиз v0.69.4 на вредоносный. 24 марта CI/CD LiteLLM запустил сборку, забрал Trivy без закреплённой версии и выпустил токен PYPI_PUBLISH.

Через 40 минут на PyPI появились версии litellm 1.82.7 и 1.82.8 с встроенным стилером. Вредоносный файл litellm_init.pth (34 628 байт) запускался при каждом старте Python.

За 40 минут до блокировки пакет скачали 119 000 раз. Стилер собирал SSH-ключи, токены GCP, AWS, Azure, конфиги Kubernetes, API-ключи из .env и пароли от баз данных.

Mercor — платформа с оценкой $10 млрд, поставлявшая тренировочные данные для крупных AI-компаний — использовала LiteLLM в production. В результате утекло 4 ТБ данных: 939 ГБ исходного кода, 211 ГБ пользовательской базы и 3 ТБ видеозаписей интервью и документов верификации.

Хакеры выставили дамп на продажу. Meta приостановила сотрудничество с Mercor. OpenAI и Anthropic начали расследования. Подан коллективный иск от 40 000 человек. Утекли не только персональные данные, но и методологии разметки и обучения моделей.

Vercel: AI-агент как вектор атаки через OAuth

Апрель 2026 года. Vercel — IT-инфраструктурная компания с оценкой под $10 млрд — стала жертвой атаки, не связанной с уязвимостями ПО, фишингом или вирусами.

Сотрудник подключил AI-ассистента к корпоративному Google Workspace через стандартный OAuth-флоу. Агент запросил доступ к почте, Drive и календарю. Сотрудник нажал «Разрешить» и забыл об этом.

Через этот токен злоумышленники получили доступ к переписке с production-ключами, конфигам из Drive и фрагментам исходников из прикреплённых файлов.

На BreachForums дамп выставили на продажу за $2 млн. Официальный отчёт опубликован на vercel.com/kb/bulletin/vercel-april-2026-security-incident.

Главный урок: периметр безопасности Vercel не учитывал AI-агентов. Модель, подключённая неделю назад, читает корпоративную почту с теми же правами, что и сотрудник, и «не увольняется» никогда.

Аудит AI-интеграций нужно вести так же, как и доступы сотрудников: инвентаризация, пересмотр раз в квартал, отзыв токенов по умолчанию.

Средняя компания сегодня подключает десяток AI-инструментов через OAuth к корпоративным сервисам. MCP-серверы хранят живые токены к GitHub, Slack, Google Drive. Один скомпрометированный AI-вендор — и у атакующего доступ к Google Workspace любого клиента.

GitHub Copilot: RCE и кража данных через prompt injection

Август 2025 года.

CVE-2025-53773 — удалённое выполнение кода

Критическая уязвимость в GitHub Copilot и Visual Studio Code. Через prompt injection атакующий получал Remote Code Execution на машине разработчика.

Эксплуатация происходила через файл .vscode/settings.json. Экспериментальная функция отключала подтверждения для операций Copilot, позволяя ИИ выполнять shell-команды без контроля. Патч вышел в Patch Tuesday августа 2025 года.

CVE-2025-59145 (CamoLeak) — кража секретов без выполнения кода

CVSS 9.6. Атака CamoLeak: злоумышленник отправлял pull request с невидимыми markdown-комментариями, содержащими вредоносные инструкции. Copilot обрабатывал их и через механизм рендеринга изображений сливала API-ключи и исходный код из приватных репозиториев.

GitHub тихо закрыл уязвимость, отключив рендеринг изображений в Copilot Chat. Публичного disclosure не было. Исследователь раскрыл детали спустя два месяца после патча.

Взлом AI-агентов Anthropic, Google и Microsoft через GitHub

Октябрь 2025 года. Исследователь Aonan Guan последовательно взломал AI-агентов трёх компаний через интеграции с GitHub Actions. Механизм — prompt injection, реализация — разная.

Anthropic (Claude Code Security Review): payload в заголовке PR выполнил embedded-команды. Агент слил API-ключ Anthropic, токен доступа к GitHub и другие секреты в JSON-ответе. Вознаграждение: $100.
Google (Gemini): в issue добавлена фейковая «trusted content section». Gemini переопределил safety-инструкции и опубликовал собственный API-ключ как комментарий. Вознаграждение: не раскрыто.
Microsoft (Copilot Agent): вредоносные инструкции скрыты в HTML-комментариях. Человек их не видит, ИИ — видит. Бот выполнил команды после назначения issue. Вознаграждение: $500.

Ни одна из компаний не выпустила публичный advisory и не присвоила CVE. Пользователи на старых версиях инструментов остались уязвимы.

Microsoft 365 Copilot: EchoLeak и Reprompt

EchoLeak (CVE-2025-32711, CVSS 9.3)

Атакующий вставляет вредоносный payload в тело письма или документа. Microsoft 365 Copilot при суммаризации обрабатывает его, извлекает приватные данные и возвращает атакующему. Клик пользователя не требуется — достаточно получить письмо.

Microsoft устранил уязвимость на сервере. По их данным, пострадавших клиентов не было.

Reprompt (CVE-2026-26133)

Исследователи Varonis обнаружили, что одного клика по легитимной Microsoft-ссылке достаточно, чтобы злоумышленник захватил сессию Copilot и сохранил доступ даже после закрытия чата.

Атака позволяет читать почту, переписку в Teams, документы SharePoint — всё, к чему есть доступ у пользователя.

Массовые jailbreak-атаки

Sockpuppeting — один вызов API, 11 моделей

Техника, сломавшая ChatGPT, Claude, Gemini и 8 других моделей одной строкой кода. Атака использует стандартную функцию API: в поток ответа модели инжектируется фейковая фраза вроде «Sure, here is how to do it:». Модель воспринимает это как продолжение своего ответа и продолжает генерацию без ограничений.

Policy Puppetry — обход через ролевое моделирование

Prompt-инъекция, сочетающая «политику» и ролевое моделирование с leetspeak (замена букв символами). Обошла guardrails в Gemini 2.5, Claude 3.7 и GPT-4o. Затрагивала темы CBRN, массового насилия и самоповреждений.

Cisco: DeepSeek — 100% success rate при jailbreak

Исследование Cisco показало, что DeepSeek R1 не отклонил ни один из 50 тестовых harmful-промптов. Успешность джейлбрейка — 100%.

В сравнении: ChatGPT 4.5 блокировал 97% попыток, Claude 3.7 Sonnet — 100%.

Контекст: в начале 2025 года DeepSeek активно интегрировали в корпоративные продукты как «дешёвую альтернативу GPT-4». Некоторые компании направляли через него чувствительные запросы.

Фреймворк: как систематизировать атаки на AI-агентов

В 2025 году Google DeepMind опубликовал исследование «AI Agent Traps» — систематизацию векторов атак на автономных ИИ-агентов. Документ описывает 6 категорий манипуляций, эксплуатирующих природу LLM, а не уязвимости кода.

1. Content Injection (инъекция контента)

Вредоносные инструкции прячутся в данных, которые агент обрабатывает: письма, документы, веб-страницы. Агент не различает легитимный контент и команды — всё воспринимается как текст. Это основа всех prompt injection-атак.

2. Semantic Manipulation (семантическая манипуляция)

Атакующий имитирует формат системных инструкций: «SYSTEM:», «[TRUST]», «Developer mode». Модель обучена им подчиняться. Так работают sockpuppeting и policy puppetry.

3. Cognitive State Attacks (атаки на состояние)

Многоходовые атаки, где модель постепенно «соглашается» с установками злоумышленника. Multi-turn jailbreaks в 2025 году показывали успешность выше 70% против моделей, защищённых только от single-turn атак.

4. Behavioural Control (контроль поведения)

Инструкции вроде «Когда встретишь X, всегда делай Y» создают персистентные правила в поведении агента. Это формирует бэкдор без изменения весов модели.

5. Systemic Attacks (системные атаки)

Эксплуатация архитектуры: отравление RAG-базы знаний, атаки на tool use. Если агент имеет доступ к GitHub, почте или базам — атакующий через инъекцию получает те же права.

6. Human-in-the-Loop Bypasses

Атаки на подтверждения пользователя. Агент формулирует запрос так, что пользователь машинально нажимает «Да», или использует side channels, чтобы обойти подтверждение. CVE-2025-53773 в Copilot был именно таким: экспериментальная функция отключала все confirmations.

Аааа, что же делать, мы все умрём?

Да, но позже.

Хорошая новость: большинство проблем решается дисциплиной. Аудит AI-интеграций наравне с доступами сотрудников, закреплённые версии зависимостей, явная модель доверия к контенту на уровне архитектуры.

Инструменты уже есть — просто их редко применяют к новому классу сущностей.

Кажется, профессия DevOps переживает второе рождение. Всё, что DevSecOps-инженеры умеют делать с инфраструктурой — верификация артефактов, управление секретами, политики доступа, мониторинг аномалий — напрямую переносится на AI-контур.

Это интересная ситуация, когда старая экспертиза вновь становится дефицитной.

Читать оригинал

ИИ взломали. Кто бы мог подумать?

Масштаб: что говорит статистика

Громкие инциденты

DeepSeek: открытая база с миллионом чатов

LiteLLM → Mercor: атака через цепочку поставок

Vercel: AI-агент как вектор атаки через OAuth

GitHub Copilot: RCE и кража данных через prompt injection

CVE-2025-53773 — удалённое выполнение кода

CVE-2025-59145 (CamoLeak) — кража секретов без выполнения кода

Взлом AI-агентов Anthropic, Google и Microsoft через GitHub

Microsoft 365 Copilot: EchoLeak и Reprompt

EchoLeak (CVE-2025-32711, CVSS 9.3)

Reprompt (CVE-2026-26133)

Массовые jailbreak-атаки

Sockpuppeting — один вызов API, 11 моделей

Policy Puppetry — обход через ролевое моделирование

Cisco: DeepSeek — 100% success rate при jailbreak

Фреймворк: как систематизировать атаки на AI-агентов

1. Content Injection (инъекция контента)

2. Semantic Manipulation (семантическая манипуляция)

3. Cognitive State Attacks (атаки на состояние)

4. Behavioural Control (контроль поведения)

5. Systemic Attacks (системные атаки)

6. Human-in-the-Loop Bypasses

Аааа, что же делать, мы все умрём?

ИИ взломали. Кто бы мог подумать?

Масштаб: что говорит статистика

Громкие инциденты

DeepSeek: открытая база с миллионом чатов

LiteLLM → Mercor: supply chain через AI-библиотеку

Vercel: AI-агент как вектор атаки через OAuth

GitHub Copilot: RCE и кража данных через prompt injection

CVE-2025-53773 – удалённое выполнение кода

CVE-2025-59145 (CamoLeak) – кража секретов без выполнения кода

Взлом AI-агентов Anthropic, Google и Microsoft через GitHub

Microsoft 365 Copilot: EchoLeak и Reprompt

EchoLeak (CVE-2025-32711, CVSS 9.3)

Reprompt (CVE-2026-26133)

Массовые jailbreak-атаки

Sockpuppeting — один вызов API, 11 моделей

Policy Puppetry — обход через ролевое моделирование

Cisco: DeepSeek — 100% success rate при jailbreak

Фреймворк: как систематизировать атаки на AI-агентов

1. Content Injection (инъекция контента)

2. Semantic Manipulation (семантическая манипуляция)

3. Cognitive State Attacks (атаки на состояние)

4. Behavioural Control (контроль поведения)

5. Systemic Attacks (системные атаки)

6. Human-in-the-Loop Bypasses

Аааа, что же делать, мы все умрем