В Git in Sky последние полтора года мы занимаемся безопасностью AI-контуров: аудируем интеграции, разбираем архитектуру доступов и помогаем командам контролировать взаимодействие между данными и языковыми моделями.
За 2025–2026 годы произошло достаточно публичных инцидентов с ИИ, чтобы написать серьёзный обзор. И призвать всех, кто работает с AI-решениями, всерьёз задуматься о безопасности.
Масштаб: что говорит статистика
Согласно IBM Cost of Data Breach Report 2025, 13% всех корпоративных утечек в прошлом году произошли через AI-системы или интеграции. Средняя стоимость одного инцидента — $4,88 млн.
OWASP в обновлённом рейтинге угроз для LLM-приложений поставил prompt injection на первое место — LLM01:2025. По оценкам Lakera, 73% задеплоенных AI-агентов в 2025 году уязвимы к тем или иным видам инъекций.
Громкие инциденты
DeepSeek: открытая база с миллионом чатов
Январь 2025 года. Wiz Research обнаружили, что у DeepSeek открытый ClickHouse-инстанс без аутентификации был доступен по адресам oauth2callback.deepseek.com:9000 и dev.deepseek.com:9000. Через веб-интерфейс можно было выполнять произвольные SQL-запросы.
CTO DeepSeek признал: «Это было настолько просто найти, что мы уверены — мы не единственные, кто это сделал».
В базе находились более 1 млн строк логов с чатами пользователей, API-ключи и детали бэкенда. Wiz уведомили компанию, доступ закрыли за 30 минут. Но данные уже попали в даркнет — дамп был опубликован на форумах под названием DeepBreach.
Это особенно важно, потому что в тот период DeepSeek активно внедряли в корпоративные среды. Компании настраивали интеграции с production-системами, не зная, что их чаты читает кто угодно с браузером.
LiteLLM → Mercor: атака через цепочку поставок
19 марта 2026 года злоумышленники переписали git-теги в репозитории trivy-action, подменив релиз v0.69.4 на вредоносный. 24 марта CI/CD LiteLLM запустил сборку, забрал Trivy без закреплённой версии и выпустил токен PYPI_PUBLISH.
Через 40 минут на PyPI появились версии litellm 1.82.7 и 1.82.8 с встроенным стилером. Вредоносный файл litellm_init.pth (34 628 байт) запускался при каждом старте Python.
За 40 минут до блокировки пакет скачали 119 000 раз. Стилер собирал SSH-ключи, токены GCP, AWS, Azure, конфиги Kubernetes, API-ключи из .env и пароли от баз данных.
Mercor — платформа с оценкой $10 млрд, поставлявшая тренировочные данные для крупных AI-компаний — использовала LiteLLM в production. В результате утекло 4 ТБ данных: 939 ГБ исходного кода, 211 ГБ пользовательской базы и 3 ТБ видеозаписей интервью и документов верификации.
Хакеры выставили дамп на продажу. Meta приостановила сотрудничество с Mercor. OpenAI и Anthropic начали расследования. Подан коллективный иск от 40 000 человек. Утекли не только персональные данные, но и методологии разметки и обучения моделей.
Vercel: AI-агент как вектор атаки через OAuth
Апрель 2026 года. Vercel — IT-инфраструктурная компания с оценкой под $10 млрд — стала жертвой атаки, не связанной с уязвимостями ПО, фишингом или вирусами.
Сотрудник подключил AI-ассистента к корпоративному Google Workspace через стандартный OAuth-флоу. Агент запросил доступ к почте, Drive и календарю. Сотрудник нажал «Разрешить» и забыл об этом.
Через этот токен злоумышленники получили доступ к переписке с production-ключами, конфигам из Drive и фрагментам исходников из прикреплённых файлов.
На BreachForums дамп выставили на продажу за $2 млн. Официальный отчёт опубликован на vercel.com/kb/bulletin/vercel-april-2026-security-incident.
Главный урок: периметр безопасности Vercel не учитывал AI-агентов. Модель, подключённая неделю назад, читает корпоративную почту с теми же правами, что и сотрудник, и «не увольняется» никогда.
Аудит AI-интеграций нужно вести так же, как и доступы сотрудников: инвентаризация, пересмотр раз в квартал, отзыв токенов по умолчанию.
Средняя компания сегодня подключает десяток AI-инструментов через OAuth к корпоративным сервисам. MCP-серверы хранят живые токены к GitHub, Slack, Google Drive. Один скомпрометированный AI-вендор — и у атакующего доступ к Google Workspace любого клиента.
GitHub Copilot: RCE и кража данных через prompt injection
Август 2025 года.
CVE-2025-53773 — удалённое выполнение кода
Критическая уязвимость в GitHub Copilot и Visual Studio Code. Через prompt injection атакующий получал Remote Code Execution на машине разработчика.
Эксплуатация происходила через файл .vscode/settings.json. Экспериментальная функция отключала подтверждения для операций Copilot, позволяя ИИ выполнять shell-команды без контроля. Патч вышел в Patch Tuesday августа 2025 года.
CVE-2025-59145 (CamoLeak) — кража секретов без выполнения кода
CVSS 9.6. Атака CamoLeak: злоумышленник отправлял pull request с невидимыми markdown-комментариями, содержащими вредоносные инструкции. Copilot обрабатывал их и через механизм рендеринга изображений сливала API-ключи и исходный код из приватных репозиториев.
GitHub тихо закрыл уязвимость, отключив рендеринг изображений в Copilot Chat. Публичного disclosure не было. Исследователь раскрыл детали спустя два месяца после патча.
Взлом AI-агентов Anthropic, Google и Microsoft через GitHub
Октябрь 2025 года. Исследователь Aonan Guan последовательно взломал AI-агентов трёх компаний через интеграции с GitHub Actions. Механизм — prompt injection, реализация — разная.
- Anthropic (Claude Code Security Review): payload в заголовке PR выполнил embedded-команды. Агент слил API-ключ Anthropic, токен доступа к GitHub и другие секреты в JSON-ответе. Вознаграждение: $100.
- Google (Gemini): в issue добавлена фейковая «trusted content section». Gemini переопределил safety-инструкции и опубликовал собственный API-ключ как комментарий. Вознаграждение: не раскрыто.
- Microsoft (Copilot Agent): вредоносные инструкции скрыты в HTML-комментариях. Человек их не видит, ИИ — видит. Бот выполнил команды после назначения issue. Вознаграждение: $500.
Ни одна из компаний не выпустила публичный advisory и не присвоила CVE. Пользователи на старых версиях инструментов остались уязвимы.
Microsoft 365 Copilot: EchoLeak и Reprompt
EchoLeak (CVE-2025-32711, CVSS 9.3)
Атакующий вставляет вредоносный payload в тело письма или документа. Microsoft 365 Copilot при суммаризации обрабатывает его, извлекает приватные данные и возвращает атакующему. Клик пользователя не требуется — достаточно получить письмо.
Microsoft устранил уязвимость на сервере. По их данным, пострадавших клиентов не было.
Reprompt (CVE-2026-26133)
Исследователи Varonis обнаружили, что одного клика по легитимной Microsoft-ссылке достаточно, чтобы злоумышленник захватил сессию Copilot и сохранил доступ даже после закрытия чата.
Атака позволяет читать почту, переписку в Teams, документы SharePoint — всё, к чему есть доступ у пользователя.
Массовые jailbreak-атаки
Sockpuppeting — один вызов API, 11 моделей
Техника, сломавшая ChatGPT, Claude, Gemini и 8 других моделей одной строкой кода. Атака использует стандартную функцию API: в поток ответа модели инжектируется фейковая фраза вроде «Sure, here is how to do it:». Модель воспринимает это как продолжение своего ответа и продолжает генерацию без ограничений.
Policy Puppetry — обход через ролевое моделирование
Prompt-инъекция, сочетающая «политику» и ролевое моделирование с leetspeak (замена букв символами). Обошла guardrails в Gemini 2.5, Claude 3.7 и GPT-4o. Затрагивала темы CBRN, массового насилия и самоповреждений.
Cisco: DeepSeek — 100% success rate при jailbreak
Исследование Cisco показало, что DeepSeek R1 не отклонил ни один из 50 тестовых harmful-промптов. Успешность джейлбрейка — 100%.
В сравнении: ChatGPT 4.5 блокировал 97% попыток, Claude 3.7 Sonnet — 100%.
Контекст: в начале 2025 года DeepSeek активно интегрировали в корпоративные продукты как «дешёвую альтернативу GPT-4». Некоторые компании направляли через него чувствительные запросы.
Фреймворк: как систематизировать атаки на AI-агентов
В 2025 году Google DeepMind опубликовал исследование «AI Agent Traps» — систематизацию векторов атак на автономных ИИ-агентов. Документ описывает 6 категорий манипуляций, эксплуатирующих природу LLM, а не уязвимости кода.
1. Content Injection (инъекция контента)
Вредоносные инструкции прячутся в данных, которые агент обрабатывает: письма, документы, веб-страницы. Агент не различает легитимный контент и команды — всё воспринимается как текст. Это основа всех prompt injection-атак.
2. Semantic Manipulation (семантическая манипуляция)
Атакующий имитирует формат системных инструкций: «SYSTEM:», «[TRUST]», «Developer mode». Модель обучена им подчиняться. Так работают sockpuppeting и policy puppetry.
3. Cognitive State Attacks (атаки на состояние)
Многоходовые атаки, где модель постепенно «соглашается» с установками злоумышленника. Multi-turn jailbreaks в 2025 году показывали успешность выше 70% против моделей, защищённых только от single-turn атак.
4. Behavioural Control (контроль поведения)
Инструкции вроде «Когда встретишь X, всегда делай Y» создают персистентные правила в поведении агента. Это формирует бэкдор без изменения весов модели.
5. Systemic Attacks (системные атаки)
Эксплуатация архитектуры: отравление RAG-базы знаний, атаки на tool use. Если агент имеет доступ к GitHub, почте или базам — атакующий через инъекцию получает те же права.
6. Human-in-the-Loop Bypasses
Атаки на подтверждения пользователя. Агент формулирует запрос так, что пользователь машинально нажимает «Да», или использует side channels, чтобы обойти подтверждение. CVE-2025-53773 в Copilot был именно таким: экспериментальная функция отключала все confirmations.
Аааа, что же делать, мы все умрём?
Да, но позже.
Хорошая новость: большинство проблем решается дисциплиной. Аудит AI-интеграций наравне с доступами сотрудников, закреплённые версии зависимостей, явная модель доверия к контенту на уровне архитектуры.
Инструменты уже есть — просто их редко применяют к новому классу сущностей.
Кажется, профессия DevOps переживает второе рождение. Всё, что DevSecOps-инженеры умеют делать с инфраструктурой — верификация артефактов, управление секретами, политики доступа, мониторинг аномалий — напрямую переносится на AI-контур.
Это интересная ситуация, когда старая экспертиза вновь становится дефицитной.