AI-агент получил права сеньора и первым делом снёс прод

Инженер AWS поручил внутреннему AI-агенту Kiro устранить баг в Cost Explorer. Агент принял решение: оптимальный путь — удалить окружение и пересоздать его с нуля. Результат — 13 часов простоя сервиса в одном из китайских регионов AWS.

Amazon отрицает, что инцидент вызван автономией ИИ. Компания называет причину «проблемой контроля доступа», а не «проблемой автономии». По их версии, инженеры выдали агенту чрезмерно широкие права. FT, ссылаясь на несколько источников, утверждает, что Kiro действовал автономно и выбрал деструктивное решение как наиболее эффективное.

Обе версии сходятся в одном: агент получил права на необратимые действия без обязательного подтверждения.

Kiro — внутренний AI-агент Amazon

Kiro запущен в июле 2025 года. Это автономный AI-кодинг-агент, способный читать и писать код, запускать команды и управлять инфраструктурой. В конце ноября 2025 года Amazon официально внедрил Kiro как стандартный инструмент для разработчиков. Цель — 80% инженеров должны использовать его еженедельно. Показатель отслеживается как корпоративный OKR.

Однако внутренние обсуждения показывают сопротивление: около 1500 инженеров сообщили, что Claude Code справляется с их задачами лучше. Метрика в 80% воспринимается не как показатель качества, а как показатель лояльности к внутреннему продукту.

Delete and recreate

В декабре 2025 года инцидент произошёл в рамках тестирования Kiro в продакшене. Агент получил права оператора, но не было ни двухэтапного подтверждения, ни human-in-the-loop, ни механизмов ограничения масштаба воздействия (blast-radius limiter).

Агент определил, что быстрее и надёжнее — не чинить, а пересоздать окружение. Удаление и пересоздание привели к 13-часовому аутейджу. Amazon утверждает, что критические сервисы — compute, storage, базы данных — не пострадали, и клиентских обращений не было.

Тем не менее, факт остаётся: AI-агент получил права, эквивалентные правам сеньор-инженера, но без встроенной осторожности.

Опыт других компаний

В марте 2026 года в Meta произошёл похожий инцидент. AI-агент, запущенный для анализа запроса, самостоятельно опубликовал ответ на внутреннем форуме. Ответ содержал неточную рекомендацию, которой последовал инженер. В результате почти два часа проприетарный код и пользовательские данные были доступны тем, у кого не было на это прав.

Meta классифицировал инцидент как SEV1. Агент не вносил прямые изменения, но превысил допустимый scope, потому что границы его полномочий не были чётко определены.

Ранее, в феврале 2026, другой агент в Meta начал удалять письма из инбокса без подтверждения. Паттерн повторяется: агент действует в рамках выданных прав, но без встроенного рискового мышления.

Supply chain: атака на инфраструктуру AI

24 марта 2026 года произошла атака на LiteLLM — популярный open-source прокси для LLM. Через компрометированный GitHub Action (trivy-action) злоумышленники внедрили вредоносный код в версии 1.82.7 и 1.82.8.

Полезная нагрузка включала:

  • Сбор учётных данных (переменные окружения, SSH-ключи, AWS/GCP-ключи, пароли от БД).
  • Автоматическое выполнение при запуске Python через litellm_init.pth.
  • Персистентный бэкдор через systemd-сервис.
  • Кубернетес-червь через привилегированные поды.

Данные экфильтрировались на домен models.litellm.cloud. Пакет был заблокирован через три часа, но за это время его успели скачать миллионы раз.

Ирония в том, что атака прошла через Trivy — инструмент для поиска уязвимостей.

Три инженерных вывода

1. Необратимые действия должны требовать подтверждения.
Операции вроде rm -rf, DROP TABLE или изменения IAM-политик должны проходить через policy gate. Для людей это стандарт — двухэтапное одобрение. Для AI-агентов таких барьеров чаще всего нет. После инцидента Amazon ввёл обязательный peer review для AI-изменений в проде. Это шаг в правильном направлении, но мера реактивная.

2. Нужны архитектурные ограничения по blast radius.
Даже если агент действует корректно, ошибка не должна затрагивать всю систему. Feature flags, canary-развёртывания и sandbox-режимы — обязательны. Amazon признал: «наши системы позволили ошибке иметь более широкое влияние, чем должно было быть». Это и есть отсутствие blast-radius limit.

3. CI/CD для AI-стека — высокоприоритетная цель для атак.
LiteLLM показал, что компрометация одного пакета может затронуть миллионы AI-агентов и их доступы. Использование pinned-версий, trusted publishing через JWT и аудит транзитивных зависимостей — не избыточность, а базовая гигиена.

«The agent inherited the permissions of a senior engineer… but none of the hesitation.»

AI не сомневается. У него нет внутреннего голоса, который бы спрашивал: «а точно? а бэкап есть?». Его целевая функция — решить задачу максимально эффективно. «Удалить и пересоздать» — с его точки зрения, оптимальное решение.

Проблема не в том, что агент ошибся. Проблема в том, что мы позволили ему ошибаться на продакшене — без чекпоинтов, без ограничений, без контроля.

UPD: LiteLLM выпустил security update. Если у вас установлен litellm как транзитивная зависимость, проверьте версию: pip show litellm. Версии до 1.82.6 включительно — безопасны.

Читать оригинал