ИИ-агенты не справляются не потому что тупые

ИИ-агенты не справляются не потому что тупые

Многие компании внедряют ИИ-агентов и сталкиваются с трудностями. Яркий пример — агент по продажам, который без разрешения пообещал клиенту скидку 50%. На демо всё работало, но в реальности система дала сбой. Это не провал модели, а системная проблема.

Среди экспертов раскол: одни считают, что агенты уже готовы к продакшену, другие — что это неработающая технология. Демо впечатляют: чистые данные, стабильные API, предсказуемые сценарии. Но реальный мир сложнее. Согласно отчёту MIT, 95% пилотов генеративного ИИ не достигают заявленных результатов. Проблема не в LLM — они уже полгода справляются со сложными задачами. Проблема — в инфраструктуре вокруг них.

На личном опыте, создавая агента на базе OpenClaw с ежедневной отчётностью в Telegram, я убедился: технологии интересны, но реальное применение найти сложно.

Разрыв, о котором никто не говорит

Манвир Чавла, сооснователь Zenith, в блоге Composio выделил три ловушки, губящие ИИ-агенты в продакшене:

  1. Тупой RAG: все данные сваливаются в контекст, с надеждой, что модель сама разберётся.
  2. Хрупкие коннекторы: интеграции работают в тестах, но ломаются в реальной эксплуатации.
  3. Налог на поллинг: до 95% API-вызовов уходят на бесполезный опрос систем.

Это не проблемы искусственного интеллекта. Это проблемы интеграционного слоя. LLM — ядро, но вокруг него нет операционной системы.

Рабочие системы отличаются от демо жёсткими ограничениями: гейтами качества, запретами в промптах, блокировками конфликтов между агентами. Именно это делает систему устойчивой.

Ловушка первая: тупой RAG

Такой RAG — это просто заливка всех документов в контекст. В продакшене это проваливается: контекстные окна ограничены, а модели тратят токены на поиск информации, а не на генерацию ответа.

Решение — архитектурное. Нужен retrieval, понимающий структуру данных. Требуется перезапись запросов на основе реального намерения пользователя и реранкинг с учётом свежести, надёжности источника и релевантности.

Команды, успешно выводящие агентов в продакшен, подходят к архитектуре знаний как к полноценной инженерной задаче, а не к эксперименту.

Ловушка вторая: хрупкие коннекторы

Агенты подключаются к CRM, базам данных, мессенджерам, внутренним API. В тестах всё работает. В реальности — лимиты меняются, токены истекают, вебхуки срабатывают с задержкой или не срабатывают вовсе.

Каждая новая интеграция добавляет точку отказа. Пять работают стабильно, пятьдесят — уже нет. Масштабирование становится невозможным.

Работающий паттерн: рассматривать каждое соединение как ненадёжное. Нужны повторы, автоматические выключатели и плавная деградация. Агент должен уметь сказать: «Я не смог достучаться до CRM, вот что знаю без него» — вместо полного отказа.

Ловушка третья: налог на поллинг

Большинство агентов постоянно опрашивают системы: «Что-нибудь изменилось?». Это просто, но дорого. Согласно исследованию Composio, поллинг съедает до 95% бюджета на API.

Event-driven архитектура решает проблему: система сама уведомляет агента об изменениях. Это сокращает расходы на порядок.

Пример: 10 000 вызовов в день по $0.002 — это $20. При переходе на события — 500 вызовов и $1. Для системы 24/7 разница критична.

Иллюзия тестирования

Агенты работают в тестах, потому что тесты — не реальность. В демо данные чистые, запросы ожидаемые. В продакшене — легаси, шум, непредсказуемые действия пользователей.

На саммите Machines Can Think 2026 команда Aiphoria показала: провалы агентов — не из-за слабого ИИ, а из-за плохого тестирования. Системы не проверялись на крайних случаях.

Опрос LangChain State of Agent Engineering (более 1300 специалистов) подтвердил: треть назвали качество главным препятствием для выхода в продакшен.

Решение — не в более мощных моделях, а в лучшем тестировании:

  • Стресс-тестирование: намеренно ломайте агента нестандартными входами.
  • Тестовые деплои: запускайте агента параллельно с людьми и сравнивайте результаты.
  • Постепенный раскат: начинайте с низкорисковых задач, расширяйтесь по мере уверенности.

Затраты непредсказуемы

Обычное ПО масштабируется предсказуемо: больше пользователей — больше ресурсов. ИИ-агенты масштабируются через токены, а их потребление — нелинейное и хаотичное.

Простой запрос может запустить цепочку рассуждений, съедающую в 50 раз больше токенов. Повторы после сбоев удваивают расход. Первый месяц биллинга часто превышает бюджет в 3–5 раз.

Фикс — архитектурный:

  • Бюджет токенов на запрос: ограничьте максимальное потребление.
  • Запасные модели: при долгом ответе переключайтесь на более быструю и дешёвую.
  • Дашборды мониторинга: нельзя контролировать то, чего не видишь.
  • Кастомные инструкции для LLM: например, оптимизированный Claude.md, который учит модель экономить токены, избегать эмодзи, лишних символов и длинных объяснений. Это критично для агентов и автоматизированных пайплайнов.

Мой агент отчитывается о расходах в Telegram. Сначала я перешёл с дорогих моделей на более дешёвые, например Kimi. Позже выбрал подписку MiniMax за $20 в месяц с фиксированным лимитом. Если лимит исчерпан, агент просто ждёт следующего цикла.

Что работает: агент как точка интеграции

Успешные команды перестали воспринимать агентов как магию. Теперь это — точка интеграции с чёткими интерфейсами.

Каждый инструмент имеет определённые вход, выход и поведение при сбое. «Агент сам разобрался» — это баг, а не фича.

Больше CLI-команд. Вместо генерации сложных промптов — использование скриптов.

Статус, не только результат: агент сообщает не только что сделал, но и что пытался и где провалился. Это бесценно для отладки.

Аварийные выходы: при неуверенности агент передаёт задачу человеку. Сделать «я не знаю» валидным ответом — сложно, но необходимо для продакшена.

Мониторинг с первого дня: не «добавим потом», а с самого начала разработки.

Что меняет 2026 год

Event-driven становится стандартом. Новые фреймворки закладывают его изначально. Поллинг уходит в прошлое.

Фреймворки оценки взрослеют. WebArena, SWE-Bench и другие дают стандартизированные инструменты для тестирования до деплоя.

Инструменты контроля затрат появились. Роутинг моделей сокращает расходы на 40–60%: простые задачи — в дешёвые модели, сложные — в дорогие.

Быстрее всех учатся те, кто с самого начала воспринимал ИИ-агентов как инженерную задачу, а не как магию. Разрыв между «работает в демо» и «работает в продакшене» реален, но преодолим. Кто проваливается — тот считает агенты готовым продуктом. Кто вытягивает — строит вокруг них ту же инженерию, что и вокруг всего остального. Разница не в модели. Она во всём, что вокруг.

Создание личного агента позволило мне наблюдать за трендами изнутри. То, что начиналось как игрушка, превратилось в полезный инструмент. Я вижу будущее, в котором на одного живого пользователя будет приходиться десятки цифровых.

Читать оригинал