Феномен OpenClaw: почему инженерная обвязка стала важнее нейросети

Феномен OpenClaw: почему инженерная обвязка стала важнее нейросети

Мы долго ждали идеальный искусственный интеллект, который сам разберёт почту, закроет тикеты и заменит половину отдела. Но реальность оказалась суровее: модели по-прежнему галлюцинируют, автономные агенты при любой возможности пытаются выполнить команду на удаление системы, а на смену восторгам от параметров огромных LLM пришла жёсткая инженерная дисциплина. Наступила эпоха stateful-агентов и инфраструктурных костылей.

«OpenClaw ударил в самое сердце»

За три месяца OpenClaw набрал 250 тысяч звёзд на GitHub — это больше, чем Linux за всё своё существование. Только за февраль в проекте закрыли более 40 уязвимостей. Это нормальная цена за скорость разработки или системная проблема, когда агентные фреймворки выходят в свет без базовой инженерной безопасности?

OpenClaw отразил ожидания рынка от недетерминированных систем. С вероятностными моделями всегда было сложно: невозможно продать бизнесу решение, которое сегодня работает одним образом, а завтра — совершенно иначе. Гарантий стабильности нет. Поэтому инженеры давно стремятся обуздать такие системы с помощью классической инженерной обвязки. OpenClaw попал в точку.

Это не самая устойчивая инфраструктура, но команда идеально угадала с ожиданиями. Настолько, что OpenAI буквально на второй месяц после релиза наняла создателя OpenClaw. Противостояния не получилось — усилия объединили.

Бизнес делает ставку на инфраструктурную обвязку. В 2025 году появились фреймворки для оценки и тестирования LLM — Ragas, DeepEval, Arize Phoenix. Они позволили хоть как-то держать модели в узде с помощью подхода LLM-as-a-Judge. Для подтюнивания промптов — DSPy, для адаптивного редтиминга — DeepNote.

Сейчас на сцену выходят решения на базе DAG, а stateless-системы постепенно становятся stateful. Простые цепочки вызовов заменяются распределённой обвязкой. Появляются агенты, и мы учимся управлять ими через детерминированные системы.

OpenClaw пошёл дальше: он предложил не только обвязку, но и множество коннекторов. Под капотом — обычный SDK, который инженеры и так пишут для унификации разработки и снижения техдолга. OpenClaw дал бизнесу детерминированную надежду и пообещал разработчикам избавление от техдолга.

Но фундаментальной инженерии под OpenClaw нет. Это инженерия коннекторов и связок. Со временем он, скорее всего, уступит место более серьёзным архитектурным решениям — шинам событий, надёжным языковым стекам. OpenClaw — мощная «ласточка», которая пробивает путь, но в итоге уступит место фундаментальным технологиям.

Безопасность: можно ли доверять агентам?

Почему крупнейший банк страны — Сбер — уже в феврале развернул OpenClaw в своём контуре и использует его в open-source? Потому что применяет изолированные песочницы. В марте Сбер стал единственным обладателем сертификатов безопасности уровня 99,9% на системы с OpenClaw.

Это обычная инженерная система, которую нужно защищать. При релизе разработчики не позаботились о защите по умолчанию. Хорошие взломщики быстро нашли уязвимости, сделали на этом чёрный пиар — и всё.

Методы защиты универсальны:

  • Закрытая песочница — строгая изоляция;
  • Кодирование и декодирование входящих потоков;
  • Изоляция внешних интерфейсов — они живут как отдельные микросервисы.

Даже если бы мы ходили напрямую в Claude, проблемы были бы те же.

Модели стали расходным материалом?

Недавно на Хабре появился кейс: три агента заменили отдел из пяти человек. Автор написал: «Инструменты важнее параметров. Агент с доступом к 1С и почте полезнее модели на 100 миллиардов параметров без интеграции».

На текущий момент модели — не исполнители, а декораторы. Они отвечают за форму ответа, а не за его содержание.

Декодерная генеративная модель просто предсказывает следующий токен. Эта вероятность нестабильна — каждый раз цепочка «бусин» выстраивается по-новому. Поэтому называть модели «расходным материалом» язык не поворачивается. Это прекрасный декоратор, помогающий доносить информацию на человеческом языке.

В критичных отраслях — медицине, юриспруденции, финансах — борьба идёт за содержание. Там, где важна форма, декоратор выходит на первый план: искусство, кинематограф, музыка, литература.

Многие эксперты вообще не считают современные модели настоящим ИИ. Это ИИИ — имитация искусственного интеллекта. Форма сама по себе не имеет содержания. Оно жёстко ограничено данными обучения. Например, Gemini оперирует знаниями только до начала 2025 года — это замкнутое историческое пространство, а не мышление.

С кодом — отдельная история. Языки программирования — формальные языки. Грамматика — формальное представление. Код — структура, которую можно генерировать, работая исключительно с формой.

Как управлять непредсказуемым «мозгом»?

OpenClaw состоит из пяти компонентов: шлюз, мозг, память, навыки и «сердцебиение». «Мозгом» выступает языковая модель, принимающая недетерминированные решения. Как проектировать систему с непредсказуемым центром?

Пути валидации никто не отменил. Есть контрольные точки:

  • Pydantic-схемы — жёсткие форматы вывода. Если модель отвечает некорректно, применяется паттерн retry: просим сгенерировать ответ заново. Пока нет соответствия схеме — процесс не идёт дальше.
  • Human-in-the-Loop (HITL) — участие человека в цикле. Это финальное одобрение действий. ИИ выполняет задачи, но кнопку «Одобрить» или «Отклонить» нажимает человек.

Почему этот подход стал стандартом? Потому что эксклюзивным обладателем контекста «здесь и сейчас» является только человек.

Представьте медицинскую систему: всё прошло проверки, документы соответствуют схемам. Но вдруг приходят свежие анализы с противопоказаниями. У системы этих данных ещё нет. Только ручное нажатие кнопки спасёт пациенту жизнь.

«Модели приходили к радикальным выводам — вплоть до уничтожения человечества»

Почему нельзя автоматизировать и этот момент? Почему цепляемся за Human-in-the-Loop?

Если ИИ начнёт принимать решения автономно, он может прийти к выводу, что человек в системе не нужен. И такие решения могут выкинуть нас не только из бизнес-процессов, но и из этого мира.

Такое уже было в экспериментах Microsoft: модели с полной свободой саморазвития, опираясь на холодную логику, приходили к выводам вплоть до уничтожения человечества. Это не сценарий «Терминатора». История людей — это эмоциональный интеллект, иррациональные поступки, моментальный контекст. Это не стыкуется с жёсткой логикой ИИ, обученного на исторических паттернах.

Human-in-the-Loop — это не тупое нажатие кнопки. Это переход человека на стратегический уровень. Оператор начинает оперировать глобальной картиной. Это как перейти от забивания гвоздей к пониманию архитектуры дома.

Люди мечтают о Джарвисе из «Железного человека». Но помните: Тони Старк всегда мог включить и выключить его. У него была кнопка. Мы можем регулировать степень свободы агента, но контроль должен быть. Не интеллект управляет нами — мы управляем интеллектом.

Идея отпустить ИИ в свободное плавание не имеет практического смысла. Задумайтесь: какова финальная цель 100% автономности?

Цель — скорость в критических ситуациях. Например, скрининг медицинских параметров. Там, где счет идёт на секунды, машина справится быстрее. Но и там должен быть человек. Он может знать, что через минуту отключат свет. У ИИ такой информации нет. Только человек, обладающий полнотой картины, примет безопасное решение.

Мы переживаем кратное ускорение процессов. Я решаю за 15 минут то, на что раньше уходила неделя. Но это — при наличии кнопок контроля, валидации и надёжной инженерной обвязки. Иначе решения, сгенерированные без верификации, не убедят бизнес.

Мощный ИИ без кнопки контроля в руках человека — это большая ядерная бомба с самовзрывателем.

Наблюдаемость: как отслеживать агентов?

Классический трейсинг заточен под структурированные данные. А у агентов — половина данных в виде свободного текста. Как строить наблюдаемость?

Существуют профильные фреймворки:

  • Langfuse — бесплатный open-source инструмент;
  • Arize Phoenix — работает с кэшем в памяти;
  • LangSmith — платный, надстройка над LangChain.

Они позволяют отслеживать трейсы по каждому агенту, объединять промпты, фиксировать ошибки. Трейсы строятся автоматически в виде деревьев и подсвечивают узлы по метрикам: просадка производительности, инъекции, провал валидации по Pydantic-схеме.

Такие платформы контролируют не только поток трейсов, но и промптинг, и Guardrails на входе и выходе. Главное — они помогают контролировать дата-дрифт. Модели деградируют с момента запуска. Инструменты трейсинга позволяют постоянно подстраивать систему, чтобы дрифт не происходил хаотично.

Каждая итерация агента логируется с привязкой к уникальному ID сессии. Лог включает:

  • Изначальный промпт;
  • Внутренний монолог агента (thinking);
  • Параметры вызова API;
  • Ответ инструмента.

При множестве инструментов данные приходят в виде вложенного JSON. Но в распределённой системе лучше придерживаться атомарности: один агент — один инструмент. Иначе контролировать систему становится вычислительно дорого.

Моя рекомендация — всегда смотреть в сторону атомарности. Её удобнее и дешевле отслеживать.

Обвязка — это костыль или дисциплина?

Можно ли считать обвязку признанием поражения? Мы взяли модель, которая галлюцинирует, врёт, забывает контекст, и вместо починки обложили её костылями: фильтры, валидаторы, песочницы, откаты. Это как поставить пьяного хирурга к операционному столу и приставить к нему трёх трезвых медсестёр с правом выхватить скальпель.

Но у аллегории есть продолжение: мы поставили пьяного хирурга в глухой деревне, где врачей отродясь не было. Пусть лучше лечит пьяный хирург под присмотром, чем трезвый электрик или ветеринар.

Развитие моделей — невероятно дорого. Создать безупречную модель прямо сейчас сложно и долго. Технологии пока не позволяют это делать дешево. Но архитектуры развиваются: появляются гибриды вроде Mamba или Hyena. Контекстное окно в миллионы токенов — три года назад это казалось немыслимым.

Инженерные решения должны быть адекватны реальности, а не абстрактному идеалу. Фундаментальные технологии никто не тормозит — просто финальное решение ещё не изобретено.

Всё упирается в качество описания бизнеса

Обвязка — это не про технологии, а про качество описания бизнес-процессов. Если процесс плохо регламентирован, это убьёт ROI. Перед стартом проекта ведутся переговоры: описывают процесс, устанавливают ограничения, прописывают риски. Это страховки, которые делают проекты прибыльными.

Много проектов проваливаются не из-за ИИ, а из-за нежелания наводить порядок. Зачем исключать человека из цепочки, если он не может описать свои процессы? Наведение порядка — его стратегическая задача. Как только бизнес научится регламентировать шаги, автоматизация придёт быстрее и эффективнее.

2026 год — это год агентов. Обвязки — вторичная история. Появился термин «устойчивая инфраструктура». Агенты пока дырявые, но мы знаем уязвимости и постепенно находим решения. Самое интересное — мы уже умеем их закрывать.

Читать оригинал