Сейчас, в 2026 году, индустрия ИИ переживает бум мультиагентных систем. Логика проста: если одна LLM умная, то десять, объединённых в команду, должны решить любую задачу. Но на практике всё не так гладко.
Часто агенты скатываются в бесконечные галлюцинации, теряют контекст и дают результат хуже, чем одиночная модель. Ответ индустрии напоминает алхимию: «добавьте ещё агентов» или «дайте им больше токенов». Нам этого оказалось недостаточно.
Мы создали llm-coordination-harness — опенсорсный измерительный стенд, не для запуска агентов, а для анализа их взаимодействий. Это МРТ для мультиагентных сетей. Он показывает, что у общения LLM есть своя физика — и иногда самая логичная архитектура оказывается токсичной.
В этой статье — три ключевых открытия: как базовые модели читерят, почему иерархии разрушают координацию и парадокс «естественного карантина». Без заявлений про AGI — только хардкорный ресёрч и отрицательные результаты.
Анатомия стенда: как заглянуть под капот чёрного ящика?
Мы использовали топовые модели — Qwen 3.5 Plus и Gemini 3.1 Flash Lite — через OpenRouter в режиме research_strict. Без фолбеков, без авто-роутинга. Только фиксированные модели и провайдеры.
Агенты решали задачи из бенчмарков CRAFT-mini и AgentsNet-mini — с асимметричной информацией, где каждый знает только часть правды. Общение ограничено: 0, 32 или 96 токенов на сообщение. Топологии: «Звезда» и «Сбалансированное Дерево».
Чтобы понять, почему система ошибается, мы выделили четыре скрытые переменные — наш «градусник»:
- F (Fidelity — точность передачи): процент выживания критических фактов при передаче от листового агента к корню. Измеряется на каждом «хопе».
- rho (Корреляция ошибок): насколько агенты склонны к одинаковым ошибкам, если не могут общаться (vote_local).
- B (Propagation Balance — баланс распространения): равномерность распределения сигнала по графу. Рассчитывается через коэффициент Джини. Если один канал перегружен, а другой молчит — B падает.
- C (Fan-in pressure — давление на контекст): отношение входящего потока токенов к квоте контекста узла. Показывает, «задыхается» ли агент от спама.
Бронежилет от критиков: синтетический тест
Мы осознанно ограничились небольшим, но строго контролируемым датасетом — 144 цикла, около 2000 API-вызовов. Современные оценки агентов страдают от загрязнённости данных. Наша цель — не масштаб, а изолированная среда для измерения физики передачи информации.
Чтобы доказать, что метрики не подгоняются под результат, мы провели синтетический тест: финальный ответ сети — ошибочный (Score = 0), но критический факт частично прошёл по графу. Экстрактор честно показал: F = 0.66, B < 1.0.
Мы доказали: метрики измеряют именно физику сети, а не копируют финальный статус. Градусник работает.
Улика №1: разоблачение читерства базовых моделей
Существует интуитивное заблуждение: чем больше токенов агенты обменялись, тем выше шанс успеха. Мы проверили это с помощью двух моделей предсказания эффективности роя.
Базовая модель (Heuristic RF) отдаёт почти 48% важности фиче mean_billed_tokens. Её логика: «много болтали — решили задачу». Это кассовый аппарат, а не аналитик.
Наша модель (Core RF), обученная на скрытых переменных графа, поставила на первое место rho (36%), затем F (15%) и B (8%). Она понимает физику координации, а не считает слова.
Улика №2: топологический штраф (иерархия убивает)
Иерархии популярны: «агент → менеджер → директор». Но при переходе от топологии «Звезда» к «Сбалансированное Дерево» на бюджете 96 токенов Score у Gemini падает с 1.00 до 0.75.
Причина — эффект «глухого телефона». Промежуточные узлы сжимают информацию, и критические факты не доходят до корня. Метрики F и B падают синхронно. Иерархия съедает контекст.
Улика №3: парадокс Естественного Карантина
Казалось бы, «Звезда» — идеальная топология. Но при появлении агента-саботажника (генерирует ложные данные) картина меняется.
В «Звезде» вирус мгновенно достигает центра. У топологии нулевой карантин — все листья на одном шаге от корня.
А «Дерево», терявшее полезные данные, парадоксально защищает систему. Деградация сигнала (F↓) «теряет» и вредоносный контент на промежуточных узлах.
Мы обнаружили трейд-офф: высокая эффективность коммуникации = высокая уязвимость. Устойчивость требует потерь.
Итоги и планы на v0.2.0
Научное открытие? Пока нет. Идеальный предиктор коллапса? Тоже нет.
Но мы получили важный отрицательный результат: современные LLM (Qwen, Gemini) при ненулевом общении слишком «старательные». Им не хватает вариативности, чтобы естественно коллапсировать.
Зато мы создали строгий измерительный стенд, доказав, что у многоагентных систем есть читаемая физика. Мы научились измерять токсичность графов и независимость метрик F, rho, B, C.
Релиз v0.1.0 на GitHub — это фиксация чистого инструмента. Начало пути. В планах — усложнение атак, развитие метрик и поиск фундаментального закона координации ИИ.
Репозиторий открыт: github.com/aak204/llm-coordination-harness. Приходите контрибьютить, спорить и ломать наши графы.