Глухой телефон для ИИ: мы измерили физику LLM-графов и поняли, почему добавление агентов всё ломает

Глухой телефон для ИИ: мы измерили физику LLM-графов и поняли, почему добавление агентов всё ломает

Сейчас, в 2026 году, индустрия ИИ переживает бум мультиагентных систем. Логика проста: если одна LLM умная, то десять, объединённых в команду, должны решить любую задачу. Но на практике всё не так гладко.

Часто агенты скатываются в бесконечные галлюцинации, теряют контекст и дают результат хуже, чем одиночная модель. Ответ индустрии напоминает алхимию: «добавьте ещё агентов» или «дайте им больше токенов». Нам этого оказалось недостаточно.

Мы создали llm-coordination-harness — опенсорсный измерительный стенд, не для запуска агентов, а для анализа их взаимодействий. Это МРТ для мультиагентных сетей. Он показывает, что у общения LLM есть своя физика — и иногда самая логичная архитектура оказывается токсичной.

В этой статье — три ключевых открытия: как базовые модели читерят, почему иерархии разрушают координацию и парадокс «естественного карантина». Без заявлений про AGI — только хардкорный ресёрч и отрицательные результаты.

Анатомия стенда: как заглянуть под капот чёрного ящика?

Мы использовали топовые модели — Qwen 3.5 Plus и Gemini 3.1 Flash Lite — через OpenRouter в режиме research_strict. Без фолбеков, без авто-роутинга. Только фиксированные модели и провайдеры.

Агенты решали задачи из бенчмарков CRAFT-mini и AgentsNet-mini — с асимметричной информацией, где каждый знает только часть правды. Общение ограничено: 0, 32 или 96 токенов на сообщение. Топологии: «Звезда» и «Сбалансированное Дерево».

Чтобы понять, почему система ошибается, мы выделили четыре скрытые переменные — наш «градусник»:

  • F (Fidelity — точность передачи): процент выживания критических фактов при передаче от листового агента к корню. Измеряется на каждом «хопе».
  • rho (Корреляция ошибок): насколько агенты склонны к одинаковым ошибкам, если не могут общаться (vote_local).
  • B (Propagation Balance — баланс распространения): равномерность распределения сигнала по графу. Рассчитывается через коэффициент Джини. Если один канал перегружен, а другой молчит — B падает.
  • C (Fan-in pressure — давление на контекст): отношение входящего потока токенов к квоте контекста узла. Показывает, «задыхается» ли агент от спама.

Бронежилет от критиков: синтетический тест

Мы осознанно ограничились небольшим, но строго контролируемым датасетом — 144 цикла, около 2000 API-вызовов. Современные оценки агентов страдают от загрязнённости данных. Наша цель — не масштаб, а изолированная среда для измерения физики передачи информации.

Чтобы доказать, что метрики не подгоняются под результат, мы провели синтетический тест: финальный ответ сети — ошибочный (Score = 0), но критический факт частично прошёл по графу. Экстрактор честно показал: F = 0.66, B < 1.0.

Мы доказали: метрики измеряют именно физику сети, а не копируют финальный статус. Градусник работает.

Улика №1: разоблачение читерства базовых моделей

Существует интуитивное заблуждение: чем больше токенов агенты обменялись, тем выше шанс успеха. Мы проверили это с помощью двух моделей предсказания эффективности роя.

Базовая модель (Heuristic RF) отдаёт почти 48% важности фиче mean_billed_tokens. Её логика: «много болтали — решили задачу». Это кассовый аппарат, а не аналитик.

Наша модель (Core RF), обученная на скрытых переменных графа, поставила на первое место rho (36%), затем F (15%) и B (8%). Она понимает физику координации, а не считает слова.

Улика №2: топологический штраф (иерархия убивает)

Иерархии популярны: «агент → менеджер → директор». Но при переходе от топологии «Звезда» к «Сбалансированное Дерево» на бюджете 96 токенов Score у Gemini падает с 1.00 до 0.75.

Причина — эффект «глухого телефона». Промежуточные узлы сжимают информацию, и критические факты не доходят до корня. Метрики F и B падают синхронно. Иерархия съедает контекст.

Улика №3: парадокс Естественного Карантина

Казалось бы, «Звезда» — идеальная топология. Но при появлении агента-саботажника (генерирует ложные данные) картина меняется.

В «Звезде» вирус мгновенно достигает центра. У топологии нулевой карантин — все листья на одном шаге от корня.

А «Дерево», терявшее полезные данные, парадоксально защищает систему. Деградация сигнала (F↓) «теряет» и вредоносный контент на промежуточных узлах.

Мы обнаружили трейд-офф: высокая эффективность коммуникации = высокая уязвимость. Устойчивость требует потерь.

Итоги и планы на v0.2.0

Научное открытие? Пока нет. Идеальный предиктор коллапса? Тоже нет.

Но мы получили важный отрицательный результат: современные LLM (Qwen, Gemini) при ненулевом общении слишком «старательные». Им не хватает вариативности, чтобы естественно коллапсировать.

Зато мы создали строгий измерительный стенд, доказав, что у многоагентных систем есть читаемая физика. Мы научились измерять токсичность графов и независимость метрик F, rho, B, C.

Релиз v0.1.0 на GitHub — это фиксация чистого инструмента. Начало пути. В планах — усложнение атак, развитие метрик и поиск фундаментального закона координации ИИ.

Репозиторий открыт: github.com/aak204/llm-coordination-harness. Приходите контрибьютить, спорить и ломать наши графы.

Читать оригинал