Роли, иерархии, отделы, процессы — всё это создано для людей. У нас ограниченная специализация, 8 часов продуктивности в день, когнитивные лимиты и месяцы на смену профессии. У LLM-агентов этих ограничений нет. Они мгновенно меняют специализацию, видят полный контекст и не потребляют ресурсы в простое. Зачем переносить на них человеческую оргструктуру?
Мы провели 6 месяцев исследований: 25 000 задач, 8 моделей, до 256 агентов, более миллиарда токенов. Результат: назначать роли и строить иерархии для ИИ-агентов — антипаттерн. Система, где агенты сами решают, кем быть, превосходит систему с центральным координатором на 14% (p < 0.001). Чем сильнее модель — тем выше её способность к автономии. Мы наблюдаем начало тренда, который может изменить подход к проектированию мультиагентных систем.
Масштаб эксперимента
Использовались модели: Claude, GPT-5.4, GPT-4o, GPT-4.1-mini, DeepSeek v3.2, GLM-5, Gemini-3-flash, GigaChat 2 Max.
Количество агентов: от 4 до 256.
Протоколов: 8 (4 основных + 4 биоинспирированных).
Уровни сложности задач: от «проверь API» до «CEO vs Legal vs CFO».
Качество решений оценивала независимая модель-судья по пяти критериям: точность, полнота, связность, применимость, соответствие миссии. Итоговая метрика Q — от 0.25 до 1.0. Чем выше — тем лучше.
Как улучшать AI-агентов: вертикально и горизонтально
Сейчас развитие идёт по двум направлениям:
- Вертикальное — усиление отдельного агента. Сюда входят самосовершенствующиеся системы вроде Hyperagents, Ouroboros, EvoAgent, ADAS.
- Горизонтальное — координация группы агентов. Не один становится умнее, а многие работают как единое целое.
Наше исследование охватывает оба направления, но фокус — на горизонтальной координации. Чем сильнее каждый агент, тем больше он выигрывает от самоорганизующихся протоколов.
Четыре способа организовать команду агентов
Главная переменная — как агенты общаются. Модель, задачи, количество — одинаковы.
- 🏢 Coordinator (координатор): центральный агент анализирует задачу, назначает роли, остальные выполняют параллельно.
- 🔗 Sequential (конвейер): агенты работают по очереди. Каждый видит, что сделали предыдущие, и сам решает — кем быть и участвовать ли.
- 📡 Broadcast (сигнальный): все объявляют намерения, затем корректируют с учётом других.
- 🌊 Shared (независимый): общая память, полная независимость, одновременные решения.
Sequential-протокол показал наилучшие результаты: Q = 0.938 против 0.812 у Coordinator. В масштабе (N=16, сложные задачи): Sequential — 0.875, Coordinator — 0.767 (+14%, p < 0.001).
Почему Sequential побеждает?
Каждый агент видит реальные результаты предыдущих — не намерения, не планы, не историю. Это факты. На их основе принимается осознанное решение: участвовать или нет, кем быть, что добавить. Это снижает дублирование и повышает качество.
5 006 уникальных ролей у 8 агентов
8 агентов, сотни задач — и 5 006 уникальных названий ролей. При 64 агентах — 5 010 (разница 0.1%). 54% ролей использовались ровно один раз.
Агенты не «специализируются». Они каждый раз заново определяют свою функцию по контексту.
LLM-агент не ограничен телом, фиксированными навыками, когнитивными лимитами. Зачем ограничивать его назначенной ролью?
Умный агент знает, когда промолчать
В Sequential 38 из 60 неактивных агентов отказались добровольно: «Всё ключевое уже покрыто, я не могу добавить ценности». В Coordinator все 60 были отстранены решением центрального агента.
Система, где агенты сами решают не участвовать, работает лучше: Q = 0.875 против 0.767.
Агент, отказавшийся от задачи, не тратит ни одного токена. В отличие от сотрудника, который в простое всё равно получает зарплату — или «придумывает себе работу».
В обычной компании сотрудник в простое продолжает получать зарплату. Или, что хуже, «придумывает себе работу». Агент, решивший не участвовать, не тратит ни одного токена.
Масштабирование: 256 агентов, качество не падает
При росте от 8 до 256 агентов стоимость выросла на 11.8%. Качество осталось в пределах шума (p=0.61). При N=256 около 45% агентов добровольно уходят в самоотвод — система сама оптимизирует расходы.
DeepSeek = 95% качества Claude за 1/24 цены
На сложных задачах DeepSeek v3.2 показал 95% качества Claude Sonnet 4.6, но при этом в 24 раза дешевле. На состязательных задачах (CEO vs Legal vs CFO) — даже на 6.0% лучше.
Соответствие миссии: 4.00 из 4.00 у обоих. Агенты работают на цель.
Чем сильнее модель — тем больше автономии
Чёткий тренд: чем мощнее модель, тем выше её способность к самоорганизации.
- Для Claude автономия уже выгодна: Q = 0.594 против 0.574 при фиксированных ролях (+3.5%).
- Для GLM-5 автономия пока неэффективна — нужна внешняя структура.
Sequential — не потолок, а первая ступень: минимальный каркас (очерёдность), внутри которого агенты полностью свободны в выборе роли, участия и стратегии.
Ключевые свойства модели для самоорганизации:
- Reasoning — способность строить цепочки рассуждений.
- Self-reflection — оценка собственной компетентности и осознанный отказ от задач (у Claude — 8.6%, у GLM-5 — 0.8%).
- Instruction following — точное следование протоколу.
- Structured output — стабильная генерация в заданном формате.
Модели с развитыми свойствами (Claude, DeepSeek) успешно самоорганизуются. Остальным нужна внешняя структура.
По мере того как модели становятся сильнее по всем четырём осям, им нужно всё меньше внешней структуры. Sequential — первый работающий протокол самоорганизации. Следующие поколения моделей смогут больше.
Сложность задач: система сама углубляет иерархию
Качество падает от L1 к L4 (−37.7%), но агенты спонтанно углубляют иерархию: 1.22 → 1.56 уровней. Без внешних инструкций. Система адаптируется к сложности сама.
Три ингредиента успеха
25 000 задач, 8 моделей, 256 агентов, 8 протоколов. Рецепт:
- Миссия — зачем система существует. Mission Relevance = 4.00/4.00 у лучших моделей при самоорганизации.
- Протокол — как агенты обмениваются информацией. Sequential побеждает Coordinator на 14%.
- Сильная модель — без неё протокол не раскрывается. Разрыв между моделями — до 174%.
Агент в такой системе — не сотрудник с должностью, а инструмент, который система создаёт, настраивает и использует (или не использует) под конкретную задачу.
Конституция AI-организации
Самоорганизация работает лучше всего с минимальными, но чёткими границами. Sequential — пример: одно простое ограничение (очерёдность) раскрывает полный потенциал автономии.
- 🔴 Ядро — миссия, ценности. Только человек.
- 🟡 Стандарты — метрики, аудит. Человек + система.
- 🟢 Протоколы — тактические параметры. Полная автономия с A/B тестами.
Принцип: чем ближе к «зачем» — тем больше человека. Чем ближе к «как» — тем больше автономии.
Что делать прямо сейчас
- Не назначайте роли. Агенты находят лучшие роли, чем вы можете придумать.
- Используйте Sequential. Агенты по очереди, каждый видит результаты предыдущих. ~50 строк кода. +14% качества.
- Масштабируйте моделью, не агентами. 64→256 не даёт прироста. Разница между моделями — до 174%.
- Комбинируйте модели. DeepSeek для L1–L2, Claude для L3–L4. 95% качества за 1/24 цены.
- Разрешите агентам отказываться. Агент, который знает, когда промолчать — ценнее, чем тот, кто всегда отвечает.