Долой иерархию и роли: как LLM-агенты самоорганизуются лучше, чем мы их проектируем

Habr AI 31 мар 2026

Роли, иерархии, отделы, процессы — всё это создано для людей. У нас ограниченная специализация, 8 часов продуктивности в день, когнитивные лимиты и месяцы на смену профессии. У LLM-агентов этих ограничений нет. Они мгновенно меняют специализацию, видят полный контекст и не потребляют ресурсы в простое. Зачем переносить на них человеческую оргструктуру?

Мы провели 6 месяцев исследований: 25 000 задач, 8 моделей, до 256 агентов, более миллиарда токенов. Результат: назначать роли и строить иерархии для ИИ-агентов — антипаттерн. Система, где агенты сами решают, кем быть, превосходит систему с центральным координатором на 14% (p < 0.001). Чем сильнее модель — тем выше её способность к автономии. Мы наблюдаем начало тренда, который может изменить подход к проектированию мультиагентных систем.

Масштаб эксперимента

Использовались модели: Claude, GPT-5.4, GPT-4o, GPT-4.1-mini, DeepSeek v3.2, GLM-5, Gemini-3-flash, GigaChat 2 Max.

Количество агентов: от 4 до 256.

Протоколов: 8 (4 основных + 4 биоинспирированных).

Уровни сложности задач: от «проверь API» до «CEO vs Legal vs CFO».

Качество решений оценивала независимая модель-судья по пяти критериям: точность, полнота, связность, применимость, соответствие миссии. Итоговая метрика Q — от 0.25 до 1.0. Чем выше — тем лучше.

Как улучшать AI-агентов: вертикально и горизонтально

Сейчас развитие идёт по двум направлениям:

Вертикальное — усиление отдельного агента. Сюда входят самосовершенствующиеся системы вроде Hyperagents, Ouroboros, EvoAgent, ADAS.
Горизонтальное — координация группы агентов. Не один становится умнее, а многие работают как единое целое.

Наше исследование охватывает оба направления, но фокус — на горизонтальной координации. Чем сильнее каждый агент, тем больше он выигрывает от самоорганизующихся протоколов.

Четыре способа организовать команду агентов

Главная переменная — как агенты общаются. Модель, задачи, количество — одинаковы.

🏢 Coordinator (координатор): центральный агент анализирует задачу, назначает роли, остальные выполняют параллельно.
🔗 Sequential (конвейер): агенты работают по очереди. Каждый видит, что сделали предыдущие, и сам решает — кем быть и участвовать ли.
📡 Broadcast (сигнальный): все объявляют намерения, затем корректируют с учётом других.
🌊 Shared (независимый): общая память, полная независимость, одновременные решения.

Sequential-протокол показал наилучшие результаты: Q = 0.938 против 0.812 у Coordinator. В масштабе (N=16, сложные задачи): Sequential — 0.875, Coordinator — 0.767 (+14%, p < 0.001).

Почему Sequential побеждает?

Каждый агент видит реальные результаты предыдущих — не намерения, не планы, не историю. Это факты. На их основе принимается осознанное решение: участвовать или нет, кем быть, что добавить. Это снижает дублирование и повышает качество.

5 006 уникальных ролей у 8 агентов

8 агентов, сотни задач — и 5 006 уникальных названий ролей. При 64 агентах — 5 010 (разница 0.1%). 54% ролей использовались ровно один раз.

Агенты не «специализируются». Они каждый раз заново определяют свою функцию по контексту.

LLM-агент не ограничен телом, фиксированными навыками, когнитивными лимитами. Зачем ограничивать его назначенной ролью?

Умный агент знает, когда промолчать

В Sequential 38 из 60 неактивных агентов отказались добровольно: «Всё ключевое уже покрыто, я не могу добавить ценности». В Coordinator все 60 были отстранены решением центрального агента.

Система, где агенты сами решают не участвовать, работает лучше: Q = 0.875 против 0.767.

Агент, отказавшийся от задачи, не тратит ни одного токена. В отличие от сотрудника, который в простое всё равно получает зарплату — или «придумывает себе работу».

В обычной компании сотрудник в простое продолжает получать зарплату. Или, что хуже, «придумывает себе работу». Агент, решивший не участвовать, не тратит ни одного токена.

Масштабирование: 256 агентов, качество не падает

При росте от 8 до 256 агентов стоимость выросла на 11.8%. Качество осталось в пределах шума (p=0.61). При N=256 около 45% агентов добровольно уходят в самоотвод — система сама оптимизирует расходы.

DeepSeek = 95% качества Claude за 1/24 цены

На сложных задачах DeepSeek v3.2 показал 95% качества Claude Sonnet 4.6, но при этом в 24 раза дешевле. На состязательных задачах (CEO vs Legal vs CFO) — даже на 6.0% лучше.

Соответствие миссии: 4.00 из 4.00 у обоих. Агенты работают на цель.

Чем сильнее модель — тем больше автономии

Чёткий тренд: чем мощнее модель, тем выше её способность к самоорганизации.

Для Claude автономия уже выгодна: Q = 0.594 против 0.574 при фиксированных ролях (+3.5%).
Для GLM-5 автономия пока неэффективна — нужна внешняя структура.

Sequential — не потолок, а первая ступень: минимальный каркас (очерёдность), внутри которого агенты полностью свободны в выборе роли, участия и стратегии.

Ключевые свойства модели для самоорганизации:

Reasoning — способность строить цепочки рассуждений.
Self-reflection — оценка собственной компетентности и осознанный отказ от задач (у Claude — 8.6%, у GLM-5 — 0.8%).
Instruction following — точное следование протоколу.
Structured output — стабильная генерация в заданном формате.

Модели с развитыми свойствами (Claude, DeepSeek) успешно самоорганизуются. Остальным нужна внешняя структура.

По мере того как модели становятся сильнее по всем четырём осям, им нужно всё меньше внешней структуры. Sequential — первый работающий протокол самоорганизации. Следующие поколения моделей смогут больше.

Сложность задач: система сама углубляет иерархию

Качество падает от L1 к L4 (−37.7%), но агенты спонтанно углубляют иерархию: 1.22 → 1.56 уровней. Без внешних инструкций. Система адаптируется к сложности сама.

Три ингредиента успеха

25 000 задач, 8 моделей, 256 агентов, 8 протоколов. Рецепт:

Миссия — зачем система существует. Mission Relevance = 4.00/4.00 у лучших моделей при самоорганизации.
Протокол — как агенты обмениваются информацией. Sequential побеждает Coordinator на 14%.
Сильная модель — без неё протокол не раскрывается. Разрыв между моделями — до 174%.

Агент в такой системе — не сотрудник с должностью, а инструмент, который система создаёт, настраивает и использует (или не использует) под конкретную задачу.

Конституция AI-организации

Самоорганизация работает лучше всего с минимальными, но чёткими границами. Sequential — пример: одно простое ограничение (очерёдность) раскрывает полный потенциал автономии.

🔴 Ядро — миссия, ценности. Только человек.
🟡 Стандарты — метрики, аудит. Человек + система.
🟢 Протоколы — тактические параметры. Полная автономия с A/B тестами.

Принцип: чем ближе к «зачем» — тем больше человека. Чем ближе к «как» — тем больше автономии.

Что делать прямо сейчас

Не назначайте роли. Агенты находят лучшие роли, чем вы можете придумать.
Используйте Sequential. Агенты по очереди, каждый видит результаты предыдущих. ~50 строк кода. +14% качества.
Масштабируйте моделью, не агентами. 64→256 не даёт прироста. Разница между моделями — до 174%.
Комбинируйте модели. DeepSeek для L1–L2, Claude для L3–L4. 95% качества за 1/24 цены.
Разрешите агентам отказываться. Агент, который знает, когда промолчать — ценнее, чем тот, кто всегда отвечает.

Читать оригинал

Долой иерархию и роли: как LLM-агенты самоорганизуются лучше, чем мы их проектируем

Масштаб эксперимента

Как улучшать AI-агентов: вертикально и горизонтально

Четыре способа организовать команду агентов

Почему Sequential побеждает?

5 006 уникальных ролей у 8 агентов

Умный агент знает, когда промолчать

Масштабирование: 256 агентов, качество не падает

DeepSeek = 95% качества Claude за 1/24 цены

Чем сильнее модель — тем больше автономии

Сложность задач: система сама углубляет иерархию

Три ингредиента успеха

Конституция AI-организации

Что делать прямо сейчас

Долой иерархию и роли: о том, как LLM-агенты самоорганизуются лучше, чем мы их проектируем

Масштаб эксперимента

Как улучшать AI-агентов: вертикально и горизонтально

Четыре способа организовать команду агентов

Результат: самоорганизация уже работает

Почему Sequential побеждает?

5 006 уникальных ролей у 8 агентов

Умный агент знает, когда промолчать

Масштабирование: 256 агентов, качество не падает

DeepSeek = 95% Claude за 1/24 цены

Чем сильнее модель — тем больше автономии

Сложность задач: система сама углубляет иерархию

Три ингредиента

Конституция AI-организации

Что делать прямо сейчас

Что дальше