Как мы пришили LLM «спинной мозг»: архитектура рефлексов для ИИ-агентов в 60 FPS

Habr AI 23 мар 2026

Интеграция современных LLM в геймдев, виртуальных ассистентов и робототехнику сейчас напоминает попытку прикрутить двигатель от космического шаттла к телеге. У вас есть невероятно умная модель, которая понимает тончайший контекст, но её задержка вывода убивает любой пользовательский опыт.

Пока ИИ-NPC парсит аудиопоток, отправляет запрос по API, ждёт генерации ответа и распаковывает JSON в анимацию, проходит от 1 до 3 секунд. В динамичной среде — это вечность.

Недавно мы выкатили визуальный прототип нашего движка на одной развлекательной площадке. В ответ получили критику: «Рано демонстрировать „честные 60 FPS“. У вас там просто калейдоскоп беспорядочных кадров, мыло и кривые пальцы».

Ребята смотрели на дебаг-вывод и оценивали «обёртку», не заметив «мотор». Визуализация была лишь сырым тестом инференса. В этой статье — как мы построили Dual-Process Architecture (Система 1 + Система 2), позволяющую ИИ реагировать за миллисекунды, менять личность на лету и обучаться в реальном времени.

🧠 Проблема единого контура мышления

Современные агенты работают в один поток. Любой триггер — звук, попадание пули, фраза игрока — обрабатывается «тяжёлой» когнитивной моделью. Это архитектурный тупик.

Человек не решает дифференциальные уравнения, когда отдергивает руку от горячего чайника — работает рефлекторная дуга.

Мы скопировали биологию и разделили ИИ на два независимых, но связанных слоя.

System 2: «Кора головного мозга» (LLM)

Это может быть локальная Gemma 3, Llama или API GPT-4. Слой медленный — работает, например, с частотой 0.5 Гц. Его задача — стратегия, долгосрочная память и понимание фабулы.

Пример: игрок украл у NPC предмет. System 2 анализирует ситуацию и выдаёт высокоуровневый вектор состояния: [Mood: Aggressive, Target: Player, Tactic: Attack].

System 1: «Спинной мозг» (Рефлекторный движок)

Здесь начинается магия. Это сверхлёгкая кастомная нейросеть, не понимающая семантики. Она получает вектор от System 2 и напрямую обрабатывает сырые триггеры — например, амплитуду голоса игрока или вектор атаки.

Она работает на частоте 60 Гц и выдаёт мгновенный отклик.

⚡ Что на самом деле умеет этот движок?

Те, кто критиковал прототип за «отсутствие ControlNet и плохую анатомию картинок», не поняли главного: в продакшене System 1 не генерирует пиксели. Он выдаёт массив весов для Blendshapes (лицевых костей) или углы Эйлера для суставов скелета, которые плавно интерполируются в игровом движке (UE5/Unity).

Но избавление от лагов в анимации — только верхушка айсберга. Оторвав «рефлексы» от «сознания», мы получили возможности, недоступные классическим LLM-агентам:

1. Обучение нейросети прямо «на лету» (On-the-fly training)

System 1 — крайне легковесная архитектура. Мы можем корректировать её веса в реальном времени.

Пример из геймдева: игрок постоянно атакует босса слева. Не нужно собирать датасет и дообучать LLM. «Спинной мозг» босса корректирует веса прямо в бою. Через 30 секунд NPC начинает рефлекторно блокировать слева — ещё до завершения анимации удара.

2. Мгновенная смена личности (Zero-latency Context Switch)

Больше не нужно перезагружать огромный промпт в контекст LLM. Достаточно «щёлкнуть» рубильником на уровне рефлекторного слоя — подменить матрицу весов System 1.

Персонаж мгновенно перейдёт из состояния «расслабленный торговец» в «испуганная жертва»: изменится паттерн моргания, микромимика и скорость реакции на движения игрока.

🛠 Где это применять? (Легкие API-кейсы)

Наша математика позволяет упаковать движок в легковесный API. Архитектура идеально встаёт в такие сценарии:

Swarm AI (Управление толпой): Запустите 100 независимых LLM-агентов — сервер расплавится. У нас 100 NPC работают на одном рефлекторном слое (System 1), потребляя минимум ресурсов. Они лишь изредка обращаются к единому ядру System 2 за обновлением стратегических целей.
Динамическая сложность (Voice/Tempo adaptive): ИИ подстраивается под интонацию в войс-чате или скорость действий игрока без задержек. Игрок закричал — NPC рефлекторно вздрогнул.
Робототехника и IoT: Где задержка LLM в 2 секунды означает, что дрон врежется в стену, «спинной мозг» успеет принять 120 корректирующих решений на основе данных с лидара.

🤐 А где код и математика?

Я знаю, что на Хабре принято прикладывать ссылку на GitHub. Но пока мы оставим математику рефлекторного слоя под капотом. Это — коммерческая тайна. Или вызов инженерам в комментариях: предлагайте свои варианты архитектуры System 1 — интересно послушать идеи.

Читать оригинал