Интеграция современных LLM в геймдев, виртуальных ассистентов и робототехнику сейчас напоминает попытку прикрутить двигатель от космического шаттла к телеге. У вас есть невероятно умная модель, которая понимает тончайший контекст, но её задержка вывода убивает любой пользовательский опыт.
Пока ИИ-NPC парсит аудиопоток, отправляет запрос по API, ждёт генерации ответа и распаковывает JSON в анимацию, проходит от 1 до 3 секунд. В динамичной среде — это вечность.
Недавно мы выкатили визуальный прототип нашего движка на одной развлекательной площадке. В ответ получили критику: «Рано демонстрировать „честные 60 FPS“. У вас там просто калейдоскоп беспорядочных кадров, мыло и кривые пальцы».
Ребята смотрели на дебаг-вывод и оценивали «обёртку», не заметив «мотор». Визуализация была лишь сырым тестом инференса. В этой статье — как мы построили Dual-Process Architecture (Система 1 + Система 2), позволяющую ИИ реагировать за миллисекунды, менять личность на лету и обучаться в реальном времени.
🧠 Проблема единого контура мышления
Современные агенты работают в один поток. Любой триггер — звук, попадание пули, фраза игрока — обрабатывается «тяжёлой» когнитивной моделью. Это архитектурный тупик.
Человек не решает дифференциальные уравнения, когда отдергивает руку от горячего чайника — работает рефлекторная дуга.
Мы скопировали биологию и разделили ИИ на два независимых, но связанных слоя.
System 2: «Кора головного мозга» (LLM)
Это может быть локальная Gemma 3, Llama или API GPT-4. Слой медленный — работает, например, с частотой 0.5 Гц. Его задача — стратегия, долгосрочная память и понимание фабулы.
Пример: игрок украл у NPC предмет. System 2 анализирует ситуацию и выдаёт высокоуровневый вектор состояния: [Mood: Aggressive, Target: Player, Tactic: Attack].
System 1: «Спинной мозг» (Рефлекторный движок)
Здесь начинается магия. Это сверхлёгкая кастомная нейросеть, не понимающая семантики. Она получает вектор от System 2 и напрямую обрабатывает сырые триггеры — например, амплитуду голоса игрока или вектор атаки.
Она работает на частоте 60 Гц и выдаёт мгновенный отклик.
⚡ Что на самом деле умеет этот движок?
Те, кто критиковал прототип за «отсутствие ControlNet и плохую анатомию картинок», не поняли главного: в продакшене System 1 не генерирует пиксели. Он выдаёт массив весов для Blendshapes (лицевых костей) или углы Эйлера для суставов скелета, которые плавно интерполируются в игровом движке (UE5/Unity).
Но избавление от лагов в анимации — только верхушка айсберга. Оторвав «рефлексы» от «сознания», мы получили возможности, недоступные классическим LLM-агентам:
1. Обучение нейросети прямо «на лету» (On-the-fly training)
System 1 — крайне легковесная архитектура. Мы можем корректировать её веса в реальном времени.
Пример из геймдева: игрок постоянно атакует босса слева. Не нужно собирать датасет и дообучать LLM. «Спинной мозг» босса корректирует веса прямо в бою. Через 30 секунд NPC начинает рефлекторно блокировать слева — ещё до завершения анимации удара.
2. Мгновенная смена личности (Zero-latency Context Switch)
Больше не нужно перезагружать огромный промпт в контекст LLM. Достаточно «щёлкнуть» рубильником на уровне рефлекторного слоя — подменить матрицу весов System 1.
Персонаж мгновенно перейдёт из состояния «расслабленный торговец» в «испуганная жертва»: изменится паттерн моргания, микромимика и скорость реакции на движения игрока.
🛠 Где это применять? (Легкие API-кейсы)
Наша математика позволяет упаковать движок в легковесный API. Архитектура идеально встаёт в такие сценарии:
- Swarm AI (Управление толпой): Запустите 100 независимых LLM-агентов — сервер расплавится. У нас 100 NPC работают на одном рефлекторном слое (System 1), потребляя минимум ресурсов. Они лишь изредка обращаются к единому ядру System 2 за обновлением стратегических целей.
- Динамическая сложность (Voice/Tempo adaptive): ИИ подстраивается под интонацию в войс-чате или скорость действий игрока без задержек. Игрок закричал — NPC рефлекторно вздрогнул.
- Робототехника и IoT: Где задержка LLM в 2 секунды означает, что дрон врежется в стену, «спинной мозг» успеет принять 120 корректирующих решений на основе данных с лидара.
🤐 А где код и математика?
Я знаю, что на Хабре принято прикладывать ссылку на GitHub. Но пока мы оставим математику рефлекторного слоя под капотом. Это — коммерческая тайна. Или вызов инженерам в комментариях: предлагайте свои варианты архитектуры System 1 — интересно послушать идеи.