VLA, или Vision-Language-Action-модели, сегодня становятся одной из ключевых парадигм в робототехнике. Идея проста: если большие визуально-языковые модели уже умеют связывать изображение, текст и понимание сцены, логичный следующий шаг — добавить к этому управление действиями робота. Так появляется единый контур: модель видит сцену, понимает инструкцию и выдаёт осмысленные команды.
Почему одного behavior cloning недостаточно
На первый взгляд, задача решается просто: собрать много демонстраций и обучить модель копировать поведение (behavior cloning, BC). Но на практике такой подход быстро сталкивается с ограничениями.
Во-первых, робототехнические данные неоднородны. У разных датасетов — разные камеры, частоты съёмки, кинематика и динамика. Прямое смешивание приводит к тому, что модель усваивает артефакты конкретных источников, а не общие паттерны.
Во-вторых, качество демонстраций сильно варьируется. Шум, смазанные кадры, рваные движения и бедное визуальное разнообразие — частые проблемы. Масштабирование без фильтрации лишь усиливает шум.
В-третьих, behavior cloning плохо справляется с длинными цепочками действий, восстановлением после ошибок и работой вне обучающего распределения. Он хорошо копирует локальные действия, но не обеспечивает согласованность с долгосрочной целью. Именно поэтому VLA-системы, обученные только так, часто проваливаются в реальных условиях.
Для реального робота важна не только точность, но и стабильность в длительных сценариях. Поэтому в Green-VLA мы построили полный стек: от очистки данных до финального RL-дообучения.
Ключевые особенности Green-VLA
Green-VLA — это поэтапно обученная VLA-модель для антропоморфного робота Green. При этом она не привязана к одному воплощению: та же политика работает на мобильных манипуляторах, двуруких платформах и стандартных бенчмарках.
Её преимущество — не в одной архитектурной «фишке», а в сочетании трёх подходов: качественное выравнивание данных, единое пространство действий и фаза обучения с подкреплением (RL) поверх behavior cloning.
На этапе L1 модель обучается на 24 миллионах мультимодальных примеров из интернета, чтобы выучить физические и семантические представления о мире. На этапе R0 — на 184 миллионах робототехнических примеров, что в сумме даёт более 3000 часов демонстраций с разных платформ.
Этот масштаб используется осознанно: данные проходят фильтрацию, временно согласуются, а действия приводятся к единому семантическому пространству. Обучение разбито на пять стадий — от предобучения до специализации и RL-дообучения.
Архитектура оптимизирована под реальное управление. В основе — Qwen-VL 4B, поверх которой работает отдельный flow-matching action expert. Это разделяет семантическое понимание и высокочастотное управление. Модель ускорена: используются эффективные механизмы внимания, лёгкие выходные слои и сокращённое число шагов денойзинга.
Такое сочетание позволяет управлять роботом с 48 степенями свободы (DoF), не теряя способности к обобщению.
Как мы унифицировали разнородные данные
Робототехнические датасеты редко совместимы: разная кинематика, управление и скорость выполнения. Green-VLA решает это на нескольких уровнях.
Сначала применяется пайплайн DataQA. Он оценивает качество траекторий по шуму, чёткости изображений, разнообразию сцены и стабильности состояний. Дополнительно фильтруются пропущенные кадры, аномальные эпизоды и задачи без движения. Результат — очищенный корпус демонстраций.
Затем — временное согласование. Скорость движения оценивается по оптическому потоку с камер на запястьях. Траектории ресемплируются так, чтобы одинаковые визуальные изменения соответствовали одинаковым приращениям действий.
Проблема пространства действий решается через unified action space с фиксированной семантической разметкой. Для каждого робота указывается, какие слоты активны. Модель получает структурированный промпт с типом управления и параметрами платформы. Это позволяет избежать путаницы между разными воплощениями.
Для антропоморфа Green используется ретаргетинг: демонстрации с других роботов переносятся в его конфигурационное пространство, чтобы сохранить намерение действия, а не его параметры.
Наконец, исходные 48 часов данных Green Humanoid были расширены до 167 часов с помощью аугментаций: зеркалирования по симметрии и обратимых траекторий с реверсом времени.
Пять стадий обучения: зачем они нужны
Поэтапное обучение в Green-VLA — не формальность. Каждая стадия решает конкретную задачу.
- L0 — базовая VLM, связывает изображение и текст, но не готова к управлению.
- L1 — мультимодальное предобучение на веб-данных. Модель усваивает физические и семантические знания: аффордансы, пространственное мышление, структуру задач.
- R0 — общее робототехническое предобучение. Модель учится паттернам манипуляции на разных платформах. Здесь ключевую роль играют unified action space и quality alignment.
- R1 — адаптация под конкретное воплощение. Модель дообучается на высококачественных данных целевого робота, что резко повышает точность управления.
- R2 — RL fine-tuning. Улучшает поведение на длинном горизонте, восстановление после ошибок и устойчивость при физическом контакте. Оптимизация ведётся через отдельный критик и настройку распределения шума для flow-matching.
Такой подход обеспечивает чёткое разделение ответственности: веб-данные — за общие знания, R0 — за базовые навыки, R1 — за специализацию, R2 — за надёжность.
Компоненты, критичные для реального мира
Даже сильной политике нужно больше, чем просто умение брать предметы. В реальности — новые объекты, сбои захвата, необходимость остановиться после успеха.
Unified action space важен не только на обучении, но и на инференсе: модель получает промпт с типом управления и генерирует только нужные действия.
EEP (episode end prediction) — предсказание завершения эпизода. Это предотвращает лишние движения после выполнения задачи, что критично для стабильности.
OOD-детекция выявляет состояния вне обучающего распределения. При нестабильности или отсутствии прогресса система может перейти к перепланированию — это снижает хрупкость при контакте или сбоях.
JPM (joint prediction module) помогает в сложных сценариях, например, в e-commerce. Когда объекты почти идентичны, JPM находит релевантную точку на изображении, переносит её в 3D-пространство и использует как цель для действия. Это не требует переобучения всей модели и повышает точность.
Поверх Green-VLA может работать высокоуровневый планировщик. Например, VLM-модуль разбивает запрос на подзадачи («возьми левой рукой», «положи в корзину»), а Green-VLA исполняет каждую. Важно: она остаётся низкоуровневой политикой, а не универсальным планировщиком.
Результаты на бенчмарках и реальном роботе
Green-VLA — модель из около 5 миллиардов параметров. Qwen-VL 4B — визуально-языковая основа, остальные параметры — узлы управления и выходные слои. При этом система менее требовательна к данным и вычислениям, чем крупные аналоги.
На R0-стадии Green-VLA показывает высокий zero-shot перенос на двуруких роботов. В задачах pick-and-place и уборки стола она превосходит π0, GR00T N1 и другие модели, достигая этого при 3000 часов демонстраций против более чем 10 000 у π0.
На бенчмарках Simpler для WidowX и Google Robot R0-модель превосходит аналоги на сопоставимой стадии и приближается к дообученным бейзлайнам. Поэтапное улучшение — от неотфильтрованных данных до RL — подтверждает ценность DataQA и RL-фазы.
R1-стадия показывает эффективную адаптацию: на CALVIN Green-VLA дообучается с чекпойнта R0 и достигает производительности, сопоставимой с π0, дообученной на тех же данных, а в некоторых метриках — превосходит её.
R2 даёт наибольший прирост на длинных цепочках. На CALVIN — улучшение стабильности и восстановления. На Simpler BRIDGE WidowX — рост success rate на 24% относительно R1. В e-commerce RL-дообучение делает захват надёжнее, снижает падения и выскальзывания.
На реальном антропоморфе Green модель управляет головой, туловищем, двумя руками и кистями (48 DoF). Она выполняет сложные сценарии: передача объекта из руки в руку, сортировка фруктов, длинные цепочки действий. Оценка проводится в стандартных и OOD-условиях.
Это, пожалуй, главный инженерный результат: одна политика работает и на бенчмарках, и на реальном роботе, координируя множество степеней свободы и точно следуя инструкциям.
Итог
Green-VLA показывает: для VLA в реальной робототехнике масштаб — не главное. Критичны дисциплина в данных, унификация действий и отдельная RL-фаза, выводящая модель за рамки behavior cloning.
Quality alignment через DataQA и временное согласование сделали разнородные данные пригодными для совместного обучения. Unified action space позволил избежать распада политики на изолированные режимы. RL-фаза добавила устойчивость на длинном горизонте и надёжность при контакте.
Поэтому Green-VLA — не просто модель для робота Green, а практический способ создать единую VLA-политику для нескольких платформ без потери качества на целевом роботе.
В будущем авторы планируют: поддержку нескольких языков, более тесную интеграцию рассуждения и управления в реальном времени, а также добавление памяти и воспроизведения траекторий. Успешная реализация этих направлений приблизит создание универсального роботизированного интеллекта.