Green-VLA: как мы создали VLA-модель для антропоморфного робота, сохранив обобщение

Habr AI 15 апр 2026

VLA, или Vision-Language-Action-модели, сегодня становятся одной из ключевых парадигм в робототехнике. Идея проста: если большие визуально-языковые модели уже умеют связывать изображение, текст и понимание сцены, логичный следующий шаг — добавить к этому управление действиями робота. Так появляется единый контур: модель видит сцену, понимает инструкцию и выдаёт осмысленные команды.

Почему одного behavior cloning недостаточно

На первый взгляд, задача решается просто: собрать много демонстраций и обучить модель копировать поведение (behavior cloning, BC). Но на практике такой подход быстро сталкивается с ограничениями.

Во-первых, робототехнические данные неоднородны. У разных датасетов — разные камеры, частоты съёмки, кинематика и динамика. Прямое смешивание приводит к тому, что модель усваивает артефакты конкретных источников, а не общие паттерны.

Во-вторых, качество демонстраций сильно варьируется. Шум, смазанные кадры, рваные движения и бедное визуальное разнообразие — частые проблемы. Масштабирование без фильтрации лишь усиливает шум.

В-третьих, behavior cloning плохо справляется с длинными цепочками действий, восстановлением после ошибок и работой вне обучающего распределения. Он хорошо копирует локальные действия, но не обеспечивает согласованность с долгосрочной целью. Именно поэтому VLA-системы, обученные только так, часто проваливаются в реальных условиях.

Для реального робота важна не только точность, но и стабильность в длительных сценариях. Поэтому в Green-VLA мы построили полный стек: от очистки данных до финального RL-дообучения.

Ключевые особенности Green-VLA

Green-VLA — это поэтапно обученная VLA-модель для антропоморфного робота Green. При этом она не привязана к одному воплощению: та же политика работает на мобильных манипуляторах, двуруких платформах и стандартных бенчмарках.

Её преимущество — не в одной архитектурной «фишке», а в сочетании трёх подходов: качественное выравнивание данных, единое пространство действий и фаза обучения с подкреплением (RL) поверх behavior cloning.

На этапе L1 модель обучается на 24 миллионах мультимодальных примеров из интернета, чтобы выучить физические и семантические представления о мире. На этапе R0 — на 184 миллионах робототехнических примеров, что в сумме даёт более 3000 часов демонстраций с разных платформ.

Этот масштаб используется осознанно: данные проходят фильтрацию, временно согласуются, а действия приводятся к единому семантическому пространству. Обучение разбито на пять стадий — от предобучения до специализации и RL-дообучения.

Архитектура оптимизирована под реальное управление. В основе — Qwen-VL 4B, поверх которой работает отдельный flow-matching action expert. Это разделяет семантическое понимание и высокочастотное управление. Модель ускорена: используются эффективные механизмы внимания, лёгкие выходные слои и сокращённое число шагов денойзинга.

Такое сочетание позволяет управлять роботом с 48 степенями свободы (DoF), не теряя способности к обобщению.

Как мы унифицировали разнородные данные

Робототехнические датасеты редко совместимы: разная кинематика, управление и скорость выполнения. Green-VLA решает это на нескольких уровнях.

Сначала применяется пайплайн DataQA. Он оценивает качество траекторий по шуму, чёткости изображений, разнообразию сцены и стабильности состояний. Дополнительно фильтруются пропущенные кадры, аномальные эпизоды и задачи без движения. Результат — очищенный корпус демонстраций.

Затем — временное согласование. Скорость движения оценивается по оптическому потоку с камер на запястьях. Траектории ресемплируются так, чтобы одинаковые визуальные изменения соответствовали одинаковым приращениям действий.

Проблема пространства действий решается через unified action space с фиксированной семантической разметкой. Для каждого робота указывается, какие слоты активны. Модель получает структурированный промпт с типом управления и параметрами платформы. Это позволяет избежать путаницы между разными воплощениями.

Для антропоморфа Green используется ретаргетинг: демонстрации с других роботов переносятся в его конфигурационное пространство, чтобы сохранить намерение действия, а не его параметры.

Наконец, исходные 48 часов данных Green Humanoid были расширены до 167 часов с помощью аугментаций: зеркалирования по симметрии и обратимых траекторий с реверсом времени.

Пять стадий обучения: зачем они нужны

Поэтапное обучение в Green-VLA — не формальность. Каждая стадия решает конкретную задачу.

L0 — базовая VLM, связывает изображение и текст, но не готова к управлению.
L1 — мультимодальное предобучение на веб-данных. Модель усваивает физические и семантические знания: аффордансы, пространственное мышление, структуру задач.
R0 — общее робототехническое предобучение. Модель учится паттернам манипуляции на разных платформах. Здесь ключевую роль играют unified action space и quality alignment.
R1 — адаптация под конкретное воплощение. Модель дообучается на высококачественных данных целевого робота, что резко повышает точность управления.
R2 — RL fine-tuning. Улучшает поведение на длинном горизонте, восстановление после ошибок и устойчивость при физическом контакте. Оптимизация ведётся через отдельный критик и настройку распределения шума для flow-matching.

Такой подход обеспечивает чёткое разделение ответственности: веб-данные — за общие знания, R0 — за базовые навыки, R1 — за специализацию, R2 — за надёжность.

Компоненты, критичные для реального мира

Даже сильной политике нужно больше, чем просто умение брать предметы. В реальности — новые объекты, сбои захвата, необходимость остановиться после успеха.

Unified action space важен не только на обучении, но и на инференсе: модель получает промпт с типом управления и генерирует только нужные действия.

EEP (episode end prediction) — предсказание завершения эпизода. Это предотвращает лишние движения после выполнения задачи, что критично для стабильности.

OOD-детекция выявляет состояния вне обучающего распределения. При нестабильности или отсутствии прогресса система может перейти к перепланированию — это снижает хрупкость при контакте или сбоях.

JPM (joint prediction module) помогает в сложных сценариях, например, в e-commerce. Когда объекты почти идентичны, JPM находит релевантную точку на изображении, переносит её в 3D-пространство и использует как цель для действия. Это не требует переобучения всей модели и повышает точность.

Поверх Green-VLA может работать высокоуровневый планировщик. Например, VLM-модуль разбивает запрос на подзадачи («возьми левой рукой», «положи в корзину»), а Green-VLA исполняет каждую. Важно: она остаётся низкоуровневой политикой, а не универсальным планировщиком.

Результаты на бенчмарках и реальном роботе

Green-VLA — модель из около 5 миллиардов параметров. Qwen-VL 4B — визуально-языковая основа, остальные параметры — узлы управления и выходные слои. При этом система менее требовательна к данным и вычислениям, чем крупные аналоги.

На R0-стадии Green-VLA показывает высокий zero-shot перенос на двуруких роботов. В задачах pick-and-place и уборки стола она превосходит π0, GR00T N1 и другие модели, достигая этого при 3000 часов демонстраций против более чем 10 000 у π0.

На бенчмарках Simpler для WidowX и Google Robot R0-модель превосходит аналоги на сопоставимой стадии и приближается к дообученным бейзлайнам. Поэтапное улучшение — от неотфильтрованных данных до RL — подтверждает ценность DataQA и RL-фазы.

R1-стадия показывает эффективную адаптацию: на CALVIN Green-VLA дообучается с чекпойнта R0 и достигает производительности, сопоставимой с π0, дообученной на тех же данных, а в некоторых метриках — превосходит её.

R2 даёт наибольший прирост на длинных цепочках. На CALVIN — улучшение стабильности и восстановления. На Simpler BRIDGE WidowX — рост success rate на 24% относительно R1. В e-commerce RL-дообучение делает захват надёжнее, снижает падения и выскальзывания.

На реальном антропоморфе Green модель управляет головой, туловищем, двумя руками и кистями (48 DoF). Она выполняет сложные сценарии: передача объекта из руки в руку, сортировка фруктов, длинные цепочки действий. Оценка проводится в стандартных и OOD-условиях.

Это, пожалуй, главный инженерный результат: одна политика работает и на бенчмарках, и на реальном роботе, координируя множество степеней свободы и точно следуя инструкциям.

Итог

Green-VLA показывает: для VLA в реальной робототехнике масштаб — не главное. Критичны дисциплина в данных, унификация действий и отдельная RL-фаза, выводящая модель за рамки behavior cloning.

Quality alignment через DataQA и временное согласование сделали разнородные данные пригодными для совместного обучения. Unified action space позволил избежать распада политики на изолированные режимы. RL-фаза добавила устойчивость на длинном горизонте и надёжность при контакте.

Поэтому Green-VLA — не просто модель для робота Green, а практический способ создать единую VLA-политику для нескольких платформ без потери качества на целевом роботе.

В будущем авторы планируют: поддержку нескольких языков, более тесную интеграцию рассуждения и управления в реальном времени, а также добавление памяти и воспроизведения траекторий. Успешная реализация этих направлений приблизит создание универсального роботизированного интеллекта.

Читать оригинал

Green-VLA: как мы создали VLA-модель для антропоморфного робота, сохранив обобщение

Почему одного behavior cloning недостаточно

Ключевые особенности Green-VLA

Как мы унифицировали разнородные данные

Пять стадий обучения: зачем они нужны

Компоненты, критичные для реального мира

Результаты на бенчмарках и реальном роботе

Итог

Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение

Почему одних демонстраций и behavior cloning недостаточно

Что делает Green-VLA отличной от других VLA-работ

Как мы привели разнородные робототехнические данные к единому виду

Почему обучение разбито на пять стадий: L0 → L1 → R0 → R1 → R2

Что помогает модели в реальном мире: unified actions, JPM, EEP и OOD

Что получилось на бенчмарках и реальном роботе

Заключение