Green-VLA: как мы создали VLA-модель для антропоморфного робота, сохранив обобщение

Green-VLA: как мы создали VLA-модель для антропоморфного робота, сохранив обобщение

VLA, или Vision-Language-Action модели, сегодня становятся одной из ключевых парадигм в робототехнике. Идея проста: если большие визуально-языковые модели уже умеют связывать изображение, текст и понимание сцены, то логично добавить к этому — действия. Так появляется единый контур: модель видит сцену, понимает инструкцию на естественном языке и выдаёт управление роботом.

Почему одних демонстраций недостаточно

На первый взгляд, задача решается просто: собрать много демонстраций и обучить политику по behavior cloning (BC), то есть копированию действий. На практике такой подход быстро сталкивается с ограничениями.

Во-первых, робототехнические данные неоднородны: разные камеры, частоты дискретизации, динамика и пространства действий. Простое смешивание приводит к тому, что модель усваивает артефакты конкретных датасетов, а не общие паттерны.

Во-вторых, качество демонстраций сильно варьируется. Шум, смазанные кадры, дёрганые движения и бедное визуальное разнообразие — типичные проблемы. Масштабирование без предварительной очистки лишь усиливает шум.

В-третьих, behavior cloning плохо справляется с длинными цепочками действий, восстановлением после ошибок и поведением вне обучающего распределения. Он хорошо копирует локальные действия, но не обеспечивает согласованность с долгосрочной целью.

Для реального робота это критично. Важна не только точность выполнения, но и стабильность в длительных сценариях. Поэтому в Green-VLA мы построили полный стек: от данных до обучения, где каждое слабое место решается отдельно.

Ключевые особенности Green-VLA

Green-VLA — это поэтапно обученная VLA-модель для антропоморфного робота Green. При этом она не привязана к одному воплощению: та же политика работает на мобильных манипуляторах, двуруких платформах и стандартных бенчмарках.

Её сила — не в одной архитектурной «фишке», а в комбинации решений:

  • Масштабные данные: 24 миллиона мультимодальных примеров из интернета (стадия L1) и 184 миллиона робототехнических примеров (R0), что в сумме даёт более 3000 часов демонстраций.
  • Контролируемое использование масштаба: данные проходят фильтрацию, временное согласование, а действия приводятся к единому семантическому пространству.
  • Пятиступенчатое обучение: от мультимодального предобучения до специализации и RL-дообучения.
  • Оптимизация под реальное управление: используется Qwen-VL 4B как визуально-языковая основа, а поверх — отдельный flow-matching action expert.

Такой подход позволяет модели управлять роботом с 48 степенями свободы, не теряя способности к обобщению.

Как мы унифицировали разнородные данные

Робототехнические датасеты редко совместимы: разная кинематика, управление и скорость выполнения. Мы решаем это на нескольких уровнях.

Сначала применяется пайплайн DataQA, который оценивает качество траекторий по шуму, резкости изображений, разнообразию сцены и стабильности состояний. Также отсекаются эпизоды с пропущенными кадрами, аномальной длительностью или отсутствием смысла.

Затем — временное согласование. Скорость движения оценивается по оптическому потоку с камер на запястьях, и траектории ресемплируются так, чтобы одинаковые визуальные изменения соответствовали одинаковым приращениям действий.

Пространство действий унифицируется через unified action space с фиксированной семантической разметкой. Модель получает структурированный промпт с типом управления и параметрами робота, что позволяет избежать путаницы между разными платформами.

Для антропоморфа Green используется ретаргетинг: демонстрации с других роботов переносятся в его конфигурационное пространство, чтобы сохранить намерение действия, а не его параметры.

Кроме того, собственные 48 часов данных Green Humanoid были расширены до 167 часов с помощью зеркалирования и обратных траекторий там, где это физически допустимо.

Пятиступенчатый пайплайн обучения

Каждая стадия решает отдельную проблему:

  • L0 — базовая визуально-языковая модель (VLM), умеет связывать изображение и текст.
  • L1 — мультимодальное предобучение на веб-данных. Модель усваивает физические и семантические знания: аффордансы объектов, пространственное мышление, многоракурсное восприятие.
  • R0 — общее робототехническое предобучение. Модель учится общим паттернам манипуляции на разных платформах с использованием unified action space.
  • R1 — адаптация под конкретное воплощение. Дообучение на высококачественных данных целевого робота или бенчмарка.
  • R2 — RL fine-tuning. Улучшает поведение на длинном горизонте, восстановление после ошибок и устойчивость при физическом контакте. Используется отдельный критик и оптимизация шума для flow-matching.

Такой подход обеспечивает чёткое разделение ответственности: веб-данные — за общие знания, R0 — за базовые навыки, R1 — за специализацию, R2 — за надёжность.

Ключевые компоненты для работы в реальном мире

Даже сильная политика сталкивается с новыми объектами, сбоями захвата и необходимостью остановиться после успеха. Green-VLA использует несколько механизмов:

  • Unified action space — на инференсе модель получает явный промпт с типом управления и генерирует только нужные действия.
  • EEP (episode end prediction) — предсказывает завершение подзадачи. Это предотвращает лишние движения, которые могут испортить результат.
  • OOD-детекция — выявляет состояния вне обучающего распределения. При нестабильности модель может передать управление на перепланирование.
  • JPM (joint prediction module) — помогает точно находить объекты, особенно похожие. По инструкции и изображению он определяет 2D-точку, переносит её в 3D и использует как цель для генерации действий. Это особенно важно в e-commerce, где товары отличаются мелкими деталями.

Поверх Green-VLA может работать высокоуровневый планировщик, разбивающий запрос на подзадачи. Сама модель остаётся низкоуровневым исполнителем, а не универсальным планировщиком.

Результаты на бенчмарках и реальном роботе

Green-VLA — модель из около 5 миллиардов параметров. Qwen-VL 4B — основа, остальные параметры — action expert и выходные слои. При этом система менее требовательна к данным и вычислениям, чем крупные аналоги.

На двуруком AgileX Magic Cobot в задачах pick-and-place и уборки стола Green-VLA превосходит π0, GR00T N1, AgiBot GO-1 и WALL-OSS. При этом использует ~3000 часов демонстраций против более чем 10 000 у π0.

На бенчмарках Simpler (WidowX, Google Robot) R0-модель превосходит аналоги на сопоставимой стадии и достигает уровня дообученных бейзлайнов. Поэтапное улучшение (сырые данные → SFT → RL) подтверждает ценность DataQA и RL.

R1-модель на CALVIN достигает сопоставимой производительности с π0, дообученной на тех же данных, и немного её превосходит по многошаговым цепочкам.

R2 даёт наибольший прирост: на CALVIN — улучшение стабильности и восстановления; на Simpler BRIDGE WidowX — рост success rate на 24% относительно R1. В e-commerce RL-дообучение делает захват надёжнее, снижает падения и выскальзывания.

На реальном антропоморфе Green модель управляет 48 степенями свободы: головой, туловищем, двумя руками и кистями. Она выполняет сложные сценарии: берёт предметы, перекладывает из руки в руку, сортирует фрукты, передаёт пользователю, следует длинным инструкциям. Оценка проводится как в стандартных, так и в OOD-сценариях.

Это, пожалуй, главный инженерный результат: одна политика работает и на бенчмарках, и на реальном роботе, требуя координации обеих рук, туловища и точного следования языковым командам.

Заключение

Green-VLA показывает: для VLA в реальном роботе масштаб — не главное. Ключевое — дисциплина в данных, унификация действий и отдельная RL-фаза, выводящая модель за рамки behavior cloning.

Quality alignment через DataQA и временное согласование сделали разнородные данные пригодными для совместного обучения. Unified action space позволил избежать распада политики на изолированные режимы. RL-фаза добавила устойчивость на длинном горизонте и восстановление после ошибок.

Поэтому Green-VLA — не просто модель для одного робота, а практический способ создать единую VLA-политику для нескольких платформ без потери качества на целевом устройстве.

В будущем планируется поддержка нескольких языков, улучшение связи между рассуждением и управлением в реальном времени, а также интеграция памяти и воспроизведения траекторий. Успешная реализация этих направлений приблизит создание универсального роботизированного интеллекта.

Читать оригинал