Physical Intelligence представила «мозг» для роботов, который умеет решать задачи, которым его никогда не учили

Калифорнийский стартап Physical Intelligence, специализирующийся на робототехнике и искусственном интеллекте, опубликовал новое исследование, демонстрирующее, что его последняя модель π0.7 способна управлять роботами в задачах, для которых их напрямую не обучали. Это открытие, по словам учёных компании, стало для них неожиданностью.

Обобщение без прямого обучения

Модель π0.7 — шаг к созданию универсального «мозга» для роботов. В отличие от традиционных систем, которые учатся выполнять конкретную задачу за счёт множества примеров, π0.7 может комбинировать разрозненные навыки и применять их в новых условиях. Это называется композиционное обобщение — способность синтезировать знания из разных контекстов.

Раньше роботов учили методом запоминания: собирай данные по одной задаче — обучай модель — повторяй для каждой новой. π0.7 ломает этот шаблон.

«Когда модель переходит от точного воспроизведения обучённых действий к их переосмыслению, её возможности растут нелинейно, — говорит Сергей Левин (Sergey Levine), сооснователь Physical Intelligence и профессор UC Berkeley. — Такой эффект мы уже видели в языковых и визуальных моделях. Сейчас он проявляется в робототехнике».

Приготовление сладкого картофеля без инструкций

Один из самых впечатляющих примеров — использование фритюрницы, которую модель практически не видела в обучающих данных. Всё, что у неё было: два эпизода — один, где другой робот закрывал крышку, и второй, где кто-то клал бутылку внутрь. Никаких данных о приготовлении еды.

Тем не менее, на основе этих фрагментов и общих знаний из интернета, π0.7 сформировала понимание, как работает прибор. Без подсказок она попыталась приготовить сладкий картофель. А с пошаговыми устными инструкукциями — успешно справилась.

Это важно: роботы могут обучаться в реальном времени, без переобучения моделей и сбора новых данных.

Ограничения и неожиданности

Модель пока не может выполнять сложные задачи по одной общей команде. «Вы не скажете: „Приготовь мне тост“, — поясняет Левин. — Но если объяснить по шагам: „Открой, нажми, включи“ — она справится».

Также команда признаёт, что успех зависит от качества подсказок. В одном эксперименте с фритюрницей результат был всего 5%. После 30 минут работы над формулировками — 95%.

«Иногда проблема не в модели и не в роботе, — говорит Эшвин Балакришна (Ashwin Balakrishna), учёный из Physical Intelligence и аспирант Stanford. — А в нас. Мы просто плохо формулируем запросы».

Сюрприз для самих создателей

Учёные редко удивляются поведению своих моделей — они знают, что было в данных. Но теперь — другое.

«Я купил случайный набор шестерёнок и спросил: „Можешь повернуть эту?“ — рассказывает Балакришна. — И она просто сделала это. Я был в шоке».

Левин сравнивает это с моментом, когда впервые увидел, как GPT-2 пишет историю о единорогах в Андах. «Откуда оно знает про единорогов в Перу? Это же бред. Но именно такие странности говорят: модель что-то поняла».

Скептицизм и реальность

Критики напоминают: у языковых моделей был весь интернет. У роботов — ничтожно мало данных. Но Левин считает, что главный скепсис будет другим.

«Всегда можно сказать: „Да это скучно. Робот не делает сальто

Читать оригинал