Энергетические трансформаторы — масштабируемые ученики и мыслители (обзор статьи)

Статья: https://arxiv.org/abs/2507.02092. Код: https://github.com/alexiglad/EBT Веб-сайт: https://energy-based-transformers.github.io/ Аннотация: Методы вычисления времени вывода, аналогичные человеческому мышлению Системы 2, в последнее время стали популярными для улучшения характеристик моделей. Однако большинство существующих подходов страдают от нескольких ограничений: они специфичны для модальности (например, работают только с текстом), специфичны для проблемы (например, проверяемые области, такие как математика и программирование) или требуют дополнительного контроля/обучения в дополнение к неконтролируемому предварительному обучению (например, проверяющие или проверяемые вознаграждения). В этой статье мы задаемся вопросом: «Можно ли обобщить эти подходы к мышлению Системы 2 и разработать модели, которые учатся думать исключительно за счет обучения без учителя?» Интересно, что мы находим ответ «да», научившись явно проверять совместимость между входными данными и прогнозами-кандидатами, а затем переформулируя проблемы прогнозирования как оптимизацию по отношению к этому верификатору. В частности, мы обучаем энергетические трансформаторы (EBT) — новый класс энергетических моделей (EBM) — присваивать значение энергии каждой входной паре и паре прогнозов-кандидатов, что позволяет делать прогнозы посредством минимизации энергии на основе градиентного спуска до сходимости. Как в дискретной (текстовой), так и в непрерывной (визуальной) модальности мы обнаружили, что EBT масштабируется быстрее, чем доминирующий подход Transformer++ во время обучения, достигая до 35% более высокой скорости масштабирования в отношении данных, размера пакета, параметров, FLOP и глубины. Во время вывода EBT повышает производительность с помощью System 2 Thinking на 29% больше, чем Transformer++ при выполнении языковых задач, а EBT превосходят диффузионные преобразователи при шумоподавлении изображения, используя при этом меньшее количество прямых проходов. Кроме того, мы обнаруживаем, что EBT достигают лучших результатов, чем существующие модели, для большинства последующих задач при тех же или худших показателях предварительной подготовки, что позволяет предположить, что EBT обобщает лучше, чем существующие подходы. Следовательно, EBT представляют собой новую многообещающую парадигму масштабирования как обучающих, так и мыслительных способностей моделей. Авторы: Алекси Гладстон, Ганеш Нандуру, Мд Мофиджул Ислам, Пейшуан Хан, Хёнджон Ха, Аман Чадха, Илун Ду, Хенг Джи, Джундонг Ли, Тарик Икбал Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
Читать оригинал