Свободный преобразователь и некоторые аспекты с вариационным автоэнкодером

Yannic Kilcher 1 ноя 2025

Предложено расширение декодера Transformer, в котором процесс генерации условно зависит от случайных скрытых переменных. Эти переменные обучаются без учителя с помощью вариационной процедуры, что позволяет модели эффективно улавливать скрытую структуру данных.

Ключевые особенности подхода

Модель интегрирует идеи из вариационных автоэнкодеров (variational autoencoder, VAE) в архитектуру Transformer.
Скрытые переменные вводятся на уровне декодера, обеспечивая гибкость и стохастичность генерации.
Обучение происходит в полностью несупервизируемом режиме, что расширяет применимость метода.

Экспериментальные результаты демонстрируют, что такая модификация приводит к заметному улучшению качества в последующих задачах — от генерации текста до моделирования сложных последовательностей.

Работа выполнена Франсуа Флере и доступна на платформе arXiv под номером 2510.17558.

Читать оригинал

Свободный преобразователь и некоторые аспекты с вариационным автоэнкодером

Ключевые особенности подхода

The Free Transformer (and some Variational Autoencoder stuff)