Предложено расширение декодера Transformer, в котором процесс генерации условно зависит от случайных скрытых переменных. Эти переменные обучаются без учителя с помощью вариационной процедуры, что позволяет модели эффективно улавливать скрытую структуру данных.
Ключевые особенности подхода
- Модель интегрирует идеи из вариационных автоэнкодеров (variational autoencoder, VAE) в архитектуру Transformer.
- Скрытые переменные вводятся на уровне декодера, обеспечивая гибкость и стохастичность генерации.
- Обучение происходит в полностью несупервизируемом режиме, что расширяет применимость метода.
Экспериментальные результаты демонстрируют, что такая модификация приводит к заметному улучшению качества в последующих задачах — от генерации текста до моделирования сложных последовательностей.
Работа выполнена Франсуа Флере и доступна на платформе arXiv под номером 2510.17558.