Свободный преобразователь и некоторые аспекты с вариационным автоэнкодером

Предложено расширение декодера Transformer, в котором процесс генерации условно зависит от случайных скрытых переменных. Эти переменные обучаются без учителя с помощью вариационной процедуры, что позволяет модели эффективно улавливать скрытую структуру данных.

Ключевые особенности подхода

  • Модель интегрирует идеи из вариационных автоэнкодеров (variational autoencoder, VAE) в архитектуру Transformer.
  • Скрытые переменные вводятся на уровне декодера, обеспечивая гибкость и стохастичность генерации.
  • Обучение происходит в полностью несупервизируемом режиме, что расширяет применимость метода.

Экспериментальные результаты демонстрируют, что такая модификация приводит к заметному улучшению качества в последующих задачах — от генерации текста до моделирования сложных последовательностей.

Работа выполнена Франсуа Флере и доступна на платформе arXiv под номером 2510.17558.

Читать оригинал