TiDAR: Думайте диффузно, говорите авторегрессионно (анализ статьи)
Статья: https://arxiv.org/abs/2511.08923.
Аннотация:
Диффузионные языковые модели обещают быструю параллельную генерацию, в то время как модели авторегрессии (AR) обычно превосходят по качеству благодаря своей причинной структуре, естественным образом согласующейся с языковым моделированием. Это поднимает фундаментальный вопрос: можем ли мы достичь синергии с высокой пропускной способностью, более высоким использованием графического процессора и качеством уровня AR? Существующие методы не могут эффективно сбалансировать эти два аспекта: либо отдается приоритет AR с использованием более слабой модели для последовательного черчения (спекулятивное декодирование), что приводит к снижению эффективности черчения, либо используется некоторая форма логики декодирования слева направо (AR-подобная) для распространения, которая все еще страдает от ухудшения качества и теряет свою потенциальную распараллеливаемость. Мы представляем TiDAR, гибридную архитектуру на уровне последовательности, которая формирует токены (мышление) в режиме диффузии и производит выборку окончательных результатов (обсуждение) в авторегрессивном режиме — и все это за один проход вперед с использованием специально разработанных структурированных масок внимания. В этой конструкции используется свободная плотность вычислений на графическом процессоре, обеспечивая надежный баланс между возможностями черчения и проверки. Более того, TiDAR спроектирован так, чтобы быть удобным в обслуживании (с низкими накладными расходами) в качестве автономной модели. Мы тщательно оцениваем TiDAR на основе моделей AR, спекулятивного декодирования и диффузных вариантов в генеративных задачах и задачах правдоподобия в масштабах 1,5B и 8B. Благодаря параллельному составлению и выборке, а также точной поддержке KV-кэша, TiDAR превосходит спекулятивное декодирование по измеренной пропускной способности и превосходит диффузионные модели, такие как Dream и Llada, как по эффективности, так и по качеству. В частности, TiDAR — это первая архитектура, которая ликвидирует разрыв в качестве с моделями AR, обеспечивая при этом в 4,71–5,91 раза больше токенов в секунду.
Авторы: Лю Цзинъюй, Синь Донг, Чжифан Е, Ришаб Мехта, Юнган Фу, Вартика Сингх, Ян Кауц, Се Чжан, Павел Молчанов
Ссылки:
Домашняя страница: https://ykilcher.com
Мерч: https://ykilcher.com/merch
Ютуб: https://www.youtube.com/c/yannickilcher
Твиттер: https://twitter.com/ykilcher
Дискорд: https://ykilcher.com/discord
LinkedIn: https://www.linkedin.com/in/ykilcher
Если вы хотите поддержать меня, лучше всего поделиться контентом :)
Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили):
Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher
Патреон: https://www.patreon.com/yannickilcher
Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq
Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2
Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m
Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n