ruGPT3XL: расширение контекста до 8k

ruGPT3XL: расширение контекста до 8k

В статье рассказывается о процессе улучшения модели ruGPT3XL, в частности, о решении проблемы маленького контекста и реализации механизма Sparse Attention.

Автор описывает, как он выявил недоработки в модели, исправил ошибки и добавил поддержку Triton для ускорения операций на GPU.

Также автор рассказывает о расширении контекста модели до 8k, используя метод тайлинга позиционных эмбеддингов, смешанный датасет и ступенчатое расширение.

В результате полученная модель показала хорошие результаты, с минимальной регрессией на коротких последовательностях.

Читать оригинал