[Объяснение GRPO] DeepSeekMath: расширение границ математических рассуждений в моделях открытого языка
#deepseek #llm #grpo
GRPO — одно из основных усовершенствований, используемых в Deepseek-R1, но оно было представлено еще в прошлом году в этой статье, в которой используется комбинация новых методов RL и итеративного сбора данных для достижения замечательной производительности в математических тестах с помощью всего лишь модели 7B.
Статья: https://arxiv.org/abs/2402.03300.
Аннотация:
Математическое рассуждение представляет собой серьезную проблему для языковых моделей из-за своей сложной и структурированной природы. В этой статье мы представляем DeepSeekMath 7B, который продолжает предварительное обучение DeepSeek-Coder-Base-v1.5 7B с использованием 120 миллиардов математических токенов, полученных из Common Crawl, вместе с данными естественного языка и кода. DeepSeekMath 7B достиг впечатляющего результата в 51,7% в тесте MATH на соревновательном уровне, не полагаясь на внешние наборы инструментов и методы голосования, приближаясь к уровню производительности Gemini-Ultra и GPT-4. Самосогласованность по 64 выборкам из DeepSeekMath 7B достигает 60,9% по MATH. Способность DeepSeekMath к математическим рассуждениям объясняется двумя ключевыми факторами: во-первых, мы используем значительный потенциал общедоступных веб-данных с помощью тщательно спроектированного конвейера отбора данных. Во-вторых, мы представляем оптимизацию групповой относительной политики (GRPO), вариант оптимизации проксимальной политики (PPO), которая расширяет возможности математического рассуждения и одновременно оптимизирует использование памяти PPO.
Авторы: Чжихун Шао, Пейи Ван, Цихао Чжу, Жуньсинь Сюй, Цзюньсяо Сун, Сяо Би, Хаовэй Чжан, Минчуань Чжан, Ю.К. Ли, Ю. Ву, Дая Го
Ссылки:
Домашняя страница: https://ykilcher.com
Мерч: https://ykilcher.com/merch
Ютуб: https://www.youtube.com/c/yannickilcher
Твиттер: https://twitter.com/ykilcher
Дискорд: https://ykilcher.com/discord
LinkedIn: https://www.linkedin.com/in/ykilcher
Если вы хотите поддержать меня, лучше всего поделиться контентом :)
Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили):
Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher
Патреон: https://www.patreon.com/yannickilcher
Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq
Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2
Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m
Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n