[Объяснение GRPO] DeepSeekMath: расширение границ математических рассуждений в моделях открытого языка

#deepseek #llm #grpo GRPO — одно из основных усовершенствований, используемых в Deepseek-R1, но оно было представлено еще в прошлом году в этой статье, в которой используется комбинация новых методов RL и итеративного сбора данных для достижения замечательной производительности в математических тестах с помощью всего лишь модели 7B. Статья: https://arxiv.org/abs/2402.03300. Аннотация: Математическое рассуждение представляет собой серьезную проблему для языковых моделей из-за своей сложной и структурированной природы. В этой статье мы представляем DeepSeekMath 7B, который продолжает предварительное обучение DeepSeek-Coder-Base-v1.5 7B с использованием 120 миллиардов математических токенов, полученных из Common Crawl, вместе с данными естественного языка и кода. DeepSeekMath 7B достиг впечатляющего результата в 51,7% в тесте MATH на соревновательном уровне, не полагаясь на внешние наборы инструментов и методы голосования, приближаясь к уровню производительности Gemini-Ultra и GPT-4. Самосогласованность по 64 выборкам из DeepSeekMath 7B достигает 60,9% по MATH. Способность DeepSeekMath к математическим рассуждениям объясняется двумя ключевыми факторами: во-первых, мы используем значительный потенциал общедоступных веб-данных с помощью тщательно спроектированного конвейера отбора данных. Во-вторых, мы представляем оптимизацию групповой относительной политики (GRPO), вариант оптимизации проксимальной политики (PPO), которая расширяет возможности математического рассуждения и одновременно оптимизирует использование памяти PPO. Авторы: Чжихун Шао, Пейи Ван, Цихао Чжу, Жуньсинь Сюй, Цзюньсяо Сун, Сяо Би, Хаовэй Чжан, Минчуань Чжан, Ю.К. Ли, Ю. Ву, Дая Го Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
Читать оригинал