Все Ars Technica AI Habr AI MIT Tech Review AI TechCrunch AI The Verge AI Two Minute Papers VentureBeat AI Yannic Kilcher
О биологии большой языковой модели (Часть 1)

О биологии большой языковой модели (Часть 1)

Углубленный взгляд на публикацию в блоге Transformer Circuit от Anthropic https://transformer-circuits.pub/2025/attribution-graphs/biology.html Аннотация: Мы исследуем внутренние механизмы, используемые Claude 3.5 Haiku — облегченной производственной моделью Anthropic — в различных контекстах, используя нашу методологию трассировки цепей. Авторы: Джек Линдси†, Уэс Герни*, Эммануэль Амейсен*, Брайан Чен*, Адам Пирс*, Николас Л. Тёрнер*, Крейг Ситро*, Дэвид Абрахамс, Шэн Картер, Бэзил Хосмер, Джонатан Маркус, Майкл Склар, Адли Темплтон Трентон Брикен, Каллум МакДугалл◊, Хоги Каннингэм, Томас Хениган, Адам Джермин, Энди Джонс, Эндрю Персик, Женьи Ци, Т. Бен Томпсон, Сэм Циммерман, Келли Ривуар, Томас Конерли, Крис Ола, Джошуа Бэтсон*‡ Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Yannic Kilcher
[Объяснение GRPO] DeepSeekMath: расширение границ математических рассуждений в моделях открытого языка

[Объяснение GRPO] DeepSeekMath: расширение границ математических рассуждений в моделях открытого языка

#deepseek #llm #grpo GRPO — одно из основных усовершенствований, используемых в Deepseek-R1, но оно было представлено еще в прошлом году в этой статье, в которой используется комбинация новых методов RL и итеративного сбора данных для достижения замечательной производительности в математических тестах с помощью всего лишь модели 7B. Статья: https://arxiv.org/abs/2402.03300. Аннотация: Математическое рассуждение представляет собой серьезную проблему для языковых моделей из-за своей сложной и структурированной природы. В этой статье мы представляем DeepSeekMath 7B, который продолжает предварительное обучение DeepSeek-Coder-Base-v1.5 7B с использованием 120 миллиардов математических токенов, полученных из Common Crawl, вместе с данными естественного языка и кода. DeepSeekMath 7B достиг впечатляющего результата в 51,7% в тесте MATH на соревновательном уровне, не полагаясь на внешние наборы инструментов и методы голосования, приближаясь к уровню производительности Gemini-Ultra и GPT-4. Самосогласованность по 64 выборкам из DeepSeekMath 7B достигает 60,9% по MATH. Способность DeepSeekMath к математическим рассуждениям объясняется двумя ключевыми факторами: во-первых, мы используем значительный потенциал общедоступных веб-данных с помощью тщательно спроектированного конвейера отбора данных. Во-вторых, мы представляем оптимизацию групповой относительной политики (GRPO), вариант оптимизации проксимальной политики (PPO), которая расширяет возможности математического рассуждения и одновременно оптимизирует использование памяти PPO. Авторы: Чжихун Шао, Пейи Ван, Цихао Чжу, Жуньсинь Сюй, Цзюньсяо Сун, Сяо Би, Хаовэй Чжан, Минчуань Чжан, Ю.К. Ли, Ю. Ву, Дая Го Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Yannic Kilcher
Прямая трансляция традиционного праздника

Прямая трансляция традиционного праздника

https://ykilcher.com/discord Ссылки: Завершение кода TabNine (направление): http://bit.ly/tabnine-yannick Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://discord.gg/4H8xxDF BitChute: https://www.bitchute.com/channel/yannic-kilcher Умы: https://www.minds.com/ykilcher Парлер: https://parler.com/profile/YannicKilcher LinkedIn: https://www.linkedin.com/in/yannic-kilcher-488534136/ БилиБили: https://space.bilibili.com/1824646584 Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Yannic Kilcher