Все Ars Technica AI Habr AI MIT Tech Review AI TechCrunch AI The Verge AI Two Minute Papers VentureBeat AI Yannic Kilcher
Титаны: учимся запоминать во время тестов (анализ статьи)

Титаны: учимся запоминать во время тестов (анализ статьи)

Статья: https://arxiv.org/abs/2501.00663. Аннотация: Более десяти лет проводились обширные исследования того, как эффективно использовать повторяющиеся модели и внимание. В то время как рекуррентные модели направлены на сжатие данных в память фиксированного размера (так называемое скрытое состояние), внимание позволяет обслуживать все окно контекста, фиксируя прямые зависимости всех токенов. Однако такое более точное моделирование зависимостей требует квадратичной стоимости, ограничивающей модель контекстом фиксированной длины. Мы представляем новый модуль нейронной долговременной памяти, который учится запоминать исторический контекст и помогает вниманию уделять внимание текущему контексту, используя при этом информацию из далекого прошлого. Мы показываем, что эта нейронная память имеет преимущество быстрого распараллеливаемого обучения при сохранении быстрого вывода. С точки зрения памяти мы утверждаем, что внимание из-за его ограниченного контекста, но точного моделирования зависимостей действует как кратковременная память, тогда как нейронная память из-за своей способности запоминать данные действует как долговременная, более устойчивая память. На основе этих двух модулей мы представляем новое семейство архитектур под названием Titans и представляем три варианта, позволяющих эффективно включить память в эту архитектуру. Наши экспериментальные результаты по языковому моделированию, здравому смыслу, геномике и задачам временных рядов показывают, что Титаны более эффективны, чем Трансформеры и последние современные линейно-рекуррентные модели. Кроме того, они могут эффективно масштабироваться до размера контекстного окна более 2 МБ с более высокой точностью при выполнении задач «иголка в стоге сена» по сравнению с базовыми показателями. Авторы: Али Бехруз, Пейлин Чжун, Вахаб Миррокни Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Yannic Kilcher
[Анализ статьи] Свободный преобразователь (и некоторые вещи о вариационном автоэнкодере)

[Анализ статьи] Свободный преобразователь (и некоторые вещи о вариационном автоэнкодере)

https://arxiv.org/abs/2510.17558 Аннотация: Мы предлагаем расширение декодера Transformer, которое обуславливает его генерирующий процесс случайными скрытыми переменными, которые обучаются без присмотра благодаря вариационной процедуре. Экспериментальные оценки показывают, что обеспечение такого условия приводит к существенному улучшению последующих задач. Автор: Франсуа Флере Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Yannic Kilcher
[Видеоответ] Что упускает режим кода Cloudflare в отношении MCP и вызова инструментов

[Видеоответ] Что упускает режим кода Cloudflare в отношении MCP и вызова инструментов

Видео Тео: https://www.youtube.com/watch?v=bAYZjVAoodoo Статья о Cloudflare: https://blog.cloudflare.com/code-mode/ Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Yannic Kilcher
[Анализ статьи] О теоретических ограничениях поиска на основе встраивания (предупреждение: напыщенная речь)

[Анализ статьи] О теоретических ограничениях поиска на основе встраивания (предупреждение: напыщенная речь)

Статья: https://arxiv.org/abs/2508.21038. Аннотация: На протяжении многих лет перед векторными встраиваниями ставится задача постоянно растущего набора поисковых задач, при этом наблюдается рост их использования для рассуждений, выполнения инструкций, кодирования и многого другого. Эти новые тесты заставляют встраивания работать для любого запроса и любого понятия релевантности, которое может быть задано. Хотя предыдущие работы указывали на теоретические ограничения векторных вложений, существует распространенное предположение, что эти трудности возникают исключительно из-за нереалистичных запросов, а те, которые не являются таковыми, можно преодолеть с помощью лучших обучающих данных и более крупных моделей. В этой работе мы демонстрируем, что мы можем столкнуться с этими теоретическими ограничениями в реалистичных условиях с чрезвычайно простыми запросами. Мы связываем известные результаты теории обучения, показывающие, что количество top-k подмножеств документов, которые могут быть возвращены в результате некоторого запроса, ограничено размерностью встраивания. Мы эмпирически показываем, что это справедливо, даже если мы ограничимся k = 2 и оптимизируем непосредственно на тестовом наборе со свободными параметризованными вложениями. Затем мы создаем реалистичный набор данных под названием LIMIT, который проводит стресс-тестирование моделей, основанных на этих теоретических результатах, и наблюдаем, что даже самые современные модели терпят неудачу в этом наборе данных, несмотря на простой характер задачи. Наша работа показывает ограничения встраивания моделей в рамках существующей одновекторной парадигмы и призывает к будущим исследованиям по разработке методов, которые смогут устранить это фундаментальное ограничение. Авторы: Орион Веллер, Майкл Боратко, Ифтехар Наим, Джинхёк Ли Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Yannic Kilcher
АГИ не придет!

АГИ не придет!

Расследование Джека Морриса данных обучения GPT-OSS https://x.com/jxmnop/status/1953899426075816164?t=3YRhVQDwQLk2gouTSACoqA&s=09

Yannic Kilcher
Разрушение контекста: как увеличение входных токенов влияет на производительность LLM (анализ статьи)

Разрушение контекста: как увеличение входных токенов влияет на производительность LLM (анализ статьи)

Бумага: https://research.trychroma.com/context-rot. Аннотация: Обычно предполагается, что модели большого языка (LLM) обрабатывают контекст единообразно, то есть модель должна обрабатывать 10 000-й токен так же надежно, как и 100-й. Однако на практике это предположение не выполняется. Мы наблюдаем, что производительность модели значительно меняется при изменении длины входных данных даже при выполнении простых задач. В этом отчете мы оцениваем 18 LLM, включая современные модели GPT-4.1, Claude 4, Gemini 2.5 и Qwen3. Наши результаты показывают, что модели не используют свой контекст единообразно; вместо этого их производительность становится все более ненадежной по мере увеличения длины входных данных. Авторы: Келли Хонг, Антон Тройников, Джефф Хубер Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Yannic Kilcher
Энергетические трансформаторы — масштабируемые ученики и мыслители (обзор статьи)

Энергетические трансформаторы — масштабируемые ученики и мыслители (обзор статьи)

Статья: https://arxiv.org/abs/2507.02092. Код: https://github.com/alexiglad/EBT Веб-сайт: https://energy-based-transformers.github.io/ Аннотация: Методы вычисления времени вывода, аналогичные человеческому мышлению Системы 2, в последнее время стали популярными для улучшения характеристик моделей. Однако большинство существующих подходов страдают от нескольких ограничений: они специфичны для модальности (например, работают только с текстом), специфичны для проблемы (например, проверяемые области, такие как математика и программирование) или требуют дополнительного контроля/обучения в дополнение к неконтролируемому предварительному обучению (например, проверяющие или проверяемые вознаграждения). В этой статье мы задаемся вопросом: «Можно ли обобщить эти подходы к мышлению Системы 2 и разработать модели, которые учатся думать исключительно за счет обучения без учителя?» Интересно, что мы находим ответ «да», научившись явно проверять совместимость между входными данными и прогнозами-кандидатами, а затем переформулируя проблемы прогнозирования как оптимизацию по отношению к этому верификатору. В частности, мы обучаем энергетические трансформаторы (EBT) — новый класс энергетических моделей (EBM) — присваивать значение энергии каждой входной паре и паре прогнозов-кандидатов, что позволяет делать прогнозы посредством минимизации энергии на основе градиентного спуска до сходимости. Как в дискретной (текстовой), так и в непрерывной (визуальной) модальности мы обнаружили, что EBT масштабируется быстрее, чем доминирующий подход Transformer++ во время обучения, достигая до 35% более высокой скорости масштабирования в отношении данных, размера пакета, параметров, FLOP и глубины. Во время вывода EBT повышает производительность с помощью System 2 Thinking на 29% больше, чем Transformer++ при выполнении языковых задач, а EBT превосходят диффузионные преобразователи при шумоподавлении изображения, используя при этом меньшее количество прямых проходов. Кроме того, мы обнаруживаем, что EBT достигают лучших результатов, чем существующие модели, для большинства последующих задач при тех же или худших показателях предварительной подготовки, что позволяет предположить, что EBT обобщает лучше, чем существующие подходы. Следовательно, EBT представляют собой новую многообещающую парадигму масштабирования как обучающих, так и мыслительных способностей моделей. Авторы: Алекси Гладстон, Ганеш Нандуру, Мд Мофиджул Ислам, Пейшуан Хан, Хёнджон Ха, Аман Чадха, Илун Ду, Хенг Джи, Джундонг Ли, Тарик Икбал Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Yannic Kilcher
О биологии большой языковой модели (часть 2)

О биологии большой языковой модели (часть 2)

Углубленный взгляд на публикацию в блоге Transformer Circuit от Anthropic Часть 1 здесь: https://youtu.be/mU3g2YPKlsA Дискорд здесь: https;//ykilcher.com/discord https://transformer-circuits.pub/2025/attribution-graphs/biology.html Аннотация: Мы исследуем внутренние механизмы, используемые Claude 3.5 Haiku — облегченной производственной моделью Anthropic — в различных контекстах, используя нашу методологию трассировки цепей. Авторы: Джек Линдси†, Уэс Герни*, Эммануэль Амейсен*, Брайан Чен*, Адам Пирс*, Николас Л. Тёрнер*, Крейг Ситро*, Дэвид Абрахамс, Шэн Картер, Бэзил Хосмер, Джонатан Маркус, Майкл Склар, Адли Темплтон Трентон Брикен, Каллум МакДугалл◊, Хоги Каннингэм, Томас Хениган, Адам Джермин, Энди Джонс, Эндрю Персик, Женьи Ци, Т. Бен Томпсон, Сэм Циммерман, Келли Ривуар, Томас Конерли, Крис Ола, Джошуа Бэтсон*‡ Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Yannic Kilcher
О биологии большой языковой модели (Часть 1)

О биологии большой языковой модели (Часть 1)

Углубленный взгляд на публикацию в блоге Transformer Circuit от Anthropic https://transformer-circuits.pub/2025/attribution-graphs/biology.html Аннотация: Мы исследуем внутренние механизмы, используемые Claude 3.5 Haiku — облегченной производственной моделью Anthropic — в различных контекстах, используя нашу методологию трассировки цепей. Авторы: Джек Линдси†, Уэс Герни*, Эммануэль Амейсен*, Брайан Чен*, Адам Пирс*, Николас Л. Тёрнер*, Крейг Ситро*, Дэвид Абрахамс, Шэн Картер, Бэзил Хосмер, Джонатан Маркус, Майкл Склар, Адли Темплтон Трентон Брикен, Каллум МакДугалл◊, Хоги Каннингэм, Томас Хениган, Адам Джермин, Энди Джонс, Эндрю Персик, Женьи Ци, Т. Бен Томпсон, Сэм Циммерман, Келли Ривуар, Томас Конерли, Крис Ола, Джошуа Бэтсон*‡ Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Yannic Kilcher
[Объяснение GRPO] DeepSeekMath: расширение границ математических рассуждений в моделях открытого языка

[Объяснение GRPO] DeepSeekMath: расширение границ математических рассуждений в моделях открытого языка

#deepseek #llm #grpo GRPO — одно из основных усовершенствований, используемых в Deepseek-R1, но оно было представлено еще в прошлом году в этой статье, в которой используется комбинация новых методов RL и итеративного сбора данных для достижения замечательной производительности в математических тестах с помощью всего лишь модели 7B. Статья: https://arxiv.org/abs/2402.03300. Аннотация: Математическое рассуждение представляет собой серьезную проблему для языковых моделей из-за своей сложной и структурированной природы. В этой статье мы представляем DeepSeekMath 7B, который продолжает предварительное обучение DeepSeek-Coder-Base-v1.5 7B с использованием 120 миллиардов математических токенов, полученных из Common Crawl, вместе с данными естественного языка и кода. DeepSeekMath 7B достиг впечатляющего результата в 51,7% в тесте MATH на соревновательном уровне, не полагаясь на внешние наборы инструментов и методы голосования, приближаясь к уровню производительности Gemini-Ultra и GPT-4. Самосогласованность по 64 выборкам из DeepSeekMath 7B достигает 60,9% по MATH. Способность DeepSeekMath к математическим рассуждениям объясняется двумя ключевыми факторами: во-первых, мы используем значительный потенциал общедоступных веб-данных с помощью тщательно спроектированного конвейера отбора данных. Во-вторых, мы представляем оптимизацию групповой относительной политики (GRPO), вариант оптимизации проксимальной политики (PPO), которая расширяет возможности математического рассуждения и одновременно оптимизирует использование памяти PPO. Авторы: Чжихун Шао, Пейи Ван, Цихао Чжу, Жуньсинь Сюй, Цзюньсяо Сун, Сяо Би, Хаовэй Чжан, Минчуань Чжан, Ю.К. Ли, Ю. Ву, Дая Го Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Yannic Kilcher
Прямая трансляция традиционного праздника

Прямая трансляция традиционного праздника

https://ykilcher.com/discord Ссылки: Завершение кода TabNine (направление): http://bit.ly/tabnine-yannick Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://discord.gg/4H8xxDF BitChute: https://www.bitchute.com/channel/yannic-kilcher Умы: https://www.minds.com/ykilcher Парлер: https://parler.com/profile/YannicKilcher LinkedIn: https://www.linkedin.com/in/yannic-kilcher-488534136/ БилиБили: https://space.bilibili.com/1824646584 Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Yannic Kilcher