Все Ars Technica AI Habr AI MIT Tech Review AI TechCrunch AI The Verge AI Two Minute Papers VentureBeat AI Yannic Kilcher
Свободный преобразователь и некоторые аспекты с вариационным автоэнкодером

Свободный преобразователь и некоторые аспекты с вариационным автоэнкодером

Предложено расширение декодера Transformer, в котором процесс генерации условно зависит от случайных скрытых переменных. Эти переменные обучаются без учителя с помощью вариационной процедуры, что...

Yannic Kilcher
Что упускает режим кода Cloudflare в отношении MCP и вызова инструментов

Что упускает режим кода Cloudflare в отношении MCP и вызова инструментов

Режим кода от Cloudflare (Code Mode) — это функция, позволяющая разработчикам использовать искусственный интеллект для генерации и редактирования кода прямо в браузере. Однако, несмотря на...

Yannic Kilcher
Теоретические ограничения поиска на основе встраивания

Теоретические ограничения поиска на основе встраивания

Статья: https://arxiv.org/abs/2508.21038. Аннотация: На протяжении многих лет перед векторными встраиваниями ставится задача постоянно растущего набора поисковых задач, при этом наблюдается рост...

Yannic Kilcher
АГИ не придёт!

АГИ не придёт!

Исследование Джека Морриса (jxmnop) анализирует данные обучения модели GPT-OSS и ставит под сомнение близость появления искусственной общей интеллектуальности (АГИ). Моррис изучил состав обучающей...

Yannic Kilcher
Разрушение контекста: как увеличение входных токенов влияет на производительность больших языковых моделей

Разрушение контекста: как увеличение входных токенов влияет на производительность больших языковых моделей

Обычно считается, что большие языковые модели (LLM) обрабатывают контекст равномерно — то есть 10 000-й токен должен восприниматься так же надёжно, как и 100-й. Однако на практике это не так....

Yannic Kilcher
Энергетические трансформаторы — масштабируемые ученики и мыслители

Энергетические трансформаторы — масштабируемые ученики и мыслители

Статья: https://arxiv.org/abs/2507.02092. Код: https://github.com/alexiglad/EBT Веб-сайт: https://energy-based-transformers.github.io/ Аннотация: Методы вычисления времени вывода, аналогичные...

Yannic Kilcher
О биологии большой языковой модели (часть 2)

О биологии большой языковой модели (часть 2)

Во второй части цикла — подробный разбор публикации от команды Transformer Circuit из компании Anthropic, посвящённой внутренней «биологии» языковых моделей. Исследование внутренних механизмов...

Yannic Kilcher
О биологии большой языковой модели (часть 1)

О биологии большой языковой модели (часть 1)

Вниманию читателей предлагается подробный разбор публикации из блога Transformer Circuits, подготовленной командой компании Anthropic. Исследование посвящено внутренней «анатомии» модели Клод...

Yannic Kilcher
DeepSeekMath: расширяя границы математических рассуждений в моделях открытого языка

DeepSeekMath: расширяя границы математических рассуждений в моделях открытого языка

#deepseek #llm #grpo GRPO — одно из основных усовершенствований, используемых в Deepseek-R1, но оно было представлено еще в прошлом году в этой статье, в которой используется комбинация новых...

Yannic Kilcher
Прямая трансляция традиционного праздника

Прямая трансляция традиционного праздника

https://ykilcher.com/discord Ссылки: Завершение кода TabNine (направление): http://bit.ly/tabnine-yannick Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher...

Yannic Kilcher