AI News Hub — Новости ИИ

Свободный преобразователь и некоторые аспекты с вариационным автоэнкодером

Предложено расширение декодера Transformer, в котором процесс генерации условно зависит от случайных скрытых переменных. Эти переменные обучаются без учителя с помощью вариационной процедуры, что...

Yannic Kilcher 1 ноя 2025

Что упускает режим кода Cloudflare в отношении MCP и вызова инструментов

Режим кода от Cloudflare (Code Mode) — это функция, позволяющая разработчикам использовать искусственный интеллект для генерации и редактирования кода прямо в браузере. Однако, несмотря на...

Yannic Kilcher 19 окт 2025

Теоретические ограничения поиска на основе встраивания

Статья: https://arxiv.org/abs/2508.21038. Аннотация: На протяжении многих лет перед векторными встраиваниями ставится задача постоянно растущего набора поисковых задач, при этом наблюдается рост...

Yannic Kilcher 11 окт 2025

АГИ не придёт!

Исследование Джека Морриса (jxmnop) анализирует данные обучения модели GPT-OSS и ставит под сомнение близость появления искусственной общей интеллектуальности (АГИ). Моррис изучил состав обучающей...

Yannic Kilcher 9 авг 2025

Разрушение контекста: как увеличение входных токенов влияет на производительность больших языковых моделей

Обычно считается, что большие языковые модели (LLM) обрабатывают контекст равномерно — то есть 10 000-й токен должен восприниматься так же надёжно, как и 100-й. Однако на практике это не так....

Yannic Kilcher 23 июл 2025

Энергетические трансформаторы — масштабируемые ученики и мыслители

Статья: https://arxiv.org/abs/2507.02092. Код: https://github.com/alexiglad/EBT Веб-сайт: https://energy-based-transformers.github.io/ Аннотация: Методы вычисления времени вывода, аналогичные...

Yannic Kilcher 19 июл 2025

О биологии большой языковой модели (часть 2)

Во второй части цикла — подробный разбор публикации от команды Transformer Circuit из компании Anthropic, посвящённой внутренней «биологии» языковых моделей. Исследование внутренних механизмов...

Yannic Kilcher 3 мая 2025

О биологии большой языковой модели (часть 1)

Вниманию читателей предлагается подробный разбор публикации из блога Transformer Circuits, подготовленной командой компании Anthropic. Исследование посвящено внутренней «анатомии» модели Клод...

Yannic Kilcher 5 апр 2025

DeepSeekMath: расширяя границы математических рассуждений в моделях открытого языка

#deepseek #llm #grpo GRPO — одно из основных усовершенствований, используемых в Deepseek-R1, но оно было представлено еще в прошлом году в этой статье, в которой используется комбинация новых...

Yannic Kilcher 26 янв 2025

Прямая трансляция традиционного праздника

https://ykilcher.com/discord Ссылки: Завершение кода TabNine (направление): http://bit.ly/tabnine-yannick Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher...

Yannic Kilcher 27 дек 2024