Свободный преобразователь и некоторые аспекты с вариационным автоэнкодером
Предложено расширение декодера Transformer, в котором процесс генерации условно зависит от случайных скрытых переменных. Эти переменные обучаются без учителя с помощью вариационной процедуры, что...
Что упускает режим кода Cloudflare в отношении MCP и вызова инструментов
Режим кода от Cloudflare (Code Mode) — это функция, позволяющая разработчикам использовать искусственный интеллект для генерации и редактирования кода прямо в браузере. Однако, несмотря на...
Теоретические ограничения поиска на основе встраивания
Статья: https://arxiv.org/abs/2508.21038. Аннотация: На протяжении многих лет перед векторными встраиваниями ставится задача постоянно растущего набора поисковых задач, при этом наблюдается рост...
АГИ не придёт!
Исследование Джека Морриса (jxmnop) анализирует данные обучения модели GPT-OSS и ставит под сомнение близость появления искусственной общей интеллектуальности (АГИ). Моррис изучил состав обучающей...
Разрушение контекста: как увеличение входных токенов влияет на производительность больших языковых моделей
Обычно считается, что большие языковые модели (LLM) обрабатывают контекст равномерно — то есть 10 000-й токен должен восприниматься так же надёжно, как и 100-й. Однако на практике это не так....
Энергетические трансформаторы — масштабируемые ученики и мыслители
Статья: https://arxiv.org/abs/2507.02092. Код: https://github.com/alexiglad/EBT Веб-сайт: https://energy-based-transformers.github.io/ Аннотация: Методы вычисления времени вывода, аналогичные...
О биологии большой языковой модели (часть 2)
Во второй части цикла — подробный разбор публикации от команды Transformer Circuit из компании Anthropic, посвящённой внутренней «биологии» языковых моделей. Исследование внутренних механизмов...
О биологии большой языковой модели (часть 1)
Вниманию читателей предлагается подробный разбор публикации из блога Transformer Circuits, подготовленной командой компании Anthropic. Исследование посвящено внутренней «анатомии» модели Клод...
DeepSeekMath: расширяя границы математических рассуждений в моделях открытого языка
#deepseek #llm #grpo GRPO — одно из основных усовершенствований, используемых в Deepseek-R1, но оно было представлено еще в прошлом году в этой статье, в которой используется комбинация новых...
Прямая трансляция традиционного праздника
https://ykilcher.com/discord Ссылки: Завершение кода TabNine (направление): http://bit.ly/tabnine-yannick Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher...