Я ПОСТРОИЛ ПОЛНОСТЬЮ АВТОМАТИЧЕСКИЙ МАНСПЛЕЙНЕР
Вся информация о GTC и розыгрыше DGX Spark здесь: https://www.ykilcher.com/gtc Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
Традиционный рождественский стрим
Летсгооо
Прямая трансляция традиционного праздника
https://ykilcher.com/discord Ссылки: Завершение кода TabNine (направление): http://bit.ly/tabnine-yannick Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://discord.gg/4H8xxDF BitChute: https://www.bitchute.com/channel/yannic-kilcher Умы: https://www.minds.com/ykilcher Парлер: https://parler.com/profile/YannicKilcher LinkedIn: https://www.linkedin.com/in/yannic-kilcher-488534136/ БилиБили: https://space.bilibili.com/1824646584 Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
TiDAR: Думайте диффузно, говорите авторегрессионно (анализ статьи)
Статья: https://arxiv.org/abs/2511.08923. Аннотация: Диффузионные языковые модели обещают быструю параллельную генерацию, в то время как модели авторегрессии (AR) обычно превосходят по качеству благодаря своей причинной структуре, естественным образом согласующейся с языковым моделированием. Это поднимает фундаментальный вопрос: можем ли мы достичь синергии с высокой пропускной способностью, более высоким использованием графического процессора и качеством уровня AR? Существующие методы не могут эффективно сбалансировать эти два аспекта: либо отдается приоритет AR с использованием более слабой модели для последовательного черчения (спекулятивное декодирование), что приводит к снижению эффективности черчения, либо используется некоторая форма логики декодирования слева направо (AR-подобная) для распространения, которая все еще страдает от ухудшения качества и теряет свою потенциальную распараллеливаемость. Мы представляем TiDAR, гибридную архитектуру на уровне последовательности, которая формирует токены (мышление) в режиме диффузии и производит выборку окончательных результатов (обсуждение) в авторегрессивном режиме — и все это за один проход вперед с использованием специально разработанных структурированных масок внимания. В этой конструкции используется свободная плотность вычислений на графическом процессоре, обеспечивая надежный баланс между возможностями черчения и проверки. Более того, TiDAR спроектирован так, чтобы быть удобным в обслуживании (с низкими накладными расходами) в качестве автономной модели. Мы тщательно оцениваем TiDAR на основе моделей AR, спекулятивного декодирования и диффузных вариантов в генеративных задачах и задачах правдоподобия в масштабах 1,5B и 8B. Благодаря параллельному составлению и выборке, а также точной поддержке KV-кэша, TiDAR превосходит спекулятивное декодирование по измеренной пропускной способности и превосходит диффузионные модели, такие как Dream и Llada, как по эффективности, так и по качеству. В частности, TiDAR — это первая архитектура, которая ликвидирует разрыв в качестве с моделями AR, обеспечивая при этом в 4,71–5,91 раза больше токенов в секунду. Авторы: Лю Цзинъюй, Синь Донг, Чжифан Е, Ришаб Мехта, Юнган Фу, Вартика Сингх, Ян Кауц, Се Чжан, Павел Молчанов Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
Титаны: учимся запоминать во время тестов (анализ статьи)
Статья: https://arxiv.org/abs/2501.00663. Аннотация: Более десяти лет проводились обширные исследования того, как эффективно использовать повторяющиеся модели и внимание. В то время как рекуррентные модели направлены на сжатие данных в память фиксированного размера (так называемое скрытое состояние), внимание позволяет обслуживать все окно контекста, фиксируя прямые зависимости всех токенов. Однако такое более точное моделирование зависимостей требует квадратичной стоимости, ограничивающей модель контекстом фиксированной длины. Мы представляем новый модуль нейронной долговременной памяти, который учится запоминать исторический контекст и помогает вниманию уделять внимание текущему контексту, используя при этом информацию из далекого прошлого. Мы показываем, что эта нейронная память имеет преимущество быстрого распараллеливаемого обучения при сохранении быстрого вывода. С точки зрения памяти мы утверждаем, что внимание из-за его ограниченного контекста, но точного моделирования зависимостей действует как кратковременная память, тогда как нейронная память из-за своей способности запоминать данные действует как долговременная, более устойчивая память. На основе этих двух модулей мы представляем новое семейство архитектур под названием Titans и представляем три варианта, позволяющих эффективно включить память в эту архитектуру. Наши экспериментальные результаты по языковому моделированию, здравому смыслу, геномике и задачам временных рядов показывают, что Титаны более эффективны, чем Трансформеры и последние современные линейно-рекуррентные модели. Кроме того, они могут эффективно масштабироваться до размера контекстного окна более 2 МБ с более высокой точностью при выполнении задач «иголка в стоге сена» по сравнению с базовыми показателями. Авторы: Али Бехруз, Пейлин Чжун, Вахаб Миррокни Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
[Анализ статьи] Свободный преобразователь (и некоторые вещи о вариационном автоэнкодере)
https://arxiv.org/abs/2510.17558 Аннотация: Мы предлагаем расширение декодера Transformer, которое обуславливает его генерирующий процесс случайными скрытыми переменными, которые обучаются без присмотра благодаря вариационной процедуре. Экспериментальные оценки показывают, что обеспечение такого условия приводит к существенному улучшению последующих задач. Автор: Франсуа Флере Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
[Видеоответ] Что упускает режим кода Cloudflare в отношении MCP и вызова инструментов
Видео Тео: https://www.youtube.com/watch?v=bAYZjVAoodoo Статья о Cloudflare: https://blog.cloudflare.com/code-mode/ Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
[Анализ статьи] О теоретических ограничениях поиска на основе встраивания (предупреждение: напыщенная речь)
Статья: https://arxiv.org/abs/2508.21038. Аннотация: На протяжении многих лет перед векторными встраиваниями ставится задача постоянно растущего набора поисковых задач, при этом наблюдается рост их использования для рассуждений, выполнения инструкций, кодирования и многого другого. Эти новые тесты заставляют встраивания работать для любого запроса и любого понятия релевантности, которое может быть задано. Хотя предыдущие работы указывали на теоретические ограничения векторных вложений, существует распространенное предположение, что эти трудности возникают исключительно из-за нереалистичных запросов, а те, которые не являются таковыми, можно преодолеть с помощью лучших обучающих данных и более крупных моделей. В этой работе мы демонстрируем, что мы можем столкнуться с этими теоретическими ограничениями в реалистичных условиях с чрезвычайно простыми запросами. Мы связываем известные результаты теории обучения, показывающие, что количество top-k подмножеств документов, которые могут быть возвращены в результате некоторого запроса, ограничено размерностью встраивания. Мы эмпирически показываем, что это справедливо, даже если мы ограничимся k = 2 и оптимизируем непосредственно на тестовом наборе со свободными параметризованными вложениями. Затем мы создаем реалистичный набор данных под названием LIMIT, который проводит стресс-тестирование моделей, основанных на этих теоретических результатах, и наблюдаем, что даже самые современные модели терпят неудачу в этом наборе данных, несмотря на простой характер задачи. Наша работа показывает ограничения встраивания моделей в рамках существующей одновекторной парадигмы и призывает к будущим исследованиям по разработке методов, которые смогут устранить это фундаментальное ограничение. Авторы: Орион Веллер, Майкл Боратко, Ифтехар Наим, Джинхёк Ли Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
АГИ не придет!
Расследование Джека Морриса данных обучения GPT-OSS https://x.com/jxmnop/status/1953899426075816164?t=3YRhVQDwQLk2gouTSACoqA&s=09
Разрушение контекста: как увеличение входных токенов влияет на производительность LLM (анализ статьи)
Бумага: https://research.trychroma.com/context-rot. Аннотация: Обычно предполагается, что модели большого языка (LLM) обрабатывают контекст единообразно, то есть модель должна обрабатывать 10 000-й токен так же надежно, как и 100-й. Однако на практике это предположение не выполняется. Мы наблюдаем, что производительность модели значительно меняется при изменении длины входных данных даже при выполнении простых задач. В этом отчете мы оцениваем 18 LLM, включая современные модели GPT-4.1, Claude 4, Gemini 2.5 и Qwen3. Наши результаты показывают, что модели не используют свой контекст единообразно; вместо этого их производительность становится все более ненадежной по мере увеличения длины входных данных. Авторы: Келли Хонг, Антон Тройников, Джефф Хубер Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
Энергетические трансформаторы — масштабируемые ученики и мыслители (обзор статьи)
Статья: https://arxiv.org/abs/2507.02092. Код: https://github.com/alexiglad/EBT Веб-сайт: https://energy-based-transformers.github.io/ Аннотация: Методы вычисления времени вывода, аналогичные человеческому мышлению Системы 2, в последнее время стали популярными для улучшения характеристик моделей. Однако большинство существующих подходов страдают от нескольких ограничений: они специфичны для модальности (например, работают только с текстом), специфичны для проблемы (например, проверяемые области, такие как математика и программирование) или требуют дополнительного контроля/обучения в дополнение к неконтролируемому предварительному обучению (например, проверяющие или проверяемые вознаграждения). В этой статье мы задаемся вопросом: «Можно ли обобщить эти подходы к мышлению Системы 2 и разработать модели, которые учатся думать исключительно за счет обучения без учителя?» Интересно, что мы находим ответ «да», научившись явно проверять совместимость между входными данными и прогнозами-кандидатами, а затем переформулируя проблемы прогнозирования как оптимизацию по отношению к этому верификатору. В частности, мы обучаем энергетические трансформаторы (EBT) — новый класс энергетических моделей (EBM) — присваивать значение энергии каждой входной паре и паре прогнозов-кандидатов, что позволяет делать прогнозы посредством минимизации энергии на основе градиентного спуска до сходимости. Как в дискретной (текстовой), так и в непрерывной (визуальной) модальности мы обнаружили, что EBT масштабируется быстрее, чем доминирующий подход Transformer++ во время обучения, достигая до 35% более высокой скорости масштабирования в отношении данных, размера пакета, параметров, FLOP и глубины. Во время вывода EBT повышает производительность с помощью System 2 Thinking на 29% больше, чем Transformer++ при выполнении языковых задач, а EBT превосходят диффузионные преобразователи при шумоподавлении изображения, используя при этом меньшее количество прямых проходов. Кроме того, мы обнаруживаем, что EBT достигают лучших результатов, чем существующие модели, для большинства последующих задач при тех же или худших показателях предварительной подготовки, что позволяет предположить, что EBT обобщает лучше, чем существующие подходы. Следовательно, EBT представляют собой новую многообещающую парадигму масштабирования как обучающих, так и мыслительных способностей моделей. Авторы: Алекси Гладстон, Ганеш Нандуру, Мд Мофиджул Ислам, Пейшуан Хан, Хёнджон Ха, Аман Чадха, Илун Ду, Хенг Джи, Джундонг Ли, Тарик Икбал Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
О биологии большой языковой модели (часть 2)
Углубленный взгляд на публикацию в блоге Transformer Circuit от Anthropic Часть 1 здесь: https://youtu.be/mU3g2YPKlsA Дискорд здесь: https;//ykilcher.com/discord https://transformer-circuits.pub/2025/attribution-graphs/biology.html Аннотация: Мы исследуем внутренние механизмы, используемые Claude 3.5 Haiku — облегченной производственной моделью Anthropic — в различных контекстах, используя нашу методологию трассировки цепей. Авторы: Джек Линдси†, Уэс Герни*, Эммануэль Амейсен*, Брайан Чен*, Адам Пирс*, Николас Л. Тёрнер*, Крейг Ситро*, Дэвид Абрахамс, Шэн Картер, Бэзил Хосмер, Джонатан Маркус, Майкл Склар, Адли Темплтон Трентон Брикен, Каллум МакДугалл◊, Хоги Каннингэм, Томас Хениган, Адам Джермин, Энди Джонс, Эндрю Персик, Женьи Ци, Т. Бен Томпсон, Сэм Циммерман, Келли Ривуар, Томас Конерли, Крис Ола, Джошуа Бэтсон*‡ Ссылки: Домашняя страница: https://ykilcher.com Мерч: https://ykilcher.com/merch Ютуб: https://www.youtube.com/c/yannickilcher Твиттер: https://twitter.com/ykilcher Дискорд: https://ykilcher.com/discord LinkedIn: https://www.linkedin.com/in/ykilcher Если вы хотите поддержать меня, лучше всего поделиться контентом :) Если вы хотите поддержать меня материально (совершенно необязательно и добровольно, но многие об этом просили): Подпишитесь на звезду: https://www.subscribestar.com/yannickilcher Патреон: https://www.patreon.com/yannickilcher Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2 Лайткоин (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n