Обычно к середине весны рабочий ритм устаканивается, превращаясь в привычную череду тасков, созвонов и коммитов. Единственное, что мешает этой стабильности — регулярные апдейты технологий, которые вынуждают снова обновлять свой набор инструментов. Этот месяц не стал исключением: OpenAI выпустили GPT-5.4 с нативным доступом к компьютеру, Google ответили шустрой Gemini 3.1 Flash-Lite, а Anthropic дали Claude больше свободы на рабочем столе.
Но одними обновлениями чат-ботов дело не ограничилось. В этом выпуске рассказываем, как Google сделали эмбеддинги мультимодальными, действительно ли MiniMax M2.7 участвовала в собственной разработке и чем Claude удивил самого Дональда Кнута. А на десерт — традиционная подборка новых утилит и свежих исследований. Давайте вместе смотреть, что принес нам март!
Свежие релизы
- OpenAI: GPT-5.3 Instant, GPT-5.4 с computer use, GPT-5.4 mini и nano, ChatGPT for Excel, Codex Security
- Anthropic: перенос памяти через CTRL+C/V, Code Review в Claude Code, Claude Cowork
- Google: Gemini 3.1 Flash-Lite, Gemini Embedding 2, Lyria 3 Pro, Gemini 3.1 Flash Live
- Microsoft: Phi-4-reasoning-vision-15B, MAI-Image-2
- Mistral: Mistral Small 4, Mistral Forge
- MiniMax: M2.7 с автономным развитием
Новости индустрии
- Anthropic против Пентагона: второй акт
- «Cancel ChatGPT»: пользователи массово отписываются
- Инсайдерский трейдинг на Polymarket выявлен в OpenAI
- Claude Opus 4.6 впечатлил Дональда Кнута
- Nvidia больше не инвестирует в OpenAI и Anthropic
- OpenAI давит на private equity ради рынка enterprise
- Nvidia делает ставку на стартап Миры Мурати
- OpenAI признала зависимость от Microsoft перед IPO
- Sora закрывается: OpenAI сворачивает видео-сервис и сделку с Disney
- История спасения собаки от рака с помощью ИИ
Полезные инструменты
- Автоматизация пайплайнов и MLOps
- Среды разработки и локальные ИИ
- Работа с данными и научные исследования
- Продуктивность и утилиты
- Бизнес, дизайн и медиа
Исследования на почитать
- Архитектура и механика моделей
- Обучение, дистилляция и файнтюнинг
- Оптимизация инференса и работа с памятью
- Агенты, рассуждение и написание кода
- Мультимодальность и понимание видео
GPT-5.3 Instant: меньше морали и галлюцинаций
OpenAI прислушались к жалобам пользователей на излишнюю морализаторскую манеру GPT-5.2. В новой версии GPT-5.3 Instant модель перестала вести себя как инструктор по технике безопасности — она реже отказывает без причины и отвечает по существу.
Фразы вроде «остановись и выдохни» убраны — в блоге OpenAI их назвали «кринжовыми». Улучшена работа с веб-поиском: модель теперь лучше синтезирует найденное, а не просто вываливает ссылки. По внутренним данным, галлюцинации снизились на 26,8% при работе с вебом и на 19,7% без него.
Обновлённую версию уже можно использовать в чате и через API. GPT-5.2 отправлена в раздел Legacy и будет поддерживаться до июня 2026 года.
GPT‑5.4: computer use и агентная инфраструктура
OpenAI представили GPT-5.4 Thinking и Pro — модели с нативной поддержкой computer use. Они могут кликать по интерфейсам, вводить текст и работать в браузере через библиотеки вроде Playwright. На бенчмарке OSWorld-Verified результат составил 75% — выше, чем у человека (72,4%) и GPT-5.2 (47,3%).
В API появился Tool Search: теперь модель получает лишь краткую сводку инструментов, а полное описание подтягивается только при вызове. На тесте с 36 MCP-серверами потребление токенов упало на 47% при сохранении качества.
Контекстное окно расширено до 1 млн токенов (в экспериментальном режиме в Codex). В веб-интерфейсе ChatGPT модель теперь показывает план своих действий до начала генерации.
Цены: $2,50/$15 за миллион токенов (вход/выход) для базовой версии, $30/$180 — для Pro. OpenAI утверждает, что благодаря оптимизациям общие расходы снизятся.
GPT-5.4 mini и nano: меньше, быстрее, дешевле
OpenAI выпустили облегчённые версии GPT-5.4: mini и nano. Mini позиционируется как баланс скорости и качества. На бенчмарке SWE-bench Pro она показала 54,4% (против 57,7% у GPT-5.4), но работает вдвое быстрее и стоит $0,75/$4,50 за миллион токенов.
Nano — ультрабюджетная модель для простых задач вроде классификации. Стоимость — $0,20/$1,25. Mini доступна в API, Codex и чате, nano — только через API.
ChatGPT for Excel: больше никаких мучений с формулами
OpenAI запустили надстройку ChatGPT for Excel, работающую на базе GPT-5.4. Модель понимает структуру таблиц, зависимости между ячейками и может писать или обновлять формулы по текстовому запросу.
Она способна собрать финансовую модель с нуля, подтянуть данные и объяснить, почему изменилась итоговая цифра. Перед изменениями ИИ запрашивает подтверждение, а все действия можно отменить.
Добавлены интеграции с Moody's, Dow Jones Factiva, MSCI. Пока бета, доступна в США, Канаде и Австралии для Business, Enterprise и платных планов. Поддержка Google Sheets обещана позже.
Codex Security: агент для поиска уязвимостей
OpenAI открыли Codex Security — агент для поиска уязвимостей в коде. Он анализирует репозиторий, строит кастомную модель угроз и ищет баги с пониманием контекста. Находки валидируются в изолированной среде.
За 30 дней бета-тестирования агент просканировал более 1,2 млн коммитов, выявив 792 критические и 10 561 высокоприоритетную уязвимость. Уровень ложных срабатываний снизился на 50%, «шум» — на 84%.
OpenAI уже передали данные об уязвимостях мейнтейнерам OpenSSH, GnuTLS, PHP, Chromium. 14 CVE получили официальные идентификаторы. Инструмент в research preview, первые 30 дней бесплатны для Pro, Business, Enterprise и Edu. Для мейнтейнеров крупных open-source проектов планируется отдельная программа поддержки.
Перенос памяти в Claude через CTRL+C, CTRL+V
Anthropic упростили переход на Claude. Пользователь может вставить специальный промпт в ChatGPT или другой сервис, получить выгрузку своих данных и импортировать её в память Claude.
Это не API, а просто хорошо составленный запрос на экспорт. Насколько он эффективен — зависит от того, честно ли другая модель хранит и отдаёт данные.
Google выпустили аналогичную функцию, работающую по тому же принципу.
Code Review в Claude Code: ревью без пропусков
Anthropic запустили Code Review в Claude Code — систему автоматического ревью pull request'ов. При открытии PR несколько агентов параллельно анализируют изменения в контексте всей кодовой базы, ищут баги, проверяют находки в изолированной среде и выдают сводный комментарий с инлайн-замечаниями.
По данным компании, доля PR с реальными замечаниями выросла с 16% до 54%. Специалисты соглашаются с ИИ в 99% случаев. В одном случае бот нашёл однострочное изменение, которое могло сломать аутентификацию.
Средняя стоимость ревью — $15–$25, время — около 20 минут. Для активно развивающихся проектов это может быть дорого. Пока доступно в research preview для Team и Enterprise через CLAUDE.md и REVIEW.md.
Claude Cowork: ваш компьютер теперь в заложниках (ради вашего же блага)
Anthropic расширили функцию Computer Use в приложениях Claude Cowork и Claude Code. ИИ получает полный доступ к рабочему столу и может работать с приложениями напрямую — открывать браузер, кликать по кнопкам, запускать IDE.
Фича интегрирована с Dispatch: можно написать в приложении на телефоне, что нужно сделать, и ИИ выполнит задачу на вашем компьютере дома.
Технология пока сыровата: сложные задачи требуют повторных попыток, а работа через экран медленнее прямых интеграций. Для безопасности встроено сканирование на prompt injection, некоторые приложения закрыты по умолчанию, а процесс можно остановить кнопкой «Стоп».
Доступно только для macOS на тарифах Pro и Max.
Gemini 3.1 Flash-Lite: дешевле, быстрее и с рубильником для размышлений
Google представили Gemini 3.1 Flash-Lite — самую быструю и дешёвую модель в линейке Gemini 3. Стоимость — $0,25/$1,50 за миллион токенов.
По заявлениям Google, она превосходит предыдущую версию 2.5 Flash по качеству и скорости: время до первого токена сократилось в 2,5 раза, общая скорость вывода выросла на 45%.
Результаты на бенчмарках: 1432 Elo на LMArena, 86,9% на GPQA Diamond. В AI Studio и Vertex AI добавлен уровень мышления — можно регулировать, сколько ресурсов модель тратит на размышления. Доступно в режиме preview.
Gemini Embedding 2: один вектор для всего
Google выпустили Gemini Embedding 2 — первую нативно мультимодальную модель эмбеддингов. Она обрабатывает текст (до 8192 токенов), изображения (до 6), видео (до 2 минут) и сырое аудио, укладывая всё в единое векторное пространство.
Модель понимает чередующийся контент: можно передать текст и картинки вперемешку, и она уловит контекст.
Поддерживается Matryoshka Representation Learning (MRL): размерность вектора можно динамически уменьшать до 1536 или 768 — для экономии места в базе. Модель доступна в публичном превью через Gemini API и Vertex AI.
Lyria 3 Pro: 3 минуты музыки
Google обновили музыкальную модель Lyria 3 до версии Pro. Главное новшество — увеличение длины треков до 3 минут и появление «структурной осознанности».
Теперь модель понимает куплеты, припевы, интро и бриджи. Можно указать тайминг и переходы в промпте, собирая композицию как конструктор.
Lyria 3 Pro доступна через AI Studio, Gemini API, Vertex AI, в платной версии Gemini и в приложении Vids. Также интегрирована в ProducerAI.
Gemini 3.1 Flash Live: ИИ-голос, который понимает ваши вздохи
Google представили Gemini 3.1 Flash Live — модель для голосового взаимодействия в реальном времени. Она реагирует на акустические нюансы: высоту тона, темп речи, паузы и перебивания.
Если пользователь нервничает, ИИ подстраивает тон, не ведя себя как робот из колл-центра. На бенчмарке ComplexFuncBench Audio модель набрала 90,8%, на Scale AI's Audio MultiChallenge — 36,1% в режиме thinking.
Для пользователей это означает более быстрый отклик и удержание контекста вдвое дольше.
Phi-4-reasoning-vision-15B: компактная модель с избирательным мышлением
Microsoft выпустили Phi-4-reasoning-vision-15B — мультимодальную модель на 15 млрд параметров, обученную всего на 200 млрд мультимодальных токенов (в отличие от триллиона у конкурентов).
Она работает с текстом, изображениями, документами и интерфейсами, влезая в скромное железо. В основе — энкодер SigLIP-2 (вариант Naflex), который динамически адаптирует количество патчей под изображение. На ScreenSpot-Pro он показывает 17,5% против 9,4% у Dynamic S2.
Модель использует подход 80/20: 80% данных — для быстрых ответов, 20% — для цепочек рассуждений. Она сама решает, когда нужно думать, а когда — отвечать сразу. Пользователь может принудительно включить или отключить режим через токены
Модель доступна на HuggingFace и Microsoft Foundry под пермиссивной лицензией.
MAI-Image-2: обновление генеративной модели Microsoft
Microsoft AI (MAI) представили MAI-Image-2 — новую версию своей генеративной модели. Улучшены фотореализм кожи, освещение и, главное, рендеринг текста.
Модель стабильно генерирует читабельный текст: от вывесок до инфографик и постеров со сложной версткой. По заявлению Microsoft, она вошла в топ-3 на Arena.ai.
Генератор доступен в MAI Playground, скоро появится в API на Microsoft Foundry. Компания также запустила кластер на базе Nvidia GB200, что обеспечит мощности для следующих поколений моделей.
Mistral Small 4: один за всех и все за одного
Mistral объединили свои специализированные модели — Magistral, Pixtral, Devstral — в одну универсальную Small 4. Это MoE-архитектура с 128 экспертами, 119 млрд параметров суммарно и 6 млрд активных при инференсе. Контекст — 256 тыс. токенов.
Модель принимает текст и изображения. Параметр reasoning_effort позволяет переключать режимы: от быстрых ответов до глубокого chain-of-thought.
На LiveCodeBench Small 4 с reasoning обходит GPT-OSS 120B, производя на 20% меньше токенов. Модель вышла под Apache 2.0 и доступна на HuggingFace, в API Mistral и через NVIDIA NIM.
Mistral Forge: корпоративный конструктор моделей
Mistral запустили Forge — платформу для обучения моделей на внутренних корпоративных данных. Вместо RAG компания может обучить модель напрямую через pretraining, post-training и RL.
На выходе — модель, знающая внутренний словарь, процессы и ограничения компании. Среди партнёров — ASML, Ericsson, Европейское космическое агентство, оборонные структуры Сингапура.
Технических деталей пока мало. Ожидаем первых кейсов.
MiniMax M2.7: самостоятельная модель
Китайский стартап MiniMax представил модель M2.7, способную к автономному развитию. Она интегрирована с агентными механиками и может самостоятельно дописывать себе «обвязку» для улучшения результатов.
На бенчмарке MLE Bench Lite модель участвовала в 22 соревнованиях по машинному обучению. За 24 часа на одной GPU A30 она выиграла 9 золотых медалей, показав винрейт 66,6% — на уровне Gemini-3.1 и близко к Opus-4.6 и GPT-5.4.
В реальных сценариях M2.7 анализировала метрики мониторинга, искала пропущенные миграции индексов и даже создавала индексы в неблокирующем режиме, прежде чем отправить пулл-реквест.
Модель поддерживает Agent Teams — мультиагентное взаимодействие, где разные ИИ-роли спорят для лучшего результата. Она умеет работать с годовыми отчётами, строить финансовые прогнозы в Excel и готовить презентации в PowerPoint.
На бенчмарке GDPval-AA M2.7 набрала 1495 Elo, обогнав всех опенсорсных конкурентов.
Anthropic против Пентагона: второй акт
Конфликт между Anthropic и Пентагоном перерос в открытую войну. В феврале Дональд Трамп назвал Anthropic «радикально левой компанией» и запретил федеральным ведомствам использовать её технологии. Министр обороны Пит Хегсет объявил стартап «риском для цепочки поставок».
Однако через несколько часов после запрета военные продолжили использовать Claude во время ударов по Ирану. Модель была глубоко интегрирована в боевые системы через Palantir. Пентагону пришлось признать, что вывести ИИ из процессов невозможно, и ввести шестимесячный переходный период.
Anthropic подала в суд на администрацию Трампа, требуя признать запрет незаконным. Федеральная судья Рита Лин назвала действия Пентагона «тревожными» и похожими на попытку «покалечить компанию».
Сэм Альтман воспользовался моментом и заключил сделку с Пентагоном на условиях с жёсткими гарантиями. Дарио Амодей назвал это «театром безопасности».
«Cancel ChatGPT»: пользователи голосуют отписками
Пользователи массово отписываются от ChatGPT. Движение #CancelChatGPT набрало силу после того, как стало известно, что президент OpenAI Грег Брокман с женой пожертвовал $25 млн в MAGA Inc. Трампа.
Добавил масла в огонь и факт, что ICE использует GPT-4 для скрининга резюме. Кульминацией стало соглашение OpenAI с Минобороны США. На фоне принципиального отказа Anthropic сотрудничать с военными, это выглядело как «продажа принципов».
Количество удалений приложения ChatGPT выросло на 295% за сутки. Приложение Claude вырвалось на первое место в американском App Store, количество загрузок увеличилось в 20 раз по сравнению с январём.
Инсайдерский трейдинг добрался до OpenAI
OpenAI уволила разработчика за использование конфиденциальной информации для ставок на Polymarket. CEO по приложениям Фиджи Симо сообщила об этом внутри компании, не называя имени.
Аналитики Unusual Whales нашли минимум 77 сомнительных позиций с 60 криптокошельков, которые удачно ставили на релизы Sora, GPT-5 и возвращение Сэма Альтмана. Polymarket работает на блокчейне Polygon, что обеспечивает анонимность транзакций.
Это первый задокументированный случай увольнения в крупной компании за инсайдерскую торговлю на предсказательных рынках.
Claude Opus 4.6 удивил даже Дональда Кнута
Дональд Кнут, автор «Искусства программирования», опубликовал эссе, в котором признал, что должен пересмотреть своё отношение к ИИ. Причиной стала задача о направленных гамильтоновых циклах, которую он не мог решить несколько недель.
Его друг скормил условие Claude Opus 4.6. Модель провела 31 исследовательскую итерацию, переформулировала задачу через «слоевые координаты» и написала алгоритм на Python, нашедший общее решение для всех нечётных размерностей.
Кнут вручную проверил доказательство. Позже GPT-5.3-Codex нашёл решение для чётных размерностей, а GPT-5.4 Pro написал 14-страничную статью с обоснованием. Кнут заключил: «Мы живём в очень интересные времена. [...] Да пребудет с вами сила».
Nvidia больше не хочет «кормить» OpenAI и Anthropic
Дженсен Хуанг заявил, что Nvidia больше не будет инвестировать в OpenAI и Anthropic. Официально — из-за их подготовки к IPO. На деле — компания хочет дистанцироваться от токсичных активов.
Раньше сделки были круговыми, но в последнем раунде доля Nvidia в OpenAI сократилась с $100 млрд до $30 млрд. Nvidia выгоднее зарабатывать на железе, чем надувать пузырь.
Ещё одна причина — репутационные риски. Anthropic критикует продажу чипов в Китай, сравнивая это с «продажей ядерного оружия Северной Корее». Это прямой удар по Nvidia.
Энтерпрайз любой ценой
Чтобы не уступить Anthropic, OpenAI перешла к агрессивному маркетингу. Компания предлагает private equity фондам совместные предприятия с гарантией 17,5% доходности и приоритетным доступом к новым моделям.
Цель — переложить затраты на внедрение на плечи партнёров и создать вендор-лок. Однако не все фонды согласны. Например, Thoma Bravo отказался, отметив сомнительную долгосрочную прибыльность.
Nvidia делает ставку на стартап Миры Мурати
Дженсен Хуанг объявил о партнёрстве с Thinking Machines Lab — стартапом Миры Мурати. Nvidia поставит чипы и станет прямым инвестором в создание вычислительной инфраструктуры гигаваттного масштаба на базе систем Vera Rubin.
Для Мурати это эксклюзивный доступ к новейшей архитектуре. Для Nvidia — возможность вырастить лояльного чемпиона с нуля.
Откровения перед IPO: OpenAI признала зависимость от Microsoft
OpenAI рассылает инвесторам документы перед IPO, включая раздел с рисками. Компания впервые официально назвала зависимость от Microsoft «фундаментальной угрозой».
Microsoft владеет 27% коммерческой части OpenAI и предоставляет основные вычислительные мощности. Без них бизнес может рухнуть.
В документах упоминаются и другие риски: конфликт вокруг Тайваня, обязательства по покупке мощностей на $665 млрд до 2030 года, суды с Илоном Маском и 14 исков от семей погибших, обвиняющих ChatGPT в доведении до самоубийства.
Это не просто юридическое раскрытие — это портрет компании с долгами размером с ВВП средней страны и критической зависимостью от партнёра.
Sora уходит на покой: OpenAI закрывает видео-сервис и сворачивает сделку с Disney
OpenAI закрывает Sora и сворачивает партнёрство с Disney на $1 млрд. Причина — фокус на робототехнике и агентных системах.
За всё время Sora принесла $1,4 млн выручки, в то время как ChatGPT — $1,9 млрд. Эксперты называют Sora «чёрной дырой для ресурсов» с минимальной монетизацией и высокими юридическими рисками.
Disney ищет новых партнёров. Инсайдеры подтвердили, что деньги по сделке так и не перешли. Проект, который должен был «отправить Голливуд на пенсию», провалился из-за экономики.
Когда нейросети реально работают во благо: история спасения собаки от рака
Пол Конингем из Сиднея спас свою собаку Рози от рака тучных клеток с помощью ИИ. После неудачной операции и химиотерапии он использовал ChatGPT для составления плана лечения.
Он заплатил $3000 за секвенирование ДНК, использовал биоинформатические пайплайны, AlphaFold и алгоритмы подбора препаратов. Учёные UNSW нашли подходящий иммунотерапевтический препарат, но фармкомпания отказалась его предоставлять.
Лаборатория предложила альтернативу — кастомную мРНК-вакцину. На основе данных Пола был синтезирован дизайн в виде наночастиц. После трёх месяцев бюрократии Рози получила инъекции в декабре 2025 года.
Опухоль уменьшилась вдвое. Собака, которой давали несколько месяцев жизни, снова начала гоняться за кроликами. Учёные обсуждают потенциал такого симбиоза гражданской науки и ИИ в онкологии.
Автоматизация пайплайнов и MLOps
- Symphony: опенсорсный оркестратор от OpenAI. Берёт задачи из Linear и выдаёт готовые пулл-реквесты с анализом сложности.
- Autoresearch: автономный агент от Андрея Карпаты. Сам итерирует обучение маленькой LLM на одной GPU, правит train.py, запускает сессии и сохраняет изменения по метрикам.
- Skore: инструмент для оценки ML-моделей из scikit-learn. Генерирует отчёты, визуальные диагностики и сводки кросс-валидации.
- confingy: библиотека для отслеживания конфигурации экспериментов через аргументы конструктора, без YAML-файлов.
Среды разработки и локальные ИИ
- Unsloth Studio: локальный no-code инструмент для подготовки данных, файнтюнинга и инференса LLM. Обучает модели в 2 раза быстрее с экономией до 70% VRAM.
- DeerFlow 2.0: рантайм для иерархий ИИ-агентов на базе LangGraph. Главный агент делегирует задачи суб-агентам в изолированных Docker-контейнерах.
- Enia Code: ИИ-ассистент, который изучает кодовую базу и проактивно подсвечивает ошибки под стандарты команды.
- Claude Code Game Studios: шаблон для виртуальной геймдев-студии в Claude Code. Организует 48 специализированных агентов для совместной разработки игр.
Работа с данными и научными исследованиями
- Briefs от AlphaXiv: лента научных статей в стиле X. Показывает графики и выводы, с возможностью чата с ИИ-ассистентом.
- Ziptable: минималистичный сервис для шеринга небольших датасетов. Кодирует данные прямо в URL.
- kuva: UNIX-нативная утилита для научной визуализации. Принимает данные через shell и рендерит графики в терминал.
- Claude Skills for R Users: набор инструкций для Claude, обучающих современным практикам R: tidyverse, Quarto, Shiny, чек-листы релизов.
Продуктивность и утилиты
- Glaze: утилита от Raycast для быстрого создания десктопных приложений под macOS по описанию.
- Scheduled: агент в Gmail. Читает письма, проверяет календарь и сам отвечает на запросы о встречах.
- MuleRun: персональный AI-агент на облачной VM. Работает в фоне, накапливает контекст о привычках пользователя.
- Voxtral WebGPU: браузерный сервис для транскрибации аудио в реальном времени. Работает локально через WebGPU без отправки данных на сервер.
Бизнес, дизайн и медиа
- Fundable: поисковик стартапов и инвесторов через естественный язык. Можно настроить алерты по критериям.
- Cardboard: видеоредактор. Принимает исходники и текстовое описание монтажа, строит черновую нарезку, поддерживает поиск по клипам.
- Rekreate: генератор статических продуктовых фотографий для маркетплейсов с соблюдением стилистики бренда.
- Kodo: ИИ-генератор, выдающий полностью редактируемые макеты постеров, слайдов и графики для соцсетей по описанию.
Архитектура и механика моделей
Внимание вместо накопления: MoonshotAI предложили заменить остаточные соединения механизмом внимания между блоками. Это ускоряет сходимость и снижает вычисления на 25%.
Трудности обратного распространения: исследователи обнаружили, что низкоранговый softmax на выходе уничтожает до 99% градиентов, тормозя обучение.
Эксклюзивное внутреннее внимание: новый метод убирает из внимания компонент, выровненный с вектором значений токена. Это заставляет модель сильнее опираться на контекст и снижает перплексию.
Всплеск, разреженность и сток: учёные изучили природу «раковин внимания» (attention sinks) и показали, что их можно устранить на этапе претрейна без потери качества.
Прогрессивный разогрев остаточных связей: авторы плавно масштабируют вес остаточных соединений от нуля до единицы. Это стабилизирует ранние слои и улучшает масштабирование архитектур от 71 млн до 7 млрд параметров.
Обучение, дистилляция и файнтюнинг
Дистилляция байесовского мышления в LLM: Google научили модели обновлять убеждения по ходу диалога, дистиллируя логику автомата Байеса. Модель переносит этот принцип на незнакомые задачи.
Doc-to-LoRA: SakanaAI предлагает генерировать LoRA-адаптеры через гиперсеть. Документ кодируется и превращается в адаптер до 50 МБ без градиентных обновлений. Сохраняет 82,5% точности SQuAD при контекстах до 40K токенов.
Text-to-LoRA: текстовое описание задачи генерирует матрицы A и B для всех слоёв. В zero-shot на незнакомых задачах метод набирает 67,7 баллов против 66,3 у мультизадачной LoRA.
Обучение диффузионных моделей без внешних энкодеров: исследователи из Black Forest Labs и MIT предложили асимметричное зашумление токенов. Метод использует EMA и впервые превзошёл модели с внешними энкодерами.
Сглаживание градиентов политики: новый алгоритм умножает градиент на сигмоиду, чтобы штрафовать маловероятные действия. Это делает обучение с подкреплением стабильным, как при кросс-энтропии.
Плотные скопления экспертов вокруг предобученных весов: рядом с базовыми весами скрыта сеть узкоспециализированных конфигураций. Случайная выборка и ансамблирование улучшают модель без пост-тренинга.
Семантические трубки: добавлена вспомогательная функция потерь, минимизирующая отклонения скрытых состояний от геодезических траекторий. Это повышает соотношение сигнала к шуму и эффективность обучения при ограниченных данных.
Оптимизация инференса и работа с памятью
Векторизация префиксных деревьев для LLM: инженеры YouTube и Google DeepMind перенесли логику ограничений в статическую разреженную матрицу. Это ускорило декодирование в 948 раз на TPU.
Сжатие KV-кэша без потери точности: Google разработали алгоритм квантования с геометрическим выравниванием и кодированием ошибки. При 3 битах — сжатие в 6 раз; при 4 битах — ускорение attention-логитов в 8 раз на H100.
Запись контекста градиентным спуском во время инференса: метод оптимизирует небольшую группу токенов памяти через самоконтролируемую функцию потерь. Это позволяет компактно упаковывать огромный контекст за несколько шагов.
Управление активациями через гиперсети: гиперсеть генерирует управляющие векторы поверх дообученной модели. Подход стабильнее и лучше масштабируется, чем прямое вмешательство.
Гибридная память для динамических сцен: память видеомоделей разделена на архив для фона и активный трекер для движущихся объектов. Это предотвращает «забывание» персонажей при перекрытии.
Управление агентами через гибридную память: RL-обучение параметров модели и обновление внешней памяти в процессе взаимодействия. Агент использует память для расширения исследования, улучшая результаты на бенчмарках воплощённого обучения.
Агенты, рассуждение и написание кода
LLM-агенты в поиске лекарств от рака: Стэнфорд и PHD Biosciences использовали 37 тыс. виртуальных исследователей для анализа клинических испытаний. Агенты предложили метрику на базе клеточной специфичности и дизайн ADC-препарата против опухолей.
Агентное рассуждение при работе с кодом: LLM-агентам дают полуформальные сертификаты с трассировкой кода и доказательствами. Это улучшает локализацию багов и верификацию патчей без запуска кода.
Качество кода от LLM глазами мейнтейнеров: ручная проверка почти 300 пулл-реквестов показала, что около половины решений, прошедших SWE-bench, были бы отклонены живыми разработчиками из-за низкого качества, поломки кода или ошибок в логике.
Помогают ли агентам готовые навыки?: анализ показал, что стандартные скиллы дают прирост всего на 1,2% к успешности. В проектах со специфическими конвенциями они часто сбивают модель с толку.
Как рассуждение открывает параметрическую память: цепочка мыслей (CoT) помогает модели извлекать связанные факты, используя токены как вычислительный буфер. Однако это повышает риск галлюцинаций, требуя фильтрации траекторий.
Проблема управляемости логических цепочек: на бенчмарке CoT-Control выяснилось, что модели плохо следуют инструкциям по корректировке стиля размышлений. Степень упрямства зависит от размера сети, времени на обдумывание и метода обучения.
Мультимодальность и понимание видео
Механика рассуждений в видеомоделях: логика диффузионных видеомоделей выстраивается не по кадрам, а по шагам зашумления (Chain-of-Steps). На ранних шагах модель исследует варианты, на поздних — сходится к ответу.
Претрейн на смеси текста, изображений и видео: обучение единой MoE-модели на разных данных формирует у неё глубокое понимание физики мира. Визуальным энкодерам нужно больше данных, чем текстовым.
Универсальная диффузия для любых модальностей: дискретная маскированная диффузия одинаково хорошо работает с текстом, картинками и аудио. Прогрессивное обучение позволило обойти авторегрессионные системы.
Плотные признаки в видео через самообучение: новая версия JEPA использует предиктивную функцию потерь и глубокий иерархический контроль. Это улучшает сегментацию, оценку глубины и планирование в робототехнике.
Внутренние рассуждения диффузионных моделей: модель прокручивает цепочки рассуждений в латентном пространстве. Это позволило решать визуальные головоломки: лабиринты, судоку, задачи коммивояжера.
Громадный бенчмарк логики в видео: исследователи собрали более миллиона клипов по 200 задачам в пяти когнитивных направлениях. Метрики моделей растут с данными, но всё ещё далеки от уровня человека.
Заключение
Скорость выхода новых моделей и фреймворков вызывает ощущение, что мы ничего не успеваем. Но иногда полезно закрыть IDE, отложить новости про SOTA-бенчмарки и выйти на улицу — там, говорят, весна, тепло и графика отличная, пусть и без трассировки лучей.
На этом у нас всё. Делитесь в комментариях, что из новинок уже успели потрогать руками, а что так и осталось лежать в закладках. Увидимся через месяц!