NVIDIA захватывает AI, Cursor на китайской модели, SambaNova бьет GPU: ML‑дайджест

Habr AI 27 мар 2026

Мартовские анонсы показывают, куда движется AI-инфраструктура: NVIDIA выпускает новые чипы, хранилища и инструменты оркестрации под agentic AI, стартап с $2 млрд дохода использует китайскую базовую модель под видом «frontier», а SambaNova обещает альтернативу GPU. Разбираемся, что ждёт мир нейросетей в ближайшие годы.

NVIDIA передаёт управление GPU в сообщество Kubernetes

NVIDIA объявила на KubeCon Europe 2026, что передаёт драйвер Dynamic Resource Allocation (DRA) для GPU в Cloud Native Computing Foundation. Это означает переход под управление upstream-сообщества Kubernetes, а не одного вендора.

DRA-драйвер критически важен для AI-нагрузок: он позволяет запрашивать и выделять GPU как полноценный ресурс с учётом топологии, памяти и межсоединений. Старая модель вида nvidia.com/gpu:N, где GPU рассматриваются как простые счётчики, плохо масштабируется под современные задачи.

Открытый драйвер уже поддерживает продвинутую оркестрацию: шеринг через MPS и Multi-Instance GPU, статическую MIG-разделку и ComputeDomains — абстракцию для безопасного обмена памятью между узлами по Multi-Node NVLink в системах вроде Grace Blackwell.

Одновременно NVIDIA при поддержке сообщества Confidential Containers добавила поддержку GPU в Kata Containers. Это позволяет запускать AI-ворклоады в средах с жёсткой изоляцией и защитой данных, встраивая аппаратное ускорение в конфиденциальные вычисления.

Компания также интегрировала в экосистему ряд сопутствующих проектов: систему ремедиации GPU-ошибок NVSentinel, агентный фреймворк AI Cluster Runtime, стек NVIDIA NemoClaw и рантайм OpenShell для безопасного запуска автономных агентов с eBPF-интеграцией. Планировщик KAI Scheduler вынесен в CNCF Sandbox, а Grove — Kubernetes-API для оркестрации AI-нагрузок на GPU-кластерах — открыт.

Важно, что NVIDIA подчёркивает: это не разовая «раздача исходников», а долгосрочная ставка на open source в enterprise-AI. Компания создаёт вместе с рынком единые стандарты для Kubernetes. Вместо закрытых решений разработчики получают открытые инструменты для гибкой сборки инфраструктур.

NVIDIA о раздельном инференсе LLM на Kubernetes

Традиционный монолитный сервер для LLM-инференса сталкивается с разницей в нагрузке между этапами prefill и decode.

NVIDIA опубликовала технический разбор, как разделить инференс-пайплайн на независимые сервисы: prefill (вычислительно затратный), decode (ограниченный пропускной способностью памяти) и роутинг. Это позволяет масштабировать каждую стадию отдельно и эффективнее использовать GPU.

Теперь вместо единого процесса, обрабатывающего весь жизненный цикл, роли работают как отдельные сервисы с разными оптимизациями по ресурсам, шардингу и батчингу. Prefill использует всю вычислительную мощь, decode — скорость HBM-памяти, а роутер распределяет KV-кеш для балансировки.

Базовый подход — LeaderWorkerSet: каждая роль (например, prefill на четырёх репликах с TP=2, decode на двух с TP=4) описывается отдельным ресурсом с атомарным планированием. Роутер работает как обычный деплоймент, но без единой координации топологии и синхронизации обновлений — affinity и HPA настраиваются вручную.

Продвинутый вариант — NVIDIA Grove API через PodCliqueSet. Вся конвейерная архитектура описывается единым шаблоном. В нём задаётся очередность запуска (startsAfter), автоскейлинг каждой роли по загрузке и физическое расположение оборудования для оптимизации NVLink.

Групповое планирование обеспечивает диспетчер KAI. Он автоматически создаёт PodCliques и PodGang, а также пусковые контейнеры для строгого порядка активации. Компонент PodCliqueScalingGroup предотвращает дробление групп при масштабировании, сохраняя нужные пропорции узлов.

NVIDIA развивает это как часть открытой экосистемы оркестрации AI. В основе — стандартные инструменты и собственные расширения вроде Grove и KAI. Стек оптимизирован под бизнес-задачи: независимое масштабирование сервисов, сохранение сетевой топологии и эффективное использование железа.

NVIDIA выпускает Dynamo 1.0 для масштабного инференса LLM

Вышла первая стабильная версия Dynamo — платформа для мультинодового инференса, позиционируемая как open source «ОС для AI-фабрик». Она фокусируется на оптимизации KV-кеша, динамическом планировании GPU и маршрутизации запросов.

Платформа поддерживает SGLang, TensorRT-LLM и vLLM. По данным SemiAnalysis (бенчмарк InferenceX), запуск DeepSeek R1 на Blackwell даёт семикратный прирост пропускной способности на одну GPU. Решение также лидирует в тестах MLPerf.

Ключевое нововведение — KV Cache Router с поддержкой «агентских подсказок» (agentic hints). Он анализирует задержки и ожидаемую длину ответа, приоритизируя сложные многошаговые сессии через закрепление кэша.

Также представлен KV Block Manager (KVBM), реализующий многоуровневое кэширование: GPU → CPU → SSD → S3. Компонент поддерживает глобальные события контекста и устанавливается через pip в движки инференса.

Принцип работы компонентов:

Маршрутизатор работает в exact mode (через ZMQ в префиксном дереве) или в режиме прогнозирования по истории. Поддерживается настройка размера блоков и оценка совпадения контекста (overlap scoring).
Менеджер блоков (KVBM) управляет выделением ресурсов, правилами вытеснения и удалённым доступом, минимизируя повторные вычисления при нехватке HBM.

Для мультимодальных задач реализовано разделение этапов кодирования, подготовки и генерации с кэшированием эмбеддингов в ОЗУ. Это ускоряет время до первого токена (TTFT) на 30% и повышает пропускную способность на 25% (на примере Qwen3-VL-30B на системах 200 ГБ). Добавлена нативная поддержка генерации видео (FastVideo, SGLang Diffusion).

NVIDIA представляет Groq 3 LPX для платформы Vera Rubin

После покупки Groq, NVIDIA представила стоечную систему Groq 3 LPX — первую для агентного AI с экстремально низкой задержкой генерации токенов.

Характеристики Groq 3 LPX:

256 чипов Groq 3 LPU в MGX ETL rack для Vera Rubin NVL72;
315 PFLOPS производительности;
128 ГБ SRAM;
40 ПБ/с пропускной способности памяти и 640 ТБ/с межчиповой связи.

LPX работает в паре с GPU Rubin: Rubin NVL72 обрабатывает prefill и attention — задачи с длинным контекстом, а LPX ускоряет decode — сверхбыстрые вычисления FFN и MoE-экспертов через разделение attention-FFN с передачей активаций.

Итог: энергоэффективность выросла в 35 раз на мегаватт, а доходность при работе с триллионными моделями — в десять раз по сравнению с GB200 NVL72.

Groq 3 LPU (7-й чип Vera Rubin) работает с векторами по 320 байт и объединяет тензорные, матричные, векторные и коммутационные блоки. В каждом чипе — 500 МБ SRAM без кэшей (размещение управляется компилятором). Для масштабирования — 96 линий C2C со скоростью 112 Гбит/с.

Характеристики вычислительного лотка (8 чипов, жидкостное охлаждение):

9,6 PFLOPS (FP8);
4 ГБ SRAM;
1,2 ПБ/с пропускной способности.

Архитектура открывает новые возможности: Rubin берёт на себя массовый инференс, а LPX обеспечивает генерацию «на уровне мысли» — более 1000 токенов в секунду на пользователя. Это позволяет реализовать полноценную совместную работу в реальном времени для кодовых ассистентов и голосовых интерфейсов. Dynamo оркестрирует связку GPU и LPX для decode.

Черновая генерация: LPX быстро набрасывает варианты, а Rubin их подтверждает. Доход с мегаватта у Rubin выше в пять раз, у LPX — в десять раз. Пользователь получает 400 токенов в секунду даже на длинных текстах.

Cursor Composer 2 оказался доработанной Kimi 2.5

Cursor заявила о запуске Composer 2 — «frontier-уровневой модели для кодирования». Однако пользователь X под ником Fynn выяснил, что это Kimi 2.5 — открытая модель Moonshot AI (Китай, Alibaba/HongShan) с дополнительным обучением через RL.

Американский стартап (оценка $29,3 млрд, $2 млрд годового дохода) не упомянул базовую модель в анонсе. Вице-президент Ли Робинсон признал: «1/4 вычислений — от базовой модели, остальное — наше обучение, бенчмарки сильно отличаются». Kimi подтвердила лицензионное партнёрство через Fireworks AI.

Сооснователь Аман Сангери извинился: «ошибка — не указать Kimi-базу в блоге, исправим в следующей модели».

NVIDIA запускает BlueField-4 STX для хранилищ AI-агентов

На GTC 2026 NVIDIA представила BlueField-4 STX — эталонную архитектуру для ускоренного хранения под агентные AI. Она решает проблему узкого места KV-кеша при длинных сессиях и больших контекстах.

Решение построено на BlueField-4 DPU и сетевых картах ConnectX-9 SuperNIC. По сравнению с CPU-хранилищами, такая связка выдаёт в пять раз больше токенов в секунду, работает в четыре раза энергоэффективнее и вдвое ускоряет загрузку данных.

Проблема: KV-кеш (пара ключ-значение для attention) растёт до сотен тысяч токенов, не помещается в память GPU и выгружается в ОЗУ/SSD через CPU, что вызывает задержки и простои. STX минует CPU через RDMA по Spectrum-X Ethernet: BlueField-4 напрямую управляет NVMe SSD, шифрует и проверяет KV-данные.

BlueField-4 STX станет частью платформы Vera Rubin, работая с Vera CPU, ConnectX-9, Spectrum-X Ethernet, DOCA и AI Enterprise. Первым продуктом на этой базе станет контекстное хранилище CMX.

Экосистему поддерживают DDN, Dell, HPE, IBM, NetApp, VAST Data, AIC, Supermicro и Quanta. Ранний доступ получили восемь облачных провайдеров, включая CoreWeave, Lambda, Mistral AI и Oracle Cloud. Поставки начнутся во второй половине 2026 года.

Как отметил CEO Дженсен Хуан: «Agentic AI is redefining what software can do — and the computing infrastructure behind it must be reinvented to keep pace».

UALink и DMTF объединяют стандарты для AI-инфраструктуры

В конце февраля UALink Consortium и DMTF объявили о партнёрстве. Цель — объединить высокопроизводительные системы для GPU и AI-ускорителей с инфраструктурным управлением через открытые протоколы Redfish, PLDM, SPDM.

UALink — открытый интерконнект для accelerator-to-accelerator связи с высокой пропускной способностью и низкой задержкой. Он объединяет GPU в единый ресурс для крупных моделей. DMTF предоставляет кросс-вендорные стандарты для обнаружения, телеметрии, конфигурации и защиты.

Партнёрство нацелено на комплексное управление фабриками ускорителей: внедрение Redfish-моделей для устройств на базе UALink и совместную работу в рабочих группах DMTF. Это обеспечит бесшовную интеграцию next-gen interconnect в стандартные фреймворки управления.

Итог: высокая производительность + зрелое управление = масштабируемые, безопасные AI-деплойменты в мультивендорных средах. Ожидается ускорение выпуска и внедрения новых спецификаций.

SambaNova анонсирует SN50 RDU для агентного инференса

SambaNova представила процессоры SN50 RDU и серверные стойки SambaRack SN50 — решения для AI-агентов, устраняющие главную проблему инференса: задержки при передаче данных.

В тестах на Llama 3.3 (70B) система показала в пять раз выше скорость и в три раза большую пропускную способность по сравнению с NVIDIA Blackwell B200, потребляя всего 20 кВт при воздушном охлаждении.

Агенты требуют мгновенного отклика для длинных цепочек вызовов — например, при генерации кода. Если быстрые режимы на GPU (как у Anthropic) стоят в шесть раз дороже, то SN50 позволяет запускать модели до 10 трлн параметров с контекстом в 10 млн токенов без потери скорости и переплат.

Технологические новшества:

Многоуровневая память (HBM + SRAM) позволяет менять модели за миллисекунды и кэшировать входящие токены, что резко сокращает время до первого ответа (TTFT).
Масштабируемость: стойка SambaRack на 16 чипов в пять раз мощнее предыдущей. Системы объединяются в кластеры до 256 ускорителей с пропускной способностью в несколько терабайт в секунду.

Архитектура Dataflow выстраивает граф модели как кратчайший путь для данных. Это исключает лишние обращения к памяти, снижая задержки и энергопотребление.

Поставки начнутся во второй половине 2026 года. Для провайдеров AI-услуг совокупная стоимость владения (TCO) будет в 8 раз ниже, чем на традиционных GPU-фермах.

Читать оригинал

NVIDIA захватывает AI, Cursor на китайской модели, SambaNova бьет GPU: ML‑дайджест

NVIDIA передаёт управление GPU в сообщество Kubernetes

NVIDIA о раздельном инференсе LLM на Kubernetes

NVIDIA выпускает Dynamo 1.0 для масштабного инференса LLM

NVIDIA представляет Groq 3 LPX для платформы Vera Rubin

Cursor Composer 2 оказался доработанной Kimi 2.5

NVIDIA запускает BlueField-4 STX для хранилищ AI-агентов

UALink и DMTF объединяют стандарты для AI-инфраструктуры

SambaNova анонсирует SN50 RDU для агентного инференса

NVIDIA захватывает AI, Cursor на китайской модели, SambaNova бьет GPU: ML‑дайджест

NVIDIA передает управление GPU в Kubernetes сообщество

NVIDIA о развертывании инференса LLM на Kubernetes

NVIDIA выпускает Dynamo 1.0 для масштабного инференса LLM

NVIDIA представляет Groq 3 LPX для Vera Rubin платформы

Cursor Composer 2 оказался доработанным Kimi 2.5

NVIDIA запускает BlueField‑4 STX для хранилищ AI-агентов

UALink и DMTF объединяют стандарты для AI‑инфраструктуры

SambaNova анонсирует SN50 RDU для агентного инференса