Мартовские анонсы показывают, куда движется AI-инфраструктура: NVIDIA выпускает новые чипы, хранилища и инструменты оркестрации под agentic AI, стартап с $2 млрд дохода использует китайскую базовую модель под видом «frontier», а SambaNova обещает альтернативу GPU. Разбираемся, что ждёт мир нейросетей в ближайшие годы.
NVIDIA передаёт управление GPU в сообщество Kubernetes
NVIDIA объявила на KubeCon Europe 2026, что передаёт драйвер Dynamic Resource Allocation (DRA) для GPU в Cloud Native Computing Foundation. Это означает переход под управление upstream-сообщества Kubernetes, а не одного вендора.
DRA-драйвер критически важен для AI-нагрузок: он позволяет запрашивать и выделять GPU как полноценный ресурс с учётом топологии, памяти и межсоединений. Старая модель вида nvidia.com/gpu:N, где GPU рассматриваются как простые счётчики, плохо масштабируется под современные задачи.
Открытый драйвер уже поддерживает продвинутую оркестрацию: шеринг через MPS и Multi-Instance GPU, статическую MIG-разделку и ComputeDomains — абстракцию для безопасного обмена памятью между узлами по Multi-Node NVLink в системах вроде Grace Blackwell.
Одновременно NVIDIA при поддержке сообщества Confidential Containers добавила поддержку GPU в Kata Containers. Это позволяет запускать AI-ворклоады в средах с жёсткой изоляцией и защитой данных, встраивая аппаратное ускорение в конфиденциальные вычисления.
Компания также интегрировала в экосистему ряд сопутствующих проектов: систему ремедиации GPU-ошибок NVSentinel, агентный фреймворк AI Cluster Runtime, стек NVIDIA NemoClaw и рантайм OpenShell для безопасного запуска автономных агентов с eBPF-интеграцией. Планировщик KAI Scheduler вынесен в CNCF Sandbox, а Grove — Kubernetes-API для оркестрации AI-нагрузок на GPU-кластерах — открыт.
Важно, что NVIDIA подчёркивает: это не разовая «раздача исходников», а долгосрочная ставка на open source в enterprise-AI. Компания создаёт вместе с рынком единые стандарты для Kubernetes. Вместо закрытых решений разработчики получают открытые инструменты для гибкой сборки инфраструктур.
NVIDIA о раздельном инференсе LLM на Kubernetes
Традиционный монолитный сервер для LLM-инференса сталкивается с разницей в нагрузке между этапами prefill и decode.
NVIDIA опубликовала технический разбор, как разделить инференс-пайплайн на независимые сервисы: prefill (вычислительно затратный), decode (ограниченный пропускной способностью памяти) и роутинг. Это позволяет масштабировать каждую стадию отдельно и эффективнее использовать GPU.
Теперь вместо единого процесса, обрабатывающего весь жизненный цикл, роли работают как отдельные сервисы с разными оптимизациями по ресурсам, шардингу и батчингу. Prefill использует всю вычислительную мощь, decode — скорость HBM-памяти, а роутер распределяет KV-кеш для балансировки.
Базовый подход — LeaderWorkerSet: каждая роль (например, prefill на четырёх репликах с TP=2, decode на двух с TP=4) описывается отдельным ресурсом с атомарным планированием. Роутер работает как обычный деплоймент, но без единой координации топологии и синхронизации обновлений — affinity и HPA настраиваются вручную.
Продвинутый вариант — NVIDIA Grove API через PodCliqueSet. Вся конвейерная архитектура описывается единым шаблоном. В нём задаётся очередность запуска (startsAfter), автоскейлинг каждой роли по загрузке и физическое расположение оборудования для оптимизации NVLink.
Групповое планирование обеспечивает диспетчер KAI. Он автоматически создаёт PodCliques и PodGang, а также пусковые контейнеры для строгого порядка активации. Компонент PodCliqueScalingGroup предотвращает дробление групп при масштабировании, сохраняя нужные пропорции узлов.
NVIDIA развивает это как часть открытой экосистемы оркестрации AI. В основе — стандартные инструменты и собственные расширения вроде Grove и KAI. Стек оптимизирован под бизнес-задачи: независимое масштабирование сервисов, сохранение сетевой топологии и эффективное использование железа.
NVIDIA выпускает Dynamo 1.0 для масштабного инференса LLM
Вышла первая стабильная версия Dynamo — платформа для мультинодового инференса, позиционируемая как open source «ОС для AI-фабрик». Она фокусируется на оптимизации KV-кеша, динамическом планировании GPU и маршрутизации запросов.
Платформа поддерживает SGLang, TensorRT-LLM и vLLM. По данным SemiAnalysis (бенчмарк InferenceX), запуск DeepSeek R1 на Blackwell даёт семикратный прирост пропускной способности на одну GPU. Решение также лидирует в тестах MLPerf.
Ключевое нововведение — KV Cache Router с поддержкой «агентских подсказок» (agentic hints). Он анализирует задержки и ожидаемую длину ответа, приоритизируя сложные многошаговые сессии через закрепление кэша.
Также представлен KV Block Manager (KVBM), реализующий многоуровневое кэширование: GPU → CPU → SSD → S3. Компонент поддерживает глобальные события контекста и устанавливается через pip в движки инференса.
Принцип работы компонентов:
- Маршрутизатор работает в exact mode (через ZMQ в префиксном дереве) или в режиме прогнозирования по истории. Поддерживается настройка размера блоков и оценка совпадения контекста (overlap scoring).
- Менеджер блоков (KVBM) управляет выделением ресурсов, правилами вытеснения и удалённым доступом, минимизируя повторные вычисления при нехватке HBM.
Для мультимодальных задач реализовано разделение этапов кодирования, подготовки и генерации с кэшированием эмбеддингов в ОЗУ. Это ускоряет время до первого токена (TTFT) на 30% и повышает пропускную способность на 25% (на примере Qwen3-VL-30B на системах 200 ГБ). Добавлена нативная поддержка генерации видео (FastVideo, SGLang Diffusion).
NVIDIA представляет Groq 3 LPX для платформы Vera Rubin
После покупки Groq, NVIDIA представила стоечную систему Groq 3 LPX — первую для агентного AI с экстремально низкой задержкой генерации токенов.
Характеристики Groq 3 LPX:
- 256 чипов Groq 3 LPU в MGX ETL rack для Vera Rubin NVL72;
- 315 PFLOPS производительности;
- 128 ГБ SRAM;
- 40 ПБ/с пропускной способности памяти и 640 ТБ/с межчиповой связи.
LPX работает в паре с GPU Rubin: Rubin NVL72 обрабатывает prefill и attention — задачи с длинным контекстом, а LPX ускоряет decode — сверхбыстрые вычисления FFN и MoE-экспертов через разделение attention-FFN с передачей активаций.
Итог: энергоэффективность выросла в 35 раз на мегаватт, а доходность при работе с триллионными моделями — в десять раз по сравнению с GB200 NVL72.
Groq 3 LPU (7-й чип Vera Rubin) работает с векторами по 320 байт и объединяет тензорные, матричные, векторные и коммутационные блоки. В каждом чипе — 500 МБ SRAM без кэшей (размещение управляется компилятором). Для масштабирования — 96 линий C2C со скоростью 112 Гбит/с.
Характеристики вычислительного лотка (8 чипов, жидкостное охлаждение):
- 9,6 PFLOPS (FP8);
- 4 ГБ SRAM;
- 1,2 ПБ/с пропускной способности.
Архитектура открывает новые возможности: Rubin берёт на себя массовый инференс, а LPX обеспечивает генерацию «на уровне мысли» — более 1000 токенов в секунду на пользователя. Это позволяет реализовать полноценную совместную работу в реальном времени для кодовых ассистентов и голосовых интерфейсов. Dynamo оркестрирует связку GPU и LPX для decode.
Черновая генерация: LPX быстро набрасывает варианты, а Rubin их подтверждает. Доход с мегаватта у Rubin выше в пять раз, у LPX — в десять раз. Пользователь получает 400 токенов в секунду даже на длинных текстах.
Cursor Composer 2 оказался доработанной Kimi 2.5
Cursor заявила о запуске Composer 2 — «frontier-уровневой модели для кодирования». Однако пользователь X под ником Fynn выяснил, что это Kimi 2.5 — открытая модель Moonshot AI (Китай, Alibaba/HongShan) с дополнительным обучением через RL.
Американский стартап (оценка $29,3 млрд, $2 млрд годового дохода) не упомянул базовую модель в анонсе. Вице-президент Ли Робинсон признал: «1/4 вычислений — от базовой модели, остальное — наше обучение, бенчмарки сильно отличаются». Kimi подтвердила лицензионное партнёрство через Fireworks AI.
Сооснователь Аман Сангери извинился: «ошибка — не указать Kimi-базу в блоге, исправим в следующей модели».
NVIDIA запускает BlueField-4 STX для хранилищ AI-агентов
На GTC 2026 NVIDIA представила BlueField-4 STX — эталонную архитектуру для ускоренного хранения под агентные AI. Она решает проблему узкого места KV-кеша при длинных сессиях и больших контекстах.
Решение построено на BlueField-4 DPU и сетевых картах ConnectX-9 SuperNIC. По сравнению с CPU-хранилищами, такая связка выдаёт в пять раз больше токенов в секунду, работает в четыре раза энергоэффективнее и вдвое ускоряет загрузку данных.
Проблема: KV-кеш (пара ключ-значение для attention) растёт до сотен тысяч токенов, не помещается в память GPU и выгружается в ОЗУ/SSD через CPU, что вызывает задержки и простои. STX минует CPU через RDMA по Spectrum-X Ethernet: BlueField-4 напрямую управляет NVMe SSD, шифрует и проверяет KV-данные.
BlueField-4 STX станет частью платформы Vera Rubin, работая с Vera CPU, ConnectX-9, Spectrum-X Ethernet, DOCA и AI Enterprise. Первым продуктом на этой базе станет контекстное хранилище CMX.
Экосистему поддерживают DDN, Dell, HPE, IBM, NetApp, VAST Data, AIC, Supermicro и Quanta. Ранний доступ получили восемь облачных провайдеров, включая CoreWeave, Lambda, Mistral AI и Oracle Cloud. Поставки начнутся во второй половине 2026 года.
Как отметил CEO Дженсен Хуан: «Agentic AI is redefining what software can do — and the computing infrastructure behind it must be reinvented to keep pace».
UALink и DMTF объединяют стандарты для AI-инфраструктуры
В конце февраля UALink Consortium и DMTF объявили о партнёрстве. Цель — объединить высокопроизводительные системы для GPU и AI-ускорителей с инфраструктурным управлением через открытые протоколы Redfish, PLDM, SPDM.
UALink — открытый интерконнект для accelerator-to-accelerator связи с высокой пропускной способностью и низкой задержкой. Он объединяет GPU в единый ресурс для крупных моделей. DMTF предоставляет кросс-вендорные стандарты для обнаружения, телеметрии, конфигурации и защиты.
Партнёрство нацелено на комплексное управление фабриками ускорителей: внедрение Redfish-моделей для устройств на базе UALink и совместную работу в рабочих группах DMTF. Это обеспечит бесшовную интеграцию next-gen interconnect в стандартные фреймворки управления.
Итог: высокая производительность + зрелое управление = масштабируемые, безопасные AI-деплойменты в мультивендорных средах. Ожидается ускорение выпуска и внедрения новых спецификаций.
SambaNova анонсирует SN50 RDU для агентного инференса
SambaNova представила процессоры SN50 RDU и серверные стойки SambaRack SN50 — решения для AI-агентов, устраняющие главную проблему инференса: задержки при передаче данных.
В тестах на Llama 3.3 (70B) система показала в пять раз выше скорость и в три раза большую пропускную способность по сравнению с NVIDIA Blackwell B200, потребляя всего 20 кВт при воздушном охлаждении.
Агенты требуют мгновенного отклика для длинных цепочек вызовов — например, при генерации кода. Если быстрые режимы на GPU (как у Anthropic) стоят в шесть раз дороже, то SN50 позволяет запускать модели до 10 трлн параметров с контекстом в 10 млн токенов без потери скорости и переплат.
Технологические новшества:
- Многоуровневая память (HBM + SRAM) позволяет менять модели за миллисекунды и кэшировать входящие токены, что резко сокращает время до первого ответа (TTFT).
- Масштабируемость: стойка SambaRack на 16 чипов в пять раз мощнее предыдущей. Системы объединяются в кластеры до 256 ускорителей с пропускной способностью в несколько терабайт в секунду.
Архитектура Dataflow выстраивает граф модели как кратчайший путь для данных. Это исключает лишние обращения к памяти, снижая задержки и энергопотребление.
Поставки начнутся во второй половине 2026 года. Для провайдеров AI-услуг совокупная стоимость владения (TCO) будет в 8 раз ниже, чем на традиционных GPU-фермах.