От CUDA до Token Factory и Vera Rubin: самое главное с NVIDIA GTC 2026

Habr AI 2 апр 2026

Если вы ждали от мартовского кейноута Дженсена Хуанга просто новые видеокарты — вы ошиблись. Да, были анонсы чипов, но за всем этим стояло нечто большее. Это был момент, когда становится понятно: мир меняется на глазах, как когда-то с появлением интернета.

NVIDIA GTC 2026 стал не просто презентацией железа. Хуанг подвёл черту под первыми двадцатью годами CUDA и представил переход к новым парадигмам: Agent as a Service, Token Factory, модульная архитектура и индустриализация интеллекта. И если вы впервые слышите эти термины — это нормально.

20 лет CUDA: не просто чипы, а экосистема

CUDA появилась почти 20 лет назад. Именно она превратила GPU из графических ускорителей в универсальные вычислительные устройства — General Purpose GPU. Без ставки NVIDIA на софт и библиотеки в 2000-х не было бы сегодняшней AI-гонки.

Доминирование NVIDIA — это не только транзисторы, а в первую очередь CUDA X и огромный портфель готовых решений. Как сказал Дженсен Хуанг: «We are an algorithm company. That's what makes us special». Они продают не железо, а возможность запускать на нём прикладные задачи.

Десять лет назад выход первого DGX стал точкой невозврата. NVIDIA заявила: AI требует своего железа. Сегодня мы видим финал этой эволюции — от отдельных серверов к модульным «фабрикам токенов», где вычислительная мощность измеряется не флопсами, а стоимостью генерации одного осмысленного действия AI-агента.

OpenClaw: от чат-ботов к автономным агентам

Всё, что создавалось 20 лет, привело к появлению OpenClaw. Это вершина текущей эволюции ИИ. Развитие шло по этапам: генерация контента → способность к рассуждению (reasoning) → появление I/O-интерфейсов через ClawCode.

Теперь у цифрового «мозга» есть «глаза, уши и руки». Это переход от чат-ботов к автономным агентам, способным выполнять реальную работу в цифровой и физической среде.

AaaS: Agent-as-a-Service как замена SaaS

Если ИИ приносит бизнесу деньги — он становится сотрудником. Это меняет бизнес-модель: от продажи софта (SaaS) к продаже «действий агентов» — Agent-as-a-Service (AaaS).

В SaaS компания платит за доступ к функциям, а работу выполняет человек. В AaaS — платят за результат. Как отметил Хуанг: «…fundamental inflection. Finally, AI is able to do productive work, and therefore, the inflection point of inference has arrived».

Это начало эпохи индустриализации интеллекта: агенты перестают быть «галлюцинирующими ботами» и становятся частью промышленных систем.

Token Factory: фабрики интеллектуальных действий

Главная тема GTC 2026 — «индустриализация интеллекта». NVIDIA предлагает смотреть на дата-центры не как на хранилища данных, а как на AI Factories — фабрики, где сырьё — электричество, а продукт — токены.

Токен в 2026 году — это не просто единица текста. Это единица «интеллектуального действия» AI-агента. Поскольку агенты начинают выполнять реальную работу, спрос на токены растёт в геометрической прогрессии.

Как работает Token Factory

Современные ЦОД на базе архитектуры Blackwell и новой Vera Rubin оптимизированы под одну задачу — максимизировать количество осмысленных токенов на каждый ватт энергии. Хуанг заявил, что к 2027 году мировые инвестиции в такие фабрики достигнут 1 триллиона долларов.

Двигателем этих фабрик становятся открытые LLM: «…open source models have reached near the frontier, and it is literally everywhere». Open source — ключевой драйвер доступности и масштабирования.

Vera Rubin: модульная архитектура для инференса

Хуанг подчеркнул: «Inference is ultimate hard, it is ultimate important». Если обучение — это разовый акт, то инференс — это постоянная эксплуатация, которая и формирует доход.

Архитектура Vera Rubin — ответ на эту сложность. Это не просто прирост производительности, а глубокая оптимизация всего стека: от вычислений до сети и безопасности.

Ключевые особенности Vera Rubin

Модульность под нагрузку: гибкая настройка под конкретные задачи. Уходит понятие «универсального сервера».
Оптимизация всей стойки: продукт NVIDIA — уже не чип, а целая стойка, где каждый компонент работает на эффективный инференс.
Полный контроль данных: от вычислений и хранения до сетей и безопасности. Критически важна технология CPO — оптические соединения с минимальными задержками.
Гибридная архитектура: интеграция Groq 3 LPU в Vera Compute Tray. Мощь Rubin для сложных рассуждений и скорость Groq для быстрой выдачи токенов.
Связь размера и качества: размер модели → качество токенов → уровень инференса. Это создаёт новую рыночную сегментацию: от Free (быстрые ответы) до Premium (глубокий reasoning в реальном времени).
Комплексный охват: обновление всех слоёв — CPU, хранилище, сети, безопасность — для работы «физического» ИИ.

«Inference drives your revenues. And so this is the outcome» — ёмкий итог от Хуанга. Эффективный инференс — это не техническая метрика, а основа финансового результата.

NVIDIA также представила график, ломающий классический компромисс между пропускной способностью (Throughput) и интерактивностью (Interactivity). Vera Rubin позволяет выдавать сотни токенов в секунду на агента, не превращая счёт за электричество в астрономическую сумму. Это технический фундамент для экономики AaaS.

NemoClaw: внедрение агентов в корпоративную среду

OpenClaw появился в нужное время, но у крупных компаний есть требования к безопасности, контролю и предсказуемости. Чтобы закрыть эти вопросы, NVIDIA представила NemoClaw — референсную архитектуру для внедрения AI-агентов в бизнес.

Это «заводской» стандарт: как накладывать стек NVIDIA на платформу автономных агентов. NemoClaw гарантирует, что агент будет работать в рамках корпоративных политик, иметь доступ только к разрешённым интерфейсам и интегрироваться в существующую IT-инфраструктуру.

Заключение: IT-ренессанс

GTC 2026 стал поворотным. Хуанг показал, что Agent-as-a-Service и Token Factory уже работают в продакшене. «Просто облака» больше недостаточно. Инференс становится центром ИИ-стратегии.

Этот «IT-ренессанс» сопоставим по значимости с появлением ПК, интернета и смартфонов. Мы наблюдаем полное переосмысление роли человека в экономике и науке. Сингулярность и трансгуманизм переезжают из фантастики в серверные стойки.

Читать оригинал

От CUDA до Token Factory и Vera Rubin: самое главное с NVIDIA GTC 2026

20 лет CUDA: не просто чипы, а экосистема

OpenClaw: от чат-ботов к автономным агентам

AaaS: Agent-as-a-Service как замена SaaS

Token Factory: фабрики интеллектуальных действий

Как работает Token Factory

Vera Rubin: модульная архитектура для инференса

Ключевые особенности Vera Rubin

NemoClaw: внедрение агентов в корпоративную среду

Заключение: IT-ренессанс

От CUDA до Token Factory и Vera Rubin: самое главное с NVIDIA GTC 2026

20 лет с момента появления CUDA

Вершина эволюции AI: OpenClaw

IT-ренессанс: AaaS как замена SaaS

Концепция Token Factory

Как это работает

Время модульной архитектуры: Vera Rubin

Ключевые особенности Vera Rubin

NemoClaw — архитектура внедрения агентов

Заключение