На что способна новая модель NVIDIA — Nemotron 3 Super 120B. Бенчмарки, тесты и интеграция в Luxms BI

На что способна новая модель NVIDIA — Nemotron 3 Super 120B. Бенчмарки, тесты и интеграция в Luxms BI

120 миллиардов параметров, контекст до 256K токенов, агентное поведение — и всё это на одной видеокарте. Мы интегрировали Nemotron 3 Super в Luxms BI и неделю тестировали на реальных аналитических задачах. В этой статье — результаты, сильные стороны, ограничения и практические выводы.

Одна видеокарта — это принципиально другая экономика владения. Кластер из 8 карт — это капитальные затраты, инженерная команда, электричество, охлаждение и серверная площадь. Одна RTX PRO 6000 — это оборудование, которое помещается в стандартную рабочую станцию. Разница в совокупной стоимости владения (TCO) — на порядок.

11 марта 2026 года NVIDIA представила Nemotron 3 Super — MoE-модель с 120 миллиардами параметров, из которых 12 миллиардов активны в каждый момент.

Мы решили проверить, можно ли решать реальные аналитические задачи на одной GPU там, где обычно требуется кластер. Модель была развёрнута на одной RTX PRO 6000 (96 ГБ), интегрирована в Luxms BI и протестирована в течение недели в условиях, близких к реальной эксплуатации.

Меня зовут Саид Мухамад, я отвечаю за ИИ в Luxms. В этой статье делюсь не только результатами, но и практическим опытом — где модель работает стабильно, а где сталкивается с ограничениями.

Спойлер: можно. Но не всегда и не без компромиссов.

На рынке появляется новый класс MoE-моделей объёмом около 120 миллиардов параметров, таких как GPT-OSS-120B, Qwen3.5-122B и теперь Nemotron 3 Super. Они обещают качество, сопоставимое с топовыми закрытыми моделями, при значительно меньших вычислительных затратах. Однако есть нюансы:

  • Для Qwen3.5-122B официальный референсный сетап с контекстом 262K требует 8 GPU.
  • GPT-OSS-120B работает на одной RTX PRO 6000, но на контекстах от 128K токенов её качество резко падает.

А Nemotron 3 Super:

  • помещается на одной GPU с 96 ГБ VRAM
  • стабильно обрабатывает контекст от 64K до 256K токенов
  • именно в этом диапазоне превосходит GPT-OSS-120B

Инференс — это режим, в котором модель генерирует ответы, в отличие от обучения, где она обновляет свои параметры.

Одна GPU позволяет быстро разворачивать и тестировать модель, не тратя время на настройку кластера и межузловое взаимодействие. Это ускоряет итерации и снижает стоимость — именно поэтому мы решили всерьёз рассмотреть Nemotron 3 Super.

Что говорят бенчмарки

Перед тестами в реальных условиях мы изучили данные от комьюнити. Основное сравнение — с GPT-OSS-120B.

Длинный контекст — где начинается расхождение

В тесте RULER, оценивающем работу с длинным контекстом, Nemotron показывает 96,3% при 256K токенов, тогда как GPT-OSS-120B — 52,3%. На 512K разрыв увеличивается: 95,7% против 46,7%. При 1M токенов GPT-OSS фактически перестаёт справляться — 22,3%.

Разница носит качественный характер. Для BI-сценариев, где нужно анализировать большие схемы данных, множество документов или длинную историю диалога, это критически важно.

По другим метрикам:

  • SWE-Bench: Nemotron — 60,5%, GPT-OSS — 41,9%
  • TauBench (использование инструментов): результаты близки
  • Математическое рассуждение: GPT-OSS лидирует в AIME, Nemotron — в HMMT
  • Следование инструкциям: Nemotron на несколько пунктов впереди
  • LiveCodeBench: GPT-OSS — 88,0%, Nemotron — 81,2%

Qwen 3.5-122B превосходит по ряду бенчмарков: MMLU-Pro, GPQA, SWE-Bench, TauBench.

Наш сетап на одной карте

Мы использовали:

  • RTX PRO 6000 (96 ГБ VRAM)
  • веса с Hugging Face
  • vLLM для инференса

В такой конфигурации модель стабильно работала с контекстом до 256K токенов.

Для наших задач этого более чем достаточно — типичный контекст BI-запросов укладывается в это окно.

Проверка на русском: MMLU-RU

Перед интеграцией в Luxms BI мы протестировали модель на MMLU-RU — русскоязычной версии бенчмарка, чтобы оценить качество рассуждений на языке, не входящем в основной набор обучения.

Результат: 70,8% точности (5-shot).

Это хороший результат, учитывая, что русский язык не был приоритетным при обучении.

Где модель справляется

Модель уверенно работает со структурированными доменами — экономика, медицина, социальные науки. Она хорошо понимает фактологию, что особенно важно для BI: нам не нужно решать дифференциальные уравнения, а нужно разбираться в бизнес-данных.

Отдельно выделяется следование инструкциям. Модель точно соблюдает формат, ограничения и требования, не добавляя лишнего. В агентных сценариях это проявляется особенно хорошо: она использует инструменты, исправляет ошибки и повторяет попытки самостоятельно.

Контекст от 16K до 256K токенов обрабатывается стабильно на одной GPU при загрузке 92 ГБ из 96 ГБ VRAM. Деградации производительности не зафиксировано.

Где модель пока не справляется

Модель приходит к правильному решению, но не с первого раза. Например, при генерации дэшлета она может ошибаться в агрегациях или размерностях, затем исправляться и перепроверять. Это работает, но требует дополнительных итераций. В продакшене, где важна скорость, это заметно.

В нашем BI можно тегнуть ресурс и попросить модель с ним работать. Вместо того чтобы сразу взяться за задачу, она может исследовать смежные таблицы, проверять связи и заглядывать в соседние данные — на всякий случай. Иногда это выглядит избыточно, но в итоге визуализация получается качественной. Просто путь к ней длиннее.

Ещё одно ограничение — креативность. Модель надёжно решает задачи с чёткой структурой, но редко предлагает нестандартные подходы. Она скорее исполнитель, чем изобретатель. Для типовой аналитики — нормально. Для нестандартных задач — ограничение.

Производительность — главный компромисс

Мы измерили пропускную способность на одной RTX PRO 6000 (вход 2K токенов, выход 2K токенов):

  • Nemotron отвечает медленнее
  • GPT-OSS быстрее примерно в 2–2.5 раза

Итоги и выводы

Мы довольны потенциалом Nemotron 3 Super. Однако недостаточная скорость инференса на одной RTX PRO 6000 не позволяет нам использовать её в продакшене как основную модель. GPT-OSS-120B даёт вдвое большую пропускную способность при сопоставимых затратах, что делает её предпочтительнее для высоконагруженных сценариев.

Когда стоит использовать Nemotron 3 Super:

  • важен длинный контекст (64K–256K токенов)
  • есть только одна GPU
  • решаются задачи в экономике, медицине, социальных науках
  • скорость инференса не критична
  • разрабатываются прототипы или тестируются агентные сценарии

Когда лучше выбрать другой вариант:

  • высоконагруженный продакшн с десятками параллельных пользователей
  • скорость важнее качества на длинном контексте
  • нужно решать абстрактные математические задачи

Что дальше

Появление 120B MoE-моделей, способных работать на одной GPU и эффективно обрабатывать длинный контекст, меняет не только экономику, но и подход к внедрению ИИ. Сложные сценарии теперь можно запускать в небольших конфигурациях.

Мы надеемся, что в будущем появятся более эффективные методы инференса для Nemotron 3 Super, которые откроют новые возможности для экспериментов и внедрения. Ждём с интересом.

Читать оригинал