Какие GPU подойдут для ваших задач: обзор H200 и L40S из ЦОДа

Какие GPU подойдут для ваших задач: обзор H200 и L40S из ЦОДа

Если вы работаете с генеративным ИИ, то наверняка знаете: LLM давно перестали быть просто хайпом. Сегодня это инструмент для решения реальных бизнес-задач — от чат-ботов поддержки до мультимодальных моделей, генерирующих текст, изображения и видео.

Обучение и инференс остаются главной причиной роста спроса на GPU. Но не всегда нужен топовый ускоритель вроде H100 или H200. Как и не стоит ездить за хлебом на Ferrari. Важно подобрать GPU под конкретную задачу — будь то обучение небольшого бота, обработка 8K-видео или создание корпоративной базы знаний.

Поэтому в Т1 Облаке мы не ограничиваемся флагманскими видеокартами, а предлагаем разные модели — как для инференса, так и для гибридных сценариев. Рассказываем о серверах с GPU H200 и L40S, показываем их изнутри и объясняем, где и какие ускорители работают лучше всего.

Сравнение H200 с предшественниками

H200 — это улучшенная версия H100 на архитектуре NVIDIA Hopper. Обе модели ориентированы на генеративный ИИ и высокопроизводительные вычисления (HPC), включая обучение и инференс LLM.

Но H200 превосходит H100 по ключевым параметрам:

  • Объём видеопамяти: 141 ГБ — на 76% больше, чем у H100;
  • Пропускная способность памяти: 4,8 ТБ/с — на 43% выше, чем у H100.

Эти характеристики критически важны для эффективного обучения и инференса крупных моделей. Больше памяти — больше данных в одном чанке. Выше пропускная способность — быстрее обработка.

L40S: универсальный ускоритель

NVIDIA L40S — более универсальное решение. Подходит для обучения и инференса небольших и средних ИИ-моделей, а также для 3D-рендеринга, графики и обработки видео.

Он уступает H100 и H200 в производительности, но превосходит потребительские флагманы — например, GeForce RTX 4090. Обе карты построены на архитектуре Ada Lovelace, но L40S выигрывает по ряду параметров:

  • Объём видеопамяти: 48 ГБ GDDR6 (против 24 ГБ у RTX 4090);
  • Пропускная способность памяти: 1,008 ТБ/с;
  • Количество ядер CUDA: 18 176 — на 11% больше;
  • Форм-фактор: PCIe 4.0 x16.

Это делает L40S идеальным выбором для задач, где важна не только производительность, но и стабильность, долговечность и поддержка в промышленной среде.

Сервер с H200: мощь и энергопотребление

Сервер с восемью H200 — это монстр. Один такой блок весит около 107 кг. Его энергопотребление — 5,5–6,5 кВт. Из-за этого в стойку на 7 кВт помещается только один такой сервер.

Спецификация сервера с H200:

  • два процессора Intel Xeon Platinum 8462Y+ 2,8 ГГц;
  • 2 ТБ оперативной памяти DDR5 4800 МГц (RDIMM);
  • восемь NVIDIA H200 по 141 ГБ памяти каждая;
  • интерфейс видеокарт — SMX;
  • три сетевые карты Mellanox ConnectX-6 Lx 10/25GbE SFP28 2-Port;
  • восемь сетевых карт NVIDIA ConnectX-7 Single Port NDR для InfiniBand.

Сервер с L40S: лёгкий и эффективный

Сервер с восемью L40S легче — всего 39 кг. Потребляет около 3 кВт. В стойку на 10 кВт помещаются три таких сервера.

Спецификация сервера с L40S:

  • два процессора AMD EPYC 9374F 32C 3,85 ГГц;
  • 1,5 ТБ оперативной памяти DDR5 4800 МГц;
  • восемь NVIDIA L40S по 48 ГБ памяти;
  • интерфейс видеокарт — PCIe Gen4.

Сеть: InfiniBand и GPUDirect RDMA

Чтобы объединить GPU в единую вычислительную среду, мы используем InfiniBand. Эта технология обеспечивает пропускную способность до 400 ГБ/с между виртуальными машинами и минимальные задержки — критично для обучения LLM.

Также задействована технология GPUDirect RDMA: GPU обмениваются данными напрямую через сеть, минуя CPU и системную память. Это снижает задержки и разгружает процессор, повышая общую эффективность.

Процессоры: не только GPU важны

Производительность зависит не только от видеокарт. В серверах с H200 используются два Intel Xeon Platinum 8462Y+ с 2 ТБ ОЗУ. В серверах с L40S — два AMD EPYC 9374F и 1,5 ТБ ОЗУ. Эти процессоры ускоряют операции, характерные для задач глубокого обучения.

Примеры использования

  • Сайбокс: использует наши ресурсы для разработки и обучения LLM;
  • Альфа-Банк: тестирует генеративный ИИ на серверах с H200, внедряет ИИ-помощников для клиентов и сотрудников;
  • Крупная сеть детских товаров: обучает ML-модели для персонализированных промокодов и программ лояльности.

Видеокарты NVIDIA H200, L40S и другие модели доступны в облаке по модели GPU as a Service. Вы можете сразу начать обучать модели, тестировать гипотезы или запускать 3D-визуализации. Оплачивается только фактическое время использования.

Хотите узнать больше о возможностях H200, L40S или протестировать ускорители? Готовы обсудить — пишите.

Читать оригинал