Если вы работаете с генеративным ИИ, то наверняка знаете: LLM давно перестали быть просто хайпом. Сегодня это инструмент для решения реальных бизнес-задач — от чат-ботов поддержки до мультимодальных моделей, генерирующих текст, изображения и видео.
Обучение и инференс остаются главной причиной роста спроса на GPU. Но не всегда нужен топовый ускоритель вроде H100 или H200. Как и не стоит ездить за хлебом на Ferrari. Важно подобрать GPU под конкретную задачу — будь то обучение небольшого бота, обработка 8K-видео или создание корпоративной базы знаний.
Поэтому в Т1 Облаке мы не ограничиваемся флагманскими видеокартами, а предлагаем разные модели — как для инференса, так и для гибридных сценариев. Рассказываем о серверах с GPU H200 и L40S, показываем их изнутри и объясняем, где и какие ускорители работают лучше всего.
Сравнение H200 с предшественниками
H200 — это улучшенная версия H100 на архитектуре NVIDIA Hopper. Обе модели ориентированы на генеративный ИИ и высокопроизводительные вычисления (HPC), включая обучение и инференс LLM.
Но H200 превосходит H100 по ключевым параметрам:
- Объём видеопамяти: 141 ГБ — на 76% больше, чем у H100;
- Пропускная способность памяти: 4,8 ТБ/с — на 43% выше, чем у H100.
Эти характеристики критически важны для эффективного обучения и инференса крупных моделей. Больше памяти — больше данных в одном чанке. Выше пропускная способность — быстрее обработка.
L40S: универсальный ускоритель
NVIDIA L40S — более универсальное решение. Подходит для обучения и инференса небольших и средних ИИ-моделей, а также для 3D-рендеринга, графики и обработки видео.
Он уступает H100 и H200 в производительности, но превосходит потребительские флагманы — например, GeForce RTX 4090. Обе карты построены на архитектуре Ada Lovelace, но L40S выигрывает по ряду параметров:
- Объём видеопамяти: 48 ГБ GDDR6 (против 24 ГБ у RTX 4090);
- Пропускная способность памяти: 1,008 ТБ/с;
- Количество ядер CUDA: 18 176 — на 11% больше;
- Форм-фактор: PCIe 4.0 x16.
Это делает L40S идеальным выбором для задач, где важна не только производительность, но и стабильность, долговечность и поддержка в промышленной среде.
Сервер с H200: мощь и энергопотребление
Сервер с восемью H200 — это монстр. Один такой блок весит около 107 кг. Его энергопотребление — 5,5–6,5 кВт. Из-за этого в стойку на 7 кВт помещается только один такой сервер.
Спецификация сервера с H200:
- два процессора Intel Xeon Platinum 8462Y+ 2,8 ГГц;
- 2 ТБ оперативной памяти DDR5 4800 МГц (RDIMM);
- восемь NVIDIA H200 по 141 ГБ памяти каждая;
- интерфейс видеокарт — SMX;
- три сетевые карты Mellanox ConnectX-6 Lx 10/25GbE SFP28 2-Port;
- восемь сетевых карт NVIDIA ConnectX-7 Single Port NDR для InfiniBand.
Сервер с L40S: лёгкий и эффективный
Сервер с восемью L40S легче — всего 39 кг. Потребляет около 3 кВт. В стойку на 10 кВт помещаются три таких сервера.
Спецификация сервера с L40S:
- два процессора AMD EPYC 9374F 32C 3,85 ГГц;
- 1,5 ТБ оперативной памяти DDR5 4800 МГц;
- восемь NVIDIA L40S по 48 ГБ памяти;
- интерфейс видеокарт — PCIe Gen4.
Сеть: InfiniBand и GPUDirect RDMA
Чтобы объединить GPU в единую вычислительную среду, мы используем InfiniBand. Эта технология обеспечивает пропускную способность до 400 ГБ/с между виртуальными машинами и минимальные задержки — критично для обучения LLM.
Также задействована технология GPUDirect RDMA: GPU обмениваются данными напрямую через сеть, минуя CPU и системную память. Это снижает задержки и разгружает процессор, повышая общую эффективность.
Процессоры: не только GPU важны
Производительность зависит не только от видеокарт. В серверах с H200 используются два Intel Xeon Platinum 8462Y+ с 2 ТБ ОЗУ. В серверах с L40S — два AMD EPYC 9374F и 1,5 ТБ ОЗУ. Эти процессоры ускоряют операции, характерные для задач глубокого обучения.
Примеры использования
- Сайбокс: использует наши ресурсы для разработки и обучения LLM;
- Альфа-Банк: тестирует генеративный ИИ на серверах с H200, внедряет ИИ-помощников для клиентов и сотрудников;
- Крупная сеть детских товаров: обучает ML-модели для персонализированных промокодов и программ лояльности.
Видеокарты NVIDIA H200, L40S и другие модели доступны в облаке по модели GPU as a Service. Вы можете сразу начать обучать модели, тестировать гипотезы или запускать 3D-визуализации. Оплачивается только фактическое время использования.
Хотите узнать больше о возможностях H200, L40S или протестировать ускорители? Готовы обсудить — пишите.