Допиливаем InferSim для моделирования загрузки промышленных GPU

Habr AI 24 апр 2026

Мы допилили открытый симулятор InferSim от Alibaba для моделирования загрузки промышленных GPU.

Что такое InferSim и почему он крут

InferSim — это Python-симулятор, который умеет вычислять ключевые метрики LLM-инференса.

Главная фишка симулятора — двухфазная архитектура: фаза 1 (офлайн) и фаза 2 (онлайн).

Фаза 1: прогоняются микро-бенчмарки, которые снимают слепки реальной производительности.
Фаза 2: сам симулятор на основе этих данных вычисляет задержки.

Допилка InferSim

Мы добавили поддержку Metax C500 64GB и Qwen3-32B с её хитрым GQA.

Конфиг модели: Qwen3-32B без сюрпризов

Мы приготовили конфигурационный файл модели qwen3_32b_config.json.

Визуализация: Streamlit

Мы подружили InferSim с Streamlit, и получился лёгкий веб-инструмент для интерактивного подбора параметров.

Зачем это всё

Российский рынок GPU сегодня напоминает квест: ускорители дороги, доступны не все, сроки поставок плавают.

Мы опробовали допиленный InferSim при планировании закупки под промышленный инференс.

Адекватно сравнить H200 и Metax C500 для нашего сценария.
Подобрать оптимальный decode batchsize.

Допиливаем InferSim для собственных нужд моделирования загрузки промышленных GPU

Habr AI 24 апр 2026

Привет, Хабр! Меня зовут Дмитрий, я занимаюсь развитием продукта LLMaaS и сегодня хочу поделиться своим опытом моделирования загрузки оборудования для ML-инференса. Перед нами встала классическая задача: понять, сколько и какого железа закупать под большие языковые модели в условиях нашего сурового российского рынка. Ошибаться нельзя — цены на ускорители сегодня таковы, что одна незапланированная «стройка» может оставить команду без зарплаты. Решили не изобретать велосипед с нуля, а допилить открытый симуляторInferSimот Alibaba. О том, что у нас получилось, и пойдёт речь.

Что такое InferSim и почему он крут

InferSim — это Python-симулятор, который умеет вычислять ключевые метрики LLM-инференса:TTFT(время до первого токена),TPOT(время на каждый следующий токен) ипропускную способностьв токенах в секунду. Авторы — ребята из Alibaba, они же разрабатывают vLLM, так что в LLM-инференсе разбираются очень хорошо.

Главная фишка симулятора — двухфазная архитектура:

Фаза 1 (офлайн):на целевом железе прогоняются микро-бенчмарки (через FlashInfer, sglang), которые снимают слепки реальной производительности: сколько флопсов GPU может выдать на типичных операциях внимания и матричных умножениях. Получается таблицаMFU(Model FLOPs Utilization) для каждой комбинации «операция/размерность/GPU».
Фаза 2 (онлайн):сам симулятор на основе этих MFU и аналитических моделей вычисляет задержки. Больше никакого доступа к живому GPU не нужно — можно на лаптопе прикинуть, сколько H200 потянет пользователей.

Такая схема даёт гораздо более точные предсказания, чем чисто теоретические прикидки по пропускной способности памяти. Например, в фазе Decode модель часто упирается не в арифметику, а в загрузку KV-кеша, и InferSim это честно учитывает. Эвристики нарабатывались на основе большого количества реальных прогонов на H800, H20, GB200, так что им можно доверять.

Но есть нюанс: из коробки поддерживается только несколько «топовых» GPU и несколько моделей. Нам же нужны былиMetax C500 64GBиQwen3-32Bс её хитрым GQA. Поэтому мы взяли напильник.

Первым делом нужно было объяснить симулятору, что такое Metax C500. В файлеhardware/gpu.pyвсе характеристики GPU хранятся в виде dataclass-экземпляров. Мы просто добавили новый:

После этогоc500попадает в словарьgpu_map, и можно запускать симуляцию с ключом--device-type C500 --world-size 2. Да, все параметры, кроме объёма памяти, пришлось оценивать — ребята из MetaX не публикуют точные значения FLOPS. Но для первого приближения хватило. Практика показала, чтоmfu=0.35даёт разумные цифры, близкие к нашим реальным замерам.

Конфиг модели: Qwen3-32B без сюрпризов

Следующий шаг — конфигурационный файл модели. InferSim ожидает стандартный Hugging Faceconfig.json. Мы приготовилиqwen3_32b_config.json:

Самое важное здесь — правильно указатьhead_dim: 80, а не 128, как иногда ошибочно пишут. Расчёт элементарный:head_dim = hidden_size / num_attention_heads = 5120 / 64 = 80. Ошибка на этом этапе приведёт к завышению расхода KV-кеша и совершенно неверным оценкам параллелизма.

Визуализация: восхитительный Streamlit

Симулятор работает быстро, но каждый раз парсить глазами текстовый вывод, особенно когда нужно перебрать десятки комбинаций длин промптов и ответов, — то ещё удовольствие. Мы подружили InferSim с Streamlit, и получился лёгкий веб-инструмент для интерактивного подбора параметров.

Идея простая:

Скрипт на Python вызываетmain.pyс переданными через subprocess аргументами.
Парсит stdout, вытаскивая из знакомых строк значенияTTFT (ms),TPOT (ms),Throughput (TGS:tok/GPU/s).
Сохраняет результаты в Pandas DataFrame и рисует графикиmatplotlibпрямо в браузере.

В Streamlit добавили выпадающие списки для выбора GPU, количества карт (world_size), модели, а также слайдеры для входных и выходных токенов. При изменении любого параметра автоматически запускается симуляция, и через пару секунд видим три графика: TTFT, TPOT и пропускную способность. Красота!

Теперь даже коллеги, далёкие от командной строки, могут прикинуть, сколько параллельных пользователей потянет связка из двух Metax на Qwen3-32B. Ответ часто удивляет: оказывается, памяти хватает на 42 одновременных запроса, а вот время ответа становится ~34 секунды, что для чат-бота уже «за гранью». Можно экспериментировать с квантизацией (--use-fp8-kv) и сразу видеть эффект.

Зачем это всё в суровой реальности

Российский рынок GPU сегодня напоминает квест: ускорители дороги, доступны не все, сроки поставок плавают. Покупать «на глаз» — почти гарантированно промахнуться. Либо возьмёте слишком слабое железо и пользователи разбегутся, либо переплатите за избыточную производительность, которую некуда применить.

Мы опробовали допиленный InferSim при планировании закупки под промышленный инференс. Он позволил:

Адекватно сравнить H200 (одна карта) и Metax C500 (две карты) для нашего сценария с длинными промптами. Оказалось, что по чистой скорости один H200 уделывает двух Metax, но если важна максимальная параллельность, связка из двух C500 выглядит интереснее за счёт 128 ГБ суммарной памяти.
Подобрать оптимальныйdecode batchsize, чтобы не уйти в OOM и не потерять в throughput.

Конечно, симулятор не даёт 100% точности — всё упирается в качество бенчмарков. Для Metax мы использовали приближённые оценки, поэтому реальность может немного отличаться. Но даже такая модель спасает от грубых ошибок.

Вместо заключения

InferSim — один из тех инструментов, которые сложно переоценить, когда готовишь закупку под инференс. Он, конечно, не заменяет полноценный бенчмарк на живом железе, но от грубых ошибок защищает отлично. А грубая ошибка в нашем деле — это, например, взять два ускорителя под модель, которая и на одном помещается, или, наоборот, купить карты, которые не вытянут нужное количество параллельных пользователей.

В условиях, когда железо дорогое, дефицитное и достаётся с трудом, такой инструмент становится настоящей палочкой-выручалочкой. Экспертизы по планированию GPU для LLM на рынке сегодня немного — слишком быстро всё меняется. InferSim позволяет «проиграть» десятки сценариев за вечер и принять взвешенное решение, а не тыкать пальцем в небо.

Если будете пробовать — делитесь впечатлениями, будем рады обсудить нюансы в комментариях.

Репозиторий живёт на GitHub, ссылка на оригинал:https://github.com/alibaba/InferSim.

Ссылка на наши доработки:https://github.com/DmitriyKhodykin/InferSim

Описание экономический стороны вопроса рассматривал тут:https://habr.com/ru/articles/1026438/

Читать оригинал