Допиливаем InferSim для моделирования загрузки промышленных GPU

Допиливаем InferSim для моделирования загрузки промышленных GPU

Мы допилили открытый симулятор InferSim от Alibaba для моделирования загрузки промышленных GPU.

Что такое InferSim и почему он крут

InferSim — это Python-симулятор, который умеет вычислять ключевые метрики LLM-инференса.

Главная фишка симулятора — двухфазная архитектура: фаза 1 (офлайн) и фаза 2 (онлайн).

  • Фаза 1: прогоняются микро-бенчмарки, которые снимают слепки реальной производительности.
  • Фаза 2: сам симулятор на основе этих данных вычисляет задержки.

Допилка InferSim

Мы добавили поддержку Metax C500 64GB и Qwen3-32B с её хитрым GQA.

Конфиг модели: Qwen3-32B без сюрпризов

Мы приготовили конфигурационный файл модели qwen3_32b_config.json.

Визуализация: Streamlit

Мы подружили InferSim с Streamlit, и получился лёгкий веб-инструмент для интерактивного подбора параметров.

Зачем это всё

Российский рынок GPU сегодня напоминает квест: ускорители дороги, доступны не все, сроки поставок плавают.

Мы опробовали допиленный InferSim при планировании закупки под промышленный инференс.

  • Адекватно сравнить H200 и Metax C500 для нашего сценария.
  • Подобрать оптимальный decode batchsize.
Читать оригинал