Экономика LLM-инференса: разница между Prefill и Decode

Экономика LLM-инференса: разница между Prefill и Decode

Рынок корпоративного ИИ-инференса достиг ~100 миллиардов долларов в 2025 году. Успех автоматизации бизнес-процессов с помощью LLM зависит от понимания двух этапов работы нейросети: Prefill и Decode.

Два подхода для обработки одного запроса

LLM-инференс — это две технологически несовместимые фазы: Prefill (обработка входящего промпта) и Decode (генерация ответа).

Prefill — это пиковая вычислительная нагрузка, а Decode — последовательный и лимитированный пропускной способностью памяти.

Экономика «плоского тарифа за токен»

Экономика «плоского тарифа за токен» неверна, поскольку запрос на 2000 токенов промпта с 50 токенами ответа потребляет в разы больше ресурсов GPU, чем запрос с 10 токенами промпта и длинной генерацией на 2000 токенов.

Железо решает: скорость в час пик

NVIDIA H100 (80GB) — флагман за $25-35 тысяч за карту, идеален для быстрого Prefill, но на Decode простаивает.

NVIDIA L40S — за $8-12 тысяч, менее мощная, но обладает отличной пропускной способностью памяти и идеальна для Decode-пула.

Фреймворки нового поколения

Фреймворки vLLM, SGLang, TensorRT-LLM уже научились разделять Prefill и Decode на разные пулы GPU, снижая затраты на инфраструктуру на 15-40% и увеличивая пропускную способность до 6.4 раз.

Модели и экономика токена

Ценообразовании API ведущих вендоров проявляется диспропорция между ценой входного и выходного токена.

Разрыв в 3-5 раз между ценой входного и выходного токена обусловлен объективной реальностью: Decode — это самый неэффективный этап с точки зрения использования железа.

Где оптимизация дает максимальный эффект

Технология «токенных складов» и префиксного кэширования позволяет предзаполнить (Prefill) KV-кеш для повторяющихся частей промптов.

Это может улучшить время до первого токена в 75 раз и сократить потребление энергии в 200 раз.

Считаем юнит-экономику

Рынок LLM-инференса развивается быстрее, чем любой другой технологический сегмент в истории: стоимость обработки миллиона токенов падает в 10 раз ежегодно.

Чтобы автоматизация бизнес-процессов не обернулась финансовой катастрофой, необходимо считать не абстрактный «токен», а приписывать стоимость GPU конкретным фазам работы.

Читать оригинал