Организации в РФ переходят от экспериментов с ИИ к масштабным внедрениям, сталкиваясь с трудностями в оценке сопутствующих издержек. Традиционные финансовые модели не всегда отражают экономическую сложность развертывания и сопровождения ИИ-решений, что приводит к ошибкам при выборе стратегии. В этой статье рассмотрим LCOAI — адаптированный подход к оценке стоимости владения ИИ-продуктом — и ответим на вопрос: «Сколько же стоит внедрить ИИ?».
В одной из предыдущих статей мы обсуждали важность контроля за FinOps на этапе масштабирования пилотного ИИ-решения. Подход Levelized Cost of Artificial Intelligence (LCOAI) позволяет получить полную и объективную картину затрат, объединяя все аспекты расходов на запуск и поддержку ИИ-инициатив. Он включает первоначальные капитальные затраты (CAPEX) и операционные расходы (OPEX), нормированные на общее количество обработанных запросов за весь срок эксплуатации системы.
Методология расчета
LCOAI впервые был представлен Элайзео Курчио (Eliseo Curcio) в статье Introducing LCOAI: A Standardized Economic Metric for Evaluating AI Deployment Costs.
Идея методологии проста и выражается в следующей формуле:
𝐿𝐶𝑂𝐴𝐼 = (Total CAPEX + Total OPEX) / Total Number of Valid Inference
Total CAPEX включает все первоначальные инвестиции: закупку вычислительной инфраструктуры (GPU), серверного оборудования, обучение или донастройку модели, разработку и разметку данных, лицензии на ПО (безопасность, мониторинг и др.), трудозатраты на внедрение и инженерные работы.
Total OPEX — это постоянные расходы в течение срока эксплуатации: стоимость инференса, облачные ресурсы, техническое обслуживание, периодическая донастройка модели, DevOps, аудит безопасности и прочие накладные расходы.
Total Number of Valid Inference — общее количество успешно обработанных пользовательских запросов.
Применяем LCOAI на практике
Чтобы проиллюстрировать подход, рассмотрим типичный выбор инфраструктуры: облачный API, аренда виртуальных машин или on-prem (локальные серверы).
Возьмем следующие реалистичные условия:
- Модель: Qwen 3.5 35B A3B в квантовании AWQ;
- Объем запросов: 10 млн/год (пилот) и 50 млн/год (масштабирование);
- Средний объем инференса: 1000 токенов на запрос;
- Три варианта развертывания: облачный API (Yandex Cloud), аренда виртуалок (Yandex Cloud), on-prem;
- Для on-prem и аренды — 2 ноды для отказоустойчивости;
- Единые капитальные затраты на разработку: 5 млн руб. (медианная оценка);
- Горизонт расчета: 3 года (средний срок окупаемости ИИ-инициатив).
Облачный API
Стоимость инференса Qwen 3.5 35B в Yandex Cloud — 0,3 руб. за 1000 токенов. При среднем запросе в 1000 токенов:
- 10 млн запросов/год: 3 млн руб./год;
- 50 млн запросов/год: 15 млн руб./год.
CAPEX — 5 млн руб. (разработка). OPEX за 3 года: 9 млн руб. (при 10 млн запросов) или 45 млн руб. (при 50 млн).
Аренда мощностей в облаке
Конфигурация: 2 виртуальные машины с GPU A100 80GB + сопутствующая инфраструктура (векторная БД, CPU, трафик). Стоимость — около 900 тыс. руб./мес.
Годовой OPEX: 10,8 млн руб. За 3 года — 32,4 млн руб. Конфигурация покрывает как 10 млн, так и 50 млн запросов.
Свое «железо»
CAPEX: 12 млн руб. за 2 сервера и 2 GPU L40S (48GB). Плюс 5 млн руб. на разработку — итого 17 млн руб.
OPEX: около 800 тыс. руб./год (размещение в ЦОД, электричество, поддержка). За 3 года — 2,4 млн руб.
Конфигурация также справляется с нагрузкой от 10 до 50 млн запросов в год.
Облако или нет?
Сравнивая варианты через призму LCOAI, видно, что каждый из них имеет право на жизнь в зависимости от контекста.
Для пилота или решения с небольшой нагрузкой наиболее выгоден облачный API — он более чем вдвое дешевле on-prem и аренды.
На больших объемах (50 млн запросов) API становится невыгодным из-за линейного роста затрат. Здесь дешевле аренда виртуалок, а в долгосрочной перспективе — on-prem: себестоимость запроса у «своего железа» вдвое ниже аренды и втрое ниже API.
Заключение
Выбор инфраструктуры для ИИ — это не только финансовый вопрос. На решение влияют:
- Требования к безопасности и регулированию;
- Наличие внутренних компетенций;
- Сроки запуска;
- Доступность CAPEX или OPEX;
- Прогнозируемый рост нагрузки.
Приведенные примеры — упрощенная модель, но они показывают: LCOAI — это удобный инструмент для объективной оценки экономики ИИ-решений. Он помогает снизить неопределенность и принимать взвешенные решения.
Для компаний, переходящих от пилотов к промышленной эксплуатации ИИ, использование LCOAI можно считать must have — особенно в условиях жестких бюджетных ограничений и необходимости обосновывать инвестиции.