Доступ к западным большим языковым моделям (БЯМ) сокращается как извне, так и изнутри. Западные вендоры последовательно блокируют российских пользователей, а регуляторное давление в России усиливает требование к «суверенным» решениям. Что остаётся бизнесу и какую цену он за это платит?
Изоляция на практике
Ограничения от западных вендоров перестали быть теоретической угрозой. OpenAI и Anthropic ужесточают политику доступа для российских пользователей. 11Labs, лидер в синтезе речи, отклоняет запросы с российских IP-адресов. Формально большинство западных LLM недоступны российским юрлицам. Хотя технически доступ возможен через прокси, для бизнеса это юридически рискованно.
Особенно острым становится вопрос передачи персональных данных. Любой запрос к внешнему API, содержащий имя или телефон, считается трансграничной передачей и подпадает под 152-ФЗ. Для ИИ-агентов, обрабатывающих голос и персональные данные, это критичный барьер.
Параллельно в России усиливается регуляторное давление в сторону «суверенных» решений. Тренд очевиден: горизонт, в котором использование зарубежных моделей будет возможно, стремительно сокращается.
Иллюзия своих LLM
Термин «отечественная модель» зачастую вводит в заблуждение. Большинство так называемых российских моделей — это не разработка с нуля, а дообученные (fine-tuning) версии открытых зарубежных моделей: LLaMA от Meta, Qwen от Alibaba, Mistral, GLM, Kimi. Компании вроде Т-Банка, Яндекса, МТС и Авито берут эти модели, обученные на триллионах токенов, и адаптируют под русский язык и свои задачи.
Такие решения сложно назвать полностью российскими — это локализованные клоны международных архитектур и весов.
Единственное исключение — Сбер с семейством GigaChat, который действительно обучал модель с нуля. Яндекс также проводил подобные масштабные обучение ранее. Но такой путь требует десятков и сотен миллионов долларов, огромных объёмов данных и доступа к топовым GPU — H100, H200, B100, B200. Из-за санкций и глобального дефицита таких ускорителей этот путь недоступен для большинства игроков.
Два пути — и оба со своими проблемами
В России сложилось два основных подхода к созданию БЯМ на русском языке.
Путь обучения с нуля
- Суть: разработка собственной архитектуры и обучение модели с нуля на большом корпусе данных, включая русскоязычные.
- Кто идёт: Сбер (GigaChat).
- Стоимость: миллионы долларов на железо и обучение. Огромные временные и ресурсные затраты.
Путь дообучения open-source моделей
- Суть: файнтюнинг базовой китайской модели (чаще всего Qwen) на русском корпусе и доменных данных.
- Кто идёт: Яндекс, Т-Банк, Авито.
- Стоимость: значительно ниже. Итоговая цена инференса сопоставима с китайскими аналогами.
GigaChat — единственная полностью российская модель с широким покрытием задач. Последние версии демонстрируют хорошее качество: поддерживают инструментальные вызовы, генерация на русском языке конкурентоспособна. Но есть ключевой недостаток — стоимость.
Разница в цене минуты инференса между GigaChat-Max и сопоставимыми моделями OpenAI — почти два порядка. Для ИИ-агентов, обрабатывающих живые звонки в реальном времени, такая разница делает продукт экономически нежизнеспособным. Это не предпочтение — это математика.
Экономика инференса: где прячутся деньги
Основная статья расходов при использовании БЯМ — инференс, то есть генерация ответа. У глобальных провайдеров цена разделена: входные токены дешевле, выходные — дороже. Например, у OpenAI 5.4 mini: ввод — ~$0,75 за миллион токенов, генерация — ~$4,5.
Российские провайдеры часто устанавливают одинаковую цену на вход и выход. Для ИИ-агентов, где промпты длинные, а ответы короткие, это многократно увеличивает расходы. В сочетании с изначально более высокой базовой стоимостью разрыв становится критическим.
Железо: ещё один ограничитель
Ситуацию усугубляет стоимость инфраструктуры. GPU уровня H100 не поставляются в Россию напрямую — закупка через посредников ведёт к росту цен. Сервер, способный обслуживать 1000 одновременных сессий, стоит около 55 млн рублей. Для крупных нагрузок требуются целые GPU-кластеры.
Себестоимость генерации напрямую зависит от загрузки GPU: чтобы цена токена оставалась низкой, нужна загрузка 80–90%. При текущем уровне спроса на ИИ-агентов в России достичь этого сложно — оборудование простаивает, а расходы на электроэнергию и обслуживание остаются.
Дообучение на Qwen: компромисс или решение?
Путь Яндекса, Т-Банка и Авито выглядит прагматичнее. Базовая модель Qwen (например, Qwen 3.5 35B-A3B) по бенчмаркам сопоставима со вторым эшелоном моделей Anthropic. Файнтюнинг на русскоязычных и доменных данных позволяет получить качественную и недорогую модель.
Но с точки зрения суверенности этот путь уязвим: в основе — китайская архитектура и веса. В условиях меняющегося регуляторного ландшафта это может стать проблемой. Прямого запрета пока нет, но тренд на ограничение доступа к зарубежным технологиям охватывает не только западные, но и китайские решения.
Дилемма формулируется жёстко: полностью российское решение — безумно дорого. Дообучение китайских моделей — дешевле, но не суверенно. Западные модели — технически лучшие, но доступ к ним сужается с двух сторон.
Когда внедрение ИИ всё-таки окупается?
ИИ остаётся оправданным в сегментах с высокой нагрузкой и стоимостью труда: контакт-центры, юридические департаменты, службы поддержки. Там непрерывная работа агента обеспечивает высокую загрузку GPU, и себестоимость токена становится управляемой. В сценариях с низкой загрузкой агент экономически неэффективен вне зависимости от качества модели.
По данным KPMG, 38,5% пользователей в мире уже используют ИИ в повседневной жизни. В России, по данным Левада-центра, таких — лишь 6%. Этот разрыв отражает не технологическое отставание, а экономические барьеры, которые делают ИИ-автоматизацию в России системно дороже.
Выбор зависит от масштаба и риска
- Крупный бизнес: on-prem решения, данные внутри периметра, контроль важнее экономии. Инвестиции в собственные GPU-кластеры.
- Средний бизнес: гибридный подход — российские облака на старте, постепенный переход на внутренние серверы с ростом нагрузки.
- Малый бизнес: глобальные облака через серую зону. Дешевле и мощнее, но юридически рискованно.
Что это значит для продуктовых компаний
Любая компания, строящая продукт с БЯМ на русском языке, должна закладывать в архитектуру возможность смены модели. Зависимость от одного вендора — западного или отечественного — уже стала реальным риском для части рынка.
Наиболее устойчивая стратегия — модульная архитектура с абстракцией на уровне вызова модели. Это позволяет переключаться между провайдерами без переписывания бизнес-логики. Другими словами — архитектура, агностичная к модели.
Выбора без компромисса нет — есть только выбор, каким компромиссом управлять осознанно.