Российский ИИ в прокрустовом ложе между суверенитетом и реальностью

Российский ИИ в прокрустовом ложе между суверенитетом и реальностью

Доступ к западным большим языковым моделям (БЯМ) сокращается как извне, так и изнутри. Западные вендоры последовательно блокируют российских пользователей, а регуляторное давление в России усиливает требование к «суверенным» решениям. Что остаётся бизнесу и какую цену он за это платит?

Изоляция на практике

Ограничения от западных вендоров перестали быть теоретической угрозой. OpenAI и Anthropic ужесточают политику доступа для российских пользователей. 11Labs, лидер в синтезе речи, отклоняет запросы с российских IP-адресов. Формально большинство западных LLM недоступны российским юрлицам. Хотя технически доступ возможен через прокси, для бизнеса это юридически рискованно.

Особенно острым становится вопрос передачи персональных данных. Любой запрос к внешнему API, содержащий имя или телефон, считается трансграничной передачей и подпадает под 152-ФЗ. Для ИИ-агентов, обрабатывающих голос и персональные данные, это критичный барьер.

Параллельно в России усиливается регуляторное давление в сторону «суверенных» решений. Тренд очевиден: горизонт, в котором использование зарубежных моделей будет возможно, стремительно сокращается.

Иллюзия своих LLM

Термин «отечественная модель» зачастую вводит в заблуждение. Большинство так называемых российских моделей — это не разработка с нуля, а дообученные (fine-tuning) версии открытых зарубежных моделей: LLaMA от Meta, Qwen от Alibaba, Mistral, GLM, Kimi. Компании вроде Т-Банка, Яндекса, МТС и Авито берут эти модели, обученные на триллионах токенов, и адаптируют под русский язык и свои задачи.

Такие решения сложно назвать полностью российскими — это локализованные клоны международных архитектур и весов.

Единственное исключение — Сбер с семейством GigaChat, который действительно обучал модель с нуля. Яндекс также проводил подобные масштабные обучение ранее. Но такой путь требует десятков и сотен миллионов долларов, огромных объёмов данных и доступа к топовым GPU — H100, H200, B100, B200. Из-за санкций и глобального дефицита таких ускорителей этот путь недоступен для большинства игроков.

Два пути — и оба со своими проблемами

В России сложилось два основных подхода к созданию БЯМ на русском языке.

Путь обучения с нуля

  • Суть: разработка собственной архитектуры и обучение модели с нуля на большом корпусе данных, включая русскоязычные.
  • Кто идёт: Сбер (GigaChat).
  • Стоимость: миллионы долларов на железо и обучение. Огромные временные и ресурсные затраты.

Путь дообучения open-source моделей

  • Суть: файнтюнинг базовой китайской модели (чаще всего Qwen) на русском корпусе и доменных данных.
  • Кто идёт: Яндекс, Т-Банк, Авито.
  • Стоимость: значительно ниже. Итоговая цена инференса сопоставима с китайскими аналогами.

GigaChat — единственная полностью российская модель с широким покрытием задач. Последние версии демонстрируют хорошее качество: поддерживают инструментальные вызовы, генерация на русском языке конкурентоспособна. Но есть ключевой недостаток — стоимость.

Разница в цене минуты инференса между GigaChat-Max и сопоставимыми моделями OpenAI — почти два порядка. Для ИИ-агентов, обрабатывающих живые звонки в реальном времени, такая разница делает продукт экономически нежизнеспособным. Это не предпочтение — это математика.

Экономика инференса: где прячутся деньги

Основная статья расходов при использовании БЯМ — инференс, то есть генерация ответа. У глобальных провайдеров цена разделена: входные токены дешевле, выходные — дороже. Например, у OpenAI 5.4 mini: ввод — ~$0,75 за миллион токенов, генерация — ~$4,5.

Российские провайдеры часто устанавливают одинаковую цену на вход и выход. Для ИИ-агентов, где промпты длинные, а ответы короткие, это многократно увеличивает расходы. В сочетании с изначально более высокой базовой стоимостью разрыв становится критическим.

Железо: ещё один ограничитель

Ситуацию усугубляет стоимость инфраструктуры. GPU уровня H100 не поставляются в Россию напрямую — закупка через посредников ведёт к росту цен. Сервер, способный обслуживать 1000 одновременных сессий, стоит около 55 млн рублей. Для крупных нагрузок требуются целые GPU-кластеры.

Себестоимость генерации напрямую зависит от загрузки GPU: чтобы цена токена оставалась низкой, нужна загрузка 80–90%. При текущем уровне спроса на ИИ-агентов в России достичь этого сложно — оборудование простаивает, а расходы на электроэнергию и обслуживание остаются.

Дообучение на Qwen: компромисс или решение?

Путь Яндекса, Т-Банка и Авито выглядит прагматичнее. Базовая модель Qwen (например, Qwen 3.5 35B-A3B) по бенчмаркам сопоставима со вторым эшелоном моделей Anthropic. Файнтюнинг на русскоязычных и доменных данных позволяет получить качественную и недорогую модель.

Но с точки зрения суверенности этот путь уязвим: в основе — китайская архитектура и веса. В условиях меняющегося регуляторного ландшафта это может стать проблемой. Прямого запрета пока нет, но тренд на ограничение доступа к зарубежным технологиям охватывает не только западные, но и китайские решения.

Дилемма формулируется жёстко: полностью российское решение — безумно дорого. Дообучение китайских моделей — дешевле, но не суверенно. Западные модели — технически лучшие, но доступ к ним сужается с двух сторон.

Когда внедрение ИИ всё-таки окупается?

ИИ остаётся оправданным в сегментах с высокой нагрузкой и стоимостью труда: контакт-центры, юридические департаменты, службы поддержки. Там непрерывная работа агента обеспечивает высокую загрузку GPU, и себестоимость токена становится управляемой. В сценариях с низкой загрузкой агент экономически неэффективен вне зависимости от качества модели.

По данным KPMG, 38,5% пользователей в мире уже используют ИИ в повседневной жизни. В России, по данным Левада-центра, таких — лишь 6%. Этот разрыв отражает не технологическое отставание, а экономические барьеры, которые делают ИИ-автоматизацию в России системно дороже.

Выбор зависит от масштаба и риска

  • Крупный бизнес: on-prem решения, данные внутри периметра, контроль важнее экономии. Инвестиции в собственные GPU-кластеры.
  • Средний бизнес: гибридный подход — российские облака на старте, постепенный переход на внутренние серверы с ростом нагрузки.
  • Малый бизнес: глобальные облака через серую зону. Дешевле и мощнее, но юридически рискованно.

Что это значит для продуктовых компаний

Любая компания, строящая продукт с БЯМ на русском языке, должна закладывать в архитектуру возможность смены модели. Зависимость от одного вендора — западного или отечественного — уже стала реальным риском для части рынка.

Наиболее устойчивая стратегия — модульная архитектура с абстракцией на уровне вызова модели. Это позволяет переключаться между провайдерами без переписывания бизнес-логики. Другими словами — архитектура, агностичная к модели.

Выбора без компромисса нет — есть только выбор, каким компромиссом управлять осознанно.

Читать оригинал