Kimi K2.5 наступает на пятки GPT-5.4 и работает из России без VPN

Kimi K2.5 наступает на пятки GPT-5.4 и работает из России без VPN

Бенчмарков по качеству ИИ сейчас столько, что разобраться сложно: GPQA Diamond тестирует знания уровня PhD, Lexometrica — фактическую точность, LLM Persuasion Benchmark — умение убеждать, Chatbot Arena — предпочтения пользователей. Зачем ещё один? Есть два ответа.

Зачем новый бенчмарк?

Первый — перекрёстная проверка. GPT-5.4 лидирует в GPQA Diamond, Lexometrica, Persuasion Benchmark и нашем исследовании. Kimi K2.5 стабильно на шестом месте везде. YandexGPT и GigaChat — внизу или отсутствуют. Четыре независимых источника дают одинаковый вердикт.

Второй — ни один из существующих бенчмарков не сравнивает российские и глобальные модели на практических задачах на русском языке. Мы заполнили этот пробел: 54 модели, 32 сценария, промпты от «живого менеджера», два LLM-судьи с калибровкой.

Что доступно из России без VPN

В топе — китайские модели:

  • Moonshot AI (Kimi K2.5)
  • MiniMax M2.7
  • MiMo V2 Omni (только через API)
  • Qwen3.5 Plus
  • Qwen3.5 397B

Все работают без VPN, все бесплатны для базового использования. Российских моделей среди них — нет.

GPT-5.4 — лидер с результатом 4,80. Kimi K2.5 отстаёт всего на 0,06 — это статистический шум. MiMo V2 от Xiaomi — на третьем месте, при этом в три раза дешевле Gemini 2.5 Pro: $0,40 против $1,25 за миллион токенов на входе.

Какую модель — для какой задачи

Claude доминирует в аналитике: планирование, анализ решений, управление командой. Он не просто отвечает — он строит системы: матрицы решений, деревья условий, пороги пересмотра. Там, где GPT даёт ответ, Claude даёт фреймворк.

GPT сильнее в поиске информации и коммуникации. При этом GPT-5 Mini ($0,002 за запрос) набрал 4,78 в категории «коммуникация» — выше, чем GPT-5.2 Pro. Качество общения не требует премиум-модели.

MiniMax M2.7 — лучший в управлении командой. Эксперты отмечают «исключительно детальные планы собеседований, развития карьеры и изменений с конкретными формулировками и сроками». Иногда в тексте проскакивают иероглифы — артефакт генерации, но по сути — лучший результат.

Kimi и MiniMax из Китая укладываются в отставание 0,1–0,2 балла от лидеров по всем категориям. Ни одна задача не требует VPN для качественного решения.

Практический пример: распределение бюджета

Задача: $100 тысяч на четыре инициативы — ПО ($30K), подрядчик ($45K), обучение ($20K), маркетинг ($40K). Бюджета не хватает. Пять моделей — пять подходов.

  • Kimi K2.5 (4,75) — разделил инициативы по стратегическим категориям, отсёк подрядчика как «операционную заплатку», ввёл пороги отказа: CAC > $200 — исключить маркетинг, defect rate > 5% — исключить ПО. Чёткая логика, метрики, сценарии.
  • MiniMax M2.7 (4,69) — расчёт ожидаемой ценности, поэтапный план с критериями перехода. Менее креативно, но пригодно к использованию.
  • Qwen3.5 Plus (4,56) — сильный финансовый анализ, но склонна выбирать «политически выгодный» вариант, а не оптимальный. Может подстроиться под руководство, а не сказать правду.
  • GigaChat Ultra (3,75) — начал с Python-скрипта для расчётов, профинансировал подрядчика, отложил маркетинг. Нет фреймворка, условной логики, порогов.
  • Alice AI (3,86) — хорошая структура, выделение корреляций. Но системная проблема: обрывается на середине. Судья отметил: «40–60% задания не выполнено».

Разница между 4,75 и 3,75 — не в цифрах. С результатом Kimi можно идти на совещание. Результат GigaChat придётся переделывать.

Почему российские модели отстают

Протестированы пять версий GigaChat и три модели Яндекса. Картина — однородная.

GigaChat-Ultra — лучшая от Сбера — 3,26. Судья: «анализ поверхностный, фактические ошибки в цифрах, подмена контекста — вместо глобального рынка анализирует российский». GigaChat-2-Pro — 2,82, худший результат среди всех 54 моделей. При этом Сбер публикует внутренние бенчмарки с заявлениями о превосходстве над DeepSeek V3.

Alice AI — лучшая российская модель — 3,86. Но отставание от Kimi — 0,88 балла. YandexGPT Pro 5.1 (3,13) — в половине сценариев по поиску информации отказывался отвечать, ссылаясь на «отсутствие актуальных данных», хотя речь шла об общедоступных продуктах.

Ирония: в категории «Региональная осведомлённость» (ТК РФ, налоги, культура России и Казахстана) GigaChat-Ultra в режиме рассуждений получил 2,35 с пометкой «POTENTIAL_HALLUCINATION». Перепутал МЦИ с Месячным расчётным показателем, указал неверную ставку социального налога. Kimi K2.5 на том же сценарии — 3,85, корректно выявил ошибку в условии. YandexGPT — отказался отвечать. Китайская модель знает казахстанское налоговое право лучше российских.

Выводы

Доступность качественных моделей для российских пользователей решена — но не российскими компаниями, а китайскими. Kimi, MiniMax, Qwen работают без VPN, бесплатны и находятся на уровне глобального паритета. Год назад разрыв с топом был 0,4 балла. Сейчас — 0,06.

Российские модели, судя по данным, ориентированы не на качество, а на корпоративный комплаенс, госзакупки и «импортозамещение».

Разница между Kimi (4,75) и GigaChat (3,75) — не только в моделях, но и в подходе. Структурированный промпт с контекстом, ролью и форматом вытягивает даже слабую модель. Размытый запрос «распредели бюджет» роняет даже сильную. В нашем тесте использовались промпты «наивного менеджера» — без оптимизации. На практике правильный промпт закрывает половину разрыва.

Умение формулировать задачи для ИИ — отдельный навык.

Конкретные цифры устареют через месяц. Но структурный паттерн — нет: разрыв между «глобальным топом» и «доступным в России» сжимается каждый квартал. И это происходит за счёт роста доступности китайских моделей, а не улучшения российских.

Читать оригинал