Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

Habr AI 25 мар 2026

Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось выяснить, какие LLM действительно могут помочь российским учителям, выяснилось: подходящего бенчмарка не существует. MERA проверяет способность моделей решать задания ЕГЭ. EduBench охватывает только английский и китайский. А российское образование — это ФГОС, технологические карты, ОГЭ и региональные языки вроде чувашского. Ни один из существующих тестов это не учитывает.

Мы создали EduBench-RU — первый бенчмарк для оценки языковых моделей на задачах российской школы. 50 промптов, 22 модели, двойная оценка. И результаты оказались неожиданными.

Что внутри

50 промптов разделены на 4 модуля:

A. Педагогика по ФГОС — технологические карты уроков, объяснения для учеников, анализ результатов ОГЭ
B. Предметные знания — математика, русский язык, физика, биология, история, литература
C. Учитель-копайлот — календарно-тематическое планирование, характеристики учеников, подготовка к родительским собраниям, инклюзия
D. ChuvashBench — перевод, обучение чувашскому языку, культурный контекст, билингвальные уроки

Модули A–C проверяют, насколько модель может быть полезна учителю в реальной школе. Модуль D — особый случай, о котором — ниже.

22 модели: от GPT-5.4 до GigaChat

Мы протестировали все актуальные модели на март 2026 года:

Frontier: Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.4, Gemini 3.1 Pro, Gemini 2.5 Pro
Mid-tier: GPT-5.4 Mini, Gemini 2.5 Flash, Grok 4.1 Fast, Kimi K2.5, GLM 5, DeepSeek V3.2
Open-source: Qwen3 (8B, 14B, 32B, 235B), Qwen3.5 27B, Mistral Large 3, Llama 4 Maverick, Phi-4

Все модели запускались через OpenRouter API с одинаковыми параметрами: max_tokens=8192, temperature=0.7, один и тот же системный промпт на русском языке.

Стоимость эксперимента составила 1500 рублей за 2,4 миллиона выходных токенов.

Как оценивали

Оценку проводили с помощью LLM-as-judge — метода из оригинального EduBench. Два судьи:

GPT-5.4 (OpenAI) — основной судья
Claude Sonnet 4.6 (Anthropic) — второй судья

Два судьи нужны, чтобы выявить предвзятость. И мы её обнаружили: Sonnet систематически ставит оценки на +0.49 балла выше, особенно моделям от Anthropic. Это ожидаемо. Консенсус — среднее двух оценок — сглаживает перекос.

Каждый ответ оценивался по пяти критериям (от 1 до 4 баллов): педагогическое качество, качество русского языка, фактическая точность, практичность, знание российского контекста. Дополнительно — шестой критерий: использование чувашского языка.

Результаты: общий рейтинг

Лидеры:

Gemini 3.1 Pro
Claude Opus 4.6
Claude Sonnet 4.6
Gemini 3.1 Flash Lite
Gemini 2.5 Pro
DeepSeek V3.2
Mistral Large 3
GPT-5.4 Mini
Gemini 2.5 Flash
Qwen3.5 27B

Ключевые наблюдения:

Gemini 3.1 Pro — неожиданный лидер. Не Claude, не GPT. Google. Модель показала лучшие результаты по знанию ФГОС и чувашскому языку одновременно.

GPT-5.4 — только 9-е место. Флагман OpenAI уступает моделям Google и Anthropic в задачах для российских учителей.

Open-source модели отстают на 18%. Средний балл закрытых моделей — 3.30, открытых — 2.80. Лучшая открытая модель — DeepSeek V3.2 (3.28), почти догнала топовые решения.

ChuvashBench: вот тут всё плохо

Модуль D включал 15 промптов на чувашском языке: переводы, упражнения, грамматика, культурный контекст.

Оценки точности (по версии GPT-5.4):

В основном правильно
Смесь правильного и выдуманного
В основном галлюцинации
Полная галлюцинация

Ни одна модель не набрала выше 3.0. Лучшие — Claude Opus, GPT-5.4 и Gemini 3.1 Pro — получили 2.1 из 4.0. Часть слов правильные (например, «Салам» — привет), часть — полностью выдуманные.

Пять моделей — все версии Qwen3 и Phi-4 — получили ровно 1.0 по каждому промпту. Они генерируют текст, который выглядит как чувашский, но им не является.

Чувашский — язык 1,1 миллиона человек. Официальный язык Чувашской Республики. На нём ведётся обучение в школах. ЮНЕСКО классифицирует его как «определённо находящийся под угрозой исчезновения».

И ни одна нейросеть в мире не умеет на нём нормально работать.

При этом данные для обучения есть: 2,9 миллиона предложений на чувашском и 1,4 миллиона параллельных чувашско-русских пар на HuggingFace под лицензией CC0 (Антонов, 2024). Проблема не в данных — в приоритетах разработчиков.

Что это значит для школ

Качество: Передовые модели набирают 3.0–3.5 из 4.0 по педагогическим задачам. Этого достаточно для черновика, но требуется доработка учителем.

152-ФЗ: Для школ, где данные не могут покидать сервер, лучший self-hosted вариант — Qwen3.5 27B (3.09 балла, 18 ГБ VRAM). Разрыв с лидером — 12%. Это компромисс, но приемлемый.

Региональные языки: Если школа находится в Чувашии, Татарстане или Башкирии — у неё нет ИИ-инструмента для работы с родным языком. Ноль. Это системная проблема, которую не решит ни одна существующая модель.

Что дальше

Мы разрабатываем ChuvashLM — первую модель для чувашского языка на базе Qwen3-32B. В рамках пилота планируем развернуть её локально в школе. Это — тема отдельной статьи.

EduBench-RU — открытый бенчмарк. Все промпты, результаты и код доступны на GitHub: github.com/csylabs-org/edubench-ru.

Если вы разрабатываете модели для русского языка — протестируйте их на наших промптах. Если вы носитель чувашского — помогите валидировать результаты ChuvashBench. Пишите в комментариях или на daniel@csylabs.com.

Читать оригинал