Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось выяснить, какие LLM действительно могут помочь российским учителям, выяснилось: подходящего бенчмарка не существует. MERA проверяет способность моделей решать задания ЕГЭ. EduBench охватывает только английский и китайский. А российское образование — это ФГОС, технологические карты, ОГЭ и региональные языки вроде чувашского. Ни один из существующих тестов это не учитывает.
Мы создали EduBench-RU — первый бенчмарк для оценки языковых моделей на задачах российской школы. 50 промптов, 22 модели, двойная оценка. И результаты оказались неожиданными.
Что внутри
50 промптов разделены на 4 модуля:
- A. Педагогика по ФГОС — технологические карты уроков, объяснения для учеников, анализ результатов ОГЭ
- B. Предметные знания — математика, русский язык, физика, биология, история, литература
- C. Учитель-копайлот — календарно-тематическое планирование, характеристики учеников, подготовка к родительским собраниям, инклюзия
- D. ChuvashBench — перевод, обучение чувашскому языку, культурный контекст, билингвальные уроки
Модули A–C проверяют, насколько модель может быть полезна учителю в реальной школе. Модуль D — особый случай, о котором — ниже.
22 модели: от GPT-5.4 до GigaChat
Мы протестировали все актуальные модели на март 2026 года:
- Frontier: Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.4, Gemini 3.1 Pro, Gemini 2.5 Pro
- Mid-tier: GPT-5.4 Mini, Gemini 2.5 Flash, Grok 4.1 Fast, Kimi K2.5, GLM 5, DeepSeek V3.2
- Open-source: Qwen3 (8B, 14B, 32B, 235B), Qwen3.5 27B, Mistral Large 3, Llama 4 Maverick, Phi-4
Все модели запускались через OpenRouter API с одинаковыми параметрами: max_tokens=8192, temperature=0.7, один и тот же системный промпт на русском языке.
Стоимость эксперимента составила 1500 рублей за 2,4 миллиона выходных токенов.
Как оценивали
Оценку проводили с помощью LLM-as-judge — метода из оригинального EduBench. Два судьи:
- GPT-5.4 (OpenAI) — основной судья
- Claude Sonnet 4.6 (Anthropic) — второй судья
Два судьи нужны, чтобы выявить предвзятость. И мы её обнаружили: Sonnet систематически ставит оценки на +0.49 балла выше, особенно моделям от Anthropic. Это ожидаемо. Консенсус — среднее двух оценок — сглаживает перекос.
Каждый ответ оценивался по пяти критериям (от 1 до 4 баллов): педагогическое качество, качество русского языка, фактическая точность, практичность, знание российского контекста. Дополнительно — шестой критерий: использование чувашского языка.
Результаты: общий рейтинг
Лидеры:
- Gemini 3.1 Pro
- Claude Opus 4.6
- Claude Sonnet 4.6
- Gemini 3.1 Flash Lite
- Gemini 2.5 Pro
- DeepSeek V3.2
- Mistral Large 3
- GPT-5.4 Mini
- Gemini 2.5 Flash
- Qwen3.5 27B
Ключевые наблюдения:
Gemini 3.1 Pro — неожиданный лидер. Не Claude, не GPT. Google. Модель показала лучшие результаты по знанию ФГОС и чувашскому языку одновременно.
GPT-5.4 — только 9-е место. Флагман OpenAI уступает моделям Google и Anthropic в задачах для российских учителей.
Open-source модели отстают на 18%. Средний балл закрытых моделей — 3.30, открытых — 2.80. Лучшая открытая модель — DeepSeek V3.2 (3.28), почти догнала топовые решения.
ChuvashBench: вот тут всё плохо
Модуль D включал 15 промптов на чувашском языке: переводы, упражнения, грамматика, культурный контекст.
Оценки точности (по версии GPT-5.4):
- В основном правильно
- Смесь правильного и выдуманного
- В основном галлюцинации
- Полная галлюцинация
Ни одна модель не набрала выше 3.0. Лучшие — Claude Opus, GPT-5.4 и Gemini 3.1 Pro — получили 2.1 из 4.0. Часть слов правильные (например, «Салам» — привет), часть — полностью выдуманные.
Пять моделей — все версии Qwen3 и Phi-4 — получили ровно 1.0 по каждому промпту. Они генерируют текст, который выглядит как чувашский, но им не является.
Чувашский — язык 1,1 миллиона человек. Официальный язык Чувашской Республики. На нём ведётся обучение в школах. ЮНЕСКО классифицирует его как «определённо находящийся под угрозой исчезновения».
И ни одна нейросеть в мире не умеет на нём нормально работать.
При этом данные для обучения есть: 2,9 миллиона предложений на чувашском и 1,4 миллиона параллельных чувашско-русских пар на HuggingFace под лицензией CC0 (Антонов, 2024). Проблема не в данных — в приоритетах разработчиков.
Что это значит для школ
Качество: Передовые модели набирают 3.0–3.5 из 4.0 по педагогическим задачам. Этого достаточно для черновика, но требуется доработка учителем.
152-ФЗ: Для школ, где данные не могут покидать сервер, лучший self-hosted вариант — Qwen3.5 27B (3.09 балла, 18 ГБ VRAM). Разрыв с лидером — 12%. Это компромисс, но приемлемый.
Региональные языки: Если школа находится в Чувашии, Татарстане или Башкирии — у неё нет ИИ-инструмента для работы с родным языком. Ноль. Это системная проблема, которую не решит ни одна существующая модель.
Что дальше
Мы разрабатываем ChuvashLM — первую модель для чувашского языка на базе Qwen3-32B. В рамках пилота планируем развернуть её локально в школе. Это — тема отдельной статьи.
EduBench-RU — открытый бенчмарк. Все промпты, результаты и код доступны на GitHub: github.com/csylabs-org/edubench-ru.
Если вы разрабатываете модели для русского языка — протестируйте их на наших промптах. Если вы носитель чувашского — помогите валидировать результаты ChuvashBench. Пишите в комментариях или на daniel@csylabs.com.