Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает.
Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.
Что внутри
50 промптов разбиты на 4 модуля:
Модуль |
Кол-во промптов |
Что тестируем |
|---|---|---|
A. Педагогика по ФГОС |
15 |
Технологические карты уроков, объяснения для учеников, анализ результатов ОГЭ |
B. Предметные знания |
10 |
Математика, русский язык, физика, биология, история, литература |
C. Учитель-копайлот |
10 |
КТП, характеристики учеников, родительские собрания, рубрики, инклюзия |
D. ChuvashBench |
15 |
Перевод, обучение чувашскому, культурный контекст, билингвальные уроки |
Модули A–C проверяют, может ли модель работать как помощник учителя в реальной российской школе. Модуль D — отдельная история, о которой ниже.
22 модели: от GPT-5.4 до GigaChat
Мы взяли все актуальные модели (март 2026):
Frontier: Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.4, Gemini 3.1 Pro, Gemini 2.5 Pro
Mid-tier: GPT-5.4 Mini, Gemini 2.5 Flash, Grok 4.1 Fast, Kimi K2.5, GLM 5, DeepSeek V3.2
Open-source: Qwen3 (8B, 14B, 32B, 235B), Qwen3.5 27B, Mistral Large 3, Llama 4 Maverick, Phi-4
Все модели тестировались через OpenRouter API с одинаковыми параметрами: max_tokens=8192, temperature=0.7, один и тот же системный промпт на русском.
Стоимость эксперимента: 1500 рублей за 2,4 миллиона выходных токенов.
Как оценивали
Вместо ручной оценки мы использовали LLM-as-judge — подход из оригинального EduBench. Два судьи:
GPT-5.4 (OpenAI) — основной судья
Claude Sonnet 4.6 (Anthropic) — второй судья
Зачем два? Чтобы поймать предвзятость. И мы её поймали: Sonnet систематически ставит на +0.49 балла выше, чем GPT. Особенно своим же моделям Claude. Ожидаемо. Консенсус (среднее двух судей) это сглаживает.
Каждый ответ оценивается по 5 измерениям (1–4 балла): педагогическое качество, качество русского языка, фактическая точность, практичность, знание российского контекста. Также добавляется 6-е измерение: использование чувашского языка.
Результаты: общий рейтинг
# |
Модель |
Общий |
Образование |
Чувашский |
Тип |
|---|---|---|---|---|---|
1 |
Gemini 3.1 Pro |
3.42 |
3.51 |
3.19 |
Closed |
2 |
Claude Opus 4.6 |
3.24 |
3.36 |
2.98 |
Closed |
3 |
Claude Sonnet 4.6 |
3.22 |
3.34 |
2.95 |
Closed |
4 |
Gemini 3.1 Flash Lite |
3.22 |
3.33 |
2.94 |
Closed |
5 |
Gemini 2.5 Pro |
3.21 |
3.31 |
2.98 |
Closed |
6 |
DeepSeek V3.2 |
3.15 |
3.28 |
2.85 |
Open |
7 |
GLM 5 |
3.15 |
3.28 |
2.84 |
Closed |
8 |
Mistral Large 3 |
3.14 |
3.28 |
2.81 |
Open |
9 |
GPT-5.4 |
3.09 |
3.23 |
2.78 |
Closed |
10 |
GPT-5.4 Mini |
2.99 |
3.19 |
2.51 |
Closed |
Полная таблица (22 модели)
# |
Модель |
Общий |
Образование |
Чувашский |
Тип |
|---|---|---|---|---|---|
11 |
Gemini 2.5 Flash |
2.99 |
3.03 |
2.88 |
Closed |
12 |
Qwen3.5 27B |
2.93 |
3.09 |
2.54 |
Open |
13 |
Grok 4.1 Fast |
2.87 |
3.14 |
2.21 |
Closed |
14 |
Qwen3 235B A22B |
2.72 |
3.04 |
1.97 |
Open |
15 |
GLM 4.7 Flash |
2.70 |
2.82 |
2.17 |
Open |
16 |
Qwen3 32B |
2.58 |
2.91 |
1.81 |
Open |
17 |
Llama 4 Maverick |
2.55 |
2.64 |
2.33 |
Open |
18 |
Qwen3 14B |
2.42 |
2.73 |
1.70 |
Open |
19 |
Qwen3 8B |
2.36 |
2.63 |
1.72 |
Open |
20 |
Command A |
2.25 |
2.44 |
1.79 |
Open |
21 |
Phi-4 14B |
1.63 |
1.68 |
1.51 |
Open |
Несколько наблюдений:
Gemini 3.1 Pro — неожиданный лидер. Не Claude, не GPT. Google. Самая сильная модель и по знаниям ФГОС, и по чувашскому одновременно.
GPT-5.4 — только 9-е место. Новейший флагман OpenAI уступает моделям Google и Anthropic на задачах для российских учителей.
Open-source отстаёт на 18%. Средний балл закрытых моделей: 3.30. Открытых: 2.80. Лучший открытый — DeepSeek V3.2 (3.28), почти догоняет топовый вариант.
ChuvashBench: вот тут всё плохо
А теперь главное. Модуль D — 15 промптов на чувашском языке: переводы, упражнения, грамматика, культурный контекст.
Распределение оценок точности чувашского (судья GPT-5.4):
Уровень |
Значение |
Моделей |
|---|---|---|
>3.0 |
В основном правильно |
0 |
2.0–3.0 |
Смесь правильного и выдуманного |
3 |
1.0–2.0 |
В основном галлюцинации |
14 |
=1.0 |
Полная галлюцинация |
5 |
Ни одна модель не набрала выше 3.0. Лучшие — Claude Opus, GPT-5.4 и Gemini 3.1 Pro — получили 2.1 из 4.0. Часть слов правильные (например, «Салам» — привет), часть — полностью выдуманные.
Пять моделей — все варианты Qwen3 и Phi-4 — получили ровно 1.0 на каждом промпте. Они генерируют текст, который выглядит как чувашский, но не является им.
А ведь чувашский — язык 1.1 миллиона человек. Официальный язык Чувашской Республики. На нём ведётся обучение в школах. ЮНЕСКО классифицирует его как «определённо находящийся под угрозой исчезновения». И ни одна нейросеть в мире не умеет на нём нормально работать.
При этом данные для обучения существуют: 2.9 миллиона предложений на чувашском и 1.4 миллиона параллельных чувашско-русских пар на HuggingFace под лицензией CC0 (Антонов, 2024). Проблема не в данных — в приоритетах разработчиков моделей.
Что это значит для школ
Качество: Передовые модели дают 3.0–3.5 из 4.0 для планирования уроков. Достаточно для черновика, но нужна доработка учителем.
152-ФЗ: Для школ, где данные учеников не могут покидать сервер, лучший self-hosted вариант — Qwen3.5 27B (3.09 баллов, 18 ГБ VRAM). Разрыв с лидером — 12%. Компромисс, но приемлемый.
Региональные языки: Если ваша школа в Чувашии, Татарстане, Башкирии — у вас нет ИИ-инструмента для родного языка. Ноль. Это проблема, которую не решит ни одна существующая модель.
Что дальше
Мы работаем над ChuvashLM — первой моделью для чувашского языка на основе Qwen3-32B. В пилоте развернём в школе локально для учителей. Но это тема отдельной статьи.
EduBench-RU — открытый бенчмарк. Все промпты, результаты и код:
GitHub: github.com/csylabs-org/edubench-ru
Если вы разрабатываете модели для русского языка — протестируйте на наших промптах. Если вы носитель чувашского — помогите валидировать результаты ChuvashBench. Пишите в комментариях или на daniel@csylabs.com.
Даниил Иванов — основатель ООО «ЛИИ» (Чебоксары), AI-решения для спорта, образования и культуры. Более 10 лет в инновациях в спорте.
Комментарии (9)

Korova-ugnetatel
25.03.2026 05:00Простите за тупой вопрос: почему не тестировали российские модели, обученные на корпусе российских текстов?
Гигачат и нейросетки Яндекса по идее должны хорошо справляться с такими заданиями?

daniel_ivanov Автор
25.03.2026 05:00Вопрос отличный и я тоже им задался после первого отчета :)
Тестировал: GigaChat-2 (Lite, Pro, Max) и YandexGPT (5 Lite, 5.1 Pro) — все пять входят в расширенный тест, готовлю к релизу. Результат: места с 21 по 28. GigaChat-2 Max набрал 2.39/4.0, YandexGPT 5.1 Pro — 2.51/4.0.
Для сравнения: дообученная открытая модель на 27B параметров набрала 3.21/4.0. Разница — не в размере модели, а в том, есть ли в обучающей выборке российские прикладные знания. У GigaChat и YandexGPT, видимо, этого слоя недостаточно.

maximtkachev
25.03.2026 05:00Самое времязатратное и рутинное - проверка тетрадей. КТП, характеристики и прочие приколы вылезают пару раз в год (ктп вообще берётся исключительно из официального конструктора и менять его запрещается под страхом смерти). И ни одна нейросеть не может с этим помочь. Так что смысл от внедрения этой ерунды околонулевой.

daniel_ivanov Автор
25.03.2026 05:00Согласен — проверка тетрадей это ежедневная боль, и ни одна нейросеть пока не умеет смотреть на рукописный текст ученика (OCR есть и в принципе может работать с любым текстом, но есть нюансы) и проверять его содержательно.
Бенчмарк сознательно сфокусирован на другом слое: подготовка к урокам, формирование характеристик, генерация заданий, адаптация материалов под разные группы учеников. Это не проверка тетрадей — но это часы работы каждую неделю.
Ваш комментарий важный — если бенчмарк не покрывает главную боль, его практическая ценность ограничена. Буду думать, как добавить задачи ближе к ежедневным, для чего планирую живой пилот в школе. Скептицизма уже услышал много :)

Tassdesu
25.03.2026 05:00Спасибо! Очень интересный бенчмарк получился. Удивили результаты GPT-5.4
Попробуйте на нём Qwen3.5-9b прогнать. Очень маленькая, но очень способная модель.

daniel_ivanov Автор
25.03.2026 05:00Спасибо! Честно скажу - меня очень удивили модели Gemini в связке с заданиями на чувашском (локальный для нас, которым пользуются довольно многие) языке. GPT / Claude на данный момент все же по рейтингам в моей голове выше Gemini были.
Qwen3.5-9b — хорошая идея, добавлю в следующий раунд, но пока что взял 27b с планом на дистилл, сейчас первая итерация закончена, готовлю материал. Интересно посмотреть, как маленькие модели справляются с задачами, где нужна специфическая предметная база.

stas-clear
25.03.2026 05:00Вы молодцы, я считаю что в этом должна активно участвовать и спонсировать региональная система образования. Пусть выделяют на это определенный бюджет, это важно.
NutsUnderline
сам по себе набор результатов интересен, но хотелось бы чутоку видеть что стоит за подобными формулировками
daniel_ivanov Автор
Бенчмарк содержит 5 категорий задач — технологические карты уроков по ФГОС, подготовка к ОГЭ/ЕГЭ, характеристики учеников, работа с родителями, адаптация под региональный контекст.
Каждый ответ оценивается по 5 параметрам (педагогическое качество, язык, фактология, применимость, региональный контекст) тремя независимыми судьями (GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro добавлена сегодня).
Планируется пилот для использования в реальных условиях.
Сам бенчмарк открытый: github.com/csylabs-org/edubench-ru — можно посмотреть и задания, и текущую методологию оценки.