Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский / forpes.ru

Главная
Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский +5

25.03.2026 04:46

daniel_ivanov 9 5900 Источник

Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает.

Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.

Что внутри

50 промптов разбиты на 4 модуля:

Модуль	Кол-во промптов	Что тестируем
A. Педагогика по ФГОС	15	Технологические карты уроков, объяснения для учеников, анализ результатов ОГЭ
B. Предметные знания	10	Математика, русский язык, физика, биология, история, литература
C. Учитель-копайлот	10	КТП, характеристики учеников, родительские собрания, рубрики, инклюзия
D. ChuvashBench	15	Перевод, обучение чувашскому, культурный контекст, билингвальные уроки

Модули A–C проверяют, может ли модель работать как помощник учителя в реальной российской школе. Модуль D — отдельная история, о которой ниже.

22 модели: от GPT-5.4 до GigaChat

Мы взяли все актуальные модели (март 2026):

Frontier: Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.4, Gemini 3.1 Pro, Gemini 2.5 Pro
Mid-tier: GPT-5.4 Mini, Gemini 2.5 Flash, Grok 4.1 Fast, Kimi K2.5, GLM 5, DeepSeek V3.2
Open-source: Qwen3 (8B, 14B, 32B, 235B), Qwen3.5 27B, Mistral Large 3, Llama 4 Maverick, Phi-4

Все модели тестировались через OpenRouter API с одинаковыми параметрами: max_tokens=8192, temperature=0.7, один и тот же системный промпт на русском.

Стоимость эксперимента: 1500 рублей за 2,4 миллиона выходных токенов.

Как оценивали

Вместо ручной оценки мы использовали LLM-as-judge — подход из оригинального EduBench. Два судьи:

GPT-5.4 (OpenAI) — основной судья
Claude Sonnet 4.6 (Anthropic) — второй судья

Зачем два? Чтобы поймать предвзятость. И мы её поймали: Sonnet систематически ставит на +0.49 балла выше, чем GPT. Особенно своим же моделям Claude. Ожидаемо. Консенсус (среднее двух судей) это сглаживает.

Каждый ответ оценивается по 5 измерениям (1–4 балла): педагогическое качество, качество русского языка, фактическая точность, практичность, знание российского контекста. Также добавляется 6-е измерение: использование чувашского языка.

Результаты: общий рейтинг

#	Модель	Общий	Образование	Чувашский	Тип
1	Gemini 3.1 Pro	3.42	3.51	3.19	Closed
2	Claude Opus 4.6	3.24	3.36	2.98	Closed
3	Claude Sonnet 4.6	3.22	3.34	2.95	Closed
4	Gemini 3.1 Flash Lite	3.22	3.33	2.94	Closed
5	Gemini 2.5 Pro	3.21	3.31	2.98	Closed
6	DeepSeek V3.2	3.15	3.28	2.85	Open
7	GLM 5	3.15	3.28	2.84	Closed
8	Mistral Large 3	3.14	3.28	2.81	Open
9	GPT-5.4	3.09	3.23	2.78	Closed
10	GPT-5.4 Mini	2.99	3.19	2.51	Closed

Полная таблица (22 модели)

#	Модель	Общий	Образование	Чувашский	Тип
11	Gemini 2.5 Flash	2.99	3.03	2.88	Closed
12	Qwen3.5 27B	2.93	3.09	2.54	Open
13	Grok 4.1 Fast	2.87	3.14	2.21	Closed
14	Qwen3 235B A22B	2.72	3.04	1.97	Open
15	GLM 4.7 Flash	2.70	2.82	2.17	Open
16	Qwen3 32B	2.58	2.91	1.81	Open
17	Llama 4 Maverick	2.55	2.64	2.33	Open
18	Qwen3 14B	2.42	2.73	1.70	Open
19	Qwen3 8B	2.36	2.63	1.72	Open
20	Command A	2.25	2.44	1.79	Open
21	Phi-4 14B	1.63	1.68	1.51	Open

Несколько наблюдений:

Gemini 3.1 Pro — неожиданный лидер. Не Claude, не GPT. Google. Самая сильная модель и по знаниям ФГОС, и по чувашскому одновременно.

GPT-5.4 — только 9-е место. Новейший флагман OpenAI уступает моделям Google и Anthropic на задачах для российских учителей.

Open-source отстаёт на 18%. Средний балл закрытых моделей: 3.30. Открытых: 2.80. Лучший открытый — DeepSeek V3.2 (3.28), почти догоняет топовый вариант.

ChuvashBench: вот тут всё плохо

А теперь главное. Модуль D — 15 промптов на чувашском языке: переводы, упражнения, грамматика, культурный контекст.

Распределение оценок точности чувашского (судья GPT-5.4):

Уровень	Значение	Моделей
>3.0	В основном правильно	0
2.0–3.0	Смесь правильного и выдуманного	3
1.0–2.0	В основном галлюцинации	14
=1.0	Полная галлюцинация	5

Ни одна модель не набрала выше 3.0. Лучшие — Claude Opus, GPT-5.4 и Gemini 3.1 Pro — получили 2.1 из 4.0. Часть слов правильные (например, «Салам» — привет), часть — полностью выдуманные.

Пять моделей — все варианты Qwen3 и Phi-4 — получили ровно 1.0 на каждом промпте. Они генерируют текст, который выглядит как чувашский, но не является им.

А ведь чувашский — язык 1.1 миллиона человек. Официальный язык Чувашской Республики. На нём ведётся обучение в школах. ЮНЕСКО классифицирует его как «определённо находящийся под угрозой исчезновения». И ни одна нейросеть в мире не умеет на нём нормально работать.

При этом данные для обучения существуют: 2.9 миллиона предложений на чувашском и 1.4 миллиона параллельных чувашско-русских пар на HuggingFace под лицензией CC0 (Антонов, 2024). Проблема не в данных — в приоритетах разработчиков моделей.

Что это значит для школ

Качество: Передовые модели дают 3.0–3.5 из 4.0 для планирования уроков. Достаточно для черновика, но нужна доработка учителем.

152-ФЗ: Для школ, где данные учеников не могут покидать сервер, лучший self-hosted вариант — Qwen3.5 27B (3.09 баллов, 18 ГБ VRAM). Разрыв с лидером — 12%. Компромисс, но приемлемый.

Региональные языки: Если ваша школа в Чувашии, Татарстане, Башкирии — у вас нет ИИ-инструмента для родного языка. Ноль. Это проблема, которую не решит ни одна существующая модель.

Что дальше

Мы работаем над ChuvashLM — первой моделью для чувашского языка на основе Qwen3-32B. В пилоте развернём в школе локально для учителей. Но это тема отдельной статьи.

EduBench-RU — открытый бенчмарк. Все промпты, результаты и код:

GitHub: github.com/csylabs-org/edubench-ru

Если вы разрабатываете модели для русского языка — протестируйте на наших промптах. Если вы носитель чувашского — помогите валидировать результаты ChuvashBench. Пишите в комментариях или на daniel@csylabs.com.

Даниил Иванов — основатель ООО «ЛИИ» (Чебоксары), AI-решения для спорта, образования и культуры. Более 10 лет в инновациях в спорте.

Комментарии (9)

NutsUnderline
25.03.2026 05:00
#29719694
может ли модель работать как помощник учителя в реальной российской школе.

сам по себе набор результатов интересен, но хотелось бы чутоку видеть что стоит за подобными формулировками
1. daniel_ivanov Автор
  25.03.2026 05:00
  #29723928
  Бенчмарк содержит 5 категорий задач — технологические карты уроков по ФГОС, подготовка к ОГЭ/ЕГЭ, характеристики учеников, работа с родителями, адаптация под региональный контекст.
  
  Каждый ответ оценивается по 5 параметрам (педагогическое качество, язык, фактология, применимость, региональный контекст) тремя независимыми судьями (GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro добавлена сегодня).
  
  Планируется пилот для использования в реальных условиях.
  
  Сам бенчмарк открытый: github.com/csylabs-org/edubench-ru — можно посмотреть и задания, и текущую методологию оценки.

Korova-ugnetatel
25.03.2026 05:00
#29719724
Простите за тупой вопрос: почему не тестировали российские модели, обученные на корпусе российских текстов?

Гигачат и нейросетки Яндекса по идее должны хорошо справляться с такими заданиями?
1. daniel_ivanov Автор
  25.03.2026 05:00
  #29723938
  Вопрос отличный и я тоже им задался после первого отчета :)
  
  Тестировал: GigaChat-2 (Lite, Pro, Max) и YandexGPT (5 Lite, 5.1 Pro) — все пять входят в расширенный тест, готовлю к релизу. Результат: места с 21 по 28. GigaChat-2 Max набрал 2.39/4.0, YandexGPT 5.1 Pro — 2.51/4.0.
  
  Для сравнения: дообученная открытая модель на 27B параметров набрала 3.21/4.0. Разница — не в размере модели, а в том, есть ли в обучающей выборке российские прикладные знания. У GigaChat и YandexGPT, видимо, этого слоя недостаточно.

maximtkachev
25.03.2026 05:00
#29719746
Самое времязатратное и рутинное - проверка тетрадей. КТП, характеристики и прочие приколы вылезают пару раз в год (ктп вообще берётся исключительно из официального конструктора и менять его запрещается под страхом смерти). И ни одна нейросеть не может с этим помочь. Так что смысл от внедрения этой ерунды околонулевой.
1. daniel_ivanov Автор
  25.03.2026 05:00
  #29723946
  Согласен — проверка тетрадей это ежедневная боль, и ни одна нейросеть пока не умеет смотреть на рукописный текст ученика (OCR есть и в принципе может работать с любым текстом, но есть нюансы) и проверять его содержательно.
  
  Бенчмарк сознательно сфокусирован на другом слое: подготовка к урокам, формирование характеристик, генерация заданий, адаптация материалов под разные группы учеников. Это не проверка тетрадей — но это часы работы каждую неделю.
  
  Ваш комментарий важный — если бенчмарк не покрывает главную боль, его практическая ценность ограничена. Буду думать, как добавить задачи ближе к ежедневным, для чего планирую живой пилот в школе. Скептицизма уже услышал много :)

Tassdesu
25.03.2026 05:00
#29721056
Спасибо! Очень интересный бенчмарк получился. Удивили результаты GPT-5.4

Попробуйте на нём Qwen3.5-9b прогнать. Очень маленькая, но очень способная модель.
1. daniel_ivanov Автор
  25.03.2026 05:00
  #29723954
  Спасибо! Честно скажу - меня очень удивили модели Gemini в связке с заданиями на чувашском (локальный для нас, которым пользуются довольно многие) языке. GPT / Claude на данный момент все же по рейтингам в моей голове выше Gemini были.
  
  Qwen3.5-9b — хорошая идея, добавлю в следующий раунд, но пока что взял 27b с планом на дистилл, сейчас первая итерация закончена, готовлю материал. Интересно посмотреть, как маленькие модели справляются с задачами, где нужна специфическая предметная база.

stas-clear
25.03.2026 05:00
#29725358
Вы молодцы, я считаю что в этом должна активно участвовать и спонсировать региональная система образования. Пусть выделяют на это определенный бюджет, это важно.

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский +5

Что внутри

22 модели: от GPT-5.4 до GigaChat

Как оценивали

Результаты: общий рейтинг

ChuvashBench: вот тут всё плохо

Что это значит для школ

Что дальше

Комментарии (9)

NutsUnderline

daniel_ivanov Автор

Korova-ugnetatel

daniel_ivanov Автор

maximtkachev

daniel_ivanov Автор

Tassdesu

daniel_ivanov Автор

stas-clear