Продолжение. В первой статье мы протестировали 30 нейросетей на задачах для российских учителей. Российские модели заняли последние места. Но строчка #9 — наша: дообученная модель за ~30 000₽, которая работает локально. Вот как мы её сделали.
Зачем вообще дообучать
В комментариях к первой статье справедливо спросили — почему российские модели плохи? GigaChat-2 Max набрал 2.39 из 4, YandexGPT 5.1 Pro — 2.51. Ответ простой: в обучающей выборке этих моделей мало российских школьных задач, они оптимизированы под чат, не под образовательную деятельность.
Та же проблема у GPT-5.4 — он набрал 3.2 из 4. Хорошо, но не лучший вариант, он знает, что такое урок, но не знает, как его правильно оформить по российскому стандарту.
Вторая причина практическая. По 152-ФЗ российские школы не могут использовать иностранные облачные модели для работы с данными учеников. Нужно что-то, что можно развернуть локально.
Выбор базовой модели
Мы выбрали Qwen3.5-27B — открытую модель от Alibaba.
Почему именно она:
Критерий |
Qwen3.5-27B |
Альтернативы |
|---|---|---|
Архитектура |
Dense (все 27B работают) |
MoE-модели: активны только 3-22B |
Языки |
119, включая тюркскую группу |
GigaChat — только русский |
Развёртывание |
Q6_K ~20GB → помещается на Mac Mini M4 Pro |
70B+ — нужна серверная карта |
Дообучение |
QLoRA на 1 GPU за 17 часов |
GPT-5.4 — вообще нельзя дообучить |
Тюркские языки важны, потому что в бенчмарке есть Модуль D — ChuvashBench (чувашский язык, тюркская группа). Модель, которая видела турецкий и казахский, лучше отработает на чувашском.
Почему 27B победила 32B
Это было неожиданно. Мы параллельно обучили две модели:
Модель |
Параметры |
Время на H200 |
Training Loss |
Итоговый скор |
|---|---|---|---|---|
EduLLM-RU 27B (Qwen3.5) |
27B |
~6 ч |
0.51 |
3.21 |
EduLLM-RU 32B (Qwen3) |
32B |
~16 ч |
0.47 |
2.69 |
32B модель показала лучший training loss (ниже = лучше), но на реальных задачах проиграла на 0.52 пункта. Потратили на неё почти в 3 раза больше GPU-времени и получили результат хуже.
Причина: Qwen3.5 — более новая архитектура, чем Qwen3. Даже при меньшем количестве параметров она лучше работает с русским языком и структурированными задачами. Урок: архитектура важнее размера.
Данные: 30 000 рублей за 30 000 пар
Дообучение — это прежде всего данные. Нет хорошего открытого датасета для российского образования. Пришлось создавать с нуля.
Подход: CRAFT (Corpus Retrieval and Augmented Fine-Tuning, ACL 2025). Суть: берём реальные образовательные материалы как затравку → генерируем на их основе пары “запрос-ответ” с помощью сильных моделей.
Затравочные данные (все открытые):
MMLU-RU — 14K вопросов, 57 предметов
MERA — 80K+ задач (ruworldtree: 640 экзаменационных вопросов по классам)
gsm8k-ru — 8.7K математических задач
Параллельный чувашско-русский корпус — 1.46M пар
Технологические карты от учителей-пилотов (200+ планов)
EduBench-RU промпты (50 задач) как шаблоны
Генерация:
Задача |
Модель-генератор |
Объём |
Стоимость |
|---|---|---|---|
Образовательные пары (20 категорий) |
Claude Sonnet 4.6 (Batch API) |
20 000 |
$260 |
Чувашские пары (10 категорий) |
Gemini 3.1 Pro (Batch API) |
10 000 |
~$40 |
Итого |
30 000 |
~$310 |
Batch API экономит ~50% стоимости. 20 000 образовательных пар сгенерировались за 40 минут при Tier 4 лимитах.
Фильтрация: Минимальная — дедупликация по сходству слов (Jaccard >0.85). Удалили 16 дубликатов из 30 000 (0.05%). Не использовали LLM-фильтр: фильтровать выходы Sonnet 4.6 (#5 в нашем бенчмарке) с помощью модели слабее — бессмысленно. Контроль качества — по итогам обучения, на бенчмарке.
GPU-время: Обучали на арендованном H200 (пример - Vast.ai, ~$3.80/час). QLoRA на 27B модели заняла ~6 часов.
Статья |
Стоимость |
|---|---|
Генерация данных (Anthropic + Google API) |
$310 |
GPU-аренда (H200, 6 часов × $3.80) |
~$23 |
Итого |
~$330 (~30 000₽) |
GPU-аренда — это ~7% бюджета. Основные расходы — генерация данных.
Обучение: QLoRA за 17 часов
QLoRA (Quantized Low-Rank Adaptation) — дообучаем не всю модель, а маленькие адаптеры поверх неё. Это позволяет обучить 27B модель на одной GPU.
Конфигурация:
Метод: QLoRA, rank 64, alpha 128
GPU: NVIDIA H200 (80GB HBM3e)
Время: ~6 часов (27B) / ~16 часов (32B)
Фреймворк: Unsloth (ускоряет обучение LoRA ~2×)
Формат данных: ShareGPT (conversation format)
Сплит: 28 484 train / 1 500 val (95/5)
Результат: строчка #9
EduLLM-RU 27B заняла 9 место из 30 моделей с баллом 3.21 из 4.
Для контекста — вот окружение:
# |
Модель |
Балл |
Тип |
|---|---|---|---|
8 |
Kimi K2.5 |
3.22 |
Облако |
9 |
EduLLM-RU 27B (наша) |
3.21 |
Локальная |
10 |
GLM 5 |
3.20 |
Облако |
11 |
GPT-5.4 |
3.20 |
Облако |
Важная оговорка: разница с GPT-5.4 — 0.01 балла. Это на грани статистической погрешности, говорить, что мы “обогнали GPT-5.4” — технически верно, но честнее сказать: мы вышли на один уровень. Разница в том, что подготовка нашей модели стоила 30 000 рублей и работает локально, а GPT-5.4 — нет.
По отдельным модулям:
Модуль |
EduLLM-RU 27B |
GPT-5.4 |
Разница |
|---|---|---|---|
A+B+C (образование) |
3.35 |
3.33 |
+0.02 |
D (чувашский) |
2.64 |
2.82 |
−0.18 |
На образовательных задачах (Модули A-C) мы немного впереди. На чувашском — GPT-5.4 лучше. Дообучение на чувашский — следующий этап.
Что пошло не так
32B провалилась. 45 часов обучения, всё выглядело хорошо по training loss — а на бенчмарке проиграла 27B на полбалла. Потерянные сутки GPU-времени.
max_tokens ловушка с Gemini. При оценке моделей через Gemini 3.1 Pro, если поставить
max_tokens: 512— JSON обрезается, потому что reasoning tokens съедают бюджет. Поставили 4096, чтобы получить надёжный вывод.Судьи при оценке не согласны друг с другом. GPT-5.4 стабильно ставит выше за “actionability” (конкретные шаги), Gemini строже к фактической точности. Разброс ±0.3 балла на одной и той же работе — поэтому мы используем консенсус трёх судей, а не одного.
Чувашский язык. Нет автоматического gold standard для проверки. Валидация требует носителей языка. Пока проверяем вручную — это не масштабируется.
Как это работает в реальной школе
Модель готовится к развертыванию на csylabs.com — планируется приватный инстанс на серверах Selectel. Данные не уходят за пределы российской инфраструктуры: это принципиальное требование по 152-ФЗ для школ. Сейчас в тесте работают несколько учителей в пилотном режиме.
Что они делают:
Подготовка заданий для ОГЭ
Адаптация материалов под разный уровень учеников
Консультация по формулировкам характеристик
Чего модель не делает (и это нормально):
Не проверяет тетради (справедливо отметили в комментариях к первой статье — это задача компьютерного зрения, до неё далеко)
Не заменяет учителя (относится и к первому пункту)
Что дальше
Qwen3.5-9b — в комментариях попросили протестировать. Добавим в следующий раунд. Интересно, как маленькая модель нового поколения покажет себя на специализированных задачах, в идеале попробовать и версию 3.6.
Чувашский LoRA — отдельный адаптер на ту же базу. Цель: закрыть разрыв в 0.18 балла с GPT-5.4 на Module D.
Расширение бенчмарка — задачи ближе к ежедневной рутине учителя: генерация вариантов контрольных работ, адаптация учебника и конкретного урока под стиль преподавателя, составление отчётности.
Открытые данные — если получится договориться с институтами (ЧГИГН, ЧГУ), опубликуем обучающий датасет, пока он синтетический. Готовимся разворачивать EduLLM-RU для школ и вузов по открытой методологии — csylabs.com/llm-integrator.
Бенчмарк: github.com/csylabs-org/edubench-ru
Если у вас есть школа, которая хочет попробовать — напишите. Ищем пилотные площадки.
Я — основатель ООО ЛИИ (Лаборатория инновационных инициатив). Пишу в @techaroundsports и на daniel.csylabs.com.
Комментарии (2)

Politura
22.04.2026 15:05это задача компьютерного зрения, до неё далеко
Qwen3.5 - мультимодальные модели, причем при распознавании рукописного текста понимают и очень корявый почерк, как минимум английский, проверьте свою обученную модель, может все будет хорошо.
Кстати, только что вышла 3.6 27b :)
Javian
Буквально это издать массовым тиражом две-три методических книги по каждому предмету. Назывались эти серии книг "Библиотека учителя ..."