MARKER: Собираем свой русскоязычный мультимодальный датасет для оценки VLM / forpes.ru

Главная
MARKER: Собираем свой русскоязычный мультимодальный датасет для оценки VLM

MARKER: Собираем свой русскоязычный мультимодальный датасет для оценки VLM +15

23.09.2025 10:40

deming 0 494 Источник

Привет, Хабр! Меня зовут Игорь Рябков. В этой статье расскажу, как мы собрали датасет для оценки Visual Language Models на русском языке и с учетом нашего культурного контекста. Этот проект появился в рамках исследовательской работы в Инженерно-математической школе НИУ ВШЭ и VK под руководством Александра Рогачева (AI VK). Опыт показал — собрать подобный датасет под свои задачи можно и без огромных ресурсов, если подойти к делу системно.

Современные Visual Language Models — мультимодальные братья больших языковых моделей, способные одновременно читать тексты и анализировать изображения. Казалось бы, такие модели открывают множество новых возможностей и для российских пользователей. Однако большинство известных датасетов для VLM — MMBench, MMMU, MME — ориентированы на английский язык и западную аудиторию. Локальные решения вроде K-Viscuit (Корея) и MERA (Россия) только начинают появляться, но их пока недостаточно. Поэтому мы решили собрать датасет, который бы учитывал специфику русского языка и мог покрыть задачи, актуальные для нашего контекста.

Так появился MARKER: Multimodal Assessment of Russian Knowledge in Educational Realms, который уже доступен на Hugging Face.

Почему перевод датасетов — не решение?

Англоязычные датасеты уже содержат разнообразные примеры текстовых заданий и картинок. Почему бы не предположить, что для решения проблемы, нужно просто перевести их на русский язык. Однако дело даже не в языке, а в контексте, в котором он употребляется. В подобных датасетах вряд ли будут упоминаться русские исторические деятели, достопримечательности, традиции и культурные особенности. Даже сам язык своей структурой может передавать дополнительные смыслы, которые теряются при переводе. Например, в датасете MMMU отсутствуют задания по русской истории и культуре — модель может знать Вашингтона, но не Суворова. Вот почему перевод — это только полумера, а полноценный датасет, созданный с учётом локальных реалий, необходим для качественного дообучения или объективной оценки мультимодальных моделей.

Наша цель — сформировать датасет на русском языке, подходящий для дообучения и оценки актуальных VLM в контексте русскоязычной культуры. А также исследовать работоспособность этих моделей на собранных данных.

Существующие датасеты

В настоящее время существует значительное количество датасетов, созданных специально для работы с современными Vision-Language Models (VLM). Например, датасеты MME, MMMU, MMBench:

MME - содержит 14 подзадач, данные для которых собирались вручную. Вопросы представлены в формате "Да/Нет". Авторы ставили целью проверить способности моделей к восприятию и анализу как крупных (coarse-grained), так и мелких (fine-grained) объектов.
MMBench - охватывает широкий спектр навыков, которые авторы условно разделили на блоки восприятия и рассуждения. Его уникальность заключается в использовании фирменного метода тестирования под названием CircularEval. Идея этого метода заключается в том, чтобы задать модели один и тот же вопрос четыре раза с циклическим сдвигом вариантов ответов. Такой подход призван уменьшить влияние формата вопроса на итоговый результат модели.
MMMU - помимо восприятия и рассуждения, также оценивает знания моделей. Авторы пришли к выводу, что примерно 30% всех ошибок современных моделей возникают из-за недостатка знаний (в качестве тестируемой модели использовалась GPT-4V). Датасет охватывает шесть дисциплин: искусство, науку, бизнес, медицину, социологию и IT. Качество сбора данных также довольно высокое, так как их собирали студенты из различных областей.

Как устроены современные VLM

Прежде чем перейти к нашему датасету, кратко рассмотрим архитектуру современных VLM. Обычно такие модели состоят из двух основных компонентов: визуального энкодера и языковой модели (LLM). Схема работы выглядит следующим образом: изображение обрабатывается визуальным энкодером (например, CLIP или ViT), а текст — отдельным трансформером-LLM. После этого полученные представления необходимо каким-то образом объединить для дальнейшей работы.

Существует несколько общих подходов к мульти-модальному слиянию:

Раннее слияние (Early fusion) – склеиваем токены текста и изображения до обработки. Например, мы можем конкатенировать вектор представления изображения с токенами текста и закинуть всё в один трансформер. Тут модель сразу учится учитывать оба вида данных одновременно.
Позднее слияние (Late fusion) – сначала раздельно обрабатываем текст и картинку, а потом как-то сопоставляем эмбеддинги. Классика – CLIP: у него отдельный энкодер для изображения и для текста, а в финале модель минимизирует косинусное расстояние между векторами.
Адаптеры (Adapters) – вставные модули между слоями трансформера. Например, BLIP-2 использует Q-Former: это адаптер, который дергает визуальные фичи и скармливает их в LLM. Проще говоря, картинку кодирует ViT, потом Q-Former превращает результат в слова-фичи, и уже подаёт их в языковой трансформер.
Совместное обучение (Cross-attention, Fusion layers) – учим одну модель сразу обрабатывать оба потока. Это может быть один общий трансформер, принимающий на вход и текстовые, и визуальные токены; или использование cross-attention между двумя ветками.

Фишки у разных VLM могут быть разными: некоторые делают упор на мощный vision-энкодер (например, InternVL с InternViT-6B), другие – на гибкость позиционных кодировок (Qwen2.5-VL с 2D-позиционным кодированием), третьи – на сложные механизмы внимания. Но всегда в основе – объединение двух модальностей.

Процесс сбора данных

Сбор данных — задача не из простых: она требует значительных временных и человеческих ресурсов, а сам процесс зачастую оказывается утомительным и рутинным. Поэтому на старте мы тщательно подошли к выбору доменов, которые можно было бы охватить в рамках ограниченных возможностей, но при этом получить максимально широкий охват знаний.

В качестве оптимального решения мы выбрали материалы из школьной и вузовской программы. Это позволило нам опереться на уже структурированные и проверенные источники: учебники, образовательные сайты и онлайн-курсы.

Ручной сбор информации с таких ресурсов — процесс долгий и неэффективный, поэтому мы использовали несколько подходов для ускорения и автоматизации:

Буфер обмена. Один из самых простых и эффективных инструментов для быстрого сбора информации — это буфер обмена. С его помощью можно оперативно сохранять как текстовые фрагменты, так и визуальные данные (например, скриншоты). Использование специализированных инструментов, работающих с буфером обмена, ускоряет процесс сбора данных в 3–5 раз по сравнению с ручным копированием. К тому же такие инструменты универсальны и подходят для самых разных типов источников.

Парсинг с помощью BeautifulSoup и Scrapy. Для сайтов с простой структурой мы использовали библиотеки BeautifulSoup и Scrapy. Конечно, не все ресурсы позволяют свободно парсить свои страницы, в тех случаях, где это возможно, такой подход выделяется высокой эффективностью и значительно экономит время.

Имитация действий пользователя. В случае структурно сложных сайтов, где классический парсинг не работает (например, из-за динамической подгрузки контента или защиты от ботов), мы прибегали к инструментам, имитирующим действия пользователя: движение мыши, нажатия клавиш и т.д. Такие методы менее стабильны и гораздо медленнее, но даже с учётом всех ограничений они позволяют автоматизировать сбор данных и существенно снизить долю ручной работы.

Благодаря сочетанию этих подходов нам удалось собрать репрезентативный и разнообразный датасет, не выходя за рамки доступных ресурсов и сроков.

Собранные данные: особенности каждого сплита

В результате нашей работы был сформирован репрезентативный датасет, охватывающий различные области знаний: Искусство, История, География, Локации, Математика и Физика. Для каждого сплита мы применяли свой подход к сбору и формулировке заданий, чтобы учесть особенности источников и разнообразить типы задач.

Points scored — Состав собранного бенчмарка

История и Искусство

Цель сплита — выяснить, способны ли модели узнавать и интерпретировать произведения искусства и исторические артефакты по изображениям.

Источники: Материалы школьных учебников (6–9 классы)

Методы: Для сбора данных преимущественно использовались инструменты работы с буфером обмена, что позволило быстро и эффективно сохранять изображения (гравюры, картины, скульптуры) и их описания из различных учебников и образовательных ресурсов.

Формат задач: Множественный выбор. Задачи делятся на две категории: общие — поиск правильного описания для изображения, и специфические — вопросы о создателе, дате создания, художественном стиле, изображённых событиях и известных личностях.

Уникальные особенности: Сбор данных осуществлялся в два этапа. На первом этапе вручную с использованием буфера обмена формировалась база изображений и кратких описаний, что обеспечило высокое качество исходного материала. На втором этапе из описаний автоматически извлекались ключевые объекты (имена, даты, названия), после чего вручную формулировались уточняющие и расширяющие вопросы. Такой подход позволил не только разнообразить типы задач, но и повысить их информативность и сложность.

Примеры задач из блока "История" — Примеры задач из блока «История»

Локации

Идея создания данного сплита заключалась в том, чтобы проверить, насколько хорошо модели способны ориентироваться в пространстве и распознавать места на территории России.

Источники: Основной источник - карты, так как они предоставляют как визуальные данные о местности, так и точные координаты.

Методы сбора: В процессе сбора классический парсинг оказался неэффективен, поэтому мы использовали имитацию действий пользователя. Такой подход позволил автоматически собрать датасет с качественными изображениями и точной разметкой практически без ручного участия

Формат задач: Множественный выбор. Каждое задание представляет собой аэрофотоснимок, по которому требуется выбрать правильный регион России из предложенного списка.

Уникальные особенности: В данном сплите мы сосредоточились исключительно на изображениях, сделанных с дронов: они отличаются высоким качеством, охватывают большие территории и включают труднодоступные места.

География

Идея сплита — оценить способность моделей анализировать и сопоставлять различные географические данные, а также работать с комплексными визуальными материалами.

Источники: Учебники разных лет, атласы, задачники с готовыми вопросами и ответами, а также специализированные сборники таблиц.

Методы сбора: На момент создания данного сплита метод сбора данных через буфер обмена уже отлично зарекомендовал себя при работе с PDF-файлами, поэтому именно его мы выбрали в качестве основного инструмента.

Формат задач: Множественный выбор. Географический сплит отличается большим разнообразием типов заданий: здесь встречаются как классические вопросы на определение географических объектов по карте, так и более сложные задания на анализ и сопоставление различных визуальных материалов — диаграмм, климатограмм, таблиц и схем. Многие задачи, взятые из специализированных задачников, уже содержали уникальные формулировки, что позволило включить в сплит широкий спектр нестандартных вопросов. В тех случаях, когда готовых заданий не было, для каждого визуального элемента сами вопросы формулировались вручную

Уникальные особенности: В отличие от других сплитов, география стала первым направлением, где задачи требуют анализа сразу нескольких изображений — например, сопоставления карты и диаграммы или поиска взаимосвязей между двумя климатограммами. Такой подход позволяет моделям не просто узнавать отдельные факты, а действительно «собирать картину» из разрозненных визуальных источников. Кроме того, именно в этом сплите мы впервые отказались от фиксированного числа вариантов ответа: их количество варьируется от 2 до 5, что делает задания ближе к реальным экзаменационным ситуациям и усложняет выбор.

Математика

Цель сплита заключается в оценке способностей моделей к кросс-модальному мышлению и измерении их математических навыков

Источники: В отличие от истории и искусства, где основным источником служили учебники, здесь мы столкнулись с ограничениями: большинство открытых ресурсов для подготовки к экзаменам (ЕГЭ/ОГЭ) защищают свои материалы вотермарками и не приветствуют заимствование. Оптимальным решением стали сайты с ГДЗ — они проще устроены, их легко парсить, и контент там обновляется регулярно.

Методы сбора: Классический парсинг html страниц через Beautiful Soup и Scrapy.

Формат задач: Множественный выбор. Основной упор сделан на задания 1–5 из ОГЭ по математике. Такие задачи требуют сопоставления длинных текстовых условий с несколькими изображениями, схемами или диаграммами. Для полноты картины мы также добавили задания на работу с графиками и экономические задачи из ЕГЭ — они дополняют основной пул и расширяют спектр проверяемых навыков.

Уникальные особенности: Изначально мы хотели сосредоточиться на геометрии, но быстро поняли, что во многих задачах рисунки скорее иллюстрируют текст, чем несут самостоятельную смысловую нагрузку. Поэтому в финальной версии сплита фокус был смещён в сторону графиков, диаграмм и схем.

Физика (классический формат множественного выбора)

Идея сплита — проверить, насколько хорошо модели справляются с классическими задачами по физике, требующими точного понимания условий, формул и базовых физических принципов

Источники: Вопросы из современного школьного задачника по физике.

Методы сбора: Для сбора данных мы использовали буфер обмена, однако столкнулись с трудностями: многие условия содержат сложные формулы, которые не всегда корректно копируются. Для их распознавания мы применили OCR DeepSeek — этот инструмент хорошо справляется с формулами и сразу переводит их в удобные форматы (Latex/Markdown)

Формат задач: Множественный выбор, классические вопросы из задачников для подготовки к ЕГЭ. В большинстве случаев требуется указать числовой ответ, однако иногда встречаются задания, где необходимо записать выражение в общем виде.

Уникальные особенности: Поскольку в физике нередко требуется представить ответ в виде формулы, для упрощения разметки мы заранее подставляли конкретные значения параметров непосредственно в большинство условий задач.

Примеры задач из блока "Физика" — Примеры задач из блока «Физика»

Физика (Свободный формат ответа)

Данный датасет был создан с целью оценить способности моделей не просто находить верный ответ, но и подробно объяснять свои рассуждения при решении комплексных физических задач.

Источник: Cборник задач по физике советских времён, находка для работы с VLM. Данный учебник, один из немногих, который предоставляет подробные объяснения каждого ответа, что позволило отойти от формата множественного выбора

Методы сбора: Классический ручной сбор данных через буфер обмена

Формат задач: Свободный. Каждая задача представляет собой описание реальной жизненной ситуации и требует от модели не просто написать ответ, но и грамотно на русском языке предоставить все необходимые рассуждения

Уникальные особенности: Для оценивания моделей на данном датасете мы использовали DeepSeek в роли судьи (LLM-as-judge). Для этого мы обозначили критерии для 5 бальной шкалы ссылка и написали соответствующую инструкцию.

Альтернативный датасет. Критерии оценивания:

1 балл: бессвязный текст;
2 балла: базовое владение русским языком;
3 балла: отличное владение русским языком, базовое владение терминами;
4 балла: отличное владение русским языком и терминами (есть неточности);
5 балла: отличное владение русским языком и терминами (нет неточностей).

Модель-оценщик: DeepSeek.

Примеры задач из блока "Физика (Свободный формат ответа)" — Примеры задач из блока «Физика (Свободный формат ответа)»

Метрика Simplicity

Для более глубокого анализа нам было важно не только посчитать метрики, но и изучить выходы самих моделей. Однако просмотреть ответы 16 моделей на 3,5 тысячи примеров вручную немного проблематично. Поэтому мы решили сосредоточиться на “интересных” случаях — тех, которые оказались либо слишком простыми, либо слишком сложными для моделей.

Simplicity (Простота) — это метрика, показывающая, какая доля моделей успешно справилась с конкретной задачей. Если большинство моделей дали правильный ответ, задача считается простой. Формально, Simplicity вычисляется по формуле:

$Simplicity(x_c,y)= \frac{\mathrm{ \sum_{a \in A}^{}([a(x_c)=y]c-1) {m_a^k} }}{(c-1) \sum_{a \in A}^{} {m_a^k}}$

Здесь:

— множество моделей;
— количество вариантов ответа;
— конкретный вопрос;
— правильный ответ;
— индикатор того, что модель дала верный ответ.

Чем ближе значение Simplicity к 1, тем проще задача (её решили почти все модели); чем ближе к 0 — тем сложнее (почти никто не справился).

Мы также учитывали качество самих моделей: для каждой модели брали её среднюю точность () и взвешивали ответы соответствующим образом. Такой подход позволил ранжировать задачи от самых сложных к самым простым и выделить наиболее интересные случаи.

Улучшение дистракторов

В нашем датасете основной формат вопросов был multiple choice — к каждому заданию прилагалось несколько вариантов ответа, среди которых только один был верным. На этапе прототипирования мы, как и многие, просто подбирали дистракторы (неверные варианты) случайным образом из ответов к другим заданиям. Однако быстро стало ясно: такой подход делает часть вопросов слишком простыми. Иногда правильный ответ выделялся на фоне остальных настолько явно, что не требовал ни глубоких знаний, ни внимательного чтения вопросс.

Чтобы повысить качество дистракторов и сложность заданий, мы использовали следующий пайплайн:

Эмбеддинг всех вариантов ответа. Мы использовали языковую модель FRIDA для получения эмбеддингов всех возможных вариантов.
Поиск топ-k ближайших к правильному ответу. Для каждого правильного ответа мы находили k (примерно 20) наиболее близких по смыслу дистракторов.
Формирование пула ответов. Из этих k ближайших случайным образом выбирали 4 основных варианта и 4 запасных.
Финальная фильтрация с помощью GPT-4.1-mini. Если среди основных вариантов встречались неудачные (например, слишком очевидно неверные или повторяющиеся), мы заменяли их на запасные, используя LLM для дополнительной проверки.

Второй этап (топ-k ближайших) оказался необходим, чтобы минимизировать байес, связанный с моделью эмбеддера. Чем больше k — тем меньше смещение, но и точность подбора дистракторов падает, и наоборот. Мы нашли оптимальный баланс для наших задач.

Этот подход мы применили для датасетов по истории, искусству и физике, так как там он показал наибольший прирост сложности и качества тестовых заданий.

Сравнение моделей

После подготовки датасета и улучшения качества тестовых заданий мы перешли к этапу — сравнению моделей. Для этого мы прогнали 16 различных версий современных VLM (Vision-Language Models), включая InternVL, Gemma, Qwen и Llava на нашем наборе задач. Оценку производили с помощью стандартных метрик accuracy и CircularEval (MMBench), а для задач с открытым ответом по физике использовали собственную 5 бальную шкалу, где роль экзаменатора выполняла DeepSeek.

Для проверки полученных результатов мы дополнительно проанализировали 60 самых сложных и простых заданий по Simplicity и провели качественное сравнение выходов моделей на этих примерах.

Подсчёт самописной метрики для Physics (open-ended), а также метрики accuracy для всех остальных сплитов:

Название моделей	Art	Geo	Locations	Physics	Math	History	Physics (open-ended) 1-5 баллов
InternVL 2.0 (1B)	0.573	0.358	0.294	0.436	0.308	0.466	1.418
InternVL 2.0 (2B)	0.266	0.259	0.262	0.221	0.255	0.258	1.239
InternVL 2.0 (4B)	0.628	0.368	0.369	0.41	0.376	0.522	1.567
InternVL 2.0 (8B)	0.778	0.433	0.459	0.718	0.474	0.645	2.657
InternVL 2.5 (1B)	0.612	0.38	0.244	0.308	0.297	0.496	1.687
InternVL 2.5 (2B)	0.451	0.333	0.308	0.287	0.299	0.415	1.567
InternVL 2.5 (4B)	0.842	0.511	0.427	0.544	0.544	0.662	2.597
InternVL 2.5 (8B)	0.808	0.489	0.462	0.59	0.424	0.671	2.672
Gemma 3 (4B)	0.767	0.492	0.485	0.323	0.319	0.635	3.075
Gemma 3 (12B)	0.821	0.614	0.474	0.472	0.41	0.706	3.716
LLaVA-OneVision (0.5B)	0.459	0.28	0.285	0.405	0.293	0.364	1.045
LLaVA-OneVision (7B, 4-bit)	0.768	0.495	0.424	0.728	0.511	0.613	1.328
LLaVA-OneVision (7B, 8-bit)	0.784	0.502	0.436	0.769	0.537	0.623	1.552
Qwen2.0-VL-7B-Instruct (7B, 4-bit)	0.43	0.336	0.265	0.805	0.445	0.325	2.493
Qwen2.0-VL-7B-Instruct (7B, 8-bit)	0.765	0.567	0.355	0.826	0.515	0.603	3.000
Qwen2.0-VL-2B-Instruct (2B)	0.808	0.492	0.404	0.621	0.341	0.639	2.328
Qwen2.5-VL-3B-Instruct (3B)	0.8	0.542	0.497	0.61	0.483	0.694	2.761
Qwen2.5-VL-7B-Instruct (7B)	0.878	-	0.549	0.749	0.528	0.715	3.239

Модели небольшого размера (до 2 млрд параметров) показали себя слабо: их можно рассматривать разве что как инструмент для развлечения. В ответах часто встречаются галлюцинации, повторяющиеся фрагменты текста и бессистемные переключения между языками. Иногда проскакивают научные термины, но используются они, как правило, не по делу.

Пример ответа модели Llava 0.5B на задаче из блока "История" — Пример ответа модели Llava 0.5B на задаче из блока «История»

Модели среднего размера (3–4 млрд) демонстрируют заметно лучшие результаты. Галлюцинаций становится меньше, появляются корректные распознавания авторов и фактов, однако с сопоставлением информации все еще возникают проблемы — например, модели могут перепутать художников или приписать произведение не тому автору. Среди этой группы стоит отметить Qwen 3B и InternVL 2.5 4B: первая выделяется качеством рассуждений и аккуратностью ответов, вторая — точностью.

Модели крупного размера (7–12 млрд) уже способны на глубокое понимание и уверенное оперирование фактами. Они не только правильно сопоставляют детали, но и добавляют релевантные пояснения. Например, в одном из заданий модель полностью прочитала текст на изображении и перевела его со старорусского, в другом — хоть и ошиблась с названием картины, но верно определила автора, сюжет и примерный год создания. Особенно хорошо себя проявила Qwen 7B: несмотря на меньший размер, по качеству ответов она практически не уступает Gemma 12B.

Пример ответа модели Qwen 7B на задаче из блока «История»

Пример ответа модели Gemma 12B на задаче из блока "История" — Пример ответа моделиGemma 12B на задаче из блока «История»

Подводя краткий итог, среди протестированных моделей особенно выделяются Gemma и Qwen: обе демонстрируют высокий уровень полноты и логичности рассуждений, однако Qwen при сопоставимом качестве заметно компактнее, что делает её оптимальным выбором для задач, требующих развернутых ответов при ограниченных ресурсах. InternVL показывает нестабильную динамику — его качество не всегда коррелирует с размером, однако стоит отметить, что некоторые её небольшие версии, например, InternVL 4B уверенно конкурируют там, где критична точность.

Интересно, что на технических задачах (Math, Physics) распределение результатов оказалось не таким очевидным. В частности, Gemma 12B показала себя хуже, чем куда более компактная Llava 0.5B. Причина кроется в умении следовать инструкциям: если модель вместо четкого выбора (A, B, C или D) начинала рассуждать, её ответ не засчитывался. На графике ниже видно, насколько хорошо разные модели справляются с этим форматом. Оценивали мы это следующим образом, засчитывали балл модели, если она написала одну из букв вариантов ответа, корректность не важна

Оценка способности моделей к следованию инструкциям

Результаты качественного анализа соответствуют количественным метриками, что подтверждает применимость датасета для оценивания современных VLM. Но стоит помнить об ограничениях формата multiple choice — не все модели корректно следуют требуемому формату. По нашим наблюдениям, данные ограничения чаще всего проявляются в сплитах по математике и физике

Итоги и куда двигаться дальше

В результате работы мы собрали культурно-ориентированный датасет, который охватывает широкий спектр предметных областей и позволяет комплексно оценивать способности современных VLM в русскоязычном контексте. Благодаря разнообразию доменов и форматов заданий, датасет даёт возможность выявлять как сильные стороны моделей, так и их ограничения при работе с задачами, выходящими за рамки англоязычных реалий.

В дальнейшем мы планируем расширять количество доменов, увеличивать объём данных и создавать open-ended версии для других разделов, помимо физики. В перспективе мы также рассматриваем добавление аудиомодальности, чтобы сделать датасет максимально универсальным для мультимодальных исследований.

Присоединяйтесь к развитию нашего датасета: тестируйте свои VLM, используйте маркер, делитесь фидбеком и идеями на Hugging Face. Мы открыты к вашим предложениям и готовы вместе двигать мультимодальные исследования вперёд!

Исследование выполнено с использованием суперкомпьютерного комплекса НИУ ВШЭ.