Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial, MERA Code и SWE-MERA, заложив основу для системной оценки моделей в разных областях. Но главное событие впереди. MERA — это не просто имя или бренд. Это аббревиатура от Multimodal Evaluation for Russian-language Architectures (Мультимодальная оцЕнка Русскоязычных Архитектур). Ещё в 2023 году мы поставили перед собой амбициозную цель: создать эталон для оценки мультимодальных моделей на русском языке. Сегодня мы с гордостью объявляем о достижении этой цели: встречайте MERA Multi — первый полноценный релиз мультимодального бенчмарка для русскоязычных моделей. Теперь пришло время по-настоящему измерять и сравнивать мультимодальные способности современных русскоязычных ИИ.
Что внутри бенчмарка?
Таксономия мультимодальных навыков.
Обновленная универсальная система промптов.
18 новых задач в инструктивном формате, в том числе 3 для видео и 4 аудио набора; публичные и приватные датасеты, созданные с нуля для русского языка.
Открытая платформа со сквозной системой подсчёта баллов, рейтингом и открытым международным фреймворком для тестирования.
И, конечно, анализ и результаты, охватывающие как открытые общие модели, так и проприетарные.
Быстрые ссылки релиза MERA Multi:
Что такое MERA Multi?
MERA — это независимый бенчмарк для оценки LLM на русском языке. Он проверяет не только знания о мире и способность рассуждать в текстовой форме, но и умение работать с кодом (MERA Code), или отраслевыми знаниями (Mera Industrial). С релизом MERA Multi мы расширяем рамки: теперь модели оцениваются по задачам на понимание изображений, аудио и видео.
Это первый открытый мультимодальный бенчмарк на русском языке, созданный экспертами с учётом культурной и языковой специфики РФ.
В MERA Multi представлено 18 новых задач, разработанных по методологии основного бенчмарка. Они проверяют способности моделей в трёх ключевых направлениях:
Визуальное восприятие. Проверяем, насколько ИИ понимает визуальный контекст: распознаёт объекты, интерпретирует сцены и соотносит их с текстом. Это критично для задач генерации, поиска и систем безопасности.
Аудиопонимание. Оцениваем, как модель воспринимает речь, интонации, команды и звуки на русском языке — фундамент для голосовых помощников и приложений, работающих в шумной среде.
Анализ видео. Проверяем, умеет ли ИИ понимать динамику, действия и причинно-следственные связи во временном контексте — основу для сложных ассистентов, агентных систем и мультимодального поиска.
Каждая задача представлена в формате свободных ответов или выбора варианта, что позволяет объективно измерять разные аспекты мультимодальных способностей.
Мы также разработали таксономию навыков MERA Multi — системное описание умений, необходимых для решения задач. Это помогает видеть, какие компетенции покрываются моделями сегодня, и какие направления ещё требуют новых тестов.
Для защиты контента реализована и предложена система лицензирования и водяных знаков, а замеры моделей проводятся на основе LM-Evaluation-Harness с фиксированной универсальной системой промптов и фиксированными параметрами для прозрачных и воспроизводимых результатов. На сайте MERA доступна таблица лидеров, где можно сравнить качество решений как по отдельным модальностям, так и по итоговому мультимодальному результату.
Проект поддерживают Альянс ИИ, ведущие индустриальные компании и академические партнёры, занимающиеся исследованием языковых и мультимодальных моделей.

Таксономия навыков
Таксономия навыков MERA Multi — это системный подход к оценке способностей мультимодальных моделей (MLLM), необходимых для работы с контентом разных типов: текстом, изображениями, аудио и видео. Главная идея проста: любую задачу можно разложить на ограниченный набор ключевых навыков, а значит — сделать оценку моделей понятной, управляемой и воспроизводимой.
В основе подхода лежит представление языковой модели как системы из трёх компонентов:
входные данные;
внутреннее состояние;
выход.
Отсюда выделяются три фундаментальные группы навыков:
Perception (восприятие) отвечает за понимание входных данных;
Reasoning (логическое мышление) отвечает за рассуждение и обработку информации;
Knowledge (знания) отвечает за внутренние представления и контекст модели.
Эти группы формируют фундамент всей таксономии, а остальные навыки надстраиваются над ними, формируя иерархию, в которой каждый уровень уточняет и конкретизирует предыдущий. Похожие принципы уже применялись в MERA Code, где присутствует дополнительный базовый блок Generation (генерация). В перспективе все тесты экосистемы MERA будут использовать единую систему навыков, обеспечивая согласованную и прозрачную оценку моделей во всех доменах.

Какие задания входят в бенчмарк?
Разработка мультимодальных LLM для русского языка только набирает обороты, и до сих пор сообществу не хватало прозрачного способа понять, насколько хорошо эти модели действительно умеют видеть, слышать и понимать. Команда MERA закрывает этот пробел, представляя MERA Multi и совершенно новые наборы тестов для оценки русскоязычных мультимодальных моделей.
MERA Multi охватывает четыре модальности: текст (базовая модальность); изображения — 11 датасетов; аудио — 4 теста; видео — 3 теста.
Форматы заданий — либо с множественным выбором (multiple-choice), либо открытые вопросы с коротким ответом (число, слово или словосочетание).

Чтобы соблюсти баланс между воспроизводимостью и новизной, в бенчмарк интегрированы как публичные наборы данных (7 задач), отобранные из открытых источников, так и приватные тесты (11 задач), собранные с нуля специально для этого исследования. Контент для приватных заданий уникален: он собран из личных изображений, видео и аудио, либо полностью созда с нуля. Такие данные помогают избежать утечек и пересечений с обучающими выборками моделей, а заодно отражают российский культурный контекст и покрывают слабоизученные типы навыков.
Задачи в MERA Multi — от простых на восприятие до сложных reasoning-тестов и заданий на специализированные знания. Каждый тест снабжён тегами навыков из таксономии MERA, чтобы точно понимать, какие когнитивные способности проверяются у модели. Каталог задач доступен на сайте.
Как устроены инструкции для задач?

В рамках методологии MERA Multi мы отказались от бесконечных вариаций текстов заданий и ввели единые, фиксированные универсальные промпты для всех моделей и датасетов. Это важно, потому что даже незначительные отличия — вроде обращения «ты» или «вы», или явного указания формата ответа — могут менять результаты тестов. А значит, без стандартизации сравнение моделей теряет смысл.
Промпты зафиксированы: для каждой задачи используется одинаковый набор инструкций.
На каждую задачу 10 промптов, покрывающих разные форматы подачи.
Промпты в MERA адаптированы под разные типы моделей, в том числе reasoning-модели. Часть промптов жёстко фиксирует формат вывода, обеспечивая сопоставимость, а другая часть оставляет пространство для рассуждений и развёрнутых ответов.
-
Всего мы поддерживаем 14 параметров вариаций промптов, которые регулируют:
обращение (на «ты» или «вы»);
явность формата ответа;
степень формальности;
стиль инструкции и т. д.
! Вариации позволяют исследовать устойчивость модели к формулировкам, не ломая саму структуру задания, и устраняют подсуживание конкретной модели.
Зачем это нужно?
Унификация. Промпты стандартизированы для всех датасетов форматов: multiple-choice, short answer, numeric response.
Воспроизводимость. Результаты экспериментов воспроизводимы: промпт фиксирован, влияние формулировок — контролируемое.
Меньше хаоса в экспериментах. Вместо комбинаторного взрыва n_prompts × n_datasets получаем аккуратную систему, где n_prompts фиксированы и независимы от датасета.
Гибкость. Можно адаптировать параметры под новую задачу, не переписывая промпты с нуля. Следовательно, добавлять сеты в MERA Multi станет значительно проще.
Перед фиксацией промптов мы провели серию экспериментов: все 10 промптов на задачу проверили на статистическую значимость различий. Это гарантирует, что вариации действительно отражают устойчивость модели, а не случайные шумы формулировок.
Такой подход устраняет смещения в оценках:
усреднение по разным промптам минимизирует влияние формулировок;
единые правила исключают подстройку под конкретную архитектуру.
Лицензия и утечка данных
Для нашей команды бенчмарки — это не просто наборы тестов. Это инструмент, которому должно доверять сообщество, основа для объективных сравнений и точка роста для индустрии. Мы в MERA понимаем эту ответственность, она особенно важна, когда мы работаем с мультимодальными данными.
Создавая MERA Multi, мы сделали всё, чтобы тесты были юридически чистыми, защищёнными и корректно работающими, без риска утечек или переобучения на тестовых данных. Поэтому мы предлагаем три уровня защиты:
Лицензия. Публичные датасеты собраны из открытых источников, то есть все такого рода тесты сохраняют оригинальные лицензии (в основном CC-BY-4.0). Для приватных тестов действует специальная лицензия MERA, полностью запрещающая использование данных в обучении и коммерческих целях.
Водяные знаки. Все мультимодальные материалы, созданные специально для MERA Multi, помечены видимыми и невидимыми водяными знаками. Это исключает их случайное попадание в обучающие выборки и помогает краулерам распознавать такие данные как тестовые, а не обучающие. Мы проверили, что наличие водяных знаков не влияет существенно на качество ответов моделей (подробности — в нашей академической статье).
Инструменты против утечек. В нашем репозитории DataLeakage доступен фреймворк, который помогает проверить, не видел ли ваш ИИ эти данные раньше. Он позволяет обнаружить и измерить возможные случаи data contamination и утечек при оценке моделей.
Как устроен замер и какие результаты в таблицах лидеров?
Система оценки
Чтобы результаты тестирования были корректные и объективные, мы внедрили строгие стандарты проведения замеров.
Независимый набор универсальных промптов. Каждый вопрос в задаче сопровождается строго одним промптом из заранее подготовленного пула.
Единый формат вывода. Все модели получают одинаковые инструкции по структуре ответа, без импровизации.
Фиксированные условия генерации. Во время тестирования запрещено изменять промпты или few-shot-примеры.
Без кастомных системных промптов. Мы не допускаем использование собственных системных инструкций при запуске замеров. Исключение — встроенный системный промпт, который идёт «по умолчанию» в зарубежных моделях. Он остаётся неизменным, но не оптимизирован под русскоязычный MERA-бенчмарк.
Промпты в MERA адаптированы под разные типы моделей, часть промптов жёстко фиксирует формат вывода, обеспечивая сопоставимость, а другая часть оставляет пространство для рассуждений и развёрнутых ответов.
Как корректно сравнить жёсткоформализованный ответ со свободным рассуждением? Особенно когда мультимодальные модели иногда игнорируют инструкции. Для этого мы разработали отдельную модель-судью (Judge), которая работает вместе со стандартными метриками вроде Exact Match.
Exact Match проверяет точное совпадение с эталоном.
Наша модель-судья Judge анализирует смысловую точность и корректность вывода относительно референсного (золотого) ответа, даже если они не совпадают дословно.
Подробно про работу модели-судьи можно прочитать в нашей академической статье, там описана архитектура и методология его обучения. В итоге, для каждой задачи мы рассчитываем среднюю интегральную метрику, которая объединяет оценки модели-судьи и EM. Это позволяет точнее измерять реальные способности модели к пониманию и рассуждению, а не просто к шаблонному повторению.
Система оценки MERA построена на основе LM Evaluation Harness, международного фреймворка, который мы доработали под мультимодальные фичи. После тестирования участник получает ZIP-архив с результатами, загружает его на сайт, и система автоматически сравнивает ответы модели с «золотыми эталонами».
Обработка занимает до 20 минут для отдельных рейтингов, и около часа для мульти. Только после этого результаты появляются в личном кабинете. При желании их можно отправить в публичную таблицу лидеров.
Таблицы лидеров
Для мультимодальной версии MERA мы ввели четыре независимых таблицы лидеров:
1. Изображения: модели, которые измеряли на задачах с изображениями.
2. Аудио: модели с поддержкой звука.
3. Видео: модели, обрабатывающие на входе видео (без звука).
4. Мульти: сводная таблица по всем задачам (в том числе для моделей, которые принимают на вход две и более модальностей).
Пользователь сам выбирает, в какую таблицу отправить модель. При этом разрешены неполные представления, чтобы оценка оставалась справедливой и прозрачной.
Мы ввели три ключевые метрики, отражающие качество модели:
Качество по решённым задачам (Attempted Score): оценка по решённым задачам: простое среднее метрик на всех измеренных задачах.
Охват (Coverage): доля обработанных заданий в рамках выбранной таблицы лидеров.
Общий балл (Total Score), который формирует рейтинг. Рассчитывается как Total Score = Attempted Score × Coverage.
Такой механизм уже сегодня позволяет собирать мультимодальный рейтинг моделей с учётом разных типов задач. А в будущем — бесшовно расширять бенчмарк, добавляя новые и более сложные сценарии, без потери совместимости с текущими результатами.
Результаты
Наша команда протестировала через бенчмарк как открытые MLLM, так и закрытые решения, например от OpenAI. Картина получилась любопытная.
Во-первых, модальности развиваются неравномерно. Результаты показывают серьёзный дисбаланс: модели для работы с изображениями демонстрируют уже некоторую зрелость (баллы >0,39), тогда как моделей для аудио и видео значительно меньше.
Во-вторых, текущая агрегированная метрика остаётся стабильной, даже если не хватает данных по каким-то заданиям (например, при незавершённом наборе всех тестов таблицы лидеров) и при работе с разными типами данных (текстом, аудио, видео).
И ещё один показательный вывод: метрика нашей модели-судьи стабильно выше EM для всех моделей. Это частая ситуация: модель, по сути, права, но проигнорировала требование отвечать в определённом формате. А в тех редких случаях, когда оценки практически идентичны, модель чётко следовала инструкциям. Этот разрыв демонстрирует необходимость дополнять EM оценкой модели-судьи, и что текущие модели MLLM ещё плохо следуют инструкциям.
Смотрите результаты в официальной таблице лидеров MERA Multi.
В заключение
MERA Multi — это попытка закрыть важный пробел в тестировании мультимодальных LLM: насколько модели полезны в реальной, локализованной разработке. Надеемся, бенчмарк будет полезным инструментом для исследователей, инженеров и всех, кто работает с ИИ в коде. Мы ожидаем, что с появлением стандартизированного теста экосистема MLLM в России получит дополнительный импульс к развитию: появятся новые архитектуры, улучшенные модели и более честные сравнения.
Мы планируем расширять набор задач и прикладных сценариев, а также работать над омнимодальными тестами. Если вам интересно протестировать свои модели или просто разобраться в метриках — добро пожаловать в репозиторий. Присоединяйтесь, предлагайте свои задачи и помогайте развивать бенчмарк, мы открыты к сотрудничеству. ?
Проект поддерживается Альянсом в сфере Искусственного Интеллекта, собраны ведущие индустриальные игроки и академические партнёры, которые занимаются исследованием языковых моделей.
valera_efremov
Я уж думал статья про Meshtastic