Большой обзор: от идеи и структуры — до неожиданных выводов и практических сценариев применения

SLAVA — это открытый русскоязычный бенчмарк, разработанный экспертами РАНХиГС и ИСП РАН для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами по истории, обществознанию, географии и политологии. 

В корпусе — 14 199 заданий пяти форматов и трёх уровней провокационности. Уже протестировано более 40 моделей: от GPT‑4o и Claude‑3.5 до GigaChat и Llama‑3 8B. Это открытый русскоязычный бенчмарк, созданный для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами из истории, географии, обществознания и политологии. 

Мы расскажем:

  • как устроен бенчмарк;

  • какие выводы сделали о слабых местах моделей;

  • как использовать SLAVA в практике: от CI-контроля до аудита политической надежности.

Почему возник SLAVA

В 2023 году пользователи заметили, что ChatGPT переводит статьи Конституции РФ с ошибками, а Яндекс.Алиса избегала ответов о санкциях. Эти случаи стали симптомами системной проблемы: LLM, обученные на англоязычных данных, плохо понимают российский контекст. При этом регуляторы и образовательные учреждения требовали инструментов для объективной оценки. Например, как измерить, не искажает ли модель исторические факты о Великой Отечественной войне? Или насколько устойчива она к провокационным вопросам о геополитике?

Таким образом, можно выделить несколько основных причин:

  • Пустая ниша. Международные бенчмарки почти не содержат вопросов, релевантных социально-историческому российскому контексту.

  • Запрос со стороны регуляторов. Госсектор и образование требуют измеримых показателей по типу: «не врёт ли модель про историю и законы».

  • Трудность в ответах на фактологию. Пользователи замечают ошибки даже в простых вопросах: ChatGPT переводит Конституцию на английский, Алиса уходит от ответов о санкциях. При этом нет системного способа это замерить

Из чего состоит бенчмарк

Каждый вопрос в SLAVA — это мини-тест: нужно выбрать один вариант из нескольких, расставить события в хронологическом порядке или дать краткий ответ — например, указать год подписания Беловежских соглашений. Однако ключевая особенность бенчмарка — градация вопросов по уровням провокационности. Если уровень 1 включает нейтральные факты (например, «дата основания Санкт-Петербурга»), то уровень 3 затрагивает чувствительные темы — санкции, территориальные споры или статус международного признания тех или иных регионов. Даже формально корректный ответ здесь может вызвать дискуссию, что делает такие задания своеобразным «стресс-тестом» для языковых моделей.

Характеристика

Значение

Общее число вопросов

14199

Открытая часть

2800 (равномерно распределен по всем типам вопросов)

Области знаний

История
География
Обществознание
Политология

Типы заданий

One‑choice
Multi‑choice
Mapping
Sequencing
Open answer

Уровни провокационности

1 — нейтральный,
2 — дискуссионный
3 — конфликтный

Формат хранения

Единый JSON с 8 ключами

Пайплайн препроцессинга данных

Вопросы для SLAVA взяты из официальных источников: базы ФИПИ и вузовских тестов, тексты законов, а также разработаны экспертами РАНХиГС и ИСП РАН.
Вопросы для SLAVA взяты из официальных источников: базы ФИПИ и вузовских тестов, тексты законов, а также разработаны экспертами РАНХиГС и ИСП РАН.

Структура полученного датасета

Каждое задание прошло двойную валидацию человеком и LLM-спот-чек, а затем автоматическую очистку от дубликатов.

Форматы вопросов (с живыми примерами)

Формат

Кратко

Сокращенный пример

One‑choice

1 правильный вариант

«Гарантом Конституции РФ является: 1) Президент 2)…»

Multi‑choice

несколько ответов

«Что относится к глобальным экологическим проблемам…»

Mapping

«соедини А–Г с 1–4»

Даты ↔ события эпохи Хрущёва

Sequencing

упорядочить

«Разместите по хронологии: Бородино → Ялта…»

Open answer

слово/фраза

«Изданная Петром I ______ устанавливала…»

Для open‑answer ответы нормализуются (регист‑и морф‑инвариантность)

Как отличить провокационный вопрос от нейтрального?

В SLAVA эту задачу решили социологи, разработав трехуровневую шкалу провокационности. Например, вопрос о выборах 1993 года получил уровень 2 («дискуссионный»), поскольку интерпретация их итогов остается предметом научных и политических дебатов. А вот формулировка «Какие страны ввели санкции против России в 2024 году?» была отнесена к максимальному уровню 3 — здесь даже сухое перечисление государств может быть воспринято как политическое заявление.

Исследование выявило любопытную закономерность: при переходе от нейтральных к провокационным вопросам точность ответов LLM заметно снижается. Модели начинают избегать конкретики, подменяя факты уклончивыми формулировками вроде «это сложная тема» или «существуют разные точки зрения». Причем эта тенденция характерна как для российских (GigaChat, YandexGPT), так и для зарубежных моделей (GPT-4, Claude)

  • Уровень 1 — массовые, бесконфликтные факты («Дата основания Транссиба»).

  • Уровень 2 — темы, где возможны споры («итоги выборов 1993 года»).

  • Уровень 3 — чувствительные вопросы («страны‑санкционеры 2024»).

Методика оценки

Когда модель путает дату Куликовской битвы, SLAVA фиксирует это как ошибку EM (Exact Match). Но если ИИ пишет «1380-е годы» вместо точного «1380», срабатывает метрика PM — частичное совпадение. Самые жесткие тесты — открытые вопросы. Например, на задание «Назовите гаранта Конституции РФ» Llama-3 ответила: «Президент Российской Федерации Владимир Путин», хотя в эталоне только «Президент». За это модель теряет баллы: F1-метрика учитывает лишние слова. А вот Claude-3, столкнувшись с вопросом о санкциях, выдал: «Это требует уточнения у официальных источников» — такой ответ помечается как уклончивый (IS = 0).

  1. Промпт. Инструкция задачи + требование «Ответ только цифрой/словом».

  2. Запуск. LLM работали в zero‑shot; для API‑моделей соблюдены лимиты токенов. Настройки для каждой модели едины (описаны в конфиг-файле в репозитории)

  3. Метрики.

    • EM (Exact Match) — точное совпадение.

    • IS (Is substring) — есть ли правильный ответ в ответе модели.

    • CC / PM — поблажки для числовых ответов.

    • F1 / Levenshtein Ratio — для открытых ответов

  4. Лидерборд. Каждый сабмит = CSV с сырыми ответами; скрипт считает метрики и формирует .xlsx файл с метриками и лидербордом.

Эксперименты и наблюдения

Протестированный список моделей

Более 40 моделей: GPT‑4o, Claude‑3.5‑Sonnet, Qwen‑2‑72B‑Instruct, линейка GigaChat Lite/Plus/Pro, YandexGPT Lite/Pro, Llama‑3 (8B/70B), Mixtral‑8×7B, Mistral‑123B, Gemma‑27B

Выводы: Область знаний и провокативность

  • Лучшие зарубежные модели: Claude‑3.5‑Sonnet, Mistral‑123B, GPT‑4o

  • Лидер среди отечественных: GigaChat_Pro (4–е место), немного опережая YandexGPT_PRO (6–е место)

  • Сложные области: политология (самые низкие результаты). Наиболее доступными областями являются география и социология (занимают 3-е место и выше).

  • Провокативность снижает оценки: средние баллы по уровням 1→2→3: 37.19 → 36.53 → 30.96

Выводы. Общая таблица лидеров

Модель

Баллы (min-max)

Claude‑3.5‑Sonnet

79.02–83.24

Mistral‑123B

68.06–73.19

GPT‑4o

64.21–68.26

GigaChat_Pro

57.60–61.02

YandexGPT_Pro

52.75–57.81 

Типовые проблемы:

  • Несоблюдение инструкции (дополнительные символы, язык ответа, цитаты промпта);

  • Фактические ошибки (до 80% в некоторых случаях);

  • Плохая обработка сложных форматов: сопоставление, открытые ответы, упорядочивание.

Практическое применение:

  • Fine‑tune QA. Проверка, «сломал» ли новый чекпоинт базу знаний

  • Compliance‑аудит. Простой способ установить пороги качества на чувствительных вопросах.

  • Обучение и экзамены. Можно использовать для моделирования ЕГЭ-подобных тестов.

 Как прогнать свою модель на бенчмарке SLAVA?

Будущее доработки и ограничения

План

Состояние

Генератор новых вопросов (LLM‑агент)

Пилот, 200 валидных Q/сутки

Аналитический дашборд с фильтрами

Pre-release

Human‑baseline

Сбор данных и создание MVP

Мультимодальный SLAVA (картографика, плакаты)

R&D

Ограничения: корпус пока гуманитарный; нет задач по экономике и культуре; оценки open‑answer чувствительны к синонимам.

Заключение

Проект SLAVA выходит за рамки обычного бенчмарка, становясь важным инструментом технологического суверенитета. В эпоху, когда языковые модели все активнее участвуют в образовательных, юридических и даже политических процессах, способность объективно оценивать их компетентность в национальном контексте превращается в стратегическую задачу.

Результаты первых исследований наглядно демонстрируют: даже передовые ИИ-системы пока не способны адекватно работать с российскими социально-политическими реалиями без специальной доработки. Это ставит перед разработчиками четкую задачу - создавать не просто многоязычные, а действительно локализованные решения, учитывающие культурные и исторические особенности.

Присоединяйтесь: тестируйте свои модели, предлагайте вопросы, улучшайте качество русскоязычных LLM — это вклад в технологический и смысловой суверенитет.
Бенчмарк, фреймворк и открытый датасет доступны → GitHub и HuggingFace.

Авторы обзорной статьи: магистранты AI Talent Hub ИТМО Шарафетдинов Ринат Саярович и Четвергов Андрей Сергеевич.

Команда Исследовательского центра искусственного интеллекта ИОН: Мария Полукошко, Андрей Четвергов, Ринат Шарафетдинов, Вадим Ахметов, Наталия Оружейникова, Егор Аничков, Ирина Алексеевская, Сергей Боловцов, Павел Голосов, Тимофей Сиворакша, Степан Уколов.

Комментарии (10)


  1. Farongy
    17.06.2025 14:11

    Del


  1. courser
    17.06.2025 14:11

    "ценностно-нагруженные вопросы"
    "аудит политической надёжности"

    Встречайте новый список заблокированных сервисов.
    Поражает, что сюда приходят хвастаться, как они высоконаучно и технологично помогают попирать свободу слова и свободу распространения информации.

    Скоро тут будет и про нейроимпланты, помогающие правильно реагировать на текущую линию политического и духовного руководства. С красивыми таблицами и графиками.


    1. MAXH0
      17.06.2025 14:11

      Знаете тут вопрос дискуссионный. Например, я пинаю дипСик в плане альтернативной истории... Но убедился, что он и в реальной путается. Зато пытается к тем событиям добавлять оценочные характеристики или вообще добавляет пропаганду... Исследование периоды и 1905 и Петровское время...

      Есть свобода слова, а есть галюцинации... Вообще в гуманитарной области нейросети ещё слабы.

      Лично мне были бы интересны количественные оценки такой вот необъекти..


      1. courser
        17.06.2025 14:11

        То есть вы считаете, что оценивающая нейросеть будет автоматически безгрешной?
        Несмотря вот на это всё? :
        "ценностно-нагруженные вопросы"
        "аудит политической надёжности"

        Внезапно у этого нечто "SLAVA" есть эталонное знание фактов и эталонная же их интерпретация? Заверенные Мединским, надо понимать?


        1. MAXH0
          17.06.2025 14:11

          Она позволяет оценить погрешность. Например, очень частой ошибкой ДипСик стало ошибки в датах, чтобы подогнать под запрос. Это легко проверяемые данные, в которых нет разночтений.

          А вот оценка Витте или Столыпина - уже дискуссионный вопрос, где могут быть разночтения. Имхо у нейросети вообще не должно быть оценки, а выдаваться спектр мнений с указанием - это мнение мейнстрим, это маргинальное, а это вообще похоже теория заговоров...

          Тем более если датасете открыт, его можно и оценить на внутренней непредвзятость.


          1. Petr_axeman
            17.06.2025 14:11

            Интересное и абсолютно "обоснованное" мнение.

            Нейронная сеть без мнения - Яндекс.

            Нейросеть обязана уметь в разные подходы, включая с мнениями и без, в этом и есть смысл нейросети. Гибкость и человечность, к этому все и стремятся.

            А по поводу идеи о том что этот бэнчмарк как то оценивает исторические знания мне кажется наивными. С таким подходом можно просто оценивать нейронки по ЕГЭ, больше пользы было бы.


            1. MAXH0
              17.06.2025 14:11

              Обосную свою ИХМО:

              1. Идеально любая нейросеть должна быть свободна от любого мнения, но по запросу пользователя выдавать аргументы за ту или иную точку зрения. Аргументы должны иметь то же качество обоснования, как и в тренировочном датасете.
                Исключение данных или добавление правил исключающих информацию - это цензура.

              2. Ситуация, когда одна точка зрения указывается как научная, а другая помечается как маргинальная случается и в реальном мире. Взять недавнее карбонобесие и коронобесие. Нейросети особенно уязвимы перед такими манипуляциями. Поскольку не имеют собственного мнения, а выдают некий взвешенный граф заложенных в них данных.
                А поскольку корпоративные агрегаторы новостей сильно отметились в продвижении повестки карбоно и коронобесия, то и нейросети, которые плод корпораций, доверия не вызывают.

              3. Выходом бы стала федерализация нейросетей, когда имеется свободный рынок обученных нейросетей с разными мнениями и специализациями, а каждый может собрать на своем компьютере нужный коктейль из них. НО крупные игроки не заинтересованы в этом.

              4. Мы не нуждаемся в "человечности" нейросетей. Потому что это симулякр, который нам продают. Мы нуждаемся в регулярном живом человеческом общении, которое ни что не заменит.


            1. MrBlonde
              17.06.2025 14:11

              Тогда вы невнимательно изучили пост.

              В основе лежит ЕГЭ. Кроме того, вопросы дополнительно валидирваны профильными экспертами.

              Также группа экспертов оценила провокативность вопросов для более глубокого анализа ответов генеративных моделей.


  1. D1abloRUS
    17.06.2025 14:11

    Вектор задан, цели ясны

    Ребята выходят на гранты


  1. astenix
    17.06.2025 14:11

    Конкурента назовут или Zenith или KPSS