SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода / forpes.ru

Главная
SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода

SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода +8

18.09.2025 11:00

madrugado 0 504 Источник

Всем привет! Пару месяцев назад Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустил MERA CODE — бенчмарк для оценки качества умений написания кода для больших языковых моделей. MERA CODE оценивает способности моделей в реальных сценариях, с которыми встречаются разработчики программного кода: написание unit-тестов, комментариев, функций по запросу и многое другое — подробности тут. Однако все задачи в MERA CODE, как впрочем и в SWE-bench и других бенчмарках подобного назначения, следуют классической парадигме, когда у нас есть фиксированный обучающий набор данных и, что более важно, фиксированный проверочный набор.

К сожалению, фиксированные наборы данных могут устаревать, из-за чего бенчмарки на их основе с течением времени теряют свою эффективность. Как это происходит? Многие из наборов данных для бенчмарков собраны из открытых источников. В нашем случае это прежде всего GitHub. Но большие языковые модели для кодинга, которые мы и пытаемся оценивать нашим набором, также учатся на GitHub — со времен еще первой модели LLaMa. А раз они учатся на данных с GitHub, то рано или поздно (и в наше время скорее рано) эти большие языковые модели также во время обучения увидят данные из проверочного множества. Это явление называется контаминацией данных, то есть мы не можем больше быть уверены в том, что оценка моделей является объективной.

Мы думали об этой проблеме, и пришли к выводу, что ее влияние можно минимизировать, если мы будем периодически обновлять проверочное множество. Так родилась идея для нашего нового бенчмарка — SWE-MERA.

Коротко об SWE-MERA

SWE-MERA — это бенчмарк для оценки моделей для кодинга на реальных задачах по типу SWE-bench. Как и SWE-bench, он основан на issues и pull requests с GitHub, но является динамичным — в него регулярно в автоматическом режиме добавляются новые актуальные примеры задач из активных репозиториев. Пользователи могут выбирать задачи из разных временных периодов, что упрощает выявление моделей, затронутых контаминацией данных.

Как мы обеспечиваем обновление проверочного множества?

Начну с того, что данные в бенчмарке обновляются на ежемесячной основе — каждый месяц добавляется приблизительно 250 новых задач. Так мы можем быть более менее уверены в том, что LLM проверяются на задачах, которых они не видели просто в силу того, что модели пусть и выходят очень часто, но все-таки конкретная модель учится на конкретном наборе данных, у которого есть финальная дата – дата создания самого нового документа, и эта дата всегда отстает от текущей на несколько месяцев просто в силу того, что сам по себе процесс обучения и тестирования требует времени.

Давайте немного статистики. Отобрать популярные активные репозитории — это уже само по себе непросто, таковых репозиториев больше 100000. Потом нужно выбрать из них issues, их порядка 300000. Дальше мы применяем несколько уровней фильтрации и в итоге получаем всего лишь 700 задач для LLM.

Кажется, что 700 задач немного, но это уже очень приличное количество, и что самое важное — это новые задачи. В процессе сборки мы собрали более 2700 задач, но для замера бенчмарка нет смысла использовать такое большое количество.

Каждый месяц мы можем собирать еще приблизительно 250 новых задач. Так что мы можем быть более менее уверены в том, что LLM проверяются на задачах, которых они не видели просто в силу того, что LLM пусть и выходят очень часто, но все-таки конкретная модель учится на конкретном наборе данных, у которого есть финальная дата — дата создания самого нового документа, и эта дата всегда отстает от текущей на несколько месяцев просто в силу того, что сам по себе процесс обучения и тестирования требует времени.

Пример одной задачи

repo	sympy/sympy	patch
id issue id pull request	27707 27708	diff --git a/sympy/assumptions/handlers/calculus.py b/sympy/assumptions/handlers/calculus.py index bb4f387eb582..e2b9c43ccea2 100644 --- a/sympy/assumptions/handlers/calculus.py +++ b/sympy/assumptions/handlers/calculus.py @@ -195,6 +195,12 @@ def _(expr, assumptions): if base_bounded is False and ask(Q.extended_nonzero(expr.exp), assumptions): return False if base_bounded and exp_bounded: + is_base_zero = ask(Q.zero(expr.base),assumptions) + is_exp_negative = ask(Q.negative(expr.exp),assumptions) + if is_base_zero is True and is_exp_negative is True: + return False + if is_base_zero is not False and is_exp_negative is not False: + return None return True if (abs(expr.base) <= 1) == True and ask(Q.extended_positive(expr.exp), assumptions): return True diff --git a/sympy/assumptions/tests/test_query.py b/sympy/assumptions/tests/test_query.py index 5e0eeb50a037..2ddac9860940 100644 --- a/sympy/assumptions/tests/test_query.py +++ b/sympy/assumptions/tests/test_query.py @@ -1082,6 +1082,15 @@ def test_bounded(): assert ask(Q.finite(2x), ~Q.finite(x)) is False assert ask(Q.finite(x2), ~Q.finite(x)) is False + # https://github.com/sympy/sympy/issues/27707 + assert ask(Q.finite(xy), Q.real(x) & Q.real(y)) is None + assert ask(Q.finite(xy), Q.real(x) & Q.negative(y)) is None + assert ask(Q.finite(xy), Q.zero(x) & Q.negative(y)) is False + assert ask(Q.finite(xy), Q.real(x) & Q.positive(y)) is True + assert ask(Q.finite(xy), Q.nonzero(x) & Q.real(y)) is True + assert ask(Q.finite(xy), Q.nonzero(x) & Q.negative(y)) is True + assert ask(Q.finite(xy), Q.zero(x) & Q.positive(y)) is True + # sign function assert ask(Q.finite(sign(x))) is True assert** ask(Q.finite(sign(x)), ~Q.finite(x)) is True
created_at	March 6, 2025	test_patch
problem statement	There is an issue with the handling of assumptions for the expression x-1 when x is real and could potentially be zero. The current implementation doesn't account for the possibility of x being zero, which leads to an incorrect result. Current behavior: from sympy import ask, Q, Symbol x = Symbol('x') print(ask(Q.finite(x-1), Q.real(x))) # Output: True Expected behavior: The function should return None to indicate uncertainty, as x**-1 is undefined when x = 0.	diff --git a/sympy/assumptions/tests/test_query.py b/sympy/assumptions/tests/test_query.py index 5e0eeb50a037..2ddac9860940 100644 --- a/sympy/assumptions/tests/test_query.py +++ b/sympy/assumptions/tests/test_query.py @@ -1082,6 +1082,15 @@ def test_bounded(): assert ask(Q.finite(2x), ~Q.finite(x)) is False assert ask(Q.finite(x2), ~Q.finite(x)) is False + # https://github.com/sympy/sympy/issues/27707 + assert ask(Q.finite(xy), Q.real(x) & Q.real(y)) is None + assert ask(Q.finite(xy), Q.real(x) & Q.negative(y)) is None + assert ask(Q.finite(xy), Q.zero(x) & Q.negative(y)) is False + assert ask(Q.finite(xy), Q.real(x) & Q.positive(y)) is True + assert ask(Q.finite(xy), Q.nonzero(x) & Q.real(y)) is True + assert ask(Q.finite(xy), Q.nonzero(x) & Q.negative(y)) is True + assert ask(Q.finite(xy), Q.zero(x) & Q.positive(y)) is True + # sign function assert ask(Q.finite(sign(x))) is True assert** ask(Q.finite(sign(x)), ~Q.finite(x)) is True

Пример задачи приведен выше. Библиотека для символьных вычислений sympy (python аналог MATLAB или Wolfram Alpha), выдавала, что x^-1 — всегда конечен, при любом x включая 0. Разработчик написал простой фикс и тесты к фиксу.

Представим, мы запустили агента с промтом “Please solve {problem_statement}”

Как понять, что агент решил задачу?

Все просто: возьмем тесты из будущего, применим их и проверим что все тесты, покрывающие решения, валидны. Стоит подчеркнуть, что задачи специально отбираются таким образом, чтобы данная методология работала.

Как устроен бенчмарк?

Для того, чтобы про это рассказать, нужно пройти по нескольким шагам.

Шаг 1. Мы собираем список активных репозиториев на GitHub.

Это должны быть достаточно популярные репозитории с форками, свежими закрытыми issues с прилинкованным и смердженным pull request, а еще тестами

Шаг 2. Мы скачиваем отобранные репозитории и issues, и запускаем в них pytest. Если репозиторий у нас не получается протестировать автоматически, то мы его исключаем.

Шаг 3. Мы находим связанные с issue коммиты и делаем две версии репозитория — до закрытия issue и после. Находим разницу между состояниями репозитория до и после, отбираем новые тесты, появившиеся в процессе закрытия issue.

В итоге у нас получается набор из содержимого репозитория "до", текста issue и набора юнит-тестов, которые должны начать проходить в репозитории "после". Все это подается на свод LLM, которая должна сгенерировать (вообще говоря любым, но мы рассматриваем только агентным способом) изменения в один или несколько файлов в репозитории, чтобы указанный issue был успешно разрешен. Успешность мы проверяем по тому самому набору юнит-тестов, который отобрали на третьем шаге. Если все требуемые тесты пройдены, то мы считаем, что LLM справилась c задачей.

Методология сбора задач очень похожа на один из самых популярных бенчмарков — SWE Bench. Ключевое отличие нашего бенчмарка в том, что мы автоматически собираем новые задачи из свежих issue GitHub.

Мы выложили в открытый доступ repotest, репозиторий для запуска и сбора задач.

Технические детали

В процессе массового сбора мы поняли, что есть несколько деталей, которые кратно упрощают процесс сборки/проверки задач. Например, итоговые 2700 задач мы запускали на одной машине без GPU.

1. Название образа, команды на билд и запуск тестов лучше вынести на уровень датасета: так мы получим более легкий процесс добавления новых задач.

Более того, наш датасет в 80% задач можно запускать через conda. Как бы смешно это ни звучало, но у DS часто нет прав на запуск docker, по причине того что devops разворачивают инфраструктуру независимо от DS, используя docker, и не дают sudo прав.

2. Абстракции на запуск задачи должны быть простыми. Например, большинство задач мы запускаем так:

from repotest.core.docker.python import PythonDockerRepo 

repo = PythonDockerRepo(
    repo="sympy/sympy",
    base_commit="b6091e94af5ce0464472b5639503e3117efe8dee",
    image_name="python:3.11"
)

repo.clean()  # Reset the repo folder to the base commit state
repo.build_env(“pip install .\npip install -r requirements-dev.txt\npip install pytest-json-report”, timeout=60*5)  # Set up the environment
repo.apply_patch(patch)  # Apply a patch to the repo
repo.run_test("pytest --json-report --json-report-file=report_pytest.json", timeout=60*5)

3. Излишнее усложнение — читать результаты тестов из stdout, достаточно поставить пакет который бы записывал результаты в машиночитаемом виде. Обработка всех краевых случаев чтения полна подводных камней.

Теперь давайте обсудим имеющиеся результаты. Мы проверили несколько популярных открытых моделей, результаты доступны тут.

model	2024 [200 задач]		2025 [528 задач]
	pass@1	pass@6	pass@1	pass@6
DeepSeek-R1	34.5% [27.9% - 41.1%]	50.0% [43.1% - 56.9%]	27.8% [24.0% - 31.6%]	40.2% [36.0% - 44.4%]
DeepSeek-R1-DQ32B	18.0% [12.7% - 23.3%]	31.5% [25.1% - 37.9%]	13.3% [10.4% - 16.2%]	23.9% [20.3% - 27.5%]
Devstral-24B	17.5% [12.2% - 22.8%]	34.0% [27.4% - 40.6%]	17.2% [14.0% - 20.4%]	28.2% [24.4% - 32.0%]
Llama-3.3-70B	11.5% [7.1% - 15.9%]	20.0% [14.5% - 25.5%]	8.7% [6.3% - 11.1%]	14.8% [11.8% - 17.8%]
QwQ-32B	14.0% [9.2% - 18.8%]	26.5% [20.4% - 32.6%]	11.6% [8.9% - 14.3%]	23.7% [20.1% - 27.3%]
Qwen3-32B	14.5% [9.6% - 19.4%]	23.5% [17.6% - 29.4%]	12.3% [9.5% - 15.1%]	26.1% [22.4% - 29.8%]
Qwen2.5-Coder-32B	14.0% [9.2% - 18.8%]	24.5% [18.5% - 30.5%]	12.9% [10.0% - 15.8%]	22% [18.5% - 25.5%]
Qwen2.5-Coder-14B	9% [5.0% - 13.0%]	23% [17.2% - 28.8%]	8.7% [6.3% - 11.1%]	18% [14.7% - 21.3%]
Qwen2.5-Coder-7B	2% [0.1% - 3.9%]	4.5% [1.6% - 7.4%]	2.6% [1.2% - 4.0%]	5.5% [3.6% - 7.4%]
Codestral-v0.1	4.5% [1.6% - 7.4%]	10.5% [6.3% - 14.7%]	3.8% [2.2% - 5.4%]	8.7% [6.3% - 11.1%]

Выше приведены метрики open source моделей на агенте aider в формате метрика [5%-95% доверительный интервал].

В наших планах на ближайшие несколько месяцев — расширить количество языков до 5 (c++, java, javascript, typescript, go) и количество задач в несколько раз.

Если вы хотите протестировать какую-то свою модель, то у нас есть инструкция, как это сделать.

Перед заключением хочется похвастаться, что нашу статью про этот бенчмарк приняли на конференцию EMNLP, которая пройдет в Китае в ноябре.

И теперь уже заключение, хочется сказать, что мы надеемся, что SWE-MERA будет полезным инструментом, который поможет избежать переобучения на конкретный бенчмарк со стороны языковых моделей.

Основной сайт	SWE-MERA
Код для запуска и сбора задач	repotest, pypi
Статья	arxiv
Отправить свое решение	github

Хотим поблагодарить Альянс в сфере искусственного интеллекта за предоставленную поддержку в разработке данного проекта и выразить благодарность коллегам, с которыми мы делали эту работу, прежде всего моему студенту Михаилу Иванову из ИТМО, который первым занялся этим проектом, Павлу Адаменко, Айдару Валееву, Павлу Задорожному, Родиону Левичеву, Ивану Лопатину и Дмитрию Бабаеву из команды GigaCode, а также Алене Феногеновой, руководителю проекта MERA.

SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода +8

Как устроен бенчмарк?

Комментарии (0)