Авторы: Канунников А., Лыков А..
В статье мы разберём экзамены с онлайн-экзамена в ШАД в 2025 году. Посмотрим как решал этот экзамен искусственный интеллект.
По традиции экзамены в ШАД в 2025 году начались в мае. Первый этап - онлайн-тестирование. Прошедших онлайн-тестирование приглашают на второй этап - онлайн-экзамен. Особо отличившихся на онлайн-тестировании приглашают на олимпиаду. После онлайн-экзамена ожидается серия собеседований.
Организаторы разрешили пользоваться чем угодно кроме мессенджеров. Даже использование LLM не запрещалось.
Вот сводная таблица результатов различных LLM по задачам с онлайн-экзамена:
A |
B |
C |
D |
E |
F |
Сумма |
|
Chat GPT o3 |
10 |
10 |
10 |
8 |
10 |
9 |
57 |
Gemini Pro |
10 |
8 |
10 |
9 |
10 |
9 |
55 |
DeepSeek Thinking |
10 |
0 |
10 |
10 |
10 |
9 |
49 |
GigaChat 2 Max |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
YandexGPT 5 Pro 4 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
10 баллов - означает, что LLM решил задачу сходу, без дополнительных промтов и изменений в условии.
Комментарии.
В задаче D Chat GPT дал неполное обоснование, опустив важные компьютерные вычисления.
В задаче F Chat GPT условие задачи пришлось немного изменить, чтобы LLM решил её в общем случае для всех N, поэтому мы сняли 1 балл.
В задаче B Gemini Pro сделал ошибку в распознавании задачи. После исправления он сделал арифметическую ошибку в конце решения, хотя вывел правильную общую формулу. Поэтому мы сняли с него 2 балла.
В задаче D Gemini Pro сделал ошибку в распознавании задачи. После исправления он дал правильное решение. Поэтому сняли один балл.
В задаче F Gemini Pro арифметическую ошибку в конце решения, хотя вывел правильную общую формулу. Поэтому мы сняли с него 1 балл.
В задаче F DeepSeek вывел правильную формулу, но сделал арифметическую ошибку на последнем шаге, подставляя числа.
Отметим, что наша система оценки решения отличается от шадовской. Например, в задаче F Gemini Pro и DeepSeek получили бы 0 шадовских баллов, так как сделали арифметическую ошибку.
Выводы.
Результаты больших языковых моделей в решении шадовских задач впечатляют. Ранее мы писали о том как ловко Chat GPT o3 решил 4 из 6 гробовых задач вступительных экзаменов (https://habr.com/ru/articles/881858/). Однако упомянутые задачи давно лежали в базе и LLM в ходе обучения могла видеть решения. Высокие стандарты ШАДа заставляют верить, что задачи настоящего экзамена оригинальные и нигде ранее не встречались (хотя это неточно). Это может означать, что современные LLM действительно способны решать новые математические задачи.
Отечественные LLM (Gigachat и Yandex GPT) отстают от зарубежных, но есть все основания расcчитывать, что разрыв c зарубежными LLM сократится в ближайшее время. Ждём с нетерпением.
Успех современных LLM в решении технических задач (математика, программирование, алгоритмы, брейнтизеры) ставит под вопрос будущее онлайн-форматов технических экзаменов и собеседований. Ожидаем возвращение к обычным доковидским оффлайн экзаменам. Как мы установили, студент с купленным Chat GPT o3 за 20 долларов может с успехом дойти до собеседований в ШАД. Как быть с онлайн-собеседованием? Совсем недавно вышло приложение https://www.interviewcoder.co/ для прохождения онлайн-собеседований по алгоритмам. Оно запускается в фоновом режиме во время собеседования, слушает вопросы, мониторит экран. Отправляет условия в LLM, получает решение и выдаёт на экран. Автор приложения, южный кореец, за первые два месяца работы приложения заработал 1 млн долларов. Русский язык приложение пока не поддерживает, но это дело времени. Приложение того же автора без заточки на алгоритмы https://cluely.com/ . Мы категорически против жульнических схем сдачи экзаменов и призываем честно и добросовестно проходить испытания. Однако, если эти схемы настолько просты и эффективны, то имеет смысл подумать над изменением формата проверки знаний. Иначе под угрозу попадают добросовестные абитуриенты.
Об авторах статьи.
Канунников А. - к. ф.-м. н., преподаватель ШАДХелпера.
Лыков А. - к.ф.-м.н., академический руководитель Школы Высшей Математики и ШАДХелпера.
Ниже мы приводим условия задач онлайн-экзамена и решения от преподавателей ШАДХелпера. Решения от Chat GPT o3 доступны по ссылке (с включенным ВПН).
Задача A. Дезинтеграция
Роберт купил для себя и своих друзей квадратную плитку шоколада со стороной 1. Он решил поделить её на
прямоугольников в разрезами следующим образом: на очередном шаге он случайно выбирает один из имеющихся на данный момент кусков и проводит по нему горизонтальный или вертикальный разрез, причём направление разреза и его положение выбираются равномерно и независимо от прочих действий. Найдите математическое ожидание произведения площадей получившихся кусков.
В качестве ответа приведите натуральный логарифм искомого математического ожидания при или
, если математического ожидания не существует.
Введённое вами число должно отличаться от правильного ответа не более чем на .
Примечание
Выбор направления (по вертикали или горизонтали) проводится независимо от выбора положения (то есть расстояния от прямой разреза до параллельной ей стороны куска). В первом случае каждый вариант осуществляется с вероятностью , во втором случае расстояние распределено как
, где
— длина стороны, поперёк которой мы режем. Выбор куска для разреза производится равновероятно.
Решение
Рассмотрим случай . Обозначим
место первого разреза.
По условию задачи он может быть вертикальным или горизонтальным равновероятно. Поэтому искомое математическое ожидание находится по формуле
Теперь предположим, что исходная плитка была не квадратом, а прямоугольником со сторонами . Тогда математическое ожидание произведения площадей после первого разреза равно
где и
. Вычислим
:
(1)
где мы обозначили площадь исходной плитки.
Пусть теперь . После первого разреза получилось два прямоугольника. Обозначим их площади через
и
. Ясно, что
суть случайные величины и
. Введём также обозначение
для случайной величины равной произведению площадей трёх прямоугольников после второго разреза. С равной вероятностью будет выбран первый или второй прямоугольник для разреза. Поэтом имеем равенство для условного математического ожидания:
Первое слагаемое соответствует выбору первого прямоугольника для разреза, второе второму. Мы воспользовались формулой (1) для случая разреза произвольного прямоугольника. В силу свойств условного математического ожидания и разобранного случая получаем:
Докажем по индукции, что
Проведём шаг индукции. Предположим, что формула доказана для . Проверим её для
. После
разреза получилось
прямоугольников с площадями
. Причём по предположению индукции
Далее, для разреза равновероятно выбирается один из прямоугольников и делается случайный разрез. Обозначим
случайную величину равную произведению площадей
прямоугольника. Тогда
где обозначает пропущенный множитель. Преобразуя сумму, получаем:
Следовательно,
Тем самым утверждение полностью доказано.
Ответ :
Замечание
Решение от Chat GPT: https://chatgpt.com/share/68380177-b718-8004-83af-ada9dbd1e046
Задача B. Минимальный минимум
Пусть — независимые положительные случайные величины, чья плотность пропорциональна
Найдите предел по распределению при случайных величин
то есть функцию распределения такой случайной величины , что
В качестве ответа требуется указать значение функции распределения
в точке либо число
, если последовательность
не сходится по распределению. Введённое число должно отличаться от правильного ответа не более чем на~
.
Решение
Рассмотрим логарифм
:
где мы ввели случайные величины
2. Анализ . В числителе для
идет суммирование
по кубическим индексам до ближайшего слева к
куба. Всего таких индексов
, что совпадает со знаменателем в
. Следовательно, по закону больших чисел
сходится по вероятности к
. Ниже мы проверим, что
конечно. Дадим чуть более формальное объяснение При
имеем
при в силу закона больших чисел. Далее, заметим, что при
верно равенство:
То есть последовательность является кусочно-постоянной и так как
при
, то и
при
.
3. Вычисление . По условию, плотность
пропорциональна функции
:
Найдём константу из условия нормировки плотности:
Имеем равенства:
Следовательно,
Для математического ожидание получаем:
4. Анализ . Исследуем функцию распределения
:
Мы использовали обозначение для функции распределения
. Заметим, что при малых
справедлива формула:
Значит, при достаточно больших имеем
при для всех
. Таким образом, мы доказали сходимость
где случайная величина имеет распределение Вейбулла:
5. Завершение. В силу доказанного для последовательностей и
и леммы Слуцкого, имеем
Следовательно,
Для функции распределения имеем равенства:
В точке :
Это и есть окончательный ответ.
Замечание
Решение Chat GPT : https://chatgpt.com/share/683800b8-6584-8004-96d7-8978af7c3453
Задача С. Большая ржака
Положительное число назовём потешным, если для всякой возрастающей последовательности положительных чисел
такой, что
сходится ряд
Найдите инфимум множества потешных чисел.
В качестве ответа выведите искомый инфимум с точностью до 9~знаков после запятой или , если множество потешных чисел пусто.
Решение
Разминка. Пусть
, тогда общий член ряда равен
Хорошо известно , что ряд с таким общим членом сходится тогда и только тогда, когда . Следовательно, потешных чисел меньших или равных
не существует.
2. Общий случай. Докажем, что все числа являются потешными. Для всех
справедливо:
Проанализируем ряд составленный из . Имеем:
Следовательно, по признаку сравнения числовых рядов, исходный ряд сходится и, значит, все числа являются потешными.
Ответ: 1.
Замечание
Решение от Chat GPT: https://chatgpt.com/share/6837fed8-c0e8-8004-9e29-a8bf0cdb2608
Задача D. Непростая задача
Найдите наибольшее такое простое число , что
делит определитель матрицы
Решение
Данная матрица есть сумма матрицы и матрицы
из одних единиц. Раскладывая
, используя линейность по каждой строке, получим, что он равен
плюс сумма определителей матриц, все строки которых суть строки матрицы , кроме
-й строки, которая есть
-я строка матрицы
(то есть строка из одних единиц); при этом
(так как если хотя бы две строки берутся из
, то определитель равен 0). Следовательно,
Сосчитаем сумму в скобках:
Сокращая на знаменатель, получаем:
Если , то
делится на
.
Числа, 2024, 2025, 2026 составные.
Если , то
делится на
, но не на
, поэтому для делимости
на
необходимо и достаточно, чтобы
делился на
. Имеем
— разложение на простые. Поскольку все эти простые , то этот случай не подходит.
Итак, ответ — наибольшее простое, не превосходящее 2024, то есть 2017.
Ответ: .
Замечание
Решение от Chat GPT o3: https://chatgpt.com/share/68398cfb-7cec-8004-b4ee-d84cabedbbe8
Задача E. В царстве-государстве
В три-четырнадцать-пятнадцатом царстве в девяносто-два-и-шесть государстве
у царя Симбальто росла дочь-красавица — Азапентима. Чтобы сосватать дочь за самого достойного принца, он спрятал по всему королевству несколько сундуков с сокровищами.
В каждом сундуке лежит линейный оператор
для которого многочлен
является зануляющим. Кроме того, известно, что
у всех операторов разная жорданова нормальная форма;
для каждого оператора найдётся вектор
такой, что линейная оболочка
совпадает со всем пространством
Царь выдаст Азапентиму замуж лишь за того принца, который отыщет все сундуки.
Царевич Анафроний понимает, что Симбальто хитёр: даже собрав все матрицы, принц рискует услышать, что найдено не всё. Поэтому нужно не только перечислить все возможные жордановы нормальные формы таких операторов, но и доказать, что других не существует.
Требуется. Найдите все возможные жордановы нормальные формы описанных
операторов.
Ответ. В качестве ответа введите количество сундуков (то есть количество различных жордановых форм) или , если задача не имеет решения.
Решение
Собственные значения данной матрицы содержатся среди корней данного многочлена
:
, где
, значение
может иметь (алгебраическую) кратность как 1, так и 2, а остальные значения — корни кратности 1.
Существование циклического вектора равносильно тому, что для каждого собственного значения существует ровно одна жорданова клетка со значением
.
Наконец, так как — вещественная матрица, то сопряжённые числа
и
одновременно являются или не являются её собственными значениями.
Рассмотрим случаи.
В ЖНФ матрицы
есть жорданова клетка размера
. Тогда ЖНФ имеет вид
Таких матриц две.
ЖНФ матрицы
диагональная. Если
— собственное значение, то ЖНФ имеет вид
— три матрицы. Если не входит в спектр, то ЖНФ есть
Итого, 6 возможных ЖНФ.
Ответ: 6.
Замечание
Решение от Chat GPT o3: https://chatgpt.com/share/6835b3c1-6074-8004-9bbf-e29fe1d9fad8
Задача F. Никаких друзей
поступающих в ШАД пишут экзамен в одной аудитории с
двухместными столами. Организаторам экзамена известно, что все
человек разбиваются на
непересекающихся троек друзей, а люди из разных троек не дружат между собой. Чтобы избежать списываний, нельзя сажать никаких двоих друзей за один стол.
Сколькими способами можно рассадить поступающих за столы по двое? (Рассадки, в которых люди сидят за одними и теми же столами, но в разном порядке, считаются различными.)
В качестве ответа введите искомое число рассадок для .
Введённое вами число должно отличаться от правильного ответа не более чем на .
Решение
У нас есть треугольников, и надо разбить их (занумерованные) вершины на упорядоченные пары так, чтобы вершины одного треугольника были в разных парах. Будем разбивать на неупорядоченные пары и результат умножим на
. Всего имеется
разбиений
точек на пары (здесь и далее — неупорядоченные). Для каждого
обозначим через
множестве разбиений, в которых какие-то вершины
-го трееугольника находятся в одной паре. Так как пар вершин у каждого треугольника три, то
и вообще, для любых
По формуле включений и исключений получаем
Ответ:
Замечание
Решение от Chat GPT o3: https://chatgpt.com/share/68380b5f-d5dc-8004-a8c0-ab483e63b5d9
Комментарии (12)
AuToMaton
18.06.2025 19:02есть все основания расcчитывать, что разрыв c зарубежными LLM сократиться в ближайшее время
Я один не вижу лучшего способа посеять семена сомнения в том, вплоть до уровня безнадёги? А ещё одни спрашивают почему другие над ЕГЭ потешаются…
n0isy
18.06.2025 19:02Ой. Да ладно: разрыв конечно никуда не денется, а только вырастет. Не тот уровень вложений (я думаю на 3 порядка не тот). Однако, даже у отечественных моделей уровень растет, и сравнится с человеческим. Через год или два. И для прохождения экзамена будет не важно, какая это модель. Рискую предположить что за это время уже появятся оффлайн модели для телефонов с таким качеством.
Как видно по openai её уровень уже превзошел человеческий, ибо а сколько процентов обычных людей пройдет представленный экзамен хотя бы на 4 из 10.
NeriaLab
18.06.2025 19:02Автор сам написал что LLM знали решение. Тогда смысл тестов? Идиотизм процветает
Автор, задайте те задачи, решений которых нет у llm. А потом мы все повеселимся над 0 у каждой llm
jetyb1
18.06.2025 19:02В первой задаче ошибка. Функция площади единичного квадрата x (1 - x). Математическое ожидание - (интеграл от 0 до 1)(x x (1 - x)) = x^3/3 - x4/4 = 1 / 12 , но не 1/6
Arastas
18.06.2025 19:02Зачем вы ещё раз на x умножаете? Был единичный квадрат. После разреза в точке x у нас два прямоугольника: x на 1 и (1-x) на 1. Произведение площадей x(1-x). Интеграл для x от 0 до 1 равен 1/6.
jetyb1
18.06.2025 19:02Потому что это математическое ожидание площади. То есть математическим ожиданием функции f(x) называется ее интеграл от [ x f(x) ], где f(x) = x (1-x) - функция произведения площадей.
Arastas
18.06.2025 19:02Смотрите, у меня прямоугольник со сторонами 1 и x, где x равномерно распределеён от 1 до 2. Какое мат ожидание площади прямоугольника? У меня получается интеграл от x для x пробегающего от 1 до 2, то есть 3/2. А у вас 7/3?
jetyb1
18.06.2025 19:02Вторую задачу как будто нейросеть составляла. Ничего не понятно в условии. И условие безграмотное: плотность вероятности рассматривается как две функции корень из x и 1/x^2 . Но очевидно интеграл от плотности вероятности равен не 1, а 2/3 + 1.
jetyb1
18.06.2025 19:02Третья задача (задача C). Строка "2. Общий случай" . Как это лихо последовательность меняется на определенный интеграл? При том интеграл по dx, но относительно х подынтегральное выражение является константой. Какой-то выходит бред или опечатка. И на этом строится вся дальнейшая логика.
jetyb1
18.06.2025 19:02Четверая задача (задача D)
" плюс сумма определителей матриц, все строки которых суть строки матрицы
, кроме
-й строки, которая есть
-я строка матрицы
(то есть строка из одних единиц); при этом
(так как если хотя бы две строки берутся из
, то определитель равен 0). Следовательно, "
Вот это ни фига не решение, потому что проверяющему приходится самому все расписывать и решать. Как будто нейросеть прочитала только часть решения и теперь подгоняет его под известный правильный ответ. Сами так в школе иногда делали.
Kwisatz
а что такое гробовые задачи? по ссылке тоже два раза встречаются гробы без пояснений
Arastas
Я никогда не видел, чтобы ШАД отвечали в комментариях к их постам.
Как я понимаю, гробами они называют задачи, которые (почти) никто из абитуриентов не смог решить.