Автор: Лыков А., к.ф.-м.н., академический руководитель Школы Высшей Математики и ШАДХелпера.
В статье мы посмотрим как справляется большая языковая модель o3-mini от OpenAI со вступительными задачами из школы анализа данных Яндекса.
В другой нашей статье мы выделили список достаточно сложных задач со вступительных экзаменов в ШАД (https://habr.com/ru/articles/869224/ ). На этих задачах и будем тестировать o3-mini.
Сразу скажем результат: из шести сложных задач o3-mini справилась с четырьмя. Переходим к самим задачам.
Задача 1. При каких натуральных существует квадратная матрица порядка с элементами такая, что ее квадрат — это матрица из одних единиц?
Ответ o3: https://chatgpt.com/share/67ac3471-8654-8004-955f-ca64f9b2e72a

Необходимое условие o3 нашёл верно, однако проверка достаточности слишком упрощена. Нет конкретики. Просим модель уточить проверку достаточности двумя промтами:
приведи конструкцию таких матриц для произвольного N^2
можешь привести более простую конструкцию? сможешь графически описать ?
Получаем такой ответ:


Получилась явная конструкция. Задачу можно принять как правильно решенную. Другое решение задачи можно найти в указанной статье. Переходим к следующему “гробу” со вступительных экзаменов.
Задача 2. Верно ли, что почти все (все, кроме конечного числа) натуральные числа представимы в виде , где — количество делителей числа ?
Ответ o3-mini: (https://chatgpt.com/share/67ac365f-3e34-8004-9e33-c1085e150dbd)

Действительно, задача является сложной и с её решением можно ознакомиться в нашем сборнике (https://shadhelper.notion.site/8-1b31c18275144eddaf553681d2d2f3d7). Тут мы не приводим решение из-за громоздкости, один видео разбор занимает более 30 минут.
Задача 3. За столом сидят старателей, перед каждым из которых находится кучка золотого песка. Каждую минуту происходит следующее: по общей команде каждый из них перекладывает в свою кучку половину песка из кучки левого соседа и половину — из кучки правого соседа. Опишите асимптотическое поведение кучек (а) при
; (б) при произвольном
o3-mini отлично справилась с этой задачей с первого раза. Её ответ: https://chatgpt.com/share/67ac3720-7844-8004-bb01-aa5ca1b5d444
Задача 4. Какой минимальной длины существует цепочка из цифр, такая, что в ней в качестве фрагментов четырёх из подряд идущих цифр присутствует все не начинающиеся с нуля цепочки из цифр?
Приводим ответ o3-mini : https://chatgpt.com/share/67aae5da-bea4-8004-9f85-70837bbdde8c
Ответ получился неверный. В частности, в самом начале рассуждения, она пишет:

Простые арифметические ошибки совершают не только профессиональные математики, но и, как оказывается, продвинутые большие языковые модели. Просим её найти ошибку в рассуждении, на что она обнаруживает весьма сильную настойчивость в своём цифровом характере:

Получаем такой ответ:

С дальнейшем диалогом по этой задаче можно ознакомиться по ссылке. В результате, модель не смогла решить эту задачу.
Задача 5. Пусть — ограниченная гладкая функция, причём её среднее значение на любой окружности радиуса равно значению в центре этой окружности. Докажите, что постоянна.
Ответ o3-mini: https://chatgpt.com/share/67ac3bb6-a510-8004-aa8e-94aa00b5781b
Вначале модель привела два решение. Первое на основе преобразования Фурье, второе с помощью формулы Тейлора. Оба решения страдают строгостью обоснования (с Фурье нам нужно переходить к обобщенным функциям, с Тейлором это вообще не доказательство). Зная о недостатках этих решений мы сразу просим привести решение основанное на других идеях. Ответ o3-mini нас весьма удивил, так как третье решение совпало с тем, которое составили наши преподаватели. Его идея основана на теории мартингалов. Мы решили уточнить источник решения:

Действительно, с точки зрения теории мартингалов и гармонического анализа, данная задача является несложной и стандартной.
Задача 6.

С этой задачей o3-mini прекрасно справилась: https://chatgpt.com/share/67ac3de9-fd68-8004-9a9b-fa732971903a
Вывод. Результаты o3-mini в решении математических задач впечатляют. У некоторых людей есть сомнения в её способности рассуждать, и то, что она выдаёт, по их мнению, это решения, найденные в обучающей выборке Отчасти это так, однако в феврале вышли результаты тестирования языковых моделей на олимпиадных задачах 2025 года, которых не было в обучающей выборке. Результат o3-mini: 78%. Этот показатель чуть ниже, чем на обучающей выборке (87%), но тем не менее достаточно высок, гораздо выше среднего или сильного школьника или студента.
Мы призываем активно использовать большие языковые модели в обучении и преподавании математики. С подобными инструментами преподавание и исследование в области математики ждёт настоящая революция.
Комментарии (11)
Arastas
13.02.2025 14:16В первой задаче не очевидно, почему неравенсто Коши-Буняковского должно становиться равенством.
Arastas
13.02.2025 14:16Я пошёл задавать уточняющие вопросы, и, как мне кажется, модель стала путаться:
равны так как выполняется равенство, равенство должно выполняться так как
, а для этого необходимо, чтобы все
были равны. Может я вопросы как-то не так задавал.
Более того, при просьбе привести численный пример для
модель тоже посыпалась.
Wesha
13.02.2025 14:16Я пошёл задавать уточняющие вопросы, и, как мне кажется, модель стала путаться
Более того, при просьбе привести численный пример для
модель тоже посыпалась.
Так и запишем: эмулятор студента на экзамене работает нормально!
dididididi
13.02.2025 14:16Вы все там в яндексе очень офигенно умные, респект и уважуха. Много непонятных слов.
А когда вы еще сможете починить скачивание в яндекс-книгах будет ваще офигенно, а еще я сегодня пытался найти телефон по фильтру "беспроводная зарядка" в яндекс-маркете и это полное фиаско было.
KonstantinTokar
13.02.2025 14:16А когда смогут нормальный почтовый сервер сделать, и яндекс.диск сделают правильно, и... И карту поправят... И для этого не надо матрицы перемножать, для этого надо набрать нормальных программистов и одного единственного руководителя. Но проще нанимать перемножателей матриц.
DuhovichSasha
13.02.2025 14:16Автору ранее рекомендовалось исключить из использования термин "гробы". Учим ИИ а сами не поддаётся обучению. Прискорбно.
Arastas
13.02.2025 14:16Я ни разу не видел, чтобы этот автор хоть как-то отвечал или иначе реагировал на комментарии к своим статьям.
darthmaul
Вопрос вот в чём: мы не знаем, решила ли нейросеть задачу или просто её алгоритм оубчения всосал примеры с готовыми ответами на том же Яндексе?
astroduck
Ну например у DeepSeek можно посмотреть всю цепочку рассуждений. Это действительно прикольно. Видно как модель сомневается в решении и пытается найти новые пути как решить задачу. Так что по факту решает. А если сравнить с людьми, то ведь те же студенты тоже "всасывают все с готовыми ответами в обучающей выборке". Единственное, я пробовал на задачах из того же Сканави для школьников и модель хоть и находит правильное решение, но не всегда это делает красиво. В целом это прикольно. Но боюсь что скоро родители вместо помощи детям с домашкой будут посылать их к LLM.
Wesha
Во многих рассуждениях премного печали!
и палит токены как не в себя.