Автор: Лыков А., к.ф.-м.н., академический руководитель Школы Высшей Математики и ШАДХелпера.

В статье мы посмотрим как справляется большая языковая модель o3-mini от OpenAI со вступительными задачами из школы анализа данных Яндекса.

В другой нашей статье мы выделили список достаточно сложных задач со вступительных экзаменов в ШАД (https://habr.com/ru/articles/869224/ ). На этих задачах и будем тестировать o3-mini.

Сразу скажем результат: из шести сложных задач o3-mini справилась с четырьмя. Переходим к самим задачам.

Задача 1. При каких натуральных  существует квадратная матрица порядка  с элементами  такая, что ее квадрат — это матрица из одних единиц?

Ответ o3: https://chatgpt.com/share/67ac3471-8654-8004-955f-ca64f9b2e72a

Необходимое условие o3 нашёл верно, однако проверка достаточности слишком упрощена. Нет конкретики. Просим модель уточить проверку достаточности двумя промтами:

  • приведи конструкцию таких матриц для произвольного N^2

  • можешь привести более простую конструкцию? сможешь графически описать ?

Получаем такой ответ:

Получилась явная конструкция. Задачу можно принять как правильно решенную. Другое решение задачи можно найти в указанной статье. Переходим к следующему “гробу” со вступительных экзаменов.

Задача 2. Верно ли, что почти все (все, кроме конечного числа) натуральные числа представимы в виде , где  — количество делителей числа ?

Ответ o3-mini: (https://chatgpt.com/share/67ac365f-3e34-8004-9e33-c1085e150dbd)

Действительно, задача является сложной и с её решением можно ознакомиться в нашем сборнике (https://shadhelper.notion.site/8-1b31c18275144eddaf553681d2d2f3d7). Тут мы не приводим решение из-за громоздкости, один видео разбор занимает более 30 минут.

Задача 3. За столом сидят n старателей, перед каждым из которых находится кучка золотого песка. Каждую минуту происходит следующее: по общей команде каждый из них перекладывает в свою кучку половину песка из кучки левого соседа и половину — из кучки правого соседа. Опишите асимптотическое поведение кучек (а) при n=3; (б) при произвольном n

o3-mini отлично справилась с этой задачей с первого раза. Её ответ: https://chatgpt.com/share/67ac3720-7844-8004-bb01-aa5ca1b5d444

Задача 4. Какой минимальной длины существует цепочка из цифр, такая, что в ней в качестве фрагментов четырёх из подряд идущих цифр присутствует все не начинающиеся с нуля цепочки из  цифр?

Приводим ответ o3-mini : https://chatgpt.com/share/67aae5da-bea4-8004-9f85-70837bbdde8c

Ответ получился неверный. В частности, в самом начале рассуждения, она пишет:

Простые арифметические ошибки совершают не только профессиональные математики, но и, как оказывается, продвинутые большие языковые модели. Просим её найти ошибку в рассуждении, на что она обнаруживает весьма сильную настойчивость в своём цифровом характере:

Получаем такой ответ:

С дальнейшем диалогом по этой задаче можно ознакомиться по ссылке. В результате, модель не смогла решить эту задачу.

Задача 5. Пусть  — ограниченная гладкая функция, причём её среднее значение на любой окружности радиуса  равно значению в центре этой окружности. Докажите, что постоянна.

Ответ o3-mini: https://chatgpt.com/share/67ac3bb6-a510-8004-aa8e-94aa00b5781b

Вначале модель привела два решение. Первое на основе преобразования Фурье, второе с помощью формулы Тейлора. Оба решения страдают строгостью обоснования (с Фурье нам нужно переходить к обобщенным функциям, с Тейлором это вообще не доказательство). Зная о недостатках этих решений мы сразу просим привести решение основанное на других идеях. Ответ o3-mini нас весьма удивил, так как третье решение совпало с тем, которое составили наши преподаватели. Его идея основана на теории мартингалов. Мы решили уточнить источник решения:

Действительно, с точки зрения теории мартингалов и гармонического анализа, данная задача является несложной и стандартной.

Задача 6.

С этой задачей o3-mini прекрасно справилась: https://chatgpt.com/share/67ac3de9-fd68-8004-9a9b-fa732971903a

Вывод. Результаты o3-mini в решении математических задач впечатляют. У некоторых людей есть сомнения в её способности рассуждать, и то, что она выдаёт, по их мнению, это решения, найденные в обучающей выборке Отчасти это так, однако в феврале вышли результаты тестирования языковых моделей на олимпиадных задачах 2025 года, которых не было в обучающей выборке. Результат o3-mini: 78%. Этот показатель чуть ниже, чем на обучающей выборке (87%), но тем не менее достаточно высок, гораздо выше среднего или сильного школьника или студента.

Мы призываем активно использовать большие языковые модели в обучении и преподавании математики. С подобными инструментами преподавание и исследование в области математики ждёт настоящая революция.

Комментарии (11)


  1. darthmaul
    13.02.2025 14:16

    Вопрос вот в чём: мы не знаем, решила ли нейросеть задачу или просто её алгоритм оубчения всосал примеры с готовыми ответами на том же Яндексе?


    1. astroduck
      13.02.2025 14:16

      Ну например у DeepSeek можно посмотреть всю цепочку рассуждений. Это действительно прикольно. Видно как модель сомневается в решении и пытается найти новые пути как решить задачу. Так что по факту решает. А если сравнить с людьми, то ведь те же студенты тоже "всасывают все с готовыми ответами в обучающей выборке". Единственное, я пробовал на задачах из того же Сканави для школьников и модель хоть и находит правильное решение, но не всегда это делает красиво. В целом это прикольно. Но боюсь что скоро родители вместо помощи детям с домашкой будут посылать их к LLM.


      1. Wesha
        13.02.2025 14:16

        Ну например у DeepSeek можно посмотреть всю цепочку рассуждений. Это действительно прикольно. Видно как модель сомневается в решении и пытается найти новые пути как решить задачу.

        Во многих рассуждениях премного печали!
        Когда ИИ сказали «привет!» — видно, как оно сомневается и пытается найти новые пути как решить задачу и палит токены как не в себя.
        Когда ИИ сказали «привет!» — видно, как оно сомневается и пытается найти новые пути как решить задачу и палит токены как не в себя.


  1. Arastas
    13.02.2025 14:16

    В первой задаче не очевидно, почему неравенсто Коши-Буняковского должно становиться равенством.


    1. Arastas
      13.02.2025 14:16

      Я пошёл задавать уточняющие вопросы, и, как мне кажется, модель стала путаться: r_i равны так как выполняется равенство, равенство должно выполняться так как A^2=J, а для этого необходимо, чтобы все r_i были равны. Может я вопросы как-то не так задавал.

      Более того, при просьбе привести численный пример для N=4 модель тоже посыпалась.


      1. Wesha
        13.02.2025 14:16

        Я пошёл задавать уточняющие вопросы, и, как мне кажется, модель стала путаться

        Более того, при просьбе привести численный пример для N=4 модель тоже посыпалась.

        Так и запишем: эмулятор студента на экзамене работает нормально!


  1. dididididi
    13.02.2025 14:16

    Вы все там в яндексе очень офигенно умные, респект и уважуха. Много непонятных слов.

    А когда вы еще сможете починить скачивание в яндекс-книгах будет ваще офигенно, а еще я сегодня пытался найти телефон по фильтру "беспроводная зарядка" в яндекс-маркете и это полное фиаско было.


    1. KonstantinTokar
      13.02.2025 14:16

      А когда смогут нормальный почтовый сервер сделать, и яндекс.диск сделают правильно, и... И карту поправят... И для этого не надо матрицы перемножать, для этого надо набрать нормальных программистов и одного единственного руководителя. Но проще нанимать перемножателей матриц.


    1. sdramare
      13.02.2025 14:16

      Причем тут ШАД и фильтры яндекс-маркета?


  1. DuhovichSasha
    13.02.2025 14:16

    Автору ранее рекомендовалось исключить из использования термин "гробы". Учим ИИ а сами не поддаётся обучению. Прискорбно.


    1. Arastas
      13.02.2025 14:16

      Я ни разу не видел, чтобы этот автор хоть как-то отвечал или иначе реагировал на комментарии к своим статьям.