ChatGPT решает гробы с экзаменов в ШАД / forpes.ru

Главная
ChatGPT решает гробы с экзаменов в ШАД

ChatGPT решает гробы с экзаменов в ШАД +10

13.02.2025 14:06

alexlyk314 11 9800 Источник

Автор: Лыков А., к.ф.-м.н., академический руководитель Школы Высшей Математики и ШАДХелпера.

В статье мы посмотрим как справляется большая языковая модель o3-mini от OpenAI со вступительными задачами из школы анализа данных Яндекса.

В другой нашей статье мы выделили список достаточно сложных задач со вступительных экзаменов в ШАД (https://habr.com/ru/articles/869224/ ). На этих задачах и будем тестировать o3-mini.

Сразу скажем результат: из шести сложных задач o3-mini справилась с четырьмя. Переходим к самим задачам.

Задача 1. При каких натуральных существует квадратная матрица порядка с элементами такая, что ее квадрат — это матрица из одних единиц?

Ответ o3: https://chatgpt.com/share/67ac3471-8654-8004-955f-ca64f9b2e72a

Необходимое условие o3 нашёл верно, однако проверка достаточности слишком упрощена. Нет конкретики. Просим модель уточить проверку достаточности двумя промтами:

приведи конструкцию таких матриц для произвольного N^2
можешь привести более простую конструкцию? сможешь графически описать ?

Получаем такой ответ:

Получилась явная конструкция. Задачу можно принять как правильно решенную. Другое решение задачи можно найти в указанной статье. Переходим к следующему “гробу” со вступительных экзаменов.

Задача 2. Верно ли, что почти все (все, кроме конечного числа) натуральные числа представимы в виде , где — количество делителей числа ?

Ответ o3-mini: (https://chatgpt.com/share/67ac365f-3e34-8004-9e33-c1085e150dbd)

Действительно, задача является сложной и с её решением можно ознакомиться в нашем сборнике (https://shadhelper.notion.site/8-1b31c18275144eddaf553681d2d2f3d7). Тут мы не приводим решение из-за громоздкости, один видео разбор занимает более 30 минут.

Задача 3. За столом сидят старателей, перед каждым из которых находится кучка золотого песка. Каждую минуту происходит следующее: по общей команде каждый из них перекладывает в свою кучку половину песка из кучки левого соседа и половину — из кучки правого соседа. Опишите асимптотическое поведение кучек (а) при ; (б) при произвольном

o3-mini отлично справилась с этой задачей с первого раза. Её ответ: https://chatgpt.com/share/67ac3720-7844-8004-bb01-aa5ca1b5d444

Задача 4. Какой минимальной длины существует цепочка из цифр, такая, что в ней в качестве фрагментов четырёх из подряд идущих цифр присутствует все не начинающиеся с нуля цепочки из цифр?

Приводим ответ o3-mini : https://chatgpt.com/share/67aae5da-bea4-8004-9f85-70837bbdde8c

Ответ получился неверный. В частности, в самом начале рассуждения, она пишет:

Простые арифметические ошибки совершают не только профессиональные математики, но и, как оказывается, продвинутые большие языковые модели. Просим её найти ошибку в рассуждении, на что она обнаруживает весьма сильную настойчивость в своём цифровом характере:

Получаем такой ответ:

С дальнейшем диалогом по этой задаче можно ознакомиться по ссылке. В результате, модель не смогла решить эту задачу.

Задача 5. Пусть — ограниченная гладкая функция, причём её среднее значение на любой окружности радиуса равно значению в центре этой окружности. Докажите, что постоянна.

Ответ o3-mini: https://chatgpt.com/share/67ac3bb6-a510-8004-aa8e-94aa00b5781b

Вначале модель привела два решение. Первое на основе преобразования Фурье, второе с помощью формулы Тейлора. Оба решения страдают строгостью обоснования (с Фурье нам нужно переходить к обобщенным функциям, с Тейлором это вообще не доказательство). Зная о недостатках этих решений мы сразу просим привести решение основанное на других идеях. Ответ o3-mini нас весьма удивил, так как третье решение совпало с тем, которое составили наши преподаватели. Его идея основана на теории мартингалов. Мы решили уточнить источник решения:

Действительно, с точки зрения теории мартингалов и гармонического анализа, данная задача является несложной и стандартной.

Задача 6.

С этой задачей o3-mini прекрасно справилась: https://chatgpt.com/share/67ac3de9-fd68-8004-9a9b-fa732971903a

Вывод. Результаты o3-mini в решении математических задач впечатляют. У некоторых людей есть сомнения в её способности рассуждать, и то, что она выдаёт, по их мнению, это решения, найденные в обучающей выборке Отчасти это так, однако в феврале вышли результаты тестирования языковых моделей на олимпиадных задачах 2025 года, которых не было в обучающей выборке. Результат o3-mini: 78%. Этот показатель чуть ниже, чем на обучающей выборке (87%), но тем не менее достаточно высок, гораздо выше среднего или сильного школьника или студента.

Мы призываем активно использовать большие языковые модели в обучении и преподавании математики. С подобными инструментами преподавание и исследование в области математики ждёт настоящая революция.

Комментарии (11)

darthmaul
13.02.2025 14:16
#27918072
Вопрос вот в чём: мы не знаем, решила ли нейросеть задачу или просто её алгоритм оубчения всосал примеры с готовыми ответами на том же Яндексе?
1. astroduck
  13.02.2025 14:16
  #27921216
  Ну например у DeepSeek можно посмотреть всю цепочку рассуждений. Это действительно прикольно. Видно как модель сомневается в решении и пытается найти новые пути как решить задачу. Так что по факту решает. А если сравнить с людьми, то ведь те же студенты тоже "всасывают все с готовыми ответами в обучающей выборке". Единственное, я пробовал на задачах из того же Сканави для школьников и модель хоть и находит правильное решение, но не всегда это делает красиво. В целом это прикольно. Но боюсь что скоро родители вместо помощи детям с домашкой будут посылать их к LLM.
  1. Wesha
    13.02.2025 14:16
    #27922950
    Ну например у DeepSeek можно посмотреть всю цепочку рассуждений. Это действительно прикольно. Видно как модель сомневается в решении и пытается найти новые пути как решить задачу.
    
    Во многих рассуждениях премного печали!
    
    Когда ИИ сказали «привет!» — видно, как оно сомневается и пытается найти новые пути как решить задачу ~~и палит токены как не в себя.~~

Arastas
13.02.2025 14:16
#27918264
В первой задаче не очевидно, почему неравенсто Коши-Буняковского должно становиться равенством.
1. Arastas
  13.02.2025 14:16
  #27918344
  Я пошёл задавать уточняющие вопросы, и, как мне кажется, модель стала путаться: равны так как выполняется равенство, равенство должно выполняться так как , а для этого необходимо, чтобы все были равны. Может я вопросы как-то не так задавал.
  
  Более того, при просьбе привести численный пример для модель тоже посыпалась.
  1. Wesha
    13.02.2025 14:16
    #27918546
    
    Я пошёл задавать уточняющие вопросы, и, как мне кажется, модель стала путаться
    
    Более того, при просьбе привести численный пример для модель тоже посыпалась.
    
    Так и запишем: эмулятор студента на экзамене работает нормально!

dididididi
13.02.2025 14:16
#27923412
Вы все там в яндексе очень офигенно умные, респект и уважуха. Много непонятных слов.

А когда вы еще сможете починить скачивание в яндекс-книгах будет ваще офигенно, а еще я сегодня пытался найти телефон по фильтру "беспроводная зарядка" в яндекс-маркете и это полное фиаско было.
1. KonstantinTokar
  13.02.2025 14:16
  #27925446
  А когда смогут нормальный почтовый сервер сделать, и яндекс.диск сделают правильно, и... И карту поправят... И для этого не надо матрицы перемножать, для этого надо набрать нормальных программистов и одного единственного руководителя. Но проще нанимать перемножателей матриц.
1. sdramare
  13.02.2025 14:16
  #27925992
  Причем тут ШАД и фильтры яндекс-маркета?

DuhovichSasha
13.02.2025 14:16
#27926156
Автору ранее рекомендовалось исключить из использования термин "гробы". Учим ИИ а сами не поддаётся обучению. Прискорбно.
1. Arastas
  13.02.2025 14:16
  #27926282
  Я ни разу не видел, чтобы этот автор хоть как-то отвечал или иначе реагировал на комментарии к своим статьям.