Решаем задачи международной математической олимпиады у себя на домашнем компьютере / forpes.ru

Главная
Решаем задачи международной математической олимпиады у себя на домашнем компьютере

Решаем задачи международной математической олимпиады у себя на домашнем компьютере +6

12.08.2025 08:10

Chumikov 13 3800 Источник

Введение

Надо сразу сказать, что кроме кибербезопасности, у меня есть ещё 2 любимых предмета - это математика и искусственный интеллект. Поэтому, хотя мой блог и посвящён кибербезу, но не написать эту статью я не мог, потому что это очень интересно. Очень рекомендую прочитать и попробовать.

Предыстория

20 июля 2025 г. завершилась 66-я Международная математическая олимпиада (IMO), которая проводилась в Австралии.

Особенностью IMO этого года было то, впервые была учреждена Премия Математической олимпиады по искусственному интеллекту (AI Mathematical Olympiad Prize) – конкурс на 10 миллионов долларов, направленный на поощрение создания моделей ИИ с открытым исходным кодом.

«Мы гордимся тем, что IMO высоко ценится как эталон математического мастерства, и что в этом году на мероприятии были представлены модели ИИ как с открытым, так и с закрытым исходным кодом», - заявил Грегор Долинар, президент IMO.

«Очень воодушевляет прогресс в математических возможностях моделей ИИ, но мы хотели бы ясно заявить, что IMO не может валидировать методы, включая объём использованных вычислений, наличие человеческого участия или воспроизводимость результатов. Мы можем сказать, что правильные математические доказательства, полученные как самыми талантливыми студентами, так и моделями ИИ, являются достоверными», — заявил г-н Долинар.

Важно уточнить, что олимпиадное задание состояло из 6 задач, за решение каждой начислялось 7 баллов, т. е. максимум можно было набрать 42 балла.

Громкие новости не заставили себя ждать.

Приведу краткую хронологию всей шумихи:

19 июля 2025 Александр Вей, отвечающий в OpenAI за рассуждающие модели, рассказал в X о результатах их экспериментальной модели в IMO 2025. Это было внутреннее тестирование OpenAI, результаты которого, якобы, проверили и подтвердили три бывших призера IMO. Модель справилась с 5 из 6 заданий, набрав 35 баллов из 42 возможных — этого достаточно для золотой медали. Все решения OpenAI выложили на GitHub.

21 июля 2025 вдруг оказалось, что OpenAI такие не одни: моделька Google DeepMind тоже нарешала задач на золото. Причем узнали Google об этом в пятницу днем (18 июля). То есть, по сути, DeepMind готовы были заявить о выигрыше первыми, но пришлось ждать одобрения твита отделом маркетинга. Важно уточнить, что Google также использовал для решения задач непубличную, специально настроенную модель.

Потом был ряд новостей, где шли разборки о том, честно ли поступили OpenAi или нет, чьи результаты более достоверные и т.п. Но в таких вопросах, с т. з. маркетинга, кто первый написал, тот и победил, поэтому почти все бенефиты от ситуации собрал OpenAI.

Но тут, 22 июля выходит статья, которая переводит всё это из экспериментально-маркетинговой плоскости в практическую!

Статья

Двое ученых из университета Лос-Анжелеса повторили результат OpenAI и Google с золотой медалью IMO, но с помощью обычной публичной Gemini 2.5 Pro.

22 июня выходит статья, в которой ученые заявили, что добились той же золотой медали с обычной Gemini 2.5 Pro. Всё получилось благодаря продуманному промпт-инжинирингу и правильному построению пайплайна.

Пайплайн получился трехступенчатый:

Генерация решения по жёсткому промпту, требующему строгости и TeX-оформления каждого шага;
Дальше модель получает доп. токены ризонинга, на которые сама же анализирует свой вывод, дополняет недостающие части и углубляет доказательство;
Независимый верификатор (другой экземпляр той же Gemini 2.5 Pro) шаг за шагом проверяет доказательство, ищет ошибки, пробелы в обосновании и пр. Если найденные ошибки валидные, они исправляются, и дальше все идет по кругу.

Если после пяти таких итераций верификатор не находит ошибок, решение принимается. Иначе все заново, но с другой исходной гипотезой.

В результате, из шести задач IMO 2025 модель полностью решила пять. Столько же, сколько решили те самые экспериментальные модели OpenAI и Google.

Что самое главное – авторы статьи указали все гиперпараметры, которые использовали, перечислили детали запуска пайплайна, дали все системные промпты. Бери и пользуйся.

А для самых внимательных и "ленивых" читателей, авторы в одной из сносок статьи дали ссылку на свой GitHub, где лежит весь проект.

Проект можно клонировать и запускать у себя локально и тоже порешать разные олимпиадные задачи по математике!

Единственное, что хочу расписать чуть подробнее - как получить Google API key.

Для этого вам потребуется аккаунт Google. Переходим по ссылке в Google AI Studio, авторизуемся и нажимаем кнопку Create API key:

Среди проектов выбираем Gemini API (У меня это единственный доступный проект):

Полученный API-ключ потребуется указать в коде проекта, по инструкции, как указано в репозитории.

Заключение

Я попробовал дать системе пару олимпиадных задач за 11 класс и она их успешно и правильно решила. Тут конечно же интереснее было бы сделать соревнование-сравнение публичных нейронок в решении публичных олимпиадных задач. Поэтому, если кто-то захочет, вот вам тема для статьи) Единственное, в чём я пока не разобрался - какие лимиты есть у публичной Gemini 2.5 Pro. Если у вас что-то не будет получаться с запуском проекта, напишите, постараюсь помочь.

Комментарии (13)

xi-tauw
12.08.2025 08:45
#28695974
У меня давно валяется нерешенная задача.

Если будет возможность, можете запросить посмотреть?
1. Chumikov Автор
  12.08.2025 08:45
  #28696100
  Знаете, вроде бы, с этой задачей может справиться и DeepSeek. Посмотрите. Я столкнулся со сложностью, что пока не смог найти задачу, которую не смогли бы решить QWEN или DeepSeek, но смогла бы решить предложенная в статье система.
  1. xi-tauw
    12.08.2025 08:45
    #28696278
    Спасибо.
  1. xi-tauw
    12.08.2025 08:45
    #28696432
    А как у этих систем с графическими задачками? Вот из простого. Можно ли замостить плоскость фигурой ниже (допускаются повороты и отражения)?
    
    Chumikov Автор
    12.08.2025 08:45
    #28696574
    ) Я не буду вам приводить всё решение, но эту фигуру очень легко нейронке описать и она её отлично понимает.

krot12
12.08.2025 08:45
#28705498
Я, согласно вашим инструкциям, получил открыл новы
1. Chumikov Автор
  12.08.2025 08:45
  #28706418
  Допишите
  1. krot12
    12.08.2025 08:45
    #28707430
    Недописал, потому что что-то случайно нажал, и сообщение так и ушло. Не вижу возможностей его редактировать. Следуя вашим инструкциям я создал Google API Key для нового проекта, потом попал на сайт https://console.cloud.google.com/monitoring/dashboards?... и дальше непонятно, что делать. Я просто хочу попасть на консоль, где можно задать свой вопрос, но не вижу там такой возможности. Тогда я просто на странице Гугла нашел GEMINI, задал ей свою задачу и получил ответ. Связано ли это как-то с моими предыдущими действиями, мне неясно.
    
    Chumikov Автор
    12.08.2025 08:45
    #28707840
    Нет, не связано. Сейчас публичные нейронки многие задачи могут решить.
    
    krot12
    12.08.2025 08:45
    #28707868
    А как же все же попасть на мой проект, чтобы там задать вопрос? Я написал выше , где я остановился.
    
    krot12
    12.08.2025 08:45
    #28708588
    Я обратился, как вы говорите, публичной нейтронке GEMINI, и она дала мне точные инструкции вплоть до запуска Python-файла с примером. Однако запуск не удался с ощибкой "google.api_core.exceptions.NotFound: 404 models/gemini-pro is not found for API version v1beta" . Когда я сказал об этом GEMINI, ответили мне так: " Такая ошибка означает, что вы пытаетесь использовать модель Gemini-pro, которая недоступна в вашем регионе. К сожалению, API Gemini еще не запущен во всех странах, и вы столкнулись с ограничением по географическому доступу. " Можете что-то посоветовать?
    
    AlbertEinsteinEpoch21
    12.08.2025 08:45
    #28709056
    Gemini pro не доступен в России. В интернете как это обуйти уже описали много раз. Вы можете обратиться к другим сетка к Qwen или Deepseek...если не хотите ничего менять.
    
    Учтите что: ограничения вычислительного бюджета: максимальное количество токенов размышления Gemini 2.5 Pro составляет 32768, что недостаточно для полного решения типичной задачи IMO. Для этого видимо и предназначен проект на github.com.
    
    krot12
    12.08.2025 08:45
    #28709550
    Спасибо за ответ. Вообще-то я живу в Израиле. Мне вчера вроде удалось запустить в Google AI Studio. Почему я пишу вроде? Там есть 2 окошка: Chat Prompt , которое недостуно, и под ним еще одно, где справа написано Run Ctrl. Вот в него я вставил задачу и оно начала решать, показавывая этапы. Решение весьма длиное, но ответ правильный. Буду еще проверять.

Решаем задачи международной математической олимпиады у себя на домашнем компьютере +6

Введение

Предыстория

Статья

Заключение

Комментарии (13)

Chumikov Автор

Chumikov Автор

Chumikov Автор

Chumikov Автор