Введение

Надо сразу сказать, что кроме кибербезопасности, у меня есть ещё 2 любимых предмета - это математика и искусственный интеллект. Поэтому, хотя мой блог и посвящён кибербезу, но не написать эту статью я не мог, потому что это очень интересно. Очень рекомендую прочитать и попробовать.

Предыстория

20 июля 2025 г. завершилась 66-я Международная математическая олимпиада (IMO), которая проводилась в Австралии.

Особенностью IMO этого года было то, впервые была учреждена Премия Математической олимпиады по искусственному интеллекту (AI Mathematical Olympiad Prize) – конкурс на 10 миллионов долларов, направленный на поощрение создания моделей ИИ с открытым исходным кодом.

«Мы гордимся тем, что IMO высоко ценится как эталон математического мастерства, и что в этом году на мероприятии были представлены модели ИИ как с открытым, так и с закрытым исходным кодом», - заявил Грегор Долинар, президент IMO.

«Очень воодушевляет прогресс в математических возможностях моделей ИИ, но мы хотели бы ясно заявить, что IMO не может валидировать методы, включая объём использованных вычислений, наличие человеческого участия или воспроизводимость результатов. Мы можем сказать, что правильные математические доказательства, полученные как самыми талантливыми студентами, так и моделями ИИ, являются достоверными», — заявил г-н Долинар.

Важно уточнить, что олимпиадное задание состояло из 6 задач, за решение каждой начислялось 7 баллов, т. е. максимум можно было набрать 42 балла.

Громкие новости не заставили себя ждать.

Приведу краткую хронологию всей шумихи:

19 июля 2025 Александр Вей, отвечающий в OpenAI за рассуждающие модели, рассказал в X о результатах их экспериментальной модели в IMO 2025. Это было внутреннее тестирование OpenAI, результаты которого, якобы, проверили и подтвердили три бывших призера IMO. Модель справилась с 5 из 6 заданий, набрав 35 баллов из 42 возможных — этого достаточно для золотой медали. Все решения OpenAI выложили на GitHub.

21 июля 2025 вдруг оказалось, что OpenAI такие не одни: моделька Google DeepMind тоже нарешала задач на золото. Причем узнали Google об этом в пятницу днем (18 июля). То есть, по сути, DeepMind готовы были заявить о выигрыше первыми, но пришлось ждать одобрения твита отделом маркетинга. Важно уточнить, что Google также использовал для решения задач непубличную, специально настроенную модель.

Потом был ряд новостей, где шли разборки о том, честно ли поступили OpenAi или нет, чьи результаты более достоверные и т.п. Но в таких вопросах, с т. з. маркетинга, кто первый написал, тот и победил, поэтому почти все бенефиты от ситуации собрал OpenAI.

Но тут, 22 июля выходит статья, которая переводит всё это из экспериментально-маркетинговой плоскости в практическую!

Статья

Двое ученых из университета Лос-Анжелеса повторили результат OpenAI и Google с золотой медалью IMO, но с помощью обычной публичной Gemini 2.5 Pro.

22 июня выходит статья, в которой ученые заявили, что добились той же золотой медали с обычной Gemini 2.5 Pro. Всё получилось благодаря продуманному промпт-инжинирингу и правильному построению пайплайна.

Пайплайн получился трехступенчатый:

  1. Генерация решения по жёсткому промпту, требующему строгости и TeX-оформления каждого шага;

  2. Дальше модель получает доп. токены ризонинга, на которые сама же анализирует свой вывод, дополняет недостающие части и углубляет доказательство;

  3. Независимый верификатор (другой экземпляр той же Gemini 2.5 Pro) шаг за шагом проверяет доказательство, ищет ошибки, пробелы в обосновании и пр. Если найденные ошибки валидные, они исправляются, и дальше все идет по кругу.

Если после пяти таких итераций верификатор не находит ошибок, решение принимается. Иначе все заново, но с другой исходной гипотезой.

В результате, из шести задач IMO 2025 модель полностью решила пять. Столько же, сколько решили те самые экспериментальные модели OpenAI и Google.

Что самое главное – авторы статьи указали все гиперпараметры, которые использовали, перечислили детали запуска пайплайна, дали все системные промпты. Бери и пользуйся.

А для самых внимательных и "ленивых" читателей, авторы в одной из сносок статьи дали ссылку на свой GitHub, где лежит весь проект.

Проект можно клонировать и запускать у себя локально и тоже порешать разные олимпиадные задачи по математике!

Единственное, что хочу расписать чуть подробнее - как получить Google API key.

Для этого вам потребуется аккаунт Google. Переходим по ссылке в Google AI Studio, авторизуемся и нажимаем кнопку Create API key:

Среди проектов выбираем Gemini API (У меня это единственный доступный проект):

Полученный API-ключ потребуется указать в коде проекта, по инструкции, как указано в репозитории.

Заключение

Я попробовал дать системе пару олимпиадных задач за 11 класс и она их успешно и правильно решила. Тут конечно же интереснее было бы сделать соревнование-сравнение публичных нейронок в решении публичных олимпиадных задач. Поэтому, если кто-то захочет, вот вам тема для статьи) Единственное, в чём я пока не разобрался - какие лимиты есть у публичной Gemini 2.5 Pro. Если у вас что-то не будет получаться с запуском проекта, напишите, постараюсь помочь.

Комментарии (5)


  1. xi-tauw
    12.08.2025 08:45

    У меня давно валяется нерешенная задача.

    Если будет возможность, можете запросить посмотреть?


    1. Chumikov Автор
      12.08.2025 08:45

      Знаете, вроде бы, с этой задачей может справиться и DeepSeek. Посмотрите. Я столкнулся со сложностью, что пока не смог найти задачу, которую не смогли бы решить QWEN или DeepSeek, но смогла бы решить предложенная в статье система.


      1. xi-tauw
        12.08.2025 08:45

        Спасибо.


      1. xi-tauw
        12.08.2025 08:45

        А как у этих систем с графическими задачками? Вот из простого. Можно ли замостить плоскость фигурой ниже (допускаются повороты и отражения)?


        1. Chumikov Автор
          12.08.2025 08:45

          ) Я не буду вам приводить всё решение, но эту фигуру очень легко нейронке описать и она её отлично понимает.