Как математик 20 лет строил задачу, которую ИИ не сможет решить, а GPT-5.4 сломал ему картину мира / forpes.ru

Главная
Как математик 20 лет строил задачу, которую ИИ не сможет решить, а GPT-5.4 сломал ему картину мира

Как математик 20 лет строил задачу, которую ИИ не сможет решить, а GPT-5.4 сломал ему картину мира +8

19.03.2026 07:25

cognitronn 21 6800 Источник

Я давно освещаю прорывы в ИИ. В большинстве случаев заголовок обещает больше, чем даёт статья.

Этот случай — другой.

Польский математик Бартош Наскрэцки потратил 20 лет на создание одной из сложнейших задач, когда-либо включённых в ИИ-бенчмарк. Он вложил в неё всю свою исследовательскую карьеру. Задокументированное решение занимает 13 плотных страниц. Он был настолько уверен, что ни одна машина не справится, что ещё несколько месяцев назад публично называл ИИ «очень продвинутым калькулятором».

А потом GPT-5.4 решил его задачу.

И как отреагировал Наскрэцки? Он не стал упираться. Не стал оправдываться. Он назвал это своим «моментом Хода 37» и написал: «Моя сингулярность только что случилась… и по ту сторону есть жизнь — уходящая в бесконечность!»

Давайте разберёмся, почему это важно.

Задача была создана, чтобы быть нерешаемой

Контекст. Epoch AI ведёт бенчмарк под названием FrontierMath. Это не обычный математический тест. Он содержит 350 оригинальных задач, охватывающих теорию чисел, алгебраическую геометрию, топологию, комбинаторику и математический анализ. Самый сложный уровень, Tier 4, — это 48 задач исследовательского уровня, настолько трудных, что даже специалисту с PhD потребуется минимум месяц только на то, чтобы понять, как к одной из них подступиться.

Когда FrontierMath запустился в конце 2024 года, лучшие ИИ-модели решали менее 2% задач. Филдсовский лауреат Теренс Тао назвал их чрезвычайно сложными. Его коллега Игорь Пак предположил, что некоторые могут сопротивляться ИИ до 50 лет.

Наскрэцки был одним из всего пяти европейских математиков, приглашённых создавать задачи для FrontierMath. Он — заместитель декана факультета математики и информатики Познаньского университета имени Адама Мицкевича. Его исследования охватывают арифметическую геометрию, эллиптические кривые и гипергеометрические мотивы. Он даже писал статью в соавторстве с Кеном Оно — одним из ведущих мировых специалистов по теории чисел.

Это не случайный профессор. Это один из тех людей, которым создатели бенчмарка доверили построить задачи, достаточно сложные, чтобы ставить ИИ в тупик на годы вперёд.

Его задача опиралась на 15 лет накопленной экспертизы. Решение — 13 страниц плотной математики. Ответ — очень большое число, специально подобранное, чтобы исключить угадывание. Он был уверен, что задача простоит годы.

Не простояла.

От 2% до 50% за шестнадцать месяцев

Траектория ошеломляет.

Конец 2024: лучшие модели решают менее 2% FrontierMath.
Середина 2025: GPT-5 Pro набирает 13% на Tier 4 — на этом уровне до тех пор были решены всего три задачи.
Январь 2026: GPT-5.2 Pro подскакивает до 31% на Tier 4 и самостоятельно решает задачи Эрдёша — что подтвердил лично Теренс Тао.
Март 2026: GPT-5.4 Pro выходит на 50% по уровням 1–3 и 38% по Tier 4.

Двадцатикратное улучшение за шестнадцать месяцев.

И вот что делает это ещё интереснее: GPT-5.4 показал лучшие результаты на скрытых задачах, к которым у OpenAI не было доступа. Он решил 55% из них — против 25% из тех, на которых OpenAI теоретически мог тренироваться. Это важно, потому что подрывает аргумент «они просто натренировались на ответах».

И вам не нужна подписка за сотни долларов, чтобы попробовать возможности ведущих ИИ-моделей на своих задачах. Сервисы вроде BotHub дают доступ к GPT-5.4, Claude 4.6 и другим топовым нейросетям в одном интерфейсе. Тестируйте, сравнивайте, находите инструмент, который усилит именно вашу экспертизу — как GPT-5.4 усилил Наскрэцки.

Для доступа не требуется VPN, можно использовать российскую карту.

По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Решение было элегантным, а не грубым перебором

Наскрэцки убедило не только то, что модель получила правильный ответ. А то, как она это сделала.

GPT-5.4 не продрался силой через 13 страниц математики. Он заметил паттерн и экстраполировал из него, найдя обходной путь, который позволил избежать более тяжёлого математического аппарата, использованного Наскрэцки в собственном решении. Математик описал подход как «чистый и элегантный» и сказал, что он ощущается «почти по-человечески».

Вот в чём ключевое различие. Предыдущие заявления о том, что ИИ «решает» математические задачи, часто оказывались замаскированным поиском по литературе. В октябре 2025-го исследователи OpenAI заявили, что GPT-5 решил задачи Эрдёша. Выяснилось, что модель просто нашла существующие решения через веб-поиск. Томас Блум, который ведёт сайт задач Эрдёша, назвал это «серьёзным искажением действительности».

Но задача Наскрэцки была специально сконструирована так, чтобы у неё не было существующего решения в интернете. Задачи FrontierMath — оригинальные. Ответы не публикуются. Искать было нечего. GPT-5.4 должен был рассуждать самостоятельно.

Оговорка, которую стоит сделать

Хочу быть честным. Не каждое решение GPT-5.4 было столь же безупречным. В том же оценочном прогоне GPT-5.4 справился с ещё одной задачей Tier 4, которую до этого не решала ни одна модель. Но предварительный анализ Epoch AI показал: модель обнаружила препринт 2011 года, о существовании которого сам автор задачи не знал. Фактически она обошла предполагаемую математическую работу, всплыв забытое исследование.

Это повторяющаяся проблема. По мере того как модели получают доступ к веб-поиску, граница между «подлинным рассуждением» и «изощрённым поиском по литературе» размывается. Как точно сформулировал Максвелл Кутер из Computerworld: эти модели — в конечном счёте продвинутые поисковые системы, эффективность которых зависит от доступа к информации и скорости её усвоения.

Обе вещи могут быть верны одновременно. GPT-5.4 способен подлинно рассуждать над одними задачами — и находить решение через паттерн-матчинг для других. Вопрос: каково соотношение? И насколько быстро оно смещается в сторону подлинного рассуждения?

Почему «Ход 37» — точная метафора

Сравнение Наскрэцки с Ходом 37 AlphaGo точнее, чем может показаться. В марте 2016 года AlphaGo сделал ход против Ли Седоля, настолько творческий, что экспертные комментаторы поначалу решили — это ошибка. Оказалось — гениальный ход, изменивший представления о том, как играть на высшем уровне. Профессиональные игроки не отмахнулись — они начали изучать.

Наскрэцки утверждает то же самое о математическом подходе GPT-5.4. Модель не просто сравнялась с человеческой производительностью. Она продемонстрировала нечто, похожее на математическое прозрение: нашла подход, который сам создатель задачи считает обоснованным и интересным.

Менее года назад Наскрэцки говорил, что машины на это не способны. Его готовность публично пересмотреть эту позицию — в реальном времени и без оговорок — сама по себе является важным свидетельством.

Проблема независимости бенчмарка

Один момент, которому уделяется недостаточно внимания: FrontierMath финансируется OpenAI.

OpenAI имеет эксклюзивный доступ ко всем 290 задачам уровней 1–3 и решениям 237 из них. Также у компании есть доступ к 28 из 48 задач Tier 4 и их решениям. Epoch AI сохраняет остальные как скрытый набор.

То, что GPT-5.4 показал сопоставимые результаты на скрытых задачах, даёт определённую уверенность. Но сама конструкция по-прежнему поднимает вопросы о независимости бенчмарка, которые отрасли необходимо решать по мере роста ставок.

Это не теория заговора. Это структурный конфликт интересов. Когда компания, результаты которой оцениваются, финансирует оценку, — результаты заслуживают дополнительной проверки. Даже если цифры в этот раз сходятся.

Что это значит для науки

Как человек, потративший годы на докторскую в области медицинского ИИ, я воспринимаю эту историю по-особенному.

Моя работа включала построение моделей глубокого обучения для прогнозирования исходов комы по КТ-снимкам. Тот тип работы, где месяцами вглядываешься в архитектуры, функции потерь и метрики оценки. Где каждое инкрементальное улучшение даётся с трудом.

А теперь представьте ИИ-систему, которая может рассуждать через 13 страниц плотного математического доказательства, найдя обходной путь, который ни один человек не рассматривал. Не перебором. Через экстраполяцию паттернов.

Вывод для науки не в том, что учёные становятся ненужными. Сам Наскрэцки сформулировал лучше всех: он приобрёл инструмент, который понимает его идеи на экспертном уровне и позволяет ему работать «на совершенно новом уровне». Математик не заменён. Математик усилен.

Ту же картину я наблюдаю в медицинском ИИ, разработке лекарств, вычислительной биологии. Модели не замещают экспертов. Они сжимают пространство поиска. Выводят на поверхность связи, которые люди пропускают. Помогают не сдаваться в тот момент, когда обычно опускаются руки.

Эрнест Рю из UCLA сделал аналогичное наблюдение, когда GPT-5 помог ему решить 40-летнюю задачу оптимизации. Он сказал то, что запало мне в голову: после трёх дней упорных попыток он обычно бросил бы. Но с GPT-5, генерирующим постоянный поток новых идей, задача казалась в пределах досягаемости дольше, чем обычно.

Этот психологический сдвиг может значить больше, чем любой результат бенчмарка.

Итог

Математик потратил два десятилетия на создание задачи, которую, по его убеждению, ИИ не сможет решить.

GPT-5.4 решил её элегантно. Математик назвал это «сингулярностью» — и вернулся к работе. Теперь — с соавтором, способным взаимодействовать с его идеями на высшем уровне.

Это не хайп. Это не PR-трюк. Это фальсифицируемый эмпирический результат от эксперта предметной области, который ранее сомневался в способностях ИИ.

Сингулярность — по крайней мере для одного математика в Познани — это не метафизическое событие. Это профессиональная реальность.

И по ту сторону есть жизнь.

Комментарии (21)

Akon32
19.03.2026 07:33
#29688840
О какой задаче идёт речь?
1. IVA48
  19.03.2026 07:33
  #29688992
  Вот это самое главное. Второе КАК было найдено решение с детализацией логических рассуждений и получение самого вывода. Если это LLM модель, то она предварительно была обучена (точнее самонастроена) по уже известным человеку тексту, информации и данным, а затем по тексту на входе формирует выход строго в соответствии с настройкой, оперируя корреляциями между своими параметрами и используя поисковые алгоритмы. Ничего сверх нового она придумать в принципе не сможет, так как её алгоритмика это не понятийные рассуждения на основе которых строятся логические выводы и которые присущи человеческом интеллекту.
  1. nakesreong
    19.03.2026 07:33
    #29698930
    извините, навеяло
    
    — Робот класса «Буратино» не может нырять!
    
    — Не может, а ныряет.

Refridgerator
19.03.2026 07:33
#29688870
Было уже. И ни там, ни тут саму задачу не озвучили почему-то.
1. Sau
  19.03.2026 07:33
  #29689434
  Ну вы же не специалисты...
1. axion-1
  19.03.2026 07:33
  #29691086
  Скорее всего потому что для обычных людей топовые математические задачи звучат как заклинание на эльфийском вперемешку с китайской грамотой.
  1. Refridgerator
    19.03.2026 07:33
    #29691480
    Ну судя по описанию - там задача не топовая. В том смысле, что человек, который её придумал - заранее знал решение. И подгонял задачу под это конкретное решение - о чём, опять же, сказано прям прямым текстом.
    
    Топовые задачи - это те, решения которых ещё неизвестны. Как, например, теорема Ферма не так уж и давно.
    
    axion-1
    19.03.2026 07:33
    #29692570
    Рискну предположить что условие задачи на составление которой ушло 20 лет и решение занимает 13 страниц, будет скорее всего понятно только спецам с учёной степенью.
    
    Теорема Ферма тут скорее исключение, несмотря на сложность решения - у неё условие понятно даже на школьном уровне.
    
    Refridgerator
    19.03.2026 07:33
    #29692806
    Вот чтобы обойтись без предположений, и нужно было озвучивать условие) 20 лет на составление - ну это вряд ли каждый день. Это скорее промежуток времени между возникновением идеи и её окончательным воплощением. Ну у меня тоже есть задачи про которые могу сказать "решал 20 лет". Не придумывал, а решал. А сами задачи возникали из чисто практических соображений. И доступные мне ИИ их не решают.
    
    Вот например: "вывести функцию, проходящую через 4 точки, при этом она должна быть монотонной и обратимой. Вычислительная сложность обратной функции должна быть такая же, как и у прямой".
1. nakesreong
  19.03.2026 07:33
  #29698966
  потому что как только озвучат задачу она попадет в обучающую выборку. они засекречены ) их нет в инете и в этом вся суть
  1. IVA48
    19.03.2026 07:33
    #29700496
    Тогда и не хрен пиарить то чего нет.

spirit1984
19.03.2026 07:33
#29689264
Т.е. ChatGPT от OpenAI решил задачу из бенчмарка, который финансируется OpenAI? И вот это еще:

OpenAI имеет эксклюзивный доступ ко всем 290 задачам уровней 1–3 и решениям 237 из них. Также у компании есть доступ к 28 из 48 задач Tier 4 и их решениям. Epoch AI сохраняет остальные как скрытый набор.

А остальные скрыты, типа как Epoch AI так говорит? Даже если так, непонятно, как они определяют термин "скрытый набор". Эту задачу ChatGPT видел впервые, или предыдущим версиям тоже предлагали условие для решения, но те не нашли? Если так, то условие нельзя считать скрытым. А если ты знаешь условие задачи и приходишь на экзамен повторно, то тут возникают некоторые вопросики...
1. axion-1
  19.03.2026 07:33
  #29691124
  Скрытый набор - данные которых не было в обучающей выборке. Предыдущим версиям могли предлагать условия из скрытого набора для решения, но модели не способны их "запомнить" если только их специально не дообучать на этих данных.
  1. spirit1984
    19.03.2026 07:33
    #29691226
    Ну конечно не способны. И API от OpenAI не в курсе, кто и как его использует, ведь апи ключи для EpochAI никто не записал, и команды разработчик не дал логировать присланный промпт.
    
    Если серьезно, то тут большие вопросы по чистоте эксперимента. Ребята из EpochAI как его проводят? Со своей учетки вбивают текст в браузере и смотрят на результат? Отслеживается по учетке и подсети айпишников. Ребята пользуются API? Отслеживается по ключам. Т.е. не модель это запоминает, а входная точка это сливает команде OpenAI, а дальше... нанимает несколько безвестных математиков, которые готовят как раз несколько решений на задачу, дообучаем, выкатываем новую версию и вуаля...
    
    Вообще, учитывая, какие деньги крутятся сейчас в AI, и сравнив их с зарплатой того же математика на факультете за год, терзают смутные сомнения. Речь о системе с невероятными ставками. Если задача до этого показывалась предыдущим моделям OpenAI, нет сомнений, у создателей моделей была возможность сохранить хотя бы условие, а затем нанять бригаду ~~литературных негров~~ специалистов по теории эллиптических кривых, чтобы найти решение. Тут нужна толковая перепроверка, потому что сейчас выглядит не так, чтобы достоверно.
    
    axion-1
    19.03.2026 07:33
    #29691292
    Ну если речь про намеренное жульничество, то тут большой простор для фантазии. Утечками по API даже можно не заморачиваться, можно просто заявить что все тесты проплачены.

dima-iod
19.03.2026 07:33
#29693204
Ссылка на рекламируемый сервис имеется, а ссылок на задачи нет. При этом пишете про "фальсифицируемый эмпирический результат". Статья похожа на рекламную в духе "поверь, брат!".
1. nakesreong
  19.03.2026 07:33
  #29698978
  ссылок на задачи нет потому что их в инете нет )) суть теста в том что бы прогнать ИИ на задаче которой точно не было в обучающих данных ))

zkutch
19.03.2026 07:33
#29695248
То что нет ссылки на задачу это приговор. Оценивать математика тем что он зам. декана и имеет исследования? Извиняюсь, если не заметил, но где-то упомянуто что у него есть докторская степень? Хотя иметь пчд сегодня это не то что докторская 50 лет назад в том же союзе, но раз хвастаются, то укажите хотя-бы. Совместную статью предлагают, например, хорошим студентом, усмехаясь, очень неплохие математики, чтобы их поощрить. Главное какой вклад в статью и что это за статья, может обзор, и что дальше, после той одной статьи - а это опять неизвестно. Ну да там его же еще пригласили.. Есть же причина, что пригласили, но вот какая опять неизвестно. Оценивать сложность задачи количеством страниц? Иррациональность е + пи умещается в одно предложение, а она не решена. Фактически, это оценка этого самого математика, а не чего-нибудь еще.

ArtyomOchkin
19.03.2026 07:33
#29696798
Где задача? Точнее, её условие? @cognitronnбудем благодарны, если добавите (ожидал изначально увидеть, даже если задача почти нерешаемая для обычного человека).

Зато рекламу БотХаба, который тупо прослойка к API известных моделей, рекламу добавить не забыли, хотя искренне не понимаю, кому это может быть нужно из пользователей Хабра, которые прекрасно разбираются, где всё это есть...
1. f-tech
  19.03.2026 07:33
  #29697654
  В статье не упомянули тот момент, что ИИ ходил на пересдачу 10 раз :)
  
  During testing, GPT-5.4 attempted the challenge 11 times and succeeded once.
  
  Despite the breakthrough, experts say AI reasoning remains experimental and inconsistent. Human mathematicians still need to verify every step of AI-generated solutions.
  
  Можно предположить, что задачу намеренно не выкладывают в открытый доступ для чистоты эксперимента. Например, чтобы другие люди, в том числе профессиональные математики не начали её азартно решать на форумах, и ИИ не подсмотрел пути решения.
  
  Вот подробности, которые удалось найти в открытом доступе:
  https://epoch.ai/frontiermath/tiers-1-4/benchmark-problems (примеры задач)
  https://bnaskrecki.faculty.wmi.amu.edu.pl/epoch/summary-anonym.pdf (отчёт самого Наскрэцки о ходе эксперимента)
  1. axion-1
    19.03.2026 07:33
    #29698456
    Можно предположить, что задачу намеренно не выкладывают в открытый доступ для чистоты эксперимента.
    
    Как и другие задачи бенчмарка. Если условия всех задач окажутся в открытом доступе, бенчмарк можно выкидывать на помойку.