Прошло уже две недели после выхода долгожданной GPT-5, которая, как казалось, должна была стать одной из главных вех в развитии AI индустрии. Но не стала — как бы ни оценивали эту модель, пессимистично или оптимистично, остается очевидным, что принципиальной разницы между ней и o4-mini, и даже DeepSeek R1 0528, нет - если говорить о качественном кратном отличии, которое ключевым образом меняло бы приложение этого AI к реальным задачам. Поэтому и воспринята новая модель была с разочарованием.

Справедливости ради стоит отметить, что как одна из многих GPT-5 — достаточно хорошая модель, точнее, несколько моделей в составе мультиагентной системы — подробнее об этом ниже. Она успешно применяет новаторские архитектурные решения, как например роутер, позволяющий автоматом адресовать вопросы либо классической LLM, либо рассуждающей модели (GPT-5 thinking). Но благодаря хайпу, раздуваемому больше двух лет с момента выхода GPT-4, от новой главной версии ожидали намного больше, причем разные категории пользователей хотели увидеть в GPT-5 разное. Разработчики вроде меня, применяющие LLM в приложениях для разных манипуляций с данными — RAG, feature extraction и многое другое — хотели увидеть модель, которая решит наконец проблему галлюцинаций и тупости в построении нестандартных логических связей. Люди, которые верят в вероятность скорого достижения AGI — ожидали, соответственно, AGI в лице GPT-5.

Попробую объяснить, почему OpenAI не оправдали ни одного из названных ожиданий, и обратимся сначала к законам масштабирования применительно к нейросетям. Краткое напоминание формулы:

L(N,D,C)≈L​+a⋅N−α+b⋅D−β+c⋅C−γ

где:

N — количество параметров модели,

D — объем обучающих данных,

C — вычислительные затраты, например, количество шагов обучения, или операций с плавающей точкой (FLOPs),

L — ошибка,

α,β,γ — показатели убывания ошибки по мере увеличения соответствующего фактора масштабирования (N, D либо C).

В теории, если бесконечно увеличивать N,D,C, ошибка стремится к некоторому пределу L. В работах типа исследования OpenAI 2020 года Scaling Laws for Neural Language Models была показана устойчивую зависимость — ошибка модели убывает степенным образом при увеличении размера модели, количества данных и вычислительных затрат. 

Однако выпуск GPT-5 показал, что простое увеличение масштаба уже не гарантирует столь же впечатляющего прироста качества, как в случае перехода от GPT-2 → GPT-3 → GPT-4.

Почему так произошло?

Прежде всего, свою роль сыграло достижение "потолка данных". Большие модели требуют экспоненциально больше уникальных и качественных данных. Но интернет и другие источники не предоставляют больше "новых" текстов с такой же скоростью.

GPT-3 и GPT-4 обучались на практически всех доступных корпусах человеческого текста. GPT-5, вероятно, столкнулся с ситуацией, когда рост размера модели превышает доступность свежих и разнообразных данных. В терминах scaling laws:

рост параметров N перестал давать выигрыш, так как ограничивающим фактором стал D.

Кроме того, изменилось качество самих задач, которые сейчас являются ключевыми для достижения SOTA по общепринятым критериям сравнения LLM. Scaling laws описывают в первую очередь обучение на больших данных.  Но многие задачи, где тот же GPT-4 уже достиг высокого качества, требуют не только памяти и ассоциаций, но и новых когнитивных архитектур (например, планирования, логических рассуждений, интеграции с внешними инструментами).

Для повышения качества этих и подобных способностей LLM нужны не только "большие данные", но и принципиально другое качество этих данных, что еще более повышает сложность их сбора. Архитектурно GPT-5 остаётся тем же трансформером, если OpenAI о чем-то не умолчали, конечно - по их словам это обычная LLM, чуть более сильная, чем GPT-4o.

Поэтому законы масштабирования не дают ей новых когнитивных способностей. Правда, есть отдельная GPT-5 thinking, которая обучена, скорее всего, подобно любой другой LRM типа DeepSeek R1 — с применением RL, Chain-of-Thoughts файнтюнинга и алгоритмов для поиска оптимальных решений, вроде поиска по дереву Монте-Карло. Но и для LRM, по всей видимости, рост качества застопорился после o4-mini — иначе OpenAI, с их почти неограниченными GPU-ресурсами, могли бы просто масштабировать o4-mini в разы. 

Посмотрим на LLM с практической точки зрения разработчика — многие прикладные применения моделей являются очень специфическими. Я, например, использую разнообразные LLM для feature extraction — извлечения некоторых узких категорий данных их технических документов, отчетов, спецификаций товаров и т.д. Как в моем случае, даже при большом объёме корпуса обучения модель сталкивается с задачами, где данные шумные, неоднозначные или редкие. Scaling laws предсказывают общий тренд снижения ошибки, но не гарантируют улучшение именно в узких "hard cases". Наоборот, иногда рост модели может усиливать галлюцинации, так как она становится увереннее в ложных выводах. На моих собственных рабочих бенчмарках качество GPT-5 очень близко — в пределах одного процента - соответствует качеству o4-mini для задач feature-extraction на русском языке. При этом, возможно, на менее специфических задачах новая версия лучше. Решение в таких случаях одно — файнтюнинг на своих данных.

Кроме того, законы масштабирования говорят, что у каждой архитектуры есть свой асимптотический предел точности. GPT-5, возможно, уже близка к этому пределу для чистого текстового трансформера. Дальнейшее развитие потребует новых парадигм: вероятно, в сторону мультимодальности и развития более сложных когнитивных способностей, чем просто развитая генерация текста.

Низкий успех GPT-5 — это не полный провал, но он отражает фундаментальное изменение в развитии ИИ: скейлинг трансформеров почти исчерпал себя. Законы масштабирования больше не обещают революции — только постепенные улучшения.

Чтобы сделать следующий скачок, индустрии придётся искать новые источники данных (например, симуляции, синтетические датасеты, самообучение), разрабатывать новые архитектуры, интегрировать внешние инструменты. В этом смысле GPT-5 — важный сигнал: эра "чистого скейлинга" закончилась, начинается эра архитектурных инноваций. Важны инфраструктурные улучшения, чтобы не только OpenAI, но и вообще любой AI-провайдер мог с легкостью разворачивать модели в GPU-облаке. Важно разнообразие самих моделей, и здесь эстафета переходит к опенсорсным нейронным архитектурам. У них сейчас гораздо больше разнообразия и в отношении данных, и в архитектурных паттернах, чем у пропиетарных аналогов, а значит, и больший потенциал нащупать перспективный подход, который принесет больше результатов, чем скейлинг. OpenAI уже сами поняли это, чем и объясняется первый за шесть лет релиз весов их LLM gpt-oss, близкой по качеству к флагманским, в открытый доступ.

OpenAI уже сами поняли это, чем и объясняется первый за шесть лет релиз весов их LLM gpt-oss, близкой по качеству к флагманским, в открытый доступ.

Исследователям и разработчикам стоит сосредоточиться на децентрализации AI — снятии ограничений со стороны существующих архитектур, фреймворков, библиотек на использование разных типов нейросетей и подходов к ML. Это большое поле для разработки новых ML-инструментов с большей кросс-совместимостью и ориентацией на опенсорс, чем существующие.

Комментарии (4)


  1. S-type
    22.08.2025 14:01

    Я, например, использую разнообразные LLM для feature extraction — извлечения некоторых узких категорий данных их технических документов,

    Опечатка? Может надо из?


    1. Natsuru
      22.08.2025 14:01

      Да и абзац:

      OpenAI уже сами поняли это, чем и объясняется первый за шесть лет релиз весов их LLM gpt-oss, близкой по качеству к флагманским, в открытый доступ.

      Два раза подряд


  1. AlexeyPolunin
    22.08.2025 14:01

    Ну GP-5 T лучше чем o4-mini. С той у меня не получалось добиться стабильных результатов, пятерка обрабатывает как надо. Дипсику R1 далеко.


  1. Politura
    22.08.2025 14:01

    Краткое напоминание формулы:

    Где вы нашли эту формулу? Ни поиском в интернете, ни поиском по Хабру я ее не нашел.

    где:

    N — количество параметров модели,

    D — объем обучающих данных,

    C — вычислительные затраты, например, количество шагов обучения, или операций с плавающей точкой (FLOPs),

    L — ошибка,

    С зависит исключительно от N и D; L - какая именно ошибка? Ошибка чего?

    Однако выпуск GPT-5 показал, что простое увеличение масштаба уже не гарантирует столь же впечатляющего прироста качества

    А где можно почитать про то, что было какое-либо увеличение масштаба между предыдущей моделью и GPT5?