Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI? / forpes.ru

Главная
Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI?

Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI? +12

22.08.2025 11:40

ruslandevlabs 20 6500 Источник

Прошло уже две недели после выхода долгожданной GPT-5, которая, как казалось, должна была стать одной из главных вех в развитии AI индустрии. Но не стала — как бы ни оценивали эту модель, пессимистично или оптимистично, остается очевидным, что принципиальной разницы между ней и o4-mini, и даже DeepSeek R1 0528, нет - если говорить о качественном кратном отличии, которое ключевым образом меняло бы приложение этого AI к реальным задачам. Поэтому и воспринята новая модель была с разочарованием.

Справедливости ради стоит отметить, что как одна из многих GPT-5 — достаточно хорошая модель, точнее, несколько моделей в составе мультиагентной системы — подробнее об этом ниже. Она успешно применяет новаторские архитектурные решения, как например роутер, позволяющий автоматом адресовать вопросы либо классической LLM, либо рассуждающей модели (GPT-5 thinking). Но благодаря хайпу, раздуваемому больше двух лет с момента выхода GPT-4, от новой главной версии ожидали намного больше, причем разные категории пользователей хотели увидеть в GPT-5 разное. Разработчики вроде меня, применяющие LLM в приложениях для разных манипуляций с данными — RAG, feature extraction и многое другое — хотели увидеть модель, которая решит наконец проблему галлюцинаций и тупости в построении нестандартных логических связей. Люди, которые верят в вероятность скорого достижения AGI — ожидали, соответственно, AGI в лице GPT-5.

Попробую объяснить, почему OpenAI не оправдали ни одного из названных ожиданий, и обратимся сначала к законам масштабирования применительно к нейросетям. Краткое напоминание формулы:

L(N,D,C)≈L_∞+a⋅N^−α+b⋅D^−β+c⋅C^−γ

где:

N — количество параметров модели,

D — объем обучающих данных,

C — вычислительные затраты, например, количество шагов обучения, или операций с плавающей точкой (FLOPs),

L — ошибка,

α,β,γ — показатели убывания ошибки по мере увеличения соответствующего фактора масштабирования (N, D либо C).

Такие выводы можно сделать на основании Kaplan et al, 2020, где в обобщенном виде зависимость L для каждого из факторов x выглядит так:

В теории, если бесконечно увеличивать N,D,C, ошибка стремится к некоторому пределу L_∞. В работах типа исследования OpenAI 2020 года Scaling Laws for Neural Language Models была показана устойчивую зависимость — ошибка модели убывает степенным образом при увеличении размера модели, количества данных и вычислительных затрат.

Однако выпуск GPT-5 показал, что простое увеличение масштаба уже не гарантирует столь же впечатляющего прироста качества, как в случае перехода от GPT-2 → GPT-3 → GPT-4.

Почему так произошло?

Прежде всего, свою роль сыграло достижение "потолка данных". Большие модели требуют экспоненциально больше уникальных и качественных данных. Но интернет и другие источники не предоставляют больше "новых" текстов с такой же скоростью.

GPT-3 и GPT-4 обучались на практически всех доступных корпусах человеческого текста. GPT-5, вероятно, столкнулся с ситуацией, когда рост размера модели превышает доступность свежих и разнообразных данных. В терминах scaling laws:

рост параметров N перестал давать выигрыш, так как ограничивающим фактором стал D.

Кроме того, изменилось качество самих задач, которые сейчас являются ключевыми для достижения SOTA по общепринятым критериям сравнения LLM. Scaling laws описывают в первую очередь обучение на больших данных. Но многие задачи, где тот же GPT-4 уже достиг высокого качества, требуют не только памяти и ассоциаций, но и новых когнитивных архитектур (например, планирования, логических рассуждений, интеграции с внешними инструментами).

Для повышения качества этих и подобных способностей LLM нужны не только "большие данные", но и принципиально другое качество этих данных, что еще более повышает сложность их сбора. Архитектурно GPT-5 остаётся тем же трансформером, если OpenAI о чем-то не умолчали, конечно - по их словам это обычная LLM, чуть более сильная, чем GPT-4o.

Поэтому законы масштабирования не дают ей новых когнитивных способностей. Правда, есть отдельная GPT-5 thinking, которая обучена, скорее всего, подобно любой другой LRM типа DeepSeek R1 — с применением RL, Chain-of-Thoughts файнтюнинга и алгоритмов для поиска оптимальных решений, вроде поиска по дереву Монте-Карло. Но и для LRM, по всей видимости, рост качества застопорился после o4-mini — иначе OpenAI, с их почти неограниченными GPU-ресурсами, могли бы просто масштабировать o4-mini в разы.

Посмотрим на LLM с практической точки зрения разработчика — многие прикладные применения моделей являются очень специфическими. Я, например, использую разнообразные LLM для feature extraction — извлечения некоторых узких категорий данных из технических документов, отчетов, спецификаций товаров и т.д. Как в моем случае, даже при большом объёме корпуса обучения модель сталкивается с задачами, где данные шумные, неоднозначные или редкие. Scaling laws предсказывают общий тренд снижения ошибки, но не гарантируют улучшение именно в узких "hard cases". Наоборот, иногда рост модели может усиливать галлюцинации, так как она становится увереннее в ложных выводах. На моих собственных рабочих бенчмарках качество GPT-5 очень близко — в пределах одного процента - соответствует качеству o4-mini для задач feature-extraction на русском языке. При этом, возможно, на менее специфических задачах новая версия лучше. Решение в таких случаях одно — файнтюнинг на своих данных.

Кроме того, законы масштабирования говорят, что у каждой архитектуры есть свой асимптотический предел точности. GPT-5, возможно, уже близка к этому пределу для чистого текстового трансформера. Дальнейшее развитие потребует новых парадигм: вероятно, в сторону мультимодальности и развития более сложных когнитивных способностей, чем просто развитая генерация текста.

Низкий успех GPT-5 — это не полный провал, но он отражает фундаментальное изменение в развитии ИИ: скейлинг трансформеров почти исчерпал себя. Законы масштабирования больше не обещают революции — только постепенные улучшения.

Чтобы сделать следующий скачок, индустрии придётся искать новые источники данных (например, симуляции, синтетические датасеты, самообучение), разрабатывать новые архитектуры, интегрировать внешние инструменты. В этом смысле GPT-5 — важный сигнал: эра "чистого скейлинга" закончилась, начинается эра архитектурных инноваций. Важны инфраструктурные улучшения, чтобы не только OpenAI, но и вообще любой AI-провайдер мог с легкостью разворачивать модели в GPU-облаке. Важно разнообразие самих моделей, и здесь эстафета переходит к опенсорсным нейронным архитектурам. У них сейчас гораздо больше разнообразия и в отношении данных, и в архитектурных паттернах, чем у пропиетарных аналогов, а значит, и больший потенциал нащупать перспективный подход, который принесет больше результатов, чем скейлинг. OpenAI уже сами поняли это, чем и объясняется первый за шесть лет релиз весов их LLM gpt-oss, близкой по качеству к флагманским, в открытый доступ.

Исследователям и разработчикам стоит сосредоточиться на децентрализации AI — снятии ограничений со стороны существующих архитектур, фреймворков, библиотек на использование разных типов нейросетей и подходов к ML. Это большое поле для разработки новых ML-инструментов с большей кросс-совместимостью и ориентацией на опенсорс, чем существующие.

Комментарии (20)

S-type
22.08.2025 14:01
#28740872
Я, например, использую разнообразные LLM для feature extraction — извлечения некоторых узких категорий данных их технических документов,

Опечатка? Может надо из?
1. Natsuru
  22.08.2025 14:01
  #28740906
  Да и абзац:
  
  OpenAI уже сами поняли это, чем и объясняется первый за шесть лет релиз весов их LLM gpt-oss, близкой по качеству к флагманским, в открытый доступ.
  
  Два раза подряд
1. ruslandevlabs Автор
  22.08.2025 14:01
  #28744184
  да, спасибо исправил

AlexeyPolunin
22.08.2025 14:01
#28741096
Ну GP-5 T лучше чем o4-mini. С той у меня не получалось добиться стабильных результатов, пятерка обрабатывает как надо. Дипсику R1 далеко.
1. ruslandevlabs Автор
  22.08.2025 14:01
  #28744188
  Видимо от задачи к задаче качество разное

Politura
22.08.2025 14:01
#28741162
Краткое напоминание формулы:

Где вы нашли эту формулу? Ни поиском в интернете, ни поиском по Хабру я ее не нашел.

где:

N — количество параметров модели,

D — объем обучающих данных,

C — вычислительные затраты, например, количество шагов обучения, или операций с плавающей точкой (FLOPs),

L — ошибка,

С зависит исключительно от N и D; L - какая именно ошибка? Ошибка чего?

Однако выпуск GPT-5 показал, что простое увеличение масштаба уже не гарантирует столь же впечатляющего прироста качества

А где можно почитать про то, что было какое-либо увеличение масштаба между предыдущей моделью и GPT5?
1. proxy3d
  22.08.2025 14:01
  #28741466
  Тоже удивился. Даже эмпермически такой формулы нет. Такие формулы любят генерировать сетки, замечал такое. Связывая лишь бы связать, без доказательства, без эвристики. Так что формулу просто сгенерировала сетка и даже возможно "обосновала" ее правильность. А так да, к реальности формула не имеет отношения.
1. SnakeSolid
  22.08.2025 14:01
  #28741752
  Я не автор, но недавно читал статью Scaling Laws for Neural Language Models, там упоминается похожая формула. Возможно у нее есть продолжение с пересчетом на затраченные ресурсы, но я про него не слышал.
  1. ruslandevlabs Автор
    22.08.2025 14:01
    #28744322
    Да, это оттуда. В других местах, которые я читал, типа этого ее несколько обобщают. Но при каких условиях она отражает реальную зависимость, а при каких нет - особенно на масштабах, сопоставимых с GPT-5 - явно не хватает эмпирических данных.
1. ruslandevlabs Автор
  22.08.2025 14:01
  #28744284
  Где вы нашли эту формулу?
  
  В Kaplan, et al, 2020 Scaling Laws for Neural Language Models. В статье упоминается. Также в Википедии есть, добавил скриншот в статью. Формула там в следующем виде -
  L = L0 + (X0/X)^alpha, т.е. L находится в прямо пропорциональной зависимости от X^-alpha, для каждой из величин C, N, D.
  L - какая именно ошибка
  
  L - какая именно ошибка
  
  Loss
  
  А где можно почитать про то, что было какое-либо увеличение масштаба между предыдущей моделью и GPT5?
  
  В статье речь о том, почему для GPT-5 не повысили качество путем масштабирования, если на предыдущих версиях это работало.

eeglab
22.08.2025 14:01
#28741476
С чего вдруг провалился? По моему сейчас топовая модель - галлюцинаций на порядок меньше, качество и содержание ответов намного лучше чем у o3 и o4 mini hight. Увеличили контентное окно до более менее приемлемого уровня. Лимиты запросов на pro 3000 в неделю - практически не ограниченые. В математике вообще нет равных. В качестве ассистента gpt5 однозначно очень сильно оторвался от конкурентов.
1. ruslandevlabs Автор
  22.08.2025 14:01
  #28744444
  Просто если вспомнить общие прогнозы что GPT-5 будет настолько точнее, умнее, вообще на другом уровне, что я лично думал с ней мы вообще забудем про галлюцинации и про то, что ИИ не может правильно связать чуть более сложные факты и логику. Думал может архитектуру новую создали, по сравнению с которой стандартный трансформер будет как LSTM сравнить с тем же трансформером. А на деле она здесь получше, а там такая же осталось, т.е. на ряде доменов дали побольше данных, автоматизировали переключение между reasoning - не-reasoning, остальное чисто UX улучшения в самом ChatGPT.

Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI? +12

Почему так произошло?

Комментарии (20)

S-type

Natsuru

ruslandevlabs Автор

AlexeyPolunin

ruslandevlabs Автор

Politura

proxy3d

SnakeSolid

ruslandevlabs Автор

ruslandevlabs Автор

eeglab

ruslandevlabs Автор