Всем привет! Недавно я вновь сменил свою основную LLM-модель. Долгое время пользовался Claude, потом перешел на ChatGPT, затем на Gemini, и вот опять оплатил Claude и снова отменил подписку. Почему? Потому что Gemini, который поначалу казался невероятно мощным, в какой-то момент просто перестал справляться с моими основными задачами, а до этого так же сделал Claude и ChatGPT. Они стали лениться, игнорировать части промпта и выдавать поверхностные ответы.

И эта ситуация меня так доконала, что я решил как следует разобраться в вопросе. Действительно ли современные LLM-модели глупеют, ленятся и деградируют через некоторое время после выхода, или это все-таки мои субъективные ощущения и эффект привыкания или завышенных ожиданий?

Об Авторе:

Меня зовут Илья, я техноблогер, нейро-евангелист, со-основатель нейросети для создания изображений ArtGeneration.me и единого AI шлюза для бизнеса Piper.my. А чтобы было интереснее, наше сегодняшнее исследование мы проведем в стиле нуарного детектива. Я решил подойти к этому вопросу как к настоящему расследованию: собрать показания, изучить улики, вскрыть мотивы и, наконец, вынести вердикт.

❯ Глава 1: Слухи на Улицах

Любое расследование начинается со слухов. Город гудел, как потревоженный улей. Из каждого темного угла, из каждого прокуренного бара, которым на время стали Reddit, Hacker News и Twitter, доносился один и тот же шепот: «Они уже не те».

Я начал собирать показания.

Первыми заговорили кодеры. Они жаловались, что модели, которые раньше выдавали элегантный и рабочий код, теперь ленятся, оставляют заглушки // implement logic here и требуют постоянной ручной правки. Затем к ним присоединились писатели и креативщики. Они сетовали на потерю «искры» — вместо ярких идей они получали выхолощенный, стерильный корпоративный текст. А потом подтянулись и аналитики. Их истории были о «контекстной амнезии»: модель блестяще решает первую часть задачи, но напрочь забывает о второй и третьей.

Что особенно бросалось в глаза — это глобальный характер проблемы. Жалобы из Сеула, где местные СМИ писали об ослаблении логики GPT-4, вторили постам из Берлина, где пользователи констатировали: «GPT-4 wird schlechter» (GPT-4 становится хуже). Показания сходились. И даже только вышедший GPT-5 постоянно путал окончания и вставлял заглушки вместо текста статьи. Это не было похоже на массовую истерию. Слишком много профессионалов, слишком похожие симптомы. Я понял, что передо мной не просто паранойя, а настоящее дело.

❯ Глава 2: Неопровержимые Улики

Слухи — это одно, но мне нужны были холодные факты. Что-то, что можно положить на стол судье. И вскоре отчет из лаборатории был готов. Это было исследование от парней из Стэнфорда и Беркли, посвященное феномену, который в академических кругах называют «LLM Drift» (дрейф моделей).

Исследователи беспристрастно сравнили производительность двух версий GPT-4 — за 14 марта 2023 года (gpt-4-0314) и 13 июня 2023 года (gpt-4-0613). Отчет говорил сам за себя:

  • В задаче на определение простых чисел точность GPT-4 упала с 84.0% до 51.1%. Причина? Июньская версия просто перестала следовать инструкции «думай пошагово» (Chain-of-Thought). Вместо логической цепочки она выдавала короткий и часто неверный ответ.

  • В генерации кода доля «напрямую исполняемого» кода на задачах LeetCode рухнула с 52.0% до 10.8%. Причина? Июньская версия начала «украшать» код разметкой Markdown, делая его нерабочим без ручной чистки.

Это был «дымящийся пистолет». Объективное, измеримое доказательство того, что интеллект был ранен. И ранен серьезно, всего через три месяца после триумфального запуска. Но тут в деле появился странный поворот. Данные с краудсорсинговой платформы LMSys Chatbot Arena, где тысячи пользователей вслепую сравнивают модели, не показывали такого же резкого падения. Рейтинг Эло флагманских моделей оставался стабильно высоким.

Как это возможно? Модель одновременно и глупеет, и нет? Этот парадокс указывал на то, что «деградация» — это не общее снижение IQ, а что-то более тонкое, связанное с потерей надежности в самых сложных задачах. Я понял, что это не несчастный случай.

❯ Глава 3: Мотивы Преступления

Кто мог желать смерти интеллекту? Имена на вершине списка были известны всем в этом бизнесе: OpenAI, Google, Anthropic. Но каков мотив? В таких делах их обычно два: деньги или идеология. Здесь было и то, и другое.

Чтобы понять мотив, я начал изучать публичные заявления ключевых фигур.

  • Первый мотив: Экономика. Содержание флагманских LLM стоит целое состояние. Инсайдеры шепчутся, что ежедневные расходы на ChatGPT могут достигать сотен тысяч долларов. Андрей Карпати из OpenAI не раз намекал на колоссальные вычислительные затраты, упоминая, что обучение Llama 2 70B обошлось примерно в 2 миллиона долларов. Джефф Дин из Google всю свою карьеру строил системы планетарного масштаба, где эффективность — это закон выживания. Мотив? Банальная экономия. Сделать технологию рентабельной в условиях жесткой ценовой войны, где новые модели вроде GPT-4o Mini уже опустили планку до $0.15 за миллион токенов.

  • Второй мотив: Безопасность. Это уже идеология. Лидеры отрасли боятся, что необузданный интеллект вырвется на свободу. Илья Суцкевер, бывший главный ученый OpenAI, сравнивал безопасность ИИ с «ядерной безопасностью». Его уход и основание компании Safe Superintelligence Inc., по слухам, были вызваны опасениями, что OpenAI ставит прибыль выше безопасности. Он прямо заявил, что его новая компания будет «полностью изолирована от… конкурентной крысиной гонки». Дарио Амодей из Anthropic прямо говорит о «Политике ответственного масштабирования», которая требует вводить ограничения по мере роста возможностей моделей. Этот «налог на безопасность» неизбежно душит производительность, что подтверждается тем же исследованием Стэнфорда: готовность GPT-4 отвечать на «чувствительные» вопросы упала с 21% до 5%.

Я понял, что корпорации оказались в «двойном захвате». С одной стороны, рынок требует снижать цены. С другой — идеологи требуют вводить «налог на безопасность». Воспринимаемая деградация — это то, что остается от модели, когда ее сжимают между этими двумя тисками.

❯ Глава 4: Орудия Оптимизации

Я знал мотив. Теперь нужно было понять, каким оружием было совершено преступление. Эксперты из технических блогов и академических статей (1, 2, 3) дали однозначный ответ. Орудий было несколько, и все они относятся к классу «оптимизаций».

  • Квантование. Это сжатие модели, как JPEG сжимает фотографию. Вы снижаете точность чисел в нейросети. 8-битное сжатие почти незаметно. Но когда в ход идет агрессивное 4-битное, картинка начинает «сыпаться». Исследования показывают, что именно на этом рубеже — кто-то назвал его «4-битной стеной» — модели резко теряют в способности к сложным рассуждениям. Например, результат модели Qwen3 в бенчмарке MMLU падает с 74.7 до 69.3. Другие исследования говорят о падении точности в задачах на рассуждение на 10-30%.

  • Дистилляция. Это создание идеального, но бездушного двойника. Берется огромная, дорогая модель-«учитель» и заставляет ее обучать маленькую, быструю модель-«ученика». «Ученик» отлично справляется с рутиной, но, как показывают обзоры, ему не хватает глубины и интуиции «учителя», несмотря на то что модель знает ответы, у неё нет информации и рассуждений которые к ним привели.

  • Прунинг (Прореживание). Это хирургическое удаление «лишних» нейронных связей. Исследования SparseGPT показывают, что из массивных моделей можно безболезненно удалить до 50-60% весов. Это доказывает их колоссальную избыточность, но и намекает на риски, если хирург дрогнет рукой.

  • Mixture of Experts (MoE). Это самое хитрое оружие. Вместо одной большой нейросети используется «комитет» из множества мелких «экспертов». Специальный «диспетчер» решает, к какому эксперту направить ваш запрос. Это делает систему дешевле, но вносит элемент случайности. Иногда ваш сложный вопрос попадает к «эксперту по поэзии», а иногда — просто к тому, кто свободен. Отсюда и нестабильность ответов.

Еще одна важная улика — обманчивость метрики перплексии (Perplexity). Компании могут с гордостью заявлять, что перплексия после оптимизации почти не изменилась. И это будет правдой. Вот только перплексия, как утверждают критики, плохо измеряет способность к сложным рассуждениям. Она отражает лишь лингвистическую беглость. Модель может говорить гладко, как и раньше, но при этом стать значительно глупее.

❯ Глава 5: Ненадежный Свидетель

Дело казалось ясным. Но хороший детектив всегда задает себе вопрос: а можно ли доверять свидетелям? Даже если они говорят правду. Я начал изучать психологический профиль главного свидетеля — Пользователя.

И обнаружил целый психологический каскад, который создает идеальный шторм для восприятия деградации:

  1. Инфляция Ожиданий: При первом контакте включается Эффект Элизы — мы неосознанно очеловечиваем ИИ и приписываем ему сверхспособности.

  2. Неизбежное Разочарование: Постоянное использование вскрывает ограничения. Возникает разрыв между завышенными ожиданиями и реальностью, что по Теории подтверждения ожиданий (ECT) ведет к неудовлетворенности.

  3. Впадина Хайпа: Весь рынок, по оценкам Gartner, входит во «впадину разочарования», что создает общий негативный фон.

  4. Закрепление Негатива: Включается Предвзятость подтверждения. Теперь мы ищем и замечаем только те случаи, которые подтверждают нашу новую веру: «модель поглупела».

Я понял, что пользователь — «ненадежный рассказчик». Не потому что он лжет, а потому что его восприятие искажено. Реальная, технически обусловленная деградация многократно усиливается нашими собственными психологическими циклами.

❯ Глава 6: Похожие Дела

Дело почти раскрыто. Но оставался один вопрос. Может, это все-таки заговор корпораций? Чтобы проверить это, я заглянул в другой район города — в Open-Source сити.

И что я там увидел? Ту же самую картину. Энтузиасты на сабреддите r/LocalLLaMA, которые запускают модели вроде Llama и Mixtral на своем железе, сталкиваются с теми же проблемами. Они сами квантуют модели, чтобы они влезли в их видеокарты, и сами же жалуются: «квантование убило качество», «модель стала глупее». Они даже придумали свои неформальные тесты, вроде «бананового теста», чтобы выявить сбои в логике у квантованных моделей. А в репозиториях популярных движков вроде vLLM на GitHub можно найти отчеты об ошибках, где разработчики фиксируют измеримое падение точности после применения тех или иных методов квантования.

Это был последний гвоздь в крышку гроба теории о простом «корпоративном заговоре». Если те же «преступления» происходят в некоммерческом, управляемом энтузиастами мире, значит, проблема не в жадности. Проблема в самой технологии.

❯ Дело закрыто

Я сидел в своем офисе. Дождь за окном прекратился. Дело было закрыто. Но удовлетворения я не чувствовал. Не было ни злодея, ни гениального преступника. Ответ на вопрос «Кто убил интеллект?» оказался до банального прост.

❯ Никто. И все сразу.

Интеллект не убили. Его сделали рентабельным.

Воспринимаемая нами деградация — это не баг и не заговор. Это эмержентное свойство, возникающее на пересечении трех реальностей:

  1. Экономической: Обслуживание моделей стоит непосильно дорого без оптимизации.

  2. Инженерной: Современные методы оптимизации, особенно за «4-битной стеной», имеют измеримую цену в виде снижения производительности.

  3. Психологической: Наше восприятие следует предсказуемому циклу от восторга к разочарованию.

Стратегия корпораций проста и логична:

  1. Приманка: Выпустить на рынок полноразмерную, неоптимизированную модель, чтобы влюбить в себя мир и победить в бенчмарках.

  2. Подмена: Постепенно перевести массового пользователя на более дешевые, быстрые, но чуть менее «умные» версии.

Они не обманывают нас в прямом смысле слова. Они просто сначала дают нам попробовать прототип из будущего, а затем возвращают в экономические реалии настоящего. И в этом дождливом, неоновом городе это, пожалуй, самый холодный и расчетливый бизнес, который я когда-либо видел.


А какие у вас были самые запоминающиеся моменты, когда привычная нейросеть внезапно глупела? Замечали ли вы этот тренд в своей работе? Делитесь своими историями и мнениями в комментариях!

Я делаю обзоры на всякие штуки и рассказываю о нейросетях у себя на YouTube, в Телеграм и на Бусти. Буду рад вашей подписке и поддержке. Всех обнял и удачных генераций!


Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале 

? Читайте также:

Комментарии (11)


  1. rsashka
    15.08.2025 08:11

    Кто убил интеллект?

    А он там вообще был?


  1. nin-jin
    15.08.2025 08:11

    Вы правда думаете что никто не замечает, когда статья написана не человеком?


    1. olegl84
      15.08.2025 08:11

      Вы правы, статья слишком крутая что бы быть написана обычным чловеком.


      1. axion-1
        15.08.2025 08:11

        И без ошибок, "чтобы" слитно пишет. Явно нейросеть.


    1. Dhwtj
      15.08.2025 08:11

      Много слов и нравоучения

      Действительно, похоже

      А ещё похоже на студенческие лабы


  1. lazy_val
    15.08.2025 08:11

    деградация — это не баг и не заговор. Это эмержентное свойство

    куда пошел?


    1. olegl84
      15.08.2025 08:11

      ChatGPT вам в помощь


  1. NKulikov
    15.08.2025 08:11

    Вы сначала пишите, что одна и так же модель "тупеет", а потом пишите про методы оптимизации при создании новых моделей. Модель с MoE и модель без MoE — это две разные модели.

    А вообще мне все это напоминает очередной заговор "с новыми драйверами замедляется старое оборудование, чтобы я покупал новое". Хотя при этом я допускаю, что на старте системе дается больший большее число Max Tokens, чуть ниже Temperature, Stop Thresholds etc на старте, когда модель запускается, на рынок а потом под нагрузкой это значение подкручиваются. Но забавно, что именно об этом в статье ни слова.

    И если открыть тот, единственный пруф, который вы приводите, то там внезапно в выводах: "Our study also underscores the challenge of uniformly improving LLMs’ multifaceted abilities. Improving the model’s performance on some tasks, for example with fine-tuning on additional data, can have unexpected side effects on its behavior in other tasks. Consistent with this, both GPT-3.5 and GPT-4 got worse on some tasks but saw improvements in other dimensions."


  1. 10011001010010010
    15.08.2025 08:11

    колоссальные вычислительные затраты, упоминая, что обучение Llama 2 70B обошлось примерно в 2 миллиона долларов

    Точно колоссальные? :-))) Цена одного магазина Пятёрочка где-нибудь на трассе между Мухосранском и Североурюпинском :-)))


  1. skjokerof
    15.08.2025 08:11

    Обожаю ИИ ассистированные тексты. Читаю и плачу. Целое расследование! Детектив в шляпе, дождь за окном, неоновый город... Преступление, улики, мотивы... Шерлок цифрового мира мастерски ведет дело, тонко подмечает детали. Правда вещает об этом текстом, который нейросеть ему и написала.

    Это же гениально! Это как поручить калькулятору написать статью о том, что люди разучились считать в уме. Расследование ведет сама улика! Подозреваемый сам пишет чистосердечное признание, а детектив его просто подписывает и несет в печать.


  1. psynix
    15.08.2025 08:11

    я бы посмотрел на промты которые таки вот это сгенерировали, да и на сырой результат тоже ...