Весь год мы хоронили классическое обучение ИИ. Оказалось, рано.

Смерть, которой не было

Почти весь этот год мы провели в убеждении, что подход, подаривший нам оригинальный ChatGPT - первый закон масштабирования - окончательно мертв.

Считалось, что этот путь развития зашел в тупик. Теперь единственное, что имеет значение - обучение с подкреплением, метод «проб и ошибок», который обеспечил большую часть прогресса за последний год.

Это мнение оказалось в корне неверным. Даже такие ведущие лаборатории, как OpenAI, были застигнуты врасплох и теперь расплачиваются за это.

Предварительное обучение (pre-training), классический метод обучения ИИ через имитацию, не просто живо - оно готовится к настоящему ренессансу в 2026 году. И это важно для вас при выборе ИИ-продуктов или принятии инвестиционных решений.


Два способа сделать ИИ умнее

Есть два пути: сделать модель «больше и толще» или заставить ее «думать дольше».

Индустрия ИИ кажется яркой, шумной, полной прорывов. Со стороны - самая динамичная отрасль в истории.

Но на самом деле она довольно скучная.

Современные модели удивительно похожи на те, что были десять лет назад. Принципы, открытые тогда, остаются столпами прогресса. Алгоритмическая база практически не менялась годами.

Большинство передовых моделей почти идентичны друг другу. Главные факторы, определяющие лидера - данные для обучения и бюджет вычислительных мощностей.

Все сводится к вычислениям. Важно не только то, сколько их у вас, но и насколько эффективно вы их используете.


Как устроены трансформеры

Все современные большие языковые модели - это трансформеры. Архитектура состоит из двух основных элементов:

Слои внимания (Attention layers) - улавливают закономерности в последовательности, заставляя слова «общаться» друг с другом. Например, слово «Пират» связывается со словом «Рыжий», чтобы понять: в предложении «Рыжий Пират был наконец побежден» речь идет об одном персонаже.

Слои долгосрочной памяти (MLP) - позволяют моделям обращаться к своим знаниям за дополнительной информацией. Модель может понять, что «Рыжий Пират» - отсылка к Барбароссе, даже если имя не упоминается в тексте. Просто потому что в процессе обучения она видела много текстов, где эти понятия были связаны.

Самый интуитивный способ понять механизм LLM - представить его как процесс сбора знаний. Модель постепенно собирает информацию из текущего текста и из прошлого опыта, пока не поймет, какое слово должно быть следующим.


Первый закон: больше данных, больше параметров

Первый закон посвящен «обучению через имитацию». Мы даем модели колоссальный набор данных и просим ее подражать ему. Через многократное повторение модель улавливает скрытые закономерности.

Это индуктивный процесс. Часто видя слова «Я» и «есть» рядом, модель понимает: если сейчас она видит «Я», то велика вероятность, что следующим будет «есть».

Как улучшить этот метод? Увеличить бюджет на обучение:

  1. Увеличить наборы данных

  2. Увеличить размер самих моделей

Насколько велики эти датасеты? Почти невозможно осознать.

Современные бюджеты на обучение передовых моделей колеблются в районе 10²⁷ FLOPs. У этого числа есть название - один октиллион.

Если взять модель с 5 триллионами параметров, это потребует датасета в 33,3 триллиона токенов. Примерно 24 триллиона слов. Эквивалент 24 миллионов полных собраний книг о Гарри Поттере. И это только за один цикл обучения.

Десять лет мы думали, что это все, что нам нужно. Многие верили: этот путь сам по себе приведет к AGI. Нужно просто делать модели больше.

Однако после печально известного прогона GPT-4.5 - модели, которая должна была стать GPT-5, но оказалась провалом - люди поняли: одного масштабирования недостаточно. Началась стагнация.

Все рухнуло, когда Илья Суцкевер, «отец ChatGPT», заявил: закон масштабирования в том виде, в котором мы его знали, мертв.


Второй закон: дайте модели подумать

Около двух лет назад группа исследователей в OpenAI задалась вопросом: «А что, если дать моделям время подумать?»

Логика проста. Люди, сталкиваясь со сложной задачей, не отвечают мгновенно. Мы обдумываем проблему, разбиваем ее на шаги. Вкладываем в задачу «мыслительные усилия».

Подход был предельно простым:

  1. Взять предобученную модель

  2. Дать ей небольшой набор данных для обучения «цепочке рассуждений» - связыванию мыслей и декомпозиции задач

  3. Позволить модели прийти к ответу методом проб и ошибок вместо копирования готового решения

Обучение с подкреплением сработало потрясающе. Так родился второй закон масштабирования: результаты модели значительно улучшаются, если дать ей время на раздумья.

Так появились «рассуждающие модели», лидером которых стала OpenAI o1.

Этот режим «пост-обучения» позволил модели вроде GPT-4o превратиться в o1 и радикально улучшить результаты в тестах, где важно глубокое мышление.

Но этот закон не просто делал умные модели умнее. Он позволял маленьким моделям становиться такими же «сообразительными», как их огромные собратья, за счет использования вычислений в реальном времени.

Весь прошлый год индустрия была одержима этой идеей - масштабированием вычислений при ответе. Но оказалось, что и это утверждение было не совсем верным.


Почему процесс важнее результата

Судить об интеллекте - модели или человека - можно либо по результату, либо по процессу.

Процесс важнее. Большинство оценивает ИИ по «тесту утки»: если крякает как утка и выглядит как утка - значит, утка. Если модель выдает умный ответ - она умная.

Это ловушка. Умный результат - не доказательство интеллекта. Нужно смотреть на процесс достижения результата, чтобы избежать «ловушки запоминания». Модель может казаться гениальной, просто воспроизводя зазубренные данные.

Можно выучить наизусть решение сложнейшей задачи по физике, но это не сделает доктором наук.


Тест одиночного прохода

Мы пытаемся оценить качество одного «прямого прохода» - когда модель берет ввод и выдает следующий токен без возможности «рассуждать вслух».

Если запретить модели рассуждать письменно, сможет ли она решить сложную задачу?

Оказывается, «рассуждение вслух» для ИИ - часть заученной последовательности. Модели часто запоминают связку: «проблема - рассуждение - решение». Если убрать среднее звено, зубрежка перестает работать. Модель теряет нить, соединяющую условие с ответом.

Поэтому, если модель способна выдать верное решение сложной задачи за один проход, без видимых рассуждений - это и есть истинный показатель ее внутреннего интеллекта.


OpenAI проигрывает гонку

Хорошие новости: прогресс на уровне предварительного обучения все еще идет. Модели становятся «умнее на каждое предсказание».

Особенно это заметно у Gemini и Claude. Они показывают чистый рост способностей от поколения к поколению.

OpenAI, кажется, полностью капитулировала перед вторым законом. Между 4-м и 5-м поколениями GPT прогресс в «базовом» интеллекте весьма скромен. Они растут за счет того, что тратят больше мощностей на выполнение конкретной задачи.

Вероятно, поэтому ChatGPT стал ощутимо хуже в задачах, не требующих долгих раздумий. Модель GPT-5.2 Instant - насмешка над прогрессом. Приходится постоянно держать включенным флаг «Thinking», чтобы не получить ответ от этой «недумающей» и слабой базы.

В то же время Gemini прекрасна в быстрых задачах. Она быстрее и умнее ChatGPT там, где нужно ответить «с ходу».

Хотите проверить разницу между моделями на практике?

Делегируйте часть рутинных задач вместе с BotHub! 

Для доступа к сервису не требуется VPN, и можно использовать российскую карту.

По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе прямо сейчас!


Признание OpenAI

Марк Чен, директор по исследованиям OpenAI, открыто признал: они «переборщили» с пост-обучением в прошлом году и теперь пытаются вернуть себе «форму в пре-трейнинге».

Ориоль Виньялс из DeepMind, напротив, прямо назвал пре-трейнинг ключом к впечатляющим результатам Gemini 3 Pro.

Пре-трейнинг жив. В 2026 году он снова станет главным фокусом исследований после года, когда его считали «мертвым».


Что это значит для рынка

Масштаб вывода определяет размер серверов. Масштаб обучения определяет размер дата-центров.

Если предварительное обучение снова в приоритете, мы увидим колоссальное давление на рынок строительства ЦОД. Наборы данных будут только расти. В один цикл обучения нужно впихнуть еще больше ускорителей.

Мы также увидим рост «экспертной разреженности» (Mixture-of-Experts). Модели будут становиться огромными по числу параметров, но «худыми» внутри - для каждого конкретного предсказания будет задействована лишь малая часть их мощи.

Это ставит вопрос перед производителями железа: не слишком ли сильно NVIDIA увлеклась оптимизацией под «вывод»? Их следующая платформа Rubin включает первый в истории GPU только для вывода - Rubin CPX.

Но если индустрия возвращается к масштабному классическому обучению, важнее становится «горизонтальное масштабирование» - соединение тысяч серверов и дата-центров в единую сеть. Это игра не столько чипов, сколько оптики и связей.


2026: год оптоволокна

Если «масштабирование вширь» станет критическим, 2026-й станет триумфом для рынка оптических технологий. Это может привести к огромному пересмотру стоимости компаний, занимающихся сетевыми технологиями.

В любом случае вычислительные мощности остаются главным фактором прогресса. Гиперскейлеры не перестанут тратить деньги на ИИ в ближайшее время.

С учетом низких процентных ставок и политических циклов в США, в 2026 году будет очень трудно ставить против «ИИ-трейда» - надут этот пузырь или нет, приносит он прибыль прямо сейчас или нет.

Вычисления продолжат расти.

Комментарии (24)


  1. nervnomancer
    03.01.2026 15:26

    Мне интересно, аффторам платят за все эти "новости" про победу gemini или это кукареканье бесплатное? Тогда зачем? Ведь всё равно правда просачивается, например из соседней новости-прохладной-истории из гугла, откуда узнаем что даже внутри гугла все пользуются нормальными GPT а не gemini (а ведь наверняка у них на gemini безлимитка. и всё равно оно не нужно)


  1. anonymous
    03.01.2026 15:26


    1. logran
      03.01.2026 15:26

      От задачи зависит. Для кодинга может быть лучше и Claude, но как языковая модел (владение языком т.е написание хороших творческих текстов) Gemini давно вне конкуренции, особенно если надо писать на кириллице.

      Банально попросите что-то длинное хорошо рифмованное на русском. Или переделать существующих стих существовавщего русского поэта на иную (какую-нибудь бредовую) тематику и увидите разницу в текстах.


      1. nervnomancer
        03.01.2026 15:26

        То что у гугла непрошенно вылазит в виде "Обзор от ИИ" повыше результатов поиска - абсолютно убогая лажа. Очень раздражает тупизной и неотключаемостью.

        Перезадал несколько вопросов сюда "https://gemini.google.com" выбрав "думающая" - сравнимо с chatgpt. Другими словами примерно те же факты.

        А вот любителей "написание хороших творческих текстов" кажется уже скоро линчевать будут.


        1. logran
          03.01.2026 15:26

          Творческие хорошие тексты для RP/eRP важны, а не для SEO-спама порицаемого =)

          В подсказках гугла какая-то убогенькая самая маленькая моделька. Нормальная - Gemini Pro в AI Studio.


    1. Bardakan
      03.01.2026 15:26

      если что - это вообще бот публикует новости


    1. K0Jlya9
      03.01.2026 15:26

      Если ты про новость про инженерку из Гугла, то там, во-первых, текст от робота Ботхаба. Его тексты всегда такие, что лучше сразу идти и смотреть источник перепечатки. Внутри Гугла сидят очень особые люди, и потребности у них особые.

      Для нормальных людей есть арена куда можно прийти и проверить самому в слепом тесте. Джемини там всегда околотопов находится, то есть как минимум из топ 3. И да, она дает халявы на порядок больше всех остальных.


  1. LinkToOS
    03.01.2026 15:26

    По мере масштабирования, LLM будет становиться VLLM, HLM, и как угодно больше. Но она по прежнему останется LM. Это все та же игра в слова. Подбор фраз соответствующих другим фразам. Это лингвистическое конструирование, а не логическое.
    Человек мыслит не словами. Хотя зачастую автоматически генерирует лингвистический поток параллельно процессу мышления. Это становится рефлексом, потому что очень востребовано. По сути, язык это способ зафиксировать мысли на внешнем носителе, и способ передать их в "другое вычислительное устройство".


    1. d3d11
      03.01.2026 15:26

      Подбор фраз соответствующих другим фразам. Это лингвистическое конструирование, а не логическое

      И как же они тогда решают сложные многоходовые задачи?


      1. AleGen
        03.01.2026 15:26

        Так и решают. У них в базе захешированы самые вероятные последовательности токенов на каждом шаге "мышления", и к концу шага они пишут сами для себя ответ, являющийся отправной точкой для начала следующего шага.

        То есть они соооовсем не думают. Они смотрят, чего сами нагенерили раньше, и генерят самое вероятное следующее, исходя из знаний всего опыта человечества. То есть, по большому счёту, как они генерят токены один за другим - так же генерят и "размышления", а по сути, наборы токенов - так же один за другим.

        Фрактальная структура, не иначе. )))


        1. d3d11
          03.01.2026 15:26

          У них в базе захешированы самые вероятные последовательности токенов на каждом шаге "мышления"

          другими словами все их ответы заранее записаны? Даже когда они разбирают новый проект, которого раньше даже не существовало? Со своей спецификой, которой тоже известно не было.


          1. Wesha
            03.01.2026 15:26

            мДаже когда они разбирают новый проект, которого раньше даже не существовало? Со своей спецификой, которой тоже известно не было.

            Ну да, ну да, никто из миллиардов землян за несколько сот лет никогда даже и не мог подумать о чём-то похожем!

            (Интересно, и почему это LLM заработали только после того, как в них влили многие гибибайты информации?)


            1. d3d11
              03.01.2026 15:26

              Такое ощущение, что вы ЛЛМ не пользовались.


            1. d3d11
              03.01.2026 15:26

              Вот соседний коммент, не мой:
              https://habr.com/ru/news/982844/#comment_29340102

              Мне ChatGPT неоднократно давал ответы на довольно сложные вопросы, которые либо не задавались, либо оставались неотвеченными на SO, основываясь на открытом исходном коде библиотеки. Удивительно, что некоторых моментов не было в документации вообще. При ответах он ссылался на конкретные строки и файлы исходников, так что сомнений нет.


              1. Wesha
                03.01.2026 15:26

                Ну то есть замечательно: в двух местах («на SO» и в «документации») ответа не было. А почему Вы так уверены, что его не было во всём остальном Интернете? Ну, кроме того, факта что Вам очень-очень хочется младшего братика (по разуму)?


                1. polearnik
                  03.01.2026 15:26

                  хотите сказать что это вероятности так сложились и юзеру нечеловечески повезло что ответ содержал правильные строки и файлы исходников? или там вероятность 100% ?


                  1. Wesha
                    03.01.2026 15:26

                    Как говорится, «мне не надо бежать быстрее медведя — мне надо бежать быстрее тебя». В том смысле, что 100% совпадение и не нужно вполне достаточно, чтобы у правильного ответа вероятность была хоть на малую долю принцента, но выше, чем у неправильного.


                1. d3d11
                  03.01.2026 15:26

                  Вам очень-очень хочется совпадение по номерам строк в файлах.
                  Потом человек изменил файл, строки поменялись, ИИ опять назвал новые строки - и (внимание) - опять совпадение!


                  1. Wesha
                    03.01.2026 15:26

                    Вот сейчас не понял, о чём это Вы и при чём тут «номера строк».


  1. Zhabrozavr
    03.01.2026 15:26

    Инвестиции это да... А что там про NFC слышно?


  1. DDroll
    03.01.2026 15:26

    Надо же, ушел Суцкевер и OpenAI вдруг начала проигрывать гонку) Что, Сэмми оказался не таким гением, каким рядит себя? Терпеть его не могу, самый настоящий самозванец среди по-настоящему талантливых людей, меняющих будущее. Не особо талантливый торгаш, оказавшийся в нужное время в нужном месте, сидел бы в офисе и не отсвечивал, но он же любит поразмышлять публично о будущем ИИ, как будто ему есть что сказать. Нет бы хотя бы своих инженеров выпустить на публичные выступления.


    1. phenik
      03.01.2026 15:26

      Надо же, ушел Суцкевер и OpenAI вдруг начала проигрывать гонку)

      Илья занимался исследованиями и понимал ограничения технологии несмотря на ее успехи. Но руководство не интересовало развитие, оно поставило все на коммерциализацию этих успехов. То же самое недавно произошло с Ле Куном в Гугле, он также ушел и организовал свой исследовательский стартап. Эффективные менеджеры поняли, что не стоит тратить средства на исследования и развитие, потому что это занимает много времени, и возможны потенциальные неудачи. Зачем? Исследованиями и генерацией новых идей массово занялись стартапы, подключилась университетская и академическая науки, просто любители, благо небольших бесплатных моделей с которыми можно экспериментировать появилось масса. В случай чего можно купить перспективный стартап, а идеи из университетских и академических исследований можно просто присвоит дав им свои громкие имена. Это же исследования на бюджетные средства, значит и налоговые отчисления корпораций) Короче, как всегда, исследования исследователям, обычно методом тыка, проба и ошибок, за их счет и время, а успешные идеи быстрее в коммерцию. Так устроен бизнес.

      Вот уже проверенная перспективная идея в тему статьи обучения аналогичного обучению еще на стадии плода с помощью, так называемых, ретинальных волн сетчатки, фактически исходно на синтетических данных.


  1. Galbanum
    03.01.2026 15:26

    Заголовок, конечно, вводит в заблуждение. После слов "главная ошибка ИИ" логичнее ожидать что-то вроде "сохранение человечества"


  1. ArZr
    03.01.2026 15:26

    Предварительное обучение (pre-training), классический метод обучения ИИ через имитацию, не просто живо - оно готовится к настоящему ренессансу в 2026 году. И это важно для вас при выборе ИИ-продуктов или принятии инвестиционных решений.

    Интересный момент. Примерно осенью 2024 года буквально все (OpenAI, Anthropic, Deepmind и прочие товарищи) начали отчитываться о том, что приросты от претрейна замедляются. Затем был релиз GPT-4.5, после которого все окончательно поставили вердикт - претрейн зашел в стадию diminishing returns. Несколько месяцев с этим были согласны вообще все, никто и не думал поставить под сомнение данное утверждение. Затем выходит Gemini 3 Pro, Deepmind делает заявление, что претрейн все ещё в силе, не приводя внятных доказательств, и МГНОВЕННО (без исследований и прочего) ИИ-хайпожоры начали рассказывать, что так оно есть, никогда претрейн и не затухал. Волна хайпа развернулась от одного утверждения, не подкрепленного доказательствами.

    Куда более забавно, что ИИ бустеры после этого сразу же начали рассказывать о том, что OpenAI последние годы просто не занимались претрейном - видимо, чтобы объяснить, как при живом претрейне они смогли сделать серию не особо удачных релизов моделей. Правда, достаточно зайти на epoch.ai и посмотреть их отчеты по различным бенчмаркам, где отчетливо видно, что GPT-4.5 и GPT-4.1 (что обычая, что mini) вполне себе конкурируют с Opus 4 и Sonnet 4 (в некоторых отдельных случаях - даже с Sonnet 4.5 и Opus 4.5) без thinking. Наталкивает на мысль, что объяснение это ну очень такое себе.

    В общем, посмотрим, как оно будет дальше на самом деле. Лично я пока очень скептически отношусь к данному заявлению.