Транскрибация доклада Ивана Оселедця: "Большие языковые модели в эпоху ризонинга"

В самом деле эпоха ризонинга, она так вот началась в Раде. Сейчас, конечно, есть такое четкое ощущение, что она немножко уже заканчивается. Сроки развития в искусственном интеллекте, они очень короткие. И эпохи у нас длятся, получается, пару месяцев.И мы уходим уже в подходы, которые связаны, например, уже с эволюцией агентов, подходы, которые предложены первой Вальфой Волве. Вот вчера буквально статья вышла. И, тем не менее, история, которую я хотел бы рассказать сегодня, про рассуждение и как они в этих моделях появились и что нам с этим делать. А нам, мне кажется, для меня она была довольно поучительная.

То есть многие вещи, которые я буду сейчас говорить, они вроде бы все и так знают.
Например, там определение искусственного интеллекта, любое интервью даёшь, и все задают вопрос, что это такое. Мне кажется, сейчас это уже обсуждать бессмысленно.
Это всем более-менее понятно. Чуть менее тривиальная мысль, что всё-таки мы моделируем поведение окружающего мира. И когда я буду говорить про ризолвинг, про цепочке рассуждения, я к этому вернусь. Мы должны моделировать мир вокруг нас.

В частности, мы должны моделировать, как какие-то сложные задачи решают эксперты. И отсюда сразу же в один шаг возникают самые цепочки рассуждений. Опять, вроде бы мысли тривиальные, но в основе всех сложных алгоритмов и сложных подходов, лежат на самом деле часто очень простые идеи. И вот такой лакмосовая бумажка хороших результатов,
это когда их кто-то предложил и все-таки, это мы же знали, это же очевидно. Я об этом думал, а они придумали. Это что-то сложное, обычно это какая-то ерунда. За исключением там есть какие-то глубокие математические результаты, которые вообще никто не понимает.


Но вот то, что ближе нам, ближе к земле, это обычно всегда выглядит вот так. И у меня будет, конечно, докладывание. Этот слайд, я думаю, здесь всем абсолютно очевиден,
что на самом деле, несмотря на то, что у нас есть обучение с подкреплением, что у нас есть салв суперfarage, танц супер farce, на самом деле, всё и сводится с обучением с учителями,
когда у нас есть данные и модели предсказания.

И всё, развитие искусственного интеллекта, это просто разные способы собрать модели, это разные способы собрать данные и разные способы определить, что такое хороший результат или плохой. На самом деле, мне кажется, что когда мы переходим к действительно сложным задачам, действительно сложным задачам, когда у нас агенты уже должны решать прямо какие-то творческие истории, то все упрется даже не сколько в данные, то что в данных все равно будет очень мало.

А именно в том, как мы будем оценивать результаты работы. Первый шаг. На самом деле, первый шаг мы избавились от того, что у нас очень много разных моделей. Все свелось, грубо говоря, к одной, двум, трём, разным архитектурам, несмотря на то, что люди все-таки пытаются. Люди все-таки пытаются отказаться от глубоких нейросетей, люди пытаются отказаться, собственно, от всеми нашими любимыми трансформерами, придумают всякие мамбы, Google выпустил дефузионные модели для текстов.

Но тем не менее, трансформер это вот то, что в на протяжении последних уже почти 8-9 лет
является таким единственным способом нормально моделировать текст. Собственно, они заложили основу ЛЛМ-а или как в наших сейчас государственных документах везде написано, бям, большие языковые модели, но ЛЛМ мне больше нравится.


Вчера был как раз на большом совещании по центру искусственной интеллекте, там были эти бямы, но тем не менее, для риоэтов Салп считают, конечно, ЛЛМ. На всякий случай, кто не в курсе, что делает трансформерные модели, трансформерные модели максимизируют правдоподобие текста.
То есть мы смотрим на текст, смотрим этот текст правдоподобный или нет. И мы просто учим модель, который предсказывает вероятность того, что этот текст является текстом написанной естественной языке. И все. Как только это поняли, так как только поняли, как параметризовывать вероятность, это на самом деле не такая тривиальная вещь.


Опять же, я думаю, что для членов сообщества УДС, с которым я знаком, на самом деле, очень плохо, я пару раз туда зашел, получил большой вайп того, что там происходит, и вышел, больше никогда не заходил. Но я думаю, что это должно быть очевидно. Но, например, когда я рассказывал про трансформерные модели на достаточно серьезном семинаре математиков, вот эта вот картинка, замечательная, которую все, наверное, видят, вылистрейтый трансформер, что вот этот трансформер очень уважаемым людям, действительно глубоким специалистам в области математики, ну, наверное, два семинара по часу объяснял, что это такое.

То есть, как это выглядит, почему это работает. То есть, это тоже хороший пример, что то, что нам кажется очевидным, в других областях, на самом деле, очевидным, не является.
Просто мы к этому привыкли. Опять же, если подумать, не так-то легко придумать архитектуру, которая трансформер заменит, а то есть, несмотря на то, что попыток много всякие, там, РКВ, 1-2-3-4-5-6-7, но если посмотреть все-таки на продакшн модели, ну, может быть, только гугл с вот этот гейми и дефьюзон, все-таки выпустил что-то, что отличается от разных вариантов трансформера.

Оказалось, что, в общем, удобно, ты фиксируешь одну и ту же архитектуру. И, опять же, многие, очевидно, знают, но это тоже важно отметить, что обучение идет по 3 шагам. То есть, первый шаг, это ты просто подаешь очень много текста, собираешь корзинку для притрейна,
и в этой корзинке для притрейна, собственно, максимизируешь вероятность текста целиком.
Дальше проходишь свои, там, 100 триллионов, сколько там, 36 триллионов токенов.


Вот, и получаешь модель, которая хорошо понимает, что такой язык, что конструкции,
но, может быть, не очень хорошо умеет отвечать на какие-то вопросы, собственно, GPT-3, которая исполнилась тоже, я не помню, 8 лет, сколько, когда она там, 19-го года, да, значит, 6 лет. Сейчас модель, которая была 175 миллиардов параметров, GPT-3, все ходили, говорили, «Вау, никогда мы это не повторим, сейчас я смотрю с модели». Ну, наверное, полтора миллиарда параметров, которые работают лучше, чем GPT-3.

То есть, прогресс, на самом деле, в этой области, мы в нем жили, но он совершенно колоссальный. И там был только, в общем-то, притрейн, да еще достаточно грязных датасетах. И опять же, вот, был вопрос из зала по поводу того, что, о чем мы можем, так сказать, быть лучше, чем, чем, как лидеры и так далее, это вот тоже, на самом деле, один из вариантов, что подготовка нормальных датасетов, в том числе синтетических для притрейна,
может дать колоссальный boost.


Второе — это обучение на инструкциях, что модель должна следовать инструкциям,
должна уметь задачи, математически это означает, что вы максимизируете вероятность не всего текста целиком, а только вероятность ответа при условии вопроса. Соответственно, два и три, и третий, когда уже возникает награда либо через человека, либо через эрель, насколько ты хорошо решаешь задачи. И дальше всё это некоторым образом крутится.


Обучение с подкреплением сильно снова выстрелило, на первый раз, когда был чат GPT, RLHF, все побежали на нематии тренеров, потом оказалось, что это можно делать без эреля,
потом дипсик, R1Z, что всё это можно делать без эреля, как только эрель выстреливает,
оказывается, что это, наконец-то, он заработал, оказывается, что можно было это опять сделать без эреля, но люди всё равно пытаются, что мы, максим, у нас есть некоторые функции награда, это тоже, кстати, важная вещь, потому что сейчас все, все вот эти, весь этот прогресс, показывают в основном на математике и на коде, потому что награда есть,
можем проверить, что ответ у тебя правильный.


Если задача какая-то творческая, или напиши стратегию, или построить планы, непонятно, что есть хорошо, что плохо, награда-то нет, а если награда есть, то на самом деле есть простая математика, как вы считаете градиент такой функции. И на самом деле, поверьте мне, что все сложные алгоритмы, ППО, ДРПО, ГРПО и прочие штуки, на самом деле это просто, разным образом перевёрнутое вот эту формула.


По-разному вычисляем приближение к градиенту, не считаем градиент награды, ну вот, там дальше будет сложная формула, которая, например, в составе дипсика была, но на самом деле эта сложная форма, на самом деле очень простая. Я хочу вернуться чуть назад уже до дипсика, и перейти всё-таки к основной теме своего рассказа, это цепочка рассуждений,
откуда они, собственно, взялись. На самом деле, конечно, почки рассуждения были в предтрыне. Просто модель не понимает, что, решая задачу, ей нужно не сразу пытаться выдать ответ, ну как, в задаче слева, типа, сразу, ответ 8, посчитав что-то в уме, а надо сначала подумать и потом дать ответ.

Это, кстати, у кого из дети могут увидеть, что даёшь что-то, они пытаются угадать ответ и вместо того, чтобы подумать. Вот эта простая история, ну и вот эта статья 22-го года «Let's think step by step» и автор этой статьи в твиттере, по-моему, написал про то, что, так бы, там, 10 лет назад он доказал крутую математическую теорему, после этого какой-то код написал,
а вот 22-м году его основной ночный результат было придумать написать «Промт Let's think step by step» и всё заработал.


Это тоже вроде что, то есть научный прогресс бывает в разных местах, то есть ты просто пишешь модель инструкцию, модель уже как-то научилась следовать инструкциям и начинает уже рассуждать. То есть она где-то видела, нам надо как-то увеличить этот самый чейновсот. Ну и вторая история, это чейновсот-промтинг, когда ты показываешь пример запроса решения и модель понимает, что ей нужно заниматься рассуждением.


То есть на самом деле она где-то это видела. Если ты помогаешь либо фьюшотом, либо промтом, она начинает генерировать эти рассуждения. На самом деле вся задача для перехода к резнинг-модели — это усилить где-то те цепочки рассуждения, которые она где-то видела. Собственно, все, что сделали в дипсике, они придумали способ, как эти рассуждения усилить.

Первое, они явно сказали, что модель должна думать, это прямо находится в промте, у меня там дальше будет, собственно, промт. Второе, собственно, на задачах, где ответ известен, они использовали RL. И таким образом, ну и там две награды, что она, как бы, все-таки думает и думает по такому шаблону. Ну и второе, что она дает правильный ответ, и этого оказалось достаточно.

То есть этого оказалось достаточно, чтобы научиться решать математические задачи. Дальше, если вы внимательно посмотрите припринт, там написано следующее, что как бы математические задачи хорошо, выработались вот эти странные шаблоны там ага, альтернативы, weight, но... Для других задач она работала плохо. Что нужно делать? Да на самом деле я сделал еще простую вещь.

Они сделали call start. Они написали руками цепочки рассуждений, как разные задачи нужно решать. Немножечко обучились и все. Как только. И основной принцип на самом деле вообще во всем обучении с подкреплением, что модель должна с не нулевой вероятностью генерировать правильные цепочки рассуждений, которые приводят к правильному ответу. Это единственное условие, которое необходимо для того, чтобы это усилить.

Если ты сто раз просэмплировал ответы и там есть одна правильная цепочка и ты можешь проверить что она правильная в принципе все что тебе нужно только время терпения компьют. То есть, на самом деле, вот что они сделали, фьюшот промты с примерами, сбор, форматирование и постобработка результатов, все сводится к тысяче цепочкам ассуждений. Это, кстати, второй важный рецепт, что мы можем делать.

На самом деле, мы можем просто придумывать, исходя из какой-то экспертной истории, как нам писать такие цепочки рассуждений в какой-то конкретной прикладной области. Если мы хотим на каком-нибудь датесете GMS 8K поднять наше качество на два процента, ну как бы мы можем на это потратить тысячу GPU, если бы они у нас были. Это совершенно бессмысленная история.

Гораздо проще выбирать какие-то практические задачи, где модели работают плохо и у них точность там не 80% а меньше или какие-то конкретные бизнес-процессы и пытаться, собственно, эти цепочки рассуждения восстановить. Максим в своем докладе упоминал медицинский ассистент и на самом деле мы это сделали даже в 23 году мы сделали вот эти цепочки ризанинга причем на основе гигачата плюс при чем это работает просто в проме когда гигачат еще был совсем слабенький и ничего делать не умел. Но мы ему для него настолько эту задачу декомпозировали разбили на кусочки что он смог как бы решать достаточно сложную задачу, ну грубо говоря, вместо гугления симптомов.

Вместо «у меня болит левая пятка, что мне делать?» И он в интерактивном режиме, проходя вот эти вот этапы, научится ставить диагноз и делает сейчас это лучше, чем терапевт. И это порядка 300 тысяч человек этим уже воспользовались, записались, даже где-то там платную подписку купили в Сбирздоровье. То есть это работающая история. А датасет был, собственно, диалоги Двух врачей. Один врач играет роль пациента с определенным диагнозом, а второй врач задает ему уточняющие вопросы. Таких данных по рассуждениям и диалогов не найдешь. Но записав в порядках двух тысяч таких цепочек, оказалось, что этого достаточно даже без какого-то супер дообучения для того, чтобы модель поняла, что она делала.

В моделях уже все это есть. Вы просто должны показать ей, как задача декомпозируется. ЛНки сложно декомпозировать задачи на подзадачи. Но если ты объяснил, как декомпозировать, и даже может быть ручками разбил на какие-то промпты и действия, все начинает работать вне зависимости от базовой ЛВ. То есть ты можешь много инвестировать в развитие базового ЛМ, а можешь проинвестировать существенно меньше в развитие и понимание этих самых цепочек рассуждений.

Здесь краткое напоминание про Дипсик. Я думаю, что это может быть полезно. Единственное, что я скажу, что вот эта замечательная формула, которую они используют для KL-дивергенции в исходной статье, она просто математически неверная. И всем абсолютно все равно. Если сейчас посмотрите на последние статьи, коэффициент бета перед KL, люди даже ноль ставят. Они просто сделали математическую ошибку и всем реально плевать. Потому что от нее ничего не зависит.

Вот эта страшная формула, которая тоже выглядит как какая-то непонятная вещь. На самом деле это просто вычисление градиент. И смысл это очень простой. Смысл алгоритма очень простой. Мы генерируем некоторое количество цепочек рассуждения ответов. Мы смотрим, какие ответы дали нам награду выше средней, какие ответы дали награду ниже средней. Которые дали награду выше средней, мы поощряем, ниже средней наказываем. Все. Там нет больше ничего. Хорошие примеры поощряем, отрицательные наказываем. Это можно в целом делать без рель.

Вы можете просто нагенерить 100 ответов, отобрать самые топовые и добавить в СФТ. Это будет примерно тот же самый результат. На самом деле основное, мне кажется, сейчас это собирать именно такие синтетические данные, грубо говоря, простые задачи, которые сложны в решении. В частности, мне очень интересно, вот был папа недавно умер, разбирая библиотеку, нашел книжку, и там на самом деле все уже было написано в 70-х, 50-х, 60-х годах, что делать. Просто у них и компьютер не было, да, если мы вернулись бы туда с нашими замечательными знаниями, мы все равно бы ничего не смогли сделать. Вот, но все написано, то есть надо собирать правильные примеры и надо опять же собирать те самые цепочки рассуждений, как эти сложные задачи решаются.

Сложная задача и ответ вы никогда не поймете методом проб по ошибок. Как ее решать? Если это задача типа игра в шахматы или игра в ГО, вы сможете перебрать миллионами партий. Если задача все-таки выходит для доказательств какой-то теоремы или написания кода, вас не получится. Вам нужно видеть примеры экспертных решений. И даже в математике, на самом деле мы сейчас запускаем несколько таких проектов.

Мы пытаемся собрать цепочки рассуждений, например, типа обсуждения студент-экзаминатор. Пытается решить задачу, а экзаминатор ему подсказывает. Опять, вы таких данных в нормальном режиме не найдете, а такие данные на самом деле колоссально могут помочь усилить вот такие рассуждающие способности, решить ту самую проблему холодного старта и добавить как бы новые паттерны в базовую модель. На самом деле в этой цепочке важно проверять не только финальный результат. Коллеги провели эксперимент. О3 решает задачи Международной Математической Олимпиады. Все понятно, все хорошо.

Да вот нифига подобного. Они проверяют только финальный ответ. Дети, например, когда решают даже школьные задачи школьных математических олимпиад, у них есть Вот такой вот гигантский чек-лист, что такое правильное решение, что такое неправильное. Представляете, он напишет правильный ответ, а все решения неправильные. Он говорит, то ответ-то правильный, то тут ерунду написал. Начинается вот эта апелляция и так далее. Поэтому, кто составляет Олимпиады, я был не в курсе, что так происходит.

Вот написано куча критериев, что само решение правильное. И оказывается, что если проверять так же, как проверяют людей, они набирают всего 30%. То есть, несмотря на то, что вроде как все хорошо международно-математическая Олимпиада решена, сами ешения-то они поганые. Ответ правильный, но он не понимает... Возможно, скорее всего, я думаю, что просто в большинстве случаев задачи этих Олимпиад они где-нибудь в трене находятся и все. То есть, я думаю, причина тоже достаточно большая.

И буквально я в конце немножко пробегусь по относительно недавним статьям, что RL тогда рассуждений может быть и необязательно. Собственно, как я говорил, успешные рассуждения поощряем, не успешные наказываем. Можно сделать очень простой baseline, сгенерировать 256 вариантов и выбрать самые успешные. Оказывается, что это бьет ГРПО. Можно просто сэмплировать много вариантов.

И более того, у тебя получается более разнообразная история. Это первая работа Центфуа. Вторая тоже очень прикольная работа, что вроде мы ее очень думать, а думать это рассуждать вслух. А если мы ее учим рассуждать вслух, то она пишет. Похоже, что происходит не так. Многие, наверное, кто следится за хайпом, видели эту работу про no-thinking, что ты пишешь просто ей в промд, ты закончила думать, дай ответ, и она прекрасно дает ответ. То есть, на самом деле, что происходит? Она учится думать во внутренних представлениях, а после этого выписывает решение, как будто она подумала, и дает правильный ответ.

То есть как-то потому что наука здесь разбивается настолько быстро, что вроде ты привык уже, ага, нужно думать, а на самом деле она не думает, а процесс размышления записала веса. Вот это нужно все изучать. Вот там некоторые метрики. И пару, наверное, про лесну, потому что это... А чего просто показать нашу работу? Спарс Автоэнкодер, есть две полярные группы товарищей, которые говорят, что это не работает, но вроде бы работает. То есть мы обучили разреженный Автоэнкодер для рассуждающих моделей, ну фактически просто на токены вот эти вот Дипсиковских Alternative Leasing и нашли нейроны, которые очень похожи на нейроны рассуждений.

И вот этот слайд здесь проведен для того, чтобы показать эффекты. Задача простая. Ты берешь этот нейрон рассуждений, выкручиваешь его максимально. Модель начинает писать больше токенов. В какой-то момент она написала, что короче, I have covered all the bases. Короче, я все проверил, отстань от меня. Больше рассуждать не хочу. То есть мы ее прямо до максимума довели. При этом на самом деле таким простым образом удалось поднять качество модели на там 14 процентов, то есть на самом деле работает эта история со спарсовты энкодерами, даже позволяет поднимать качество работы модели.

Можно, например, делать такую хирургию и изучать, какие разреженные нейроны отвечают за какие области знаний. И последняя, у меня там вот 20 секунд, я чуть-чуть переберу, sorry. На самом деле, я покажу такую картинку, мне кажется, что мы реально вышли на такой цикл самоэволюции. И когда я готовил эти слайды еще, альфы Волву нормально не было, но кажется, что история того, что модель уже умеет что-то делать, и ты ей показываешь примеры цепочки рассуждений, она с помощью цепочек рассуждений начинает решать более сложные задачи, и в частности она может уже научиться понимать, как модифицировать сами цепочки рассуждений. Цепочки рассуждений это на самом деле декомпозиция задачи на сложные промпты.

Ты под каждую подзадачу пишешь свой промпт, запускаешь ее в некий реальный продавый цикл, либо на синтетических данных, она генерит тебе длинные цепочки рассуждений, ты их возвращаешь назад в базовую модель, в притрейн, и повторяешь это до бесконечности.

И на самом деле, где у этой системы тупик, на самом деле непонятно, для всех задач, где мы можем четко сказать, где хорошо, где плохо, это написание кода и математика, по-видимому здесь мы только ограничены вот этой вот креативностью, временем, и на самом деле статья Альфа и Волва где, как раз, Саша Новиков, мой ученик, первый автор, они использовали 0 GPU.

Все, что они использовали, просто использовали умный промтинг и все. И модификация генетическая. На самом деле, мы дошли до такой стадии, что нам не нужно уже, как сказать, прям сильно улучшать качество базовой модели, а нам нужно как бы ускорять вот это время прохождения по этому кругу, генерации цепочек рассуждения, декомпозиций, постановки все более и более сложных задач. И, наверное, мы уже дойдем до задачи, где что такое хорошо, что такое плохо непонятно, и как мы это будем делать. У меня, кстати, таймер пошел еще дальше, но тем не менее.

Комментарии (4)


  1. geoser
    30.11.2025 11:28

    Вы бы эту "транскрибацию" пропустили через языковую модель. Вроде буквы из русского алфавита, но это точно не русский язык.


    1. alexhu Автор
      30.11.2025 11:28

      Айти это английский язык, конечно это суржик. Всё достаточно понятно, о чём говорит докладчик.


  1. shchepin
    30.11.2025 11:28

    А о чем эта статья, простите?:)


    1. alexhu Автор
      30.11.2025 11:28

      Под тремя крайними моими статьями написали комментарии, где удивлялись почему такие заявления в статьях.

      Ну вот нашёл статью Оселедца, где он понятно объясняет по рассуждениям LLM, олимпиадным задачам, обучения и другие вопросы.