这篇帖子是用一碗米饭支付的,猫老婆

Хайп, хайп и еще раз хайп

Когда про DeepSeek-r1 начали говорить уже из каждого утюга, я долго думал, а стоит ли еще и свои 5 копеек вставлять в эту историю, и подумал, конечно же да! Ведь могу.

Если коротко, просыпаюсь в понедельник и вижу сотни постов в час на тему «революции в ИИ», «гигантский скачок в развитии LLM», «Акции big tech компаний падают», «NVIDIA потеряла сотни миллиардов долларов» — все эти статьи и посты имели кое-что общее — упоминание DeepSeek. Первое, что я почувствовал, это, конечно, небольшое недоумение — так он уже несколько дней точно лежит в библиотеке ollama, а до этого еще лежал на hugging face, да еще и я уже и развернул его на домашнем сервере и тестирую, так почему он внезапно то хайповать стал?!

Подумал, подумал, и пошел работать, лишь к вечеру вернувшись к этому вопросу. Решил разобраться, откры Хабр и понял, что уже куча опубликованных статей в стиле «⚡️», так что решил подождать чуть более логичных рассуждений обо всей этой истории. В итоге, время шло-шло-шло, я уже состарился на целую неделю, параллельно изучая причины происходящего, но, так и не дождался полноценного разбора произошедшего, так что я решил написать статью в стиле «?».

Затишье перед новым годом

Примерно в начале декабря вышла в свет новая версия ChatGPT-o1 — первая модель, способная к рассуждению. Эта модель обещала гигантский прорыв и скачок в развитии ИИ, и, будем объективны, так и вышло — она действительно достигла новых высот.

Как представлял себя Сэм Альман презентуя o1

Человечество ликовало, мы создали ИИ
Человечество ликовало, мы создали ИИ

Самое печальное в истории развития AI — это то, что чаще всего его используют, чтобы решить домашние задания в школе, перевести текст на другой язык или же попросту получать краткую выжимку из книг/статей/да чего душе угодно

Возможность «рассуждать» дала тот самый толчок, который позволяет еще лучше и качественнее использовать LLM в сложных исследовательских и научных задачах.

Однако в большинстве пользовательских задач рост качества ответов не то чтобы сделал такой же качественный скачок. Он был, да, однако если разница в цене поднялась в 10 раз, то в случае с решением бытовых задач не было такого же «гигантского скачка», как в цене.

Недальновидность

В 2023 году на одном из мероприятий, посвященных AI-стартапам, ему задали вопрос касательно того, каков шанс, что небольшая группа отличных инженеров могла бы создать конкурента для OpenAI меньше чем за 10 миллионов долларов, на что прозвучал ставший теперь мемом в узких кругах ответ:

Смотрите, всё работает так: мы собираемся сказать вам, что конкурировать с нами в обучении базовых моделей совершенно безнадёжно. Вам не стоит пытаться, и при этом ваша задача — всё равно пытаться, и я верю в оба эти утверждения

Но, давайте будем реалистами, в 2023 году у него вполне были причины так считать.

Длинный путь маркировки данных

Примерно полтора года назад одним из исследователей в сфере ИИ был обнаружен интересный момент: ChatGPT неестественно часто употреблял слова, которые не были популярны в американской/британской версиях английского, а большую популярность имели (какая неожиданность) в африканских странах — особенно в Конго.

Дело вот в чем: LLM-модели (на первых порах) обучались на заранее маркированных данных, а также использовался метод обучения RLHF — фактически это метод обучения с подкреплением на основе отзывов людей, и, как вы понимаете, такую деятельность попросту дешевле отдавать на аутсорсинг в страны третьего мира.

Одним из внезапно созданных критериев определения плагиата в англо-образовательном мире оказалось частое использование непривычных для западных стран диалектов/слов. К примеру, на сайте с биомедицинскими исследованиями PubMed слово delve встречается в 0,5% статей — это в 10-100 раз больше, чем несколько лет назад. А значит, эти статьи могли быть частично написаны с помощью ChatGPT.

Однако если предполагать число потенциальных работников, необходимых для обучения, то цифры необходимого бюджета уже только на этом этапе могут отбить любое желание многих инвесторов влезать в эту гонку.

Железо внутри, железо снаружи

Еще в 2023 году, в эпоху GPT-3.5, журналисты подсчитали ориентировочную стоимость обслуживания серверов за один день — цифра оказалась больше 600 000 долларов. Да, за один день работы, еще и версии 3.5 (на всякий случай уточню, что с обновлением версий они не оптимизируют потребление энергии и ресурсов, потребление лишь растет). И вот уже только на этом моменте 99,9999% инвесторов могут произнести вслух: «Да ну ***** этот ваш ИИ». Да, будем объективны, потенциальные затраты колоссальные, а здесь речь идет еще только о 2023 годе и версии GPT-3.5.

Если учесть, что в 2024 году OpenAI дважды привлекала раунды инвестиций для выживания, есть шанс предполагать рост расходов на порядки. Но к чему это я все?

На этом шаге уже нет смысла даже предполагать, что в мире хоть кто-то сможет с небольшим (ха-ха) бюджетом стать конкурентом, так как потенциальные расходы уже переваливают за такие суммы, что в мире мало какая компания способна будет такое осилить.

Но и это не все — столь высокие затраты в том числе связаны с сотнями тысяч GPU, причем важно — самых современных. Почему важно? Да не только потому, что оно лучше всех предыдущих оптимизировано под нейронки, а потому, что есть «экспортные ограничения» в ряд стран (в частности, в Китай), запрещающие продажи GPU старшего сегмента, что дает некую «монополизацию» для OpenAI в возможности расширения своих дата-центров.

Что касается проблем, то они вполне серьезные. В 2022 году был запрещен экспорт GPU NVIDIA H100 с тензорными ядрами. Когда в Китае начали разбирать и перенастраивать стандартные видеокарты RTX 4090 для создания мощнейших компьютерных систем, США запретили продажу и этой продукции.

Резюмирую: сотни тысяч карточек + практически своя атомная электростанция = ChatGPT

Человеческий ресурс

Где-то год назад на конференции Highload общался с одним товарищем, рассуждали с ним на тему: а почему нет крупных конкурентов у OpenAI? (на тот момент даже Llama еще не воспринималась каким-либо конкурентом). На что мне ответили:

Уровень каждого их специалиста — это уровень самых топовых инженеров в целом на рынке

И, если честно, я согласился с этим утверждением. Ситуация действительно казалась просто в тот момент неразрешимой.

И если сесть изучать статистику, то на текущий момент я нашел цифру в 3,5 тыс. сотрудников, а средняя зарплата (по открытым источникам) варьируется от 200 тыс. до 370 тыс. долларов в год.

Но дело даже не в количестве специалистов и их зарплатах — важнее тот факт, что OpenAI накопила тысячи человеко-лет опыта разработки и исследований в сфере ИИ. Это как пытаться догнать компанию, которая не просто бежит впереди, а успела намотать несколько кругов по стадиону, пока вы только завязываете шнурки. И каждый день этот разрыв только увеличивается — пока условный стартап будет набирать команду, OpenAI успеет провести еще десятки экспериментов и накопить еще больше критически важного опыта.

Если говорить совсем простым языком — даже если у вас появится 10 миллиардов долларов, вы не сможете купить то, чего просто нет на рынке — годы коллективного опыта работы над самыми передовыми ИИ-системами.

Экспортные ограничения

Отдельной главой в истории «почему сложно догнать OpenAI» идут экспортные ограничения, введенные США начиная с 2022 года. И здесь происходит крайне любопытная ситуация: Китай, являясь фактически производственной площадкой для NVIDIA, оказался под запретом на покупку собственной же продукции.

Начиналось все с запрета на экспорт серверных GPU NVIDIA H100 с тензорными ядрами — ключевых компонентов для обучения крупных языковых моделей. Когда же китайские компании начали проявлять изобретательность, разбирая и модифицируя геймерские RTX 4090 для создания вычислительных кластеров, США оперативно закрыли и эту лазейку, запретив экспорт высокопроизводительных потребительских видеокарт.

Причина таких жестких ограничений проста и прагматична — не дать технологическому конкуренту шанс догнать американские компании в гонке ИИ-вооружений. Ведь имея доступ к современным GPU и производственным мощностям, Китай мог бы относительно быстро создать инфраструктуру, сопоставимую с дата-центрами OpenAI и других лидеров отрасли.

В результате мы имеем ситуацию, когда одна страна фактически производит оборудование, которое сама же не имеет права использовать. И это создает своеобразную «технологическую монополию», где доступ к самым производительным вычислительным мощностям остается привилегией избранных компаний, а потенциальные конкуренты ограничивались в своих возможностях)

Черный понедельник

Просыпаюсь, умываюсь, открываю телефон — и вот мягко говоря не понимаю происходящее: весь IT-сектор акций резко летит вниз, а такие компании, как NVIDIA, уже к тому моменту потеряли почти 7% стоимости. Вопрос: ЧТО ПРОИЗОШЛО, ПОКА Я СПАЛ?!

Да ничего, люди внезапно увидели DeepSeek, который резко взлетел на топовые позиции по скачиванию в AppStore и Play Market, а упоминания во всех западных и наших медиа были в каком-то неисчислимом количестве. А дальше уже и ко мне пришли с вопросом о даче комментария на эту тему. Кстати, воспользуюсь возможностью пропиарить эту статью :)

Ну что же, давайте разбираться в причинно-следственной связи: а что же происходит и причем тут всё это?

DeepSeek-r1

Думаю, что нет смысла обсуждать, что такое DeepSeek — худо бедно о нем уже многие знают, но вот что важно, откуда они?

История оказалась крайне любопытной: всё началось с High-Flyer — одного из крупнейших квантовых хедж-фондов Китая. В 2015 году три инженера (Сюй Цзинь, Чжэн Давэй и Лян Вэньфэн, будущий CEO) после 8 лет разработки алгоритмических торговых систем решили основать свой фонд. К 2021 году они уже управляли активами в 15 миллиардов долларов и, что особенно важно для нашей истории, владели просто гигантской инфраструктурой.

Но! В 2022 году китайское правительство начинает активно прижимать ребят (честности ради, не только их) из-за высокочастотной торговли. В тот период в стране активно стали требовать, чтобы они открывали свои алгоритмы, а как понимаете, это привело к закрытию многих фондов. Но у тебя гигантская инфраструктура, по некоторым данным порядка 10 тыс. GPU разных поколений, накапливаемых за годы работы — что ты можешь сделать? Конечно же, LLM!

А если серьезно, то они собрали команду вчерашних выпускников лучших университетов Китая, которые попросту не знают, что возможно, а что еще нет, и идут просто делать.

Во-вторых, забудьте про корпоративную иерархию и бюрократию — хочешь доступ к суперкомпьютеру? Бери и пользуйся. Есть идея для проекта? Собирай команду и вперед.

И вот теперь давайте подумаем: что получается? У них есть мощнейшая инфраструктура, толковые ребята без страха экспериментировать и полная свобода действий. И вот тут начинает вырисовываться интересная перспектива...

Так и что в итоге? Создали модель умнее чем GPT-o1?

В этом и суть — не совсем. Есть принцип — 20% усилий дают 80% результата, и наоборот. Это часто упоминают и в коде — 80% времени продукта проходят в 20% кода, и здесь мы имеем ровно то же самое.

80% пользователей LLM используют лишь 20% его возможностей. Основные возможности O1 все так же не используются большинством пользователей. В итоге «рассуждения» нужны для многих исследовательских и сложных задач, но большинство пользователей все так же используют его в форме «реши мне домашку».

И почему это все важно? По заявлениям самих DeepSeek, они достигли практически паритета, что мы видим на схеме, но не то чтобы серьезного превосходства.

Но, они тут немного лукавят касательно качества — DeepSeek как раз закрывают идеально требования основной аудитории пользователей, тех, кто в основном использует чтобы решать мимолетные вопросы, а вот в исследовательских задачах он уже начинает уступать, но, как? Как компания имеющая бюджет, специалистов да и опыта - смогла так резко догнать главного лидера рынка?

Дистилят

Да, вы не ослышались, дистилят.

Ой, простите, не та картинка

В общем.

Если совсем просто объяснить: берем большую, жирную модель и пытаемся впихнуть её знания в модель поменьше. Примерно как если бы вы пытались пересказать «Войну и мир» на десяти страницах, сохранив при этом все ключевые сюжетные линии. Но вопрос в процессе же, верно? И благо тут нам не нужны трубки и горелка.

Процесс выглядит примерно так: берем нашу «жирную» модель-учителя, даем ей кучу задач, записываем все ответы. Потом берем модель поменьше и говорим: «А ну-ка, дорогая, учись отвечать так же». И она учится! То есть фактически младшие модели учатся на данных, сгенерированных старшей! Да простят меня ML-щики, которые знали и знают про эту механику, лично меня это сильно удивило, когда я стал погружаться в механизмы обучения LLM-моделей.

Но к чему это я? Видите ли, ведь DeepSeek-r1 и так «старшая модель» в своем семействе, она-то получается обучалась как и ChatGPT с гигантскими маркировочными данными? Ну как сказать, не совсем :)

Еще летом, если верно помню, были интересные посты на тему, что OpenAI фиксировали какое-то гигантское число запросов. Так вот, это и была дистилляция, как в итоге уже выяснилось, что уже привело к блокировке в некоторых странах приложения DeepSeek.

Сегодняшняя ночь — переломный момент для мира технологий. «Технологические медведи» вышли из спячки на этой неделе после того, как китайский стартап DeepSeek AI сделал предупредительный выстрел, поставив под сомнение всю историю технологической AI-революции: «Если DeepSeek смог построить эту модель за 6 миллионов долларов, то зачем Big Tech тратит более 400 миллиардов долларов капитальных затрат в этом году?»

Вся суть в том, что модель DeepSeek-r1 - это дистиллят от ChatGPT, и вот тут уже все раскрывается подробно. Современные модели можно разрабатывать и генерировать на основе данных, сгенерированных другой моделью! То есть как минимум у нас исчезает целый гигантский раздел расходов.

А теперь давайте подумаем: помните те колоссальные затраты на разметку данных, про которые мы говорили ранее? Те самые аутсорс-команды из Африки? Получается, что теперь можно просто взять существующую модель, дать ей набор задач, собрать ответы — и использовать их для обучения новой модели! И вот уже сотни миллионов долларов на разметку данных превращаются... ну, скажем так, в значительно более скромную сумму на вычислительные мощности.

Ирония в том, что OpenAI обвиняли все это время ровно в том, в чем они обвиняют сейчас — в плагиате

И вот теперь самый важный момент — они сделали всё open source. Буквально всё: и саму модель, и механику обучения, и все идеи опубликовали на своей странице Hugging Face. То есть любой желающий может не просто посмотреть, а взять и использовать. Никаких черных ящиков, никаких секретов — всё как на ладони.

А знаете, что самое интересное в этой ситуации? Пока гиганты вроде OpenAI и Anthropic строят железные занавесы вокруг своих технологий, условный DeepSeek говорит: «Ребята, вот вам код, вот механика, делайте что хотите». И это не просто жест доброй воли — это может стать настоящим переломным моментом в развитии AI.

Представляете, что будет дальше? Сотни команд по всему миру получили доступ не просто к результату, а к полному рецепту приготовления современной LLM. И ведь каждая из этих команд может внести свои улучшения, найти новые подходы.

Так к чему это все?

Итак, давайте разберем ситуацию без лишних эмоций. Да, ребята из DeepSeek совершили впечатляющий прорыв: реализовали опцию «рассуждение», обучили серьезную модель и сделали её open source. Это действительно круто!

Но рынки, как это часто бывает, среагировали на новости излишне эмоционально. Паника и обвал акций технологических компаний произошли во многом из-за неправильной интерпретации данных. Те самые «6 миллионов долларов» — это лишь верхушка айсберга, финальный этап дообучения. В эту сумму не входят:

  • Стоимость существующей инфраструктуры

  • Годы предварительных разработок

  • Затраты на команду и исследования

  • И много чего еще, о чем мы даже не знаем

Что касается производительности — давайте будем объективны. DeepSeek не «порвал всех в клочья». В разных бенчмарках результаты разные: где-то модель показывает отличные результаты, а где-то уступает тому же GPT-4o и Gemini-2. Даже в собственных тестах авторов видно, что в ряде задач модель проигрывает GPT-4o от мая 2024 года.

Да, команда DeepSeek проделала колоссальную работу. Да, им удалось сделать это значительно дешевле, чем традиционным путем. Но обвал акций технологических гигантов на десятки процентов? Давайте будем честны — это явный перебор.

Возможно, главный урок здесь не в том, что «можно сделать AI за копейки», а в том, что появляются новые, более эффективные подходы к разработке LLM. И это действительно может изменить расстановку сил на рынке — но не так радикально и не так быстро, как показалось в первый момент.


Конечно же буду рад порекламить канал свой, я там как раз показал один из двух простых способов запустить llm локально (второй с ollama)

Комментарии (25)


  1. Tomasina
    04.02.2025 10:51

    Объяснение "на котах" самое классное и доходчивое.


  1. unwrecker
    04.02.2025 10:51

    Да, одновременно 2 посыла:

    1. ИИ в массы, дешевая нейросеть, которую можно поднять дома на видеокарте

    2. Теперь видеокарты никому не нужны

    Вызывали определённый когнитивный диссонанс :)


    1. ZergsLaw Автор
      04.02.2025 10:51

      Уточнишь про места, где такое впечатление вышло? Я не часто пишу такие большие статьи, так что буду понемногу качать скилл :)


      1. Ingref
        04.02.2025 10:51

        Так это посыл от мировых СМИ такой. Они почему-то решили, что AGI достигнут, и больше никому не нужны дорогие GPU...


        1. ZergsLaw Автор
          04.02.2025 10:51

          а, я решил, что в статье моей, так что запутался :D


        1. unwrecker
          04.02.2025 10:51

          именно


          1. ZergsLaw Автор
            04.02.2025 10:51

            Так тогда ответишь на вопрос? :)


            1. unwrecker
              04.02.2025 10:51

              Это бот что ли? А я ему карму накинул....


              1. ZergsLaw Автор
                04.02.2025 10:51

                -_-


  1. WizAnd
    04.02.2025 10:51

    К сожалению не хватает кармы поставить плюс, но за объяснение спасибо (и за котов и за доходчивое про дистиллят). Единственное, не понятно, каким образом обучаются на других моделях, откуда берут вопросы: генерируют или переадресовывают вопросы от пользователей (поэтому и сделали модель открытой, чтобы было больше пользователи с разносторонними запросами и поэтому такая большая задержка в ответе у deepseek)?


    1. ZergsLaw Автор
      04.02.2025 10:51

      Первые часто делают свой "прокси" до чужих моделей, накапливая в себе все коммуникации, а далее уже обучают у себя с учетом накопленных данных

      Вторые как раз таки собирают пул тем и по API их выгружают, а потом уже учат свои модели на сгенерированных как раз :)


  1. Wizard_of_light
    04.02.2025 10:51

    Вся суть в том, что модель DeepSeek-r1 - это дистиллят от ChatGPT

    Ну, если это так, то китайцы первые, которым удалось вывести дистиллят на уровень учителя, да ещё и в широком диапазоне данных. Кстати, кто-нибудь подумал, что это один шаг до сильного ИИ? До сих пор считалось, что нейросеть на синтетике не особо потренируешь, она заглючит. А теперь привет, кожаные мешки.


    1. ZergsLaw Автор
      04.02.2025 10:51

      Да! И это супер круто, то есть я никак не планирую умаливать их достижения, это действтиельно невероятно круто реализовано, просто хотел донести мысль, что они не стали формировать свой датасет осбственно ручно, а фактически генерили его


    1. Ingref
      04.02.2025 10:51

      Первыми это сделали в Стэндфортском университете аж в марте 2023 года, выпустив Alpaca.


      1. ZergsLaw Автор
        04.02.2025 10:51

        Он сильно-сильно слабее оказался по качеству


        1. Ingref
          04.02.2025 10:51

          Ну так то просто эксперимент был, проверка самого концепта. До них никто и не думал, что синтетика вообще даст результат.


    1. lE3vCav93A
      04.02.2025 10:51

      ChatGPT использовался для проверки качества, а DeepSeek это десяток моделей в разных областях сведенных к урезанной DeepSeek-r1 , если бы был дистиллят сразу из ChatGPT получилась бы одна нейросеть, вывод у DeepSeek есть что то более мощное не для всех, что требует не 2000, а 10000 gpu, что не каждый углядел, вот этого и боится Альтман, что при отсутствии сопоставимых серверов они выложат в открытый доступ нечто более мощное.


      1. Sun-ami
        04.02.2025 10:51

        Тоже сразу подумал, что у DeepSeek есть что то более мощное не для всех, раз они выложили DeepSeek-r1 в свободный доступ. Но зачем им выкладывать это более мощное в открытый доступ?


  1. Ingref
    04.02.2025 10:51

    И вот теперь самый важный момент — они сделали всё open source. Буквально всё: и саму модель, и механику обучения, и все идеи опубликовали на своей странице Hugging Face.

    Кроме датасетов ;)


    1. ZergsLaw Автор
      04.02.2025 10:51

      Кроме датасетов......


  1. Kristaller486
    04.02.2025 10:51

    Вся суть в том, что модель DeepSeek-r1 - это дистиллят от ChatGPT

    Всё бы хорошо, но это ложь. Это можно легко понять, если открыть статью о R1, где достаточно подробно описан процесс обучения. То, что описание процесса обучения не выдумка можно понять хотя бы потому, что его уже пару раз воспроизвели в масштабах поменьше (1, 2). Tl;dr обучающего процесса:

    1. Собирается набор вопросов по математике, программированию, логики и прочим областям, ответы на которые можно легко верифицировать (например, автотестами для кода или ответ цифрой для математики)

    2. Берется base model (то есть модель, которая не умеет отвечать на вопросы, а только продолжает текст, в нашем случае - Deepseek-V3-Base) и посредством rule based вознаграждений через RL учим модель отвечать правильно на вопросы (да, она учится сама, без всяких размеченых человеком/внешней моделью данных).

    3. После этого дела у нас получается R1-Zero, её веса авторы тоже опубликовали. Незадача только в том, что после RL модель генериует нечитабельные цепочки размышлений (миксует языки и так далее). Это нам не подходит.

    4. Через R1-Zero авторы генерируют ответы с размышлениями на набор вопросов по тем же доменам, чистят всё это дело от совсем нечитабельных штук и обучают на получившихся данных V3-Base.

    5. После, снова обучают получившуюся модель через RL с rule based вознаграждениями. В итоге получается R1, которая отвечает чуть-чуть хуже, чем R1-Zero, но зато её размышления можно спокойно читать.

    Почему в процессе обучения в теории не может быть места дистилляции из ChatGPT: o1, размышляющая модель от OpenAI, скрывает цепочки мыслей (кажется на днях перестала, но я не уверен). У Deepseek не было возможности их получить для дистиляции, а без них модель рассуждения дистиллировать невозможно. Прям вообще никак.


    1. ZergsLaw Автор
      04.02.2025 10:51

      Сама механика обучения, сами процедуры и так далее, действительно были разработаны, однако "мыслительный" процесс не совсем относится к дистиляции

      Не совсем могу согласится, так как это была одна из крупных причин, почему началось активное давление на DeepSeek, когда ребята из OpenAI начали активно трубить, что у них по API были большие выкачки данных, просто юридически - это не запрещено, что и не привело к продолжению

      Можно много спорить на тему способа обучения, но дата сет собран в том числе на базе выкачки из ChatGPT - https://www.bloomberg.com/news/articles/2025-01-29/microsoft-probing-if-deepseek-linked-group-improperly-obtained-openai-data


      1. Kristaller486
        04.02.2025 10:51

        Данные "выкачивали" (странный термин, будто там есть какая-то исчерпаемая бочка с информацией) для обучения Deepseek-V3-Instruct (связи с R1 никакой) и в этом нет ничего такого. Данные собираются для SFT и честно говоря особо не влияют ни на что, потому что нынче самая важная часть instruction-tuning'а это RLHF. Если бы ты почитал статью R1 на архиве, то понял бы, что там вообще нет место никаким данным от OpenAI - их даже при желании туда засунуть нельзя. Рекомендую лучше исследовать тему и не распространять дезинформацию, потому что это она и есть.


        1. ZergsLaw Автор
          04.02.2025 10:51

          и в этом нет ничего такого

          Да, я и не говорил, что это плохо :)

          выкачивали

          Да, хорошо, формировали гигантский пул дата сета, чтобы на нем обучать :)

          Если бы ты почитал статью R1 на архиве, то понял бы, что там вообще нет место никаким данным от OpenAI - их даже при желании туда засунуть нельзя


          Получается, если я создам модель, которая будет строится и обучатся на данных, сгенерированных из DeepSeek-r1 , затем, ею сформирую данные для обучения, к примеру Sipki-r0 модель, то я буду также считать, что она не дистилят, хороший вариант, спасибо :)


    1. Ingref
      04.02.2025 10:51

      Претензии по дистилляции относятся к нерассуждающей модели DeepSeek-V3. А на четвёртом шаге в вашем списке к данным, сгенерированным R1-Zero, добавляют также SFT, который содержит в том числе данные, использовавшиеся для DeepSeek-V3:

      ... we adopt the DeepSeek-V3 pipeline and reuse portions of the SFT dataset of DeepSeek-V3.

      В итоге этот дистиллят перетёк из DeepSeek-V3 в DeepSeek-R1.