Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт / forpes.ru

Главная
Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт

Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт +19

28.01.2025 08:10

ruslandevlabs 8 9100 Источник

За последние два года - за время невероятной популярности Generative AI - появилось много перспективных компаний, создающих новые прорывные модели. Последний пример - это китайский стартап DeepSeek, благодаря которому у нас есть открытые аналоги OpenAI GPT-4o и o1. С теми же (что проверено бенчмарками) возможностями в плане выполнения текстовых инструкций, задач на математику, логику и кодинг.

Становится любопытно, почему не особенно известный до сих пор стартап делает модели лучше, чем OpenAI?

OpenAI, получивший недавно 100 миллиардов долларов инвестиций на инфраструктуру, по их заявлению. А DeepSeek еще и выкладывает эти модели в опенсорс с MIT лицензией, бери и пользуйся. В чем их секрет?

Вспомним, на чем держится опенсорсная разработка больших языковых моделей (да и других, не только языковых моделей на базе трансформера). Уже старый эксперимент в Стэнфорде с Альпакой показал неожиданную способность небольшой LLM на архитектуре Llama обучаться до качества тогдашней флагманской модели OpenAI — GPT-3 — на данных, ею сгенерированных. Таким образом, SFT, Supervised Fine‑Tuning, в AI‑разработке сейчас — это прекрасный способ раздвинуть границы возможностей AI с высокими шансами на успех.

Хороший пример — моя модель ruslandev/llama-3–8b‑gpt-4o‑ru1.0. Я получил эту модель путем файнтюнинга Llama 3 8B на данных GPT-4o, существенно повысив качество базовой модели. Это потребовало всего лишь 1 эпохи на 2 NVIDIA A100 в облаке.

Существует другой метод «переноса знаний» большой качественной модели на модель поменьше — дистилляция. Модель‑ученик учится предсказывать не только следующий токен, который является результатом предсказания модели после применения софтмакс к значениям последнего слоя, но и промежуточные значения — логиты, еще до их преобразования в вероятности с помощью софтмакс. DeepSeek создали несколько моделей путем дистилляции из R1, размера 1.5B, 7B, 8B, 14B, 32B, 70B, на базе Llama и Qwen. Результат, на мой взгляд, ошеломляющий — даже 1.5 версия Qwen, полученная таким путем — DeepSeek‑R1-Distill‑Qwen-1.5B — существенно опередила GPT-4o и Claude-3.5 Sonnet на математическом бенчмарке AIME 2024, требующем от модели способности рассуждать последовательно.

Но как именно DeepSeek создали модель R1? А также V3 — обе имеют 671 миллиард параметров, реализуют MoE‑архитектуру и наверняка требовали огромных вычислительных затрат на обучение. Что касается базовой модели, DeepSeek‑V3-Base, она обучена на корпусе из 14.8 триллионов токенов — близко к Llama 3. На обучение ушло 2.788M H800 GPU‑часов. Приблизительно 6 миллионов долларов. Это не идет ни в какое сравнение с бюджетами OpenAI.

R1 обучена на DeepSeek‑V3-Base, причем первая стадия — RL‑обучение с помощью Group Relative Policy Optimization (GRPO) — дала в результате R1-Zero, а финальный успех R1, когда модель обошла o1 на ряде бенчмарков, обусловлен как раз‑таки файнтюнингом на небольшом, но качественном наборе размеченных данных, с приоритетом на рассуждения и следование инструкциям. т. е. SFT‑файнтюнинг — ключевой ингредиент для R1. К сожалению, датасет не опубликован. Вероятно, потому что он содержит выборки, сгенерированнные OpenAI o1? В любом случае, есть сама модель DeepSeek R1, и ничто не мешает использовать ее данные для файнтюнинга моделей.

Комментарии (8)

sshmakov
28.01.2025 09:01
#27843818
Это потребовало всего лишь 1 эпохи на 2 NVIDIA A100 в облаке.

А сколько по времени это заняло?
1. ruslandevlabs Автор
  28.01.2025 09:01
  #27846304
  примерно час

Armmaster
28.01.2025 09:01
#27844340
Т.е. 6 млн долларов ушло только на обучение базовой модели. А есть какие-то оценки, сколько GPGPU часов потребовалось на дообучение до уровня R1 с базовой модели?

Ingref
28.01.2025 09:01
#27844358
Вероятно, потому что он содержит выборки, сгенерированнные OpenAI o1?

Ну наконец хоть кто-то об этом прямо заявил. А их успехи в математическом бенчмарке обусловлены выцеживанием математических примеров из Common Crawl. Янник Киллчер на днях у себя на ютубе разбирал их статью про DeepSeekMath - аналогичный подход, очевидно, применили и в DeepSeek-R1.

dolovar
28.01.2025 09:01
#27846772
не особенно известный до сих пор стартап

Deepseek - это не стартап, а подразделение хэдж-фонда High-Flyer, где решили нагрузить имеющийся массив GPU для занятия перспективной ниши. На протяжении нескольких лет они успешно бодались с конкурентами на внутреннем рынке, теперь вышли за пределы страны.

P.S. Этак скоро узнают и о других аналогах, которые тоже понемногу выползают из иероглифов.

Devpiligrim
28.01.2025 09:01
#27848090
Руслан спасибо.
Вопрос: Сам пробовал дообучать LLM на синтетических данных?
1. ruslandevlabs Автор
  28.01.2025 09:01
  #27851460
  Да, вот была статья https://habr.com/ru/articles/830332/ там ссылки на веса и датасет

DarkSin363
28.01.2025 09:01
#27853026
Позавчера когда сервера DeepSeek висели, на вопрос на основе какой модели ты создан, ДипСик говорил, что создан на основе ChatGpt4 от OpenAi от 2023года, но вчера он уже отвечал, что создан на своей модели

Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт +19

Комментарии (8)

sshmakov

ruslandevlabs Автор

Armmaster

Ingref

dolovar

Devpiligrim

ruslandevlabs Автор

DarkSin363