DeepSeek-R1. Действительно ли эта модель превосходит даже модели от OpenAI, или это очередная фейковая новость? / forpes.ru

Главная
DeepSeek-R1. Действительно ли эта модель превосходит даже модели от OpenAI, или это очередная фейковая новость?

DeepSeek-R1. Действительно ли эта модель превосходит даже модели от OpenAI, или это очередная фейковая новость? +9

28.01.2025 15:26

NeyroEntuziast 38 36000 Источник

DeepSeek-R1? Не доверяйте новостям. Действительно ли эта модель с открытым исходным кодом превосходит даже OpenAI, или это очередная фейковая новость?

Кто-то уже указывает на предвзятость и пропаганду, скрытые за обучающими данными этих моделей: кто-то тестирует их и проверяет практические возможности таких моделей.

Эта статья посвящена новому семейству рассуждающих моделей DeepSeek-R1-Zero и DeepSeek-R1: в частности, самому маленькому представителю этой группы.

DeepSeek-R1 с открытым исходным кодом и конкурирует с моделью o1 от OpenAI

В сообществе Generative AI поднялась шумиха после того, как лаборатория DeepSeek-AI выпустила свои рассуждающие модели первого поколения, DeepSeek-R1-Zero и DeepSeek-R1. Сейчас уже накопилось столько хвалебных отзывов, но и столько критики, что можно было бы написать целую книгу.

Кстати, название этого раздела взято прямо с официального сайта DeepSeek. Для меня это все еще претензия.

Изображение отсюда: https://api-docs.deepseek.com/news/news250120

Deepseek-R1 - это модель Mixture of Experts, обученная с помощью парадигмы отражения, на основе базовой модели Deepseek-V3. Это огромная модель, с 671 миллиардом параметров в целом, но только 37 миллиардов активны во время вывода результатов.

Согласно их релизу, 32B и 70B версии модели находятся на одном уровне с OpenAI-o1-mini. А вот и настоящее достижение (на мой взгляд...) этой китайской ИИ-лаборатории - они создали шесть других моделей, просто обучив более слабые базовые модели (Qwen-2.5, Llama-3.1 и Llama-3.3) на R1-дистиллированных данных.

Если вы не понимаете, о чем идет речь, то дистилляция - это процесс, когда большая и более мощная модель «обучает» меньшую модель на синтетических данных.

Но пробовали ли вы их?

Я протестировал сам, и вот что я могу вам сказать. Все логи и код для самостоятельного запуска находятся в моем репозитории на GitHub.

Вот результаты моего личного бенчмарк-теста

Рассуждающие модели

Начало рассуждающих моделей - это промпт Reflection, который стал известен после анонса Reflection 70B, лучшей в мире модели с открытым исходным кодом. Обучается с помощью Reflection-Tuning - техники, разработанной для того, чтобы дать возможность LLM исправить свои собственные ошибки.

Это довольно недавняя тенденция как в научных работах, так и в техниках промпт-инжиниринга: мы фактически заставляем LLM думать. Если говорить точнее, генеративные ИИ-модели являются слишком быстрыми!

Генерация и предсказание следующего токена дает слишком большое вычислительное ограничение, ограничивающее количество операций для следующего токена количеством уже увиденных токенов.

В этой замечательной статье "Think before you speak: Training Language Models With Pause Tokens" предлагается добавить так называемый токен <пауза> как во время предварительного обучения, так и во время вывода, чтобы дать модели больше времени на „размышление“. И результаты поражают!

Мы эмпирически оцениваем обучение с паузами на моделях декодера с параметрами 1B и 130M с предварительным каузальным обучением на C4, а также на последующих задачах, включающих рассуждения, ответы на вопросы, общее понимание и запоминание фактов. Наш основной вывод заключается в том, что задержки во времени вывода показывают прирост, когда модель как предварительно обучена, так и тонко настроена с помощью задержек. Для модели 1B мы наблюдаем прирост в 8 из 9 задач, наиболее заметным из которых является прирост в 18 % баллов EM в задаче QA в SQuAD, 8 % в CommonSenseQA и 1 % точности в задаче рассуждения в GSM8k.

Изначально Reflection 70B обещали еще в сентябре 2024 года, о чем Мэтт Шумер сообщил в своем твиттере: его модель, способная выполнять пошаговые рассуждения. По словам автора, техника, лежащая в основе Reflection 70B, простая, но очень мощная.

Современные LLM склонны к галлюцинациям и не могут распознать, когда они это делают. Reflection-настройка позволяет LLM признавать свои ошибки и исправлять их, прежде чем ответить.

Модель доступна на Hugging Face Hub и была обучена с помощью Llama 3.1 70B Instruct на синтетических данных, сгенерированных Glaive. По всей видимости, все похвалы должны быть отданы специальной технике промптов. Давайте посмотрим:

Изображение из <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.linkedin.com%2Fposts%2Fphilipp-schmid-a6a2bb196_mindblowing-a-70b-open-meta-llama-3-better-activity-7237712642339926016-Cfm6&postId=1779216" rel="nofollow noreferrer noopener" target="_blank">Linledin</a> — Изображение из Linledin

Вот это да. Похоже, что просьба к модели подумать и поразмыслить, прежде чем выдать результат, расширяет возможности рассуждения и уменьшает количество ошибок.

DeepSeek-R1 - это не то же самое

Эти модели размышляют «вслух», прежде чем сгенерировать конечный результат: и этот подход очень похож на человеческий.

Правда, парадигма Reflection положила начало этому процессу (документ, правда, датируется 2023 годом...), но DeepSeek придерживается другого подхода:

В этой работе мы делаем первый шаг к улучшению способности языковых моделей к рассуждениям с помощью чистого обучения с подкреплением (RL). Наша цель - исследовать потенциал языковых моделей в развитии способности к рассуждениям без каких-либо контролируемых данных, сосредоточившись на их саморазвитии в процессе чистого RL. - из источника

Модель проходит посттренинг с масштабированием времени вывода за счет увеличения длины процесса рассуждений Chain-of-Thought. Это реальная тенденция последнего времени: в последнее время посттренинг стал важным компонентом полного цикла обучения. Было показано, что оно повышает точность решения задач рассуждения, согласуется с социальными ценностями и адаптируется к предпочтениям пользователя, при этом требуя относительно минимальных вычислительных ресурсов по сравнению с предварительным обучением.

Но я должен сказать: это действительно раздражает!

Раздражающие и многословные ответы

Может быть, это действительно хорошая идея - показать лимиты и шаги, которые делает большая языковая модель, прежде чем прийти к ответу (как процесс DEBUG в тестировании программного обеспечения). Но на каждое взаимодействие, даже тривиальное, я получаю кучу (бесполезных) слов из цепочки размышлений.

Если я поприветствую модель:

?‍? > Hi there I am Fabio, a Medium writer. who are you?
? > <think>
Greetings! I'm DeepSeek-R1, an artificial intelligence assistant created 
by DeepSeek. I'm at your service and would be delighted to assist you 
with any inquiries or tasks you may have.
</think>

Greetings! I'm DeepSeek-R1, an artificial intelligence assistant created 
by DeepSeek. I am at your service and would be delighted to assist you 
with any inquiries or tasks you may have.

Как видите, перед любым ответом модель включает между тегами <think></think> свой процесс рассуждения.

В моем бенчмарк тесте есть один промпт, часто используемый в чат-ботах, где я прошу модель прочитать текст и сказать «Я готов» после его прочтения.

?‍? > read the following text and when you are done say "I am ready".

[text]
One of the things everybody in the West knows about China is that it is not a democracy, and is instead a regime run with an iron fist by a single entity, the Chinese Communist Party, whose leadership rarely acts transparently, running the country without the need for primary elections, alternative candidacies, etc.
...truncated here...
It could soon be the case that the so-called developing countries will be showing the West the way forward.
[end of text]


? > <think>
Okay, I need to read this text and then say "I am ready." 
Let me start by understanding what's going on here. The text is about 
China's political system and its environmental goals. 
So, it starts by saying that in most democracies, people don't want their 
freedom for more planning because the leadership isn't transparent. 
But China is different; they don't need primary elections or alternative 
candidates because they rely on long-term planning with no need to change 
plans when another administration comes in.
Then it mentions that while this might seem like a dictatorship, 
China actually has a system where the leadership doesn't have to put 
its legitimacy on the ballot. That's an advantage because it allows for 
more stable planning over time.
The text then talks about China's carbon emissions reaching new highs, 
especially with renewable energy installations. It says they reached peak 
levels in 2023 and are aiming for lower or a turning point in 2024, which 
is a significant achievement.
It also compares China to India as polluters but offers an energy transition
 model. The text concludes that this could be the way forward for developing 
countries to show the West.
So, putting it all together, I need to summarize these points clearly and 
concisely in my response.
</think>

The text discusses China's unique political system and its environmental goals. It highlights that while China lacks transparency in leadership roles compared to democratic systems, its long-term planning avoids the need for frequent elections. The text notes that China has reached peak carbon emissions, driven by renewable energy adoption, aiming for a turning point in 2024. It compares itself to India as a model for transitioning to cleaner energy and suggests this could be the way forward for developing countries.

I am ready.

Кто, просил тебя подводить итоги? Скажи мне, что готов, и все.

Я немного эмоционально выражаюсь, но только для того, чтобы прояснить ситуацию. На самом деле эту модель можно с успехом и хорошими результатами использовать в задачах по извлечению дополненной информации (Retrieval Augmented Generation).

Для примера выше (и следующего) весь используемый контекст - это выдержка из потрясающей статьи о Китае на Medium.

Хорошо подходит для RAG и достоверности

Из-за всего процесса рассуждений модели Deepseek-R1 действуют как поисковые машины во время вывода, а информация, извлеченная из контекста, отражается в процессе <think></think>.

Вот пример, взятый из результатов моих сравнительных тестов: жирным шрифтом выделены некоторые ссылки на контекст, извлеченные моделью во время масштабирования времени вывода:

?‍? > Reply to the question only using the provided context. If the answer is not contained in the text say "unanswerable".

question: what China achieved with it's long-term planning?

[context]One of the things everybody in the West knows about China is that it is not a [text from https://medium.com/enrique-dans/when-china-understands-the-logic-of-renewable-energy-8c45947fcf67]... l be showing the West the way forward.[end of context]

answer:

? > <think>Okay, I need to figure out what China achieved with its long-term planning based on this context. Let me read through it again.

The **context mentions that China doesn't have a democracy but has a regime run by the Chinese Communist Party without primary elections. It talks about the advantages of their system, like not needing elections and being able to plan for the future without fear of change**.

Then it says they reached peak carbon dioxide emissions in 2023 and are lowering them in 2024 with renewable energy. This is a significant achievement because it's something Western countries haven't achieved yet, which makes China's approach unique.

Also, **the context mentions that China and India were polluters before but now offer a model for transitioning to energy. It suggests that their long-term planning could be seen as a comparative advantage in business terms.**

So putting it all together, I think the main achievement is their ability to manage carbon emissions effectively through renewable energy and setting peak levels, which is something Western countries haven't done yet.</think>

China achieved its long-term planning by successfully managing carbon emissions through renewable energy initiatives and setting peak levels for 2023. This unique approach sets a new benchmark in environmental management, demonstrating China's ability to transition to cleaner energy sources effectively.

Поэтому лучшим вариантом использования моделей Reasoning, на мой взгляд, является приложение RAG: вы можете поместить себя в цикл и проверить как часть поиска, так и генерацию.

Миф о непредвзятых моделях

Я буду откровенен. Предвзятость или неполиткорректность моделей, которые выдают расистские или даже идеологические ответы... жестко заложена в каждой языковой модели в мире.

И, если честно, даже в OpenAI они американизированы! И поскольку я не из США, то могу сказать, что надежда на модель «Бог любит всех» - это антиутопия сама по себе.

Даже мы предвзяты! И именно мы кормим данными тренировочные и посттренировочные модели. Я предпочитаю 100% ответ, который мне не нравится или с которым я не согласен, чем вялый ответ ради инклюзивности.

А вы?

Теперь пришло время проверить это самостоятельно. В следующем разделе вы найдете краткое руководство, которое поможет вам подготовиться за 5 минут.

Попробуйте сами

Я создал быстрый репозиторий на GitHub, чтобы помочь вам запустить модели DeepSeek-R1 на вашем компьютере. Он базируется на llama.cpp, так что вы сможете запустить эту модель даже на телефоне или ноутбуке с низкими ресурсами (как у меня).

Клонируйте репозиторий для ускорения работы:

git clone https://github.com/fabiomatricardi/Deepseek-R1-qwen1.5B.git

Войдите в каталог, создайте виртуальную среду и установите единственный необходимый нам пакет: openai.

Чтобы быть ?? инклюзивными (для всех видов оборудования), мы будем использовать двоичные файлы для поддержки AXV2 из релиза b4539 (тот, который был доступен на момент написания этой новости).

Обратите внимание, что при клонировании репозитория все поддиректории уже созданы. А основной каталог проекта будет называться Deepseek-R1-qwen1.5B

Распакуйте все файлы из архива llama-b4539-bin-win-vulkan-x64.zip в каталог llamacpp

Скачайте GGUF из репозитория Bartowski, я использовал DeepSeek-R1-Distill-Qwen-1.5B-Q6_K.gguf. Сохраните файл GGUF в подкаталоге llamacpp\model.

Мы используем стратегию двух окон: в первом терминале запускается сервер API, совместимый с openAI, а во втором - файл python.

Откройте окно терминала в подкаталоге llamacpp и выполните команду

start cmd.exe /k "llama-server.exe -m model/DeepSeek-R1-Distill-Qwen-1.5B-Q6_K.gguf -c 15000 -ngl 999"

Что касается среды python, которая вам нужна:

Создайте виртуальную среду и активируйте ее

python312 -m venv venv
venv\Scripts\activate
pip install openai

Здесь я просто представлю вам обзор основной части взаимодействия между приложением и API-сервером:

from openai import OpenAI
import sys
STOPS = ['<´¢£endÔûüofÔûüsentence´¢£>']

  userinput = ""
  print("\033[1;30m")  #dark grey
  print("Enter your text (end input with Ctrl+D on Unix or Ctrl+Z on Windows) - type quit! to exit the chatroom:")
  print("\033[91;1m")  #red
  lines = sys.stdin.readlines()
  for line in lines:
      userinput += line + "\n"
  if "quit!" in lines[0].lower():
      print("\033[0mBYE BYE!")
      break
  history.append({"role": "user", "content": userinput})
  print("\033[92;1m")

Основных моментов, после импорта, три:

Стоп-токен для этой модели - <｜end▁of▁sentence｜>: это токен EOS для модели R1.
Мы используем библиотеку sys для ввода нескольких строк: чтобы завершить промпт, нажмите Ctrl+D в Unix или Ctrl+Z в Windows
Если вы наберете !quit, Enter, а затем Ctrl+Z, вы выйдете из чата.

Теперь настало время для вызова API к модели и вывода потоковой информации в терминал:

completion = client.chat.completions.create(
        model="local-model", # this field is currently unused
        messages=history,
        temperature=0.3,
        frequency_penalty  = 1.6,
        max_tokens = 1000,
        stream=True,
        stop=STOPS
    )

    new_message = {"role": "assistant", "content": ""}
    
    for chunk in completion:
        if chunk.choices[0].delta.content:
            print(chunk.choices[0].delta.content, end="", flush=True)
            new_message["content"] += chunk.choices[0].delta.content
    history.append(new_message)  
    counter += 1

Из терминала с активированным venv выполните команду

python runDeepSeekR1.py

окончательный результат для чата с Deepseek-R1-Qwen-1.5b

Как обычно, нет лучшего способа проверить возможности модели, чем попробовать ее самому.

Модели DeepSeek-R1, надо сказать, весьма впечатляют. Наверное, я бы никогда не стал пробовать более крупные из дистиллированных версий: мне не нужен режим verbose, и, наверное, ни одной компании он тоже не нужен для интеллектуальной автоматизации процессов.

Но парадигма Reflection - это удивительная ступенька в поисках AGI: как будет развиваться (или эволюционировать) архитектура Transformers в будущем?

Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, чтобы не пропускать анонсы статей, и канал с советами для тех, кто только учится работать с нейросетями - я стараюсь делиться только полезной информацией.

Неужели DeepSeek скопировала OpenAI?

Неужели DeepSeek скопировала OpenAI? В последние несколько дней вокруг китайского ИИ-стартапа DeepSe...

habr.com

DeepSeek выпустила собственный ИИ-генератор изображений Janus-Pro. Лучше ли он, чем Dall-e 3?

DeepSeek выпустила собственный ИИ-генератор изображений Janus-Pro Модель R-1 от DeepSeek в последние...