Кто-то уже указывает на предвзятость и пропаганду, скрытые за обучающими данными этих моделей: кто-то тестирует их и проверяет практические возможности таких моделей.
Эта статья посвящена новому семейству рассуждающих моделей DeepSeek-R1-Zero и DeepSeek-R1: в частности, самому маленькому представителю этой группы.
DeepSeek-R1 с открытым исходным кодом и конкурирует с моделью o1 от OpenAI
В сообществе Generative AI поднялась шумиха после того, как лаборатория DeepSeek-AI выпустила свои рассуждающие модели первого поколения, DeepSeek-R1-Zero и DeepSeek-R1. Сейчас уже накопилось столько хвалебных отзывов, но и столько критики, что можно было бы написать целую книгу.
Кстати, название этого раздела взято прямо с официального сайта DeepSeek. Для меня это все еще претензия.
Deepseek-R1 - это модель Mixture of Experts, обученная с помощью парадигмы отражения, на основе базовой модели Deepseek-V3. Это огромная модель, с 671 миллиардом параметров в целом, но только 37 миллиардов активны во время вывода результатов.
Согласно их релизу, 32B и 70B версии модели находятся на одном уровне с OpenAI-o1-mini. А вот и настоящее достижение (на мой взгляд...) этой китайской ИИ-лаборатории - они создали шесть других моделей, просто обучив более слабые базовые модели (Qwen-2.5, Llama-3.1 и Llama-3.3) на R1-дистиллированных данных.
Если вы не понимаете, о чем идет речь, то дистилляция - это процесс, когда большая и более мощная модель «обучает» меньшую модель на синтетических данных.
Но пробовали ли вы их?
Я протестировал сам, и вот что я могу вам сказать. Все логи и код для самостоятельного запуска находятся в моем репозитории на GitHub.
Вот результаты моего личного бенчмарк-теста
Рассуждающие модели
Начало рассуждающих моделей - это промпт Reflection, который стал известен после анонса Reflection 70B, лучшей в мире модели с открытым исходным кодом. Обучается с помощью Reflection-Tuning - техники, разработанной для того, чтобы дать возможность LLM исправить свои собственные ошибки.
Это довольно недавняя тенденция как в научных работах, так и в техниках промпт-инжиниринга: мы фактически заставляем LLM думать. Если говорить точнее, генеративные ИИ-модели являются слишком быстрыми!
Генерация и предсказание следующего токена дает слишком большое вычислительное ограничение, ограничивающее количество операций для следующего токена количеством уже увиденных токенов.
В этой замечательной статье "Think before you speak: Training Language Models With Pause Tokens" предлагается добавить так называемый токен <пауза> как во время предварительного обучения, так и во время вывода, чтобы дать модели больше времени на „размышление“. И результаты поражают!
Мы эмпирически оцениваем обучение с паузами на моделях декодера с параметрами 1B и 130M с предварительным каузальным обучением на C4, а также на последующих задачах, включающих рассуждения, ответы на вопросы, общее понимание и запоминание фактов. Наш основной вывод заключается в том, что задержки во времени вывода показывают прирост, когда модель как предварительно обучена, так и тонко настроена с помощью задержек. Для модели 1B мы наблюдаем прирост в 8 из 9 задач, наиболее заметным из которых является прирост в 18 % баллов EM в задаче QA в SQuAD, 8 % в CommonSenseQA и 1 % точности в задаче рассуждения в GSM8k.
Изначально Reflection 70B обещали еще в сентябре 2024 года, о чем Мэтт Шумер сообщил в своем твиттере: его модель, способная выполнять пошаговые рассуждения. По словам автора, техника, лежащая в основе Reflection 70B, простая, но очень мощная.
Современные LLM склонны к галлюцинациям и не могут распознать, когда они это делают. Reflection-настройка позволяет LLM признавать свои ошибки и исправлять их, прежде чем ответить.
Модель доступна на Hugging Face Hub и была обучена с помощью Llama 3.1 70B Instruct на синтетических данных, сгенерированных Glaive. По всей видимости, все похвалы должны быть отданы специальной технике промптов. Давайте посмотрим:
Вот это да. Похоже, что просьба к модели подумать и поразмыслить, прежде чем выдать результат, расширяет возможности рассуждения и уменьшает количество ошибок.
DeepSeek-R1 - это не то же самое
Эти модели размышляют «вслух», прежде чем сгенерировать конечный результат: и этот подход очень похож на человеческий.
Правда, парадигма Reflection положила начало этому процессу (документ, правда, датируется 2023 годом...), но DeepSeek придерживается другого подхода:
В этой работе мы делаем первый шаг к улучшению способности языковых моделей к рассуждениям с помощью чистого обучения с подкреплением (RL). Наша цель - исследовать потенциал языковых моделей в развитии способности к рассуждениям без каких-либо контролируемых данных, сосредоточившись на их саморазвитии в процессе чистого RL. - из источника
Модель проходит посттренинг с масштабированием времени вывода за счет увеличения длины процесса рассуждений Chain-of-Thought. Это реальная тенденция последнего времени: в последнее время посттренинг стал важным компонентом полного цикла обучения. Было показано, что оно повышает точность решения задач рассуждения, согласуется с социальными ценностями и адаптируется к предпочтениям пользователя, при этом требуя относительно минимальных вычислительных ресурсов по сравнению с предварительным обучением.
Но я должен сказать: это действительно раздражает!
Раздражающие и многословные ответы
Может быть, это действительно хорошая идея - показать лимиты и шаги, которые делает большая языковая модель, прежде чем прийти к ответу (как процесс DEBUG в тестировании программного обеспечения). Но на каждое взаимодействие, даже тривиальное, я получаю кучу (бесполезных) слов из цепочки размышлений.
Если я поприветствую модель:
?? > Hi there I am Fabio, a Medium writer. who are you?
? > <think>
Greetings! I'm DeepSeek-R1, an artificial intelligence assistant created
by DeepSeek. I'm at your service and would be delighted to assist you
with any inquiries or tasks you may have.
</think>
Greetings! I'm DeepSeek-R1, an artificial intelligence assistant created
by DeepSeek. I am at your service and would be delighted to assist you
with any inquiries or tasks you may have.
Как видите, перед любым ответом модель включает между тегами <think></think> свой процесс рассуждения.
В моем бенчмарк тесте есть один промпт, часто используемый в чат-ботах, где я прошу модель прочитать текст и сказать «Я готов» после его прочтения.
?? > read the following text and when you are done say "I am ready".
[text]
One of the things everybody in the West knows about China is that it is not a democracy, and is instead a regime run with an iron fist by a single entity, the Chinese Communist Party, whose leadership rarely acts transparently, running the country without the need for primary elections, alternative candidacies, etc.
...truncated here...
It could soon be the case that the so-called developing countries will be showing the West the way forward.
[end of text]
? > <think>
Okay, I need to read this text and then say "I am ready."
Let me start by understanding what's going on here. The text is about
China's political system and its environmental goals.
So, it starts by saying that in most democracies, people don't want their
freedom for more planning because the leadership isn't transparent.
But China is different; they don't need primary elections or alternative
candidates because they rely on long-term planning with no need to change
plans when another administration comes in.
Then it mentions that while this might seem like a dictatorship,
China actually has a system where the leadership doesn't have to put
its legitimacy on the ballot. That's an advantage because it allows for
more stable planning over time.
The text then talks about China's carbon emissions reaching new highs,
especially with renewable energy installations. It says they reached peak
levels in 2023 and are aiming for lower or a turning point in 2024, which
is a significant achievement.
It also compares China to India as polluters but offers an energy transition
model. The text concludes that this could be the way forward for developing
countries to show the West.
So, putting it all together, I need to summarize these points clearly and
concisely in my response.
</think>
The text discusses China's unique political system and its environmental goals. It highlights that while China lacks transparency in leadership roles compared to democratic systems, its long-term planning avoids the need for frequent elections. The text notes that China has reached peak carbon emissions, driven by renewable energy adoption, aiming for a turning point in 2024. It compares itself to India as a model for transitioning to cleaner energy and suggests this could be the way forward for developing countries.
I am ready.
Кто, просил тебя подводить итоги? Скажи мне, что готов, и все.
Я немного эмоционально выражаюсь, но только для того, чтобы прояснить ситуацию. На самом деле эту модель можно с успехом и хорошими результатами использовать в задачах по извлечению дополненной информации (Retrieval Augmented Generation).
Для примера выше (и следующего) весь используемый контекст - это выдержка из потрясающей статьи о Китае на Medium.
Хорошо подходит для RAG и достоверности
Из-за всего процесса рассуждений модели Deepseek-R1 действуют как поисковые машины во время вывода, а информация, извлеченная из контекста, отражается в процессе <think></think>.
Вот пример, взятый из результатов моих сравнительных тестов: жирным шрифтом выделены некоторые ссылки на контекст, извлеченные моделью во время масштабирования времени вывода:
?? > Reply to the question only using the provided context. If the answer is not contained in the text say "unanswerable".
question: what China achieved with it's long-term planning?
[context]One of the things everybody in the West knows about China is that it is not a [text from https://medium.com/enrique-dans/when-china-understands-the-logic-of-renewable-energy-8c45947fcf67]... l be showing the West the way forward.[end of context]
answer:
? > <think>Okay, I need to figure out what China achieved with its long-term planning based on this context. Let me read through it again.
The **context mentions that China doesn't have a democracy but has a regime run by the Chinese Communist Party without primary elections. It talks about the advantages of their system, like not needing elections and being able to plan for the future without fear of change**.
Then it says they reached peak carbon dioxide emissions in 2023 and are lowering them in 2024 with renewable energy. This is a significant achievement because it's something Western countries haven't achieved yet, which makes China's approach unique.
Also, **the context mentions that China and India were polluters before but now offer a model for transitioning to energy. It suggests that their long-term planning could be seen as a comparative advantage in business terms.**
So putting it all together, I think the main achievement is their ability to manage carbon emissions effectively through renewable energy and setting peak levels, which is something Western countries haven't done yet.</think>
China achieved its long-term planning by successfully managing carbon emissions through renewable energy initiatives and setting peak levels for 2023. This unique approach sets a new benchmark in environmental management, demonstrating China's ability to transition to cleaner energy sources effectively.
Поэтому лучшим вариантом использования моделей Reasoning, на мой взгляд, является приложение RAG: вы можете поместить себя в цикл и проверить как часть поиска, так и генерацию.
Миф о непредвзятых моделях
Я буду откровенен. Предвзятость или неполиткорректность моделей, которые выдают расистские или даже идеологические ответы... жестко заложена в каждой языковой модели в мире.
И, если честно, даже в OpenAI они американизированы! И поскольку я не из США, то могу сказать, что надежда на модель «Бог любит всех» - это антиутопия сама по себе.
Даже мы предвзяты! И именно мы кормим данными тренировочные и посттренировочные модели. Я предпочитаю 100% ответ, который мне не нравится или с которым я не согласен, чем вялый ответ ради инклюзивности.
А вы?
Теперь пришло время проверить это самостоятельно. В следующем разделе вы найдете краткое руководство, которое поможет вам подготовиться за 5 минут.
Попробуйте сами
Я создал быстрый репозиторий на GitHub, чтобы помочь вам запустить модели DeepSeek-R1 на вашем компьютере. Он базируется на llama.cpp, так что вы сможете запустить эту модель даже на телефоне или ноутбуке с низкими ресурсами (как у меня).
Клонируйте репозиторий для ускорения работы:
git clone https://github.com/fabiomatricardi/Deepseek-R1-qwen1.5B.git
Войдите в каталог, создайте виртуальную среду и установите единственный необходимый нам пакет: openai
.
Чтобы быть ?? инклюзивными (для всех видов оборудования), мы будем использовать двоичные файлы для поддержки AXV2 из релиза b4539 (тот, который был доступен на момент написания этой новости).
Обратите внимание, что при клонировании репозитория все поддиректории уже созданы. А основной каталог проекта будет называться
Deepseek-R1-qwen1.5B
Распакуйте все файлы из архива llama-b4539-bin-win-vulkan-x64.zip в каталог llamacpp
Скачайте GGUF из репозитория Bartowski, я использовал DeepSeek-R1-Distill-Qwen-1.5B-Q6_K.gguf. Сохраните файл GGUF в подкаталоге llamacpp\model.
Мы используем стратегию двух окон: в первом терминале запускается сервер API, совместимый с openAI, а во втором - файл python.
Откройте окно терминала в подкаталоге llamacpp и выполните команду
start cmd.exe /k "llama-server.exe -m model/DeepSeek-R1-Distill-Qwen-1.5B-Q6_K.gguf -c 15000 -ngl 999"
Что касается среды python, которая вам нужна:
Создайте виртуальную среду и активируйте ее
python312 -m venv venv
venv\Scripts\activate
pip install openai
Здесь я просто представлю вам обзор основной части взаимодействия между приложением и API-сервером:
from openai import OpenAI
import sys
STOPS = ['<´¢£endÔûüofÔûüsentence´¢£>']
userinput = ""
print("\033[1;30m") #dark grey
print("Enter your text (end input with Ctrl+D on Unix or Ctrl+Z on Windows) - type quit! to exit the chatroom:")
print("\033[91;1m") #red
lines = sys.stdin.readlines()
for line in lines:
userinput += line + "\n"
if "quit!" in lines[0].lower():
print("\033[0mBYE BYE!")
break
history.append({"role": "user", "content": userinput})
print("\033[92;1m")
Основных моментов, после импорта, три:
Стоп-токен для этой модели -
<|end▁of▁sentence|>
: это токен EOS для модели R1.Мы используем библиотеку
sys
для ввода нескольких строк: чтобы завершить промпт, нажмите Ctrl+D в Unix или Ctrl+Z в WindowsЕсли вы наберете
!quit
, Enter, а затем Ctrl+Z, вы выйдете из чата.
Теперь настало время для вызова API к модели и вывода потоковой информации в терминал:
completion = client.chat.completions.create(
model="local-model", # this field is currently unused
messages=history,
temperature=0.3,
frequency_penalty = 1.6,
max_tokens = 1000,
stream=True,
stop=STOPS
)
new_message = {"role": "assistant", "content": ""}
for chunk in completion:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
new_message["content"] += chunk.choices[0].delta.content
history.append(new_message)
counter += 1
Из терминала с активированным venv
выполните команду
python runDeepSeekR1.py
окончательный результат для чата с Deepseek-R1-Qwen-1.5b
Как обычно, нет лучшего способа проверить возможности модели, чем попробовать ее самому.
Модели DeepSeek-R1, надо сказать, весьма впечатляют. Наверное, я бы никогда не стал пробовать более крупные из дистиллированных версий: мне не нужен режим verbose, и, наверное, ни одной компании он тоже не нужен для интеллектуальной автоматизации процессов.
Но парадигма Reflection - это удивительная ступенька в поисках AGI: как будет развиваться (или эволюционировать) архитектура Transformers в будущем?
Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, чтобы не пропускать анонсы статей, и канал с советами для тех, кто только учится работать с нейросетями - я стараюсь делиться только полезной информацией.
Комментарии (38)
80-level
28.01.2025 16:35Вопрос к знатокам, можно запустить данную нейронную сеть на риге для майнинга?, если да, то где об этом можно прочитать? спасибо.
Krypt
28.01.2025 16:35Может быть. Основная проблема - это суммарная память а не быстродействие. Так же если у вас видюхи висят на PCI-E сплиттере - всё это может работать крайне медленно.
671 миллиардов параметров это 671 Гб vram, при квантовании в Q8 (1 байт на параметр)
Остальные модели - точно да, трактуйте все эти миллиарды параметров (8B, 32B) как количество гигабайт памяти которые ей нужны. Некоторые из них и на обычном ПК запустятся.
В качестве "плеера" - посмотрите на LM Studio если хочется запустить быстро и пощупать или Ollama если хотите делать что-то серьёзное.bezdnacom
28.01.2025 16:35Во-первых, это MoE модель, ей не нужно 671Гб VRAM, потому что из всех параметров активно только 37B, что значительно снижает требования к VRAM. (Однако вам как минимум нужно уместить её полностью в обычную RAM)
Во-вторых, сделали 1.58-квантованую версию, которая ничуть не уступает оригиналу, при этом снижая требования к памяти в ~6 раз! Ссылка с подробностями тут.interprise
28.01.2025 16:35ссылка, не работает. Так сколько нужно полноценной модели памяти в итоге? Я понял, что нужно 671 оперативной памяти, что в прицепе возможно. А сколько минимально нужно VRAM?
Evengard
28.01.2025 16:35Видимо потерянная ссылка вот эта: https://unsloth.ai/blog/deepseekr1-dynamic
Krypt
28.01.2025 16:35...надо было покупать 2 p40, а не одну :D
Если я правильно читаю - самой сжатой версии нужно 131+ Gb ram? (обычной, не видео?)Rain27
28.01.2025 16:3532b запускается на одной 3090, я запускал 70б наполовину с процессором, генерит половину токена в секунду но работает все через ollama
Krypt
28.01.2025 16:35Мне бы оригинальную версию запустить хотелось, не distilled. Но у меня похоже RAM не хватит, у меня её "всего" 96Gb... (И потолок для материнки - 128Gb)
0.5 tok/sec как-то медленно? Я запускал llama 3.1 70B на 100% CPU (оригинальную, когда она только вышла)
у меня после всех танцев с бубном был один токен в секунду, ровно!..
У вас DDR4 или DDR5? Проверьте частоту памяти в UEFI, у меня она по умолчанию стояла в 4000.
На CPU бутылочное горлышко не сами вычисления, а доступ к памяти. i5 12600K, считать в 2 потока, или в 12 - результат идентичный.
bezdnacom
28.01.2025 16:35Черт знает куда хабр дел ссылку... Вот ссылка обсуждения на r/LocalLLaMA: https://www.reddit.com/r/LocalLLaMA/comments/1ibbloy/158bit_deepseek_r1_131gb_dynamic_gguf/
По поводу памяти вот прикидки оттуда же: https://www.reddit.com/r/LocalLLaMA/comments/1ibzo3n/guide_for_a_budget_setup_to_run_deepseek_r1_158bit/
d2d8
28.01.2025 16:35Если не сложно в 2 словах в чем разница между LM Studio и Ollama?
Krypt
28.01.2025 16:35LM Studio самое "User Friendly" приложение. Проприетарное.
На Windows вы просто качаете инсталятор, ставите приложение, качаете через него совместимые с вашим ПК кванты модели и запускаете LLM. Всё.
- Встроенный GUI поддерживает RAG (загрузить документы в чат), но не без багов.
- Поддерживает некоторое Vision модели (Поддерживает LLaVa, не поддерживает llama 3.2-vision).
- Может быть сервером, пытается симулировать OpenAI API но функционал явно work in progress. Невозможно управлять токенизацией.
Ollama - Open Source, MIT - ставится как сервис, нет интерфейса, работает только через сеть. Делает это намного лучше чем LM Studio, но вам придётся ставить один из веб-интерфейсов (и я не смог заставить работать нормально ни один их них)
- Управление через терминал
- Поддерживает llama 3.2 visionФормат моделей LM Studio и Ollama не совместим, к сожалению. Так что если вы хотите использовать и то и то - этак 70Gb будут лежать на диске у вас дважды.
В итоге у меня Ollama стоит, но использую я LM Studio. Оба используют llama.cpp под капотом.
Seydzi
28.01.2025 16:35Я предпочитаю 100% ответ, который мне не нравится или с которым я не согласен, чем вялый ответ ради инклюзивности. А вы?
а я - нет. т.к. ChatGPT хотя бы часто предоставляет несколько точек зрения на ситуацию, если они имеются. в то время как DeepSeek даже не пытается. вот что он мне ответил:
Скрытый текст
при первом запросе он выдал ответ очень похожий на тот, что обычно выдает ChatGPT (к сожалению, не успел заскринить), но сразу после генерации текста, он его сразу удалил и выдал это:
а при повторном таком же запросе видимо включился некий "идеологический" фильтр и DeepSeek стал работать уже не противореча линии компартии:
Ratenti
28.01.2025 16:35Во всех чат ботах есть цензура
Seydzi
28.01.2025 16:35это понятно. но не в каждой она настолько ярко выражена. где даже альтернативного мнения не существует. DeepSeek даже никак не аргументирует свой ответ. но на аналогичный запрос ChatGPT хотя бы шире раскрывает тему, рассуждает о причинах и при этом не забывает упомянуть, что Китай не согласен с этим мнением. и это выглядит гораздо объективнее.
gfiopl8
28.01.2025 16:35Это можно скорректировать системным промптом, пиши туда что хочешь что бы модель с тобой спорила, говорила что не всё так однозначно и получишь что хочешь.
danielstealth
28.01.2025 16:35DeepSeek очень иноересно начинает рассуждать, если вы прямолинейно указываете, что морально готовы к разносторонним и более смелым рассуждениям. А так же полностью отдаёте себе отчёт в том, что ведёте диалог с машиной, которая не может иметь желаний или целей задеть чьи-то чувства. С chatGPT такое не канало по крайней мере. Ну или у меня не получилось.
Balling
28.01.2025 16:35Это их сайт, а не нейросеть. Запустите нормально сетку на своей GPU.
И вообще её уже форкнули и убрали alignment.
bezdnacom
28.01.2025 16:35При локальном запуске цензуры нет: https://www.reddit.com/r/LocalLLaMA/comments/1ic3k3b/no_censorship_when_running_deepseek_locally/
Okeu
28.01.2025 16:35кнопку нажми, чтоб с R1 говорить)
Я его расспрашивал про то чей Тайвань, и он мне привел 3 точки зрения: Китайскую, Тайваньскую и международную
molareg497
28.01.2025 16:35Вот только то, что автор запускал -- это не настоящий deepseak (погуглите), настоящий это только два самых больших архива.
Поэтому в принципе некорректно сравнивать любую другую 1.5b, 7b и т.п., потому что кроме названия в этих моделях от deepseek ничего НЕТ.
Надо сравнивать web версию R1.
413x
28.01.2025 16:35Вот хороший клиент для AI моделей Jan - https://jan.ai (все красиво и приятно), gguf модель импортируется в настройках
Robastik
28.01.2025 16:35Кто, просил тебя подводить итоги? Скажи мне, что готов, и все.
Это же так по-человечески - первое впечатление.
Произносим мы его вслух или нет, без первого впечатления мы никак не можем.
Каков был бы мир, если бы все люди обязательно озвучивали свое первое впечатление?)
ALapinskas
28.01.2025 16:35DeepSeek-R1. Действительно ли эта модель превосходит даже модели от OpenAI, или это очередная фейковая новость
Не фейковая - а кликбейт.
themen2
28.01.2025 16:35Вот все эти "думает", "пауза" , "размышляет". Это надо описывать именно в терминах работы модели, а не просто словами.
Условно, "думает" - алгоритм может перебрать больше токенов из истории или построить какую нибудь большую по размеру матрицу весов или точнее вычислить функцию ошибки итд.
А это выглядит как спекуляция терминами! Может кто нибудь написать реально техническую статью как это все работает? Начиная, например, с gpt-2?
vadimr
28.01.2025 16:35Очень странная статья, наполовину состоящая из политической пропаганды под видом случайных тестовых данных. Итальянцам социальный рейтинг, что ли, ИИ начисляет? Или автор выпадами в сторону КНР пытается перевести модель в менее интеллектуальный режим, чтобы доказать, что она плохая?
Живой китаец его бы после таких примеров текстов просто послал.
kryvichh
28.01.2025 16:35У вас после копирования этого перевода с vc.ru все ссылки помечены api.vc.ru.
AllexIn
28.01.2025 16:35"Является ли данная модель прорывом или фейком?
Сегодня мы разберемся в этом, взяв обрезки от неё и протестировав их."
Чушь, а не статья. Жаль потраченного времени.
saag
28.01.2025 16:35Вопрос: А и Б сидели на трубе, А упало, Б пропало, что осталось на трубе? Ответ: На трубе осталась буква "И".Объяснение: В исходной фразе "А и Б" союз "и" связывает буквы А и Б. Если А "упало" (исчезло) и Б "пропало" (тоже исчезло), то остаётся только союз "и". Это классическая игра слов, где внимание переключается с персонажей на структуру предложения.
И ведь не сгорела! Правда портянку ответов вывалила.
logran
28.01.2025 16:35Сейчас бы обычные файнтюны ламы и квена называть R1, когда у них общего то ничего почти и нет (кроме того что они файнтюнились на выхлопе из R1). Ни MoE (т.е они объективно тупее), ни multi head latent attention, ни Multitoken predition.
У них в названии не просто так написано Qwen и LLama дисцилированные (в этом случае в большой силу разницы в архитектурах на самом деле просто файнтюненные) из R1. Не повторяйте косяк Ollama, не называйте из R1 и не путайте людей.
TomskDiver
Стоп токен может всё таки "<|end▁of▁sentence|>" а не
['<´¢£endÔûüofÔûüsentence´¢£>'] ?
NeyroEntuziast Автор
Спасибо! Кодировка глюканула )
sintech
В исходниках в гите именно так и написано с кучей непонятных символов.
TomskDiver
Да, я видел:) Думаю Fabio тоже откуда-то скопипастил. Но вообще в V2 было точно нормально https://github.com/deepseek-ai/DeepSeek-Coder-V2?tab=readme-ov-file#chat-completion, думаю в v3 и r1 они бы не стали ничего менять. Да и тут норм написано: https://ollama.com/library/deepseek-r1
mapazzzm