Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы / forpes.ru

Главная
Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы +32

29.01.2025 21:40

DonnaG 58 46000 Источник

Дипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской нейросети у нее есть ряд интересных преимуществ.

В этой статье собрал все способы установки Дипсик. Т.к. китайская нейросеть с открытым исходным кодом – ее можно скачать на компьютер и использовать без Интернета. Причем, в удобном интерфейсе чат-бота.

1. Самый простой (но не всегда рабочий) способ: через сайт Deepseek

Переходим на официальный сайт chat.deepseek.com, регистрируемся и общаемся с чат ботом Дипсик прямо в браузере.

Важно: из-за большого количества атак на сервис у меня не получилось зарегистрироваться через форму регистрации. Однако без проблем прошла авторизация через Google аккаунт:

2. Приложение для браузера DeepSeek

Переходить на сайт DeepSeek каждый раз может быть неудобно. Решение: установить специальное приложение для браузера — DeepSeek AI. Выглядит оно так:

Расширение ставится прямо в браузер в пару кликов и позволяет работать с чат ботом не закрывая другие сайты. Нужно что-то спросить у бота – пошел и задал ему вопрос, не покидая тот сайт, с которым работаешь. Потестил – оказалось очень удобно.

В качестве бонуса: похоже на то, что расширение работает на базе API DeapSeek и когда основной сайт DeepSeek не работает, зависает или не отвечает, это приложение все равно работает.

3. Мобильное приложение DeepSeek

Китайский Дипсик уже доступен в виде 2 приложений:

Для Айфон скачиваем приложение Дипсик через App Store вот здесь.
Для Андроид ссылка на мобильное приложение Дипсик доступна здесь.

Правда у меня страница в GooglePlay просто не открылась. Помогло такое решение:

Переходим на официальный сайт Deepseek по этой ссылке: https://download.deepseek.com/app/ и нажимаем на ссылку View Android Download methods. Выбираем Alternative Download Methods:
Скачиваем АПК Deepseek по кнопке Download APK File:
После загрузки необходимо установить скаченный APK файл Deepseek. Если устройство пожалуется на невозможность установки приложений из неизвестных источников, необходимо разрешить установку из неизвестных источников:

Проблема в том, что Deepseek часто не работает по Интернету из-за огромного наплыва пользователей. Что делать, если Дипсик не открывается или не отвечает? Читаем дальше.

4. Для разработчиков: интеграция через API

Если вы хотите интегрировать Deepseek в свои проекты, можно использовать API. Стоимость всего $0.14 за миллион токенов (для сравнения: у OpenAI это $7.5).

Документация API доступна здесь: https://api-docs.deepseek.com/api/deepseek-api

5. Продвинутый способ: скачать Дипсик на компьютер

Самый интересный способ. Для начала ответ на вопрос: зачем устанавливать китайский Дипсик на компьютер?

Работает без интернета: можно пользоваться чатботом в поездках.
Работает стабильнее: нагрузка на веб-сервис Deepseek сейчас колоссальная, в результате чат бот часто просто не работает. Однако при локальной установке всю модель можно загрузить на компьютер и такой проблемы не будет.
Конфиденциальность: Все данные при работе с моделью остаются у вас на компьютере. В Интернет ничего не уходит.
Бесплатно: если в будущем Deepseek станет платным, установленная модель на компьютере продолжит работать бесплатно.

Посмотрим, как проще всего установить DeepSeek локально:

Скачиваем LM Studio с их официального сайта (доступно для Windows, MacOS и Linux):
Устанавливаем и запускаем LM Studio.
Переходим в раздел Discover:
Находим модели DeepSeek R1:

Сейчас доступно 2 модели:
- DeepSeek R1 Distill (Qwen 7B)
- DeepSeek R1 Distill (Llama 8B)
Я выбрал DeepSeek R1 Distill (Qwen 7B).
Скачиваем выбранную модель (может занять от 10 минут до часа).
После загрузки нажимаем Use in new chat.
Готово! Можно общаться с DeepSeek даже без интернета

Системные требования: в описании моделей указано, что для работы требуется минимум 16 GB RAM, но у меня модель заработала и на 8 GB.

Кроме LM Studio устанавливать языковые модели локально позволяют сервисы jan.ai и openwebui.com, но мне эти способы показались менее удобными.

Напишите в комментариях, какой способ использования DeepSeek вы выбрали и почему? Если знаете другие рабочие способы, тоже укажите, будем добавлять в статью.

Комментарии (58)

pavelvinner
29.01.2025 22:09
#27852240
Пользуюсь через Ollama. через него тоже можно локально
1. its_capitan
  29.01.2025 22:09
  #27852244
  аналогично через Ollama используем. Тоже совместим с openwebui
1. vics001
  29.01.2025 22:09
  #27856098
  Не видел там v3, там только r1 quantized. r1 всегда заточено думать, даже когда не просят, возможно есть отличия.

Revertis
29.01.2025 22:09
#27852342
Мда, эта модель такой бред пишет вместо кода на Расте :(
1. PrinceKorwin
  29.01.2025 22:09
  #27852936
  DeepSeek Coder пробовали? На мои запросы по Rust отвечал не идеально, но вполне корректно.
  1. Revertis
    29.01.2025 22:09
    #27854808
    А она не доступна оффлайн?
    
    PrinceKorwin
    29.01.2025 22:09
    #27854876
    Доступна оффлайн. Ту же LM Studio можете использовать
1. mitzury
  29.01.2025 22:09
  #27855120
  Смотря как задавать вопрос игру змейка на с++ пишет более менее нормально - играбельно. Но не без багов.

letatel
29.01.2025 22:09
#27852598
Адекватно работает 70B только , но даже с 4090 и 64 гб памяти в связке с ГПУ + ЦПУ тормозит жутко.
1. Okeu
  29.01.2025 22:09
  #27853788
  это же llama или qwen просто обученная на синтетик аутпуте из DeepSeek R1, разве нет?
  1. fermentum
    29.01.2025 22:09
    #27854016
    Именно, на r/LocalLLaMA даже был крик души, что это qwen/лама дообученная, а не ДС.
    
    venanen
    29.01.2025 22:09
    #27856124
    Так написано же, что это distill модель. Это буквально означает дообучение на результатах R1, а не R1.
1. Snownoch
  29.01.2025 22:09
  #27856308
  70В на Tesla v100 тормозит. Попросил посчитать количество кирпичей на здание, она посчитала обьем здания и разделила на обьем кирпича…
  
  В веб версии посчитала правильно, по длине стен. Но чтобы развернуть 700В, надо кластер gpu
1. Krypt
  29.01.2025 22:09
  #27856390
  Запускать любую сетку, а особенно большую на CPU обычного ПК - идея довольно плохая. Оно в доступ к памяти упирается.
  
  Ещё, если у вас DDR5 и Intel 12 gen - отключите e-cores в UEFI. p-cores поддерживают частоту 4800GHz, e-cores - только 3300, в результате когда они активны (в на Windows они активны всегда) - частота внутренней шины снижается до 3300GHz.

MasterIT75
29.01.2025 22:09
#27852694
Спасибо.

IlyaOsipov
29.01.2025 22:09
#27852782
Несколько вопросов, подскажите пожалуйста:
1. С каким количеством CPU сервер подойдёт, если не использовать GPU?
2. Локальная версия, обладает такой же API как и на официальном сайте?
3. Сколько места надо что скачать и установить локально модель?
1. Barnaby
  29.01.2025 22:09
  #27853176
  Смотря на чем запустите, скорее всего везде есть openai compatible api
  
  Сомневаюсь что полноценную модель можно и имеет смысл запускать на cpu. Вот мелкая на r5 9600x например:
  
  Backend: koboldcpp_default.dll Layers: 0 Model: DeepSeek-R1-Distill-Qwen-14B-Q4_K_S MaxCtx: 1024 GenAmount: 100 ----- ProcessingTime: 37.509s ProcessingSpeed: 24.63T/s GenerationTime: 17.599s GenerationSpeed: 5.68T/s TotalTime: 55.108s
1. Alien-agent
  29.01.2025 22:09
  #27854030
  Если говорить про полноценную модель (671B), то CPU а-ля Epyc 9684X + от 200 до 800 гигабайт RAM в зависимости от квантизации, и примерно 700 гигабайт на диске чисто для скачивания модели.
  1. mithdradates
    29.01.2025 22:09
    #27856866
    Ну на RAM это будет мучительная история, ожидайте скорость в 1-3 токена в секунду + еще не забываем, что R1 генерит <think> токены, поэтому ответов можно по часу ждать.

Palesandr
29.01.2025 22:09
#27853250
а можно установить локальную версию на локальный сервер и расшарить внутри сети для всех? ну через браузер открывать?

PS. хотя у него и спрошу )
1. Baton34
  29.01.2025 22:09
  #27853454
  Она про локальную установку себя ничего не знает.
  
  Зы: говорит что её данные последний раз обновлялись в октябре 2023.
  1. microArt
    29.01.2025 22:09
    #27854774
    Ого. Совпадение?
    
    Это мне ЧатГПТ выдал (через BotHub):
    На момент моего последнего обновления (октябрь 2023 года)...
1. Stanislavvv
  29.01.2025 22:09
  #27853976
  ollama в помощь. Правда, это про доступ через api, а не вебморду, так что вебморду отдельно.
1. fermentum
  29.01.2025 22:09
  #27854024
  LM-studio позволяет раздавать по локалке и вовне. Может и в headless режиме работать.

DaneSoul
29.01.2025 22:09
#27853830
Системные требования: в описании моделей указано, что для работы требуется минимум 16 GB RAM, но у меня модель заработала и на 8 GB.

RAM или VRAM?
Если это параметр оперативной памяти компьютера, то какая видеокарта при этом использовалась? Или запускали на CPU?
1. riky
  29.01.2025 22:09
  #27854122
  Указанная автором модель весит 4.7гб поэтому будет работать от 6гб рам или врам. Оригинальная не урезанная версия весит почти 700гб. То есть тут модель 1% по весу. Сильно многого от нее не ждите. Что нибудь ответит и то хорошо.

Mike_666
29.01.2025 22:09
#27854050
Автор описывает запуск маленьких моделей дообученных на данных сгенерированных DeepSeek.
А вот чтобы запустить сам DeepSeek вам понадобиться терабайт оперативной памяти чтобы просто как-то его завести и терабайтт видеопамяти чтобы пользоваться им комфортно.
1. Alexey2005
  29.01.2025 22:09
  #27854286
  Вовсе нет.
  
  Это MoE, то есть каждый запрос обрабатывается лишь небольшой частью от всей гигантской сети (примерно на 32B параметров). В итоге "просто как-то завести" можно на довольно скромных объёмах памяти, закэшировав наиболее часто используемые блоки.
  
  Для этой модели уже придумали динамическую квантизацию, которая позволяет получать очень хорошие результаты с использованием всего 212 Гб весов.
  
  В итоге судя по отзывам с reddit'а модель (212Гб квантизация) успешно запускается на машине с 24 Гб VRAM и 128 Гб RAM, выдавая около 1 токена в секунду (плюс ещё порядка 4 минут на обработку начального промта с кэшированием).
  1. Balling
    29.01.2025 22:09
    #27854604
    "основу взята модель Deepseek v3, возможности которой схожи с ChatGPT."
    
    Всё же модели разные.
    
    Specifically, we use DeepSeek-V3-Base as the base model and employ GRPO (Shao et al., 2024) as the RL framework to improve model performance in reasoning
  1. Mike_666
    29.01.2025 22:09
    #27860514
    Спасибо, трюк с запуском с NVME действительно очень интересен, с не MoE такой трюк бы не прошёл!
  1. DonkeyHot
    29.01.2025 22:09
    #27863350
    В итоге судя по отзывам с reddit'а модель (212Гб квантизация) успешно запускается на машине с 24 Гб VRAM и 128 Гб RAM, выдавая около 1 токена в секунду (плюс ещё порядка 4 минут на обработку начального промта с кэшированием).
    
    можно ссылку на реддит?

lorc
29.01.2025 22:09
#27854390
В какой момент на Хабре стали нормой эти ужасные SEOшные заголовки постов? Такое ощущение что я попал на сайт какого-то таблоида.

"Для того чтобы запустить Дипсик, вам понадобится обычные китайский..."

"Я ввел ЭТО в консоль и у меня заработал Youtube"

"Только посмотрите что вытворяет этот джун в свободное от работы время"

"Программисты были шокированы этим способ обойти замедление Youtube"
1. Newbilius
  29.01.2025 22:09
  #27855160
  С появлением в штате оплачиваемых редакторов-новостников, на которых все и ориентируются.
1. lomov_vas
  29.01.2025 22:09
  #27862432
  "Промт-инженеры ДУРЕЮТ от этой подкормки"

Shannon
29.01.2025 22:09
#27854600
Сейчас доступно 2 модели: DeepSeek R1 Distill (Qwen 7B) DeepSeek R1 Distill (Llama 8B)

R1 Distill - это взяли 800к ответов от настоящей R1 и зафайнтюнили на этих ответах Qwen2.5 и Llama3.1, и эти Distill модели будут вести себя не так как R1, а намного хуже.
Настоящая R1 весит 700гб, в квантованном виде без особых потерь весит 400гб, в экстремально квантованном виде будет 131гб, и даже в таком виде она будет лучше чем любая R1-Distill.

Запуск настоящей R1 локально возможен, так как там активных параметров всего 37B из 671B. Достаточно типичного объема памяти и быстрого nvme, чтобы подгружать активные параметры в память, но это скорее не для использования, а для теоретической возможности, так как модель много размышляет, и это всё очень медленно.

В llama.cpp по умолчанию используется mmap, это значит файл модели мапится с диска на ram без реальной загрузки в память, и в момент когда нужны конкретные 37B из модели они будут загружены в память с диска - поэтому чем быстрее ssd, тем быстрее это будет работать. По сути запуск возможен просто с ssd, если у вас есть хотя бы 32гб памяти, чтобы вместить 37B активных параметров, которые в квантованном виде займут 20-25гб.

Вот, запуск квантованной оригинальной DeepSeek-R1-UD-IQ1_S весом 131гб (динамическое квантование в 1.58 бит о котором уже написали выше, основные веса квантованы в 1.5 бита, а важные веса внимания оставлены в 4/6 бит).
На 64гб ddr4 3600 на скорости 50гб/с и nvme на 1гб/с, скорость будет 0.3-0.25 t/s, дождаться пока модель закончит размышлять на простой вопрос в таком случае занимает 10 минут.

Поэтому, если у вас быстрый nvme на 5гб/с и 64гб DDR5 работающей на 100гб/с, вы сможете добиться скоростей около 1 t/s, но только на очень маленьком контексте, и так как это размышляющая модель, то контекст очень быстро дойдет до тысяч токенов, и скорость будет в лучшем случае 0.5 t/s.

Тут кто-то запускает на 96Gb DDR5 6800, 5 слоев выгружено на 3090 и быстрый nvme 990 pro
Если у вас б/у эпик с 16 канальным DDR4, работающий на 400 гб/с, то вы получите 4 t/s на большом контексте, так как в такие эпики можно вместить до 1тб памяти. Сейчас такой эпик собрать дешевле чем купить одну 4090.

Так что локальный запуск настоящей R1 это возможно, но не практично.
1. Antra
  29.01.2025 22:09
  #27854938
  Круто!
  
  Правильно ли я понял, что речь о чисто CPU, вообще без GPU?
  
  Чисто теоретически интересно - если иметь комп с 1TB RAM, туда вполне влезет вся 600ГБ модель. Очень квантованная даже в 256GB влезет - вполне рядовой сервак.
  
  А что, если туда добавить 4090 c 24GB VRAM? Пусть себе из ОЗУ (RAM диск с файлом модели) подгружает нужное в VRAM. Это может ускорить до приемлемых результатов?
  1. ilih
    29.01.2025 22:09
    #27855760
    Не поможет.
    
    Скорость ответа (токенов в секунду) напрямую зависит от быстродействия памяти - для получения одного токена надо прочить все параметры модели, поэтому есть закономерность
    максимальная скорость = "скорость памяти в Гб/с" / "размер модели в Гб"
    Реальная скорость будет 70-75% от максимальной.
    То есть подгружать нужное в VRAM не поможет, потому загрузка будет зависеть от скорости RAM. Но в VRAM можно загрузить часть слоев модели, а остальные слои оставить в RAM, тогда скорость будет больше (чем больше загрузили в VRAM тем быстрее).
    
    Есть еще скорость обработки промпта (токенизация запроса пользователя, часто указывается как "время до первого токена"), она зависит от вычислительных мощностей и тут у видеокарт большое преимущество.
    
    Antra
    29.01.2025 22:09
    #27855898
    Я думал, что "В llama.cpp по умолчанию используется mmap, это значит файл модели мапится с диска на ram без реальной загрузки в память, и в момент когда нужны конкретные 37B из модели они будут загружены в память с диска" сработает и для VRAM. Мол относительно быстро будет загружать из обычной памяти в VRAM только необходимые кусочки модели (ибо не все 130GB нужны для каждого запроса).
    
    Ну нет так нет. Чисто спортивный интерес.
  1. Shannon
    29.01.2025 22:09
    #27855964
    Правильно ли я понял, что речь о чисто CPU, вообще без GPU?
    
    Да, это только CPU на типичной домашней сборке. Сейчас перепроверил на нормальном pcie 3.0 nvme 970 evo plus. Скорости выросли до 0.82 t/s под линуксом, под виндой на нем же 0.11 t/s из-за свопа на медленный sata ssd, хотя с mmap этого не должно происходить.
    
    На 0.82 t/s уже даже не лень дождаться ответа на главный вопрос человечества, сколько же сестер у брата Марии:
    
    В llama.cpp, в llama-server, добавили поддержку мыслей, которые можно скрыть или раскрыть в отдельном блоке. Видно, что несмотря на экстремальное квантование, мысли и сам язык не разваливаются.
    
    А что, если туда добавить 4090 c 24GB VRAM? Пусть себе из ОЗУ (RAM диск с файлом модели) подгружает нужное в VRAM. Это может ускорить до приемлемых результатов?
    
    Эта концепция не реализована в llama.cpp, но было бы не плохо. Такое есть в ktransformers, но там пока нет поддержки V3 и R1, только V2.
    
    Если просто выгрузить часть слоев на 24гб VRAM, выгрузив 9 слоев из 62, скорость возрастает до 1.07 t/s на той же задаче.
    
    Если использовать 40гб VRAM (24гб + 16гб), выгрузив 15 слоев, то скорость 1.23 t/s.
    
    Если бы кто-то проверил на 192гб DDR5, куда модель целиком влезает, то зависимость скоростей была бы еще понятнее. Например, на M2 Studio с 192гб, где очень быстрая память 800гб/с, у людей выходит 13-14 t/s, при пороге комфортного использования в 5 t/s это очень хороший результат.
    
    Там, кстати, только что Mistral Small 3 вышла размером 24B, обещают качество на уровне LLama 3.3 70B. Для запуска Q4_K_M нужно 16гб памяти.
    
    Antra
    29.01.2025 22:09
    #27856298
    Супер понятно, спасибо!
  1. Per_Ardua
    29.01.2025 22:09
    #27856126
    Побольше видеопамяти надо, раз так в десять, чтоб хоть немного профит почувствовать, либо нужны очень специфические запросы, чтобы изолированно использовать только минимальную часть весов и не гонять эти веса туда-сюда. В общем, смысла не вижу, с быстрой ddr5 и парой средних серверных процов можно получить свои 5-10 токенов в секунду и не думать о vram, за которую придётся отдать больше чем за ипотеку.

Tomasina
29.01.2025 22:09
#27854744
Нужна статья по интеграции по API, с примерами.
1. microArt
  29.01.2025 22:09
  #27855868
  Очень нужна. Как ДипСик можно подключить к своему оборудованию.
  Настроить распознавание речи и озвучку ответов.
  1. heejew
    29.01.2025 22:09
    #27856202
    Я могу ошибаться, но в интернете уже кучи статей по интеграции того же OPenAI. А учитывая, что deepseek имеет API compatible with OpenAI, то кажется это вопрос, на который уже есть кучи статей и может ответить openai.
    
    Совсем люди обленились с AI, эх обленились..
1. heejew
  29.01.2025 22:09
  #27856196
  В смысле? Your First API Call | DeepSeek API Docs
  Более того "compatible with OpenAI", то есть вообще все просто.
  1. Tomasina
    29.01.2025 22:09
    #27856670
    К примеру, мне в Google Sheets нужно отправить промпт в DeepSeek и в следующей ячейке получить от него ответ. Как это сделать?
    
    heejew
    29.01.2025 22:09
    #27858114
    А в чем сложности? Это же простое API, как и любое другое API.
    Берете API, его документацию, делаете код, который с этим API общается.
    
    По примеру - это вполне классическая задача в гугл таблицах, существующая уже лет так -цать. Делаем скрипт, взаимодействуем с API, записываем значение. Куча гайдов именно в общем.
    
    Если вам надо от и до - вы просто взаимодействуете с API OpenAI/DeepSeek, собственно, на этом разница заканчивается.
    
    Ну а если уж вам совсем лень самому собрать все воедино - openai подскажет вам от и до.
    
    И дальше он дает вполне валидный пример.
    Зачем тут статья?) Тут ограничивает лишь ваша фантазия и возможности интеграции (любых) API в желаемое вами приложение.
    
    Вам настолько лениво даже генерировать идеи и спрашивать возможности и примеры реализаций у ИИ?)
    
    heejew
    29.01.2025 22:09
    #27858186
    Причем, что забавно, openai уже в контексте про deepseek. Хотя, однако, повторюсь, API Deepseek полностью совместимо с OpenAI. Так что 1) можно использовать все существующие примеры в существующих статьях про OpenAI, коих уже навалом 2) можно в Openai просить примеры именно под openai, разница будет только лишь в доменном имени.

kryvichh
29.01.2025 22:09
#27854910
На GeForce RTX 3060 12GB запустил дистиллированную DeepSeek R1 Distill Qwen 14B, взял с квантизацией Q5_K_L (Uses Q8_0 for embed and output weights. High quality, recommended). Загружал через Jan.ai. Работает очень быстро, Token Speed: 32.41t/s. Вся модель грузится в VRAM.
1. kryvichh
  29.01.2025 22:09
  #27855290
  Для сравнения попробовал также DeepSeek R1 Distill Qwen 32B, с той же квантизацией Q5_K_L (23.74GB). VRAM задействована полностью, с кешированием. Скорость вышла Token Speed: 0.88t/s, что грустновато.
  
  Интересно, что модель рассуждает по-английски, но затем легко отвечает по-русски.
  
  -- Расскажи про Минск
  
  -- <think> Alright，the user is asking me to tell them about Minsk. I should give a brief overview... </think>
  
  Минск – это столица Беларуси...

nikolz
29.01.2025 22:09
#27856112
DeepSeek-V3 можно развернуть локально с помощью следующего оборудования и программного обеспечения с открытым исходным кодом:
1. Демонстрация DeepSeek-Infer: мы предоставляем простую и лёгкую демонстрацию для вывода FP8 и BF16.
2. SGLang: полная поддержка модели DeepSeek-V3 в режимах BF16 и FP8, а также скоро появится поддержка многотокенного прогнозирования.
3. LMDeploy: обеспечивает эффективный вывод FP8 и BF16 для локального и облачного развёртывания.
4. TensorRT-LLM: В настоящее время поддерживает вывод в формате BF16 и квантование INT4/8, а поддержка FP8 появится в ближайшее время.
5. vLLM: поддержка модели DeepSeek-V3 с режимами FP8 и BF16 для тензорного параллелизма и конвейерного параллелизма.
6. Графический процессор AMD: позволяет запускать модель DeepSeek-V3 на графических процессорах AMD с помощью SGLang в режимах BF16 и FP8.
7. Huawei Ascend NPU: поддерживает работу DeepSeek-V3 на устройствах Huawei Ascend.
Поскольку в нашей платформе изначально используется обучение FP8, мы предоставляем только веса FP8. Если вам нужны веса BF16 для экспериментов, вы можете использовать предоставленный скрипт преобразования для выполнения преобразования.
https://github.com/deepseek-ai/DeepSeek-V3

Krypt
29.01.2025 22:09
#27856430
При всём уважении, статья на волне хайпа.
> Сейчас доступно 2 модели:
Все они доступны. То, что вы видите - это featured модели, а не доступные в принципе.
Просто наберите "R1 Distill" в поиск, или посмотрите модели вот этого пользователя:
https://huggingface.co/bartowski

Или, например, вот "abliterated" версия
https://huggingface.co/mradermacher/DeepSeek-R1-Distill-Llama-70B-abliterated-GGUF
Если вы хотите чтобы вам AI рассказывал матные частушки - вам нужна эта (модифицированная) версия.

И, главное, distill модели это не R1

denic2409
29.01.2025 22:09
#27856656
Инструкция уровня "а как какать?". Заходишь в плеймаркет и качаешь. Всё.

Wesha
29.01.2025 22:09
#27856760
китайскую нейросеть Дипсик

Уже который день замечаю этот заголовок в ленте краем глаза — и мозг читает как «нейросеть Дикпик».
1. Alexey2005
  29.01.2025 22:09
  #27858246
  Ничего не поделаешь, межушные нейросети тоже время от времени галлюцинируют. И как только количество галлюцинаций от искусственных нейронок удастся снизить до сравнимых величин (а это вряд ли займёт больше 5 лет), ИНС можно будет считать вполне детерминированными, не хуже живых нейронок.

georgiy08
29.01.2025 22:09
#27856830
Скачал модель DeepSeek R1 Distill (Qwen 7B). Ввел банальное "ку" (привет). Он подумал, что я имел ввиду "купить". Ладно. Ввел просто "Привет". Он опять предложил что-то типо "вы напишите, а я помогу вам приобрести товар" (или что-то в таком духе).

"Мне ничего не нужно покупать"

(Бот) "Хорошо"

"Привет"

(Бот) *Опять пишет что-то про товары

Либо неверно описание модели дано, либо это какой-то глобальный Скам про модель.
1. Finterio
  29.01.2025 22:09
  #27856942
  Можно сказать, скам в этой статье, а глобального скама нет. В статье под видом DeepSeek R1 (или DeepSeek V3, автор, разберитесь уже) предлагается у себя локально запустить слабую дистилированную модель. И нет ни одного предложения в статье о том, что это не настоящая R1, а также что она гораздо слабее R1. А данное уточнение необходимо, так как статья, судя по содержанию, ориентирована на новичков. И без этого уточнения неразбирающиеся люди будут введены в заблуждение — и вы является примером такого человека.

lomov_vas
29.01.2025 22:09
#27862454
>Как скачать
Хрен его знает, я даже зарегистрироваться не могу, чтобы пощупать, как вообще оно работает.
Капча от cloudflare тупо виснет и входит в цикл, не пуская до регистрации.