Дипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской нейросети у нее есть ряд интересных преимуществ.
В этой статье собрал все способы установки Дипсик. Т.к. китайская нейросеть с открытым исходным кодом – ее можно скачать на компьютер и использовать без Интернета. Причем, в удобном интерфейсе чат-бота.
1. Самый простой (но не всегда рабочий) способ: через сайт Deepseek
Переходим на официальный сайт chat.deepseek.com, регистрируемся и общаемся с чат ботом Дипсик прямо в браузере.
Важно: из-за большого количества атак на сервис у меня не получилось зарегистрироваться через форму регистрации. Однако без проблем прошла авторизация через Google аккаунт:
2. Мобильное приложение DeepSeek
Китайский Дипсик уже доступен в виде 2 приложений:
Для Айфон скачиваем приложение Дипсик через App Store вот здесь.
Для Андроид ссылка на мобильное приложение Дипсик доступна здесь.
Правда у меня страница в GooglePlay просто не открылась. Помогло такое решение:
-
Переходим на официальный сайт Deepseek по этой ссылке: https://download.deepseek.com/app/ и нажимаем на ссылку View Android Download methods. Выбираем Alternative Download Methods:
-
Скачиваем АПК Deepseek по кнопке Download APK File:
-
После загрузки необходимо установить скаченный APK файл Deepseek. Если устройство пожалуется на невозможность установки приложений из неизвестных источников, необходимо разрешить установку из неизвестных источников:
Проблема в том, что Deepseek часто не работает по Интернету из-за огромного наплыва пользователей. Что делать, если Дипсик не открывается или не отвечает? Читаем дальше.
3. Для разработчиков: интеграция через API
Если вы хотите интегрировать Deepseek в свои проекты, можно использовать API. Стоимость всего $0.14 за миллион токенов (для сравнения: у OpenAI это $7.5).
Документация API доступна здесь: https://api-docs.deepseek.com/api/deepseek-api
4. Продвинутый способ: скачать Дипсик на компьютер
Самый интересный способ. Для начала ответ на вопрос: зачем устанавливать китайский Дипсик на компьютер?
Работает без интернета: можно пользоваться чатботом в поездках.
Работает стабильнее: нагрузка на веб-сервис Deepseek сейчас колоссальная, в результате чат бот часто просто не работает. Однако при локальной установке всю модель можно загрузить на компьютер и такой проблемы не будет.
Конфиденциальность: Все данные при работе с моделью остаются у вас на компьютере. В Интернет ничего не уходит.
Бесплатно: если в будущем Deepseek станет платным, установленная модель на компьютере продолжит работать бесплатно.
Посмотрим, как проще всего установить DeepSeek локально:
-
Скачиваем LM Studio с их официального сайта (доступно для Windows, MacOS и Linux):
Устанавливаем и запускаем LM Studio.
-
Переходим в раздел Discover:
-
Находим модели DeepSeek R1:
Сейчас доступно 2 модели:
DeepSeek R1 Distill (Qwen 7B)
DeepSeek R1 Distill (Llama 8B)
Я выбрал DeepSeek R1 Distill (Qwen 7B).
Скачиваем выбранную модель (может занять от 10 минут до часа).
После загрузки нажимаем Use in new chat.
Готово! Можно общаться с DeepSeek даже без интернета
Системные требования: в описании моделей указано, что для работы требуется минимум 16 GB RAM, но у меня модель заработала и на 8 GB.
Кроме LM Studio устанавливать языковые модели локально позволяют сервисы jan.ai и openwebui.com, но мне эти способы показались менее удобными.
Напишите в комментариях, какой способ использования DeepSeek вы выбрали и почему? Если знаете другие рабочие способы, тоже укажите, будем добавлять в статью.
Комментарии (47)
Revertis
29.01.2025 22:09Мда, эта модель такой бред пишет вместо кода на Расте :(
PrinceKorwin
29.01.2025 22:09DeepSeek Coder пробовали? На мои запросы по Rust отвечал не идеально, но вполне корректно.
mitzury
29.01.2025 22:09Смотря как задавать вопрос игру змейка на с++ пишет более менее нормально - играбельно. Но не без багов.
letatel
29.01.2025 22:09Адекватно работает 70B только , но даже с 4090 и 64 гб памяти в связке с ГПУ + ЦПУ тормозит жутко.
Okeu
29.01.2025 22:09это же llama или qwen просто обученная на синтетик аутпуте из DeepSeek R1, разве нет?
fermentum
29.01.2025 22:09Именно, на r/LocalLLaMA даже был крик души, что это qwen/лама дообученная, а не ДС.
IlyaOsipov
29.01.2025 22:09Несколько вопросов, подскажите пожалуйста:
С каким количеством CPU сервер подойдёт, если не использовать GPU?
Локальная версия, обладает такой же API как и на официальном сайте?
Сколько места надо что скачать и установить локально модель?
Barnaby
29.01.2025 22:09Смотря на чем запустите, скорее всего везде есть openai compatible api
Сомневаюсь что полноценную модель можно и имеет смысл запускать на cpu. Вот мелкая на r5 9600x например:
Backend: koboldcpp_default.dll Layers: 0 Model: DeepSeek-R1-Distill-Qwen-14B-Q4_K_S MaxCtx: 1024 GenAmount: 100 ----- ProcessingTime: 37.509s ProcessingSpeed: 24.63T/s GenerationTime: 17.599s GenerationSpeed: 5.68T/s TotalTime: 55.108s
Alien-agent
29.01.2025 22:09Если говорить про полноценную модель (671B), то CPU а-ля Epyc 9684X + от 200 до 800 гигабайт RAM в зависимости от квантизации, и примерно 700 гигабайт на диске чисто для скачивания модели.
Palesandr
29.01.2025 22:09а можно установить локальную версию на локальный сервер и расшарить внутри сети для всех? ну через браузер открывать?
PS. хотя у него и спрошу )
Stanislavvv
29.01.2025 22:09ollama в помощь. Правда, это про доступ через api, а не вебморду, так что вебморду отдельно.
fermentum
29.01.2025 22:09LM-studio позволяет раздавать по локалке и вовне. Может и в headless режиме работать.
DaneSoul
29.01.2025 22:09Системные требования: в описании моделей указано, что для работы требуется минимум 16 GB RAM, но у меня модель заработала и на 8 GB.
RAM или VRAM?
Если это параметр оперативной памяти компьютера, то какая видеокарта при этом использовалась? Или запускали на CPU?riky
29.01.2025 22:09Указанная автором модель весит 4.7гб поэтому будет работать от 6гб рам или врам. Оригинальная не урезанная версия весит почти 700гб. То есть тут модель 1% по весу. Сильно многого от нее не ждите. Что нибудь ответит и то хорошо.
Mike_666
29.01.2025 22:09Автор описывает запуск маленьких моделей дообученных на данных сгенерированных DeepSeek.
А вот чтобы запустить сам DeepSeek вам понадобиться терабайт оперативной памяти чтобы просто как-то его завести и терабайтт видеопамяти чтобы пользоваться им комфортно.Alexey2005
29.01.2025 22:09Вовсе нет.
Это MoE, то есть каждый запрос обрабатывается лишь небольшой частью от всей гигантской сети (примерно на 32B параметров). В итоге "просто как-то завести" можно на довольно скромных объёмах памяти, закэшировав наиболее часто используемые блоки.
Для этой модели уже придумали динамическую квантизацию, которая позволяет получать очень хорошие результаты с использованием всего 212 Гб весов.
В итоге судя по отзывам с reddit'а модель (212Гб квантизация) успешно запускается на машине с 24 Гб VRAM и 128 Гб RAM, выдавая около 1 токена в секунду (плюс ещё порядка 4 минут на обработку начального промта с кэшированием).
Balling
29.01.2025 22:09"основу взята модель Deepseek v3, возможности которой схожи с ChatGPT."
Всё же модели разные.
Specifically, we use DeepSeek-V3-Base as the base model and employ GRPO (Shao et al., 2024) as the RL framework to improve model performance in reasoning
lorc
29.01.2025 22:09В какой момент на Хабре стали нормой эти ужасные SEOшные заголовки постов? Такое ощущение что я попал на сайт какого-то таблоида.
"Для того чтобы запустить Дипсик, вам понадобится обычные китайский..."
"Я ввел ЭТО в консоль и у меня заработал Youtube""Только посмотрите что вытворяет этот джун в свободное от работы время"
"Программисты были шокированы этим способ обойти замедление Youtube"
Newbilius
29.01.2025 22:09С появлением в штате оплачиваемых редакторов-новостников, на которых все и ориентируются.
Shannon
29.01.2025 22:09Сейчас доступно 2 модели: DeepSeek R1 Distill (Qwen 7B) DeepSeek R1 Distill (Llama 8B)
R1 Distill - это взяли 800к ответов от настоящей R1 и зафайнтюнили на этих ответах Qwen2.5 и Llama3.1, и эти Distill модели будут вести себя не так как R1, а намного хуже.
Настоящая R1 весит 700гб, в квантованном виде без особых потерь весит 400гб, в экстремально квантованном виде будет 131гб, и даже в таком виде она будет лучше чем любая R1-Distill.Запуск настоящей R1 локально возможен, так как там активных параметров всего 37B из 671B. Достаточно типичного объема памяти и быстрого nvme, чтобы подгружать активные параметры в память, но это скорее не для использования, а для теоретической возможности, так как модель много размышляет, и это всё очень медленно.
В llama.cpp по умолчанию используется mmap, это значит файл модели мапится с диска на ram без реальной загрузки в память, и в момент когда нужны конкретные 37B из модели они будут загружены в память с диска - поэтому чем быстрее ssd, тем быстрее это будет работать. По сути запуск возможен просто с ssd, если у вас есть хотя бы 32гб памяти, чтобы вместить 37B активных параметров, которые в квантованном виде займут 20-25гб.
Вот, запуск квантованной оригинальной DeepSeek-R1-UD-IQ1_S весом 131гб (динамическое квантование в 1.58 бит о котором уже написали выше, основные веса квантованы в 1.5 бита, а важные веса внимания оставлены в 4/6 бит).
На 64гб ddr4 3600 на скорости 50гб/с и nvme на 1гб/с, скорость будет 0.3-0.25 t/s, дождаться пока модель закончит размышлять на простой вопрос в таком случае занимает 10 минут.Поэтому, если у вас быстрый nvme на 5гб/с и 64гб DDR5 работающей на 100гб/с, вы сможете добиться скоростей около 1 t/s, но только на очень маленьком контексте, и так как это размышляющая модель, то контекст очень быстро дойдет до тысяч токенов, и скорость будет в лучшем случае 0.5 t/s.
Если у вас б/у эпик с 16 канальным DDR4, работающий на 400 гб/с, то вы получите 4 t/s на большом контексте, так как в такие эпики можно вместить до 1тб памяти. Сейчас такой эпик собрать дешевле чем купить одну 4090.
Так что локальный запуск настоящей R1 это возможно, но не практично.
Antra
29.01.2025 22:09Круто!
Правильно ли я понял, что речь о чисто CPU, вообще без GPU?
Чисто теоретически интересно - если иметь комп с 1TB RAM, туда вполне влезет вся 600ГБ модель. Очень квантованная даже в 256GB влезет - вполне рядовой сервак.
А что, если туда добавить 4090 c 24GB VRAM? Пусть себе из ОЗУ (RAM диск с файлом модели) подгружает нужное в VRAM. Это может ускорить до приемлемых результатов?
ilih
29.01.2025 22:09Не поможет.
Скорость ответа (токенов в секунду) напрямую зависит от быстродействия памяти - для получения одного токена надо прочить все параметры модели, поэтому есть закономерность
максимальная скорость = "скорость памяти в Гб/с" / "размер модели в Гб"
Реальная скорость будет 70-75% от максимальной.
То есть подгружать нужное в VRAM не поможет, потому загрузка будет зависеть от скорости RAM. Но в VRAM можно загрузить часть слоев модели, а остальные слои оставить в RAM, тогда скорость будет больше (чем больше загрузили в VRAM тем быстрее).Есть еще скорость обработки промпта (токенизация запроса пользователя, часто указывается как "время до первого токена"), она зависит от вычислительных мощностей и тут у видеокарт большое преимущество.
Antra
29.01.2025 22:09Я думал, что "В llama.cpp по умолчанию используется mmap, это значит файл модели мапится с диска на ram без реальной загрузки в память, и в момент когда нужны конкретные 37B из модели они будут загружены в память с диска" сработает и для VRAM. Мол относительно быстро будет загружать из обычной памяти в VRAM только необходимые кусочки модели (ибо не все 130GB нужны для каждого запроса).
Ну нет так нет. Чисто спортивный интерес.
kryvichh
29.01.2025 22:09На GeForce RTX 3060 12GB запустил дистиллированную DeepSeek R1 Distill Qwen 14B, взял с квантизацией Q5_K_L (Uses Q8_0 for embed and output weights. High quality, recommended). Загружал через Jan.ai. Работает очень быстро, Token Speed: 32.41t/s. Вся модель грузится в VRAM.
kryvichh
29.01.2025 22:09Для сравнения попробовал также DeepSeek R1 Distill Qwen 32B, с той же квантизацией Q5_K_L (23.74GB). VRAM задействована полностью, с кешированием. Скорость вышла Token Speed: 0.88t/s, что грустновато.
Интересно, что модель рассуждает по-английски, но затем легко отвечает по-русски.
-- Расскажи про Минск
-- <think> Alright,the user is asking me to tell them about Minsk. I should give a brief overview... </think>
Минск – это столица Беларуси...
pavelvinner
Пользуюсь через Ollama. через него тоже можно локально
its_capitan
аналогично через Ollama используем. Тоже совместим с openwebui