Дипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской нейросети у нее есть ряд интересных преимуществ.

В этой статье собрал все способы установки Дипсик. Т.к. китайская нейросеть с открытым исходным кодом – ее можно скачать на компьютер и использовать без Интернета. Причем, в удобном интерфейсе чат-бота.

1. Самый простой (но не всегда рабочий) способ: через сайт Deepseek

Переходим на официальный сайт chat.deepseek.com, регистрируемся и общаемся с чат ботом Дипсик прямо в браузере.

Важно: из-за большого количества атак на сервис у меня не получилось зарегистрироваться через форму регистрации. Однако без проблем прошла авторизация через Google аккаунт:

2. Мобильное приложение DeepSeek

Китайский Дипсик уже доступен в виде 2 приложений:

  1. Для Айфон скачиваем приложение Дипсик через App Store вот здесь.

  2. Для Андроид ссылка на мобильное приложение Дипсик доступна здесь.

Правда у меня страница в GooglePlay просто не открылась. Помогло такое решение:

  1. Переходим на официальный сайт Deepseek по этой ссылке: https://download.deepseek.com/app/ и нажимаем на ссылку View Android Download methods. Выбираем Alternative Download Methods:

  2. Скачиваем АПК Deepseek по кнопке Download APK File:

  3. После загрузки необходимо установить скаченный APK файл Deepseek. Если устройство пожалуется на невозможность установки приложений из неизвестных источников, необходимо разрешить установку из неизвестных источников:

Проблема в том, что Deepseek часто не работает по Интернету из-за огромного наплыва пользователей. Что делать, если Дипсик не открывается или не отвечает? Читаем дальше.

3. Для разработчиков: интеграция через API

Если вы хотите интегрировать Deepseek в свои проекты, можно использовать API. Стоимость всего $0.14 за миллион токенов (для сравнения: у OpenAI это $7.5).

Документация API доступна здесь: https://api-docs.deepseek.com/api/deepseek-api

4. Продвинутый способ: скачать Дипсик на компьютер

Самый интересный способ. Для начала ответ на вопрос: зачем устанавливать китайский Дипсик на компьютер?

  1. Работает без интернета: можно пользоваться чатботом в поездках.

  2. Работает стабильнее: нагрузка на веб-сервис Deepseek сейчас колоссальная, в результате чат бот часто просто не работает. Однако при локальной установке всю модель можно загрузить на компьютер и такой проблемы не будет.

  3. Конфиденциальность: Все данные при работе с моделью остаются у вас на компьютере. В Интернет ничего не уходит.

  4. Бесплатно: если в будущем Deepseek станет платным, установленная модель на компьютере продолжит работать бесплатно.

Посмотрим, как проще всего установить DeepSeek локально:

  1. Скачиваем LM Studio с их официального сайта (доступно для Windows, MacOS и Linux):

  2. Устанавливаем и запускаем LM Studio.

  3. Переходим в раздел Discover:

  4. Находим модели DeepSeek R1:

    Сейчас доступно 2 модели:

    • DeepSeek R1 Distill (Qwen 7B)

    • DeepSeek R1 Distill (Llama 8B)

    Я выбрал DeepSeek R1 Distill (Qwen 7B).

  5. Скачиваем выбранную модель (может занять от 10 минут до часа).

  6. После загрузки нажимаем Use in new chat.

  7. Готово! Можно общаться с DeepSeek даже без интернета

Системные требования: в описании моделей указано, что для работы требуется минимум 16 GB RAM, но у меня модель заработала и на 8 GB.

Кроме LM Studio устанавливать языковые модели локально позволяют сервисы jan.ai и openwebui.com, но мне эти способы показались менее удобными.

Напишите в комментариях, какой способ использования DeepSeek вы выбрали и почему? Если знаете другие рабочие способы, тоже укажите, будем добавлять в статью.

Комментарии (47)


  1. pavelvinner
    29.01.2025 22:09

    Пользуюсь через Ollama. через него тоже можно локально


    1. its_capitan
      29.01.2025 22:09

      аналогично через Ollama используем. Тоже совместим с openwebui


  1. Revertis
    29.01.2025 22:09

    Мда, эта модель такой бред пишет вместо кода на Расте :(


    1. PrinceKorwin
      29.01.2025 22:09

      DeepSeek Coder пробовали? На мои запросы по Rust отвечал не идеально, но вполне корректно.


      1. Revertis
        29.01.2025 22:09

        А она не доступна оффлайн?


        1. PrinceKorwin
          29.01.2025 22:09

          Доступна оффлайн. Ту же LM Studio можете использовать


    1. mitzury
      29.01.2025 22:09

      Смотря как задавать вопрос игру змейка на с++ пишет более менее нормально - играбельно. Но не без багов.


  1. letatel
    29.01.2025 22:09

    Адекватно работает 70B только , но даже с 4090 и 64 гб памяти в связке с ГПУ + ЦПУ тормозит жутко.


    1. Okeu
      29.01.2025 22:09

      это же llama или qwen просто обученная на синтетик аутпуте из DeepSeek R1, разве нет?


      1. fermentum
        29.01.2025 22:09

        Именно, на r/LocalLLaMA даже был крик души, что это qwen/лама дообученная, а не ДС.


  1. MasterIT75
    29.01.2025 22:09

    Спасибо.


  1. IlyaOsipov
    29.01.2025 22:09

    Несколько вопросов, подскажите пожалуйста:

    1. С каким количеством CPU сервер подойдёт, если не использовать GPU?

    2. Локальная версия, обладает такой же API как и на официальном сайте?

    3. Сколько места надо что скачать и установить локально модель?


    1. Barnaby
      29.01.2025 22:09

      1. Смотря на чем запустите, скорее всего везде есть openai compatible api

      1. Сомневаюсь что полноценную модель можно и имеет смысл запускать на cpu. Вот мелкая на r5 9600x например:

      Backend: koboldcpp_default.dll
      Layers: 0
      Model: DeepSeek-R1-Distill-Qwen-14B-Q4_K_S
      MaxCtx: 1024
      GenAmount: 100
      -----
      ProcessingTime: 37.509s
      ProcessingSpeed: 24.63T/s
      GenerationTime: 17.599s
      GenerationSpeed: 5.68T/s
      TotalTime: 55.108s


    1. Alien-agent
      29.01.2025 22:09

      Если говорить про полноценную модель (671B), то CPU а-ля Epyc 9684X + от 200 до 800 гигабайт RAM в зависимости от квантизации, и примерно 700 гигабайт на диске чисто для скачивания модели.


  1. Palesandr
    29.01.2025 22:09

    а можно установить локальную версию на локальный сервер и расшарить внутри сети для всех? ну через браузер открывать?

    PS. хотя у него и спрошу )


    1. Baton34
      29.01.2025 22:09

      Она про локальную установку себя ничего не знает.

      Зы: говорит что её данные последний раз обновлялись в октябре 2023.


      1. microArt
        29.01.2025 22:09

        Ого. Совпадение?

        Это мне ЧатГПТ выдал (через BotHub):
        На момент моего последнего обновления (октябрь 2023 года)...


    1. Stanislavvv
      29.01.2025 22:09

      ollama в помощь. Правда, это про доступ через api, а не вебморду, так что вебморду отдельно.


    1. fermentum
      29.01.2025 22:09

      LM-studio позволяет раздавать по локалке и вовне. Может и в headless режиме работать.


  1. DaneSoul
    29.01.2025 22:09

    Системные требования: в описании моделей указано, что для работы требуется минимум 16 GB RAM, но у меня модель заработала и на 8 GB.

    RAM или VRAM?
    Если это параметр оперативной памяти компьютера, то какая видеокарта при этом использовалась? Или запускали на CPU?


    1. riky
      29.01.2025 22:09

      Указанная автором модель весит 4.7гб поэтому будет работать от 6гб рам или врам. Оригинальная не урезанная версия весит почти 700гб. То есть тут модель 1% по весу. Сильно многого от нее не ждите. Что нибудь ответит и то хорошо.


  1. Mike_666
    29.01.2025 22:09

    Автор описывает запуск маленьких моделей дообученных на данных сгенерированных DeepSeek.
    А вот чтобы запустить сам DeepSeek вам понадобиться терабайт оперативной памяти чтобы просто как-то его завести и терабайтт видеопамяти чтобы пользоваться им комфортно.


    1. Alexey2005
      29.01.2025 22:09

      Вовсе нет.

      1. Это MoE, то есть каждый запрос обрабатывается лишь небольшой частью от всей гигантской сети (примерно на 32B параметров). В итоге "просто как-то завести" можно на довольно скромных объёмах памяти, закэшировав наиболее часто используемые блоки.

      2. Для этой модели уже придумали динамическую квантизацию, которая позволяет получать очень хорошие результаты с использованием всего 212 Гб весов.

      В итоге судя по отзывам с reddit'а модель (212Гб квантизация) успешно запускается на машине с 24 Гб VRAM и 128 Гб RAM, выдавая около 1 токена в секунду (плюс ещё порядка 4 минут на обработку начального промта с кэшированием).


      1. Balling
        29.01.2025 22:09

        "основу взята модель Deepseek v3, возможности которой схожи с ChatGPT."

        Всё же модели разные.

        Specifically, we use DeepSeek-V3-Base as the base model and employ GRPO (Shao et al., 2024) as the RL framework to improve model performance in reasoning


  1. lorc
    29.01.2025 22:09

    В какой момент на Хабре стали нормой эти ужасные SEOшные заголовки постов? Такое ощущение что я попал на сайт какого-то таблоида.

    "Для того чтобы запустить Дипсик, вам понадобится обычные китайский..."

    "Я ввел ЭТО в консоль и у меня заработал Youtube"

    "Только посмотрите что вытворяет этот джун в свободное от работы время"

    "Программисты были шокированы этим способ обойти замедление Youtube"


    1. Newbilius
      29.01.2025 22:09

      С появлением в штате оплачиваемых редакторов-новостников, на которых все и ориентируются.


  1. Shannon
    29.01.2025 22:09

    Сейчас доступно 2 модели: DeepSeek R1 Distill (Qwen 7B) DeepSeek R1 Distill (Llama 8B)

    R1 Distill - это взяли 800к ответов от настоящей R1 и зафайнтюнили на этих ответах Qwen2.5 и Llama3.1, и эти Distill модели будут вести себя не так как R1, а намного хуже.
    Настоящая R1 весит 700гб, в квантованном виде без особых потерь весит 400гб, в экстремально квантованном виде будет 131гб, и даже в таком виде она будет лучше чем любая R1-Distill.

    Запуск настоящей R1 локально возможен, так как там активных параметров всего 37B из 671B. Достаточно типичного объема памяти и быстрого nvme, чтобы подгружать активные параметры в память, но это скорее не для использования, а для теоретической возможности, так как модель много размышляет, и это всё очень медленно.

    В llama.cpp по умолчанию используется mmap, это значит файл модели мапится с диска на ram без реальной загрузки в память, и в момент когда нужны конкретные 37B из модели они будут загружены в память с диска - поэтому чем быстрее ssd, тем быстрее это будет работать. По сути запуск возможен просто с ssd, если у вас есть хотя бы 32гб памяти, чтобы вместить 37B активных параметров, которые в квантованном виде займут 20-25гб.

    Вот, запуск квантованной оригинальной DeepSeek-R1-UD-IQ1_S весом 131гб (динамическое квантование в 1.58 бит о котором уже написали выше, основные веса квантованы в 1.5 бита, а важные веса внимания оставлены в 4/6 бит).
    На 64гб ddr4 3600 на скорости 50гб/с и nvme на 1гб/с, скорость будет 0.3-0.25 t/s, дождаться пока модель закончит размышлять на простой вопрос в таком случае занимает 10 минут.

    Поэтому, если у вас быстрый nvme на 5гб/с и 64гб DDR5 работающей на 100гб/с, вы сможете добиться скоростей около 1 t/s, но только на очень маленьком контексте, и так как это размышляющая модель, то контекст очень быстро дойдет до тысяч токенов, и скорость будет в лучшем случае 0.5 t/s.

    Тут кто-то запускает на 96Gb DDR5 6800, 5 слоев выгружено на 3090 и быстрый nvme 990 pro
    Тут кто-то запускает на 96Gb DDR5 6800, 5 слоев выгружено на 3090 и быстрый nvme 990 pro

    Если у вас б/у эпик с 16 канальным DDR4, работающий на 400 гб/с, то вы получите 4 t/s на большом контексте, так как в такие эпики можно вместить до 1тб памяти. Сейчас такой эпик собрать дешевле чем купить одну 4090.

    Так что локальный запуск настоящей R1 это возможно, но не практично.


    1. Antra
      29.01.2025 22:09

      Круто!

      Правильно ли я понял, что речь о чисто CPU, вообще без GPU?

      Чисто теоретически интересно - если иметь комп с 1TB RAM, туда вполне влезет вся 600ГБ модель. Очень квантованная даже в 256GB влезет - вполне рядовой сервак.

      А что, если туда добавить 4090 c 24GB VRAM? Пусть себе из ОЗУ (RAM диск с файлом модели) подгружает нужное в VRAM. Это может ускорить до приемлемых результатов?


      1. ilih
        29.01.2025 22:09

        Не поможет.

        Скорость ответа (токенов в секунду) напрямую зависит от быстродействия памяти - для получения одного токена надо прочить все параметры модели, поэтому есть закономерность
        максимальная скорость = "скорость памяти в Гб/с" / "размер модели в Гб"
        Реальная скорость будет 70-75% от максимальной.
        То есть подгружать нужное в VRAM не поможет, потому загрузка будет зависеть от скорости RAM. Но в VRAM можно загрузить часть слоев модели, а остальные слои оставить в RAM, тогда скорость будет больше (чем больше загрузили в VRAM тем быстрее).

        Есть еще скорость обработки промпта (токенизация запроса пользователя, часто указывается как "время до первого токена"), она зависит от вычислительных мощностей и тут у видеокарт большое преимущество.


        1. Antra
          29.01.2025 22:09

          Я думал, что "В llama.cpp по умолчанию используется mmap, это значит файл модели мапится с диска на ram без реальной загрузки в память, и в момент когда нужны конкретные 37B из модели они будут загружены в память с диска" сработает и для VRAM. Мол относительно быстро будет загружать из обычной памяти в VRAM только необходимые кусочки модели (ибо не все 130GB нужны для каждого запроса).

          Ну нет так нет. Чисто спортивный интерес.


  1. Tomasina
    29.01.2025 22:09

    Нужна статья по интеграции по API, с примерами.


    1. microArt
      29.01.2025 22:09

      Очень нужна. Как ДипСик можно подключить к своему оборудованию.
      Настроить распознавание речи и озвучку ответов.


  1. kryvichh
    29.01.2025 22:09

    На GeForce RTX 3060 12GB запустил дистиллированную DeepSeek R1 Distill Qwen 14B, взял с квантизацией Q5_K_L (Uses Q8_0 for embed and output weights. High quality, recommended). Загружал через Jan.ai. Работает очень быстро, Token Speed: 32.41t/s. Вся модель грузится в VRAM.


    1. kryvichh
      29.01.2025 22:09

      Для сравнения попробовал также DeepSeek R1 Distill Qwen 32B, с той же квантизацией Q5_K_L (23.74GB). VRAM задействована полностью, с кешированием. Скорость вышла Token Speed: 0.88t/s, что грустновато.

      Интересно, что модель рассуждает по-английски, но затем легко отвечает по-русски.

      -- Расскажи про Минск

      -- <think> Alright,the user is asking me to tell them about Minsk. I should give a brief overview... </think>

      Минск – это столица Беларуси...