Как сделать локальное развертывание DeepSeek. Пошаговое руководство для разработчиков / forpes.ru

Главная
Как сделать локальное развертывание DeepSeek. Пошаговое руководство для разработчиков

Как сделать локальное развертывание DeepSeek. Пошаговое руководство для разработчиков -1

31.01.2025 08:53

NeyroEntuziast 15 11000 Источник

? Как произвести развертывание DeepSeek локально: Пошаговое руководство для разработчиков ?️

Вы хотите использовать возможности DeepSeek, передового ИИ-помощника по программированию, прямо на своем локальном компьютере? Независимо от того, создаете ли вы пользовательский рабочий ИИ-процесс или обеспечиваете конфиденциальность данных, самостоятельное развертывание DeepSeek открывает безграничные возможности. Давайте погрузимся в процесс развертывания.

Почему именно локальное развертывание?

Контроль за данными. Сохраняйте конфиденциальный код/проекты полностью в офлайн-режиме
Персонализация. Тонкая настройка моделей для вашего конкретного технологического стека (React, Vue, Python и т. д.)
Производительность. Устранение задержек API для генерации кода в режиме реального времени

Необходимые условия

Прежде чем приступить к работе, убедитесь, что ваша система соответствует этим требованиям:

Аппаратное обеспечение:

Процессор. x86-64 (требуется поддержка AVX2)
Оперативная память: ≥16 ГБ (для больших моделей рекомендуется 32 ГБ)
Накопитель: 50 ГБ+ свободного места на SSD

Программное обеспечение:

Docker 20.10+
Python 3.8+
Драйверы NVIDIA (если используется GPU-ускорение)

Краткое описание процесса установки

1. Клонируйте репозиторий

git clone https://github.com/deepseek-ai/local-runtime.git
cd local-runtime

Профессиональный совет: Используйте флаг --depth 1 для ускорения клонирования, если вам не нужна история коммитов.

2. Настройка переменных среды

Создайте файл .env:

# Model Configuration
MODEL_VERSION=deepseek-coder-33b-v2
GPU_ENABLED=true  # Set false for CPU-only mode

# Security Settings
API_KEY=your_secure_key_here ?
AUTH_DOMAIN=localhost:8080

3. Сборка контейнера Docker

docker compose build --build-arg MODEL=$MODEL_VERSION

⏳ Это может занять 20-60 минут в зависимости от вашей сети и оборудования.

4. Запуск службы

docker compose up -d

Убедитесь, что она запущена:

curl http://localhost:8080/healthcheck
# Expected response: {"status":"OK","version":"1.2.3"} ✅

5. Тест генерации кода

Отправьте тестовый запрос через cURL:

curl -X POST \
  -H "Authorization: Bearer your_secure_key_here" \
  -H "Content-Type: application/json" \
  -d '{"prompt":"Create a React form with Zod validation", "lang":"typescript"}' \
  http://localhost:8080/v1/generate

Вы должны увидеть структурированный код TypeScript с интеграцией Zod!

Советы по настройке

Тонкая настройка модели:

python tune_model.py - dataset ./your_custom_data.jsonl - epochs 3

Интеграция с IDE:Добавьте сниппет VS Code (.vscode/settings.json):

{
  "deepseek.endpoint": "http://localhost:8080",
  "deepseek.autoSuggest": true
}

Обслуживание и обновления

Обновление моделей:

docker compose down && git pull origin main
docker compose build - no-cache && docker compose up -d

Мониторинг ресурсов:

watch -n 5 'docker stats - format "{{.Name}}\t{{.CPUPerc}}\t{{.MemUsage}}"'

Устранение неполадок

Все готово для программирования

Теперь, когда DeepSeek работает в локальном режиме, попробуйте воспользоваться этими идеями:

Построение интеграции CI/CD конвейера ?.
Создание шаблонов для конкретных областей (FinTech, Healthcare и т.д.) ?
Сравнение производительности с облачным API ?

Комментарии (15)

Moog_Prodigy
31.01.2025 09:27
#27859106
33b? На реддите уже извратились до запуска 685b с маппингом на NVME SSD и 127 gb ОЗУ. Без видеокарт и монструозных материнок.
1. GnuriaN
  31.01.2025 09:27
  #27859174
  Дай пожалуйста ссылку, что бы не тратить время на поиски. Спасибо!
  1. Alex-Freeman
    31.01.2025 09:27
    #27859284
    Скорее всего имеется ввиду https://www.reddit.com/r/LocalLLaMA/comments/1idseqb/deepseek_r1_671b_over_2_toksec_without_gpu_on/
    
    Он использовал Gen 5 NVMe накопители. А оперативку (96Gb) только под кэш. Нужно посмотреть сколько она RAM жрет и попробовать засунуть все в оперативку вместо SSD, а кеш в ускоритель и посмотреть, что получится. Думаю раз в 10 будет быстрее
    
    dibu28
    31.01.2025 09:27
    #27866434
    Ram вроде на 512GB запускают тут в соседней статье на 2х Epic'ах.

microArt
31.01.2025 09:27
#27859352
А тут как сделали, интересно?

OpenAI's nightmare: Deepseek R1 on a Raspberry Pi.
https://www.youtube.com/watch?v=o1sN1lB76EA
1. dibu28
  31.01.2025 09:27
  #27866444
  Там дистилят запускают 14B параметров на основе Qwen, это не полная модель.

gfiopl8
31.01.2025 09:27
#27859978
Всё гораздо проще. Устанавливаете ollama (есть гуй для виндоуса), запускаете нужную модельку https://ollama.com/library/deepseek-coder:33b используете через openai совместимый интерфейс.
1. LF69ssop
  31.01.2025 09:27
  #27863656
  С этой оламой что-то не так.
  
  Запускаем ollama run deepseek-r1:1.5b и начинает какие-то смешные 1G качать бесконечно, вторые сутки пошли, занимательно то что ползунок прогресса то увеличивается то уменьшается, притом трафик показывает около 20Mbs.
  
  Никогда такого не видел. На компе с дебианом в хетцнере скачал со свистом, но там нет видеокарты. А на домашнюю убунту-24 такие вот фокусы.
  1. daroteya
    31.01.2025 09:27
    #27869182
    Тоже столкнулся с такой проблемой в начале, но олама тут не причём. Просто не нужно преключаться во время загрузки или если переключаешься то тыкни по окну powershell или нажми любую клавишу чтобы оно снова вернулось в повершел. Оно типо загружается на самом деле, просто в фоне или что то типо того

Alex-Freeman
31.01.2025 09:27
#27862792
Тут анонс платформы Gigabyte прошел (https://habr.com/ru/companies/hostkey/articles/878364/), с 48 сокетами под RAM и пропускной способностью 2,7 ГБ, это конечно раз в 10 медленнее ускорителей, но за счет того что модель будет лежать в одном месте, получается почти в два раза быстрее, чем на кластере из 32 штук 4090 и гораздо дешевле.
- GPU ( 32x RTX 4090):
  
  INT8: ~1–5 токенов в секунду.
  
  ---
  
  32x RTX 4090 - 48 000
  
  минимум 8 серверов по 4 карты минимум 24 000$
  
  ---
  
  ~72 000 $
  
  Если пересчитать с 12 * A6000, будет еще дороже
  
  Про 10 А100/H100 даже писать страшно, там уже полмиллиона+ будет и это для INT8, для FP16 умножаем примерно на 3) Будет конечно быстрее чем в оперативке)
- 1 ТБ RAM:
  
  FP16: Невозможно.
  
  INT8: 7–10 токенов в секунду.
- 3 ТБ RAM:
  
  FP16: 4 –7 токена в секунду.
  
  INT8: 14–20 токенов в секунду.
---

GIGABYTE R283-ZK0-AAL1 - 7 339,00 $

3 ТБ RAM - 15000 $
AMD EPYC 9274 - 2 * 2 255,00 $
---

~ 25000 - 26000

xaver
31.01.2025 09:27
#27863658
Чем vllm не устроил?

Wanderrer
31.01.2025 09:27
#27865422
https://github.com/deepseek-ai/local-runtime.git

Видимо уже убрали из public: fatal: repository 'https://github.com/deepseek-ai/local-runtime.git/' not found

serg3
31.01.2025 09:27
#27865460
fatal: репозиторий «git@github.com/deepseek-ai/local-runtime.git» не существует

serg3
31.01.2025 09:27
#27865698
ну так надо написать инструкцию для https://github.com/deepseek-ai/DeepSeek-V3

ScratchBoom
31.01.2025 09:27
#27870706
Устанавливал локально в docker deepseek-r1:7b

Тупой как пробка, даже не знает как зовут Пушкина - говорит Fyodor,