Быстрое локальное развертывание DeepSeek / forpes.ru

Главная
Быстрое локальное развертывание DeepSeek

Быстрое локальное развертывание DeepSeek +4

03.02.2025 13:49

AlexeyRybakov 15 14000 Источник

В этой статье я поделюсь опытом быстрого локального развертывания модели DeepSeek — решения, которое позволяет не зависеть от облачных сервисов, сохранять конфиденциальность данных и тонко настраивать модель под собственные задачи.

Зачем запускать DeepSeek локально?

Вы, возможно, задаетесь вопросам: зачем тратить время на локальное развертывание, если можно воспользоваться официальной версией? Вот несколько причин:

Безопасность. При работе с конфиденциальными данными или коммерческой тайной лучше не передавать их сторонним сервисам.
Гибкость разработки. Локальный запуск дает возможность модифицировать модель, дообучать ее или интегрировать в собственное приложение без дополнительных затрат на API.
Приватность. Полный контроль над системой позволяет обеспечить высокий уровень защиты и конфиденциальности ваших данных.

Способ №1: развертывание через ollama

Официальный сайт: https://ollama.com/

Установка:
Скачайте установочный пакет ollama и запустите его двойным кликом. После этого нажмите кнопку install — установка пройдет автоматически.

2. Проверка установки:

Откройте командную строку (cmd) и введите: ollama

Если в терминале вы видите подробный вывод, значит, всё прошло успешно. В противном случае стоит проверить шаги установки или обратиться к документации.

3. Поиск и запуск модели:

Перейдите на официальный сайт ollama и введите в поиске ключевое слово: deepseek-r1

① – название модели.

② – укажите объем памяти, который планируете выделить под модель. Чем модель больше, тем выше качество, но и требования к видеопамяти соответственно возрастают. Для начала рекомендую попробовать версию 1.5b.

③ – после выбора модели вам будет предоставлена команда для запуска. Скопируйте ее и выполните в командной строке: ollama run deepseek-r1:1.5b

При первом запуске модель начнет загрузку, после чего появится сообщение success, и вы сможете вводить запросы в интерактивном режиме.

5. Удаление модели:
Чтобы удалить установленную модель, выполните следующие действия:

Просмотрите список развернутых моделей: ollama list

Выполните команду удаления: ollama rm deepseek-r1:14b

Важно: Убедитесь, что имя модели соответствует актуальной.

Способ №2: использование расширения для Chrome

Если вам привычнее работать через браузер, воспользуйтесь расширением, которое интегрируется с локальной моделью.

1. Установка расширения

Откройте Google Chrome и перейдите по ссылке: https://chromewebstore.google.com/detail/page-assist-%E6%9C%AC%E5%9C%B0-ai-%E6%A8%A1%E5%9E%8B%E7%9A%84-web/jfgfiigpkhlkbnfnbobbkinehhfdhndo?hl=zh-CN&utm_source=ext_sidebar

2. Убедитесь, что модель DeepSeek уже настроена через ollama (см. способ №1).

3. Нажмите кнопку «Добавить в Chrome».

2. Запуск расширения

После установки расширение появится в списке установленных компонентов Chrome. Для его запуска:

Перейдите по адресу: chrome://extensions/.
Используйте удобные горячие клавиши:
- Ctrl+Shift+Y — для вызова боковой панели.
- Ctrl+Shift+L — для открытия окна чата.

3. Локализация интерфейса:

В настройках расширения Page Assist выберите русский язык для локализации.
В окне чата выберите нужную модель (убедитесь, что модель из ollama запущена).
Теперь можно отправлять запросы и работать с DeepSeek прямо из браузера.

Пример запроса в расширении. screenshot omega

Распространенная проблема и решение

Проблема:

Error: llama runner process has terminated: error loading model: unable to allocate CUDA_Host buffer

Причина: Недостаточно видеопамяти на вашем устройстве.

Решения:

Попробуйте запустить модель меньшего размера.
Используйте режим CPU при запуске (скорость работы может снизиться):

ollama run deepseek-r1:7b --cpu

Локальное развертывание DeepSeek с помощью ollama или расширения для Chrome — отличный способ обеспечить безопасность, гибкость и приватность работы с большой языковой моделью. Оба метода позволяют быстро настроить систему под ваши нужды без обращения к дорогостоящим API.

Комментарии (15)

Deslowter
03.02.2025 14:28
#27874224
Как по мне, у этой локальной модели есть минус. Вот, к примеру, я развернул модель сугубо для подсказок в ИТ-деятельности, но часть обучения в ней занимают совершенно не используемые части. Она отвечает, знает огромное количество рецептов кулинарных или исторических событий, но на практике это совсем не нужно. Было бы куда практичнее иметь сугубо ИТ-модель, которая будет сильна только в этом, без траты ресурсов на что-то другое.
А для кулинарии или истории к примеру другие модели узкоспециальные.
1. SlavikF
  03.02.2025 14:28
  #27874276
  Такие "IT-модели" есть:
  
  https://ollama.com/library/qwen2.5-coder
  
  А ещё, разработчики Ollama подложили всем свинью, назвав distilled модели - DeepSeek R1. А автор за ними это повторяет в статье.
  
  deepseek-r1:14b - мало что общего имеет с настоящим DeepSeek R1. Это просто distill от Qwen модели.
  
  Настоящий DeepSeek R1 - это 671b, который может быть в разных вариантах квантизации, но не бывает 14b, 32b, 70b ...
  1. AlexKarpachev
    03.02.2025 14:28
    #27876046
    Написано "Для начала рекомендую 1,5". Можете установить 70 )
    
    DeepSeek-R1-Distill-Llama-70B
    ollama run deepseek-r1:70b
    
    Есть и
    
    ollama run deepseek-r1:671b
    
    Но куда Вам столько..

Wesha
03.02.2025 14:28
#27874698
XX век: идут дискуссии, как не дать ИИ «сбежать» из лаборатории.
XXI век: идут дискуссии, как лучше установить ИИ себе на компьютер.
1. AlexKarpachev
  03.02.2025 14:28
  #27876054
  )) это просто новый софт.. некому там, пока, бежать.. А вот к чему привести может.. К примеру к распределительной нейронке, когда мощности наших компьютеров будут работать совместно на общие запросы..
  1. Graf_NameLess
    03.02.2025 14:28
    #27885912
    Хм, как блокчейн) А потом на этом сделают новый биткоин и начнутся новые скупки видях для майнинга через ИИ Х)
    
    AlexKarpachev
    03.02.2025 14:28
    #27886124
    Да, авна конечно подложили геймерам, да всем подложил! С таким кривым принципом "добычи ноликов и единиц", мирную энергию девать больше некуда ведь, во всем мире!))

tkovacs
03.02.2025 14:28
#27874716
Это все ни разу не сравнить с тем, что на официальном сайте в чате)
1. Moog_Prodigy
  03.02.2025 14:28
  #27875428
  Я запустил deepseek через lmstudio. Моделька 137b (квантованный оригинал IQ1_S). На CPU, 32G RAM. Через mmap эмулирует недостающую оперативку с использованием nvme ssd. 700b моделька таким образом тоже будет работать. Износа ssd при таком использовании нет - все операции только на чтение, но желательно их параллелить для скорости.
  
  Какой результат? Один токен в 7 секунд, это напоминает бокс по переписке. Впрочем это - не про общение с ней, а про возможность запуска. Кстати качество уже сильно напоминает оригинал. Различные автоматизации через api позволят ее использовать даже в таком режиме, если не требуется скорость.

alex-khv
03.02.2025 14:28
#27876176
Как же вы заманали с этими дистилятами.

Ascard
03.02.2025 14:28
#27876842
А кто-нибудь знает как её на oobabooga запустить?

iximy
03.02.2025 14:28
#27881494
Ставил локально r1:7B модель, тестировал под Q&A RAG, в довольно простых запросах модель щедро разбавляла русскоязычной текст, английским и китайским, та же llama3 справляется с русскоязычной генерацией намного лучше

darkofficial
03.02.2025 14:28
#27881520
А как добавить возможность работать с любыми файлами, а не только с картинками? обычно требуются таблицы и текстовые файлы

DorianKon
03.02.2025 14:28
#27884272
Почему никто сразу не пишет характеристики компьютера для этой всей фигни?
1. GennPen
  03.02.2025 14:28
  #27886326
  Да потому что у всех llm ограничение одно, это количество (видео)памяти. Хочешь чтобы быстрей отвечал - ставь производительней (видео)процессор.