Давеча наткнулся в экс-Твиттере на интересный тред (https://x.com/carrigmat/status/1884244369907278106?s=52) о том, как запустить самую мощную (на сегодня) ИИ reasoning модель DeepSeek-R1 прямо у себя под столом.
DeepSeek-R1 — это одна из топовых моделей (из Китая), наделавших много шума (и не только), для задач логики, математики и программирования. Она настолько умная, что может (с некоторыми оговорками) "конкурировать" с решениями от OpenAI, но при этом её можно запустить локально, без интернета, без смс и полностью контролировать весь процесс.
Почему это круто?
* все данные остаются с вами, никакие сторонние сервисы не получат доступ к вашим запросам.
* запуск на своём железе избавляет от затрат на облачные сервисы.
* модель способна решать сложные задачи и выдавать результаты на уровне профессионалов.
В статье я расскажу:
* какое оборудование нужно для запуска DeepSeek-R1.
* чем локальный запуск отличается от серверного.
* какие возможности открывает эта модель и как она может быть полезна.
* как сохранить безопасность и приватность при работе с ИИ.
В этом мануале описано, как настроить локальный запуск модели DeepSeek-R1 Q8, сохраняя максимальное качество и производительность без дистилляции или уменьшенной квантизации. Общая стоимость сборки составит около ~$6,000, и ниже приведены все необходимые ссылки на компоненты и инструкции.
Требования к оборудованию
Для запуска DeepSeek-R1 (размер модели — 650 ГБ) с Q8 квантизацией система должна быть ориентирована на объем памяти, пропускную способность и возможности процессора.
Ссылки взяты так же с треда, аналоги думаю можно поискать на сайтах дэнээсов, ситилинков.
Вот подробный список:
1. Материнская плата
Модель: Gigabyte MZ73-LM0 или MZ73-LM1
Причина: Эти материнские платы поддерживают два сокета AMD EPYC, что позволяет использовать 24 канала DDR5 памяти, максимально увеличивая объем и пропускную способность.
? Материнская плата Gigabyte MZ73-LM0 или MZ73-LM1
2. Процессоры (CPU)
AMD EPYC 5th Gen 9005 Series (Sixteen-Core) 16 Core - Model 9115 AMD - EPYC - Processor / Number: 9115 - Processor / Clock Speed: 2.6 - Total Threads: 32 - Socket SP5 - L3 Cache - 64MB Memory - OEM
Модель: 2x AMD EPYC 9004 или 9005 (например, EPYC 9115 или 9015 для экономии).
Почему: Инференс больших языковых моделей (LLM) ограничен пропускной способностью памяти, а не мощностью процессора. Бюджетные модели, такие как 9115 или 9015, вполне подходят для этой задачи.
3. Оперативная память (RAM)
Требование: Всего 768 ГБ через 24 канала DDR5 RDIMM.
Конфигурация: Используйте 24 модуля по 32 ГБ DDR5 RDIMM для максимальной пропускной способности памяти.
-
Примеры:
4. Корпус
Модель: Enthoo Pro 2 Server Edition (или аналогичный).
Почему: Убедитесь, что корпус совместим с серверными материнскими платами и предоставляет достаточно места для охлаждения.
? Корпус Phanteks Enthoo Pro 2 Server Edition
5. Блок питания (PSU)
Модель: Corsair HX1000i (1000Вт, полностью модульный).
Почему: Этот блок питания обеспечивает достаточную мощность для двух процессоров и включает все необходимые кабели питания.
6. Система охлаждения
Модель: Совместимый с сокетом SP5 кулер для AMD EPYC.
-
Рекомендация:
Дополнительные вентиляторы: Замените вентиляторы кулера на Noctua NF-A12x25 PWM для более тихой работы.
7. SSD
Требование: 1 ТБ (или больше) NVMe SSD.
Почему: Быстрые накопители необходимы для загрузки 700 ГБ весов модели в оперативную память.
Настройка ПО
После сборки оборудования нужно настроить программное обеспечение для локального запуска DeepSeek-R1 Q8.
1. Установка llama.cpp
llama.cpp — это фреймворк для инференса LLM, таких как DeepSeek-R1, локально.
Инструкция: Следуйте руководству в репозитории GitHub.
2. Скачивание модели DeepSeek-R1
Размер модели: 650 ГБ (Q8 квантизация).
Источник: Hugging Face.
Скачивание: Скачайте все файлы из папки Q8_0.
3. Запуск модели
Используйте следующую команду для тестирования:
llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf --temp 0.6 -no-cnv -c 16384 -p "<|User|>How many Rs are there in strawberry?<|Assistant|>"
Ожидаемый результат: Ответ модели в режиме реального времени, демонстрирующий её возможности.
Производительность и улучшения
Производительность
Скорость генерации: 6-8 токенов в секунду в зависимости от процессора и скорости памяти.
Длина контекста: При 768 ГБ ОЗУ можно достичь 100,000 токенов длины контекста.
Использование GPU (опционально)
-
Для ускорения генерации можно использовать GPU. Однако:
Q8 квантизация: Требуется 700 ГБ видеопамяти, что стоит ~$100,000.
Частичная загрузка: Можно загрузить часть модели (например, 300 ГБ) на GPU для ускорения инференса, всё что ниже 300 гб, не даст особого буста по отношению к кпу сетапу.
Итоговая стоимость
itog
С этой сборкой вы сможете запускать DeepSeek-R1 Q8 локально, достигая передовой производительности LLM без использования внешних серверов или GPU. Система оптимизирована для пропускной способности памяти и объёма, что гарантирует плавную и эффективную работу даже с самыми крупными моделями.
И по классике мой канал в тгшечке, для тех, кому интересно.
Комментарии (44)
mxr
30.01.2025 06:49Запускал сегодня huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated на ollama с GPU в docker, интерфейс через open-webui. Около 3-4 токенов/сек на r9 5900x с rtx 2070s.
Поиграться Интересная модель для тестирования, но работает удовлетворительно лишь на английском, вероятно, из-за своего размера. Жаль, что в статье нет практических тестов — только пересказ теории из Twitter.
Идея для вас, автор: я тратить деньги не планирую, но ради статьи вы могли бы протестировать полноразмерную модель на 8xH100 от Nvidia. У DigitalOcean есть неплохое предложение ~$23/час.
А если серьезно, то с учетом стоимости API экономический смысл локального запуска модели для большинства задач отсутствует. Единственное, что действительно вызывает беспокойство, — их подход к безопасности. Судя по всему, сервисы они разрабатывают при помощи собственной AI модели.
P.S. В видео, в отличие от оригинала из Twitter, практически ничего не разобрать.took_the_lead Автор
30.01.2025 06:49Спасибо за дельный комментарий, видео перезалил на вимео. Всё же дистиль и оригинальная ризонинг модель это разные вещи. Я достаточно тестировал эту модель еще до хайпа на сайте chat.deepseek.com и на poe.com. В посте по этому "конкурировать" с решениями от OpenAI взято в кавычки. Использую в основном в кодинге, как альтернативное OpenAI o1 мнение - хороший кейс. Экономический смысл есть, с учетом последних кейсов их утечки всех чатов https://habr.com/ru/news/877806/.
gun_dose
30.01.2025 06:49Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)
Статью не читал, но за заголовок спасибо. А то уже натыкался на что-то вроде "Как запустить Dick Sick локально на своём компьютере", а потом оказывается, что на моём ноуте, которого для работы хватает выше крыши, можно запустить только самую усечённую версию, и ждать ответов по несколько минут.
melodictsk
30.01.2025 06:49Все же выгрузка части слоев на гпу даёт пропорциональный буст. В эту сборку уже не будет смысла ставить р40, т. к псп врам 350 гб/с, что сопоставимо со скоростью озу. Но вот 3090 даёт под терабайт/с. И соответственно выгруженные слои будут шевелиться в 3 раза быстрее.
took_the_lead Автор
30.01.2025 06:49Судя по всему нужно пропорционально делить нагрузку при инференсе, а в текущем случае даже х2 4090 скорее всего не дадут практически никакой пользы при таких соотношениях. Ускорение будет зависеть от того, насколько эффективно llama.cpp распределяет работу между CPU и GPU. Если большая часть модели остаётся в RAM, то прирост будет скромным.
CBET_TbMbI
30.01.2025 06:49А автор сам проверял?
Я не уверен, но слышал, что хоть запустить на обычной оперативке и процессоре можно, но работать будет на порядок медленнее.
took_the_lead Автор
30.01.2025 06:49Автор к сожалению сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагает. Но автор запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.
mithdradates
30.01.2025 06:49Все верно, даже при пустом контексте будет скорость в 1-2 токена в секунду.
AndreyDmitriev
30.01.2025 06:49У меня под столом есть вот такая машинка, на Хeon 6132 c WX9100 (там 16 ГБ всего):
768 ГБ памяти, вот бенчмарк:
По дискам там четыре NVMe SSD терабайтных, вот такие, их можно в рейд объединить:
Имеет смысл сделать подход к снаряду на таком железе, или эта конфигурация слабовата?
Moog_Prodigy
30.01.2025 06:49Имеет смысл, у вас железо есть, скачать и настроить это не очень сложно. Зато хоть реальный отзыв будет с замерами скорости.
AndreyDmitriev
30.01.2025 06:49ОК, я глянул инструкцию по сборке, там вроде из Visual Studio 2022 собрать всё можно, даже операционку переставлять не придётся, сейчас там десятка. "просто" не всегда бывает, я в конце прошлого года упражнялся с FastSD CPU, напрыгался с версиями знатно. Ладно, попробую выкачать это дело на выходных, на работе мне 503 прилетает:
D:\DeepSeek\DeepSeek-R1-GGUF>git sparse-checkout set --no-cone /DeepSeek-R1-Q8_0
Downloading DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (48 GB)
Error downloading object: DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (8917f4d): Smudge error: Error downloading DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (...): Fatal error: Server error: https://cdn-lfs-us-1.hf.co/repos... HTTP 503nerzhul
30.01.2025 06:49Вам не нужно ничего собирать руками. Советую скачать тул LM Studio в котором все делается через gui в том числе и скачивание любых моделей с hugging face. В нем же реализована загрузка бэкендов, проверка совместимости, куча ручек для управления настройками и т д. Консольный решим тоже есть
AndreyDmitriev
30.01.2025 06:49Спасибо огромное, посмотрю тоже, ни разу не пользовался.
Конкретно для скачивания моделей не сильно помогает, так как у меня очень злобный админ:
Да и формально, для использования на работе там надо форму заполнить. Но дома гляну. Собрать руками тоже попробую, я в общих чертах понимаю как это работает, а вот детально в код никогда не заглядывал.
CBET_TbMbI
30.01.2025 06:49https://habr.com/ru/articles/876320/ вот тут есть инструкция, правда через другой инструмент. Возможно, поможет.
У вас на скрине вроде бы урезанная версия.
AndreyDmitriev
30.01.2025 06:49Там Ollama, этот проект вроде как основан на llama.cpp. Кстати, я посмотрел, в релизах llama.cpp тоже есть билд под Windows (по посту выше я думал там только исходники), причём собранный в разных конфигурациях, типа AVX2 или AVX512, так что собирать ничего и не нужно (я в обеденный перерыв попробовал навскидку, с полпинка не завелось, cmake сыпет ошибками). В первом приближении надо просто посмотреть. что можно получить на машинке, что у меня есть, надо только модель скачать.
cool8
30.01.2025 06:49Вот здесь ещё хорошие ребята хорошо пожали оригинал, и расписали, как запускать. https://unsloth.ai/blog/deepseekr1-dynamic
nerzhul
30.01.2025 06:49Конкретно полный deepseek я не ставил, т.к. некуда, но дистиллированные модели гоняю в LM Studio давно уже. Я этот комментарий оставил больше для того чтобы указать что есть кроссплатформенный удобный инструмент для запуска различных моделей, в котором уже позаботились о всех инфраструктурных проблемах типа выбрать бэкенд, скачать его, скачать модель, выбрать нужный бэкенд и т.д. плюс есть сразу чат, куча крутилок для настройки, возможность работы по апи
evgensoft
30.01.2025 06:49можно просто скачать готовый бинарник из релизов llama - https://github.com/ggerganov/llama.cpp/releases
и скачать саму модель по вкусу - https://huggingface.co/models?library=gguf&sort=trending
и запустить llama-server -m НАЗВАНИЕ_ФАЙЛА_МОДЕЛИ.gguf - по адресу http://127.0.0.1:8080/ запускается интерфейс отдаленно похожий на ChatGPT - можно пообщаться с моделью
3aBulon
30.01.2025 06:49И статью написать практическую, именно мануал, как что когда и почему.
AndreyDmitriev
30.01.2025 06:49Да, конечно, я задокоментирую все шаги и грабли на которые наступлю. Напишу (если паззл сложится, либо до меня кто-нибудь не напишет).
capfsb
30.01.2025 06:49Если не будете писать статью, отпишитесь тут пожалуйста что в итоге получилось, очень интересно тоже!
SlavikF
30.01.2025 06:49У меня 2 * Xeon Gold 5218.
Каждый из этих процессоров поддерживает 6 каналов памяти. Я поставил 12 * 64GB DDR4-2666. Получилось 768GB RAM.
Запустил DeepSeek V3 q4_K_M. Это 404GB модель + контекст.
Получил около 2 токенов в секунду:
- response_token/s: 1.9
- prompt_token/s: 3.8 - 5
Работает. Но с такой скоростью оно не надо.
У меня есть Nvidia RTX 3090. Я её добавил, на неё сгрузилось 2 слоя. Быстрее не стало. Всего в модели - 62 слоя.
Ravius
30.01.2025 06:49Там ещё контекст если будет большим - то вообще забей. На реддите тоже все уже сделали. CpU - слишком медленный, а самое худшее - он генерирует "мысли", а не ответ. Ответа фиг дождёшься. Если бы сразу ответ с 2 токена в секунду- медленно, но можно прикольные штуки придумать.
SlavikF
30.01.2025 06:49Да, DeepSeek R1 "мыслит".
А вот DeepSeek V3 - "мысли не генерирует", сразу даёт ответ.
MrCrooK
30.01.2025 06:49А как насчёт того , что для модели завялено только 37 миллиард активных параметров из всех 670. Это разве не означает , что для работы запуска на gpu будет достаточно чуть больше 40 гиг vram? Или это как то иначе работает?
took_the_lead Автор
30.01.2025 06:49Не означает, 37 млрд активных параметров означает что работает одновременно только часть экспертов, при этом вся модель должна быть в памяти.
Ritan
30.01.2025 06:49Интересно, возможно ли как-то в процессе запроса определить какая часть нужна и предварительно загрузить её в память. Теоретически могло бы позволить запускать с приличной скоростью гораздо бОльшие модели
Vcoderlab
30.01.2025 06:49всё что ниже 300 гб, не даст особого буста по отношению к кпу сетапу
Судя по "кпу сетапу", это либо машинный перевод, либо статья и вовсе сгенерирована нейросеткой. Но в любом случае текст не вычитан перед отправкой. что есть неуважение к читателям.
Swordman85
30.01.2025 06:496к, конечно не 100к, но это явно не для всех. Притом даже на этой сборке работать будет не так быстро. Нишевое решение исключительно того кто итак знает зачем ему это нужно.
zandernachtsohn
30.01.2025 06:49Сперва реклама блока питания с выводом "собран качественно, но проводов в комплекте нет", теперь вот это вот.
Может вместе с хабр фрилансом еще и сам хабр закроете, пусть останется в памяти чем-то стоящим, а не рекламной площадкой телеграмм-каналов.
SlavikF
30.01.2025 06:492 процессора - это зря.
Для LLM - 1 процессор работает лучше, чем 2.
Потому что скорость инференции определяется только скоростью памяти. И если модель загружена в память первого процессора, а код запущен - на втором процессоре, то модель будет передаваться через NUMA, скорость которого - 10%-40% от скорость памяти.
Oldju
30.01.2025 06:49Плюс поставить не могу. Извини. Есть все шансы, что там все загрузится куда попало. Если специально софт не написан под многопроцессорные системы. И вся эта хубала будет тормозить от перекрестных запросов на все деньги :).
Oldju
30.01.2025 06:49Хоспаде. Человек не знает, что в двухпроцессорных системах при обращении одного процессора к памяти на канале другого процессора идёт задержка. И весь этот конфиг может жутко тормозить при перекрестных запросах при всех забитых слотах памяти и полной загрузке. Поржал. Спасибо. Особенно если софт не оптимизирован на многопроцессорные системы. В ИИ же после работы в такси и двухмесячных курсов вкатиться можно :).
Для мамкиных сисадминов (или ИИ специалистов, я не знаю, как сейчас модно:)). Один проц. И смотрите в сторону адаптеров NVME для слотов PCI-E. Больше шансов что система не будет глухо тормозить при полной загрузке.
sirmax123
Это называетс теперь "туториал" ????
Аффтар (простите как его еще назвать?) не сделал ничего кроме как надергал картинок из интернета, как кто-то друго собирал (а может и не собирал?) железо ...
Звчем эта "статья" вообще?
Ах да, телеграманал ...
took_the_lead Автор
Туториал в моём понимании это ёмкий набор информации, приносящий сугубо практическую пользу. В данном случае предлагается собрать локальный сервер и гонять около SOTA модель локально. Без лишней воды. Может можете показать пример эталонного туториала, написанного Ваши лично? Нет? Ах да, вы же не писали никогда ни одной статьи, но много комментируете, молодец!
sirmax123
>Ах да, вы же не писали никогда ни одной статьи
Конечно, лучше жевать чем писать такие статьи, да и телеграмканала у меня нет, нечего рекламировать
А что бы отличать плохие статьи от хороших, мне не нужно писать свои
>Туториал в моём понимании это ёмкий набор информации, приносящий сугубо практическую пользу. В данном случае предлагается собрать локальный сервер и гонять около SOTA модель локально. Без лишней воды.
Этот, прости гпоспАди, "туториал" имел бы смысл если б Вы сами собрали сервер и поделились сложностми которые возникли ) Но Вы этого конечно не сделали, я уверен даже не проверили совместимость комплектующих, просто перепечатали из оригинального поста (я его не читал - там надо регестрироватьсяа мне уже который год лениво)
Ну а вопросы "почему такая железка выбрана а не другая" заботливо оставлены на самостоятельнуж проработку ) "Туториал", блин )
took_the_lead Автор
Идея была в том, чтобы оперативно донести до сообщества свежую (полезную) информацию из зарубежных источников. Наливать воды для повышения плотности поста, простите, нет желания. Что касается самому собрать сервер - для моих задач пока этого не требуется, хотя идея интересная была бы в практическом аспекте в том числе. Донесена основная идея о том, что можно запустить СОТА модель без ГПУ, за счет многопоточности и большущей РАМ. На оригинальность не претендую.
Tantacula
Так вы не собрали что ли этот сервер? Это как зарелизить фичу не протестировав ее. Как вы убедились в достоверности вашего "туториала"?
took_the_lead Автор
Данную сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагаю. Но запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, той же llama.cpp и всё хорошо работало, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.
zandernachtsohn
Смиритесь, таково будущее загнивающего хабра. Ниочемные статейки, которые раньше даже на гиктаймсе бы заминусовали, бесконечная реклама телеграмм-каналов и медленная и мучительная смерть.