Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$) / forpes.ru

Главная
Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$) +13

30.01.2025 06:09

took_the_lead 57 29000 Источник

тут не будет сгенерированных ИИшечкой картинок, пеинт рулит :)

Давеча наткнулся в экс-~~Твиттере~~ на интересный тред (https://x.com/carrigmat/status/1884244369907278106?s=52) о том, как запустить самую мощную (на сегодня) ИИ reasoning модель DeepSeek-R1 прямо у себя под столом.

DeepSeek-R1 — это одна из топовых моделей (из Китая), наделавших много шума (и не только), для задач логики, математики и программирования. Она настолько умная, что может (с некоторыми оговорками) "конкурировать" с решениями от OpenAI, но при этом её можно запустить локально, без интернета, ~~без смс~~ и полностью контролировать весь процесс.

Почему это круто?
* все данные остаются с вами, никакие сторонние сервисы не получат доступ к вашим запросам.
* запуск на своём железе избавляет от затрат на облачные сервисы.
* модель способна решать сложные задачи и выдавать результаты на уровне профессионалов.

В статье я расскажу:
* какое оборудование нужно для запуска DeepSeek-R1.
* чем локальный запуск отличается от серверного.
* какие возможности открывает эта модель и как она может быть полезна.
* как сохранить безопасность и приватность при работе с ИИ.

В этом мануале описано, как настроить локальный запуск модели DeepSeek-R1 Q8, сохраняя максимальное качество и производительность без дистилляции или уменьшенной квантизации. Общая стоимость сборки составит около ~$6,000, и ниже приведены все необходимые ссылки на компоненты и инструкции.

Требования к оборудованию

Для запуска DeepSeek-R1 (размер модели — 650 ГБ) с Q8 квантизацией система должна быть ориентирована на объем памяти, пропускную способность и возможности процессора.

Ссылки взяты так же с треда, аналоги думаю можно поискать на сайтах дэнээсов, ситилинков.

Вот подробный список:

1. Материнская плата

Модель: Gigabyte MZ73-LM0 или MZ73-LM1
Причина: Эти материнские платы поддерживают два сокета AMD EPYC, что позволяет использовать 24 канала DDR5 памяти, максимально увеличивая объем и пропускную способность.

? Материнская плата Gigabyte MZ73-LM0 или MZ73-LM1

2. Процессоры (CPU)

AMD EPYC 5th Gen 9005 Series (Sixteen-Core) 16 Core - Model 9115 AMD - EPYC - Processor / Number: 9115 - Processor / Clock Speed: 2.6 - Total Threads: 32 - Socket SP5 - L3 Cache - 64MB Memory - OEM

Модель: 2x AMD EPYC 9004 или 9005 (например, EPYC 9115 или 9015 для экономии).
Почему: Инференс больших языковых моделей (LLM) ограничен пропускной способностью памяти, а не мощностью процессора. Бюджетные модели, такие как 9115 или 9015, вполне подходят для этой задачи.

? AMD EPYC 9115 CPU

3. Оперативная память (RAM)

Требование: Всего 768 ГБ через 24 канала DDR5 RDIMM.
Конфигурация: Используйте 24 модуля по 32 ГБ DDR5 RDIMM для максимальной пропускной способности памяти.
Примеры:
- Nemix 384GB DDR5 RDIMM Kit
- v-color DDR5 ECC RDIMM Modules (32GB)

4. Корпус

Модель: Enthoo Pro 2 Server Edition (или аналогичный).
Почему: Убедитесь, что корпус совместим с серверными материнскими платами и предоставляет достаточно места для охлаждения.

? Корпус Phanteks Enthoo Pro 2 Server Edition

5. Блок питания (PSU)

Модель: Corsair HX1000i (1000Вт, полностью модульный).
Почему: Этот блок питания обеспечивает достаточную мощность для двух процессоров и включает все необходимые кабели питания.

? Corsair HX1000i PSU

6. Система охлаждения

Модель: Совместимый с сокетом SP5 кулер для AMD EPYC.
Рекомендация:
- AMD SP5 CPU Heat Sink 4U H13SSL
Дополнительные вентиляторы: Замените вентиляторы кулера на Noctua NF-A12x25 PWM для более тихой работы.

? Noctua NF-A12x25 PWM Fans

7. SSD

Требование: 1 ТБ (или больше) NVMe SSD.
Почему: Быстрые накопители необходимы для загрузки 700 ГБ весов модели в оперативную память.

? Примеры SSD

Настройка ПО

После сборки оборудования нужно настроить программное обеспечение для локального запуска DeepSeek-R1 Q8.

1. Установка llama.cpp

llama.cpp — это фреймворк для инференса LLM, таких как DeepSeek-R1, локально.

Инструкция: Следуйте руководству в репозитории GitHub.
? llama.cpp GitHub

2. Скачивание модели DeepSeek-R1

Размер модели: 650 ГБ (Q8 квантизация).
Источник: Hugging Face.
Скачивание: Скачайте все файлы из папки Q8_0.
? DeepSeek-R1 GGUF Model Files

3. Запуск модели

Используйте следующую команду для тестирования:

llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf --temp 0.6 -no-cnv -c 16384 -p "<|User|>How many Rs are there in strawberry?<|Assistant|>"

Ожидаемый результат: Ответ модели в режиме реального времени, демонстрирующий её возможности.

Производительность и улучшения

Производительность

Скорость генерации: 6-8 токенов в секунду в зависимости от процессора и скорости памяти.
Длина контекста: При 768 ГБ ОЗУ можно достичь 100,000 токенов длины контекста.

Использование GPU (опционально)

Для ускорения генерации можно использовать GPU. Однако:
- Q8 квантизация: Требуется 700 ГБ видеопамяти, что стоит ~$100,000.
- Частичная загрузка: Можно загрузить часть модели (например, 300 ГБ) на GPU для ускорения инференса, всё что ниже 300 гб, не даст особого буста по отношению к кпу сетапу.

Итоговая стоимость

itog

С этой сборкой вы сможете запускать DeepSeek-R1 Q8 локально, достигая передовой производительности LLM без использования внешних серверов или GPU. Система оптимизирована для пропускной способности памяти и объёма, что гарантирует плавную и эффективную работу даже с самыми крупными моделями.

И по классике мой канал в тгшечке, для тех, кому интересно.

Комментарии (57)

sirmax123
30.01.2025 06:49
#27853376
Это называетс теперь "туториал" ????
Аффтар (простите как его еще назвать?) не сделал ничего кроме как надергал картинок из интернета, как кто-то друго собирал (а может и не собирал?) железо ...

Звчем эта "статья" вообще?
Ах да, телеграманал ...
1. took_the_lead Автор
  30.01.2025 06:49
  #27853422
  Туториал в моём понимании это ёмкий набор информации, приносящий сугубо практическую пользу. В данном случае предлагается собрать локальный сервер и гонять около SOTA модель локально. Без лишней воды. Может можете показать пример эталонного туториала, написанного Ваши лично? Нет? Ах да, вы же не писали никогда ни одной статьи, но много комментируете, молодец!
  1. sirmax123
    30.01.2025 06:49
    #27853460
    >Ах да, вы же не писали никогда ни одной статьи
    Конечно, лучше жевать чем писать такие статьи, да и телеграмканала у меня нет, нечего рекламировать
    
    А что бы отличать плохие статьи от хороших, мне не нужно писать свои
    
    >Туториал в моём понимании это ёмкий набор информации, приносящий сугубо практическую пользу. В данном случае предлагается собрать локальный сервер и гонять около SOTA модель локально. Без лишней воды.
    
    Этот, прости гпоспАди, "туториал" имел бы смысл если б Вы сами собрали сервер и поделились сложностми которые возникли ) Но Вы этого конечно не сделали, я уверен даже не проверили совместимость комплектующих, просто перепечатали из оригинального поста (я его не читал - там надо регестрироватьсяа мне уже который год лениво)
    Ну а вопросы "почему такая железка выбрана а не другая" заботливо оставлены на самостоятельнуж проработку ) "Туториал", блин )
    
    took_the_lead Автор
    30.01.2025 06:49
    #27853504
    Идея была в том, чтобы оперативно донести до сообщества свежую (полезную) информацию из зарубежных источников. Наливать воды для повышения плотности поста, простите, нет желания. Что касается самому собрать сервер - для моих задач пока этого не требуется, хотя идея интересная была бы в практическом аспекте в том числе. Донесена основная идея о том, что можно запустить СОТА модель без ГПУ, за счет многопоточности и большущей РАМ. На оригинальность не претендую.
    
    Tantacula
    30.01.2025 06:49
    #27855644
    Так вы не собрали что ли этот сервер? Это как зарелизить фичу не протестировав ее. Как вы убедились в достоверности вашего "туториала"?
    
    took_the_lead Автор
    30.01.2025 06:49
    #27855822
    Данную сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагаю. Но запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, той же llama.cpp и всё хорошо работало, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.
1. zandernachtsohn
  30.01.2025 06:49
  #27856474
  Смиритесь, таково будущее загнивающего хабра. Ниочемные статейки, которые раньше даже на гиктаймсе бы заминусовали, бесконечная реклама телеграмм-каналов и медленная и мучительная смерть.

mxr
30.01.2025 06:49
#27853442
Запускал сегодня huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated на ollama с GPU в docker, интерфейс через open-webui. Около 3-4 токенов/сек на r9 5900x с rtx 2070s.
Поиграться Интересная модель для тестирования, но работает удовлетворительно лишь на английском, вероятно, из-за своего размера. Жаль, что в статье нет практических тестов — только пересказ теории из Twitter.

Идея для вас, автор: я тратить деньги не планирую, но ради статьи вы могли бы протестировать полноразмерную модель на 8xH100 от Nvidia. У DigitalOcean есть неплохое предложение ~$23/час.

А если серьезно, то с учетом стоимости API экономический смысл локального запуска модели для большинства задач отсутствует. Единственное, что действительно вызывает беспокойство, — их подход к безопасности. Судя по всему, сервисы они разрабатывают при помощи собственной AI модели.

P.S. В видео, в отличие от оригинала из Twitter, практически ничего не разобрать.
1. took_the_lead Автор
  30.01.2025 06:49
  #27853482
  Спасибо за дельный комментарий, видео перезалил на вимео. Всё же дистиль и оригинальная ризонинг модель это разные вещи. Я достаточно тестировал эту модель еще до хайпа на сайте chat.deepseek.com и на poe.com. В посте по этому "конкурировать" с решениями от OpenAI взято в кавычки. Использую в основном в кодинге, как альтернативное OpenAI o1 мнение - хороший кейс. Экономический смысл есть, с учетом последних кейсов их утечки всех чатов https://habr.com/ru/news/877806/.

gun_dose
30.01.2025 06:49
#27853472
Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

Статью не читал, но за заголовок спасибо. А то уже натыкался на что-то вроде "Как запустить Dick Sick локально на своём компьютере", а потом оказывается, что на моём ноуте, которого для работы хватает выше крыши, можно запустить только самую усечённую версию, и ждать ответов по несколько минут.

melodictsk
30.01.2025 06:49
#27853554
Все же выгрузка части слоев на гпу даёт пропорциональный буст. В эту сборку уже не будет смысла ставить р40, т. к псп врам 350 гб/с, что сопоставимо со скоростью озу. Но вот 3090 даёт под терабайт/с. И соответственно выгруженные слои будут шевелиться в 3 раза быстрее.
1. took_the_lead Автор
  30.01.2025 06:49
  #27853594
  Судя по всему нужно пропорционально делить нагрузку при инференсе, а в текущем случае даже х2 4090 скорее всего не дадут практически никакой пользы при таких соотношениях. Ускорение будет зависеть от того, насколько эффективно llama.cpp распределяет работу между CPU и GPU. Если большая часть модели остаётся в RAM, то прирост будет скромным.

CBET_TbMbI
30.01.2025 06:49
#27853568
А автор сам проверял?

Я не уверен, но слышал, что хоть запустить на обычной оперативке и процессоре можно, но работать будет на порядок медленнее.
1. took_the_lead Автор
  30.01.2025 06:49
  #27853586
  Автор к сожалению сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагает. Но автор запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.
1. mithdradates
  30.01.2025 06:49
  #27856842
  Все верно, даже при пустом контексте будет скорость в 1-2 токена в секунду.

akirsanov
30.01.2025 06:49
#27853948
перевод твит треда без плашки "перевод"

AndreyDmitriev
30.01.2025 06:49
#27853978
У меня под столом есть вот такая машинка, на Хeon 6132 c WX9100 (там 16 ГБ всего):

768 ГБ памяти, вот бенчмарк:

По дискам там четыре NVMe SSD терабайтных, вот такие, их можно в рейд объединить:

Имеет смысл сделать подход к снаряду на таком железе, или эта конфигурация слабовата?
1. Moog_Prodigy
  30.01.2025 06:49
  #27854146
  Имеет смысл, у вас железо есть, скачать и настроить это не очень сложно. Зато хоть реальный отзыв будет с замерами скорости.
  1. AndreyDmitriev
    30.01.2025 06:49
    #27854460
    ОК, я глянул инструкцию по сборке, там вроде из Visual Studio 2022 собрать всё можно, даже операционку переставлять не придётся, сейчас там десятка. "просто" не всегда бывает, я в конце прошлого года упражнялся с FastSD CPU, напрыгался с версиями знатно. Ладно, попробую выкачать это дело на выходных, на работе мне 503 прилетает:
    
    D:\DeepSeek\DeepSeek-R1-GGUF>git sparse-checkout set --no-cone /DeepSeek-R1-Q8_0
    Downloading DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (48 GB)
    Error downloading object: DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (8917f4d): Smudge error: Error downloading DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (...): Fatal error: Server error: https://cdn-lfs-us-1.hf.co/repos... HTTP 503
    
    nerzhul
    30.01.2025 06:49
    #27854652
    Вам не нужно ничего собирать руками. Советую скачать тул LM Studio в котором все делается через gui в том числе и скачивание любых моделей с hugging face. В нем же реализована загрузка бэкендов, проверка совместимости, куча ручек для управления настройками и т д. Консольный решим тоже есть
    
    AndreyDmitriev
    30.01.2025 06:49
    #27854874
    Спасибо огромное, посмотрю тоже, ни разу не пользовался.
    
    Конкретно для скачивания моделей не сильно помогает, так как у меня очень злобный админ:
    
    Да и формально, для использования на работе там надо форму заполнить. Но дома гляну. Собрать руками тоже попробую, я в общих чертах понимаю как это работает, а вот детально в код никогда не заглядывал.
    
    CBET_TbMbI
    30.01.2025 06:49
    #27855210
    https://habr.com/ru/articles/876320/ вот тут есть инструкция, правда через другой инструмент. Возможно, поможет.
    
    У вас на скрине вроде бы урезанная версия.
    
    AndreyDmitriev
    30.01.2025 06:49
    #27855374
    Там Ollama, этот проект вроде как основан на llama.cpp. Кстати, я посмотрел, в релизах llama.cpp тоже есть билд под Windows (по посту выше я думал там только исходники), причём собранный в разных конфигурациях, типа AVX2 или AVX512, так что собирать ничего и не нужно (я в обеденный перерыв попробовал навскидку, с полпинка не завелось, cmake сыпет ошибками). В первом приближении надо просто посмотреть. что можно получить на машинке, что у меня есть, надо только модель скачать.
    
    cool8
    30.01.2025 06:49
    #27855404
    Вот здесь ещё хорошие ребята хорошо пожали оригинал, и расписали, как запускать. https://unsloth.ai/blog/deepseekr1-dynamic
    
    nerzhul
    30.01.2025 06:49
    #27855506
    Конкретно полный deepseek я не ставил, т.к. некуда, но дистиллированные модели гоняю в LM Studio давно уже. Я этот комментарий оставил больше для того чтобы указать что есть кроссплатформенный удобный инструмент для запуска различных моделей, в котором уже позаботились о всех инфраструктурных проблемах типа выбрать бэкенд, скачать его, скачать модель, выбрать нужный бэкенд и т.д. плюс есть сразу чат, куча крутилок для настройки, возможность работы по апи
    
    evgensoft
    30.01.2025 06:49
    #27855880
    можно просто скачать готовый бинарник из релизов llama - https://github.com/ggerganov/llama.cpp/releases
    и скачать саму модель по вкусу - https://huggingface.co/models?library=gguf&sort=trending
    и запустить llama-server -m НАЗВАНИЕ_ФАЙЛА_МОДЕЛИ.gguf - по адресу http://127.0.0.1:8080/ запускается интерфейс отдаленно похожий на ChatGPT - можно пообщаться с моделью
1. 3aBulon
  30.01.2025 06:49
  #27854202
  И статью написать практическую, именно мануал, как что когда и почему.
  1. AndreyDmitriev
    30.01.2025 06:49
    #27854518
    Да, конечно, я задокоментирую все шаги и грабли на которые наступлю. Напишу (если паззл сложится, либо до меня кто-нибудь не напишет).
1. capfsb
  30.01.2025 06:49
  #27855472
  Если не будете писать статью, отпишитесь тут пожалуйста что в итоге получилось, очень интересно тоже!
1. SpencerTauRus
  30.01.2025 06:49
  #27855886
  Ждём тестов! LM studio и в путь!
1. SlavikF
  30.01.2025 06:49
  #27856720
  У меня 2 * Xeon Gold 5218.
  
  Каждый из этих процессоров поддерживает 6 каналов памяти. Я поставил 12 * 64GB DDR4-2666. Получилось 768GB RAM.
  
  Запустил DeepSeek V3 q4_K_M. Это 404GB модель + контекст.
  
  Получил около 2 токенов в секунду:
  
  - response_token/s: 1.9
  
  - prompt_token/s: 3.8 - 5
  
  Работает. Но с такой скоростью оно не надо.
  
  У меня есть Nvidia RTX 3090. Я её добавил, на неё сгрузилось 2 слоя. Быстрее не стало. Всего в модели - 62 слоя.
  1. bezdnacom
    30.01.2025 06:49
    #27856732
    DDR4 это грустно, хотя бы DDR5 надо
    
    Devastator82
    30.01.2025 06:49
    #27865678
    это смотря с чем сравнивать. Прирост скорости ddr5 в пике до двух раз, при стоимости от двух раз. Если у человека на ддр4 около двух токенов в секунду, стало бы 4, может даже 5. Но стоимость сетапа выросла бы раза в 3-4. И при этом осталась бы не впечатляющей. Теоретически, можно собрать 6,5 ферм по 12 карт p102-100 с 10гб ддр5х каждая. На таком объеме карт их можно выкупить у майнеров по 3,5-4 тысячи рублей каждая. 78х4 = 312к на карты. И еще около 10к на обвязку одной фермы. Итого 382к. А по факту, до 350к уложитесь, т.е. менее 3,5к$. Из минусов - под стол такое не засунешь. Потребление электричества около 20кВт, в квартире не запустишь. При стоимости электричества в районе 6 руб/квт суточный расход 2900. Т.е. около 30$. Ну и плюс охлаждение И так далее. ТЕЕОРЕТИЧЕСКАЯ пропускная способность около 50 токенов/секунда. Целесообразность данного решения вызывает вопросы
  1. Ravius
    30.01.2025 06:49
    #27856770
    Там ещё контекст если будет большим - то вообще забей. На реддите тоже все уже сделали. CpU - слишком медленный, а самое худшее - он генерирует "мысли", а не ответ. Ответа фиг дождёшься. Если бы сразу ответ с 2 токена в секунду- медленно, но можно прикольные штуки придумать.
    
    SlavikF
    30.01.2025 06:49
    #27856804
    Да, DeepSeek R1 "мыслит".
    
    А вот DeepSeek V3 - "мысли не генерирует", сразу даёт ответ.
1. heejew
  30.01.2025 06:49
  #27857618
  Я немного не в тему, но мне интересно, может причина есть. А почему на таком то железе стоит не линукс?) Просто в моем понимании с ним больше возможностей зачастую, не говоря уж о том, что можно гипервизор запустить и разных виртуалок, в т.ч. Винду ( можно прикинуть ГПУ, но это уже сомнительно ).. Да и нечасто вижу на таких мощностях Винду в целом.
  1. ki11j0y
    30.01.2025 06:49
    #27857902
    Такое железо используется не только для сервером и виртуализации, вспомните mac терку от Apple на 2 тб озу, некоторые рабочие приложения существуют только под win и требуют коллосальных ресурсов
  1. AndreyDmitriev
    30.01.2025 06:49
    #27859096
    Как пример — компьютер в составе некой рентгеновской установки, которая иследует некие быстротекущие процессы, там четыре 1К камеры (16 бит, оттенки серого), они через систему зеркал смотрят на объект и делают съёмку на 12800 кадров в секунду. У каждой камеры 128 ГБ памяти на борту, они её забивают за несколько секунд экспериметна (синхронизация на FPGA), затем по 10Гбит в четыре канала полтерабайта сырых данных сгружаются на компьютер, мне надо сделать геометрическую коррекцию из-за дисторсии объективов, затем Flat Field коррекцию из-за неравномерности рентгена и виньетирования, склеить все четыре картинки безшовно, потом убрать битые пикселы, там где рентген пробил до матрицы, всё это максимально быстро, паралллельно с разгрузкой камер, вот откуда там терабайт оперативки и полсотни ядер, несколько минут ревут вентиляторы и готов мультистраничный TIFF со стеком картинок. Основа там на LabVIEW, довольно навороченный GUI, ядро обработки - Intel IPP/OpenCV/NI VDM и несколько самописных библиотек c интринсинками, чтоб AVX2 на всю катушку использовать. Линукс тут больших преимуществ не даст.

MrCrooK
30.01.2025 06:49
#27855682
А как насчёт того , что для модели завялено только 37 миллиард активных параметров из всех 670. Это разве не означает , что для работы запуска на gpu будет достаточно чуть больше 40 гиг vram? Или это как то иначе работает?
1. took_the_lead Автор
  30.01.2025 06:49
  #27855814
  Не означает, 37 млрд активных параметров означает что работает одновременно только часть экспертов, при этом вся модель должна быть в памяти.
  1. Ritan
    30.01.2025 06:49
    #27856252
    Интересно, возможно ли как-то в процессе запроса определить какая часть нужна и предварительно загрузить её в память. Теоретически могло бы позволить запускать с приличной скоростью гораздо бОльшие модели
    
    bezdnacom
    30.01.2025 06:49
    #27856288
    Уже так и делают, на GPU лежат "активные эксперты", остальные в RAM
  1. bezdnacom
    30.01.2025 06:49
    #27856286
    Да, в обычной RAM. VRAM нужно от 40Гб

Vcoderlab
30.01.2025 06:49
#27856186
всё что ниже 300 гб, не даст особого буста по отношению к кпу сетапу

Судя по "кпу сетапу", это либо машинный перевод, либо статья и вовсе сгенерирована нейросеткой. Но в любом случае текст не вычитан перед отправкой. что есть неуважение к читателям.

Swordman85
30.01.2025 06:49
#27856322
6к, конечно не 100к, но это явно не для всех. Притом даже на этой сборке работать будет не так быстро. Нишевое решение исключительно того кто итак знает зачем ему это нужно.

zandernachtsohn
30.01.2025 06:49
#27856488
Сперва реклама блока питания с выводом "собран качественно, но проводов в комплекте нет", теперь вот это вот.

Может вместе с хабр фрилансом еще и сам хабр закроете, пусть останется в памяти чем-то стоящим, а не рекламной площадкой телеграмм-каналов.

SlavikF
30.01.2025 06:49
#27856748
2 процессора - это зря.

Для LLM - 1 процессор работает лучше, чем 2.

Потому что скорость инференции определяется только скоростью памяти. И если модель загружена в память первого процессора, а код запущен - на втором процессоре, то модель будет передаваться через NUMA, скорость которого - 10%-40% от скорость памяти.
1. Oldju
  30.01.2025 06:49
  #27856864
  Плюс поставить не могу. Извини. Есть все шансы, что там все загрузится куда попало. Если специально софт не написан под многопроцессорные системы. И вся эта хубала будет тормозить от перекрестных запросов на все деньги :).
1. Moog_Prodigy
  30.01.2025 06:49
  #27862304
  Совершенно верно, мало того - даже один процессор 12core 24 thread загружен примерно процентов на 60. Все из-за скорости памяти.
  1. Shannon
    30.01.2025 06:49
    #27865110
    Не из-за памяти. Магия hyper-threading, которая из 12 ядер делает 24 потока, работает только на разнородных задачах, отсюда и загрузка в 50% от настоящих ядер + 10% на фоновую работу винды, браузера и т.д.
    
    Смысл HT в том, что если одна задача занимает avx блоки, то остальные блоки остаются свободными для других задач, и можно в теории немного выиграть в производительности, если заранее эти блоки заполнить информацией, а потом ядро быстренько это посчитает. В такой схеме не растет теплопакет, так как тактов у ядра больше не становится, такты всё равно будут делится между этими блоками.
    
    При этом загрузка может показываться в 100%, но выигрыш будет лишь небольшой, не в 2 раза, в реальности это от силы 18% если повезет с задачами. Поэтому только реальные ядра могут дать кратный буст.
    
    Инференс это задача для avx блоков, выполнением занимаются только настоящие ядра, поэтому добавление сюда фейковых логических ядер обычно замедляет работу, а не ускоряет. Частым советом и в llm среде и в гейминг среде отключить HT/SMT и посмотреть, выросла ли производительность.

Oldju
30.01.2025 06:49
#27856808
Хоспаде. Человек не знает, что в двухпроцессорных системах при обращении одного процессора к памяти на канале другого процессора идёт задержка. И весь этот конфиг может жутко тормозить при перекрестных запросах при всех забитых слотах памяти и полной загрузке. Поржал. Спасибо. Особенно если софт не оптимизирован на многопроцессорные системы. В ИИ же после работы в такси и двухмесячных курсов вкатиться можно :).

Для мамкиных сисадминов (или ИИ специалистов, я не знаю, как сейчас модно:)). Один проц. И смотрите в сторону адаптеров NVME для слотов PCI-E. Больше шансов что система не будет глухо тормозить при полной загрузке.

Sergey_pc
30.01.2025 06:49
#27856882
24 канала DDR5 памяти

24 слота ≠ 24 каналам. Их там всего 12. Оперативки можно и 12 планок поставить, чтобы дать максимальную пропускную способность. От 24 быстрее не будет.
1. SlavikF
  30.01.2025 06:49
  #27856886
  Там на самом деле 24 канала, потому что 2 процессора, и у каждого - 12 своих каналов DDR5-6000.
  
  Вот только LLM не умеет "правильно" запускаться на 2х процессорах, поэтому скорее всего на 2х процессорах будет медленнее, чем на одном с 12 каналами.

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$) +13

Требования к оборудованию

1. Материнская плата

2. Процессоры (CPU)

AMD EPYC 5th Gen 9005 Series (Sixteen-Core) 16 Core - Model 9115 AMD - EPYC - Processor / Number: 9115 - Processor / Clock Speed: 2.6 - Total Threads: 32 - Socket SP5 - L3 Cache - 64MB Memory - OEM

3. Оперативная память (RAM)

4. Корпус

5. Блок питания (PSU)

6. Система охлаждения

7. SSD

Настройка ПО

1. Установка llama.cpp

2. Скачивание модели DeepSeek-R1

3. Запуск модели

Производительность и улучшения

Производительность

Использование GPU (опционально)

Итоговая стоимость

itog

Комментарии (57)

took_the_lead Автор

took_the_lead Автор

took_the_lead Автор

took_the_lead Автор

took_the_lead Автор

took_the_lead Автор

took_the_lead Автор