тут не будет сгенерированных ИИшечкой картинок, пеинт рулит :)
тут не будет сгенерированных ИИшечкой картинок, пеинт рулит :)

Давеча наткнулся в экс-Твиттере на интересный тред (https://x.com/carrigmat/status/1884244369907278106?s=52) о том, как запустить самую мощную (на сегодня) ИИ reasoning модель DeepSeek-R1 прямо у себя под столом.

DeepSeek-R1 — это одна из топовых моделей (из Китая), наделавших много шума (и не только), для задач логики, математики и программирования. Она настолько умная, что может (с некоторыми оговорками) "конкурировать" с решениями от OpenAI, но при этом её можно запустить локально, без интернета, без смс и полностью контролировать весь процесс.

Почему это круто?
* все данные остаются с вами, никакие сторонние сервисы не получат доступ к вашим запросам.
* запуск на своём железе избавляет от затрат на облачные сервисы.
* модель способна решать сложные задачи и выдавать результаты на уровне профессионалов.

В статье я расскажу:
* какое оборудование нужно для запуска DeepSeek-R1.
* чем локальный запуск отличается от серверного.
* какие возможности открывает эта модель и как она может быть полезна.
* как сохранить безопасность и приватность при работе с ИИ.

В этом мануале описано, как настроить локальный запуск модели DeepSeek-R1 Q8, сохраняя максимальное качество и производительность без дистилляции или уменьшенной квантизации. Общая стоимость сборки составит около ~$6,000, и ниже приведены все необходимые ссылки на компоненты и инструкции.


Требования к оборудованию

Для запуска DeepSeek-R1 (размер модели — 650 ГБ) с Q8 квантизацией система должна быть ориентирована на объем памяти, пропускную способность и возможности процессора.

Ссылки взяты так же с треда, аналоги думаю можно поискать на сайтах дэнээсов, ситилинков.

Вот подробный список:


1. Материнская плата

  • Модель: Gigabyte MZ73-LM0 или MZ73-LM1

  • Причина: Эти материнские платы поддерживают два сокета AMD EPYC, что позволяет использовать 24 канала DDR5 памяти, максимально увеличивая объем и пропускную способность.

? Материнская плата Gigabyte MZ73-LM0 или MZ73-LM1


2. Процессоры (CPU)

AMD EPYC 5th Gen 9005 Series (Sixteen-Core) 16 Core - Model 9115 AMD - EPYC - Processor / Number: 9115 - Processor / Clock Speed: 2.6 - Total Threads: 32 - Socket SP5 - L3 Cache - 64MB Memory - OEM

  • Модель: 2x AMD EPYC 9004 или 9005 (например, EPYC 9115 или 9015 для экономии).

  • Почему: Инференс больших языковых моделей (LLM) ограничен пропускной способностью памяти, а не мощностью процессора. Бюджетные модели, такие как 9115 или 9015, вполне подходят для этой задачи.

? AMD EPYC 9115 CPU


3. Оперативная память (RAM)

  • Требование: Всего 768 ГБ через 24 канала DDR5 RDIMM.

  • Конфигурация: Используйте 24 модуля по 32 ГБ DDR5 RDIMM для максимальной пропускной способности памяти.

  • Примеры:


4. Корпус

  • Модель: Enthoo Pro 2 Server Edition (или аналогичный).

  • Почему: Убедитесь, что корпус совместим с серверными материнскими платами и предоставляет достаточно места для охлаждения.

? Корпус Phanteks Enthoo Pro 2 Server Edition


5. Блок питания (PSU)

  • Модель: Corsair HX1000i (1000Вт, полностью модульный).

  • Почему: Этот блок питания обеспечивает достаточную мощность для двух процессоров и включает все необходимые кабели питания.

? Corsair HX1000i PSU


6. Система охлаждения

  • Модель: Совместимый с сокетом SP5 кулер для AMD EPYC.

  • Рекомендация:

  • Дополнительные вентиляторы: Замените вентиляторы кулера на Noctua NF-A12x25 PWM для более тихой работы.

? Noctua NF-A12x25 PWM Fans


7. SSD

  • Требование: 1 ТБ (или больше) NVMe SSD.

  • Почему: Быстрые накопители необходимы для загрузки 700 ГБ весов модели в оперативную память.

? Примеры SSD


Настройка ПО

После сборки оборудования нужно настроить программное обеспечение для локального запуска DeepSeek-R1 Q8.


1. Установка llama.cpp

llama.cpp — это фреймворк для инференса LLM, таких как DeepSeek-R1, локально.

  • Инструкция: Следуйте руководству в репозитории GitHub.

  • ? llama.cpp GitHub


2. Скачивание модели DeepSeek-R1

  • Размер модели: 650 ГБ (Q8 квантизация).

  • Источник: Hugging Face.

  • Скачивание: Скачайте все файлы из папки Q8_0.

  • ? DeepSeek-R1 GGUF Model Files


3. Запуск модели

Используйте следующую команду для тестирования:

llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf --temp 0.6 -no-cnv -c 16384 -p "<|User|>How many Rs are there in strawberry?<|Assistant|>"
  • Ожидаемый результат: Ответ модели в режиме реального времени, демонстрирующий её возможности.


Производительность и улучшения

Производительность

  • Скорость генерации: 6-8 токенов в секунду в зависимости от процессора и скорости памяти.

  • Длина контекста: При 768 ГБ ОЗУ можно достичь 100,000 токенов длины контекста.


Использование GPU (опционально)

  • Для ускорения генерации можно использовать GPU. Однако:

    • Q8 квантизация: Требуется 700 ГБ видеопамяти, что стоит ~$100,000.

    • Частичная загрузка: Можно загрузить часть модели (например, 300 ГБ) на GPU для ускорения инференса, всё что ниже 300 гб, не даст особого буста по отношению к кпу сетапу.


Итоговая стоимость


itog

С этой сборкой вы сможете запускать DeepSeek-R1 Q8 локально, достигая передовой производительности LLM без использования внешних серверов или GPU. Система оптимизирована для пропускной способности памяти и объёма, что гарантирует плавную и эффективную работу даже с самыми крупными моделями.

И по классике мой канал в тгшечке, для тех, кому интересно.

Комментарии (44)


  1. sirmax123
    30.01.2025 06:49

    Это называетс теперь "туториал" ????
    Аффтар (простите как его еще назвать?) не сделал ничего кроме как надергал картинок из интернета, как кто-то друго собирал (а может и не собирал?) железо ...

    Звчем эта "статья" вообще?
    Ах да, телеграманал ...


    1. took_the_lead Автор
      30.01.2025 06:49

      Туториал в моём понимании это ёмкий набор информации, приносящий сугубо практическую пользу. В данном случае предлагается собрать локальный сервер и гонять около SOTA модель локально. Без лишней воды. Может можете показать пример эталонного туториала, написанного Ваши лично? Нет? Ах да, вы же не писали никогда ни одной статьи, но много комментируете, молодец!


      1. sirmax123
        30.01.2025 06:49

        >Ах да, вы же не писали никогда ни одной статьи
        Конечно, лучше жевать чем писать такие статьи, да и телеграмканала у меня нет, нечего рекламировать

        А что бы отличать плохие статьи от хороших, мне не нужно писать свои

        >Туториал в моём понимании это ёмкий набор информации, приносящий сугубо практическую пользу. В данном случае предлагается собрать локальный сервер и гонять около SOTA модель локально. Без лишней воды. 

        Этот, прости гпоспАди, "туториал" имел бы смысл если б Вы сами собрали сервер и поделились сложностми которые возникли ) Но Вы этого конечно не сделали, я уверен даже не проверили совместимость комплектующих, просто перепечатали из оригинального поста (я его не читал - там надо регестрироватьсяа мне уже который год лениво)
        Ну а вопросы "почему такая железка выбрана а не другая" заботливо оставлены на самостоятельнуж проработку ) "Туториал", блин )


        1. took_the_lead Автор
          30.01.2025 06:49

          Идея была в том, чтобы оперативно донести до сообщества свежую (полезную) информацию из зарубежных источников. Наливать воды для повышения плотности поста, простите, нет желания. Что касается самому собрать сервер - для моих задач пока этого не требуется, хотя идея интересная была бы в практическом аспекте в том числе. Донесена основная идея о том, что можно запустить СОТА модель без ГПУ, за счет многопоточности и большущей РАМ. На оригинальность не претендую.


          1. Tantacula
            30.01.2025 06:49

            Так вы не собрали что ли этот сервер? Это как зарелизить фичу не протестировав ее. Как вы убедились в достоверности вашего "туториала"?


            1. took_the_lead Автор
              30.01.2025 06:49

              Данную сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагаю. Но запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, той же llama.cpp и всё хорошо работало, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.


    1. zandernachtsohn
      30.01.2025 06:49

      Смиритесь, таково будущее загнивающего хабра. Ниочемные статейки, которые раньше даже на гиктаймсе бы заминусовали, бесконечная реклама телеграмм-каналов и медленная и мучительная смерть.


  1. mxr
    30.01.2025 06:49

    Запускал сегодня huihui-ai/DeepSeek-R1-Distill-Qwen-32B-abliterated на ollama с GPU в docker, интерфейс через open-webui. Около 3-4 токенов/сек на r9 5900x с rtx 2070s.
    Поиграться Интересная модель для тестирования, но работает удовлетворительно лишь на английском, вероятно, из-за своего размера. Жаль, что в статье нет практических тестов — только пересказ теории из Twitter.

    Идея для вас, автор: я тратить деньги не планирую, но ради статьи вы могли бы протестировать полноразмерную модель на 8xH100 от Nvidia. У DigitalOcean есть неплохое предложение ~$23/час.

    А если серьезно, то с учетом стоимости API экономический смысл локального запуска модели для большинства задач отсутствует. Единственное, что действительно вызывает беспокойство, — их подход к безопасности. Судя по всему, сервисы они разрабатывают при помощи собственной AI модели.

    P.S. В видео, в отличие от оригинала из Twitter, практически ничего не разобрать.


    1. took_the_lead Автор
      30.01.2025 06:49

      Спасибо за дельный комментарий, видео перезалил на вимео. Всё же дистиль и оригинальная ризонинг модель это разные вещи. Я достаточно тестировал эту модель еще до хайпа на сайте chat.deepseek.com и на poe.com. В посте по этому "конкурировать" с решениями от OpenAI взято в кавычки. Использую в основном в кодинге, как альтернативное OpenAI o1 мнение - хороший кейс. Экономический смысл есть, с учетом последних кейсов их утечки всех чатов https://habr.com/ru/news/877806/.


  1. gun_dose
    30.01.2025 06:49

    Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

    Статью не читал, но за заголовок спасибо. А то уже натыкался на что-то вроде "Как запустить Dick Sick локально на своём компьютере", а потом оказывается, что на моём ноуте, которого для работы хватает выше крыши, можно запустить только самую усечённую версию, и ждать ответов по несколько минут.


  1. melodictsk
    30.01.2025 06:49

    Все же выгрузка части слоев на гпу даёт пропорциональный буст. В эту сборку уже не будет смысла ставить р40, т. к псп врам 350 гб/с, что сопоставимо со скоростью озу. Но вот 3090 даёт под терабайт/с. И соответственно выгруженные слои будут шевелиться в 3 раза быстрее.


    1. took_the_lead Автор
      30.01.2025 06:49

      Судя по всему нужно пропорционально делить нагрузку при инференсе, а в текущем случае даже х2 4090 скорее всего не дадут практически никакой пользы при таких соотношениях. Ускорение будет зависеть от того, насколько эффективно llama.cpp распределяет работу между CPU и GPU. Если большая часть модели остаётся в RAM, то прирост будет скромным.


  1. CBET_TbMbI
    30.01.2025 06:49

    А автор сам проверял?

    Я не уверен, но слышал, что хоть запустить на обычной оперативке и процессоре можно, но работать будет на порядок медленнее.


    1. took_the_lead Автор
      30.01.2025 06:49

      Автор к сожалению сборку и запуск лично не проверял, ресурсами для таких тестов к сожалению не располагает. Но автор запускал модели поменьше (70b) на собственном оборудовании в том числе без GPU чисто на RAM+CPU многоядерном, скорость не сравнится с инференсом в облаке, но приемлема для личных нужд ~10-15 т\с. В статье есть видео работы на предложенной конфе.


    1. mithdradates
      30.01.2025 06:49

      Все верно, даже при пустом контексте будет скорость в 1-2 токена в секунду.


  1. akirsanov
    30.01.2025 06:49

    перевод твит треда без плашки "перевод"


  1. AndreyDmitriev
    30.01.2025 06:49

    У меня под столом есть вот такая машинка, на Хeon 6132 c WX9100 (там 16 ГБ всего):

    768 ГБ памяти, вот бенчмарк:

    По дискам там четыре NVMe SSD терабайтных, вот такие, их можно в рейд объединить:

    Имеет смысл сделать подход к снаряду на таком железе, или эта конфигурация слабовата?


    1. Moog_Prodigy
      30.01.2025 06:49

      Имеет смысл, у вас железо есть, скачать и настроить это не очень сложно. Зато хоть реальный отзыв будет с замерами скорости.


      1. AndreyDmitriev
        30.01.2025 06:49

        ОК, я глянул инструкцию по сборке, там вроде из Visual Studio 2022 собрать всё можно, даже операционку переставлять не придётся, сейчас там десятка. "просто" не всегда бывает, я в конце прошлого года упражнялся с FastSD CPU, напрыгался с версиями знатно. Ладно, попробую выкачать это дело на выходных, на работе мне 503 прилетает:

        D:\DeepSeek\DeepSeek-R1-GGUF>git sparse-checkout set --no-cone /DeepSeek-R1-Q8_0
        Downloading DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (48 GB)
        Error downloading object: DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (8917f4d): Smudge error: Error downloading DeepSeek-R1-Q8_0/DeepSeek-R1.Q8_0-00001-of-00015.gguf (...): Fatal error: Server error: https://cdn-lfs-us-1.hf.co/repos... HTTP 503


        1. nerzhul
          30.01.2025 06:49

          Вам не нужно ничего собирать руками. Советую скачать тул LM Studio в котором все делается через gui в том числе и скачивание любых моделей с hugging face. В нем же реализована загрузка бэкендов, проверка совместимости, куча ручек для управления настройками и т д. Консольный решим тоже есть


          1. AndreyDmitriev
            30.01.2025 06:49

            Спасибо огромное, посмотрю тоже, ни разу не пользовался.

            Конкретно для скачивания моделей не сильно помогает, так как у меня очень злобный админ:

            Да и формально, для использования на работе там надо форму заполнить. Но дома гляну. Собрать руками тоже попробую, я в общих чертах понимаю как это работает, а вот детально в код никогда не заглядывал.


            1. CBET_TbMbI
              30.01.2025 06:49

              https://habr.com/ru/articles/876320/ вот тут есть инструкция, правда через другой инструмент. Возможно, поможет.

              У вас на скрине вроде бы урезанная версия.


              1. AndreyDmitriev
                30.01.2025 06:49

                Там Ollama, этот проект вроде как основан на llama.cpp. Кстати, я посмотрел, в релизах llama.cpp тоже есть билд под Windows (по посту выше я думал там только исходники), причём собранный в разных конфигурациях, типа AVX2 или AVX512, так что собирать ничего и не нужно (я в обеденный перерыв попробовал навскидку, с полпинка не завелось, cmake сыпет ошибками). В первом приближении надо просто посмотреть. что можно получить на машинке, что у меня есть, надо только модель скачать.


                1. cool8
                  30.01.2025 06:49

                  Вот здесь ещё хорошие ребята хорошо пожали оригинал, и расписали, как запускать. https://unsloth.ai/blog/deepseekr1-dynamic


            1. nerzhul
              30.01.2025 06:49

              Конкретно полный deepseek я не ставил, т.к. некуда, но дистиллированные модели гоняю в LM Studio давно уже. Я этот комментарий оставил больше для того чтобы указать что есть кроссплатформенный удобный инструмент для запуска различных моделей, в котором уже позаботились о всех инфраструктурных проблемах типа выбрать бэкенд, скачать его, скачать модель, выбрать нужный бэкенд и т.д. плюс есть сразу чат, куча крутилок для настройки, возможность работы по апи


        1. evgensoft
          30.01.2025 06:49

          можно просто скачать готовый бинарник из релизов llama - https://github.com/ggerganov/llama.cpp/releases
          и скачать саму модель по вкусу - https://huggingface.co/models?library=gguf&sort=trending
          и запустить llama-server -m НАЗВАНИЕ_ФАЙЛА_МОДЕЛИ.gguf - по адресу http://127.0.0.1:8080/ запускается интерфейс отдаленно похожий на ChatGPT - можно пообщаться с моделью


    1. 3aBulon
      30.01.2025 06:49

      И статью написать практическую, именно мануал, как что когда и почему.


      1. AndreyDmitriev
        30.01.2025 06:49

        Да, конечно, я задокоментирую все шаги и грабли на которые наступлю. Напишу (если паззл сложится, либо до меня кто-нибудь не напишет).


    1. capfsb
      30.01.2025 06:49

      Если не будете писать статью, отпишитесь тут пожалуйста что в итоге получилось, очень интересно тоже!


    1. SpencerTauRus
      30.01.2025 06:49

      Ждём тестов! LM studio и в путь!


    1. SlavikF
      30.01.2025 06:49

      У меня 2 * Xeon Gold 5218.

      Каждый из этих процессоров поддерживает 6 каналов памяти. Я поставил 12 * 64GB DDR4-2666. Получилось 768GB RAM.

      Запустил DeepSeek V3 q4_K_M. Это 404GB модель + контекст.

      Получил около 2 токенов в секунду:

      - response_token/s: 1.9

      - prompt_token/s: 3.8 - 5

      Работает. Но с такой скоростью оно не надо.

      У меня есть Nvidia RTX 3090. Я её добавил, на неё сгрузилось 2 слоя. Быстрее не стало. Всего в модели - 62 слоя.


      1. bezdnacom
        30.01.2025 06:49

        DDR4 это грустно, хотя бы DDR5 надо


      1. Ravius
        30.01.2025 06:49

        Там ещё контекст если будет большим - то вообще забей. На реддите тоже все уже сделали. CpU - слишком медленный, а самое худшее - он генерирует "мысли", а не ответ. Ответа фиг дождёшься. Если бы сразу ответ с 2 токена в секунду- медленно, но можно прикольные штуки придумать.


        1. SlavikF
          30.01.2025 06:49

          Да, DeepSeek R1 "мыслит".

          А вот DeepSeek V3 - "мысли не генерирует", сразу даёт ответ.


  1. MrCrooK
    30.01.2025 06:49

    А как насчёт того , что для модели завялено только 37 миллиард активных параметров из всех 670. Это разве не означает , что для работы запуска на gpu будет достаточно чуть больше 40 гиг vram? Или это как то иначе работает?


    1. took_the_lead Автор
      30.01.2025 06:49

      Не означает, 37 млрд активных параметров означает что работает одновременно только часть экспертов, при этом вся модель должна быть в памяти.


      1. Ritan
        30.01.2025 06:49

        Интересно, возможно ли как-то в процессе запроса определить какая часть нужна и предварительно загрузить её в память. Теоретически могло бы позволить запускать с приличной скоростью гораздо бОльшие модели


        1. bezdnacom
          30.01.2025 06:49

          Уже так и делают, на GPU лежат "активные эксперты", остальные в RAM


      1. bezdnacom
        30.01.2025 06:49

        Да, в обычной RAM. VRAM нужно от 40Гб


  1. Vcoderlab
    30.01.2025 06:49

    всё что ниже 300 гб, не даст особого буста по отношению к кпу сетапу

    Судя по "кпу сетапу", это либо машинный перевод, либо статья и вовсе сгенерирована нейросеткой. Но в любом случае текст не вычитан перед отправкой. что есть неуважение к читателям.


  1. Swordman85
    30.01.2025 06:49

    6к, конечно не 100к, но это явно не для всех. Притом даже на этой сборке работать будет не так быстро. Нишевое решение исключительно того кто итак знает зачем ему это нужно.


  1. zandernachtsohn
    30.01.2025 06:49

    Сперва реклама блока питания с выводом "собран качественно, но проводов в комплекте нет", теперь вот это вот.

    Может вместе с хабр фрилансом еще и сам хабр закроете, пусть останется в памяти чем-то стоящим, а не рекламной площадкой телеграмм-каналов.


  1. SlavikF
    30.01.2025 06:49

    2 процессора - это зря.

    Для LLM - 1 процессор работает лучше, чем 2.

    Потому что скорость инференции определяется только скоростью памяти. И если модель загружена в память первого процессора, а код запущен - на втором процессоре, то модель будет передаваться через NUMA, скорость которого - 10%-40% от скорость памяти.


    1. Oldju
      30.01.2025 06:49

      Плюс поставить не могу. Извини. Есть все шансы, что там все загрузится куда попало. Если специально софт не написан под многопроцессорные системы. И вся эта хубала будет тормозить от перекрестных запросов на все деньги :).


  1. Oldju
    30.01.2025 06:49

    Хоспаде. Человек не знает, что в двухпроцессорных системах при обращении одного процессора к памяти на канале другого процессора идёт задержка. И весь этот конфиг может жутко тормозить при перекрестных запросах при всех забитых слотах памяти и полной загрузке. Поржал. Спасибо. Особенно если софт не оптимизирован на многопроцессорные системы. В ИИ же после работы в такси и двухмесячных курсов вкатиться можно :).

    Для мамкиных сисадминов (или ИИ специалистов, я не знаю, как сейчас модно:)). Один проц. И смотрите в сторону адаптеров NVME для слотов PCI-E. Больше шансов что система не будет глухо тормозить при полной загрузке.