Что побудило написать статью?

Была тут недавно статья с картинками железа, ценами на железо, но без описания настроек, но зато с ссылками на GitHub и цитирую «Инструкция: Следуйте руководству в репозитории GitHub».:‑) Хотя в нынешних реалиях запустить нейросеть можно уже на чем угодно и не обязательно обладать навыками выше «Опытного пользователя ПК». (Если рассматривать «дистиллированные» сети, не знаю как правильно перевести.) Поэтому использования сложных инструментов и инструкций чтобы запустить что‑то и тем более отправку на GitHub считаю не совсем корректно.

О себе

Я не являюсь каким‑то специалистом в нейросетях, понятия не имею как их разворачивать, не сильно разбираюсь в терминологии, их классификации и прочее. Пользуюсь ими на уровне «хомячка», в публичных веб версия чтобы написать «простыню» если вдруг срочно требуется какой нибуть план аудита кротов в кроличьих норах или методология разведения гусей и мышек.

Поэтому статья будет из серии как нарисовать сову :-)

Железо и ПО на котором будем запускать

Как у любого рядового читателя Хабра у меня в распоряжении есть небольшой кластер виртуализации на модной сейчас среде "СВ ПК Брест".

Из него мы выделим одну ноду с характеристиками:

  • 2x Intel Xeon Gold 6226R (16core/2.9 GHz)

  • 12x 64GB DDR4 RDIMM 2933MHz

  • 2 x 480GB SSD SATA

  • 2 x 2-port 10Gb SFP+

  • внешнее СХД подключенное по 10G ISCSI

В СВ ПК Брест создаем виртуальную машину (ВМ), отдаем ей максимум ресурсов ноды, в ВМ устанавливаем Windows Server 2022 (Windows), устанавливаем ПО LM-Studio, в LM-Studio скачаем модель DeepSeek-R1-GGUF запустим и посмотрим, что получится.

Почему выбор пал на LM-Studio?

Само использование инструмента LM-Studio позволяет запускай модели нейросетей просто и быстро, в графическом интерфейсе, который будет понятен большинству пользователей ПК. Никаких кучи команд, консоли и конфигов. Запустил программу, выбрал модель, нажал скачать, нажал запустить и можно пользоваться.

Данная инструкция по запуску модели в LM-Studio подойдет для запуска большинства моделей с сайта https://huggingface.co (естественно если ваше железо достаточно для запуска)

Создание Виртуальной машины

Наверное, каждый на Хабре хоть раз в жизни настраивал какую-либо среду виртуализации и ВМ в ней или как минимум знает в теории как это все работает и делается, тем более это не основная тема статьи, поэтому сократим по максимуму:

  1. Создаем шаблон, в нем настраиваем NUMA 2 сокета, 8 ядер, 2 потока

Настройка NUMA в шаблоне виртуальной машины
Настройка NUMA в шаблоне виртуальной машины
  1. Создаем постоянный образ жесткого диска

Характеристики создаваемого диска
Характеристики создаваемого диска
  1. Из шаблона разворачиваем ВМ, монтируем жесткий диск в ВМ, проверяем что не ошиблись в настройках ВМ.

  1. Устанавливаем Windows (ну тут все мастера, правда у меня был готовый sysprep образ), проверяем что драйвера virtio на месте.

После 15 минут у нас получилась вот такая ВМ с Windows Server 2022:

Развернутая ВМ с 32 ядрами и 750 ГБ ОЗУ
Развернутая ВМ с 32 ядрами и 750 ГБ ОЗУ

Внутри ВМ Windows

ЦПУ
ЦПУ
ОЗУ
ОЗУ

Тест памяти в AIDA64 внутри ВМ (очень медленно, кто знает почему напишите в комментариях):

Тест памяти в получившийся ВМ
Тест памяти в получившийся ВМ

Устанавливаем LM-Studio и скачиваем DeepSeek-R1-GGUF

  1. Заходим на сайт https://lmstudio.ai и там без СМС и регистраций скачиваем:

    LM-Studio-0.3.9-6-x64.exe (или актуальную версию на момент прочтения)

  2. Устанавливаем LM-Studio, установка простая, нажимаем кнопочку далее, далее…

Установка LM-Studio, выбираем каталог установки
Установка LM-Studio, выбираем каталог установки
  1. Запускаем установленный LM-Studio и попадаем в главное окно программы

Окно запущенного LM-Studio
Окно запущенного LM-Studio
  1. Нажимаем слева на панели кнопок кнопку поиска (иконка лупы), открывается следующее окно поиска

Окно поиска моделей, ищем модель DeepSeek-R1-GGUF и скачиваем её
Окно поиска моделей, ищем модель DeepSeek-R1-GGUF и скачиваем её
  1. В строке поиска пишем название модели (в нашем случае DeepSeek-R1-GGUF), кнопкой, выбираем какой вариант (квантования и размер модели) скачать (я скачал Q4_K_M так как для остальных LM-Studio считает считает что недостаточно ресурсов) и нажимаем кнопку "Download" (в моем случае кнопка "Use in New Chat", так как я уже скачал модель и скриншоты делал после). Дальше начинается процесс скачивания, ждем, все зависит от вашего интернета.

    Процесс скачивания модели DeepSeek-R1-GGUF
    Процесс скачивания модели DeepSeek-R1-GGUF

Запускаем модель DeepSeek-R1-GGUF

  1. После предыдущих действий у нас есть установленный LM-Studio и скачанная модель DeepSeek-R1-GGUF

  2. В главном меню программы нажимаем "Select model to load"

    Нажимаем кнопку "Select model to load"
    Нажимаем кнопку "Select model to load"
  3. Выбираем нашу модель (DeepSeek R1) и нажимаем на нее (тут может быть много моделей)

    Выбираем модель для запуска DeepSeek R1
    Выбираем модель для запуска DeepSeek R1
  4. Откроется окно, в котором мы можем указать дополнительные параметры запуска модели (я выбрал размер контекста в 16384 токенов, по умолчанию - 4094, максимум - 163480)

    Настройки запуска модели
    Настройки запуска модели
  5. Жмем "Load Model" и ждем пока она загрузится в ОЗУ

    Загрузка модели в ОЗУ
    Загрузка модели в ОЗУ
  6. После загрузки модели вы увидите, что надпись "Loading... %" изменится на " вап" и мы можем начать экспериментировать

    Модель загружена в ОЗУ
    Модель загружена в ОЗУ
  7. Все готово, можно использовать модель

    Модель рассуждает на заданный вопрос
    Модель рассуждает на заданный вопрос
  8. Качество и скорость работы можно оценить на видео

Что нейросеть знает о Хабре

Ответ на вопрос «Привет что ты знаешь о Хабре?» кто не смог посмотреть видео под спойлером

Скрытый текст

Хабр (Habr) — это популярная онлайн-платформа, где пользователи делятся знаниями в областях IT, разработки программного обеспечения, технологий и науки. Сайт был основан в 2006 году Денисом Крючковым и изначально ориентировался на IT-специалистов, но со временем расширил тематику.

Основные разделы Хабра:

  1. Публикации — статьи пользователей по разным темам: программирование, кибербезопасность, AI, блокчейн и др.

  2. Хабрахабр (соцсеть) — профили пользователей, подписки, лента активности.

  3. Компании — блоги компаний, вакансии, кейсы.

  4. Q&A — вопросы и ответы по техническим темам.

Особенности:

  • Качество контента: Статьи часто глубокие и профессиональные.

  • Сообщество: Активные пользователи, включая экспертов из разных областей.

  • Комментарии: Обсуждения могут быть критичными, но полезными.

  • Карьера: Раздел с вакансиями для IT-специалистов.

Критика:

Иногда контент становится слишком поверхностным или рекламным. Также споры в комментариях бывают токсичными.

Хабр остается ключевым ресурсом для рунета в области технологий и IT.

Хабр (Habr) — это известная онлайн-платформа, основанная в 2006 году, которая объединяет IT-специалистов, разработчиков и tech-энтузиастов. Вот ключевые аспекты:

Основное о Хабре:

  1. Контент:

    • Пользователи публикуют статьи на темы: программирование, кибербезопасность, AI/ML, блокчейн, стартапы.

    • Материалы варьируются от tutorials до аналитики и кейсов из реальных проектов.

  2. Аудитория:

    • Целевая аудитория — разработчики, инженеры, менеджеры IT-проектов, ученые.

    • Активное комьюнити с высоким уровнем экспертизы.

  3. Структура:

    • Хабры: Тематические разделы (например, «Python», «Big Data»).

    • Компании: Корпоративные блоги (Яндекс, Tinkoff и др.), вакансии.

    • Карьера: Раздел для поиска работы в IT.

  4. Особенности:

    • Жёсткая модерация: статьи проходят проверку перед публикацией.

    • Комментарии часто содержат конструктивную критику или дополнения от профессионалов.

  5. Проблемы:

    • Иногда контент становится излишне рекламным (продвижение сервисов/продуктов).

    • Споры в комментариях могут перерастать в холивары.

Популярные форматы:

  • Туториалы: Пошаговые руководства (например, «Как настроить Docker»).

  • Кейсы: Опыт внедрения технологий в компаниях.

  • Новости и аналитика: Обзоры трендов (Web3, Quantum computing).

Интересное:

  • Раньше Хабр был более нишевым, но сейчас охватывает широкий спектр тем — от low-level разработки до менеджмента.

Хабр остается главным источником экспертного контента на русском языке для IT-сферы. ?

Выводы

На сервере без GPU запустить конечно модель можно, но вот скорость работы оставляет желать лучшего. Скорое всего большие смысл имеет запустить дистиллированные модели и другие маленькие модели, но на GPU, даже на домашних карточках сейчас 8-12-16-24GB памяти.

Модель запускалась от нечего делать, в период простоя узла кластера. Какой-либо коммерческой цели использовать в таком варианте не было и не будет (проще купить подписку и пользоваться).

Как тестировать на производительность я не знаю, ну видно, что она еле шевелится. Если будут какие-то предложения пишите, попробуем попробовать.

ps было потрачено около 5 часов из них:

  • 30 минут на настройку и установку;

  • где то два часа с кофе и скачивание модели (три раза был обрыв скачки)

  • 2.5 часа на написание статьи, снятие скриншотов, заливки видео...

Комментарии (14)


  1. Negat1v9
    07.02.2025 08:34

    обычном сервере с 768Гб ОЗУ

    Да ладно вам), это не обычный сервер, так, начального уровня :)


    1. mukca Автор
      07.02.2025 08:34

      да у каждого есть, просто обязан быть


  1. JohnGear
    07.02.2025 08:34

    Пойду посмотрю не завалялся у меня случаем в кладовке лишний Intel Xeon Gold 6226R, да тоже может разверну какую нейросеть


    1. mukca Автор
      07.02.2025 08:34

      есть ссылка на али :)


    1. mukca Автор
      07.02.2025 08:34

      Ну для домашних пользователей можно поискать на али


  1. rPman
    07.02.2025 08:34

    Зачем виртуализация то? вы отняли у себя до 35% производительности в самом нужном месте - в числодробилках. Настоятельно рекомендую повторить тест на bare metall. Так же настоятельно рекомендую поиграть с настройками количества потоков (cpu thread pool), llama.cpp работает лучше, если либо гипертреадинг отключен либо количество потоков совпадает с количеством физических ядер.


    1. positroid
      07.02.2025 08:34

      Буквально вчера была аналогичная статья https://habr.com/ru/articles/879846/ с отключением гипертрейдинга и llama.cpp, ускорение, конечно, есть, но дальше единиц токенов генерации без GPU как будто все равно не уедешь.


      1. Alex-Freeman
        07.02.2025 08:34

        На паре EPYC с DDR5 4-5 т/с можно получить, но стоимость будет существенно выше, но дешевле чем на ускорителях.

        На досуге считал, мать с $1,5 - 2к, cpu 2 x $1500, ram 64gb ~ $300 за штуку для 768 - $3600. Итого примерно $10к. Можно взять cpu подешевле, но это так себе идея. И памяти конечно нужно не 768, а с запасом хотя бы 1ТБ


        1. igrblkv
          07.02.2025 08:34

          Получается, миниСуперПК от нВидиа Project Digits за три килобакса выгоднее, чем самому собирать?


          1. Alex-Freeman
            07.02.2025 08:34

            Совершенно непонятно какая там будет реальная производительность этого GB10 Пока не будет реальных тестов, смысла нет, что то предполагать. Производительность указана только для FP4, а фраза до 1 петафлопс, предполагает ооочень широкий диапазон. И там всего 128 гб памяти.


        1. mukca Автор
          07.02.2025 08:34

          пойди к соседу майнеру, возми пачку ригов с видеокартами, это проще :D


        1. mukca Автор
          07.02.2025 08:34

          Вопрос стоит ли? думаю даже увелечение скорости памяти в два раза (с 180GB/s до 360GB/s а два сокета по 4 кана выдадут столько?>) сильно не увеличит производительность.

          У меня во время теста полность загружался один проц, думаю будеть упор в цпу или рядом


      1. mukca Автор
        07.02.2025 08:34

        тут виртуализация по факту не так много сьедает, разница с карточками колоссальная так что впринципе оно того не стоит..


    1. mukca Автор
      07.02.2025 08:34

      Так сказать из за спортивного интереса и в ответ на статью где за 6000$ собрали сервер по картинкам в интернете и запустили на нем модель :)

      Что было под рукой, на том и запустил :)
      Специально готовить сервер к тому что небудет в эксплуатации по моему глупо? Учитывая что результат заведомо известный.
      Статья была пару дней в песочнице