Дело на вечер: собираем домашний ИИ-сервер / forpes.ru

Главная
Дело на вечер: собираем домашний ИИ-сервер

Дело на вечер: собираем домашний ИИ-сервер +7

29.06.2026 18:06

yar3333 21 7900 Источник

Конечно, можно купить готовый (за ~1.3 млн. руб. есть неплохие варианты), но нам ведь главное процесс, ведь так? К тому же, не все готовы выложить такую сумму за возможность запускать дома нейронку. Итак, что нам пригодится, чтобы влезть в бюджет до 400 тыс. руб.:

корпус или рама, например, такая (~7 тыс. руб.):

мат. плата + процессор + память (от 64 Гб, лучше 128 Гб, б/у - хороший вариант)
видеокарты, допустим 4 шт. по 24 Гб (например, AMD RX 7900 XTX по ~75 тыс. руб. на вторичке):

AMD RX 7900 XTX
парочка блоков питания по ~1.2 кВт
синхронизатор блоков питания (небольшая платка, чтобы блоки питания стартовали одновременно)
райзеры для подключения видеокарт (бывают разные, сойдут и USB-варианты, но мы будем использовать в виде шлейфов pcie x16):

Райзер pcie x16

сплиттер pcie x16 на 2 по x8 или 4 по x4 (у нас ведь нет 4-х разъёмов pcie на плате, ведь так?); помните, что BIOS мат. платы должен поддерживать соответствующий режим бифуркации!

Сплиттер pcie x16 на 4 по x4
SSD/HDD по вкусу, но лучше не меньше чем на 1 TB
не забываем про кабели для БП (часто на БП есть выходы под новомодные 12VHPWR, но не во все видеокарты можно воткнуть такой провод - ищите 12VHPWR to 3 x 2x8pin reverse cable, если у вас на видеокарте разъёмы 2x8pin)
корзина для дисков, если хочется шикануть; настоящие diy-еры могут спроектировать свою:

Корзина для дисков 2.5" (модуль)

Что получаем по итогу? Судите сами:

Топовый домашний сервер для запуска LLM массой ~10 кг

Что по софту?

ОС: Ubuntu 26 server + KDE plasma + головняк с установкой GUI на server-версию ОС

Запуск LLM: сервис на базе llama.cpp (rocm* и vulkan под капотом работают приблизительно одинаково для видеокарт AMD; vulkan чуть быстрее); можно поставить docker и запустить local AI, где удобно крутить всякое-разное, а не только LLM.

* ROCM - это аналог NVIDIA/CUDA, но для видеокарт от AMD; сейчас усиленно развивается, но пока не дотягивает до лидера; уже поддерживается много где, но не всегда успешно :)

Практический тест: qwen3.6-27b в квантовании Q8 с контекстом в 250 тыс. токенов со встроенным MTP (это небольшая draft-модель внутри основной модели, позволяющая делать вычисления наперёд и ускоряющая работу в ~2 раза) выдаёт ~30 токенов в секунду (~7 русских слов). Этого достаточно для комфортного использования как в виде чат-бота, так и для агента (здравствуй, вайб-кодинг).

Если бюджет резиновый

GPU на таком сервере у нас будут работать последовательно. Почему? Для одновременной работы видеокарт (tensor parallelism) нужен очень быстрый обмен данными между видеокартами. А здесь у нас два варианта - либо иметь систему с несколькими линиями pcie x16 (ищи серверные процессоры со 128 линиями pcie, например, модели AMD Threadripper), либо иметь серверные видеокарты, которые имеют отдельные мостики для подключения друг к другу (например, AMD Instinct).

Если вы любите страдать

Существует софт, оптимизированный под запуск LLM (вместо llama.cpp). Например, vllm. Заставить его работать на потребительских видеокартах от AMD - проще простого (нет). А ведь мы не ищем лёгких путей. Поэтому, пусть всё же будет llama.cpp.

Что в итоге?

Сервер крутится, программировать помогает. А что ещё нужно для счастья простому программисту? :)

P.S. если купите такую раму и pcie x16 райзеры - понадобится болгарка или хотя бы хорошие ножницы по металлу. Не говорите, что я вас не предупреждал.

Комментарии (21)

GoogleResearch
29.06.2026 18:15
#30167722
Можно влезть в около 20к. Люди за копейки сдают видеокарты с процессором и памятью, и я сам занимаюсь этим: около 10 рублей в час. Если это реально востребовано, то переход на частные сервера — это логичный следующий шаг, но это менее востребовано, чем расширение функций ИИ

Void-Cowboy
29.06.2026 18:15
#30167758
все жду когда появятся или нормальные мануалы для "готовки" промышленных fpga под нейронки (вшивание весов на уровне fpga-логики) или нормальные процессоры по типу епеловских где все есть один процессор на одной оперативке

видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год
1. firegurafiku
  29.06.2026 18:15
  #30168252
  вшивание весов на уровне fpga-логики
  
  Не очень представляю, чтобы это сработало. У моделей миллиарды параметров, у ПЛИС — хорошо если сотни тысяч LUT’ов. Даже если на кодирование каждого бита весов модели в среднем уйдёт всего лишь один лут, арифметика никак не сходится. К тому же, большие ПЛИС стоят ужасно дорого, будет дешевле видеокартами закупиться.
  
  Куда реалистичнее другой подход: реализовать на ПЛИС базовые операции инференса и прогонять через них данные из памяти в память, как это и делают видеокарты, но и тут есть проблемы:
  
  ПЛИС, способные работать с DDR5, прям недешёвые, а по DDR3 много данных не нагоняешь,
  
  ширина шины памяти тоже ограничена кремнием, хорошо если наберётся подходящих пинов на 256 бит данных (а скорей на 128).
  1. Void-Cowboy
    29.06.2026 18:15
    #30168258
    ну да, я где-то это и имел в виду
    
    серверные FPGA-лезвия имеют слоты под оперативку и внутренний жесткий диск с простой ос что загружает в память при старте если нужно
    
    но там каждое первое лезвие закрытое, документацию хрен достанешь и стоит как раз столько же
    
    но есть рынок списанных (под биткоины в основном) а потому возможно когда-то. Главное что если выстрелит то быстро появится дешевле, спрос рождает предложение, а серверные fpga такие дорогие потому что узкая и чрезвычайно денежная ниша
1. izogfif
  29.06.2026 18:15
  #30168284
  видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год
  
  Учитывая, какой нынче спрос (свободный GPU за вменяемую цену в дата-цантрах днем с огнем не сыщешь), а также то, что выпуск потребительских RTX 6090 Ti Super++ откладывается уже чуть ли не на 2028-й, купленные видяхи проживут несколько лет.

savostin
29.06.2026 18:15
#30167814
Тоже считал-считал и выходит, что это по стоимости равно 2 годам подписки макс. Не считая электричества. И мороки. Не сошлась у меня экономика.

Ну ее, эту приватность.

ampir-nn
29.06.2026 18:15
#30167856
Можно влезть в бюджет и до 40 000 руб - 4 штуки P102-100 в общем 40Гб VRAM. Для комфортного использования 32B моделей хватает (20-50 ток сек с контекстом 100K). Если интересно могу написать как как это сделать. Использую llama.cpp, для некоторых задач адаптировал vllm под sm_61 Paskal https://github.com/ampir-nn/vllm-pascal
1. Arioch
  29.06.2026 18:15
  #30168280
  хммм... Раньше Tesla V100 рекомендовали покупать, особенно в SXM (карты 2017 года). Но говорят, что две проблемы
  1. они вслед за актуальными картами подорожали, особенно с 32ГБ, но и 16 ГБ тоже, якобы 25-75 тысяч за штуку (плюс обвязка на SXM)
  2. они не поддерживают каких-то новомодных форматов типа fp4 и новые модели всё чае и чаще на них не работают. Не напрямую, а просто расходятся минимальная версия CUDA для модели и максимальная для процессора.
  
  ...но зато если заработало, то там HBM2, а если ещё и быстрый мост или лучше 32 на одной - то просто рвёт все консьюмерские.
  
  Цена на P102 в 5 тысяч это, конечно, соблазнительно (или это уже скам?). Но там хоть NVLink есть? Как-то скорость памяти вызывает сомнения, да еще на 4 картах через PCI Ex x4, ведь вроде бы она важнее всего в инференсе?
  1. Dreams_and_magic
    29.06.2026 18:15
    #30168482
    аренда v100 стоит 2 цента в час

max9
29.06.2026 18:15
#30167900
ОС: Ubuntu 26 server + KDE plasma + головняк с установкой GUI на server-версию ОС

нет никаких "серверных" линуксов. можно взять kubuntu и одним кликом поставить ее как с кедами, так и без.

и да, GUI там никуда не уперся, будет просто так жрать оперативку, все настраивается и из ссш

badsynt
29.06.2026 18:15
#30167904
Очень много статей и каналов в телеграме на эту тему.

Что-то мне кажется, что кому-то очень хочется сбыть задорого стремительно устаревающие карточки типа V100 и иже с ними... Возможно этот кто-то где-то в Китае...

pon007
29.06.2026 18:15
#30167906
Я квен 35b ,правда квантованную с "турбоквантом" запустил на nvidia 4070 - комп брал б.у. за сотку. Мне для вайбкодинга "для себя" хватает. Глючит редко.
1. slabnoff
  29.06.2026 18:15
  #30168056
  Это в варианте cpu-moe? Я проходил такое. Правда 5060 ти 16 гб. Очень большой ttft (время первого токена) при неплохой скорости генерации. На opencode при работе с многофайловым средним проектом можно было успеть кофе попить. Докинул tesla t10 pg150 16gb (2080ti, ужатый по tdp, шине памяти, но с 16 гб). Намного комфортнее стало. Раз в 10 быстрее. Бюджет 25 тыр: 22 видеокарта, 3 тыр охлаждение от 2080ти.

vazir
29.06.2026 18:15
#30167982
А раму где такую взял? Ссылку можно?
1. yar3333 Автор
  29.06.2026 18:15
  #30168010
  Брал на озоне, но там они закончились. Искать по "Корпус Dr.Miner". Конкретно у меня на 6 видеокарт, но реально скорее на 5.
  1. izogfif
    29.06.2026 18:15
    #30168304
    В него 6 карточек с четырехслотовым охлаждением поместится?

TheSima
29.06.2026 18:15
#30168050
~30 токенов в секунду

Маловато как-то для Qwen3.6 на таком железе, нет ли проблемы со сплитом pci-e? Или рейзеры скорость понижают, скорость режется?
У меня на Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf ~67-70 t/s в MTP на видяшке с пропускной способностью 1,02 TB/s.
RX7900 XTX пропускная способность вроде не на много меньше 960,0 GB/s
1. punzik
  29.06.2026 18:15
  #30168100
  Qwen3.6-35B-A3B - это MoE модель (3B активных параметра), а Qwen3.6-27b - плотная (27B активных), потому разница в скорости. Но плотная заметно умнее. Автору рекомендую обновить llama.cpp до самой свежей версии, не исключено что скорость генерации повысится. У меня на 2х3090 плотный Квен (Q6) даёт до 60 ток/с, а MoE - до 140.

vazir
29.06.2026 18:15
#30168108
А почему АМД? 3090 не сильно вроде дороже но сильно проще в эксплуатации

Areso
29.06.2026 18:15
#30168150
Macbook M1 Max 64 GB - и стоило чуть дешевле, и производительность чуть выше.

выдаёт ~30 токенов в секунду (~7 русских слов). Этого достаточно для комфортного использования как в виде чат-бота, так и для агента (здравствуй, вайб-кодинг).

А вот тут у меня было жесткое разочарование. В режиме чат-бота все ок, в режиме AI-assisted кодинга в IDE - уже нет. Системный промпт + проект, префилл занимает от 5 до 10 минут на копеечную правку.

serg12345678
29.06.2026 18:15
#30168536
игрушки для богатеньких