Конечно, можно купить готовый (за ~1.3 млн. руб. есть неплохие варианты), но нам ведь главное процесс, ведь так? К тому же, не все готовы выложить такую сумму за возможность запускать дома нейронку. Итак, что нам пригодится, чтобы влезть в бюджет до 400 тыс. руб.:

  • корпус или рама, например, такая (~7 тыс. руб.):

Dr. Miner
Dr. Miner
  • мат. плата + процессор + память (от 64 Гб, лучше 128 Гб, б/у - хороший вариант)

  • видеокарты, допустим 4 шт. по 24 Гб (например, AMD RX 7900 XTX по ~75 тыс. руб. на вторичке):

    AMD RX 7900 XTX
    AMD RX 7900 XTX
  • парочка блоков питания по ~1.2 кВт

  • синхронизатор блоков питания (небольшая платка, чтобы блоки питания стартовали одновременно)

  • райзеры для подключения видеокарт (бывают разные, сойдут и USB-варианты, но мы будем использовать в виде шлейфов pcie x16):

    Райзер pcie x16
    Райзер pcie x16
  • сплиттер pcie x16 на 2 по x8 или 4 по x4 (у нас ведь нет 4-х разъёмов pcie на плате, ведь так?); помните, что BIOS мат. платы должен поддерживать соответствующий режим бифуркации!

    Сплиттер pcie x16 на 4 по x4
    Сплиттер pcie x16 на 4 по x4
  • SSD/HDD по вкусу, но лучше не меньше чем на 1 TB

  • не забываем про кабели для БП (часто на БП есть выходы под новомодные 12VHPWR, но не во все видеокарты можно воткнуть такой провод - ищите 12VHPWR to 3 x 2x8pin reverse cable, если у вас на видеокарте разъёмы 2x8pin)

  • корзина для дисков, если хочется шикануть; настоящие diy-еры могут спроектировать свою:

    Корзина для дисков 2.5" (модуль)
    Корзина для дисков 2.5" (модуль)

Что получаем по итогу? Судите сами:

Топовый домашний сервер для запуска LLM массой ~10 кг
Топовый домашний сервер для запуска LLM массой ~10 кг

Что по софту?

ОС: Ubuntu 26 server + KDE plasma + головняк с установкой GUI на server-версию ОС

Запуск LLM: сервис на базе llama.cpp (rocm* и vulkan под капотом работают приблизительно одинаково для видеокарт AMD; vulkan чуть быстрее); можно поставить docker и запустить local AI, где удобно крутить всякое-разное, а не только LLM.

* ROCM - это аналог NVIDIA/CUDA, но для видеокарт от AMD; сейчас усиленно развивается, но пока не дотягивает до лидера; уже поддерживается много где, но не всегда успешно :)

Практический тест: qwen3.6-27b в квантовании Q8 с контекстом в 250 тыс. токенов со встроенным MTP (это небольшая draft-модель внутри основной модели, позволяющая делать вычисления наперёд и ускоряющая работу в ~2 раза) выдаёт ~30 токенов в секунду (~7 русских слов). Этого достаточно для комфортного использования как в виде чат-бота, так и для агента (здравствуй, вайб-кодинг).

Если бюджет резиновый

GPU на таком сервере у нас будут работать последовательно. Почему? Для одновременной работы видеокарт (tensor parallelism) нужен очень быстрый обмен данными между видеокартами. А здесь у нас два варианта - либо иметь систему с несколькими линиями pcie x16 (ищи серверные процессоры со 128 линиями pcie, например, модели AMD Threadripper), либо иметь серверные видеокарты, которые имеют отдельные мостики для подключения друг к другу (например, AMD Instinct).

Если вы любите страдать

Существует софт, оптимизированный под запуск LLM (вместо llama.cpp). Например, vllm. Заставить его работать на потребительских видеокартах от AMD - проще простого (нет). А ведь мы не ищем лёгких путей. Поэтому, пусть всё же будет llama.cpp.

Что в итоге?

Сервер крутится, программировать помогает. А что ещё нужно для счастья простому программисту? :)

P.S. если купите такую раму и pcie x16 райзеры - понадобится болгарка или хотя бы хорошие ножницы по металлу. Не говорите, что я вас не предупреждал.

Комментарии (21)


  1. GoogleResearch
    29.06.2026 18:15

    Можно влезть в около 20к. Люди за копейки сдают видеокарты с процессором и памятью, и я сам занимаюсь этим: около 10 рублей в час. Если это реально востребовано, то переход на частные сервера — это логичный следующий шаг, но это менее востребовано, чем расширение функций ИИ


  1. Void-Cowboy
    29.06.2026 18:15

    все жду когда появятся или нормальные мануалы для "готовки" промышленных fpga под нейронки (вшивание весов на уровне fpga-логики) или нормальные процессоры по типу епеловских где все есть один процессор на одной оперативке

    видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год


    1. firegurafiku
      29.06.2026 18:15

      вшивание весов на уровне fpga-логики

      Не очень представляю, чтобы это сработало. У моделей миллиарды параметров, у ПЛИС — хорошо если сотни тысяч LUT’ов. Даже если на кодирование каждого бита весов модели в среднем уйдёт всего лишь один лут, арифметика никак не сходится. К тому же, большие ПЛИС стоят ужасно дорого, будет дешевле видеокартами закупиться.

      Куда реалистичнее другой подход: реализовать на ПЛИС базовые операции инференса и прогонять через них данные из памяти в память, как это и делают видеокарты, но и тут есть проблемы:

      • ПЛИС, способные работать с DDR5, прям недешёвые, а по DDR3 много данных не нагоняешь,

      • ширина шины памяти тоже ограничена кремнием, хорошо если наберётся подходящих пинов на 256 бит данных (а скорей на 128).


      1. Void-Cowboy
        29.06.2026 18:15

        ну да, я где-то это и имел в виду

        серверные FPGA-лезвия имеют слоты под оперативку и внутренний жесткий диск с простой ос что загружает в память при старте если нужно

        но там каждое первое лезвие закрытое, документацию хрен достанешь и стоит как раз столько же

        но есть рынок списанных (под биткоины в основном) а потому возможно когда-то. Главное что если выстрелит то быстро появится дешевле, спрос рождает предложение, а серверные fpga такие дорогие потому что узкая и чрезвычайно денежная ниша


    1. izogfif
      29.06.2026 18:15

      видяхи ради видях не особо практично, если уж вкладывать 5-10к$ то в что-то что не устареет и/или умрет через год

      Учитывая, какой нынче спрос (свободный GPU за вменяемую цену в дата-цантрах днем с огнем не сыщешь), а также то, что выпуск потребительских RTX 6090 Ti Super++ откладывается уже чуть ли не на 2028-й, купленные видяхи проживут несколько лет.


  1. savostin
    29.06.2026 18:15

    Тоже считал-считал и выходит, что это по стоимости равно 2 годам подписки макс. Не считая электричества. И мороки. Не сошлась у меня экономика.

    Ну ее, эту приватность.


  1. ampir-nn
    29.06.2026 18:15

    Можно влезть в бюджет и до 40 000 руб - 4 штуки P102-100 в общем 40Гб VRAM. Для комфортного использования 32B моделей хватает (20-50 ток сек с контекстом 100K). Если интересно могу написать как как это сделать. Использую llama.cpp, для некоторых задач адаптировал vllm под sm_61 Paskal https://github.com/ampir-nn/vllm-pascal


    1. Arioch
      29.06.2026 18:15

      хммм... Раньше Tesla V100 рекомендовали покупать, особенно в SXM (карты 2017 года). Но говорят, что две проблемы
      1. они вслед за актуальными картами подорожали, особенно с 32ГБ, но и 16 ГБ тоже, якобы 25-75 тысяч за штуку (плюс обвязка на SXM)
      2. они не поддерживают каких-то новомодных форматов типа fp4 и новые модели всё чае и чаще на них не работают. Не напрямую, а просто расходятся минимальная версия CUDA для модели и максимальная для процессора.

      ...но зато если заработало, то там HBM2, а если ещё и быстрый мост или лучше 32 на одной - то просто рвёт все консьюмерские.

      Цена на P102 в 5 тысяч это, конечно, соблазнительно (или это уже скам?). Но там хоть NVLink есть? Как-то скорость памяти вызывает сомнения, да еще на 4 картах через PCI Ex x4, ведь вроде бы она важнее всего в инференсе?


      1. Dreams_and_magic
        29.06.2026 18:15

        аренда v100 стоит 2 цента в час


  1. max9
    29.06.2026 18:15

    ОС: Ubuntu 26 server + KDE plasma + головняк с установкой GUI на server-версию ОС

    нет никаких "серверных" линуксов. можно взять kubuntu и одним кликом поставить ее как с кедами, так и без.

    и да, GUI там никуда не уперся, будет просто так жрать оперативку, все настраивается и из ссш


  1. badsynt
    29.06.2026 18:15

    Очень много статей и каналов в телеграме на эту тему.

    Что-то мне кажется, что кому-то очень хочется сбыть задорого стремительно устаревающие карточки типа V100 и иже с ними... Возможно этот кто-то где-то в Китае...


  1. pon007
    29.06.2026 18:15

    Я квен 35b ,правда квантованную с "турбоквантом" запустил на nvidia 4070 - комп брал б.у. за сотку. Мне для вайбкодинга "для себя" хватает. Глючит редко.


    1. slabnoff
      29.06.2026 18:15

      Это в варианте cpu-moe? Я проходил такое. Правда 5060 ти 16 гб. Очень большой ttft (время первого токена) при неплохой скорости генерации. На opencode при работе с многофайловым средним проектом можно было успеть кофе попить. Докинул tesla t10 pg150 16gb (2080ti, ужатый по tdp, шине памяти, но с 16 гб). Намного комфортнее стало. Раз в 10 быстрее. Бюджет 25 тыр: 22 видеокарта, 3 тыр охлаждение от 2080ти.


  1. vazir
    29.06.2026 18:15

    А раму где такую взял? Ссылку можно?


    1. yar3333 Автор
      29.06.2026 18:15

      Брал на озоне, но там они закончились. Искать по "Корпус Dr.Miner". Конкретно у меня на 6 видеокарт, но реально скорее на 5.


      1. izogfif
        29.06.2026 18:15

        В него 6 карточек с четырехслотовым охлаждением поместится?


  1. TheSima
    29.06.2026 18:15

    ~30 токенов в секунду

    Маловато как-то для Qwen3.6 на таком железе, нет ли проблемы со сплитом pci-e? Или рейзеры скорость понижают, скорость режется?
    У меня на Qwen3.6-35B-A3B-UD-Q8_K_XL.gguf ~67-70 t/s в MTP на видяшке с пропускной способностью 1,02 TB/s.
    RX7900 XTX пропускная способность вроде не на много меньше 960,0 GB/s


    1. punzik
      29.06.2026 18:15

      Qwen3.6-35B-A3B - это MoE модель (3B активных параметра), а Qwen3.6-27b - плотная (27B активных), потому разница в скорости. Но плотная заметно умнее. Автору рекомендую обновить llama.cpp до самой свежей версии, не исключено что скорость генерации повысится. У меня на 2х3090 плотный Квен (Q6) даёт до 60 ток/с, а MoE - до 140.


  1. vazir
    29.06.2026 18:15

    А почему АМД? 3090 не сильно вроде дороже но сильно проще в эксплуатации


  1. Areso
    29.06.2026 18:15

    Macbook M1 Max 64 GB - и стоило чуть дешевле, и производительность чуть выше.

    выдаёт ~30 токенов в секунду (~7 русских слов). Этого достаточно для комфортного использования как в виде чат-бота, так и для агента (здравствуй, вайб-кодинг).

    А вот тут у меня было жесткое разочарование. В режиме чат-бота все ок, в режиме AI-assisted кодинга в IDE - уже нет. Системный промпт + проект, префилл занимает от 5 до 10 минут на копеечную правку.


  1. serg12345678
    29.06.2026 18:15

    игрушки для богатеньких