В прошлый раз мы рассматривали локальный инференс на бюджетных ноутбуках, а потом я попытался запустить gpt-oss-120b на трех видеокартах. Протестировав модель в рабочих задачах, я понял что она может стать заменой облачным провайдерам. Однако, уже тогда стало понятно что десктопные материнские платы и корпуса не могут вместить в себя 3 RTX 3090. Поэтому я присмотрелся к майнерским решениям, где на материнских платах имеется большое количество PCI-слотов с достаточным расстоянием между ними, и все это можно спрятать в просторный корпус. И вот что получилось в итоге:

Видео-вариант статьи можно посмотреть на youtube.

Я преследую цель подобрать потребительское железо для локального инференса, а так как все это делается на энтузиазме и финансирование из собственных средств, то речь идет о бюджетных вариантах, как минимум я стараюсь экономить.

По сути, эта статья отражает весь мой путь в сборке железа и запуска LLM в домашних условиях за год изысканий. А текущая конфигурация некая логически завершенная веха исследований. Мы пойдем коротким путем: рассмотрим несколько материнских плат для майнинга, протестиурем их, а одну прокачаем до максимума и в конце подсчитаем финансовые затраты. Излагать текст буду стараться в хронологическом порядке, чтобы соблюдать логику выводов.

Навигация по тексту:

Модель для тестирования

Как я писал выше, меня интересовал локальный инференс модели gpt-oss-120b. Все тесты ниже проводились на модели от Unsloth с квантизацией Q8_K_XL, если не указано иное. Понятно, что это MoE-модель, а у таких моделей скорость деградирует при заполнении контекста, поэтому мерить будем начальную скорость.

Запуск моделей через llamacpp подробно описал в этой инструкции, дальше тесты будут без тюнингов дополнительных параметров.

Установку NVIDIA-драйвера можно посмотреть здесь, все тесты будут запускаться на версии 580.82.07.

Тестовый запрос на скорость инференса:

Напиши полный код приложения рендера треугольника при помощи vulkan на go.

Видеокарты

Пожалуй, это основа для LLM, поэтому сразу затронем этот вопрос.

Моя первая карта Tesla P40 с кастомной системой охлаждения (даташит) (пост в тг), на которой я проводил первые длительные тесты ИИ в работе. Потребляет всего 250 Вт, имеет разъем питания CPU. В ширину занимает 2 PCI-слота.

После этого приобрел RTX 3090 TI от KFA2 (пост в тг), разъем питания 12+4 pin. Стоковое потребление 450Вт, но на практике не более 360Вт, а максимальное 480Вт. В ширину занимает чуть больше чем 3 PCI-слота.

Затем купил Asus Rog String RTX 3090 с тремя PCI-разъемами. Стоковое потребление 390Вт, а максимальное 480Вт, и она действительно может столько потреблять. В ширину занимает 3 PCI-слота.

Большая часть материала ниже будет использовать 3 вышеперечисленные карты. Но дабы понять сколько можно выжать максимально я приобрел третью RTX 3090 Gigebyte RTX 3090 Gaming OC с двумя PCI-разъемами (пост в тг). Стоковое потребление 350Вт, а максимальное 400Вт. Стандартная RTX 3090.

Комплект: корпус + ETH B75 + БП

Из всего многообразия вариантов на Авито, мой выбор пал на комплект за 3300 рублей, в который входил достаточно качественный горизонтальный корпус, материнская плата ETH B75 v1.12 и шумный блок питания True Miner на 1800Вт. Писал об этом в телеграм-канале.

Корпус

Корпус сделан весьма качественно, метал толстый и покрыт пленкой, но в некоторых местах края метала острые, можно порезаться. Есть крышка. В корпусе имеется секция для блока питания, а под ним можно спрятать часть материнской платы, если влезет кулер процессора.

На передней части корпуса 4 турбинных вентилятора, управляемых через реобас, для которого не нашлось нормального размещения внутри корпуса, вентиляторы обдувают мощным потоком видеокарты. На задней части решетка для выхода воздуха и разъемов видеокарт.

В корпусе крепление самой платы и видеокарт заточены под материнскую плату ETH B75, что может стать проблемой при выборе другой платы для майнинга, потому что расстояние между PCI-слотами может быть больше или меньше, а значит отверстия и крепления не подойдут. Не то чтобы бы это была нерешаемая проблема, но вносит некоторое неудобство.

Плата ETH B75

Плата ETH B75 от неизвестного производителя. На ней 8 PCI-слотов и на каждом по одной PCI-линии. Сокет LGA 1155 поддерживает процессоры Intel Core второго и третьего поколений. В моем случае на плате уже стоял двухядерный Intel Celeron G1610 с частотой 2.6ГГц.

На борту только 1 разъем для плашки памяти DDR3 SO-DIMM. Сетевой порт на 100Mb/s, это мало для скачивания моделей ИИ, приходится долго ждать. Питание на плату подается от PCI-коннектора.

БП

Блок питания оказался очень шумным, вентилятор всегда крутит на 100%, что не подходит для домашнего использования. Однако, количество питающих кабелей в избытке: 8 раздвоенных PCI-кабелей и 1 CPU.

Запуск

Обладая полной уверенностью в успехе затеи, я перекинул все оборудование с хуанана на плату ETH B75.

К моему сожалению Tesla P40 отказалась работать на 1 PCI-линии, карта определяется системой, но драйвер ее не видит. Поиски в интернетах натолкнули на мысль, что эта карта не может работать на одной PCI-линии.

Тогда я прогнал тесты gpt-oss-20b на двух других картах. Загрузка 12гб модели длится около 80 секунд, что очень медленно. Инференс около 100т/с, при этом нагрузка на карту не превышала 80%, а значит конфигурация не позволяет раскрыть всей доступной мощи. Ранее я писал в телеграм-канале что скорость инференса gpt-oss-20b в среднем ~160т/с.

Плата H510 Pro BTC+

Собрав все проблемы я сделал выводы и отправился на поиски другой платы для майнинга, на которой есть хотя бы 1 полноценный PCI-слот с 16-тью линиями, и с более новым сокетом. Такой оказалась H510 Pro BTC+ за 4500р на Авито, во многом превосходящая ETH B75:

  • сокет LGA 1200, есть поддержка Intel Core 10 и 11 поколений

  • 1 слот DDR4 с частотой до 3200МГц

  • гигабитная сеть

  • полноценный PCI-слот на 16 линий

  • синхронизаторы питания для подключения двух БП

В комплекте были двухядерный Celeron G5905 с частотой 3.5ГГц и плашка от AMD на 8гб с частотой 2400МГц. Под конец вы поймете что апгрейдить эти комплектующие не обязательно, потому что профит слишком мал для такой цены.

Полный надежд на лучший опыт и более быстрый инференс я перекинул все оборудование на новую плату. Кулер снял со своей экспериментальной платы Lenovo RD450x, как оказалось у него был переходник на сокет LGA 1200.

Модель gpt-oss-120b грузится 3,5 минуты, очень долго, но это мы разберем позже. Инференс около 65т/с, из-за слабой Tesla P40.

Еще одна RTX 3090 и новый БП

Теперь мне нужно попытаться еще выжать скорость и “одомашить” сборку, чтобы она не была такой шумной при использовании.

На замену Tesla P40 я купил Gigebyte RTX 3090 Gaming OC, о которой писал выше. А шумный БП заменил на мощный и тихий блок питания Azerty Red Power 1050w (на Ozon) за 5000р.

Но так как на блоке питания не хватало PCI-кабелей для полноценного питания всех видеокарт, пришлось использовать вторые коннекторы на тех же самых кабелях и понизить энергопотребление (до 170Вт), без этого карты периодически отваливаются.

Тем не менее даже при таком раскладе мне удалось добиться 100т/с на этой сборке.

Как ускорить загрузку модели?

Загрузка модели на видеокарты длится 3 минуты 30 секунд, при размере модели 64.4гб скорость составляет ~314MB/s, это долго.

Изначально я подключил SSD диск через SATA, а это уже ~550 MB/s. Вся периферия включая 5 PCI-слотов, SATA и диск через m2 идут через DMI чипсета, который ограничен скоростью PCIe 3.0 на 4 линии, а это ~4 GB/s. Схематично это выглядит так (здесь и далее скорости указаны упрощенно):

SATA SSD (~550 MB/s)
 → DMI (~4 GB/s)
  → CPU
 → DMI (~4 GB/s)
 → PCIe x1 (~1 GB/s)
 → GPU

При таком подключении происходит двойная нагрузка на пропускную способность DMI чипсета платы. Профита от m2 тоже ждать не стоит, потому что даже в описании платы написано что он поддерживает режим SATA3 6 Гбит/с, тем более что m2 будет гонять данные через DMI. К тому же m2 у меня не завелся, ни с переходником на PCI-слот, ни напрямую.

Ускорение мы сможем получить если снизим нагрузку на DMI, для этого нам нужно вынести чтение данных, например на первый PCI-слот который 16-ю линиями идет напрямую на CPU по такой схеме:

NVMe (~3 GB/s)
 → PCIe x4 (~4 GB/s)
 → CPU
 → DMI (~4 GB/s)
 → PCIe x1 (~1 GB/s)
 → GPU

Я перенес все данные моделей ИИ на NVMe-диск и подключил его через PCI-переходник в первый слот. Получилось сократить загрузку моделей на видеокарты с 3 минут 30 секунд до 2-х минут, скорость загрузки выросла на ~240MB/s до ~549MB/s.

А почему не ~1GB/s? Наверное потому что для PCI x1 3.0 теоретический максимум ~985 MB/s, а загрузка модели это не просто memcpy, это: расспаковка, аллокация памяти, копирование и возможно конвертация. К тому же на DMI держится вся периферия, и отсутствие видимых данных внутри шины не говорит о ее бездействии.

Для себя я сделал вывод, что дальше оптимизировать некуда, кроме как переходить на другую плату. Однако, первоначальная загрузка, это не такой уж частый процесс. Поэтому идем дальше.

Финальный апгрейд: CPU + RAM + БП

Следующим этапом апгрейда будет блок питания, чтобы не ограничивать энергопотребление, более мощный процессор и более быстрая оперативная память.

У меня было подозрение, что двухядерный Celeron и 2400МГц на ОЗУ не дают раскрыться всей вычислительной мощи RTX 3090, поэтому я присмотрел 6-ти ядерный Intel Core i5 10600kf за 7000р с базовой частотой 4.1ГГц и поставил ОЗУ на 16гб с частотой 3200МГц, которую я взял еще до повышения цен.

Я не стал далеко ходить и выбрал самый мощный блок питания от Azerty на 1200Вт за 6000р (на Авито, на Ozon), в нем есть 12vhpwr для RTX 3090 TI от KFA2, и 5 разъемов для питания PCI, один из них пойдет на питание процессора, а значит остается 4. Но этого вполне хватает чтобы запитать плату и 3 видеокарты RTX 3090 без ограничения по энергопотреблению. Недостающие кабели я взял с предыдущего БП этого же производителя.

В итоге: скорость загрузки модели не изменилась, а скорость инференса увечилась всего-лишь примерно на 10% до 110т/с.

Можно выиграть еще несколько токенов если загрузить оригинальную квантизацию в формате mxfp4 (например от ggml-org).

Энергопотребление всей сборки во время инференса ~800Вт.

А чтобы закрыть крышку корпуса и при этом не согнуть провода я купил угловые коннекторы:

Какова цена?

Настало время подсчитать во сколько вся эта сборка может обойтись:

Название

Цена (руб)

Примечание

Корпус

3300

Плата ETH B75 не подходит для инференса, БП True Miner не для домашнего использования

Плата H510 Pro BTC+ и Celeron G5905 + ОЗУ 8GB 2400MHz

4500

CPU и RAM можно не апгрейдить, профит незначительный

Блок питания Azerty на 1200W

6000

Azerty Red Power 1050W не в счёт, в итоговой сборке не используется

Кулер

1200

Диск SSD на 512GB

7000

Цена взята с Ozon

Итого (без видеокарт)

22000

Без последнего апгрейда

RTX 3090 × 3 (одна в среднем 60000)

180000

Tesla P40 не в счёт, в итоговой сборке не используется

Итого вся сборка

202000

Не считая мелочей (кабели, коннекторы и т.д.), промежуточные траты (ОЗУ, CPU i5)

Итог

Если вы сразу перешли в этот раздел, то вот вам результаты:

  • загрузка модели gpt-oss-120b размером 64.4гб ~2 минуты

  • скорость генерации ответа ~100т/с (цена сборки: 202к рублей)

  • скорость генерации ответа при максимальном апгрейде и на mxfp4 квантизации ~115т/с

Пройдя весь этот путь в течение года я получил большой опыт как в сборке железа под локальные модели ИИ, точнее под LLM, так и в запуске этих самых моделей.

Однако, не стоит забывать что на данный момент (апрель 2026 года) облачный инференс значительно дешевле по финансам и умнее локального, в этом я убедился на своей практике в рабочих задачах. В обоих случаях есть свои издержки, в локальном инференсе нужно платить временем и финансами, а в облачном нужна “вера в приватность”. Найдутся сторонники и того и другого.

В своей работе DevOps-инженером я выяснил что модель gpt-oss-120b хорошо справляется как LLM в рабочих задачах, достаточно быстрая и умная. Так что подобные сборки имеют смысл в среде, где приватность важнее денег.

Что дальше? У меня есть сборка на AM4, Threadripper и я присматриваюсь к Epyc, хочется понять какую скорость инференса можно из этого выжать и в каком бюджете.


В своем телеграм-канале я выкладываю посты про мои исследования локального инференса. А у себя на сайте выкладываю инструкции.

Комментарии (26)


  1. chesser76
    06.04.2026 13:40

    Спасибо за обзор! Тоже хотел попробовать H510, но пока сижу на АМ5 сборке с двумя видяхами в обычном ATX корпусе. Большие модели конечно не влезают, но пока и так хватает.


  1. pz_true
    06.04.2026 13:40

    А насколько умнее, по вашим ощущениям, gpt-oss-120b против gpt-oss-20b ?


    1. zartdinov
      06.04.2026 13:40

      Ну вообще 5 месяцев прошло, наверное, лучше вместо нее уже gemma4 штуки 3 поднять (20gb вместо 64gb), каждая мощнее в теории:
      https://benchlm.ai/compare/gemma-4-31b-vs-gpt-oss-120b

      Вообще не особо интересуюсь этими моделями, но много интересных выходило (GLM, Qwen и тд.). Не очень понимаю интереса в этом gpt-oss, его же на коленке собрали ради маркетинга еще давно.


    1. Byurrer Автор
      06.04.2026 13:40

      Значительно умнее, как минимум она содержит в 6 раз больше информации внутри себя. Это как словарный запас у человека, чем больше тем интереснее речь.


  1. MxMaks
    06.04.2026 13:40

    Эти майнерские материнские платы сами по себе крайне слабы. Майнинг и инференс сильно отличаются по обмену данными через плату. Такие платы угробят все преимущества от карт. Лучше норм плату с несколькими 16х слотами и в двухэтажном корпусе соединять с картой через райзер.


    1. Byurrer Автор
      06.04.2026 13:40

      Вся переферия через DMI идет со скоростью PCI 3.0 x4. Сколько нужно пропускной способности чтобы не гробить преимущества карт?


  1. sintech
    06.04.2026 13:40

    Для тех кто застал в компьютерах настоящий https://ru.wikipedia.org/wiki/PCI, использование сокращения PCI вместо PCIe вызывает некий диссонанс.


  1. gordeylobanov248
    06.04.2026 13:40

    Судя по вентиляторам это шумит как вертолет. А если нет, то в корпусе скорее всего печка


    1. Byurrer Автор
      06.04.2026 13:40

      Не шумит и не печка, там же реобас стоит, которым можно регулировать скорость вращения. Один раз выставил нужный чтобы обдувал и не громко.


  1. Triton5
    06.04.2026 13:40

    gpt-oss-120b это довольно-таки слабая модель при большом размере, более современные модели заметно интереснее:)

    Облачный ИИ намного сильнее и умнее, но как же оно жрёт токены...))


    1. Byurrer Автор
      06.04.2026 13:40

      Какие модели порекомендуете взамен gpt-oss-120b? Желательно чтобы в 72гб видеопамяти умещались.

      Я тестировал glm-4.7-flash но она на первом же промпте (речь была про формулы prometheus) проиграла, а gpt-oss-120b на тот же самый промпт выдала верный результат. Хотя в размышлениях glm-4.7-flash более активна чем gpt-oss-120b.

      Дипсики дистилированные тоже сходу проигрывали на мои запросы из рабочих задач.


      1. morginalium
        06.04.2026 13:40

        выше уже писали, но продублирую - gemma4 (вышла пары дней назад) и qwen3.5 - обе быстрые, обе супер-умные.


      1. Triton5
        06.04.2026 13:40

        в общем и целом - поновее:)


      1. SabMakc
        06.04.2026 13:40

        В подобном размере Qwen3.5-122B-A10B и NVIDIA-Nemotron-3-Super-120B-A12B идут. Но они медленнее будут - активных токенов больше почти в 2 раза. Можно и меньший размер - gemma4 действительно удивляет (при очень скромном размере).

        Но надо пробовать на своих задачах - заранее ни кто не скажет их эффективность на них.


  1. melodictsk
    06.04.2026 13:40

    Т. К. 3090 имеет на борту псие 4.0, то и мать надо выбирать соответствующую. Потребительские матери, где на борту есть полноценный 16х 4.0 и пара 4х 4.0 м2 вполне вывезут на полной скорости ллм. Естественно озу надо побыстрее, может так получиться, что моделька не влезет в видеокарты, хоть проц возьмёт на себя часть нагрузки. На сетевую нет смысла заморачиваться, достаточно использовать свисток в усб3, там хоть 2, 5 хоть 5гбит сети есть недорого, а усб в современных процессорах напрямую в процессор. Ссд засунуть в пси 1х. А ещё есть сплитеры и 16х можно попилить.

    Мамки на эпиках киллерфича. Если есть, брать их.


  1. badsynt
    06.04.2026 13:40

    gpt-oss-120b - очень хорошая модель, особенно для умных математических вопросов. У меня она работает на одной RTX 3060 12GB со скоростью 6 токенов в секунду. Учитывая, что она думает перед этим, то получается не быстро, но вполне терпимо. Свежеиспеченная Gemma 4 26B A4B по бенчмаркам (за исключением математических вопросов) даже лучше и выдает 15 токенов/сек. Тенденция намечается такая, что для инференса видеокарты будут не особо нужны. Так что лучше положить глаз на что-то вроде Asus Pro WS WRX90E-SAGE SE с восьмиканальной памятью. Цены и сейчас не астрономические, а когда это все перейдет в категорию б/у (и DDR5 подешевеет ;) , глядишь и норм будет. Но это будет универсальная тачка, а не чудо в перьях. Если Эпики подешевеют быстрее Рипперов то да, и на них можно смотреть.


    1. Byurrer Автор
      06.04.2026 13:40

      Один подписчик с тг приходил за настройкой сервера на Threadripper. Мы протестировали и оказалось что gpt-oss-120b выдает скорость 20т/с на CPU, а при задействоании 48гб VRAM все 40т/с. Мне самому стало интересно я купил себе Threadripper для тестов, но еще не добрался.


  1. Ivan_shev
    06.04.2026 13:40

    Тоже была идея попробовать запустить LLM на материнке от майнера, но денег нет, и в делах таких я не силен. Хорошо что не стал это делать, спасибо за статью.


  1. Mintavrus
    06.04.2026 13:40

    Gpt-oss-120 уже устаревшая модель и уступает в качестве генерации новым моделям типа Qwen3.5 27b и Gemma4 31b, которые занимают в несколько раз меньше памяти. Я запускаю эти модели на двух rtx3090 в квантовании Q6 с помощью llama.cpp, с контекстом 256k, kv-кэш f16. Веса с кэшем контекста как раз аккурат вмещается в 48 гигабайт VRAM. Скорость генерации ~30 токен/сек (промпт ~1500 токен/сек). При контексте >150k скорость ~23 токен/сек. Результатами доволен. Загрузка моделей с nvme накопителя за 10 секунд максимум.

    P.S. использую серверную двухпроцессорную материнку Supermicro X11DPI-NT, ее большой плюс что на втором CPU висят 3 полноразмерных слота PCI 3.0 x16, на которые можно повесить 3 видеокарты и практически нивелировать потери скорости


    1. MxMaks
      06.04.2026 13:40

      Вот думаю взять как раз 4090 с распаянными 48gb, либо уже H200 сразу))


  1. VO_Obsidian
    06.04.2026 13:40

    А в чем смысл трех видеокарт если между ними пропускная способность ограничена PCIe 3.0 x4? Если гонять 3 отдельных агента, чтоб каждая модель влезала целиком в одну видеокарту - ну да, но распределенный инференс не получиться нормально, половина слоёв на одной видеокарте, половина на другой, между видеокартами надо гонять результаты вычисления. gpt oss это MoE, так что может тут не так сильно падает производительность, но для плотных моделей это точно будет серьёзным боттлнеком.


    1. Mintavrus
      06.04.2026 13:40

      Последние версии llama.cpp на новых плотных моделях Gemma4 31b и Qwen3.5 27b отлично распараллеливают слои по видеокартам. Производительность в токенах не падает (но и не растет естественно), но зато VRAM удваивается и можно загружать более тяжёлые модели или использовать больший размер контекста. Например, Qwen3.5 27b q6_k весит 22,5 ГБ. Ее можно запустить за одной RTX3090 и получить 25-30 токен/сек. Но с маленьким контекстом в несколько тысяч токенов, дальше уже не хватает видеопамяти. На двух 3090 эту же модель можно запустить уже с максимальным контекстом в 256 тысяч токенов и получить теже 30 токенов/сек. А с большим размером контекста уже можно делать реальные вещи: скармливать модели портянки на 8000 строк кода, подключать инструменты вроде Context7 и одновременно давать например файл с документацией по API какого либо сервиса - и после этого ставить задачу, например оптимизации кода, добавлению в код новых функций по взаимодействию с сервисом и т.д. Код, документация и инструменты сразу отжимают больше 100 тысяч токенов, но при этом модель продолжает нормально и быстро работать. Оставшихся 150 тыс хватает чтобы выполнить задачу, провести тестирование , выявить ошибки. Использование второй видеокарты просто кардинально и принципиально меняет дело. Я никогда не занимался программированием, но уже столько всего для своего умного дома на создавал с помощью такого вайбкодинга


    1. Byurrer Автор
      06.04.2026 13:40

      Даже не x4, а x1. Но это не мешает инференсу, потому что –split-mode layer


  1. Corsair_NCH
    06.04.2026 13:40

    Подскажите какую модель попробывать у меня остались такие железки: 2 Epyc 7502, 224гб озу есс ddr4, видеокарты есть 3070м 8гб, cmp 50нх.


    1. Byurrer Автор
      06.04.2026 13:40

      Эта статья должна тебе помочь понять как более эффективно запускать большие модели на твоем железе: https://habr.com/ru/articles/961478/


  1. h0ldfast69
    06.04.2026 13:40

    Я собирал совсем недавно похожую машину. Платформа lga2066, asus extreme VI apex, core i9 7920x, 16gb ddr4, 2 карточки mi50 32gb (максимум четыре в x8 pci-e 3.0

    Вышло несколько дешевле. Грубо говоря комплект из хлама, корпус пожилой nzxt на 8 слотов PCI

    34 400 - платформа

    8 000 - проц

    5 000 - корпус

    32 000 видяха+5 000обслуживание

    45 000 вторая видяха

    11 000 - блок питания zalman 1200

    Итого 140400 примерно