В последнее время становится все более популярным локальный запуск LLM. У каждогг свои причины, но основные это: проблемы с западными сервисами, нестабильный интернет и утечка данных в открытый доступ (преценденты уже были).

В этой статье я расскажу как запускал LLM локально на майнинговом железе, какие тонкости есть при запуске. Расскажу архитектуру моей сборки и примерную стоимость железа. Также протестирую скорость работы с некоторыми наиболее популярными MoE LLM, включая модели от гугла и ChatGPT. По поводу целесообразности подобных сборок решение каждый примет сам исходя из своих задач и финансовых ресурсов.

На хабре уже есть несколько статей про локальный запуск LLM на сборках из нескольких GPU

В этих статьях используются майнинговые GPU на игровых материнках либо игровые GPU на майнинговых материнках. Я же решил попробовать майнинговые GPU на майнинговых материнках. То есть на обычной майнинг ферме.

Перейдем к железу: у меня обычная майнинговая ферма из 2016 года. в последние 5 лет такое железо продается на барахолках по цене 10-20% от цены в 2016 году.

материнская плата:H510 Pro BTC+. Видеокарты: 3 штуки p106-100 и одна p104-100 (каждая карта по 1000-2000руб на авито). Корпус майнинговый название не помню. Процессор i3-10100 , ОЗУ 32ГБ  ddr3 кажется. ssd 1tb. Колесики для корпуса из леруа. Кулеры 5 шт с ручной регулировкой частоты вращения.
материнская плата:H510 Pro BTC+. Видеокарты: 3 штуки p106-100 и одна p104-100 (каждая карта по 1000-2000руб на авито). Корпус майнинговый название не помню. Процессор i3-10100 , ОЗУ 32ГБ ddr3 кажется. ssd 1tb. Колесики для корпуса из леруа. Кулеры 5 шт с ручной регулировкой частоты вращения.

Порядок работы:

  1. Установка виндовс

  2. Установка неофициальных драйверов под видеокарты (официальных у нвидиа нет для майнинговах карт под винду)

  3. Устанавливаем LM studio либо Kubold.ccp (старые gpu с архитектурой pascal работают чуть быстрее в Kubold, поэтому все тесты я проводил там)

  4. Прямо в LM studio находим и скачиваем нужные LLM. Я скачал gemma-4-26B-A4B-it-QAT-GGUF в Q4 Qwen3.6-35B-A3B-GGUF тоже в Q4 и еще несколько.

Запускаем gemma 26B сначала на одной GPU p106-100 чтобы было от чего отталкиваться.

получаем 11,52 токенов в секунду. Если учитывать, что человек читает в среднем со скоростью 5-10 токенов в секунду, то этим уже можно пользоваться. Все, что ниже 10 уже кажется мучительно долго для среднего человека.
получаем 11,52 токенов в секунду. Если учитывать, что человек читает в среднем со скоростью 5-10 токенов в секунду, то этим уже можно пользоваться. Все, что ниже 10 уже кажется мучительно долго для среднего человека.

Теперь запускаем на двух GPU p106-100. Gemma 26B занимает порядка 14 гб поэтому в 2 видеокарты по 6гб она не помещается. Часть остается в ОЗУ.

получаем скорость 9,67 т/с что ниже, чем с одной видеокартой. Распределение LLM по двум GPU и ОЗУ оказалось хуже, чем распределение той же LLM между одним GPU и ОЗУ.
получаем скорость 9,67 т/с что ниже, чем с одной видеокартой. Распределение LLM по двум GPU и ОЗУ оказалось хуже, чем распределение той же LLM между одним GPU и ОЗУ.

Запускаем на 3 p106-100. На деффолтных настройках 14 гб gemma не умешается в трех картах по 6 гб, но с ручными настройками можно уместить.

получаем 12.16 т/c если не распределить LLM по трем видеокартаи и 19,11 т/c если уместить LLM в GPU
получаем 12.16 т/c если не распределить LLM по трем видеокартаи и 19,11 т/c если уместить LLM в GPU

Добавление четвертой видеокарты дает нам те же 19-20 т/с, но LLM уже по дефолту умещается в видеокарты. И контекст не нужно ограничивать, он в kubold 12000 по умолчанию.

Сначала карты работали не очень стабиньно, выдавая то 20, то 15, то 10 токенов в секунду.

на двух верхних графиках видно, что карты  скидывают частоты по непонятной причине. Соответственно инференс в это время замедляется.
на двух верхних графиках видно, что карты скидывают частоты по непонятной причине. Соответственно инференс в это время замедляется.

Пришлось жестко зафиксировать частоты карт через MSI afterburner.

это мои настройки по разгону gpu в msi afterburner
это мои настройки по разгону gpu в msi afterburner
  • В итоге gemma26B в Q4 c нормальным контекстом 12000 выдает стабильные 19-20 т/с на четырех GPU.

  • Для сравнения тут запуск gemma4 26b на 4 майнинговых GPU cmp50hx через райзеры. Скорость 22т/c:( https://youtube.com/watch?v=tqaw5HJMFxU&si=lU5Rn-nQrGVvFzuY Gemma 4 26В и 31В на 2х СМР 50НХ: сколько токен/сек выжмет майнинг-карта? )

  • Qwen3.6-35B-A3B вQ4 выдает у меня те же 19-20 т/с c таким же контекстом.

  • Для сравнения: тот же qwen35b выдает 27 т/с на 3060 12 гб на дефолтных настройках LM studio. ( инфа отсюда: https://youtube.com/watch?v=QxpRuOAw-BE&si=7nQsYeg8sJtv-f96 )

  • MiniPC с AMD AI395+ 128гб ОЗУ с qwen35b выдает около 60 т/c

  • Ну и наконец тестим GPT-oss 20B: результат получился 25т/с с тем же контекстом 12288

Выводы:

  1. Все конфигурации ферм, которые я собирал и которые видел в сети выдавали 15-20 т/с. Если Вас такая скорость устраивает-то можете пробовать запускать LLM на майнинг фермах.

  2. Запускать маленькие модели в 20-40B параметров не имеет особого смысла на фермах. Обычные игровые ПК обеспечат скорость выше 15-20 токенов или примерно такую же.

  3. Запуск средних моделей с более 100 млрд параметров( типа Qwen122B 75GB или gpt-oss120B 63GB) может иметь смысл на майнинг фермах. Если кто-то уже запускал-пожалуйста поделитесь результатом в комментах.

Комментарии (28)


  1. Moog_Prodigy
    03.07.2026 11:22

    С этими p102-100 невезуха какая то с драйверами. Знакомый купил ее для майнинга - еще когда там какой-то выхлоп был, перепрошитая она была на 10gb. А он только под линуксом работает. Полгода он дрова под нее подбирал - не завелась. Я взял у него на время - поставил под вин10, и даже мелкая llm какая то запустилась. То есть реальные 10gb там были и скорость неплохая такая. Отдал я ему обратно эту карту. Прошло три года. Он мне и говорит - а забирай, может что сделаешь с ней. Ну я ее воткнул, систему с нуля (вин10) накатил, давай искать дрова, нашел целую кучу дров но половина не подходят, половина ставятся и даже карту видят, но cuda не пахает, приложухи ее не видят. Столько танцев с бубном было, и без толку. Вот и вопрос - три года назад то у меня она завелась на этом же компе...


    1. Melirius
      03.07.2026 11:22

      Сохранять надо драйвер, который завёлся. У меня лежат, заботливо сложенные, аж начиная от Radeon 1950Х под AGP - до сих пор помню тот геморрой.


  1. NeoCode2
    03.07.2026 11:22

    Завидую людям которые в этом разбираются и у которых хватает сил и нервов на все эти танцы с бубнами))

    Я вот думаю имеет ли смысл купить RTX 4060 Ti (16 GB VRAM) - ее мне советуют сразу все чатботы, с учетом ограничений по бюджету и далеко не новой конфигурации компа (которая впрочем меня устраивает во всём, кроме отсутствия возможности экспериментов с локальными нейросетями).


    1. Neizvestniv
      03.07.2026 11:22

      Не претендую на мега опыт, просто решил поделиться. Я люблю поиграть в различные игры, и тут попалась мне игрушка на llm. Что то типа динамически генерируемой визуальной навеллы. Так вот, моя 5070 ti тянет ее, но не достаточно быстро. На gemma 4 31 уже памяти не хватает. Так я отрыл у себя старенькую 2070 super и воткнул рядом с 5070 ti. Терерь работает вполне нормально, но контекста хочется побольше. Отрыл на брахолке Radeon VII, поставил. Теперь 32 гб памяти общей и работает вроде хорошо (около 14 т.с. но еще обстоятельно не тестил, только поставил). Единственное, для игры пока не смог использовать. Там двишок выбирает для генерации картинок карту с большим объемом памяти, потому переключается на radeon. А она в этом слабовата.


      1. NeoCode2
        03.07.2026 11:22

        Вот... с одной стороны интересно, а с другой покупать недешевую и строго говоря не самую новую вещь ради неполноценной работы не хочется. Пока бесплатных нейронок вроде хватает (почти). И очевидный критерий здесь - работа локально должна быть объективно лучше (ну хотя-бы не хуже). А что-то мне кажется что она вряд ли будет лучше. Хотя не знаю.. было бы интересно ознакомиться не только с количеством токенов в секунду, но и с их качеством - одинаковый промпт и сравнение результатов локальных нейронок и бесплатных чатботов.

        Еще аспект - а что, если захочется вместо компа ноутбук, куда я воткну эту карту? Сейчас вроде появляются концепты, когда карточка, память и процессор на одном чипе, и по идее такая штучка была бы в самый раз - коробочка с отдельным питанием, которую можно подключить куда угодно. Но когда еще они станут мейнстримом, и сколько будут стоить???


        1. Moog_Prodigy
          03.07.2026 11:22

          Я для себя разнес генерацию и собственно работу (игры). LLM крутятся на отдельном компе. Сам себе провайдер. Можно взять старый ноут, поставить на него Lm Studio, у них завезли интересную фичу - lm link, по сути студия делает вид что это ты у себя на компе (слабом) нейронки большие загружаешь и с ними работаешь. Ну а так и без этого - типовые api, которые можно прокинуть хоть в игру хоть в vs code, куда угодно. Обновился, рестартанул, а сервер крутится постоянно, есть-кушать не просит, ну единственное ограничение у него пока только одна карта 3060, много генерации на cpu переносится, но если поиграться с настройками - 7ток\сек удавалось получать из свежей gemma4-26b. Не знаю кому как, а мне хватает. И поспрошать, и программы пописать, и развлечься, что же до программ, это такая возможность отложенного кодинга, через питонический скрипт накидал ей задач и оно потом гудит и выдает на-гора в полностью автоматическом режиме.

          А ту p102-100 я вообще специально под whisper хотел ну и ace-step, TTS всякие, где врама много не нужно, отдельный сервер. И тут такая беда.


        1. malyazin_2010 Автор
          03.07.2026 11:22

          Качество LLM можно оценить запустив три gemma на обычном пк или ноутбуке. 4b 12b и та, что в статье 26b должны пойти но любом пк с 32 гб озу (или 16 гб озу+ видеокарта).


      1. malyazin_2010 Автор
        03.07.2026 11:22

        Не встречал сборок, где работают сразу amd и nvidia. а какая материнка у вас? на третьем слоте сколько там линий PCI-e?


    1. artemmb
      03.07.2026 11:22

      Чем больше памяти тем лучше. 4060 ничего особо не даст.


    1. malyazin_2010 Автор
      03.07.2026 11:22

      на сайте https://whatmodelscanirun.com/ можно вбить любую GPU. сразу покажет какие модели с какой скоростью будут работать. при разных контекстах


    1. slabnoff
      03.07.2026 11:22

      Через cpu-moe вполне заведется qwen3.6-35b. Даже около 50 т/с наверное получите. Но время первого токена будет большим - то есть всякие opencode будут болью, а чатики приемлимо. Добавка еще видеокарты, чтобы модель влезала добавит т/с слегка (у меня с 60 до 80 выросло, после добавки к 5060 ти 16гб серверной tesla 10 16 гб), но время первого токена упадет на порядок и больше.

      Но на 16гб уже gpt-oss-20b влезает. Какие у васзадачи к ии?


    1. Lexus7900
      03.07.2026 11:22

      Так того же ChatGPT и спроси! :)


    1. Saveliy2
      03.07.2026 11:22

      Считается в 4 поколении , можно брать 4080 и 4090 в остальных с обрезкой псп несколько переусердствовали. Да и 16гб не слишком много, мысль взять две таких и даунклокнуть по гпу не тронув видеопамять была бы ближе, следующий осмысленный шаг V100 SXM2 на переходнике pcie с сжо , имхо.


      1. slabnoff
        03.07.2026 11:22

        Имеете в виду даунклок 4080/4090? 4060 даунклокать же нет смысла.

        В остальном - все верно. Вместо 4060 все-таки имеет смысл брать сразу 5060. Она не только быстрее будет, но и перспективнее - тот же nvfp4 туда завезли уже


  1. hisoyamba
    03.07.2026 11:22

    А сколько это чудо электричества потребляет? Не дешевле будет подписку купить?


    1. malyazin_2010 Автор
      03.07.2026 11:22

      Подписка точно дешевле, чем любой локальеый запуск LLM. Разница как при покупкуюе/аренде авто или при покупке/аренде квартиры.

      Но всегда будут люди, которые предпочитают покупать свое железо, чем арендовать вычислительеые мощности.

      Потребление видеокарт на скрине видно. Ватт 30-40 каждая примерно


  1. alexEtse
    03.07.2026 11:22

    Хм... А это работает на видеокартах с одинаковым объёмом видеопамяти?.. Или можно "найти в ящике" пачку карт с разным объёмом (ну ладно, не будем микшировать Nvidia и AMD) и задействовать их все? Нюансы по настройке есть какие-нибудь?


    1. malyazin_2010 Автор
      03.07.2026 11:22

      Три p106-100 по 6 гб дают на gemma 26b 18-20 т/с

      Две p106-100 и одна p104-100 на 8 гб дают те же 18-20т/с

      3×106+ 1×104 дают тоже 18-20 т/с но контекст можно использовать большой.

      Это мои результаты на майнинговой материнке. На игровых материнках результат будет лучше.


      1. slabnoff
        03.07.2026 11:22

        Сделайте замер ttft (time to first token) и скорости обработки промпта. Как только вся модель уйдет на gpu выигрышь будет значительным.

        У меня даже на оптимизированном под cpu/gpu форке ik_llama.cpp разница в ttft сейчас в 2 раза, а скорость обработки промпта в 3 раза. До оптимизаций была до 5-10 раз (надо отметить, что за последние два месяца явно серьезно в архитектуре cpu/gpu поработали что в ikllama, что в llama).


        1. malyazin_2010 Автор
          03.07.2026 11:22

          Да, я в курсе. У меня на 1×p106 время обрвботки запроса около 90 секунд. А когда модель полностью умещается в видеокарты становится 1,5 сек.


          1. slabnoff
            03.07.2026 11:22

            90 с это что-то запредельное. Судя по всему начинает играть роль скорость cpu и, очень вероятно, крайне низкая скорость pci-e (я конкретно про вашу вк не помню, но на майнинговых обычно pcie 1 и всего лишь x1, в лучшем случае x4. Кстати на части майнинговых карт получается сделать x16 элементарными доработками.

            Кстати, тем более надо смотреть в сторону ik_llama.cpp. Там как раз максимальная оптимизация именно по обмену cpu/gpu.


            1. malyazin_2010 Автор
              03.07.2026 11:22

              Конкретно в моем случае проще купить игровую материнку, чтобы поднять скорость генерации с 20 до 40 примерно.

              Но в более крупных LLM от 50В параметров

              оптимизация пригодится наверное.


              1. slabnoff
                03.07.2026 11:22

                Ну не сильно верьте тому, что вам гугловский ии показал (если уж совсем честно - тут полная ерунда написана). ik_llama вполне стабильный форк. У меня пока небольшие проблемы были только с моделями apex, но там как раз очень не стандартное квантование. И с 610 драйвером nvidia на моей системе глюков хватило, но и классическая llama с ним не подружилась (думаю и надстройки над llama, такие как ollama и lmstudio тоже имели бы проблемы). Все стандратные модели как раз неплохо пашут.


  1. Weron2
    03.07.2026 11:22

    Хм. И все-таки какая цена, просто чтобы самому не искать?

    Хотел еще добавить что у меня на 3070 8 гб gemma4 до 30 т/с выдает. Часть соответственно тоже ложится на озу, проц довольно мощный, может поэтому быстрее чем у вас... И обратил внимание что если разогнать озу то и токенов больше (что логично)

    И еще кое-что. Рекомендую все же llamacpp. Я могу скинуть свои параметры запуска, если интересно. Думаю будет у вас быстрее работать. Важный параметр cmoe насколько я помню. Экспериментировал с ними и это раьотало отлично. При том что контекст в 65к


    1. malyazin_2010 Автор
      03.07.2026 11:22

      Майнинговые материнки на авито продаются от 500р. Конкретно как у меня от 1500р. За 3-4 т можно с процем. ОЗУ минимум 8 гб еще 1000руб.

      Блок питания+корпус 2-10т руб.

      Видеокарты по 1000-2000 руб.

      Итого в 15 тыс можно уложиться. У меня подороже вышло. Я года три назад все покупал. Цены выше были.

      У меня 20т/с ограничение из-за майнинговой материнки. В третьей ссылке из статьи две майнинговые карты дают 50т/с на игровой материнке в gemma26b


    1. slabnoff
      03.07.2026 11:22

      Посмотрите ik_llama.cpp. Специально оптимизированный под moe и гибридные архитектуры cpu/gpu форк llama.cpp. Реально заметный прирост.

      Ещё одно достоинство форка - меньше тратит память. У меня получалось оставить 17 слоев экспертов на cpu и kv-кэш 262144 запихать в 16гб (кэш естественно со сжатием q8_0).


      1. malyazin_2010 Автор
        03.07.2026 11:22

        Когда буду загружать qwen122b или gpt120b обязательно попробую. Сейчас нравится использовать не оптимизированные, но удобные приложения.


        1. slabnoff
          03.07.2026 11:22

          На самом деле того стоит. Навайбкодить каким-нибудь дипсиком скрипт, который будет llama.cpp настраивать недолго.

          Плюс есть уже готовые web-интерфейсы для удобного управления llama.cpp. Я не пользуюсь, у меня сейчас самодельный интерактивный скрипт на питоне позволяющий быстро настроить и запустить модель через llama/ik_llama. Как отлажу (остались некоторые баги), наверное статью выпущу