Запускаем LLM локально на майнинг ферме из 4 GPU / forpes.ru

Главная
Запускаем LLM локально на майнинг ферме из 4 GPU

Запускаем LLM локально на майнинг ферме из 4 GPU +22

03.07.2026 10:14

malyazin_2010 28 11000 Источник

В последнее время становится все более популярным локальный запуск LLM. У каждогг свои причины, но основные это: проблемы с западными сервисами, нестабильный интернет и утечка данных в открытый доступ (преценденты уже были).

В этой статье я расскажу как запускал LLM локально на майнинговом железе, какие тонкости есть при запуске. Расскажу архитектуру моей сборки и примерную стоимость железа. Также протестирую скорость работы с некоторыми наиболее популярными MoE LLM, включая модели от гугла и ChatGPT. По поводу целесообразности подобных сборок решение каждый примет сам исходя из своих задач и финансовых ресурсов.

На хабре уже есть несколько статей про локальный запуск LLM на сборках из нескольких GPU

Локальный ИИ: майнинг плата+ 3 RTX 3090 Тут скорость работы GPT-oss-120B около 100 токенов в секунду.
Как я собрал LLM-печку на 4 GPU и на что она способна. Тут 4 карты 3090 на игровой материнке показали 55т/сек на Qwen-35B-a3b-Q8 и 19 т/сек на Qwen 122B-Q5 при очень больших контекстах.
Темные лошадки ИИ - инференс LLM на майнинговых видеокартах Nvidia CMP40HX, CMP50HX, CMP90HX Тут cmp50hx+cmp90hx обогнали одну rtx3060 12g в инференсе gpt-oss 20b. 55т/c против 19 т/с

В этих статьях используются майнинговые GPU на игровых материнках либо игровые GPU на майнинговых материнках. Я же решил попробовать майнинговые GPU на майнинговых материнках. То есть на обычной майнинг ферме.

Перейдем к железу: у меня обычная майнинговая ферма из 2016 года. в последние 5 лет такое железо продается на барахолках по цене 10-20% от цены в 2016 году.

материнская плата:H510 Pro BTC+. Видеокарты: 3 штуки p106-100 и одна p104-100 (каждая карта по 1000-2000руб на авито). Корпус майнинговый название не помню. Процессор i3-10100 , ОЗУ 32ГБ ddr3 кажется. ssd 1tb. Колесики для корпуса из леруа. Кулеры 5 шт с ручной регулировкой частоты вращения. — *материнская плата:H510 Pro BTC*+. Видеокарты: 3 штуки p106-100 и одна p104-100 (каждая карта по 1000-2000руб на авито). Корпус майнинговый название не помню. Процессор i3-10100 , ОЗУ 32ГБ ddr3 кажется. ssd 1tb. Колесики для корпуса из леруа. Кулеры 5 шт с ручной регулировкой частоты вращения.

Порядок работы:

Установка виндовс
Установка неофициальных драйверов под видеокарты (официальных у нвидиа нет для майнинговах карт под винду)
Устанавливаем LM studio либо Kubold.ccp (старые gpu с архитектурой pascal работают чуть быстрее в Kubold, поэтому все тесты я проводил там)
Прямо в LM studio находим и скачиваем нужные LLM. Я скачал gemma-4-26B-A4B-it-QAT-GGUF в Q4 Qwen3.6-35B-A3B-GGUF тоже в Q4 и еще несколько.

Запускаем gemma 26B сначала на одной GPU p106-100 чтобы было от чего отталкиваться.

получаем 11,52 токенов в секунду. Если учитывать, что человек читает в среднем со скоростью 5-10 токенов в секунду, то этим уже можно пользоваться. Все, что ниже 10 уже кажется мучительно долго для среднего человека.

Теперь запускаем на двух GPU p106-100. Gemma 26B занимает порядка 14 гб поэтому в 2 видеокарты по 6гб она не помещается. Часть остается в ОЗУ.

получаем скорость 9,67 т/с что ниже, чем с одной видеокартой. Распределение LLM по двум GPU и ОЗУ оказалось хуже, чем распределение той же LLM между одним GPU и ОЗУ.

Запускаем на 3 p106-100. На деффолтных настройках 14 гб gemma не умешается в трех картах по 6 гб, но с ручными настройками можно уместить.

получаем 12.16 т/c если не распределить LLM по трем видеокартаи и 19,11 т/c если уместить LLM в GPU

Добавление четвертой видеокарты дает нам те же 19-20 т/с, но LLM уже по дефолту умещается в видеокарты. И контекст не нужно ограничивать, он в kubold 12000 по умолчанию.

Сначала карты работали не очень стабиньно, выдавая то 20, то 15, то 10 токенов в секунду.

на двух верхних графиках видно, что карты скидывают частоты по непонятной причине. Соответственно инференс в это время замедляется.

Пришлось жестко зафиксировать частоты карт через MSI afterburner.

это мои настройки по разгону gpu в msi afterburner

В итоге gemma26B в Q4 c нормальным контекстом 12000 выдает стабильные 19-20 т/с на четырех GPU.
Для сравнения тут запуск gemma4 26b на 4 майнинговых GPU cmp50hx через райзеры. Скорость 22т/c:( https://youtube.com/watch?v=tqaw5HJMFxU&si=lU5Rn-nQrGVvFzuY Gemma 4 26В и 31В на 2х СМР 50НХ: сколько токен/сек выжмет майнинг-карта? )
Qwen3.6-35B-A3B вQ4 выдает у меня те же 19-20 т/с c таким же контекстом.
Для сравнения: тот же qwen35b выдает 27 т/с на 3060 12 гб на дефолтных настройках LM studio. ( инфа отсюда: https://youtube.com/watch?v=QxpRuOAw-BE&si=7nQsYeg8sJtv-f96 )
MiniPC с AMD AI395+ 128гб ОЗУ с qwen35b выдает около 60 т/c
Ну и наконец тестим GPT-oss 20B: результат получился 25т/с с тем же контекстом 12288

Выводы:

Все конфигурации ферм, которые я собирал и которые видел в сети выдавали 15-20 т/с. Если Вас такая скорость устраивает-то можете пробовать запускать LLM на майнинг фермах.
Запускать маленькие модели в 20-40B параметров не имеет особого смысла на фермах. Обычные игровые ПК обеспечат скорость выше 15-20 токенов или примерно такую же.
Запуск средних моделей с более 100 млрд параметров( типа Qwen122B 75GB или gpt-oss120B 63GB) может иметь смысл на майнинг фермах. Если кто-то уже запускал-пожалуйста поделитесь результатом в комментах.

Комментарии (28)

Moog_Prodigy
03.07.2026 11:22
#30182748
С этими p102-100 невезуха какая то с драйверами. Знакомый купил ее для майнинга - еще когда там какой-то выхлоп был, перепрошитая она была на 10gb. А он только под линуксом работает. Полгода он дрова под нее подбирал - не завелась. Я взял у него на время - поставил под вин10, и даже мелкая llm какая то запустилась. То есть реальные 10gb там были и скорость неплохая такая. Отдал я ему обратно эту карту. Прошло три года. Он мне и говорит - а забирай, может что сделаешь с ней. Ну я ее воткнул, систему с нуля (вин10) накатил, давай искать дрова, нашел целую кучу дров но половина не подходят, половина ставятся и даже карту видят, но cuda не пахает, приложухи ее не видят. Столько танцев с бубном было, и без толку. Вот и вопрос - три года назад то у меня она завелась на этом же компе...
1. Melirius
  03.07.2026 11:22
  #30185290
  Сохранять надо драйвер, который завёлся. У меня лежат, заботливо сложенные, аж начиная от Radeon 1950Х под AGP - до сих пор помню тот геморрой.

NeoCode2
03.07.2026 11:22
#30182850
Завидую людям которые в этом разбираются и у которых хватает сил и нервов на все эти танцы с бубнами))

Я вот думаю имеет ли смысл купить RTX 4060 Ti (16 GB VRAM) - ее мне советуют сразу все чатботы, с учетом ограничений по бюджету и далеко не новой конфигурации компа (которая впрочем меня устраивает во всём, кроме отсутствия возможности экспериментов с локальными нейросетями).
1. Neizvestniv
  03.07.2026 11:22
  #30182968
  Не претендую на мега опыт, просто решил поделиться. Я люблю поиграть в различные игры, и тут попалась мне игрушка на llm. Что то типа динамически генерируемой визуальной навеллы. Так вот, моя 5070 ti тянет ее, но не достаточно быстро. На gemma 4 31 уже памяти не хватает. Так я отрыл у себя старенькую 2070 super и воткнул рядом с 5070 ti. Терерь работает вполне нормально, но контекста хочется побольше. Отрыл на брахолке Radeon VII, поставил. Теперь 32 гб памяти общей и работает вроде хорошо (около 14 т.с. но еще обстоятельно не тестил, только поставил). Единственное, для игры пока не смог использовать. Там двишок выбирает для генерации картинок карту с большим объемом памяти, потому переключается на radeon. А она в этом слабовата.
  1. NeoCode2
    03.07.2026 11:22
    #30183064
    Вот... с одной стороны интересно, а с другой покупать недешевую и строго говоря не самую новую вещь ради неполноценной работы не хочется. Пока бесплатных нейронок вроде хватает (почти). И очевидный критерий здесь - работа локально должна быть объективно лучше (ну хотя-бы не хуже). А что-то мне кажется что она вряд ли будет лучше. Хотя не знаю.. было бы интересно ознакомиться не только с количеством токенов в секунду, но и с их качеством - одинаковый промпт и сравнение результатов локальных нейронок и бесплатных чатботов.
    
    Еще аспект - а что, если захочется вместо компа ноутбук, куда я воткну эту карту? Сейчас вроде появляются концепты, когда карточка, память и процессор на одном чипе, и по идее такая штучка была бы в самый раз - коробочка с отдельным питанием, которую можно подключить куда угодно. Но когда еще они станут мейнстримом, и сколько будут стоить???
    
    Moog_Prodigy
    03.07.2026 11:22
    #30183794
    Я для себя разнес генерацию и собственно работу (игры). LLM крутятся на отдельном компе. Сам себе провайдер. Можно взять старый ноут, поставить на него Lm Studio, у них завезли интересную фичу - lm link, по сути студия делает вид что это ты у себя на компе (слабом) нейронки большие загружаешь и с ними работаешь. Ну а так и без этого - типовые api, которые можно прокинуть хоть в игру хоть в vs code, куда угодно. Обновился, рестартанул, а сервер крутится постоянно, есть-кушать не просит, ну единственное ограничение у него пока только одна карта 3060, много генерации на cpu переносится, но если поиграться с настройками - 7ток\сек удавалось получать из свежей gemma4-26b. Не знаю кому как, а мне хватает. И поспрошать, и программы пописать, и развлечься, что же до программ, это такая возможность отложенного кодинга, через питонический скрипт накидал ей задач и оно потом гудит и выдает на-гора в полностью автоматическом режиме.
    
    А ту p102-100 я вообще специально под whisper хотел ну и ace-step, TTS всякие, где врама много не нужно, отдельный сервер. И тут такая беда.
    
    malyazin_2010 Автор
    03.07.2026 11:22
    #30183838
    Качество LLM можно оценить запустив три gemma на обычном пк или ноутбуке. 4b 12b и та, что в статье 26b должны пойти но любом пк с 32 гб озу (или 16 гб озу+ видеокарта).
  1. malyazin_2010 Автор
    03.07.2026 11:22
    #30183504
    Не встречал сборок, где работают сразу amd и nvidia. а какая материнка у вас? на третьем слоте сколько там линий PCI-e?
1. artemmb
  03.07.2026 11:22
  #30183126
  Чем больше памяти тем лучше. 4060 ничего особо не даст.
1. malyazin_2010 Автор
  03.07.2026 11:22
  #30183514
  на сайте https://whatmodelscanirun.com/ можно вбить любую GPU. сразу покажет какие модели с какой скоростью будут работать. при разных контекстах
1. slabnoff
  03.07.2026 11:22
  #30183602
  Через cpu-moe вполне заведется qwen3.6-35b. Даже около 50 т/с наверное получите. Но время первого токена будет большим - то есть всякие opencode будут болью, а чатики приемлимо. Добавка еще видеокарты, чтобы модель влезала добавит т/с слегка (у меня с 60 до 80 выросло, после добавки к 5060 ти 16гб серверной tesla 10 16 гб), но время первого токена упадет на порядок и больше.
  
  Но на 16гб уже gpt-oss-20b влезает. Какие у васзадачи к ии?
1. Lexus7900
  03.07.2026 11:22
  #30184562
  Так того же ChatGPT и спроси! :)
1. Saveliy2
  03.07.2026 11:22
  #30185280
  Считается в 4 поколении , можно брать 4080 и 4090 в остальных с обрезкой псп несколько переусердствовали. Да и 16гб не слишком много, мысль взять две таких и даунклокнуть по гпу не тронув видеопамять была бы ближе, следующий осмысленный шаг V100 SXM2 на переходнике pcie с сжо , имхо.
  1. slabnoff
    03.07.2026 11:22
    #30185368
    Имеете в виду даунклок 4080/4090? 4060 даунклокать же нет смысла.
    
    В остальном - все верно. Вместо 4060 все-таки имеет смысл брать сразу 5060. Она не только быстрее будет, но и перспективнее - тот же nvfp4 туда завезли уже

hisoyamba
03.07.2026 11:22
#30183552
А сколько это чудо электричества потребляет? Не дешевле будет подписку купить?
1. malyazin_2010 Автор
  03.07.2026 11:22
  #30183784
  Подписка точно дешевле, чем любой локальеый запуск LLM. Разница как при покупкуюе/аренде авто или при покупке/аренде квартиры.
  
  Но всегда будут люди, которые предпочитают покупать свое железо, чем арендовать вычислительеые мощности.
  
  Потребление видеокарт на скрине видно. Ватт 30-40 каждая примерно

alexEtse
03.07.2026 11:22
#30184736
Хм... А это работает на видеокартах с одинаковым объёмом видеопамяти?.. Или можно "найти в ящике" пачку карт с разным объёмом (ну ладно, не будем микшировать Nvidia и AMD) и задействовать их все? Нюансы по настройке есть какие-нибудь?
1. malyazin_2010 Автор
  03.07.2026 11:22
  #30185202
  Три p106-100 по 6 гб дают на gemma 26b 18-20 т/с
  
  Две p106-100 и одна p104-100 на 8 гб дают те же 18-20т/с
  
  3×106+ 1×104 дают тоже 18-20 т/с но контекст можно использовать большой.
  
  Это мои результаты на майнинговой материнке. На игровых материнках результат будет лучше.
  1. slabnoff
    03.07.2026 11:22
    #30185410
    Сделайте замер ttft (time to first token) и скорости обработки промпта. Как только вся модель уйдет на gpu выигрышь будет значительным.
    
    У меня даже на оптимизированном под cpu/gpu форке ik_llama.cpp разница в ttft сейчас в 2 раза, а скорость обработки промпта в 3 раза. До оптимизаций была до 5-10 раз (надо отметить, что за последние два месяца явно серьезно в архитектуре cpu/gpu поработали что в ikllama, что в llama).
    
    malyazin_2010 Автор
    03.07.2026 11:22
    #30185512
    Да, я в курсе. У меня на 1×p106 время обрвботки запроса около 90 секунд. А когда модель полностью умещается в видеокарты становится 1,5 сек.
    
    slabnoff
    03.07.2026 11:22
    #30186158
    90 с это что-то запредельное. Судя по всему начинает играть роль скорость cpu и, очень вероятно, крайне низкая скорость pci-e (я конкретно про вашу вк не помню, но на майнинговых обычно pcie 1 и всего лишь x1, в лучшем случае x4. Кстати на части майнинговых карт получается сделать x16 элементарными доработками.
    
    Кстати, тем более надо смотреть в сторону ik_llama.cpp. Там как раз максимальная оптимизация именно по обмену cpu/gpu.
    
    malyazin_2010 Автор
    03.07.2026 11:22
    #30186540
    Конкретно в моем случае проще купить игровую материнку, чтобы поднять скорость генерации с 20 до 40 примерно.
    
    Но в более крупных LLM от 50В параметров
    
    оптимизация пригодится наверное.
    
    slabnoff
    03.07.2026 11:22
    #30187234
    Ну не сильно верьте тому, что вам гугловский ии показал (если уж совсем честно - тут полная ерунда написана). ik_llama вполне стабильный форк. У меня пока небольшие проблемы были только с моделями apex, но там как раз очень не стандартное квантование. И с 610 драйвером nvidia на моей системе глюков хватило, но и классическая llama с ним не подружилась (думаю и надстройки над llama, такие как ollama и lmstudio тоже имели бы проблемы). Все стандратные модели как раз неплохо пашут.

Weron2
03.07.2026 11:22
#30184776
Хм. И все-таки какая цена, просто чтобы самому не искать?

Хотел еще добавить что у меня на 3070 8 гб gemma4 до 30 т/с выдает. Часть соответственно тоже ложится на озу, проц довольно мощный, может поэтому быстрее чем у вас... И обратил внимание что если разогнать озу то и токенов больше (что логично)

И еще кое-что. Рекомендую все же llamacpp. Я могу скинуть свои параметры запуска, если интересно. Думаю будет у вас быстрее работать. Важный параметр cmoe насколько я помню. Экспериментировал с ними и это раьотало отлично. При том что контекст в 65к
1. malyazin_2010 Автор
  03.07.2026 11:22
  #30185246
  Майнинговые материнки на авито продаются от 500р. Конкретно как у меня от 1500р. За 3-4 т можно с процем. ОЗУ минимум 8 гб еще 1000руб.
  
  Блок питания+корпус 2-10т руб.
  
  Видеокарты по 1000-2000 руб.
  
  Итого в 15 тыс можно уложиться. У меня подороже вышло. Я года три назад все покупал. Цены выше были.
  
  У меня 20т/с ограничение из-за майнинговой материнки. В третьей ссылке из статьи две майнинговые карты дают 50т/с на игровой материнке в gemma26b
1. slabnoff
  03.07.2026 11:22
  #30185418
  Посмотрите ik_llama.cpp. Специально оптимизированный под moe и гибридные архитектуры cpu/gpu форк llama.cpp. Реально заметный прирост.
  
  Ещё одно достоинство форка - меньше тратит память. У меня получалось оставить 17 слоев экспертов на cpu и kv-кэш 262144 запихать в 16гб (кэш естественно со сжатием q8_0).
  1. malyazin_2010 Автор
    03.07.2026 11:22
    #30185520
    Когда буду загружать qwen122b или gpt120b обязательно попробую. Сейчас нравится использовать не оптимизированные, но удобные приложения.
    
    slabnoff
    03.07.2026 11:22
    #30185754
    На самом деле того стоит. Навайбкодить каким-нибудь дипсиком скрипт, который будет llama.cpp настраивать недолго.
    
    Плюс есть уже готовые web-интерфейсы для удобного управления llama.cpp. Я не пользуюсь, у меня сейчас самодельный интерактивный скрипт на питоне позволяющий быстро настроить и запустить модель через llama/ik_llama. Как отлажу (остались некоторые баги), наверное статью выпущу

Запускаем LLM локально на майнинг ферме из 4 GPU +22

Комментарии (28)

malyazin_2010 Автор

malyazin_2010 Автор

malyazin_2010 Автор

malyazin_2010 Автор

malyazin_2010 Автор

malyazin_2010 Автор

malyazin_2010 Автор

malyazin_2010 Автор

malyazin_2010 Автор