В последнее время становится все более популярным локальный запуск LLM. У каждогг свои причины, но основные это: проблемы с западными сервисами, нестабильный интернет и утечка данных в открытый доступ (преценденты уже были).
В этой статье я расскажу как запускал LLM локально на майнинговом железе, какие тонкости есть при запуске. Расскажу архитектуру моей сборки и примерную стоимость железа. Также протестирую скорость работы с некоторыми наиболее популярными MoE LLM, включая модели от гугла и ChatGPT. По поводу целесообразности подобных сборок решение каждый примет сам исходя из своих задач и финансовых ресурсов.
На хабре уже есть несколько статей про локальный запуск LLM на сборках из нескольких GPU
Локальный ИИ: майнинг плата+ 3 RTX 3090 Тут скорость работы GPT-oss-120B около 100 токенов в секунду.
Как я собрал LLM-печку на 4 GPU и на что она способна. Тут 4 карты 3090 на игровой материнке показали 55т/сек на Qwen-35B-a3b-Q8 и 19 т/сек на Qwen 122B-Q5 при очень больших контекстах.
Темные лошадки ИИ - инференс LLM на майнинговых видеокартах Nvidia CMP40HX, CMP50HX, CMP90HX Тут cmp50hx+cmp90hx обогнали одну rtx3060 12g в инференсе gpt-oss 20b. 55т/c против 19 т/с
В этих статьях используются майнинговые GPU на игровых материнках либо игровые GPU на майнинговых материнках. Я же решил попробовать майнинговые GPU на майнинговых материнках. То есть на обычной майнинг ферме.
Перейдем к железу: у меня обычная майнинговая ферма из 2016 года. в последние 5 лет такое железо продается на барахолках по цене 10-20% от цены в 2016 году.

Порядок работы:
Установка виндовс
Установка неофициальных драйверов под видеокарты (официальных у нвидиа нет для майнинговах карт под винду)
Устанавливаем LM studio либо Kubold.ccp (старые gpu с архитектурой pascal работают чуть быстрее в Kubold, поэтому все тесты я проводил там)
Прямо в LM studio находим и скачиваем нужные LLM. Я скачал gemma-4-26B-A4B-it-QAT-GGUF в Q4 Qwen3.6-35B-A3B-GGUF тоже в Q4 и еще несколько.
Запускаем gemma 26B сначала на одной GPU p106-100 чтобы было от чего отталкиваться.

Теперь запускаем на двух GPU p106-100. Gemma 26B занимает порядка 14 гб поэтому в 2 видеокарты по 6гб она не помещается. Часть остается в ОЗУ.

Запускаем на 3 p106-100. На деффолтных настройках 14 гб gemma не умешается в трех картах по 6 гб, но с ручными настройками можно уместить.

Добавление четвертой видеокарты дает нам те же 19-20 т/с, но LLM уже по дефолту умещается в видеокарты. И контекст не нужно ограничивать, он в kubold 12000 по умолчанию.
Сначала карты работали не очень стабиньно, выдавая то 20, то 15, то 10 токенов в секунду.

Пришлось жестко зафиксировать частоты карт через MSI afterburner.

В итоге gemma26B в Q4 c нормальным контекстом 12000 выдает стабильные 19-20 т/с на четырех GPU.
Для сравнения тут запуск gemma4 26b на 4 майнинговых GPU cmp50hx через райзеры. Скорость 22т/c:( https://youtube.com/watch?v=tqaw5HJMFxU&si=lU5Rn-nQrGVvFzuY Gemma 4 26В и 31В на 2х СМР 50НХ: сколько токен/сек выжмет майнинг-карта? )
Qwen3.6-35B-A3B вQ4 выдает у меня те же 19-20 т/с c таким же контекстом.
Для сравнения: тот же qwen35b выдает 27 т/с на 3060 12 гб на дефолтных настройках LM studio. ( инфа отсюда: https://youtube.com/watch?v=QxpRuOAw-BE&si=7nQsYeg8sJtv-f96 )
MiniPC с AMD AI395+ 128гб ОЗУ с qwen35b выдает около 60 т/c
Ну и наконец тестим GPT-oss 20B: результат получился 25т/с с тем же контекстом 12288
Выводы:
Все конфигурации ферм, которые я собирал и которые видел в сети выдавали 15-20 т/с. Если Вас такая скорость устраивает-то можете пробовать запускать LLM на майнинг фермах.
Запускать маленькие модели в 20-40B параметров не имеет особого смысла на фермах. Обычные игровые ПК обеспечат скорость выше 15-20 токенов или примерно такую же.
Запуск средних моделей с более 100 млрд параметров( типа Qwen122B 75GB или gpt-oss120B 63GB) может иметь смысл на майнинг фермах. Если кто-то уже запускал-пожалуйста поделитесь результатом в комментах.
Комментарии (28)

NeoCode2
03.07.2026 11:22Завидую людям которые в этом разбираются и у которых хватает сил и нервов на все эти танцы с бубнами))
Я вот думаю имеет ли смысл купить RTX 4060 Ti (16 GB VRAM) - ее мне советуют сразу все чатботы, с учетом ограничений по бюджету и далеко не новой конфигурации компа (которая впрочем меня устраивает во всём, кроме отсутствия возможности экспериментов с локальными нейросетями).

Neizvestniv
03.07.2026 11:22Не претендую на мега опыт, просто решил поделиться. Я люблю поиграть в различные игры, и тут попалась мне игрушка на llm. Что то типа динамически генерируемой визуальной навеллы. Так вот, моя 5070 ti тянет ее, но не достаточно быстро. На gemma 4 31 уже памяти не хватает. Так я отрыл у себя старенькую 2070 super и воткнул рядом с 5070 ti. Терерь работает вполне нормально, но контекста хочется побольше. Отрыл на брахолке Radeon VII, поставил. Теперь 32 гб памяти общей и работает вроде хорошо (около 14 т.с. но еще обстоятельно не тестил, только поставил). Единственное, для игры пока не смог использовать. Там двишок выбирает для генерации картинок карту с большим объемом памяти, потому переключается на radeon. А она в этом слабовата.

NeoCode2
03.07.2026 11:22Вот... с одной стороны интересно, а с другой покупать недешевую и строго говоря не самую новую вещь ради неполноценной работы не хочется. Пока бесплатных нейронок вроде хватает (почти). И очевидный критерий здесь - работа локально должна быть объективно лучше (ну хотя-бы не хуже). А что-то мне кажется что она вряд ли будет лучше. Хотя не знаю.. было бы интересно ознакомиться не только с количеством токенов в секунду, но и с их качеством - одинаковый промпт и сравнение результатов локальных нейронок и бесплатных чатботов.
Еще аспект - а что, если захочется вместо компа ноутбук, куда я воткну эту карту? Сейчас вроде появляются концепты, когда карточка, память и процессор на одном чипе, и по идее такая штучка была бы в самый раз - коробочка с отдельным питанием, которую можно подключить куда угодно. Но когда еще они станут мейнстримом, и сколько будут стоить???

Moog_Prodigy
03.07.2026 11:22Я для себя разнес генерацию и собственно работу (игры). LLM крутятся на отдельном компе. Сам себе провайдер. Можно взять старый ноут, поставить на него Lm Studio, у них завезли интересную фичу - lm link, по сути студия делает вид что это ты у себя на компе (слабом) нейронки большие загружаешь и с ними работаешь. Ну а так и без этого - типовые api, которые можно прокинуть хоть в игру хоть в vs code, куда угодно. Обновился, рестартанул, а сервер крутится постоянно, есть-кушать не просит, ну единственное ограничение у него пока только одна карта 3060, много генерации на cpu переносится, но если поиграться с настройками - 7ток\сек удавалось получать из свежей gemma4-26b. Не знаю кому как, а мне хватает. И поспрошать, и программы пописать, и развлечься, что же до программ, это такая возможность отложенного кодинга, через питонический скрипт накидал ей задач и оно потом гудит и выдает на-гора в полностью автоматическом режиме.
А ту p102-100 я вообще специально под whisper хотел ну и ace-step, TTS всякие, где врама много не нужно, отдельный сервер. И тут такая беда.

malyazin_2010 Автор
03.07.2026 11:22Качество LLM можно оценить запустив три gemma на обычном пк или ноутбуке. 4b 12b и та, что в статье 26b должны пойти но любом пк с 32 гб озу (или 16 гб озу+ видеокарта).

malyazin_2010 Автор
03.07.2026 11:22Не встречал сборок, где работают сразу amd и nvidia. а какая материнка у вас? на третьем слоте сколько там линий PCI-e?

malyazin_2010 Автор
03.07.2026 11:22на сайте https://whatmodelscanirun.com/ можно вбить любую GPU. сразу покажет какие модели с какой скоростью будут работать. при разных контекстах

slabnoff
03.07.2026 11:22Через cpu-moe вполне заведется qwen3.6-35b. Даже около 50 т/с наверное получите. Но время первого токена будет большим - то есть всякие opencode будут болью, а чатики приемлимо. Добавка еще видеокарты, чтобы модель влезала добавит т/с слегка (у меня с 60 до 80 выросло, после добавки к 5060 ти 16гб серверной tesla 10 16 гб), но время первого токена упадет на порядок и больше.
Но на 16гб уже gpt-oss-20b влезает. Какие у васзадачи к ии?

Saveliy2
03.07.2026 11:22Считается в 4 поколении , можно брать 4080 и 4090 в остальных с обрезкой псп несколько переусердствовали. Да и 16гб не слишком много, мысль взять две таких и даунклокнуть по гпу не тронув видеопамять была бы ближе, следующий осмысленный шаг V100 SXM2 на переходнике pcie с сжо , имхо.

slabnoff
03.07.2026 11:22Имеете в виду даунклок 4080/4090? 4060 даунклокать же нет смысла.
В остальном - все верно. Вместо 4060 все-таки имеет смысл брать сразу 5060. Она не только быстрее будет, но и перспективнее - тот же nvfp4 туда завезли уже

hisoyamba
03.07.2026 11:22А сколько это чудо электричества потребляет? Не дешевле будет подписку купить?

malyazin_2010 Автор
03.07.2026 11:22Подписка точно дешевле, чем любой локальеый запуск LLM. Разница как при покупкуюе/аренде авто или при покупке/аренде квартиры.
Но всегда будут люди, которые предпочитают покупать свое железо, чем арендовать вычислительеые мощности.
Потребление видеокарт на скрине видно. Ватт 30-40 каждая примерно

alexEtse
03.07.2026 11:22Хм... А это работает на видеокартах с одинаковым объёмом видеопамяти?.. Или можно "найти в ящике" пачку карт с разным объёмом (ну ладно, не будем микшировать Nvidia и AMD) и задействовать их все? Нюансы по настройке есть какие-нибудь?

malyazin_2010 Автор
03.07.2026 11:22Три p106-100 по 6 гб дают на gemma 26b 18-20 т/с
Две p106-100 и одна p104-100 на 8 гб дают те же 18-20т/с
3×106+ 1×104 дают тоже 18-20 т/с но контекст можно использовать большой.
Это мои результаты на майнинговой материнке. На игровых материнках результат будет лучше.

slabnoff
03.07.2026 11:22Сделайте замер ttft (time to first token) и скорости обработки промпта. Как только вся модель уйдет на gpu выигрышь будет значительным.
У меня даже на оптимизированном под cpu/gpu форке ik_llama.cpp разница в ttft сейчас в 2 раза, а скорость обработки промпта в 3 раза. До оптимизаций была до 5-10 раз (надо отметить, что за последние два месяца явно серьезно в архитектуре cpu/gpu поработали что в ikllama, что в llama).

malyazin_2010 Автор
03.07.2026 11:22Да, я в курсе. У меня на 1×p106 время обрвботки запроса около 90 секунд. А когда модель полностью умещается в видеокарты становится 1,5 сек.

slabnoff
03.07.2026 11:2290 с это что-то запредельное. Судя по всему начинает играть роль скорость cpu и, очень вероятно, крайне низкая скорость pci-e (я конкретно про вашу вк не помню, но на майнинговых обычно pcie 1 и всего лишь x1, в лучшем случае x4. Кстати на части майнинговых карт получается сделать x16 элементарными доработками.
Кстати, тем более надо смотреть в сторону ik_llama.cpp. Там как раз максимальная оптимизация именно по обмену cpu/gpu.

malyazin_2010 Автор
03.07.2026 11:22Конкретно в моем случае проще купить игровую материнку, чтобы поднять скорость генерации с 20 до 40 примерно.
Но в более крупных LLM от 50В параметров
оптимизация пригодится наверное.


slabnoff
03.07.2026 11:22Ну не сильно верьте тому, что вам гугловский ии показал (если уж совсем честно - тут полная ерунда написана). ik_llama вполне стабильный форк. У меня пока небольшие проблемы были только с моделями apex, но там как раз очень не стандартное квантование. И с 610 драйвером nvidia на моей системе глюков хватило, но и классическая llama с ним не подружилась (думаю и надстройки над llama, такие как ollama и lmstudio тоже имели бы проблемы). Все стандратные модели как раз неплохо пашут.

Weron2
03.07.2026 11:22Хм. И все-таки какая цена, просто чтобы самому не искать?
Хотел еще добавить что у меня на 3070 8 гб gemma4 до 30 т/с выдает. Часть соответственно тоже ложится на озу, проц довольно мощный, может поэтому быстрее чем у вас... И обратил внимание что если разогнать озу то и токенов больше (что логично)
И еще кое-что. Рекомендую все же llamacpp. Я могу скинуть свои параметры запуска, если интересно. Думаю будет у вас быстрее работать. Важный параметр cmoe насколько я помню. Экспериментировал с ними и это раьотало отлично. При том что контекст в 65к

malyazin_2010 Автор
03.07.2026 11:22Майнинговые материнки на авито продаются от 500р. Конкретно как у меня от 1500р. За 3-4 т можно с процем. ОЗУ минимум 8 гб еще 1000руб.
Блок питания+корпус 2-10т руб.
Видеокарты по 1000-2000 руб.
Итого в 15 тыс можно уложиться. У меня подороже вышло. Я года три назад все покупал. Цены выше были.
У меня 20т/с ограничение из-за майнинговой материнки. В третьей ссылке из статьи две майнинговые карты дают 50т/с на игровой материнке в gemma26b

slabnoff
03.07.2026 11:22Посмотрите ik_llama.cpp. Специально оптимизированный под moe и гибридные архитектуры cpu/gpu форк llama.cpp. Реально заметный прирост.
Ещё одно достоинство форка - меньше тратит память. У меня получалось оставить 17 слоев экспертов на cpu и kv-кэш 262144 запихать в 16гб (кэш естественно со сжатием q8_0).

malyazin_2010 Автор
03.07.2026 11:22Когда буду загружать qwen122b или gpt120b обязательно попробую. Сейчас нравится использовать не оптимизированные, но удобные приложения.

slabnoff
03.07.2026 11:22На самом деле того стоит. Навайбкодить каким-нибудь дипсиком скрипт, который будет llama.cpp настраивать недолго.
Плюс есть уже готовые web-интерфейсы для удобного управления llama.cpp. Я не пользуюсь, у меня сейчас самодельный интерактивный скрипт на питоне позволяющий быстро настроить и запустить модель через llama/ik_llama. Как отлажу (остались некоторые баги), наверное статью выпущу
Moog_Prodigy
С этими p102-100 невезуха какая то с драйверами. Знакомый купил ее для майнинга - еще когда там какой-то выхлоп был, перепрошитая она была на 10gb. А он только под линуксом работает. Полгода он дрова под нее подбирал - не завелась. Я взял у него на время - поставил под вин10, и даже мелкая llm какая то запустилась. То есть реальные 10gb там были и скорость неплохая такая. Отдал я ему обратно эту карту. Прошло три года. Он мне и говорит - а забирай, может что сделаешь с ней. Ну я ее воткнул, систему с нуля (вин10) накатил, давай искать дрова, нашел целую кучу дров но половина не подходят, половина ставятся и даже карту видят, но cuda не пахает, приложухи ее не видят. Столько танцев с бубном было, и без толку. Вот и вопрос - три года назад то у меня она завелась на этом же компе...
Melirius
Сохранять надо драйвер, который завёлся. У меня лежат, заботливо сложенные, аж начиная от Radeon 1950Х под AGP - до сих пор помню тот геморрой.