У меня возникла идея проверить насколько различается скорость инференса LLM моделей не только в сравнении CPU и GPU, но и между младшими моделями со старшими при обработке без использования GPU.
Для сравнения я выбрал модель gpt-oss:20b (размер модели 14Гб) и gpt-oss:120b (размер модели 65Гб). Запустил тест моделей я на компьютере с процессором Intel Core I9 14900K и 192Гб оперативной памяти.
Для теста я задал каверзную задачку:
Реши логическую задачу:
На улице стоят пять складов.
Каменщик работает в зеленом складе.
У портного есть леопард.
На желтом складе едят котлету.
Электрик ест хлеб.
Желтый склад стоит сразу справа от синего склада.
Тот, кто пьет коньяк разводит пуму.
В белом складе пьют вино.
В центральном складе едят пельмени.
Плотник работает на первом складе.
Сосед того, кто пьет водку, держит медведя.
На складе по соседству с тем, в котором держат тигра, пьют вино.
Тот, кто пьет виски, ест макароны.
Программист пьет ром.
Плотник работает рядом с красным складом.
Кто ест пиццу? Кто держит крокодила?
И пациентом стала модель gpt-oss:20b (может быть запущена на ПК с 32Гб оперативки). В результате мне пришлось ждать почти 35 минут, я даже в магазин успел съездить. Но спустя эти 35 минут я получил неверный ответ, скрины ниже.


Далее я сказал что результат не верен, следующий ответ она думала 23 минуты, но увы, так же неправильно.

но уже даже составила таблицу.

В итоге потратив час на модель gpt-oss:20b и не добившись правильного ответа со второй попытки, я приступил к тесту gpt-oss:120b чисто на CPU, памяти для запуска потребовалось 65Гб, немало и простой ПК даже с 64Гб не сможет запустить эту модель к сожалению. И я приготовился ждать долго. Однако мой шаблон был сломан, спустя всего 17 минут, gpt-oss:120b выдала верный результат.


Таким образом получилось что модель объемом 65 гигабайт, решила задачу правильно в 2 раза быстрей чем ее младшая модель.
Но результат был еще интересней когда я запустил эту же задачу но уже используя GPU RTX4090 48Gb, в моей системе их 2 штуки с общим объемом VRAM 96Гб.
Так вот gpt-oss:20b решила эту проблему примерно за 3 минуты, но самое главное правильно используя только одну видеокарту.
Далее я запустил тест модели gpt-oss:120b на GPU, правильное решение заняло всего полторы минуты.
Что мы получили в итоге:
модели с малым числом параметров обучения занимают немного места в памяти и могут запускаться даже на условно простых ПК только на CPU, но, они при этом выдают неправильные результаты и требуют очень много времени (более 30 минут на первый запрос). Модели с большим числом параметров обучения (gpt-oss:120b) выдают верный результат всего за 17 минут та подобной задаче.
А вот при запуске моделей на GPU, gpt-oss:20b выдала правильный ответ за 3 минуты используя только один ускоритель, а модель gpt-oss:120b выдала верный результат за полторы минуты, но уже используя 2 GPU.
На этом этапе изучения работы LLM я сделал для себя и возможно для вас интересное наблюдение. А именно, скорость работы с GPU и без GPU различается в десятки раз, при чем модели с низким числом параметров не дают правильный ответ.
Но при использовании GPU в моем тесте младшая модель решила задачу правильно с первого раза за 3 минуты. Но старшая модель, объемом более чем 4 раза, решила задачу всего за полторы минуты.
PS. Получается что работа LLM зависит как от объема, так и источника обработки. И CPU инференс LLM сильно проигрыват.
Возможно более простые задачи небольшие LLM решают с хорошей точностью даже на обычных ноутбуках с достаточным объемом памяти. Но вот чуть более сложные задачи я думаю без использования GPU сложно решить.
Буду рад услышать от читателей интересные идеи по тестированию различных моделей на обычных ПК и их сравнение с результатами обработки на мощных системах.
Комментарии (53)

Zippy
19.02.2026 19:39Основная вычислительная нашрузка требуется на обучение . Получение ответа намного легче. То что разные ответы означаент что алгоритм рабпты зависит от процессора. Чего по идее не должно быть. То есть проблема не в процессоре а в том что апускаются по сути разные программы. CPU просто должен был долбше работать для того же ответа

zbot
19.02.2026 19:39ministral-3-14B-reasoning-2512 Q5_K_M размышлял примерно 10 минут потом решил плотник ест пицу и держит крокодила
deepseek и qwen3 определили что пицу ест плотник а крокодила никто не держит, но поскольку остальных животин они раскидали правильно то крокодил оставался только за програмистом.

softel Автор
19.02.2026 19:39Не переживайте, данную задачу не решил ни Гигачат ни GPTChat ни Grok
При чем Гигачат её не решил даже с четвертой попытки, GPT и Grok решили со второй, причем времени у них заняло более 3 минут. Ну это конечно понятно, к моей нейросети имеют доступ немного людей, а к этим Грокам сотни тысяч. Но факт в том что локальный запуск LLM намного эффективней.

zbot
19.02.2026 19:39Грок -

26 секунд

softel Автор
19.02.2026 19:39А решение то где?

zbot
19.02.2026 19:39Решение:
Первый склад — плотник (по условию).
Красный склад рядом с плотником → красный на позиции 2.
Желтый стоит сразу справа от синего → возможна только пара: синий — 4, желтый — 5 (остальные варианты конфликтуют).
В центре (3) едят пельмени → значит желтый (5) не центр, всё согласуется.
Белый склад пьёт вино. Склад 1 может быть белым (другие варианты приводят к противоречиям) → склад 1 белый и там пьют вино.
Каменщик работает в зелёном складе → зелёный склад 3, значит там каменщик.
Склад рядом с тем, где держат тигра, пьёт вино → вино на складе 1, значит тигр на складе 2.
Портной держит леопарда → склад 2 не может быть портным (там тигр). В итоге портной — склад 4, и там леопард.
Электрик ест хлеб → он не может быть на складе 4 (там макароны позже) и не на 5 (там котлета). Значит электрик — склад 2, и там хлеб.
Тот, кто пьёт виски, ест макароны → остаётся склад 4 (там макароны и виски).
Программист пьёт ром → программист не может быть на складе 4 (там виски), значит он на складе 5 (ром).
Водку пьёт склад 2 (иначе возникают противоречия с соседями и животными). Тогда сосед водочника держит медведя → склад 1 держит медведя (склад 3 уже занят пумой далее).
Коньяк разводит пуму → коньяк на складе 3, там же пума.
Остаётся единственное свободное животное — крокодил → он на складе 5.
По продуктам: склад 5 — котлета, склад 3 — пельмени, склад 4 — макароны, склад 2 — хлеб. Остаётся пицца → на складе 1.

softel Автор
19.02.2026 19:39А почему Грок не смог сказать проще?
И из этой кучи текста пока все равно не видно четкого ответа.

zbot
19.02.2026 19:39помоему проще некуда - он решение в виде таблицы выдал

evgensenin
19.02.2026 19:39самый дурацкий ответ что я видел)
проще это когда ответ на 1 и 2 вопрос, а у вас грок выдал промежуточный результат в виде таблицы и ходи разбирайся каков ответ.

zbot
19.02.2026 19:39алиса с первой попытки определила что плотник ест пиццу и обрвала ответ, на вопрос а кто держит крокодила она подумала еще 3-4 минуты и выдала:
Пиццу ест плотник (склад 1).
Крокодила держит каменщик (склад 5).

softel Автор
19.02.2026 19:39Эта Алиса тупая пока, как пробка.
Зато быстро отвечает. Одна проблема что очень часто неправильно. Хотя на простые запросы может и истину сказануть. Но на простые вопросы неплохо отвечают модели которые можно запустить даже без GPU, ну медленней конечно.

dkeiz
19.02.2026 19:39странно вы все это подаете. GLM 5 решил за 95 секунд, DeepSeek в DeepThink за 200 секунд, без deepthink тоже ответил правильно. OSS20b в low выдал не правильный ответ, в medium за 150с ответил уже правильно. Вам бы тщательнее все это анализировать, хотя любые детерминированные задачи для LLM, которые можно засунуть в Eval'ы это сомнительные тесты.

st---v
19.02.2026 19:39я был бы щастлив, если бы вы провели так же сравнение с компом, оснащённым встроенным NPU. скажем, системой на AMD Ryzen AI Max+ 395 + 128гб озу. давно на него засматриваюсь!
вот это было бы реально интересно!
softel Автор
19.02.2026 19:39Ну, тут извините ничем не могу помочь, я публикую только свой опыт и на основе того что у меня есть, платформа AMD Ryzen AI Max+ 395 + 128гб меня не интересует, слишком мала для моих мечтаний. Я сейчас рассматриваю возможность заменить железо своего "сервера" на реальное серверное железо, а именно на amd threadripper pro 7965wx-7975wx. Но это весьма дорого и пока я сам с собой не договорился на эти затраты. );

st---v
19.02.2026 19:39позвольте спросить - вы свой стенд наворачиваете, чисто как энтузиат-любитель для личных исследований или есть идеи какого-то стартапа, для работы или как-то иначе хотите монетизировать?

softel Автор
19.02.2026 19:39Ну это сложный вопрос, с одной стороны я наворачиваю как энтузиаст, а с другой стороны для оптимизации некоторых процессов свой организации если у меня все получится.

st---v
19.02.2026 19:39а я пытаюсь пробить в нашей конторе 500к на закупку оборудования. но чего-то жмутся, хотя на словах активно поддерживают внедрение ИИ...

softel Автор
19.02.2026 19:39Ну при текущих ценах 500к это весьма маловато я думаю для реализации ИИ для конторы. Мне эта дерзкая идея клюнула в голову прошлым летом, до взвинчивания цен на память. И с учетом того что основные компоненты я привез из Китая вылилось почти в 1 млн., сейчас есть идея апгрейда, но на нее нужно тыщ 700 и пока я себя не уговорил на это, ну и китайский новый год еще не закончился, половину конечно я отобью продав оставшееся железо после подернизации. Но всеравно очень дорого.

hubabubabagz
19.02.2026 19:39Есть задачи на которых ллм дает неопределенный ответ, может ответить правильно, может неправильно, по одному прогону делать такие выводы нельзя.

WinPooh32
19.02.2026 19:39Ответ, конечно, неправильный, но для статистики выложу:
Qwen3-Coder-Next на 78Гб DDR4 RAM 3200 частота, amd 7900xtx на 24Гб VRAM по PCI-E 3.0, ryzen 5700x3d:Я думаю, правильный ответ:
✅ Плотник ест пиццу.
✅ Плотник держит крокодила.Поскольку в таблице, где 1: плотник, 1: пицца, и единственное животное, которое не использовано в других >позициях — крокодил.
Ответ: плотник ест пиццу и держит крокодила.
Qwen3-Coder-Next-UD-Q6_K_XL-00001-of-00003.gguf 9,299 tokens 8min 40s 17.86 t/s
По софту: llama-swap + llama.cpp (версия b8100).
Просто на CPU выдавливает 5 t/s.Мой конфиг для llama-swap:
healthCheckTimeout: 300 logRequests: true metricsMaxInMemory: 1000 macros: llama-server: > "/run/host/run/media/system/Data/aivibe/llama.cpp/build/bin/llama-server" --parallel 1 --port ${PORT} --offline --flash-attn on --jinja --timeout 1200 --ctx-checkpoints 8 --cache-ram 4096 --kv-unified models: "/run/host/run/media/system/Data/aivibe/models" models: "qwen3-coder-next": cmd: > ${llama-server} --threads 5 --context-shift --ctx-size 200000 --fit-ctx 200000 --fit-target 2048 -ub 4096 -b 4096 --temp 0.55 --top-p 0.95 --top-k 40 --min-p 0.01 --repeat-penalty 1.0 -m "${models}/Qwen3-Coder-Next-UD-Q6_K_XL/Qwen3-Coder-Next-UD-Q6_K_XL-00001-of-00003.gguf"Мне модель в агентном режиме очень сильно зашла, гоняю через Claude code cli (другие сильно хуже). Простенькие кодерские задачки решает на ура. Даже есть мысли на сервере поднять как "умный" линтер для пулл реквестов на проекте и как анализатор почему тесты падают (по коду ориентируется неплохо). Это вообще у меня первая локальная модель, которая нормально смогла в агентный режим :)

WinPooh32
19.02.2026 19:39А вот ответ от обычной (не кодерской) версии модели:
✅ Ответ:
Пиццу ест плотник. Крокодила держит программист.Qwen3-Next-80B-A3B-Instruct-Q4_K_M.gguf 6,201 tokens 3min 51s 26.74 t/s
Конфиг:
"qwen3-next": cmd: > ${llama-server} --threads 5 --context-shift --ctx-size 100000 --fit-ctx 100000 --fit-target 1536 -ctk q8_0 -ctv q8_0 -ub 4096 -b 4096 -m "${models}/Qwen3-Next-80B-A3B-Instruct-Q4_K_M.gguf"

evgensenin
19.02.2026 19:39у меня 4битный квант этой модели выдал такой результат
✅ Ответ:
Пиццу ест плотник.
Крокодила держит программист.
Qwen3-Coder-Next
7,830 tokens
2min 58s
43.98 t/s
WinPooh32
19.02.2026 19:39Возможно, unsloth что-то испортили с динамическим квантованием. Перепроверю на обычной версии тогда. Вот Qwen3-Next как раз обычная была и ответ был верный.
upd: похоже на рандом, потому что на новый прогон получил уже корректный ответ за то же время и расход токенов:
Ответ:
Пиццу ест плотник.
Крокодила держит программист.

repen
19.02.2026 19:39
У меня такой результат карта RTX 5060 Ti 16 ГБ. llama-server 
triller599
19.02.2026 19:39И эта модель ( gpt‑oss‑20b ) реально работает на 5060 Ti 16ГБ ?
Опыта мало, выбираю себе для такой же карты модель в качестве baseline-а для агентской системы.
WinPooh32
19.02.2026 19:39Да, заработает. Веса модели занимают 14гб. Если включить квантование контекста хотя бы до 8 бит, то в оставшиеся 2гб можно побольше уже контекст запихнуть. Если через llama.cpp с флагом -cmoe, то скорее всего даже весь контекст можно будет использовать, доступный для модели, но возрастет потребление обычной памяти и часть нагрузки уйдет на CPU с просадкой по скорости.
Если обычной ОЗУ много, то получится gpt-oss-120b, qwen3-next, qwen3-coder-next запустить на этой карте. Вот в соседней статье на 6 гиговой карте запускали. Так как часть нагрузки пойдет на проц, то он тоже должен быть достаточно мощный, и шину PCI-E 4-5 версии желательно с ddr5 ОЗУ :)

rusatch
19.02.2026 19:39Ollama, qwen3-vl:30b-a3b-instruct-q4_K_M
RTX3090
Со второй попытки, на первой зациклилась:
Ответ:Кто ест пиццу? — Плотник
Кто держит крокодила? — Программист

evgensenin
19.02.2026 19:39Таким образом, на вопросы «Кто ест пиццу?» и «Кто держит крокодила?» ответы: пиццу ест плотник, крокодила держит программист.
MiniMax-M2.5 = 1 rtx4090, остальные веса на CPU
27,026 tokens
3h 2min 38s
2.47 t/s
GLM4.7-flash не справился (хоть скорость и впечатляла)

programania
19.02.2026 19:39памяти для запуска потребовалось 65Гб, немало и простой ПК даже с 64Гб не сможет запустить эту модель к сожалению.
...запуск инференса на win платформе вообще малоперспективная задача,
...ты запускаешь в винде, там все плохо.У меня на простом ПК i5-13500 14t, 64гб DDR5 4800 мгц в windows 10 запускается bartowski/openai_gpt-oss-120b-MXFP4.gguf
командой: llama.cpp-b6959\build\bin\release\llama-server.exe -m d:\models\openai_gpt-oss-120b-MXFP4.gguf -t 14 -c 16000
Занимает примерно 60 гб RAM. GPU не используется, только CPU.
Головоломку решала 13 минут:
prompt eval time = 7260.75 ms / 293 tokens ( 24.78 ms per token, 40.35 tokens per second)
eval time = 819418.54 ms / 9689 tokens ( 84.57 ms per token, 11.82 tokens per second)
total time = 826679.29 ms / 9982 tokens
За это время выдала:
после <|channel|>analysis 37667 символов размышлений в основном на английском и затем
после <|channel|>final правильный ответ на русском:Кто ест пиццу? - Пиццу ест плотник (на первом складе, в белом помещении).
Кто держит крокодила? - Крокодила держит программист (на пятом складе, в жёлтом помещении).
Похоже LLM перебирала и проверяла все варианты.
openai_gpt-oss-120b-MXFP4.gguf можно запустить и на 32 гб RAM на CPU
со скоростью 5 токенов в сек. или 16 символов в сек.

Loco2k
19.02.2026 19:39oss-20b на 4080 - правильно 2:09
контекст 16К
имхо, тут будет сильно всё зависеть от тонких настроек ризонинга, температуры и пр.
первый результат - температура 1.
при температуре 0.75, думал дольше в два раза. написал правильно, но странно. контекст превышен


zbot
а какой уровень reasoning этой модели вы таки использовали?
softel Автор
Поясните подробней.
zbot
softel Автор
В моей оболочке не так выглядит, но все настройки на максимум, если это вам поможет.
zbot
я потому и интересуюсь, что минут 20 gpt-oss-20b решала эту задачу и решить не смогла, на 5060ti (16gb)
точнее говоря я не дождался от нее решения, по причине что там уже начали мелькать в размышлениях карандаши и прочие галюцинации.
softel Автор
Вы запускаете на windows?
Если да, то мне кажется запуск инференса на win платформе вообще малоперспективная задача, но это не утверждение, а только мое предположение.
Во вторых 16Гб видеопамяти возможно недостаточно для этой модели.
Нужно смотреть на то, какие ресурсы у ПК задействованы во время работы модели, в Linux это довольно просто, а в windows незнаю.
Скорее всего проблема в том что ваша видеокарта единственная в системе и часть ее видеопамяти уже занята системой для отображения на мониторе того что вы делаете.
В моей системе сейчас 2 видеокарты RTX4090 модернизированные китайцами до 48Gb видеопамяти в каждой и еще видеокарта процессора I9 которая выводит изображение на экран. Но я не пользуюсь экраном этого компьютера, так как подключаюсь к нему с рабочего ноутбука через сеть.
Вот так примерно выглядит мой состав видеоадаптеров
zbot
конкретно для этой модели с контекстом 32к
softel Автор
Ну я так и понял что ты запускаешь в винде, там все плохо.
Вот как у меня на линуксе работает с контекстом 130к и модель 120b
softel Автор
Установи ubunutu 24.04, все возможно станет быстрей