Запуск модели gpt-oss на 20 и 120 миллиардов параметров, на процессоре Core I9 для решения непростой задачи без GPU / forpes.ru

Главная
Запуск модели gpt-oss на 20 и 120 миллиардов параметров, на процессоре Core I9 для решения непростой задачи без GPU

Запуск модели gpt-oss на 20 и 120 миллиардов параметров, на процессоре Core I9 для решения непростой задачи без GPU +5

19.02.2026 18:36

softel 53 9900 Источник

У меня возникла идея проверить насколько различается скорость инференса LLM моделей не только в сравнении CPU и GPU, но и между младшими моделями со старшими при обработке без использования GPU.
Для сравнения я выбрал модель gpt-oss:20b (размер модели 14Гб) и gpt-oss:120b (размер модели 65Гб). Запустил тест моделей я на компьютере с процессором Intel Core I9 14900K и 192Гб оперативной памяти.

Для теста я задал каверзную задачку:

Реши логическую задачу:
На улице стоят пять складов.
Каменщик работает в зеленом складе.
У портного есть леопард.
На желтом складе едят котлету.
Электрик ест хлеб.
Желтый склад стоит сразу справа от синего склада.
Тот, кто пьет коньяк разводит пуму.
В белом складе пьют вино.
В центральном складе едят пельмени.
Плотник работает на первом складе.
Сосед того, кто пьет водку, держит медведя.
На складе по соседству с тем, в котором держат тигра, пьют вино.
Тот, кто пьет виски, ест макароны.
Программист пьет ром.
Плотник работает рядом с красным складом.
Кто ест пиццу? Кто держит крокодила?

И пациентом стала модель gpt-oss:20b (может быть запущена на ПК с 32Гб оперативки). В результате мне пришлось ждать почти 35 минут, я даже в магазин успел съездить. Но спустя эти 35 минут я получил неверный ответ, скрины ниже.

Далее я сказал что результат не верен, следующий ответ она думала 23 минуты, но увы, так же неправильно.

но уже даже составила таблицу.

В итоге потратив час на модель gpt-oss:20b и не добившись правильного ответа со второй попытки, я приступил к тесту gpt-oss:120b чисто на CPU, памяти для запуска потребовалось 65Гб, немало и простой ПК даже с 64Гб не сможет запустить эту модель к сожалению. И я приготовился ждать долго. Однако мой шаблон был сломан, спустя всего 17 минут, gpt-oss:120b выдала верный результат.

Таким образом получилось что модель объемом 65 гигабайт, решила задачу правильно в 2 раза быстрей чем ее младшая модель.

Но результат был еще интересней когда я запустил эту же задачу но уже используя GPU RTX4090 48Gb, в моей системе их 2 штуки с общим объемом VRAM 96Гб.
Так вот gpt-oss:20b решила эту проблему примерно за 3 минуты, но самое главное правильно используя только одну видеокарту.
Далее я запустил тест модели gpt-oss:120b на GPU, правильное решение заняло всего полторы минуты.

Что мы получили в итоге:

модели с малым числом параметров обучения занимают немного места в памяти и могут запускаться даже на условно простых ПК только на CPU, но, они при этом выдают неправильные результаты и требуют очень много времени (более 30 минут на первый запрос). Модели с большим числом параметров обучения (gpt-oss:120b) выдают верный результат всего за 17 минут та подобной задаче.

А вот при запуске моделей на GPU, gpt-oss:20b выдала правильный ответ за 3 минуты используя только один ускоритель, а модель gpt-oss:120b выдала верный результат за полторы минуты, но уже используя 2 GPU.

На этом этапе изучения работы LLM я сделал для себя и возможно для вас интересное наблюдение. А именно, скорость работы с GPU и без GPU различается в десятки раз, при чем модели с низким числом параметров не дают правильный ответ.

Но при использовании GPU в моем тесте младшая модель решила задачу правильно с первого раза за 3 минуты. Но старшая модель, объемом более чем 4 раза, решила задачу всего за полторы минуты.

PS. Получается что работа LLM зависит как от объема, так и источника обработки. И CPU инференс LLM сильно проигрыват.

Возможно более простые задачи небольшие LLM решают с хорошей точностью даже на обычных ноутбуках с достаточным объемом памяти. Но вот чуть более сложные задачи я думаю без использования GPU сложно решить.

Буду рад услышать от читателей интересные идеи по тестированию различных моделей на обычных ПК и их сравнение с результатами обработки на мощных системах.

Комментарии (53)

zbot
19.02.2026 19:39
#29556144
а какой уровень reasoning этой модели вы таки использовали?
1. softel Автор
  19.02.2026 19:39
  #29556158
  Поясните подробней.
  1. zbot
    19.02.2026 19:39
    #29556268
    
    softel Автор
    19.02.2026 19:39
    #29556274
    В моей оболочке не так выглядит, но все настройки на максимум, если это вам поможет.
    
    zbot
    19.02.2026 19:39
    #29556322
    я потому и интересуюсь, что минут 20 gpt-oss-20b решала эту задачу и решить не смогла, на 5060ti (16gb)
    
    точнее говоря я не дождался от нее решения, по причине что там уже начали мелькать в размышлениях карандаши и прочие галюцинации.
    
    softel Автор
    19.02.2026 19:39
    #29556384
    Вы запускаете на windows?
    
    Если да, то мне кажется запуск инференса на win платформе вообще малоперспективная задача, но это не утверждение, а только мое предположение.
    
    Во вторых 16Гб видеопамяти возможно недостаточно для этой модели.
    
    Нужно смотреть на то, какие ресурсы у ПК задействованы во время работы модели, в Linux это довольно просто, а в windows незнаю.
    
    Скорее всего проблема в том что ваша видеокарта единственная в системе и часть ее видеопамяти уже занята системой для отображения на мониторе того что вы делаете.
    
    В моей системе сейчас 2 видеокарты RTX4090 модернизированные китайцами до 48Gb видеопамяти в каждой и еще видеокарта процессора I9 которая выводит изображение на экран. Но я не пользуюсь экраном этого компьютера, так как подключаюсь к нему с рабочего ноутбука через сеть.
    
    Вот так примерно выглядит мой состав видеоадаптеров
    
    zbot
    19.02.2026 19:39
    #29556530
    конкретно для этой модели с контекстом 32к
    
    softel Автор
    19.02.2026 19:39
    #29556556
    Ну я так и понял что ты запускаешь в винде, там все плохо.
    
    Вот как у меня на линуксе работает с контекстом 130к и модель 120b
    
    softel Автор
    19.02.2026 19:39
    #29556562
    Установи ubunutu 24.04, все возможно станет быстрей

Zippy
19.02.2026 19:39
#29556146
Основная вычислительная нашрузка требуется на обучение . Получение ответа намного легче. То что разные ответы означаент что алгоритм рабпты зависит от процессора. Чего по идее не должно быть. То есть проблема не в процессоре а в том что апускаются по сути разные программы. CPU просто должен был долбше работать для того же ответа
1. softel Автор
  19.02.2026 19:39
  #29556156
  Для меня это вот как раз и стало загадкой, которую теперь пытаюсь решать.
  1. zbot
    19.02.2026 19:39
    #29556266
    .
    
    softel Автор
    19.02.2026 19:39
    #29556298
    Вы создаете ответы с пустыми сообщениями.
    
    zbot
    19.02.2026 19:39
    #29556340
    сожалею, я отвечал на предыдущий комментарий, но так получилось что скриншот опубликовался в этом. А поскольку удалить комментарий тут по странному стечению обстоятельств невозможно, я его "обнулил"

zbot
19.02.2026 19:39
#29556232
ministral-3-14B-reasoning-2512 Q5_K_M размышлял примерно 10 минут потом решил плотник ест пицу и держит крокодила

deepseek и qwen3 определили что пицу ест плотник а крокодила никто не держит, но поскольку остальных животин они раскидали правильно то крокодил оставался только за програмистом.
1. softel Автор
  19.02.2026 19:39
  #29556280
  Не переживайте, данную задачу не решил ни Гигачат ни GPTChat ни Grok
  
  При чем Гигачат её не решил даже с четвертой попытки, GPT и Grok решили со второй, причем времени у них заняло более 3 минут. Ну это конечно понятно, к моей нейросети имеют доступ немного людей, а к этим Грокам сотни тысяч. Но факт в том что локальный запуск LLM намного эффективней.
  1. zbot
    19.02.2026 19:39
    #29556360
    Грок -
    
    26 секунд
    
    softel Автор
    19.02.2026 19:39
    #29556390
    А решение то где?
    
    zbot
    19.02.2026 19:39
    #29556440
    Решение:
    
    Первый склад — плотник (по условию).
    
    Красный склад рядом с плотником → красный на позиции 2.
    
    Желтый стоит сразу справа от синего → возможна только пара: синий — 4, желтый — 5 (остальные варианты конфликтуют).
    
    В центре (3) едят пельмени → значит желтый (5) не центр, всё согласуется.
    
    Белый склад пьёт вино. Склад 1 может быть белым (другие варианты приводят к противоречиям) → склад 1 белый и там пьют вино.
    
    Каменщик работает в зелёном складе → зелёный склад 3, значит там каменщик.
    
    Склад рядом с тем, где держат тигра, пьёт вино → вино на складе 1, значит тигр на складе 2.
    
    Портной держит леопарда → склад 2 не может быть портным (там тигр). В итоге портной — склад 4, и там леопард.
    
    Электрик ест хлеб → он не может быть на складе 4 (там макароны позже) и не на 5 (там котлета). Значит электрик — склад 2, и там хлеб.
    
    Тот, кто пьёт виски, ест макароны → остаётся склад 4 (там макароны и виски).
    
    Программист пьёт ром → программист не может быть на складе 4 (там виски), значит он на складе 5 (ром).
    
    Водку пьёт склад 2 (иначе возникают противоречия с соседями и животными). Тогда сосед водочника держит медведя → склад 1 держит медведя (склад 3 уже занят пумой далее).
    
    Коньяк разводит пуму → коньяк на складе 3, там же пума.
    
    Остаётся единственное свободное животное — крокодил → он на складе 5.
    
    По продуктам: склад 5 — котлета, склад 3 — пельмени, склад 4 — макароны, склад 2 — хлеб. Остаётся пицца → на складе 1.
    
    softel Автор
    19.02.2026 19:39
    #29556468
    А почему Грок не смог сказать проще?
    
    И из этой кучи текста пока все равно не видно четкого ответа.
    
    zbot
    19.02.2026 19:39
    #29556480
    помоему проще некуда - он решение в виде таблицы выдал
    
    softel Автор
    19.02.2026 19:39
    #29556490
    А толку от этой таблицы?
    
    Где четкий ответ?
    
    типа такого
    
    zbot
    19.02.2026 19:39
    #29556516
    
    softel Автор
    19.02.2026 19:39
    #29556522
    А как из этой таблицы понять ответ?
    
    evgensenin
    19.02.2026 19:39
    #29558724
    самый дурацкий ответ что я видел)
    проще это когда ответ на 1 и 2 вопрос, а у вас грок выдал промежуточный результат в виде таблицы и ходи разбирайся каков ответ.
  1. zbot
    19.02.2026 19:39
    #29556394
    алиса с первой попытки определила что плотник ест пиццу и обрвала ответ, на вопрос а кто держит крокодила она подумала еще 3-4 минуты и выдала:
    
    Пиццу ест плотник (склад 1).
    
    Крокодила держит каменщик (склад 5).
    
    softel Автор
    19.02.2026 19:39
    #29556418
    Эта Алиса тупая пока, как пробка.
    
    Зато быстро отвечает. Одна проблема что очень часто неправильно. Хотя на простые запросы может и истину сказануть. Но на простые вопросы неплохо отвечают модели которые можно запустить даже без GPU, ну медленней конечно.
  1. dkeiz
    19.02.2026 19:39
    #29557766
    странно вы все это подаете. GLM 5 решил за 95 секунд, DeepSeek в DeepThink за 200 секунд, без deepthink тоже ответил правильно. OSS20b в low выдал не правильный ответ, в medium за 150с ответил уже правильно. Вам бы тщательнее все это анализировать, хотя любые детерминированные задачи для LLM, которые можно засунуть в Eval'ы это сомнительные тесты.

st---v
19.02.2026 19:39
#29556258
я был бы щастлив, если бы вы провели так же сравнение с компом, оснащённым встроенным NPU. скажем, системой на AMD Ryzen AI Max+ 395 + 128гб озу. давно на него засматриваюсь!
вот это было бы реально интересно!
1. softel Автор
  19.02.2026 19:39
  #29556332
  Ну, тут извините ничем не могу помочь, я публикую только свой опыт и на основе того что у меня есть, платформа AMD Ryzen AI Max+ 395 + 128гб меня не интересует, слишком мала для моих мечтаний. Я сейчас рассматриваю возможность заменить железо своего "сервера" на реальное серверное железо, а именно на amd threadripper pro 7965wx-7975wx. Но это весьма дорого и пока я сам с собой не договорился на эти затраты. );
  1. st---v
    19.02.2026 19:39
    #29556574
    позвольте спросить - вы свой стенд наворачиваете, чисто как энтузиат-любитель для личных исследований или есть идеи какого-то стартапа, для работы или как-то иначе хотите монетизировать?
    
    softel Автор
    19.02.2026 19:39
    #29556584
    Ну это сложный вопрос, с одной стороны я наворачиваю как энтузиаст, а с другой стороны для оптимизации некоторых процессов свой организации если у меня все получится.
    
    st---v
    19.02.2026 19:39
    #29559720
    а я пытаюсь пробить в нашей конторе 500к на закупку оборудования. но чего-то жмутся, хотя на словах активно поддерживают внедрение ИИ...
    
    softel Автор
    19.02.2026 19:39
    #29559928
    Ну при текущих ценах 500к это весьма маловато я думаю для реализации ИИ для конторы. Мне эта дерзкая идея клюнула в голову прошлым летом, до взвинчивания цен на память. И с учетом того что основные компоненты я привез из Китая вылилось почти в 1 млн., сейчас есть идея апгрейда, но на нее нужно тыщ 700 и пока я себя не уговорил на это, ну и китайский новый год еще не закончился, половину конечно я отобью продав оставшееся железо после подернизации. Но всеравно очень дорого.

zbot
19.02.2026 19:39
#29556454
glm-4.7-flash-reap-23b-a3b за 30 минут не справилась
1. softel Автор
  19.02.2026 19:39
  #29556532
  Если при инференсе на CPU то неудивительно

hubabubabagz
19.02.2026 19:39
#29556810
Есть задачи на которых ллм дает неопределенный ответ, может ответить правильно, может неправильно, по одному прогону делать такие выводы нельзя.
1. softel Автор
  19.02.2026 19:39
  #29556812
  Я никогда не делаю один прогон что бы что то утверждать.

WinPooh32
19.02.2026 19:39
#29557248
Ответ, конечно, неправильный, но для статистики выложу:
Qwen3-Coder-Next на 78Гб DDR4 RAM 3200 частота, amd 7900xtx на 24Гб VRAM по PCI-E 3.0, ryzen 5700x3d:

Я думаю, правильный ответ:

✅ Плотник ест пиццу.
✅ Плотник держит крокодила.

Поскольку в таблице, где 1: плотник, 1: пицца, и единственное животное, которое не использовано в других >позициях — крокодил.

Ответ: плотник ест пиццу и держит крокодила.

Qwen3-Coder-Next-UD-Q6_K_XL-00001-of-00003.gguf 9,299 tokens 8min 40s 17.86 t/s

По софту: llama-swap + llama.cpp (версия b8100).
Просто на CPU выдавливает 5 t/s.

Мой конфиг для llama-swap:
```
healthCheckTimeout: 300
logRequests: true
metricsMaxInMemory: 1000

macros:
  llama-server: >
      "/run/host/run/media/system/Data/aivibe/llama.cpp/build/bin/llama-server"
      --parallel 1
      --port ${PORT}
      --offline
      --flash-attn on
      --jinja
      --timeout 1200
      --ctx-checkpoints 8
      --cache-ram 4096
      --kv-unified
  models: "/run/host/run/media/system/Data/aivibe/models"

models:
  "qwen3-coder-next":
    cmd: >
      ${llama-server}
      --threads 5
      --context-shift --ctx-size 200000 --fit-ctx 200000
      --fit-target 2048
      -ub 4096 -b 4096
      --temp 0.55
      --top-p 0.95
      --top-k 40
      --min-p 0.01
      --repeat-penalty 1.0
      -m "${models}/Qwen3-Coder-Next-UD-Q6_K_XL/Qwen3-Coder-Next-UD-Q6_K_XL-00001-of-00003.gguf"
```
Мне модель в агентном режиме очень сильно зашла, гоняю через Claude code cli (другие сильно хуже). Простенькие кодерские задачки решает на ура. Даже есть мысли на сервере поднять как "умный" линтер для пулл реквестов на проекте и как анализатор почему тесты падают (по коду ориентируется неплохо). Это вообще у меня первая локальная модель, которая нормально смогла в агентный режим :)
1. WinPooh32
  19.02.2026 19:39
  #29557278
  А вот ответ от обычной (не кодерской) версии модели:
  
  ✅ Ответ:
  Пиццу ест плотник. Крокодила держит программист.
  
  Qwen3-Next-80B-A3B-Instruct-Q4_K_M.gguf 6,201 tokens 3min 51s 26.74 t/s
  
  Конфиг:
  
  "qwen3-next": cmd: > ${llama-server} --threads 5 --context-shift --ctx-size 100000 --fit-ctx 100000 --fit-target 1536 -ctk q8_0 -ctv q8_0 -ub 4096 -b 4096 -m "${models}/Qwen3-Next-80B-A3B-Instruct-Q4_K_M.gguf"
1. evgensenin
  19.02.2026 19:39
  #29561840
  у меня 4битный квант этой модели выдал такой результат
  
  ✅ Ответ:
  
  Пиццу ест плотник.
  
  Крокодила держит программист.
  
  Qwen3-Coder-Next
  
  7,830 tokens
  
  2min 58s
  
  43.98 t/s
  1. WinPooh32
    19.02.2026 19:39
    #29562746
    Возможно, unsloth что-то испортили с динамическим квантованием. Перепроверю на обычной версии тогда. Вот Qwen3-Next как раз обычная была и ответ был верный.
    
    upd: похоже на рандом, потому что на новый прогон получил уже корректный ответ за то же время и расход токенов:
    
    Ответ:
    
    Пиццу ест плотник.
    Крокодила держит программист.

repen
19.02.2026 19:39
#29557450
У меня такой результат карта RTX 5060 Ti 16 ГБ. llama-server
1. triller599
  19.02.2026 19:39
  #29561518
  И эта модель ( gpt‑oss‑20b ) реально работает на 5060 Ti 16ГБ ?
  Опыта мало, выбираю себе для такой же карты модель в качестве baseline-а для агентской системы.
  1. WinPooh32
    19.02.2026 19:39
    #29562774
    Да, заработает. Веса модели занимают 14гб. Если включить квантование контекста хотя бы до 8 бит, то в оставшиеся 2гб можно побольше уже контекст запихнуть. Если через llama.cpp с флагом -cmoe, то скорее всего даже весь контекст можно будет использовать, доступный для модели, но возрастет потребление обычной памяти и часть нагрузки уйдет на CPU с просадкой по скорости.
    
    Если обычной ОЗУ много, то получится gpt-oss-120b, qwen3-next, qwen3-coder-next запустить на этой карте. Вот в соседней статье на 6 гиговой карте запускали. Так как часть нагрузки пойдет на проц, то он тоже должен быть достаточно мощный, и шину PCI-E 4-5 версии желательно с ddr5 ОЗУ :)
  1. repen
    19.02.2026 19:39
    #29565110
    да работает и памяти для контекста хватает

rusatch
19.02.2026 19:39
#29557808
Ollama, qwen3-vl:30b-a3b-instruct-q4_K_M
RTX3090

Со второй попытки, на первой зациклилась:

Ответ:
- Кто ест пиццу? — Плотник
- Кто держит крокодила? — Программист

evgensenin
19.02.2026 19:39
#29558868
самое интересное исследование с неожиданным финалом!

LuckyJewish
19.02.2026 19:39
#29559168
Я в шоке, что это было в пределах 30 минут на CPU...

Офигеть

evgensenin
19.02.2026 19:39
#29560522
Таким образом, на вопросы «Кто ест пиццу?» и «Кто держит крокодила?» ответы: пиццу ест плотник, крокодила держит программист.

MiniMax-M2.5 = 1 rtx4090, остальные веса на CPU

27,026 tokens

3h 2min 38s

2.47 t/s

GLM4.7-flash не справился (хоть скорость и впечатляла)
1. softel Автор
  19.02.2026 19:39
  #29560658
  Всмысле 3 часа?

programania
19.02.2026 19:39
#29562312
памяти для запуска потребовалось 65Гб, немало и простой ПК даже с 64Гб не сможет запустить эту модель к сожалению.
...запуск инференса на win платформе вообще малоперспективная задача,
...ты запускаешь в винде, там все плохо.

У меня на простом ПК i5-13500 14t, 64гб DDR5 4800 мгц в windows 10 запускается bartowski/openai_gpt-oss-120b-MXFP4.gguf
командой: llama.cpp-b6959\build\bin\release\llama-server.exe -m d:\models\openai_gpt-oss-120b-MXFP4.gguf -t 14 -c 16000
Занимает примерно 60 гб RAM. GPU не используется, только CPU.
Головоломку решала 13 минут:
prompt eval time = 7260.75 ms / 293 tokens ( 24.78 ms per token, 40.35 tokens per second)
eval time = 819418.54 ms / 9689 tokens ( 84.57 ms per token, 11.82 tokens per second)
total time = 826679.29 ms / 9982 tokens
За это время выдала:
после <|channel|>analysis 37667 символов размышлений в основном на английском и затем
после <|channel|>final правильный ответ на русском:
- Кто ест пиццу? - Пиццу ест плотник (на первом складе, в белом помещении).
- Кто держит крокодила? - Крокодила держит программист (на пятом складе, в жёлтом помещении).
Похоже LLM перебирала и проверяла все варианты.

openai_gpt-oss-120b-MXFP4.gguf можно запустить и на 32 гб RAM на CPU
со скоростью 5 токенов в сек. или 16 символов в сек.

Loco2k
19.02.2026 19:39
#29562428
oss-20b на 4080 - правильно 2:09
контекст 16К
имхо, тут будет сильно всё зависеть от тонких настроек ризонинга, температуры и пр.
первый результат - температура 1.
при температуре 0.75, думал дольше в два раза. написал правильно, но странно. контекст превышен

Запуск модели gpt-oss на 20 и 120 миллиардов параметров, на процессоре Core I9 для решения непростой задачи без GPU +5

Для теста я задал каверзную задачку:

Что мы получили в итоге:

Комментарии (53)

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор