У меня возникла идея проверить насколько различается скорость инференса LLM моделей не только в сравнении CPU и GPU, но и между младшими моделями со старшими при обработке без использования GPU.
Для сравнения я выбрал модель gpt-oss:20b (размер модели 14Гб) и gpt-oss:120b (размер модели 65Гб). Запустил тест моделей я на компьютере с процессором Intel Core I9 14900K и 192Гб оперативной памяти.

Для теста я задал каверзную задачку:

Реши логическую задачу:
На улице стоят пять складов.
Каменщик работает в зеленом складе.
У портного есть леопард.
На желтом складе едят котлету.
Электрик ест хлеб.
Желтый склад стоит сразу справа от синего склада.
Тот, кто пьет коньяк разводит пуму.
В белом складе пьют вино.
В центральном складе едят пельмени.
Плотник работает на первом складе.
Сосед того, кто пьет водку, держит медведя.
На складе по соседству с тем, в котором держат тигра, пьют вино.
Тот, кто пьет виски, ест макароны.
Программист пьет ром.
Плотник работает рядом с красным складом.
Кто ест пиццу? Кто держит крокодила?

И пациентом стала модель gpt-oss:20b (может быть запущена на ПК с 32Гб оперативки). В результате мне пришлось ждать почти 35 минут, я даже в магазин успел съездить. Но спустя эти 35 минут я получил неверный ответ, скрины ниже.

Далее я сказал что результат не верен, следующий ответ она думала 23 минуты, но увы, так же неправильно.

но уже даже составила таблицу.

В итоге потратив час на модель gpt-oss:20b и не добившись правильного ответа со второй попытки, я приступил к тесту gpt-oss:120b чисто на CPU, памяти для запуска потребовалось 65Гб, немало и простой ПК даже с 64Гб не сможет запустить эту модель к сожалению. И я приготовился ждать долго. Однако мой шаблон был сломан, спустя всего 17 минут, gpt-oss:120b выдала верный результат.

Таким образом получилось что модель объемом 65 гигабайт, решила задачу правильно в 2 раза быстрей чем ее младшая модель.

Но результат был еще интересней когда я запустил эту же задачу но уже используя GPU RTX4090 48Gb, в моей системе их 2 штуки с общим объемом VRAM 96Гб.
Так вот gpt-oss:20b решила эту проблему примерно за 3 минуты, но самое главное правильно используя только одну видеокарту.
Далее я запустил тест модели gpt-oss:120b на GPU, правильное решение заняло всего полторы минуты.

Что мы получили в итоге:

модели с малым числом параметров обучения занимают немного места в памяти и могут запускаться даже на условно простых ПК только на CPU, но, они при этом выдают неправильные результаты и требуют очень много времени (более 30 минут на первый запрос). Модели с большим числом параметров обучения (gpt-oss:120b) выдают верный результат всего за 17 минут та подобной задаче.


А вот при запуске моделей на GPU, gpt-oss:20b выдала правильный ответ за 3 минуты используя только один ускоритель, а модель gpt-oss:120b выдала верный результат за полторы минуты, но уже используя 2 GPU.

На этом этапе изучения работы LLM я сделал для себя и возможно для вас интересное наблюдение. А именно, скорость работы с GPU и без GPU различается в десятки раз, при чем модели с низким числом параметров не дают правильный ответ.

Но при использовании GPU в моем тесте младшая модель решила задачу правильно с первого раза за 3 минуты. Но старшая модель, объемом более чем 4 раза, решила задачу всего за полторы минуты.

PS. Получается что работа LLM зависит как от объема, так и источника обработки. И CPU инференс LLM сильно проигрыват.

Возможно более простые задачи небольшие LLM решают с хорошей точностью даже на обычных ноутбуках с достаточным объемом памяти. Но вот чуть более сложные задачи я думаю без использования GPU сложно решить.

Буду рад услышать от читателей интересные идеи по тестированию различных моделей на обычных ПК и их сравнение с результатами обработки на мощных системах.

Комментарии (53)


  1. zbot
    19.02.2026 19:39

    а какой уровень reasoning этой модели вы таки использовали?


    1. softel Автор
      19.02.2026 19:39

      Поясните подробней.


      1. zbot
        19.02.2026 19:39


        1. softel Автор
          19.02.2026 19:39

          В моей оболочке не так выглядит, но все настройки на максимум, если это вам поможет.


          1. zbot
            19.02.2026 19:39

            я потому и интересуюсь, что минут 20 gpt-oss-20b решала эту задачу и решить не смогла, на 5060ti (16gb)

            точнее говоря я не дождался от нее решения, по причине что там уже начали мелькать в размышлениях карандаши и прочие галюцинации.


            1. softel Автор
              19.02.2026 19:39

              Вы запускаете на windows?

              Если да, то мне кажется запуск инференса на win платформе вообще малоперспективная задача, но это не утверждение, а только мое предположение.

              Во вторых 16Гб видеопамяти возможно недостаточно для этой модели.

              Нужно смотреть на то, какие ресурсы у ПК задействованы во время работы модели, в Linux это довольно просто, а в windows незнаю.

              Скорее всего проблема в том что ваша видеокарта единственная в системе и часть ее видеопамяти уже занята системой для отображения на мониторе того что вы делаете.

              В моей системе сейчас 2 видеокарты RTX4090 модернизированные китайцами до 48Gb видеопамяти в каждой и еще видеокарта процессора I9 которая выводит изображение на экран. Но я не пользуюсь экраном этого компьютера, так как подключаюсь к нему с рабочего ноутбука через сеть.

              Вот так примерно выглядит мой состав видеоадаптеров


              1. zbot
                19.02.2026 19:39

                конкретно для этой модели с контекстом 32к


                1. softel Автор
                  19.02.2026 19:39

                  Ну я так и понял что ты запускаешь в винде, там все плохо.

                  Вот как у меня на линуксе работает с контекстом 130к и модель 120b


                1. softel Автор
                  19.02.2026 19:39

                  Установи ubunutu 24.04, все возможно станет быстрей


  1. Zippy
    19.02.2026 19:39

    Основная вычислительная нашрузка требуется на обучение . Получение ответа намного легче. То что разные ответы означаент что алгоритм рабпты зависит от процессора. Чего по идее не должно быть. То есть проблема не в процессоре а в том что апускаются по сути разные программы. CPU просто должен был долбше работать для того же ответа


    1. softel Автор
      19.02.2026 19:39

      Для меня это вот как раз и стало загадкой, которую теперь пытаюсь решать.


      1. zbot
        19.02.2026 19:39

        .


        1. softel Автор
          19.02.2026 19:39

          Вы создаете ответы с пустыми сообщениями.


          1. zbot
            19.02.2026 19:39

            сожалею, я отвечал на предыдущий комментарий, но так получилось что скриншот опубликовался в этом. А поскольку удалить комментарий тут по странному стечению обстоятельств невозможно, я его "обнулил"


  1. zbot
    19.02.2026 19:39

    ministral-3-14B-reasoning-2512 Q5_K_M размышлял примерно 10 минут потом решил плотник ест пицу и держит крокодила

    deepseek и qwen3 определили что пицу ест плотник а крокодила никто не держит, но поскольку остальных животин они раскидали правильно то крокодил оставался только за програмистом.


    1. softel Автор
      19.02.2026 19:39

      Не переживайте, данную задачу не решил ни Гигачат ни GPTChat ни Grok

      При чем Гигачат её не решил даже с четвертой попытки, GPT и Grok решили со второй, причем времени у них заняло более 3 минут. Ну это конечно понятно, к моей нейросети имеют доступ немного людей, а к этим Грокам сотни тысяч. Но факт в том что локальный запуск LLM намного эффективней.


      1. zbot
        19.02.2026 19:39

        Грок -

        26 секунд


        1. softel Автор
          19.02.2026 19:39

          А решение то где?


          1. zbot
            19.02.2026 19:39

            Решение:

            1. Первый склад — плотник (по условию).

            2. Красный склад рядом с плотником → красный на позиции 2.

            3. Желтый стоит сразу справа от синего → возможна только пара: синий — 4, желтый — 5 (остальные варианты конфликтуют).

            4. В центре (3) едят пельмени → значит желтый (5) не центр, всё согласуется.

            5. Белый склад пьёт вино. Склад 1 может быть белым (другие варианты приводят к противоречиям) → склад 1 белый и там пьют вино.

            6. Каменщик работает в зелёном складе → зелёный склад 3, значит там каменщик.

            7. Склад рядом с тем, где держат тигра, пьёт вино → вино на складе 1, значит тигр на складе 2.

            8. Портной держит леопарда → склад 2 не может быть портным (там тигр). В итоге портной — склад 4, и там леопард.

            9. Электрик ест хлеб → он не может быть на складе 4 (там макароны позже) и не на 5 (там котлета). Значит электрик — склад 2, и там хлеб.

            10. Тот, кто пьёт виски, ест макароны → остаётся склад 4 (там макароны и виски).

            11. Программист пьёт ром → программист не может быть на складе 4 (там виски), значит он на складе 5 (ром).

            12. Водку пьёт склад 2 (иначе возникают противоречия с соседями и животными). Тогда сосед водочника держит медведя → склад 1 держит медведя (склад 3 уже занят пумой далее).

            13. Коньяк разводит пуму → коньяк на складе 3, там же пума.

            14. Остаётся единственное свободное животное — крокодил → он на складе 5.

            15. По продуктам: склад 5 — котлета, склад 3 — пельмени, склад 4 — макароны, склад 2 — хлеб. Остаётся пицца → на складе 1.


            1. softel Автор
              19.02.2026 19:39

              А почему Грок не смог сказать проще?

              И из этой кучи текста пока все равно не видно четкого ответа.


              1. zbot
                19.02.2026 19:39

                помоему проще некуда - он решение в виде таблицы выдал


                1. softel Автор
                  19.02.2026 19:39

                  А толку от этой таблицы?

                  Где четкий ответ?

                  типа такого


                  1. zbot
                    19.02.2026 19:39


                    1. softel Автор
                      19.02.2026 19:39

                      А как из этой таблицы понять ответ?


                1. evgensenin
                  19.02.2026 19:39

                  самый дурацкий ответ что я видел)
                  проще это когда ответ на 1 и 2 вопрос, а у вас грок выдал промежуточный результат в виде таблицы и ходи разбирайся каков ответ.


      1. zbot
        19.02.2026 19:39

        алиса с первой попытки определила что плотник ест пиццу и обрвала ответ, на вопрос а кто держит крокодила она подумала еще 3-4 минуты и выдала:

        • Пиццу ест плотник (склад 1).

        • Крокодила держит каменщик (склад 5).


        1. softel Автор
          19.02.2026 19:39

          Эта Алиса тупая пока, как пробка.

          Зато быстро отвечает. Одна проблема что очень часто неправильно. Хотя на простые запросы может и истину сказануть. Но на простые вопросы неплохо отвечают модели которые можно запустить даже без GPU, ну медленней конечно.


      1. dkeiz
        19.02.2026 19:39

        странно вы все это подаете. GLM 5 решил за 95 секунд, DeepSeek в DeepThink за 200 секунд, без deepthink тоже ответил правильно. OSS20b в low выдал не правильный ответ, в medium за 150с ответил уже правильно. Вам бы тщательнее все это анализировать, хотя любые детерминированные задачи для LLM, которые можно засунуть в Eval'ы это сомнительные тесты.


  1. st---v
    19.02.2026 19:39

    я был бы щастлив, если бы вы провели так же сравнение с компом, оснащённым встроенным NPU. скажем, системой на AMD Ryzen AI Max+ 395 + 128гб озу. давно на него засматриваюсь!
    вот это было бы реально интересно!


    1. softel Автор
      19.02.2026 19:39

      Ну, тут извините ничем не могу помочь, я публикую только свой опыт и на основе того что у меня есть, платформа AMD Ryzen AI Max+ 395 + 128гб меня не интересует, слишком мала для моих мечтаний. Я сейчас рассматриваю возможность заменить железо своего "сервера" на реальное серверное железо, а именно на amd threadripper pro 7965wx-7975wx. Но это весьма дорого и пока я сам с собой не договорился на эти затраты. );


      1. st---v
        19.02.2026 19:39

        позвольте спросить - вы свой стенд наворачиваете, чисто как энтузиат-любитель для личных исследований или есть идеи какого-то стартапа, для работы или как-то иначе хотите монетизировать?


        1. softel Автор
          19.02.2026 19:39

          Ну это сложный вопрос, с одной стороны я наворачиваю как энтузиаст, а с другой стороны для оптимизации некоторых процессов свой организации если у меня все получится.


          1. st---v
            19.02.2026 19:39

            а я пытаюсь пробить в нашей конторе 500к на закупку оборудования. но чего-то жмутся, хотя на словах активно поддерживают внедрение ИИ...


            1. softel Автор
              19.02.2026 19:39

              Ну при текущих ценах 500к это весьма маловато я думаю для реализации ИИ для конторы. Мне эта дерзкая идея клюнула в голову прошлым летом, до взвинчивания цен на память. И с учетом того что основные компоненты я привез из Китая вылилось почти в 1 млн., сейчас есть идея апгрейда, но на нее нужно тыщ 700 и пока я себя не уговорил на это, ну и китайский новый год еще не закончился, половину конечно я отобью продав оставшееся железо после подернизации. Но всеравно очень дорого.


  1. zbot
    19.02.2026 19:39

    glm-4.7-flash-reap-23b-a3b за 30 минут не справилась


    1. softel Автор
      19.02.2026 19:39

      Если при инференсе на CPU то неудивительно


  1. hubabubabagz
    19.02.2026 19:39

    Есть задачи на которых ллм дает неопределенный ответ, может ответить правильно, может неправильно, по одному прогону делать такие выводы нельзя.


    1. softel Автор
      19.02.2026 19:39

      Я никогда не делаю один прогон что бы что то утверждать.


  1. WinPooh32
    19.02.2026 19:39

    Ответ, конечно, неправильный, но для статистики выложу:
    Qwen3-Coder-Next на 78Гб DDR4 RAM 3200 частота, amd 7900xtx на 24Гб VRAM по PCI-E 3.0, ryzen 5700x3d:

    Я думаю, правильный ответ:

    ✅ Плотник ест пиццу.
    ✅ Плотник держит крокодила.

    Поскольку в таблице, где 1: плотник, 1: пицца, и единственное животное, которое не использовано в других >позициях — крокодил.

    Ответ: плотник ест пиццу и держит крокодила.

    Qwen3-Coder-Next-UD-Q6_K_XL-00001-of-00003.gguf 9,299 tokens 8min 40s 17.86 t/s

    По софту: llama-swap + llama.cpp (версия b8100).
    Просто на CPU выдавливает 5 t/s.

    Мой конфиг для llama-swap:

    healthCheckTimeout: 300
    logRequests: true
    metricsMaxInMemory: 1000
    
    macros:
      llama-server: >
          "/run/host/run/media/system/Data/aivibe/llama.cpp/build/bin/llama-server"
          --parallel 1
          --port ${PORT}
          --offline
          --flash-attn on
          --jinja
          --timeout 1200
          --ctx-checkpoints 8
          --cache-ram 4096
          --kv-unified
      models: "/run/host/run/media/system/Data/aivibe/models"
    
    models:
      "qwen3-coder-next":
        cmd: >
          ${llama-server}
          --threads 5
          --context-shift --ctx-size 200000 --fit-ctx 200000
          --fit-target 2048
          -ub 4096 -b 4096
          --temp 0.55
          --top-p 0.95
          --top-k 40
          --min-p 0.01
          --repeat-penalty 1.0
          -m "${models}/Qwen3-Coder-Next-UD-Q6_K_XL/Qwen3-Coder-Next-UD-Q6_K_XL-00001-of-00003.gguf"
    

    Мне модель в агентном режиме очень сильно зашла, гоняю через Claude code cli (другие сильно хуже). Простенькие кодерские задачки решает на ура. Даже есть мысли на сервере поднять как "умный" линтер для пулл реквестов на проекте и как анализатор почему тесты падают (по коду ориентируется неплохо). Это вообще у меня первая локальная модель, которая нормально смогла в агентный режим :)


    1. WinPooh32
      19.02.2026 19:39

      А вот ответ от обычной (не кодерской) версии модели:

      ✅ Ответ:
      Пиццу ест плотник. Крокодила держит программист.

      Qwen3-Next-80B-A3B-Instruct-Q4_K_M.gguf 6,201 tokens 3min 51s 26.74 t/s

      Конфиг:

        "qwen3-next":
          cmd: >
            ${llama-server}
            --threads 5
            --context-shift --ctx-size 100000 --fit-ctx 100000
            --fit-target 1536
            -ctk q8_0 -ctv q8_0
            -ub 4096 -b 4096
            -m "${models}/Qwen3-Next-80B-A3B-Instruct-Q4_K_M.gguf"
      


    1. evgensenin
      19.02.2026 19:39

      у меня 4битный квант этой модели выдал такой результат

      ✅ Ответ:

      • Пиццу ест плотник.

      • Крокодила держит программист.

      Qwen3-Coder-Next

      7,830 tokens

      2min 58s

      43.98 t/s


      1. WinPooh32
        19.02.2026 19:39

        Возможно, unsloth что-то испортили с динамическим квантованием. Перепроверю на обычной версии тогда. Вот Qwen3-Next как раз обычная была и ответ был верный.

        upd: похоже на рандом, потому что на новый прогон получил уже корректный ответ за то же время и расход токенов:

        Ответ:

        Пиццу ест плотник.
        Крокодила держит программист.


  1. repen
    19.02.2026 19:39

    У меня такой результат карта RTX 5060 Ti 16 ГБ. llama-server
    У меня такой результат карта RTX 5060 Ti 16 ГБ. llama-server


    1. triller599
      19.02.2026 19:39

      И эта модель ( gpt‑oss‑20b ) реально работает на 5060 Ti 16ГБ ?
      Опыта мало, выбираю себе для такой же карты модель в качестве baseline-а для агентской системы.


      1. WinPooh32
        19.02.2026 19:39

        Да, заработает. Веса модели занимают 14гб. Если включить квантование контекста хотя бы до 8 бит, то в оставшиеся 2гб можно побольше уже контекст запихнуть. Если через llama.cpp с флагом -cmoe, то скорее всего даже весь контекст можно будет использовать, доступный для модели, но возрастет потребление обычной памяти и часть нагрузки уйдет на CPU с просадкой по скорости.

        Если обычной ОЗУ много, то получится gpt-oss-120b, qwen3-next, qwen3-coder-next запустить на этой карте. Вот в соседней статье на 6 гиговой карте запускали. Так как часть нагрузки пойдет на проц, то он тоже должен быть достаточно мощный, и шину PCI-E 4-5 версии желательно с ddr5 ОЗУ :)


      1. repen
        19.02.2026 19:39

        да работает и памяти для контекста хватает


  1. rusatch
    19.02.2026 19:39

    Ollama, qwen3-vl:30b-a3b-instruct-q4_K_M
    RTX3090

    Со второй попытки, на первой зациклилась:

    Ответ:

    • Кто ест пиццу?Плотник

    • Кто держит крокодила?Программист


  1. evgensenin
    19.02.2026 19:39

    самое интересное исследование с неожиданным финалом!


  1. LuckyJewish
    19.02.2026 19:39

    Я в шоке, что это было в пределах 30 минут на CPU...

    Офигеть


  1. evgensenin
    19.02.2026 19:39

    Таким образом, на вопросы «Кто ест пиццу?» и «Кто держит крокодила?» ответы: пиццу ест плотник, крокодила держит программист.

    MiniMax-M2.5 = 1 rtx4090, остальные веса на CPU

    27,026 tokens

    3h 2min 38s

    2.47 t/s


    GLM4.7-flash не справился (хоть скорость и впечатляла)


    1. softel Автор
      19.02.2026 19:39

      Всмысле 3 часа?


  1. programania
    19.02.2026 19:39

    памяти для запуска потребовалось 65Гб, немало и простой ПК даже с 64Гб не сможет запустить эту модель к сожалению.
    ...запуск инференса на win платформе вообще малоперспективная задача,
    ...ты запускаешь в винде, там все плохо.

    У меня на простом ПК i5-13500 14t, 64гб DDR5 4800 мгц в windows 10 запускается bartowski/openai_gpt-oss-120b-MXFP4.gguf
    командой: llama.cpp-b6959\build\bin\release\llama-server.exe -m d:\models\openai_gpt-oss-120b-MXFP4.gguf -t 14 -c 16000
    Занимает примерно 60 гб RAM. GPU не используется, только CPU.
    Головоломку решала 13 минут:
    prompt eval time = 7260.75 ms / 293 tokens ( 24.78 ms per token, 40.35 tokens per second)
    eval time = 819418.54 ms / 9689 tokens ( 84.57 ms per token, 11.82 tokens per second)
    total time = 826679.29 ms / 9982 tokens
    За это время выдала:
    после <|channel|>analysis 37667 символов размышлений в основном на английском и затем
    после <|channel|>final правильный ответ на русском:

    • Кто ест пиццу? - Пиццу ест плотник (на первом складе, в белом помещении).

    • Кто держит крокодила? - Крокодила держит программист (на пятом складе, в жёлтом помещении).

    Похоже LLM перебирала и проверяла все варианты.

    openai_gpt-oss-120b-MXFP4.gguf можно запустить и на 32 гб RAM на CPU
    со скоростью 5 токенов в сек. или 16 символов в сек.


  1. Loco2k
    19.02.2026 19:39

    oss-20b на 4080 - правильно 2:09
    контекст 16К
    имхо, тут будет сильно всё зависеть от тонких настроек ризонинга, температуры и пр.
    первый результат - температура 1.
    при температуре 0.75, думал дольше в два раза. написал правильно, но странно. контекст превышен