В середине 2025 года приобрел себе для работы ноутбук Lenovo Thinkbook 14+. После выхода моделей gpt-oss протестировал локальный инференс младшей модели и результаты для меня были весьма удивительными. Затем я провел тесты еще на двух своих ноутбуках, а совсем недавно на работе собрал заинтересованных ребят и появились результаты еще 5 ноутбуков.

Если коротко - локальный инференс доступнее чем кажется, а детали в статье. Также я снял видео на эту тему. Если не терпится узнать результаты, то листайте до “Результаты тестов” или тык сюда.

Инфраструктура

LM Studio я выбрал потому что это быстрее и проще всего для протестировать, хотя есть приемы увеличения скорости на llama.cpp, и уж тем более инференс может быть быстрее на vllm. Однако, на большинстве ноутбуков, до которых мне как-то удалось добраться стояла Windows, и чтобы не нарушать окружение пользователя я решил остановится на LM Studio.

Другие варианты ускорения инференса на CPU вроде vllm и OpenVINO или инференс на бюджетных Intel Arc типа AI-Playground (только Windows), ipex-llmи, OpenArc я не затрагиваю в данной статье, потому что мне еще предстоит с ними познакомиться. А если вы знаете другие инструменты для ускорения инференса, то сообщите об этом в комментариях.

Модель

Для тестов была выбрана модель gpt-oss-20b и не спроста. Уже несколько месяцев я тестирую ее в своей работе DevOps-инженера (инференс на RTX 3090 TI) и во многих вопросах она хорошо себя показывает, здесь на первых минутах видео показываю часть чатов с моими вопросами.
Тем более это MoE модель с ограниченным набором работающих экспертов, что делает инференс на наших подопытных ноутбуках еще быстрее. К тому же 20b более доступна для ноутбуков где есть ОЗУ от 32гб, чего не скажешь про ее старшую модель на 120b, которую мне со скрипом удалось запустить на 64гб ОЗУ. Так что мы будем рассматривать только доступный вариант на 20b.
gpt-oss-20b не единственная крупная модель, которая доступна на ноубуках для локального инференса. Например, можно посмотреть qwen3-30b-a3b-thinking-2507, Qwen3-VL-30B-A3B-Thinking, ernie-4.5-21b-a3b. Но у меня еще руки не дошли до таких плотных тестов в работе как gpt-oss-20b.

Запросы

В качестве запросов для быстрого тестирования я использую 2 варианта:

  1. Расскажи о себе - самый простой, здесь ожидается быстрый инференс, и этот результат мы можем видеть на коротких чатах

  2. Напиши полный код приложения рендера треугольника при помощи vulkan на go - этот промпт подразумевает длинный ответ и здесь уже скорость генерации ответа ниже, но это показывает инференс на более сложных промптах, которые более вероятны в моей повседневности

Запуск моделей

Здесь все просто: если есть дискретная видеокарта то используем часть оптимизации из этой статьи: выкручиваем использование GPU на максимум (1) и включаем выгрузку экспертных слоев на CPU (3), еще включаем выгрузку KV на GPU (2). Если нет видеокарты, то не выгружаем :)
Скрины обоих вариантов загрузки (с видеокартой и без видеокарты) на скриншоте:

Результаты тестов

Там где можно было задействовать видеокарту, как было указано выше, она была задействована.
В этой таблице краткие характеристики ноутбуков, которые мне самому удалось пощупать, и скорость генерации ответа на второй/тяжелый запрос:

Название/модель

CPU

RAM

VGA

Скорость t/s

Lenovo ThinkBook 14+

Intel Core Ultra 7 155H

32

Intel Arc

12

MACHENIKE Star-15C

Intel Core i7 12700H

64

NVIDIA GeForce RTX 3050 Ti 4gb

10

Lenovo Xiaoxin Pro AI 2024

Intel Core Ultra 5 125H

32

Intel Arc

9

А в этой таблице результаты тестирования на ноутбуках моих коллег, здесь уже различные запросы:

Название/модель

CPU

RAM

VGA

Скорость t/s

Lenovo Legion 5

AMD Ryzen 7 4800H with Radeon Graphics

16

NVIDIA GeForce RTX 2060

14

ASUS ZenBook 14

Intel Core Ultra 9 285H, Intel Arc Graphics

32

17

ASUS TUF Gaming F15

Intel(R) Core(TM) i7-11800H

64

NVIDIA GeForce RTX 3050 Ti Laptop 4gb

14

Asus FX608 Tianxuan 6 Pro 16'

Intel Core Ultra 9 275HX

16

NVIDIA GeForce RTX 5060 Laptop 8gb

20

ASUS TUF Gaming A16

AMD Ryzen 5 7535HS with Radeon Graphics

32

NVIDIA GeForce RTX 4050 Laptop 6gb

8

А вот так выглядит скорость 12 токенов в секунду:

Выводы

Лично для меня эти тесты были открытием. Я помню то время когда локальный инференс более-менее крупных и плотных моделей был на уровне нескольких токенов в секунду, можно было отправлять запрос и идти по своим делам. А здесь на MoE модели мы получаем в среднем ~13 токенов в секунду, что вполне сопоставимо со скоростью вдумчивого чтения.
Главный вывод, который я вынес для себя:

Локальный ИИ стал более доступным для потребительского бюджетного сегмента.

Конечно, здесь может быть много нюансов, например, инференс на ноутбуках это не то же самое что на кластере из нескольких RTX 3090, где цена скорость и качество будут совсем на другом уровне, это тоже локальный инференс на потребительском оборудовании. Например на таком:

Сам я не использую ноутбук для инференса, потому что все еще медленно. Но уже быстрее и умнее чем было.


В своем Телеграм-канале я иногда пишу про исследования локального инференса в своей домашней лаборатории.

Комментарии (8)


  1. sergeyns
    09.12.2025 09:48

    del