Локальный инференс на бюджетных ноутбуках / forpes.ru

Главная
Локальный инференс на бюджетных ноутбуках

Локальный инференс на бюджетных ноутбуках +3

09.12.2025 09:45

Byurrer 8 7000 Источник

В середине 2025 года приобрел себе для работы ноутбук Lenovo Thinkbook 14+. После выхода моделей gpt-oss протестировал локальный инференс младшей модели и результаты для меня были весьма удивительными. Затем я провел тесты еще на двух своих ноутбуках, а совсем недавно на работе собрал заинтересованных ребят и появились результаты еще 5 ноутбуков.

Если коротко - локальный инференс доступнее чем кажется, а детали в статье. Также я снял видео на эту тему. Если не терпится узнать результаты, то листайте до “Результаты тестов” или тык сюда.

Инфраструктура

LM Studio я выбрал потому что это быстрее и проще всего для протестировать, хотя есть приемы увеличения скорости на llama.cpp, и уж тем более инференс может быть быстрее на vllm. Однако, на большинстве ноутбуков, до которых мне как-то удалось добраться стояла Windows, и чтобы не нарушать окружение пользователя я решил остановится на LM Studio.

Другие варианты ускорения инференса на CPU вроде vllm и OpenVINO или инференс на бюджетных Intel Arc типа AI-Playground (только Windows), ipex-llmи, OpenArc я не затрагиваю в данной статье, потому что мне еще предстоит с ними познакомиться. А если вы знаете другие инструменты для ускорения инференса, то сообщите об этом в комментариях.

Модель

Для тестов была выбрана модель gpt-oss-20b и не спроста. Уже несколько месяцев я тестирую ее в своей работе DevOps-инженера (инференс на RTX 3090 TI) и во многих вопросах она хорошо себя показывает, здесь на первых минутах видео показываю часть чатов с моими вопросами.
Тем более это MoE модель с ограниченным набором работающих экспертов, что делает инференс на наших подопытных ноутбуках еще быстрее. К тому же 20b более доступна для ноутбуков где есть ОЗУ от 32гб, чего не скажешь про ее старшую модель на 120b, которую мне со скрипом удалось запустить на 64гб ОЗУ. Так что мы будем рассматривать только доступный вариант на 20b.
gpt-oss-20b не единственная крупная модель, которая доступна на ноубуках для локального инференса. Например, можно посмотреть qwen3-30b-a3b-thinking-2507, Qwen3-VL-30B-A3B-Thinking, ernie-4.5-21b-a3b. Но у меня еще руки не дошли до таких плотных тестов в работе как gpt-oss-20b.

Запросы

В качестве запросов для быстрого тестирования я использую 2 варианта:

Расскажи о себе - самый простой, здесь ожидается быстрый инференс, и этот результат мы можем видеть на коротких чатах
Напиши полный код приложения рендера треугольника при помощи vulkan на go - этот промпт подразумевает длинный ответ и здесь уже скорость генерации ответа ниже, но это показывает инференс на более сложных промптах, которые более вероятны в моей повседневности

Запуск моделей

Здесь все просто: если есть дискретная видеокарта то используем часть оптимизации из этой статьи: выкручиваем использование GPU на максимум (1) и включаем выгрузку экспертных слоев на CPU (3), еще включаем выгрузку KV на GPU (2). Если нет видеокарты, то не выгружаем :)
Скрины обоих вариантов загрузки (с видеокартой и без видеокарты) на скриншоте:

Результаты тестов

Там где можно было задействовать видеокарту, как было указано выше, она была задействована.
В этой таблице краткие характеристики ноутбуков, которые мне самому удалось пощупать, и скорость генерации ответа на второй/тяжелый запрос:

Название/модель	CPU	RAM	VGA	Скорость t/s
Lenovo ThinkBook 14+	Intel Core Ultra 7 155H	32	Intel Arc	12
MACHENIKE Star-15C	Intel Core i7 12700H	64	NVIDIA GeForce RTX 3050 Ti 4gb	10
Lenovo Xiaoxin Pro AI 2024	Intel Core Ultra 5 125H	32	Intel Arc	9

А в этой таблице результаты тестирования на ноутбуках моих коллег, здесь уже различные запросы:

Название/модель	CPU	RAM	VGA	Скорость t/s
Lenovo Legion 5	AMD Ryzen 7 4800H with Radeon Graphics	16	NVIDIA GeForce RTX 2060	14
ASUS ZenBook 14	Intel Core Ultra 9 285H, Intel Arc Graphics	32		17
ASUS TUF Gaming F15	Intel(R) Core(TM) i7-11800H	64	NVIDIA GeForce RTX 3050 Ti Laptop 4gb	14
Asus FX608 Tianxuan 6 Pro 16'	Intel Core Ultra 9 275HX	16	NVIDIA GeForce RTX 5060 Laptop 8gb	20
ASUS TUF Gaming A16	AMD Ryzen 5 7535HS with Radeon Graphics	32	NVIDIA GeForce RTX 4050 Laptop 6gb	8

А вот так выглядит скорость 12 токенов в секунду:

Выводы

Лично для меня эти тесты были открытием. Я помню то время когда локальный инференс более-менее крупных и плотных моделей был на уровне нескольких токенов в секунду, можно было отправлять запрос и идти по своим делам. А здесь на MoE модели мы получаем в среднем ~13 токенов в секунду, что вполне сопоставимо со скоростью вдумчивого чтения.
Главный вывод, который я вынес для себя:

Локальный ИИ стал более доступным для потребительского бюджетного сегмента.

Конечно, здесь может быть много нюансов, например, инференс на ноутбуках это не то же самое что на кластере из нескольких RTX 3090, где цена скорость и качество будут совсем на другом уровне, это тоже локальный инференс на потребительском оборудовании. Например на таком:

Сам я не использую ноутбук для инференса, потому что все еще медленно. Но уже быстрее и умнее чем было.

В своем Телеграм-канале я иногда пишу про исследования локального инференса в своей домашней лаборатории.

Комментарии (8)

sergeyns
09.12.2025 09:48
#29227562
del