Локальные LLM на слабом железе — что ставить, как запустить, чего ждать / forpes.ru

Главная
Локальные LLM на слабом железе — что ставить, как запустить, чего ждать

Локальные LLM на слабом железе — что ставить, как запустить, чего ждать +15

25.04.2026 06:11

Neyroskuf 23 9400 Источник

Три года назад запустить 7-миллиардную модель локально означало профессиональный GPU. Потом появилась квантизация - сжатие весов с 32-битной точности до 4-битной. Модель стала в 3-4 раза легче при минимальной потере качества. 7B параметров теперь занимают 4-5 ГБ вместо 14.

Параллельно с этим появилась Ollama - инструмент, который убирает всё лишнее между пользователем и моделью. Устанавливается одной командой, сама находит GPU если она есть (NVIDIA, AMD, Apple Metal), при отсутствии - работает на CPU. Модели качаются как докер-образы, запускаются одной строкой. Да, и никакой ручной настройки окружений.

Установка Ollama и моделей

# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows / macOS - установщик на ollama.com/download

После установки - запускаем нужную модель (пример для представленных ниже тестов). При первом запуске она скачается автоматически:

ollama run smollm2:1.7b 	# Тир 1 - 1.8 ГБ
ollama run phi4-mini 	   # Тир 2 - 2.5 ГБ
ollama run qwen3:8b     	# Тир 3 - 5.2 ГБ

Если хочется скачать заранее без запуска:

ollama pull phi4-mini
ollama list             	# посмотреть что установлено

Три тира под три уровня железа

Мы отобрали модели по двум условным критериям - хоть какая-то работоспособность и польза при ограниченном железе. Никаких экзотических форков - только то, что стабильно работает через Ollama. И то, что вы сможете затестить прямо сейчас.

Тир 1 - 2-4 ГБ RAM, GPU не нужна

Офисный ПК или очень древний ноут. Скорость - 15-20 токенов в секунду. Рассуждать на несколько шагов не умеют, но с однозначными задачами справляются.

Модель	Диск	Контекст	RU	Что умеет
smollm2:1.7b	1.8 ГБ	8K	-	Перефразировать текст, классифицировать, ответить на прямой вопрос
qwen3:1.7b	1.4 ГБ	40K	+	Суммаризация на RU, простые рассуждения, большой контекст
qwen3:0.6b	523 МБ	40K	+	Короткий ответ, быстрая классификация, совсем слабое железо
tinyllama	638 МБ	2K	-	Автодополнение, короткий чат, edge-устройства
qwen2.5-coder:1.5b	986 МБ	32K	~	Написать функцию, исправить синтаксис, объяснить код
moondream	1.7 ГБ	2K	-	Описать изображение, найти объект на фото, ответить по картинке
dolphin-phi	1.6 ГБ	2K	~	Ответить без отказов на чувствительные темы, ролевые игры, тест безопасности
reader-lm:1.5b	~1 ГБ	32K	+	HTML страница → Markdown, очистка разметки, парсинг

Тир 2 - 6-8 ГБ RAM

Средний ноутбук. Скорость - 8-12 токенов/с. Стараются держать чуть более длинный контекст, решают многошаговые задачи, часть умеет думать вслух.

Модель	Диск	Контекст	RU	Что умеет
phi4-mini	2.5 ГБ	128K	+	Решить задачу пошагово, написать и объяснить код, работать с длинным документом
phi3.5	2.2 ГБ	128K	+	Написать письмо / резюме, ответить по документу, SQL из описания
llama3.2	2.0 ГБ	128K	~	Следовать многошаговым инструкциям, переписать текст, tool use
gemma3:4b-it-qat	1.5 ГБ	128K	+	Описать изображение на RU, ответить по скриншоту, суммаризация
qwen3:4b	2.5 ГБ	256K	+	Анализ длинного документа, рассуждение с /think, перевод и редактура
deepseek-r1:1.5b	~1 ГБ	128K	+	Логические задачи с цепочкой рассуждений, математика, проверка ошибок
orca-mini:3b	~2 ГБ	4K	-	Вопрос-ответ, суммаризация, простое объяснение понятий

Тир 3 - 8-16 ГБ RAM

Скорость - 4-8 токенов/с на CPU. Ощутимо умнее - структурируют, держат нить, замечают противоречия.

Модель	Диск	Контекст	RU	Что умеет
qwen3:8b	5.2 ГБ	40K	+	Написать статью / план / обзор, сложный код, дебаг с объяснением
qwen2.5-coder:7b	4.7 ГБ	32K	+	Целый модуль с нуля, рефакторинг, юнит-тесты, код-ревью
mistral-small (22B)	13 ГБ	32K	+	Анализ, юридический текст, мультиступенчатые инструкции
gemma3:12b-it-qat	~7 ГБ	128K	+	Анализ изображений, длинный документ + вопросы по нему

RU: + хорошая поддержка, ~ базовая, - только EN

И небольшой краш-тест. В качестве эксперимента

Скажем так, таблицы с характеристиками читаются хорошо, но не показывают главного - как модель ведёт себя на практике. Мы взяли три задачи разного уровня сложности и прогнали каждую через все три тира. Технически - условия для всех одинаковые. Ollama v0.20.4, Windows, чистый CPU без видеокарты. Задач - максимально простые. Объяснить техническое понятие, решить арифметику по шагам, написать базовую Python-функцию.

Задачи были выбраны нами не случайно. Объяснение понятия - это проверка связности речи и русского языка. Математика - следование алгоритму, способность не потерять шаги. Код - структурированный вывод с соблюдением синтаксиса и примерами.

Итак, начем.

Задача 1 - математика: яблоки, треть, два друга

smollm2 (English only):

Pete has 12 apples. He ate a third of them, then split the rest equally between 2 friends. How many apples did each friend get? Show your work.

phi4-mini:

У Пети 12 яблок. Он съел треть, а остаток разделил поровну между двумя друзьями. Сколько яблок получил каждый друг? Покажи решение по шагам.

smollm2 считала шаг первый верно: треть от 12 - это 4, осталось 8. Но затем разделила 8 на 3 человек вместо 2 - включила в раздел самого Петю: «Pete and his two friends, making a total of 3 people». Получила 2.67, округлила до 2."

phi4-mini: три подписанных шага ("Шаг 1", "Шаг 2", "Шаг 3"), каждый с формулой. Финал: "Итак, каждый друг получил по 4 яблока." Верно.

Задача 2 - объяснить что такое RAM в двух предложениях

qwen3:8b (с режимом размышлений):

Объясни в двух предложениях что такое оперативная память (RAM) и зачем она нужна.

Задача 3 - Python-функция проверки палиндрома

smollm2 (English only):

Write a Python function that checks if a string is a palindrome. Add a docstring and 2 examples.

phi4-mini, qwen3:8b:

Напиши Python функцию которая проверяет является ли строка палиндромом. Добавь docstring и два примера использования.

smollm2 выдала рабочую функцию логически, Но PowerShell перемешал порядок вывода - docstring появился раньше подписи функции.

phi4-mini: чистая функция с подробным docstring на русском (отдельные блоки Вход/Выход), двухуказательный алгоритм. Два примера в конце. Умничка.

И ответила корректно, к каждому шагу добавила контекст - объяснила логику, а не только формулу.

Да, конечно, для формирования полноценного понимания - неплохо было бы провести гораздо больше тестов. Да и модели выбирались не из топа актуальных релизов - цель была проще. Запустить, пощупать, оценить саму возможность. Но давайте будем реалистами. 4-5 токенов в секунду - это реальная скорость qwen3:8b на CPU. Средний ответ - минута-две ожидания. smollm2 быстрее, но даже на тривиальной математике ошиблась. Собственно, это не облако - здесь ждать придётся. И ждать, скорее всего, чего-то специфического и узконаправленного.

Но под нишевое использование и в качестве материала для ознакомительных тестов - эти модели определенно найдут своего пользователя.

Комментарии (23)

danilovmy
25.04.2026 07:03
#29882888
привет @Neyroskuf. Спасибо за обзор, но он очень не полный. Выглядит, что была задача запустить, но не сделать это работоспособным. У меня ноут win 10, 16Ram + 512vram (старая mobile AMD) и в реальной жизни локальная работа с llm выглядит не так радужно, как в статье.

Во первых нет обзора запускателей. Что есть ollama написано. А что есть ollama.cpp, которая раза в 4 быстрее, что есть vLLM и nano‑vLLM, они якобы быстрее, но не совсем. Я не говорю уже про обвязки с графическим интерфейсом.

Проблема быстрого инференса в том, а он далеко не так быстр, как написано в статье, что чаще всего запускалку llm надо собрать (cmake/build/install). В windows это сделать не так просто хотя бы потому, что cmake или install нет, и надо выкручиваться. Слава богу есть методы, да и сами lllm помогают. Задачка со звездочкой поставить CrispASR (быстрее whisper.cpp в 16 раз) с поддержкой ffmpeg и ogg-opus. Задачка с двумя звездочками - скомпиллировать с поддержкой vulkan.

Второй вопрос - модели. Все что указано - это детский сад и влажные фантазии. Да, реально достичь скорости 22-35 токенов. Но недостаточно просто запустить, надо тестировать:
- как меняется время ответа от контекстного окна одной и той же модели.
- если удалось vulkan запустить, как меняется время ответа количества выгруженных в GPU слоев.
- как меняется качество ответа если запустить эту же модель с другим квантом.
- как меняется работа, если запустить все то же самое с другим запускателем и т.п.
- Если обвязка на python то смена библиотеки и/или интерпретатора может фатально убыстрить работу.
Контекстное окно в 32000 токенов терпимо. Но мало. Вызовы сжатия контекста тормозят работу и влияют на качество ответа.

Квантизированные модели надо тестировать отдельно под машину. на MacOs q16 работает быстрее q8, q5, q4, q3, q1. Квантизированные модели надо тестировать на качество смысла конечного результата. Я тут как то писал, Bonsai-8B-1q прекрасна, 33 токена, до 64000 контекст. “Но moget ответит примерно this”. Меня это устраивает, потому как я понимаю, и согласен это пережить в обмен на быстроту работы.

В общем, локальный запуск - это не так, что поставил ollama ~~(не надо ее ставить)~~, скачал модель из таблицы в статье и полетели, точнее поползли. Сейчас, апрель 2026 - это, буквально, ежедневные эксперименты.

p.s. Я не упомянул быстрое кеширование (TurboQuant), сжатие запросов (rtk), разбиение задач на несколько шагов и последовательный запуск в микро моделях (для голоса - определение языка через ECAPA, запуск не общей “parakett -l auto”, а, например, GigaAM-v3-RNNT: скорость та же, ошибок меньше).

p.p.s. После моих неоднократных проклятий в сторону разработчиков редактора комментариев на HABR меня, походу, принудительно перевели на markdown-редактор. Я даже переключиться обратно не могу.
1. joomlageek
  25.04.2026 07:03
  #29883098
  Не считаю что уместно упоминать вообще TurboQuant или хотя бы не сказав что технология крайне сырая. Форки llama.cpp от энтузиастов и прочие продукты использующие алгоритм TurboQuant нестабильно работают. В известных продуктах типа llama.cpp или ollama этой технологии нигде нет.
  1. danilovmy
    25.04.2026 07:03
    #29883204
    Все, с чем мы все работаем - сырая технология. Тот же whisper.cpp у меня не запускалась сборка, пока ручками не поправил 39 строку common-whisper.cpp, а ошибка в файле в оригинальном репозитории, не форк.
    
    Мы же обсуждаем "Локальные LLM на слабом железе — что ставить, как запустить, чего ждать" и как сделать, что бы ждать было не надо, а результат был удобоваримым. 8 токенов в секунду с TTFT в 2-3 минуты это смертельно. С llama-cpp-turboquant ускорение TTFT с 45 сек на моей машине до 10 секунд - это не блажь установить и попробовать нестабильную технологию, это необходимость.
    То что технологию TQ еще не внедрили в llama.cpp говорит только о вязкости разработки в большом open-source проекте с солидным community.
  1. nikulin_krd
    25.04.2026 07:03
    #29883740
    Кто вам такое сказал?))) Работают то как раз они весьма стабильно))) Вот сейчас MoE моделька крутится 24/7 c TurboQuant решает кодерские задачи и в ус не дует))))
    
    joomlageek
    25.04.2026 07:03
    #29884348
    Спасибо за обратную связь, а почему TurboQuant, а не RotorQuant?
  1. vasimv
    25.04.2026 07:03
    #29884216
    В llama.cpp недавно добавили attn-rot, что вроде как использует часть механизма turboquant. Пишут, что сильно улучшило q8 и q4 квантование кеша. Но все равно, меньще q8 для кэша пока рано.
1. supercargo
  25.04.2026 07:03
  #29884802
  по первому абзацу вашего комментария хотелось бы отметить, что никто не заявлял, что на старом оборудовании что-то а) запустится б) будет работать в) будет быстро. если вы давно и решительно забили на апгрейд собственного железа - пожалуйста, будьте готовы, что современные технологии он поддерживать не будет. поскольку "сейчас апрель 2026", острота поднимаемых вами вопросов значительно снизится для вас лично, если железо будет все же хотя бы немного актуальным - весь "детский сад и влажные фантазии" уступят место более интересным вопросам технологии

entze
25.04.2026 07:03
#29882914
Какой смысл а обзоре откровенно старых моделей? Почему Ollama когда есть минимум LM Studio с кучей настроек и оптимизаций?

С поддержкой русского.. ну русский не очень поддерживают модели M-размера (250M например). Современные маленькие B уже в целом хорошо.

На iPhone 15 Pro Gemma E2B в Thinking работает очень достойно и шустро.
1. joomlageek
  25.04.2026 07:03
  #29883020
  Солидарен, модели Qwen 3.6 27b и 35B на LMstudio с отключенным размышлением очень шустро работают даже на CPU.
  1. nikulin_krd
    25.04.2026 07:03
    #29883752
    А если убрать LMStudio и завести на чистом llama.cpp, то все работает еще шустрее.
    
    Moog_Prodigy
    25.04.2026 07:03
    #29885254
    Угу. И комп с линуксом и мощным железом в комплекте. Обычно такой комп на винде. Потому что рабочий\игровой.

Annsky
25.04.2026 07:03
#29882920
Модели сильно устаревшие, обновите список под актуальные.

AlexM2001
25.04.2026 07:03
#29884208
Спасибо большое за публикацию. Помогло разобраться по данной теме. С меня плюс в карму!

P.S. Мало подобной информации на Хабре нашел.

По каким тегам искать?
1. Shannon
  25.04.2026 07:03
  #29884316
  Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

gvo0zd
25.04.2026 07:03
#29884612
Что можно запустить на 24Гб видеопамяти ? Максимально новое, что влезет в данный объём
1. martelle
  25.04.2026 07:03
  #29884810
  заходишь на https://ollama.com/search
  
  там даже сортировка по новизне.
  
  на "прям щас" это видимо qwen 3.6 27b
  1. makaedgar
    25.04.2026 07:03
    #29885330
    Не нашел с ходу фильтр по гб vram, он там есть?
1. vasimv
  25.04.2026 07:03
  #29885588
  qwen3.6-27B и gemma4-31B, если хочется поумнее. Либо qwen3.6-35B-A3B и gemma4-26B-A4B, если хочется побыстрее (больше токенов в секунду). Квантование придется брать максимум 6 бит (больше не влезет, особенно с 31/35B, которых брать придется 4 бита, скорее всего).
1. house2008
  25.04.2026 07:03
  #29885600
  Попробуйте поставить LM Studio, там приятный UI, там в фильтрах стоит галка "показывать модели совместимые с моим железом", я так выяснил какие тянет моя машина и задумался что пора бы обновиться)

JackCarter33
25.04.2026 07:03
#29885476
На китайфоне realme q5 pro модели из второго тира "летают" по 18+ток/с через ollama, я не говорю уже про дименсити и снапдрэгоны с выделенными NPU, вы на чем там тестите?)

Vakavakas
25.04.2026 07:03
#29885478
В чём прикол писать обзоры что и как на модели которые уже пылью покрылись и они ну реально уже не очень и уступают сильно уступают новым моделям, взять ту же гемму 4 e4b или квен 3.5 9b...
1. tett
  25.04.2026 07:03
  #29885526
  Ни на что не намекаю (что статья нейроген), но чатботы часто советуют старые модели, потому что не в курсе про самые новые без поиска в интернете (в котором с некоторым шансом находят устаревшие подборки, тоже написанные чатботами). Спросите у Gemini про лучшие LLM для локального запуска — он перечислит такое же «старье». :)

gsome90
25.04.2026 07:03
#29885542
я человек простой: вижу ollama - сразу ставлю минус. Нам тут непонятные надстройки над llama.cpp не нужны