Топ локальных нейросетей 2026: полный суверенитет без интернета / forpes.ru

Главная
Топ локальных нейросетей 2026: полный суверенитет без интернета

Топ локальных нейросетей 2026: полный суверенитет без интернета +27

05.04.2026 17:55

mefdayy 24 16000 Источник

Я долгое время была в отношениях с облачными нейросетями. Это было удобно, даже комфортно. Открыла браузер, написала промпт и через пару секунд получила ответ. Но в последнее время отношения начали давать трещину.

Интернет стал неотъемлемой частью нашей жизни, но в 2026 году мир переживает непростые времена. Ситуация крайне нестабильна, и это вызывает у каждого чувство неуверенности. Возникает закономерный вопрос: а можно ли как-то подстраховаться? Чтобы нейросеть всегда была под рукой, даже когда провайдер решил устроить себе выходной или на телефон пришло очередное оповещение о беспилотной опасности.

Оказалось, что можно. И не просто можно, а вполне себе комфортно.

К 2026 году локальные нейросети доросли до того состояния, когда их действительно имеет смысл использовать. Не как хобби для гиков с тремя видеокартами в башне, а как рабочий инструмент. Они всё ещё требуют некоторых технических знаний (куда без них). Но порог входа заметно снизился.

В этой статье я собрала шесть инструментов, которые работают полностью без интернета. Ну, почти полностью - устанавливать их придётся онлайн, но после этого можно смело отключать Wi-Fi и наслаждаться цифровым суверенитетом.

Приятного прочтения!

1. GPT4All

Начну с самого дружелюбного к новичкам инструмента. GPT4All - это десктопное приложение, которое вы скачиваете, устанавливаете и запускаете. Без танцев с терминалом, без сборки из исходников. После установки и загрузки модели вы можете работать полностью офлайн.

Установщик занимает около 300-00 МБ, а само приложение после установки весит примерно 1 ГБ. Дальше вы выбираете модель из списка - они уже подготовлены и оптимизированы. Кликаете «Download», ждёте пару минут и начинаете чат.

GPT4All умеет работать с вашими локальными документами через функцию LocalDocs. Вы просто указываете папку с файлами (PDF, Word, текст), и нейросеть отвечает на вопросы по их содержанию. Всё локально, никакой облачной обработки и отправки данных в интернет.

Технические детали

Работает на CPU - видеокарта не обязательна
Поддерживает Windows, macOS, Linux
Модели в формате GGUF (стандарт для локального запуска на базе llama.cpp)
Потребление RAM: от 4 до 16 ГБ в зависимости от модели
Полностью офлайн после установки
Скорость на CPU: 15-20 токенов/сек - значительно быстрее многих конкурентов (например, Ollama на том же железе даёт 8-12)

Какую модель выбрать в 2026 году

В GPT4All есть несколько актуальных опций:

Phi-3-mini-4k-instruct (3.8B) - для слабых машин. Весит 2,18 ГБ, требует 4 ГБ ОЗУ. Скорость отличная, качество базовое, но для простых задач хватает.
Orca-mini-3B - ещё один лёгкий вариант. 1,98 ГБ, 4 ГБ ОЗУ. Ответы посредственные, но на старом железе тянет.
Nous-Hermes-2-Mistral-7B-DPO - хороший баланс скорости и качества. 4,11 ГБ, требует 8 ГБ ОЗУ.
Meta-Llama-3-8B-Instruct - помощнее, но и требовательнее. 4,66 ГБ, нужно 8-16 ГБ ОЗУ.
GPT4All-13B-snoozy - для мощных машин. 7,37 ГБ, требует 16 ГБ ОЗУ.

Если у вас 8 ГБ ОЗУ и ноутбук без дискретной видеокарты - берите Mistral-7B или Llama-3-8B. Для совсем слабых машин (4 ГБ ОЗУ) - Phi-3-mini.

Представьте ситуацию: вы решили перейти на локальные нейросети, но понятия не имеете, какая из сотен моделей на Hugging Face вам нужна. BotHub позволяет протестировать разные модели через единый интерфейс, не тратя часы на установку и настройку. Понравилась конкретная модель? Отлично, теперь вы знаете, какую качать и запускать локально. А по ссылке сервис дарит 300 000 капсов для первых задач новым пользователям, можно начать работать прямо сейчас!

Минусы, о которых стоит знать

Качество ответов заметно ниже, чем у ChatGPT-4o, Claude 3.5 или DeepSeek-V3. Это плата за локальность и работу на CPU.
Приложение иногда подвисает на длинных контекстах (я замечала проблемы на объёмах существенно больше 4-5 тысяч токенов, точная цифра зависит от модели и ОЗУ).
Русский язык поддерживается, но модель явно тренировали в основном на английском. Базовые запросы поймёт, но сложные формулировки могут запутать.
Телеметрия опциональна, но по умолчанию включена. Её можно отключить в настройках приложения, если хотите полной приватности.

Для кого это

Для тех, кто хочет попробовать локальные нейросети без головной боли. Установил за 5-10 минут и готов к работе. Не для сложных инженерных задач или глубокой аналитики, но для базовых консультаций, переписывания текстов, ответов на вопросы по своим документам и простого кода - вполне.

Вердикт. GPT4All - идеальный вход в мир локального ИИ для обычного пользователя с ноутбуком. С ним не нужно разбираться в терминалах, драйверах и CUDA. А с появлением поддержки LocalDocs он становится ещё и полноценным офлайн-помощником по вашим файлам.

2. Llama.cpp

Llama.cpp - это библиотека на C++, которая умеет запускать большие языковые модели на обычном процессоре без видеокарты, без 32 гигабайт RAM. Создал её болгарский разработчик Георгий Герганов, и этот инструмент буквально перевернул мир локальных ИИ в 2023 году. К 2026 он оброс сотнями форков и улучшений.

До Llama.cpp попытка запустить модель на CPU была пыткой. Медленно, неэффективно, требовало тонны памяти. Автор придумал формат GGUF и 4-битную квантизацию, которая сокращает размер модели в 3-4 раза с минимальной потерей качества. Простое объяснение: вместо того чтобы хранить числа с высокой точностью, вы их округляете. И работает это почти так же хорошо.

Как это выглядит на практике

Устанавливаете Llama.cpp через терминал:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

Качаете модель в формате GGUF (например, с Hugging Face). Запускаете:

./main -m model.Q4_K_M.gguf -p "Привет, как дела?" -n 100

Получаете ответ.

Цифры и факты

Протестируем на среднестатистическом ноутбуке 2024 года (Intel Core i5, 16 ГБ RAM, без дискретной видеокарты):

Модель	Размер (Q4_K_M)	RAM	Скорость (токен/сек) на ноутбуке Core i5 2024
Phi-3 mini 3.8B	2.2 ГБ	4-5 ГБ	20-30
Mistral 7B	4.1 ГБ	8 ГБ	10-15
Llama 3 8B	4.7 ГБ	9-10 ГБ	8-12
Qwen 2.5 14B	8 ГБ	14 ГБ	4-6

Данные для типичного ноутбука 2024 года без дискретной видеокарты. На мощных серверных CPU (Intel Xeon) скорости могут быть в 3-5 раз выше.

Скорость 10 токенов в секунду - это примерно 460 слов в минуту (1 токен это примерно 0.75 слова в среднем по-русски, но для английских текстов 1.3 токена на слово). Человек читает со скоростью 200-250 слов в минуту. То есть модель отвечает примерно в 2 раза быстрее, чем вы успеваете прочитать.

Плюсы

Экономия на видеокартах. Хороший CPU дешевле и доступнее
Огромный выбор моделей. Почти все современные модели выходят с GGUF-версией
Возможность запускать на сервере без GPU. Экономия в дата-центрах
Совместимость с Raspberry Pi. Да, модель можно запустить на одноплатном компьютере. Но с оговоркой: TinyLlama (1.1B) выдаст около 14 токен/сек, а полноценная Gemma 3 12B - уже всего около 1.5 токен/сек. Для серьёзных моделей Pi 5 всё ещё слабоват, но сам факт, что они вообще запускаются, впечатляет

Минусы

Терминал. Не все готовы с ним работать. Хотя есть GUI-обёртки типа LM Studio и GPT4All (внутри которых как раз Llama.cpp)
Ручная настройка. Нужно подбирать параметры (температуру, top_k, контекст) под свои задачи
Нет мультимодальности. Чистый текст, никаких картинок

Для кого это

Для технических специалистов, которые хотят встроить локальную нейросеть в свой проект. Для тех, у кого старый ноутбук без дискретной видеокарты. Для параноиков, которые не доверяют готовым приложениям и хотят собирать всё из исходников.

3. Stable Diffusion WebUI (Forge)

Текст - это хорошо, но давайте честно, большинство людей хотят картинки. И желательно такие, которые не заблокирует цензура облачных сервисов. Тут на сцену выходит Stable Diffusion.

Stable Diffusion WebUI - это модель для генерации изображений по текстовому описанию. В облачных версиях (Midjourney, Kandinsky) вы отправляете промпт на сервер, он генерирует, вы получаете результат. Всё красиво, но нужен интернет, есть цензура (попробуйте сгенерировать что-то чуть более взрослое или политически неудобное), вы платите за каждый запрос (или сидите в очереди бесплатных генераций), ваши картинки уходят на сервер, с ними могут делать что угодно. Локальная версия решает все эти проблемы.

Что такое Forge и почему не оригинал

Stable Diffusion WebUI Forge - это платформа на основе классического WebUI от Automatic1111 (базируется на Gradio), которая сделана для ускорения инференса, оптимизации управления ресурсами видеокарты и упрощения разработки расширений. Автор - lllyasviel (тот самый разработчик, который создал ControlNet). Название Forge вдохновлено Minecraft Forge - проект задуман как кузница для WebUI.

Главное отличие от оригинала: Forge переписывает всю логику управления памятью и добавляет Unet Patcher — механизм, который позволяет расширениям (например, FreeU, SVD, Zero123, PhotoMaker) работать без конфликтов друг с другом и без танцев с бубном.

Что Forge даёт по сравнению с оригинальным WebUI

По данным из официального README, вот точные цифры ускорения и экономии памяти (для SDXL на 1024px):

Ваша видеокарта	Ускорение (it/s)	Снижение пика VRAM	Во сколько раз больше разрешение (без OOM)
8 ГБ VRAM (обычная)	+30-45%	700 МБ - 1,3 ГБ	в 2-3 раза
6 ГБ VRAM (слабая)	+60-75%	800 МБ - 1,5 ГБ	в 3 раза
24 ГБ VRAM (RTX 4090)	+3-6%	1 - 1,4 ГБ	в 1,6 раза

Дополнительно:

Максимальный batch size (количество изображений за раз) вырастает в 4-6 раз для 6-8 ГБ карт.
При использовании ControlNet для SDXL максимальное количество одновременных ControlNet увеличивается в 2 раза, а скорость генерации с ControlNet ускоряется на 30-45%.
Без всяких дополнительных флагов Forge запускает SDXL на 4 ГБ VRAM и SD1.5 на 2 ГБ VRAM.

Как установить (официальная инструкция из README)

Способ 1. Через Git (рекомендуется для тех, кто хочет переиспользовать свои модели и расширения из старого WebUI):

git clone https://github.com/lllyasviel/stable-diffusion-webui-forge.git
cd stable-diffusion-webui-forge

Затем запустите update.bat (Windows) или ./webui.sh (Linux/macOS). Это важно, ведь без запуска update.bat вы можете использовать старую версию с незафикшенными багами.

После обновления запустите run.bat. Откроется браузер с адресом http://localhost:7860.

Способ 2. Установочный пакет в один клик (для новичков):

Скачайте архив с Git и Python внутри (ссылка в репозитории)
Распакуйте в папку (путь без русских букв)
Запустите update.bat, затем run.bat

Важное отличие от оригинального WebUI. Forge удалил все старые CMD-флаги - medvram, lowvram, medvram-sdxl, precision full, no half, no half vae, attention_xxx, upcast unet и другие. Они больше не нужны и ничего не делают. Forge сам решает, как загружать модели.

Если вы всё же хотите вмешаться, есть несколько флагов для особых случаев, используйте на свой страх и риск:

--always-offload-from-vram - выгружает модели из VRAM чаще, медленнее, но безопаснее (полезно, если работаете с несколькими программами сразу)
--cuda-malloc - ускоряет на миллисекунды, но может крашить программу
--cuda-stream - ускоряет на 15-25% на RTX 3060/4050 с 6 ГБ, но на старых картах (GTX 1080/2060) вызывает чёрные изображения или OOM
--pin-shared-memory - работает только с --cuda-stream, даёт ещё +20% скорости на 30xx/40xx с малым VRAM, но на GTX 1060/1050 гарантированно крашит программу

Forge настоятельно не рекомендует использовать флаги, если вы не уверены, что они вам нужны.

Чего нет в Forge

Русский язык в промптах. Модель не понимает кириллицу. Промпты нужно писать латиницей. (Есть отдельные русскоязычные модели, но они менее качественные.)
Автоматическая цензура. Её нет, вы сами отвечаете за то, что генерируете.
Потребление диска. Одна модель SDXL весит 6–7 ГБ, ControlNet к ней - по 1-2 ГБ на тип, полный набор легко займёт 100+ ГБ. Это не баг, это особенность локальной работы.
Сложность настройки. Сотни параметров влияют на результат. Но вы всегда можете вернуться к стандартному WebUI-интерфейсу, который Forge не меняет (авторы обещают, что никогда не будут добавлять ненужные субъективные изменения в интерфейс).

4. Ollama

Ollama - это программа, которая скачивает модели из интернета (один раз, при установке), запускает их на вашем компьютере, отдаёт доступ через HTTP API, как настоящий облачный сервис, и даёт консольный чат для быстрых тестов. Установили, написали ollama run llama3, задали вопрос, получили ответ. Настолько просто, насколько это вообще возможно в мире локальных нейросетей.

Как это работает

После установки на Windows, macOS или Linux вы открываете терминал и пишете ollama pull mistral. Ollama скачивает готовую GGUF-модель из своего реестра и сохраняет в локальное хранилище. Квантизация уже выбрана за вас, если нужна кастомная, тогда используйте Modelfile. Дальше вы запускаете ollama run mistral, и открывается интерактивный чат прямо в терминале. Никакого дополнительного софта.

А если вы разработчик, то можете обращаться к модели через API. Отправляете curl-запрос на http://localhost:11434/api/generate с JSON-телом, где указываете модель и промпт, и получаете ответ в том же формате, что и от OpenAI. Разница только в адресе.

Какие модели доступны

Ollama поддерживает сотни моделей. Вот актуальный топ на 2026 год:

Модель	Размер (Q4)	RAM	Особенность
gemma4:e2b	1.2 ГБ	2-3 ГБ	Самый лёгкий, эффективный 2B
gemma4:e4b	2.5 ГБ	4-5 ГБ	Баланс скорости и качества
llama3.1:8b	4.7 ГБ	8-10 ГБ	Золотой стандарт, общий
gemma4:26b (MoE)	15 ГБ	16 ГБ	4B активных параметров, как 8B по скорости
qwen3-coder:8b	5 ГБ	8-10 ГБ	Для программирования
glm-4.7-flash	5 ГБ	8-10 ГБ	Для кодинга с контекстом 64K
gemma4:31b (dense)	18 ГБ	20+ ГБ	Уровень GPT-4o mini
llama3.1:70b	42 ГБ	48+ ГБ	Нужен мощный сервер

Все модели работают полностью офлайн после скачивания.

Почему Ollama, а не Llama.cpp напрямую

Llama.cpp - это движок. Ollama - это готовый продукт на его основе. Ollama берёт на себя управление версиями моделей, автоматическую квантизацию (выбор точности под ваше железо), запуск модели в фоне как сервиса и простой API без настройки. Вы теряете возможность тонкой настройки, но приобретаете простоту. Для 95% задач этого достаточно.

Что ещё умеет Ollama

Начиная с версии v0.20.0, Ollama поддерживает аудио, вы можете выполнить ollama transcribe gemma4 и получить текст из аудиофайла. А команда ollama launch claude одной строкой поднимает Claude Code с локальной моделью - никаких переменных окружения.

Вы можете создать свой собственный образ модели через Modelfile: указать базовую модель, системный промпт, температуру и даже встроить примеры ответов. Это сохраняется в файл, которым можно поделиться с коллегой.

Мультимодальные модели (например, Gemma 4 или Qwen3.5-35B) умеют работать с изображениями. Вы передаёте путь к картинке вместе с промптом, и модель описывает, что на ней происходит.

Ollama может превращать текст в вектор - числовой отпечаток, который нужен для поиска по документам или кластеризации. Популярные эмбеддеры: all-minilm, nomic-embed-text, mxbai-embed-large, bge-m3.

Минусы

Если что-то пошло не так, сложно лезть под капот. Ollama скрывает детали запуска Llama.cpp.
Модели хранятся в ~/.ollama и могут занять 50+ ГБ, если вы любите скачивать всё подряд
Не получится выкрутить параметры, которые есть в чистом Llama.cpp
Нет встроенного веб-интерфейса, только терминал и API. Для чата с картинками нужен отдельный фронтенд (например, Open WebUI)
Не для продакшена. Ollama не поддерживает непрерывную пакетную обработку и многопользовательскую балансировку.
Ограниченная многопользовательность. Если вам нужно обслуживать десятки запросов в секунду, смотрите в сторону vLLM или TensorRT-LLM.

5. LM Studio

LM Studio - это десктопное приложение с графическим интерфейсом, которое позволяет скачивать, запускать и общаться с локальными моделями в несколько кликов. Вы открываете программу, выбираете модель из списка, нажимаете скачать, ждёте пару минут и начинаете чат.

Приложение есть для Windows, macOS и Linux. На Mac с M-чипами оно работает особенно шустро благодаря встроенной поддержке Metal.

Как это выглядит на практике

После установки вы попадаете на главный экран, где есть поиск моделей. LM Studio подтягивает каталог с Hugging Face прямо в приложение - вы видите названия моделей, их размер, формат (GGUF), автора и количество скачиваний. Нашли нужную - нажали скачать. Модель сохраняется на диск.

Когда загрузка закончена, вы переходите на вкладку Chat. Выбираете модель из выпадающего списка, настраиваете параметры (температуру, контекст, количество токенов) ползунками (никаких текстовых конфигов) и начинаете диалог. Модель отвечает в красивом пузырьковом интерфейсе, как в любом современном мессенджере.

Что можно настраивать

Несмотря на простоту, LM Studio не прячет важные настройки. Вы можете указать, сколько слоёв модели загружать на видеокарту (если она есть), а сколько оставить на процессоре. Выбрать количество потоков для CPU. Включить или выключить GPU-ускорение. Сменить движок инференса (под капотом всё тот же Llama.cpp). Всё это - через галочки и выпадающие списки, без редактирования текстовых файлов.

Для продвинутых пользователей есть вкладка Developer (раньше называлась Server). LM Studio может запустить локальный API, совместимый с OpenAI и Anthropic, прямо из интерфейса. Вы нажимаете кнопку Start Server, и любое приложение на вашем компьютере может обращаться к модели через http://localhost:1234. Например, вы можете подключить к нему Continue в VS Code или SillyTavern для ролевых игр. Доступны три типа эндпоинтов:

Нативный: http://localhost:1234/api/v1/chat
OpenAI-совместимый: http://localhost:1234/v1/chat/completions
Anthropic-совместимый: http://localhost:1234/v1/messages

Плюсы

Интерфейс. Это главное преимущество LM Studio. Вы не пугаете новичков чёрным экраном терминала. Всё интуитивно понятно: скачать, загрузить, спросить.
Поиск моделей встроен прямо в приложение. Не нужно открывать браузер, искать на Hugging Face, разбираться в типах файлов. LM Studio показывает только совместимые модели и сразу говорит, сколько места они займут.
Встроенный сервер API превращает LM Studio в замену Ollama для тех, кто не хочет работать с терминалом. Нажали кнопку - получили эндпоинт.
LM Studio показывает технические метрики в реальном времени. Вы видите, насколько быстро генерирует модель, сколько памяти ест, где узкое место. Это помогает подбирать настройки под своё железо без угадывания.
LM Studio получил поддержку JIT (Just-In-Time) загрузки и TTL (Time-To-Live). Если вы обращаетесь к модели через API, она загружается автоматически при первом запросе. Если к ней нет обращений в течение заданного времени (по умолчанию 60 минут), она выгружается сама.

Минусы

LM Studio потребляет заметно больше оперативной памяти, чем чистый Llama.cpp или Ollama. Графический интерфейс и встроенный браузер для каталога моделей висят в фоне и жрут свои 300-500 мегабайт сверху. На машинах с 8 ГБ это критично.
Приложение закрытое. Исходный код LM Studio не опубликован. Вы доверяете разработчикам, что они не встроили телеметрию или что похуже. При этом разработчики заявляют, что «LM Studio не собирает данные и не отслеживает ваши действия». Для коммерческого использования требуется отдельная лицензия.
Некоторые продвинутые возможности Llama.cpp в LM Studio не вынесены в интерфейс. Например, специфические сэмплеры или нестандартные форматы кэша. Если вам нужно что-то необычное, придётся возвращаться к терминалу.
Управление памятью требует понимания. LM Studio умеет автоматически выгружать модели, но только если они загружены через API (JIT-загрузка с TTL). Для моделей, загруженных вручную через интерфейс, их нужно выгружать вручную кнопкой Unload - иначе они остаются в памяти. Кроме того, само приложение LM Studio потребляет 500-600 МБ видеопамяти (VRAM) на старте из-за Electron-фреймворка.

LM Studio позволяет подключать внешние инструменты для расширения функций модели: поиск в интернете, выполнение кода, доступ к файловой системе. Одна интеграция уже встроена - песочница для JavaScript/TypeScript (Deno). Минус: нет каталога интеграций, всё нужно настраивать вручную через редактирование mcp.json.

Подводим итог

Локальные нейросети не заменят ChatGPT-5.4 или Claude-Opus-4.6 в сложных рассуждениях. Модели на 7-8 миллиардов параметров отвечают медленнее, иногда галлюцинируют и хуже понимают русский язык. Для серьёзной работы с текстом на русском вам понадобятся модели типа Qwen или Gemma, а они требуют 16+ ГБ RAM.

Генерация изображений на CPU - это вообще мазохизм. Одна картинка за 2-10 минут убивает любой творческий порыв. Если у вас нет видеокарты с 6+ ГБ VRAM, локальная генерация картинок станет испытанием терпения.

Однако, есть и другая сторона медали. Вам не нужен доступ к облачным серверам, не нужны подписки за $20 в месяц, не нужно мириться с цензурой и беспокоиться, куда утекают ваши данные. Всё, что требуется, это компьютер, немного свободного места на диске и один вечер на настройку.

Локальные нейросети - это не замена облачным сервисам. Это альтернатива для тех, кому важны приватность, суверенитет данных и свобода от внешних ограничений. Для повседневных задач, где не нужен ИИ уровня ассистента-миллиардера, локальных моделей более чем достаточно.

Начните с GPT4All или Ollama, установка займёт 10 минут. Удивитесь, как много может делать нейросеть на вашем собственном ноутбуке без единого запроса в интернет. А когда привыкнете, то переходите к Llama.cpp и сборке собственных моделей.

Спасибо за прочтение и удачи!

Комментарии (24)

MountainGoat
05.04.2026 18:12
#29780456
Lm Studio для нормальной работы. KoboldCpp для попыток впихнуть невпихуемое. Всё остальное стоит вспоминать только для особых случаев.

Stic_t
05.04.2026 18:12
#29780600
Да, давно думал подготовится к полной изоляции Рунета. Это уже не фантазия, и ии это обычный инструмент, причем нужный. Даже не вайбкодинг. Я вот привлекаю для документации, или анализа плохо написанных лог файлов по 50-100 мегабайт.

И за ии для генерации изображения спасибо, искал что то подобное для инди геймдева. Может получится что.

Отдельный вопрос по DeepSeek, он ж был открытым раньше. А в статье его нет.

Да и хотелось бы статью именно с анализом пользы подобных ии в разных задачах.
1. darkslya
  05.04.2026 18:12
  #29781664
  Статья в целом про софт, а deepseek - это модель. Квантованную версию можно скачать с hugging face прямо в lm studio (не квантованную тоже, если есть 500-600гб оперативки). Вообще модели меньше 25-30b сильно глупые, сфера их применения очень ограничена. На 30b нужен хороший игровой комп, на всё что выше уже специальный сервер под ИИ.
  Из последнего я бы порекомендовал gemma 4 попробовать в lm studio только вышла.
1. kuza2000
  05.04.2026 18:12
  #29784806
  DeepSeek другого класса, нежели описанные. Сотни ГБ. На такое в статье не замахивались) Хотя да, вполне работает локально.
  
  Я даже на процессоре его запускал, около 1 токена в секунду получилось. На один сложный вопрос с размышлениями он ответил мне с утра и до обеда, на этом эксперимент был завершён)

WhiteBehemoth
05.04.2026 18:12
#29780650

llama.cpp ...

Минусы - Терминал. Не все готовы с ним работать.

так пишет какая-нить LLM, обученная на данных до ноября 2024 года (когда у LLama.cpp вышел уже нормальный Web UI)

В апреле 2026, Web UI у llama.cpp - быстрый, функциональный, с поддержкой переключения моделей, подключения MCP серверов, истории чатов и других настроек.
1. DooKoo2
  05.04.2026 18:12
  #29780796
  Ну да, он есть, но вот недавно «сломался», пока новый релиз не выкатили. Теперь опять работает нормально.
1. HellByte2
  05.04.2026 18:12
  #29781962
  Аналогично и с мультимодальностью. Тот же Web UI позволяет добавлять изображения, если добавить модель mmproj при запуске сервера. В целом, как я знаю, llama.cpp быстрее Олламы в большинстве ситуаций. Особенно, если запускать на 50 серии Nvidia с современной версией CUDA. Хотя может уже добавили её поддержку в Олламу.
  
  А так, для большинства с потребительскими видеокартами (12-16 ГБ видеопамяти) выбор не очень большой при запуске локальной модели. Скорее всего MoE версии Qwen 3.5 (35B A3B) или Gemma 4 (26B A4B), так как там можно эффективно выгрузить часть слоёв в ОЗУ и обрабатывать на CPU, получая 50-70 токенов в секунду. Либо более маленькие Dense модели, но как будто смысла в этом мало.
  1. nbkgroup
    05.04.2026 18:12
    #29782810
    В Ollama tool calling для агентов nullclaw/zeroclaw нормально не работает. С llama.cpp заработало с ходу.
  1. Setiboy
    05.04.2026 18:12
    #29786992
    50-70 токенов не получится ни как на видеокартах с 12-16гб памяти на вышеупомянутых моделях. На моей 5070ti 12gb новая gemma даёт 15 токенов в секунду на amd r9 9950
    
    HellByte2
    05.04.2026 18:12
    #29789440
    У меня лично у Qwen 3.5 35B A3B с квантованием Q4_K_M через llama.cpp и частичной выгрузкой части слоёв в ОЗУ именно такая скорость генерации. В зависимости от запроса, длины и выбранного максимального контекста может отличаться в этом диапазоне. Я обычно запускал с 132-196к максимального контекста, но до максимума в запросах не доходил, скорость тестил на маленьком контексте в Web UI. Запускал всё на 5070ti (16 гб) и 64 гб ОЗУ, но по идее и 32 гб должно хватать, особенно если уменьшить контекст.
    
    Вот пример с тестовым вопросом-обманкой. Кстати, что заметил, модели Qwen с маленьким входным контекстом иногда любят долго подумать. Если почитать размышления, то там много забавного. Вероятно, эта модель больше рассчитаны на более большой входной контекст/системный промпт.
    
    Пример запроса
    
    Setiboy
    05.04.2026 18:12
    #29794340
    попробовал Qwen 3.5 35B A3B дает на моей связке 35токен, что в целом вполне юзабельно, а вот gemma кратно хуже по скорости

VsBirdEye
05.04.2026 18:12
#29780656
Стоит упомянуть категорию тяжеловесов - exo на кластере из mac studio - и можно поднять все open source sota модели 1T параметров в квантовании mxfp8 - deepseek, glm, kimi и т.д..

Если серверов с пачкой карт нет - это относительно экономное решение, со своими особенностями - prefill долговатый, decode 20-50 токенов/с. Зато всё в локальном контуре.

MAT-POC
05.04.2026 18:12
#29780896
от себя добавлю
1. Локально на машине в 8Гб видеопамяти RTX 2060 Super нормально работает Qwen3.5-9b и Сберовский Гига Чат3.1 Лайт : forzer/GigaChat3-10B-A1.8B. ГигаЧат отвечает заметно быстрее. Если железо
2. Модели локально оставил для работы OpenClaw. На Qwen3.5-9b - openClaw работоспособен, с ГигаЧат3.1 Лайт завести не удалось из-за того, что он требует не совместимый OpenAI формат запросов. Подробнее здесь.
3. для openClaw использовать LM Studio не удалось. Пришлось ставить Ollama. У LM Studio есть очень полезная функция - при загрузке модели она автоматически подсказывает версию с оптимальной квантизацией для вашего железа.
4. Есть очень прикольный российский проект Дока АИ Вот статья на хабре + обсуждения. У него кстати последняя модель Qwen 3.5. обновляется почти каждый день!
1. WhiteBehemoth
  05.04.2026 18:12
  #29780964
  LM Studio есть очень полезная функция - при загрузке модели она автоматически подсказывает версию с оптимальной квантизацией для вашего железа
  
  в Hugging Face в профиле можно ввести своё железо, а потом в карточке модели видеть, какое квантование влезет в GPU (зелёная точка), а какое - нет (красная).
  
  Скрытый текст
  1. vasimv
    05.04.2026 18:12
    #29786788
    А KV-кэш оно тоже считает? У некоторых моделей такая архитектура, что на сколько-нибудь приличную длину кэша приходится тратить почти столько же памяти, что и на саму модель.
    
    WhiteBehemoth
    05.04.2026 18:12
    #29787208
    Что-то учитывается (то есть как я понимаю, это не просто сравнение объёма доступной видео памяти и размера весов). Но вот что именно, - я не смотрел. Но думаю, закладываются "не сильно".
1. Setiboy
  05.04.2026 18:12
  #29794358
  Юзаю openclaw и lm studio, особых проблем в настройке не было. Qwen3.5-9b хорошая модель, но в openclaw она все же туповата. Забывает вызывать инструменты на долгих связках в задачах. Рекомендую перепроверять за ней после успешного отчета по выполнению:) А вот Qwen 3.5 35B A3B уже вполне себе юзабельна, прям чувствуется уровень. И если такую связку .юзать с внешним claude cli (gemini, qwen) через acpx, то вполне себе локальный личный ассистент с передачей только сложных задач внешнему агенту

MAT-POC
05.04.2026 18:12
#29780972
Следующий прорыв по моему будет у продукта который объединит в одном пакете локальную LLM до 6-8 Гб VRAM (с возможностью подключения внешней LLM) + аналог OpenClaw.
1. fermentum
  05.04.2026 18:12
  #29783498
  gemma4 e4b вполне себе новый шаг эволюции среди моделей, которые заточены под работу на смартфонах.

gvo13
05.04.2026 18:12
#29781004
Очень годный разбор, не просто пересбор список тулов, а реально классно пощупали руками. Отельно понравилось, где про переход от облака к локалке через отношения, прям "живо" получилось для технической темы

Честно и по делу сказано, где локалки слабее (русский, контекст, скорость), при этом нормально раскрыта их ценность, но на счет приватности, а бывает ли сейчас она?

По нейронкам в целом у меня позиция такая же: облако удобно, но ощущение отсутствия контроля от слова совсем! Но и + локалки иногда медленнее и тупее, но зато это твои данные и твои правила.

ИМХО: на счет связки типа Ollama плюс Open WebUI / AnythingLLM, для более продакшн-задач, LocalAI или vLLM, когда нужен нормальный API. В этом плане Ollama реально база, а дальше уже навешиваешь под себя.

Я бы почитал продолжение, если будете дальше копать тему
1. Lagovi
  05.04.2026 18:12
  #29791240
  Вам нужно продолжать работу над совершенствованием промпта для прогрева.

vasimv
05.04.2026 18:12
#29786722
Насколько я понимаю, самые активные по скорости поддержки новых фич и моделей - llama.cpp и vllm. Ollama хоть и часто рекомендуется новичкам, но лучше с нее сразу же и слезть, как только хоть немного начинаешь понимать что к чему.

Сам сижу с llama.cpp, самая неприятная в ней фигня - это OOM креши (нехватка памяти) в процессе настройки, несмотря на то что при запуске говорит, что все отлично влезает. Приходится долго подбирать квантование модели, квантование и размер KV-кэша с таким расчетом, чтобы все-таки что-то оставалось для каких-то неожиданно всплывающих потребностей. Потом уже работает само по себе.

Lagovi
05.04.2026 18:12
#29791232
Я не понимаю почему я первый это пишу)

Статья ужасна, написана нейронкой (не первого эшелона), размещена человеком который не понимает ничего в теме.

Скорость на CPU: 15-20 токенов/сек

Конкрентые цифры имеют смысл только при указании модели.

Какую модель выбрать в 2026 году

Да-да, именно те что перечислены моделью с отсечкой знаний в 2024. Совсем не Qwen 3.5 и Gemma 4, нет.

Качество ответов заметно ниже, чем у ChatGPT-4o, Claude 3.5 или DeepSeek-V3

Просто еще один маркер того что автор не в курсе актуальных версий даже топовых проприетарных моделей.

Дальше я просто не смог читать.

P.S. Удивительно количество закладок.

normal
05.04.2026 18:12
#29793122
- ковырять стоит сразу LM Studio, он пока самый продвинутый и удобный. все остальное сильно проще.
- еще интересно https://www.jan.ai я бы его поставил на 2 место, а в статье он совсем не упомянут.
- свежий проект Unsloth Studio от самых известных "квантовальщиков". пока не лучше 1 и 2 пункта, но стоит посмотреть.
- хорошо бы кто-то расписал реальный опыт использования TurboQuant на простом железе.