Локальные LLM сейчас — это действительно мощный инструмент. Они уже вплотную приблизились к проприетарным моделям вроде Claude, особенно в задачах кодинга. Я сам активно использую локальные модели для разработки на TypeScript и Go.

На данный момент самая интересная модель для моего стека — Qwen3.6-27B. Но один только выбор хорошей модели ничего не гарантирует. Без правильных параметров вы не получите ни скорости, ни качества.

В этой статье я расскажу, с какими конкретно параметрами запускаю Qwen3.6-27B в llama.cpp (мой текущий фаворит среди бэкендов), какие метрики считаю важными, и как нашел баланс между скоростью, стабильностью и качеством.

Многие гонятся за чистой скоростью генерации токенов, но я считаю, что приоритеты должны быть другими:

  1. Удобство — размер контекста, в который должен помещаться весь ваш диалог или код.

  2. Стабильность — чтобы процесс не падал с OOM или ошибками CUDA.

  3. Качество — осмысленные ответы, а не «каша» из токенов.

  4. Скорость — но только после выполнения первых трех пунктов.

К сожалению, люди часто врут про скорость. Например, один человек утверждал, что на M3 Studio выдает 55 токен/с на Qwen3.6-27B. При детальном расспросе выяснилось:

  • Модель — Qwen3.6-27B-UD-IQ2_XXS.gguf (сильнейшая квантизация с огромной потерей качества)

  • Контекст — всего 8000 токенов

Поэтому давайте сразу договоримся: мы говорим о честной скорости при нормальном качестве и комфортном контексте.

Какие метрики скорости мы измеряем

При работе с LLM важны две цифры:

  • pp (prompt processing) — скорость «чтения» моделью вашего запроса. Измеряется в токенах в секунду.

  • tg (token generation) — скорость генерации ответа. Именно эту метрику пользователь ощущает как «быстроту» модели.

Мои показатели на Qwen3.6-27B:

  • pp ~2800 токенов/сек

  • tg ~73 токена/сек

Что влияет на pp (обработка промпта)

pp — это вычислительная задача, она упирается в количество ядер GPU, а не в пропускную способность памяти.

Факторы по убыванию важности:

  1. Количество активных ядер GPU. На обычном CPU вы получите 1-10 т/с, на слабом GPU — 30-100, мои 2800 — это уровень RTX 3060/4060 Ti и выше.

  2. Batch size (--batch-size). Движок обрабатывает промпт пачками. Чем больше пачка, тем эффективнее используются ядра. Но слишком большая пачка может переполнить VRAM.

  3. Размер модели. Модель на 8B параметров будет иметь более высокий pp, чем на 70B.

  4. Формат квантизации. FP16/Q8_0 дают меньше т/с, Q4_K_M/Q5_K_M — больше.

  5. Flash Attention. Сильно помогает на длинных промптах, в llama.cpp включена по умолчанию.

Что влияет на tg (генерация)

tg — это последовательный процесс. Модель не может начать вычислять следующий токен, пока не получила предыдущий. Здесь главное — пропускная способность памяти (memory bandwidth).

Формула очень простая: Время генерации ~ (Размер модели в ГБ) / (Пропускная способность памяти GPU)

Вы можете разогнать ядра хоть до 3 ГГц, но если шина памяти узкая, tg не вырастет.

Что еще влияет на tg:

  • Размер модели и квантизация. Q4_K_M даст в 3-4 раза более высокий tg, чем FP16.

  • KV-кэш. На длинных диалогах (10k+ токенов) он может вытесняться в медленную память, и tg падает.

  • Speculative decoding (MTP). Маленькая модель-черновик пишет варианты, большая проверяет. При высоком acceptance (0.95+) вы видите иллюзию высокой скорости, но реальная tg большой модели остается ~70-75.

Мои параметры запуска

Все примеры — для Qwen3.6-27B в llama.cpp, задача — написание кода.

--ctx-size 262144

Самый важный параметр для комфорта. Он не влияет на качество ответа, но влияет на скорость (чем больше контекст, тем медленнее генерация). Я ставлю максимальный — 262144. Если контекст слишком мал, то работать иногда становится некомфортно.

--temp

Чем выше температура, тем креативнее модель. Для кодинга креатив не нужен, нужна точность.

Рекомендация создателей Qwen для точных задач кодинга: temperature = 0.6.

Очень часто люди не обращают внимание на этот параметр, так как по умолчанию всегда стоит 1, но создатели моделей всегда пишут об этом.

--top_k 20

Модель смотрит только на K самых вероятных следующих токенов. top_k = 20 — жесткий контроль, отсекает мусор. Идеально для кода.

Опять же, по умолчанию другие цифры, которые не очень хорошо работают при агентском кодинге.

--top-p 0.95

Модель берет минимальный набор самых вероятных токенов, суммарная вероятность которых ≥ 0.95. top_p — динамический фильтр, адаптируется к контексту.

Параметр

Что фиксирует

Поведение

top_k

число вариантов

всегда одинаковое K

top_p

вероятность

число вариантов плавает

Для кода я использую оба: top_k 20 для жесткого ограничения и top_p 0.95 для адаптивной фильтрации.

--presence_penalty 0.0

Штраф за уже использованные токены. Для обычных текстов penalty = 1.5, чтобы модель искала синонимы. В коде повторения — норма, поэтому я ставлю 0.0.

repetition_penalty я не трогаю (оставляю 1.0).

Тут тоже довольно важно поменять значение которое идет по умолчанию

--batch-size 512 и --ubatch-size 256

Эти параметры управляют обработкой токенов внутри GPU:

  • batch-size — сколько токенов обрабатывается за один шаг.

  • ubatch-size — размер микробатча (на сколько кусков разбивается batch).

Мои 512/256 — консервативно, но стабильно. Если у вас 2×5090 и хватает VRAM, можно пробовать:

  • Стабильность: 1024 / 256

  • Баланс: 1024 / 512

  • Максимум скорости: 2048 / 512

Что будет, если значения слишком большие: OOM, краши сервера, фризы на prefill.

MTP (Multi-Token Prediction) — --spec-type draft-mtp --spec-draft-n-max 2

Попробовал MTP в vLLM — прирост был с 50 до 55 токенов. В llama.cpp результат гораздо лучше: с 50 до 75 токенов.

Мой draft acceptance = 0.74435 (527 accepted / 708 generated). Для Qwen MTP норма — 60-75%, у меня большую часть времени 80-97% — отлично.

Кстати, создатели модели говорят что надо обновиться до 13й куды. В репах убунты обычно лежит 12я. Так что обновиться надо обязательно. Причем авторы модели еще и предупреждают о том что на CUDA 13.2 MTP может выдавать бессвязный текст (NVIDIA чинит). На CUDA 12 ничего не работает. Но уже вышла CUDA 13.3 на которой все отлично работает. Так что обязательно следите за версиями.

--cache-type-k q8_0 --cache-type-v q8_0

Квантизация KV-кэша с 16 бит до 8 бит. При контексте 262k это сокращает потребление VRAM вдвое при минимальной потере качества. Явно стоит добавлять.

--flash-attn on

Включает более эффективную реализацию Attention. Дает:

  • Меньше VRAM под KV-кэш

  • Быстрее обработку длинных промптов

  • Чуть выше tg на больших контекстах

На современных версиях llama.cpp и RTX 5090 auto и on дают одинаковый результат, но я ставлю on, чтобы убрать сомнения.

--ts 1,1 (tensor splitting)

Если у вас несколько видеокарт:

  • На одинаковых картах можно -ts 0,0 (автораспределение) или -ts 1,1 (поровну)

  • Если карты разные (8GB, 12GB, 16GB, 24GB), используйте пропорции: -ts 8,12,16,24

Узнать порядок карт: nvidia-smi -L

--parallel 2

Позволяет обрабатывать несколько запросов одновременно. При указании --parallel 2 вы можете отправить два параллельных запроса, и они будут обрабатываться конкурентно (но с разделением ресурсов). Полезно для server-режимов, когда модель используется несколькими пользователями или процессами.

Но если вы пользуетесь серваком один то можно ставить единичку.

--reasoning-budget 0

Этот параметр контролирует, сколько токенов модель тратит на внутренние «рассуждения» (Chain-of-Thought) перед ответом. --reasoning-budget 0 полностью отключает CoT. Это правильно для кодинга, потому что лишние рассуждения только замедляют генерацию и могут внести шум в код.

Я слышал много разных рассуждений на тему того включать ли thinking при кодинге. Для себя сделал вывод, что мне он не сильно то и помогает.

Выводы

Мои текущие настройки — не истина в последней инстанции. Я продолжаю экспериментировать:

Локальные LLM реально близки к проприетарным, но только при правильной настройке.

Скорость генерации упирается в пропускную способность памяти GPU, а не в тактовые частоты.

Для кодинга нужны низкая температура, жесткий top_k, penalty = 0.0 и отключенные рассуждения.

MTP в llama.cpp работает гораздо лучше, чем в vLLM. (Или это я не до конца разобрался).

Не верьте цифрам скорости, не узнав квантизацию и размер контекста.

Используйте CUDA 13.3, а не 13.2 или 12.

Если интересно то можете подписывать в телеге на наш маленький чатик в котором мы обсуждаем такие темы - homelabru

Комментарии (10)


  1. jshapen
    02.06.2026 13:19

    Самое главное забыл написать. Какой квант и на каком оборудовании запускал.


    1. devpew Автор
      02.06.2026 13:19

      Запускал вообще вот так

      pm2 start bash --name llama-server -- -c "/home/dm/llamamtp/llama.cpp/build/bin/llama-server -m /home/dm/models/qwen3-next/Qwen3.6-27B-UD-Q8_K_XL.gguf --host 0.0.0.0 --port 8080 -ngl 999 -ts 0,0 --ctx-size 262144 --batch-size 512 --ubatch-size 256 --flash-attn on --parallel 1 --temp 0.6 --top-p 0.95 --reasoning-budget 0 --spec-type draft-mtp --spec-draft-n-max 2"

      Квантование Q8_K_XL

      Запускалось на двух 5090


  1. Groramar
    02.06.2026 13:19

    под эту модель 'Qwen3.6-27B' сколько нужно минимально видеопамяти для более-менее комфортной работы?


    1. devpew Автор
      02.06.2026 13:19

      Я бы не смотрел на квантования ниже Qwen3.6-27B-Q6_K.gguf она весит 23гб, так же надо еще место для kv cache и для контекста. Так что если ужаться то можно например взять пару карт по 16гб, а потом париться с оптимизациями


      1. jshapen
        02.06.2026 13:19

        Q4 отлично работает на 3090. Это и есть рабочий минимум на сегодня


    1. apidev
      02.06.2026 13:19

      Ну, возьмём настройки, почти как в статье.

      ./llama-b9305/llama-server \
          --model /srv/llm/gguf/Qwen3.6-27B-MTP-Q4_K_M.gguf \
          -ngl 99 -c 262144 -fa on \
          --spec-type draft-mtp --spec-draft-n-max 2 \
          --parallel 2 \
          --reasoning-budget 0 \
          --batch-size 2048 --ubatch-size 512 \
          --presence_penalty 0.0 \
          --top-p 0.95 --top_k 20 \
          --temp 0.6 \
          --host 192.168.1.5 --port 8080
      Получим следующее потребление:
      Где-то 35.5Gb VRAM
      Где-то 35.5Gb VRAM

      Докинем туда:

      --cache-type-k q8_0 --cache-type-v q8_0
      Во время обработки запроса будет влезать в 32Gb
      Где-то около 27.5Gb
      Где-то около 27.5Gb

      Т.е. комфортный выбор - это что-то вроде:

      • RTX 5090 32Gb

      • RTX PRO 4500 Blackwell 32Gb

      • Radeon AI PRO R9700 32Gb

      Ну и т.д. Если режем контекст в два раза, то там уже и в 24 ужаться реально.

      Понятное дело, что всё вышеуказанное потребление очень условно (тем более, что llama.cpp @ Vulkan @ Ubuntu 26.04 @ Ryzen 395 aka Radeon 8060S 32 RAM / 96 VRAM), но примерно позволяет понять потребление модели. Правда, на Ryzen 395 там 22-25 t/s генерации всего.


      1. KoIIIeY
        02.06.2026 13:19

        Хватает этих скоростей для личного использования, кодит себе потихоньку (это я про райзен)


  1. Oeaoo
    02.06.2026 13:19

    Интересно как оптимизировать флоу на маке, где вроде как памяти посвободнее.


    1. devpew Автор
      02.06.2026 13:19

      Для мака прежде всего надо смотреть на формат MLX, это специально под их процессоры сделанный формат. А остальное вроде то же самое.


    1. dE1l
      02.06.2026 13:19

      Посмотри в сторону oMLX. Обработка кэша - очень долгая операция. И тут её оптимизировали.