Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака / forpes.ru

Главная
Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака +6

22.04.2026 09:30

rAnto 7 3600 Источник

Я давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp.

Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно.

Железо и ожидания

Моя конфигурация:

GPU: RTX 4070 12GB VRAM
RAM: 32GB DDR4
CPU: 12 физических ядер
OS: Windows 11 + WSL2 (Ubuntu)

Когда я впервые прочитал про Qwen3.6 35B-A3B, я был скептически настроен — 35 миллиардов параметров при 32GB RAM звучит как "не влезет". Но MoE архитектура меняет правила игры.

Почему MoE — это другая история

Обычные (Dense) модели активируют все параметры при генерации каждого токена. MoE (Mixture of Experts) модели устроены иначе: из всех "экспертов" (мини-подсетей) на каждом шаге активируется только небольшая их часть.

Qwen3.6 35B-A3B имеет 256 экспертов на каждом слое, но активирует только 8 routed + 1 shared — то есть реально считает примерно 3 миллиарда параметров на каждый токен, хотя общий вес модели 35B.

Это означает:

Скорость генерации как у маленькой 3B модели
Качество значительно выше за счёт специализации экспертов
Квант Q4_K_M весит всего 22GB — влезает в 32GB RAM

Настройка в LM Studio

Для запуска выбрал LM Studio — удобный GUI поверх llama.cpp. Скачал модель qwen/qwen3.6-35b-a3b квант Q4_K_M (22GB).

Ключевые настройки которые я подобрал:

Параметр	Значение	Зачем
Передача на GPU (ngl)	40 (макс)	Все слои пытаемся отдать GPU
Number of layers for MoE onto CPU	40	MoE-веса остаются в RAM
Flash Attention	Включён	Экономия памяти под контекст
Размер пакета оценки	8192	Быстрая обработка контекста
Размер пула потоков ЦПУ	10	Чуть меньше макс для стабильности
Длина контекста	65 536	Баланс качество/память

Важный момент про ncmoe: логика немного контринтуитивна. Сначала параметром ngl=40 отдаём все слои на GPU, потом параметром ncmoe=40 говорим "но MoE-веса вернуть на CPU". В итоге на GPU остаются только лёгкие тензоры внимания (~6GB VRAM), а тяжёлые MoE-веса лежат в RAM.

До применения -cmoe модель требовала все 12GB VRAM и не влезала. После — занимает 6.2GB VRAM и комфортно работает.

Реальные замеры скорости

Из логов LM Studio при генерации:

eval time = 8228 ms / 347 tokens → 42 tokens/sec (TG)

42 токена/сек при генерации — для 35B модели отличный результат, текст появляется плавно без заметных пауз.

Скорость обработки контекста (PP) сильно зависит от размера запроса — от нескольких секунд на короткие вопросы до минуты при первом запросе с полным анализом кодовой базы. В обычном режиме работы (вопрос-ответ, правка кода) задержка практически не ощущается.

Чем дольше работаете в одной сессии — тем быстрее модель отвечает на новые сообщения, так как KV-кэш переиспользует уже обработанный контекст.

Подключение к opencode в WSL

Модель поднимает OpenAI-совместимый API на порту 1234. IP адрес хоста видно прямо в интерфейсе LM Studio в разделе Developer — поле "Reachable at" (на скриншоте: http://172.18.0.1:1234). Именно этот адрес использую для подключения из WSL.

# Проверить что модель отвечает
curl http://172.18.0.1:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen/qwen3.6-35b-a3b",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

В ответе видно reasoning_content — модель думает вслух перед каждым ответом. Для простого "Hello!" она потратила 243 reasoning-токена на анализ приветствия. Для серьёзных задач это большой плюс.

В opencode.json прописываю:

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "lmstudio": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "LM Studio (local)",
      "options": {
        "baseURL": "http://172.18.0.1:1234/v1"
      },
      "models": {
        "qwen/qwen3.6-35b-a3b": {
          "name": "Qwen3.6 35B a3b (local)"
        }
      }
    }
  }
}

Как модель работает с реальным проектом

Тестировал на своём проекте online-course-platform — микросервисная архитектура на FastAPI + React.

Анализ кодовой базы

Попросил: "Какие улучшения для проекта можешь предложить?"

Модель запустила explore-агент, сделала 173 вызова инструментов, реально прочитала весь код и выдала структурированный список из 23 улучшений с разбивкой по приоритетам

Создание GitHub Issues

Попросил создать детальные issues для найденных проблем. Модель:

Изучила существующие паттерны тестов в проекте (auth, course)
Написала детальные issues с конкретными названиями тестов, структурой файлов, критериями готовности
Создала их через gh CLI прямо в репозиторий

Пример issue для тестирования progress-сервиса содержал: структуру тестов, 21 конкретный тест-кейс с ожидаемыми HTTP-статусами, конфигурацию fixtures по аналогии с существующими сервисами. Не абстрактное "написать тесты", а конкретный план — можно посмотреть живой пример.

Качество ответов

По бенчмаркам Qwen3.6 35B-A3B показывает сильные результаты среди MoE моделей — SWE-bench Verified 73.4%, Terminal-Bench 2.0 51.5%, GPQA Diamond 86.0%. Особенно выделяется в agentic coding задачах, обгоняя Dense модели значительно большего размера.

На практике это подтверждается. Модель:

Правильно понимает контекст больших кодовых баз
Генерирует рабочий код без галлюцинаций несуществующих API
Сама исправляет ошибки когда bash возвращает ошибку
Хорошо работает с русским языком

Параметры температуры

Официальная документация Qwen рекомендует для coding задач: temperature=0.6, top_p=0.95. Это совпало с дефолтом LM Studio и на практике работает хорошо — ответы детерминированные, но не механические.

Итог

Qwen3.6 35B-A3B на RTX 4070 + 32GB RAM — это работающий вариант для разработчика который хочет мощный локальный AI-ассистент без облачных расходов и без отправки кода на внешние серверы.

MoE архитектура позволила запустить то, что раньше требовало минимум 80GB RAM. 42 токена/сек — это комфортная скорость для работы в реальном времени.

Если у вас похожее железо и вы ещё не пробовали — рекомендую. Особенно если работаете с кодом и хотите агентский режим через opencode или аналоги.

Железо для воспроизведения:

GPU от 8GB VRAM (проверено на RTX 4070 12GB)
RAM от 32GB (модель займёт ~22GB)
LM Studio последней версии
llama.cpp для более тонкой настройки через CLI

Ссылки:

Модель: qwen/qwen3.6-35b-a3b на Hugging Face
LM Studio: lmstudio.ai
opencode: github.com/sst/opencode

Комментарии (7)

Gedeonych
22.04.2026 09:40
#29867182
Спасибо за статью и за некоторые метрики. Хочу задать вопрос. Есть ли большое отличие чисто по субъективным ощущениям (можно без метрик, интересно именно пользовательское описание), по сравнению со стандартной работой с "полноценным" Qwen через веб-интерфейс? И насколько оно большое?
1. Smartor
  22.04.2026 09:40
  #29867334
  Я не автор, но имею что сказать:)
  
  Через веб интерфейс у вас работа в стиле копи-паст, а при работе в программе типа opencode и подобных, нейросеть сама пишет код в файлы, сама тестирует и исправляет, вам только руководить процессом и исправлять косяки, опять же через нейросеть, возможно другую:)
  
  Когда нейросеть работает с кодом напрямую, это даёт результат в десятки раз быстрее, чем работать через веб чат. Но в таком режиме нужно озаботиться инструкциями для нейросети, бэкапами, спецификациями, скиллами, промтами, в общем всем тем, чем забит Хабр в последние месяцы.
  
  Насёт разницы локальной модели с полноценной Qwen3.6 Plus, это небо и земля. Думаю, что даже бесплатные модели, которые идут в комплекте с Opencode, будут как минимум не хуже локально запущенной модели с зажатыми лимитами на окно памяти и во всяком случае удобнее для итеративного использования.
  
  Роль локальной генерации - это относительно простые задачи.
1. SanyaZ7
  22.04.2026 09:40
  #29867362
  Для достижения хорошего качества и полноты ответа эта модель много рассуждает, поэтому ждать придется. По 5+ минут рассуждений даже на сравнительно простые вопросы на похожей конфигурации ПК.

DirOr
22.04.2026 09:40
#29867274
Спасибо, будем пробовать

CiberAlex
22.04.2026 09:40
#29867546
На Radeon RX 9060 XT 16Gb, 32Gb ОЗУ (DDR4), CPU 6-core с параметрами из статьи скорость 17.5 т/с на пустом контексте

Если Number of layers for MoE onto CPU поставить в 0, то скорость уже 27 т/с почему-то. Я так понимаю инференс DDR4 сильно тормозит
1. foxb
  22.04.2026 09:40
  #29868000
  Скорость выше, так как модель может поместиться в видеопамять GPU 16 ГБ против 12 ГБ.

DooKoo2
22.04.2026 09:40
#29867586
Ты tps показал на чистом контексте, когда заполнения контекста дойдет до 50-60 тысяч токенов скорость катастрофически упадет, будет 15-20 токенов максимум.

Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака +6

Железо и ожидания

Почему MoE — это другая история

Настройка в LM Studio

Реальные замеры скорости

Подключение к opencode в WSL

Как модель работает с реальным проектом

Анализ кодовой базы

Создание GitHub Issues

Качество ответов

Параметры температуры

Итог

Комментарии (7)

Gedeonych

Smartor

SanyaZ7

DirOr

CiberAlex

foxb

DooKoo2