Иногда нужна языковая модель, которая работает без интернета — на борту самолёта, в закрытом корпоративном контуре и т.д. В других случаях интернет есть, но платить за подписку не хочется. В этой статье — пошаговый разбор двух сценариев: локальный запуск через LM Studio и четыре бесплатных облачных агента, которые работают прямо в IDE.
Статья также доступна в формате видео.
Выбор модели
Для примера буду использовать Qwen3.5 — open source модель от Alibaba. Принципиальной привязки к ней нет: всё, что я покажу дальше, работает с любой другой моделью. Просто сейчас это один из лучших вариантов по соотношению качества и требований к железу.

Модели обычно выпускают серией с разным количеством параметров. Чем больше параметров — тем мощнее железо нужно и тем лучше качество ответов. Последнее время появляются модели, которые вообще можно запустить и на телефоне, но понятно, что и соображают они соответственно. У меня MacBook на M3, на нём со скрипом запускается модель на 35B, а нормально — вариант на 9B параметров.

Чтобы подобрать модель под своё железо, можно воспользоваться сайтом canirun.ai — там можно посмотреть, что вообще существует и что пойдёт на вашем железе.
Перед локальным запуском модель можно проверить в браузере на странице модели на Hugging Face — там же есть inference и бенчмарки. Посмотреть, насколько хорошо она генерирует код (или не код) под ваши задачи.

Локальный запуск: LM Studio
Инструментов для локального запуска моделей много — Ollama, Jan, GPT4All и другие. Я буду использовать LM Studio: удобный интерфейс, встроенный чат для быстрой проверки модели и простой запуск локального сервера. Установка стандартная.

В поиске внутри LM Studio пишем название модели — qwen3.5. Появятся несколько вариантов разного размера. Выбираем под своё железо.

После загрузки запускаем встроенный сервер. Модель поднимается локально по адресу localhost:1234 и отдаёт API, совместимый с OpenAI. Убедиться, что сервер работает, можно запросом в Postman или Connekt (про это у меня есть отдельный гайд):

Подключаем к IDE через Kilo Code
Kilo Code — open source плагин для ИИ-кодинга, работает в VS Code и во всех JetBrains-based IDE. Буду показывать на OpenIDE — бесплатной российской IDE на базе IntelliJ Platform, поддерживает Java, Python, Go, TypeScript. Если у вас GoLand, PyCharm, IntelliJ IDEA или любая другая JetBrains IDE — всё аналогично.

Устанавливаем плагин Kilo Code из маркетплейса. После установки оставляем дефолтный профиль без изменений и создаём новый — выбираем провайдер LM Studio, указываем адрес localhost:1234 и модель.

Возвращаемся в чат и переключаемся на только что созданный профиль. Теперь агент видит файлы проекта, может редактировать код и запускать команды — и всё это локально, без интернета.

Работает полностью офлайн, без подписки, без лимитов на запросы. Для самолёта или закрытого контура — более менее рабочее решение. Для повседневного использования — честно, очень слабое: скорость генерации зависит от железа, качество уступает передовым моделям. Но маленькие модели становятся лучше с каждым днём. Думаю, как раньше невозможно было представить, что компьютер размером с комнату будет помещаться в кармане джинс, так и сейчас невозможно представить, что ультра маленькая моделька будет настолько же хороша, насколько и облачная (ну или по крайней мере более чем достаточна для повседневных задач).
Бесплатные облачные варианты
Расскажу про четыре. Все бесплатные, все в той или иной степени доступны в РФ и СНГ.

Kilo Code (облачные модели)
Тот же плагин Kilo Code. Помимо подключения своих моделей, он предоставляет бесплатные облачные модели — в том числе новые от крупных провайдеров, которые появляются здесь бесплатно сразу после релиза на какое-то время. Через Kilo Code можно также подключить любого облачного провайдера — OpenRouter, Anthropic, OpenAI — по ценам провайдера без наценки, со своим API-ключом.

Отдельный момент про Anthropic: если у вас есть подписка Claude, Anthropic довольно жёстко относится к её использованию в сторонних инструментах вроде Kilo Code. Можно использовать API-ключ, но передавать данные подписки плагину не стоит — могут заблокировать.

Qwen Code
СLI-агент от Alibaba, аналог Claude Code. 1 000 бесплатных запросов в день без лимита на токены. Устанавливается одной командой.
После авторизации через браузер можно запустить в терминале IDE. Можно также добавить его в Kilo Code как отдельный профиль — указать директорию с данными аутентификации Qwen Code в настройках провайдера. Тогда все агенты оказываются в одном интерфейсе.

OpenCode
Open source агент, 120k+ звёзд на GitHub. Поддерживает большое количество провайдеров, включая локальные модели. Периодически появляются бесплатные модели — MiniMax, MiMo, Nemotron. Подключить к Kilo Code не получится — запускается только в терминале.
OpenAI Codex
На момент написания статьи — временно бесплатен для всех пользователей, в том числе без подписки на ChatGPT, с ограниченным количеством запросов. Есть полноценное приложение для macOS и Windows с поддержкой нескольких параллельных агентов и git worktrees. Для регистрации нужен не-российский IP.
Как и Qwen Code, Codex можно добавить в Kilo Code как отдельный профиль. Такой подход мне нравится тем, что если закончатся запросы у одного агента — можно без проблем переключиться на другой, не выходя из IDE.

Расширенные настройки, MCP-серверы и Skills
В настройках Kilo Code есть раздел Agent Behavior — там можно развлекаться с MCP-серверами, правилами и скиллами. Любой подходящий MCP улучшает результат и экономит токены: вместо того чтобы грепать все файлы, агент сразу запрашивает нужный контекст.

Если пишете на Java или Kotlin со Spring — есть Spring MCP от Amplicode. Агент через него может сразу обращаться к контроллерам, эндпоинтам, репозиториям, не сканируя весь проект вручную. Сейчас в бета-тестировании, доступ по запросу черещ (info@amplicode.ru).
Заключение
Часть из того, что я показал, может очень быстро устареть — бесплатные тарифы закрываются, появляются новые инструменты. Если знаете агентов или связки, про которые я не рассказал, — пишите в комментариях.

Уже сейчас OpenIDE позволяет разрабатывать проекты на Java, Spring, Python, Go, JavaScript и TypeScript! А поддержка Docker и 300+ плагинов доступны абсолютно бесплатно в маркетплейсе. Пробуйте российскую IDE в деле и подписывайтесь на нас в Telegram или Max, чтобы не пропустить свежие обновления и полезные материалы.
Комментарии (21)

wesp1nz
21.03.2026 12:23Зачем Qwen бесплатно давать доступ к моделям? И как долго продлится эта щедрость?

denis_iii
21.03.2026 12:23Это часть открытого контура. Что бы сделать качественную модель, нужно знать запросы пользователей и точность ответов на них своей модели. GPT, Gemini и пр., также дают бесплатные ответы на ваши запросы беря взамен ваши данные. Но, китайцы в дополнение еще и дообучают свои модели на ваших вопросах, беря ответы на них от грандов (т.н. дистилляция). Что многим уже открыто не нравится.

AiZen_13
21.03.2026 12:23Как будто в 25 год вернулся...

vvzvlad
21.03.2026 12:23А что не так?

GamePad64
21.03.2026 12:23Устарело. Для тех же jetbrains лучше всего либо Claude code с расширением, либо к встроенному ai chat подключить opencode через ACP с производной моделью, какой пожелаешь.

vvzvlad
21.03.2026 12:23А для vs code?

dail45
21.03.2026 12:23А vs code пи... то есть они не дружат с открытостью ACP(Agent Client Protocol, сделанный Zed и Jetbrains), им нужно свой github copilot продвигать. А может просто не успели? (В феврале вроде ACP вышел, хотя кто хотел уже все ввели его.)
Ну а если хотите вроде есть ACP расширения, но они... кривоватенькие.

Machaeon
21.03.2026 12:23Мне важно автодополнение. Пробовал Kilo + Qwn Code CLI. Качество автодополнения крайне убогим оказалось, вернулся к Windsurf.

Rjohn55
21.03.2026 12:23Minimax 2.5 локально карты АМД ми50, 8 карт по 32g, скорость 40 токенов, входящая 12000 токенов, работает на neithos gpu.

diffnotes-tech
21.03.2026 12:23MCP в конце как "расширенные настройки" - а для локальных моделей это ключевая штука. Без MCP агент на каждый запрос грепает дерево проекта, читает файлы, набивает контекст сырым текстом. На Qwen 9B с 32k контекста один tree + пара файлов и всё. С MCP агент запрашивает конкретный контроллер или бин - структурированный ответ вместо raw файлов. Для облачных моделей с 200k это экономия, для локальных - вопрос работает или нет

amorev
21.03.2026 12:23А какие есть мсп, которые прям реально сокращают контекст? Но при это не ломают кодинг
Triton5
У меня в LM Studio на RTX 3060
Qwen3.5 35B A3Bвыдаёт 10токен/сек, аQwen3.5 9B14токен/сек, в целом 10ток/сек могу считать нижним пределом для комфортной работы (для себя). Ещё эти модели умеют и картинки понимать, ну вообще кайф :)Это всё в обычном режиме, конечно. В режиме обдумывания (Think) время обработки увеличивается в разы и непредсказуемо (впрочем, так у всех моделей).
Для бесплатных "облачных" нейросетей использую Cherry Studio + openrouter модели Free (там неплохих 2-3 штуки), на бесплатные модели 1000 запросов в день (на аккаунт) при балансе аккаунта от 10$. Пополнял через ggsel, т.к. с криптой лень возиться:)
Также есть неплохая Mistral Large через mistral api, там бесплатный лимит 1млрд токенов в месяц, звучит неплохо, в Cherry Studio нормально работает.
К сожалению, google api в Cherry Studio я не смог заставить работать, ну и фиг с ним:)
А, ну и просто
https://chat.qwen.ai/
https://chat.deepseek.com/
и тому подобные бесплатные веб-чаты:
VnNort
У меня Minimax M2.5 на amd 7950x без видеокарты вообще(!!!) выдаёт около 7 токенов в секунду.
AiZen_13
Чем черри студио лучше банального qwen code?
dail45
35B вы поидее без оперативки вообще не смогли бы запустить, поэтому и получается что 10 токенов в секунду. А вот 9B должна работать нормально, я надеюсь вы не выставили максимальный контекст? Нужно брать модель, добавлять контекст и смотреть что бы модель с ним влезала в видеопамять с небольшим запасом. И я надеюсь вы выбрали Cuda 12 runtime в настройках а не cpu llama. У меня было 10 токенов в секунду на 9B-4.6Opus-Reasoning-Distilled модели когда не влезало в оперативку или когда я пихал контекст 262к или когда запускал на своём r7 5700x.
P.s. сейчас запускаю 96-128к контексте на моей 3060 12gb и получаю 40-48токенов/сек.
Upd. А и надеюсь квантование взяли условное Q6, а не полную модель на FP16, которая никак не влезет.
Triton5
Попробовал модель Q6, ограничил контекст на 100тыс токенов, в кэши процессора поставил 4-бит квантование, получилось 30 токенов в секунду.
В общем, думаю ещё какие-нибудь компромиссы поискать:)
S1mleX
Ну я скажу что большие контексты лично у меня вызывают большие трудности. Использую ЛЛМ студию на 5060ti 16gb. Когда весь KV влезает в видеопамять gpt-oss-20b выдает 80 токенов в секунду. Но если вылазит то скорость падает драматически. Скажем прямо 80tk/s настолько вкусно для размышлений и использования инструментов моделью что я лучше пожму контекст до 40-50к токенов именно для модели gpt в fp. Но qwen3.5-9b уже хорошо переносит большие контексты и толерантен к ним и выдает 40tk на 200k.
KapSuRioN
Интересно, в комментариях принято хейтить ИИ-инструменты, но 210 человек сохранили статью в закладки.
PeeWeee
Хейтят не "ИИ-инструменты", а тупой спам "все сделает за вас", "заменит вас", "все быстренько скинулись и понесли нам денежку" и т.д.
В этой статье нет воды и психоза, как в большинстве повестей об успешном ИИ-успехе. Поэтому кстати в комментах нет ни хейта, ни даже холиваров.
И в заголовке ключевое слово локальные, что звучит привлекательно и для нейроскептиков, т.к. НЕлокальные:
не дают ясности какой ценой достигается результат. Легко могут быть маркетинговой акцией, где даже верифицируемые успехи LLM не гарантируют, что они достигаются теми ресурсами и ценой которые заявлены.
собирают данные пользователя. Это даже не конспирология, а банальные мотив+возможность+средство.
PeeWeee
Хех, неизвестный лаконичный блюститель "конструктивности общения", прошу занести в протокол что коммент выше был еще весьма сдержанным для моей позиции по данному вопросу.
В свое оправдание имею сказать, что если бы хотя половина статей про ИИ (опустил кавычки для "конструктивности общения") была похожа на данную, то я бы сам устыдился первых двух предложений из своего коммента выше.