Статья написана для юзверя (в том числе разработчика) с базовыми знаниями работы в операционной системе, консолью, IDE и браузером.
В статье рассматривается инструкция для установки LLM локально на ПК юзверя для обхода проблем работы с удаленными серверами. Также статья поможет в совсем базовом понимании работы с LLM.
Здесь будет рассматриваться IDE VSCode, однако всё нижеописанное актуально и для JB Webstorm или Pycharm (и др).
Предисловие
Я, как профессиональный разработчик, использующий в своей жизни нейросети для дополнения кода, встретил препятствие в своей комфортной рабочей среде: для РФ закрыли полностью или ухудшили качество пользования автодополнением кода.
Сначала я использовал VSCode + Codeium (переименован плагин Windsurf, не путать с IDE Windsurf). Разработчики утверждали о вечном безлимитном доступе к базовым услугам (дополнение кода и чат), но качество соединения сильно ухудшилось (со стороны РФ или нет — не уверен).
Попробовал перейти на IDE Windsurf (нагуглил, что там соединение лучше). Прошел опрос и получил Pro версию на дополнительный месяц. Некоторое время всё было отлично, мне понравилась функция замены нескольких строк. Через 2 месяца (примерно в феврале 2025) дополнение кода сошло с ума: начало везде вставлять одно и то же и засчитывать это как предложение вставки из лимита замены нескольких строк. По исчерпании лимита просто отказывался работать.
Ушел обратно на VSCode и попробовал использовать аналоги Codeium (Windsurf): Cody, CoPilot (с VPN) и еще несколько китайских. Самым качественным показался CoPilot, но я его пробовал всего 2 дня против 6 месяцев Codeium и не могу утверждать.
Проблема осталась: качественного дополнения для кода не было. Тут я узнал про Ollama, стал читать про LLM, вышел JB Junie и еще много интересного.
Что такое LLM для чайников
Дословно «Большая языковая модель», но это не улучшает понимания. По факту — это обученные «мозги» для вашего ассистента, который будет вам помогать.
Этого самого ассистента можно учить по-разному (на разных данных и типах обучения), соответственно, и помощь он оказывает разную. Для разработки выделяют отдельные LLM, но это не значит, что общие LLM не помогут разработчику, но помощь будет менее качественной.
Подробнее про LLM вы можете найти в других статьях. Уверен, что есть гораздо более умные авторы в этом направлении.
Пару важных слов:
Контекст — это область «памяти» нейросети. Сколько и как качественно она помнит. Чем больше — тем лучше. Качество работы с контекстом бывает разное.
Кол-во параметров LLM — условно, на каком количестве данных обучалась нейросеть. Чем больше — тем умнее. Чем больше — тем больше ресурсов машины будет использовать при запуске.
Конфиденциальность

Из соглашений с сервисами следует, что данные, которые могут быть переданы третьим лицам, будут анонимизированы. Это похвально, но разработчики часто подписывают соглашения о неразглашении информации (NDA), поэтому лучше иметь возможность использовать локальные решения (без обращения к чужим серверам).
Выделим два типа использования: локальное (на ПК разработчика) и серверное (внутри и за пределами контролируемого контура).
Если вам подходит решение с внешним контуром, анонимизацией и VPN, вы можете воспользоваться указанными сервисами.
Если же вы хотите перестраховаться или лучше понять, как работает локальное использование LLM, продолжайте чтение.
Виды LLM (сокращенно)
На самом деле их немало, но остановлюсь на тех, которые пригодятся разработчику и в повседневных задачах:
чаты;
дополнения кода;
служебные инструменты (например, для обработки специализированных данных, работы с большим объемом контекста, вставки и т. д.).
Как определиться с нужной LLM
Есть простой, но эффективный способ решить задачу — обратиться к другой нейросети. Я рекомендую Qwen (chat.qwen.ai). Чтобы получить помощь, нужно сделать запрос: «Помоги выбрать LLM для моих нужд. Я работаю с [например: Angular, TypeScript, RxJS, NGXS] в проекте». Можно также добавить: «Для скачивания использую Ollama [если для кода: и для работы с IDE VSCode с плагином Continue]». Об этом расскажу дальше.
Если у вас есть много свободной оперативной памяти (>32 Gb) и памяти на видеокарте (>12 GB), то можете позволить себе запустить локально 32b (32 миллиарда параметров) и более. Стоит отметить, что это не всегда нужно: 7-9b для комплита кода более чем достаточно. Для чата или агента (редактирование кода в паре с ассистентом) лучше 32b и больше.
Еще есть «квантовые версии» для LLM, они потребляют меньше памяти.
Сейчас наиболее интересные для коддинга, по моему мнению:
Qwen (qwen2.5-coder)
Deepseek
LLama.
Откуда взять LLM
На мой взгляд, сейчас самое удобное рядовому пользователю — использовать Ollama. Пример использования:
-
Скачиваем программу с официального сайта ollama.com. Устанавливаем, перезагружаем комп (чтобы PATH прописались, если ОС Windows). Если нужно установить конкретное место установки LLM, прописываем переменную
OLLAMA_MODELS
: -
Заходим в репозиторий с LLM (ollama.com/search) и выбираем нужную. На скрине в правом верхнем углу код для копирования в командную строку. Скачивается LLM.
То же самое проделываем с LLM
nomic-embed-text:latest
-
Устанавливаем Continue (ссылка). Заходим во вкладку установленного плагина.
По умолчанию Continue предложит некоторые стандартные LLM. Можете попробовать их. Тогда копируем команды в терминал из предложенных Continue и нажимаем «Далее». Следующие пункты можно пропустить, если вы пойдете этим путем (файл конфигурации настроят автоматически).
Здесь жмём на
Local Assistant
и на шестерёнку. Откроется файл конфигурации (yaml, в ранних гайдах был json). Пихаем туда следующий код:
name: Local Assistant
version: 1.0.0
schema: v1
models:
- name: Qwen2.5-coder:latest
provider: ollama
model: qwen2.5-coder:latest
roles:
- chat
- edit
- apply
- name: Qwen2.5-coder:latest
provider: ollama
model: qwen2.5-coder:latest
roles:
- autocomplete
- name: Nomic Embed
provider: ollama
model: nomic-embed-text:latest
roles:
- embed
context:
- provider: code
- provider: docs
- provider: diff
- provider: terminal
- provider: problems
- provider: folder
- provider: codebase
Сохраняем. На этом установка завершена.
Использование для коддинга
Теперь у вас есть локальный автокомплит (дополнение кода; autocomplete). Можете обнаружить его благодаря серым участкам кода при написании кода. Нажав Tab (стандартно), код будет активирован).
Вы можете использовать чат в меню плагина Continue и агент. Подробнее об их использовании рассказано в статье не будет, тут весьма интуитивно. Попробуйте.
Использование для сторонних нужд
По умолчанию Ollama привязан к адресу 127.0.0.1 на порту 11434. Это означает, что доступ к серверу возможен только с локальной машины. Это можно исправить, выбросив адрес в локальную (к примеру) сеть. Данный способ рассматриваться в статье не будет (они периодически меняются, лучше нагуглить актуальный).
Можно обратиться к LLM напрямую через консоль ollama run [model]
или можно поставить UI для этого, например Page Assist.

Также есть специализированные UI. Например для НРИ - SillyTavern.
Для генерации изображений как правило нужен специфичный UI, который можно развернуть локально. Для этого можно почитать, например, тут.
Выводы и итоги
Установить и использовать LLM локально легко и доступно для любого современного ПК и любой операционной системы. Это не так сложно, как может показаться.
Комментарии (13)
apcs660
06.06.2025 19:17Попробую на днях, как раз карточка 16gb завалялась. Посмотрю насколько сильно начнет пылесосить при использовании. Ее бы еще доубучать на правильных проектах. К примеру, эластик , а солр в топку.
Сейчас в учебных целях rag поиск прогоняю, гибридный, в векторной базе и в обычном индексе.
И вот какой у меня вопрос получается - если с классическим полнотекстовым поиском все понятно - на люсин делаешь или на суффиксном массиве (теоретически) или на триграммах от гугла то как быть с knn векторами при обработке больших текстов, непонятно. Мелкие тексты и метаданные без вопросов.
Предобработал я текст, к примеру, мегабайт, порезал на параграфы и тд, чтоб в сетку влез (ограничения по длине), но ведь контекст поиска может затрагивать сразу несколько таких сегментов, и получится что knn вектор запроса не попадет толком ни в один из векторов отрезков текста. Второй вопрос, как разделить поиск по метаданным от поиска по контенту документа. В реале получается что нужно городить достаточно навороченную схему и минимум две модели тащить. Это мне, что две видюхи для обучения цеплять...
Так никаких киловатт не напасешься.
0x131315
06.06.2025 19:17Попробуйте lmstudio - там все в одном: неплохой набор быстрых движков с системой автообновления, поисковик и менеджер LLM, чаты с историей и бранчингом, менеджер промтов, богатые настройки с привязкой к конкретной сетке, поддержка всех современных форматов сеток, в том числе moe, a3b, mlx, поддержка ускорения за счет draft-сеток, встроенный openai-like сервер с опциональной возможность загрузки/выгрузки нужных нейронок налету. Для энтузиастов даже есть поддержка ферм GPU. Чего еще желать то?
Запускаем lmstudio, встроенный в нее сервер, IDE. В IDE в каком-нибудь gpt-плагине (codegpt, jetbrains ai) выбираем кастомный сервер, копируем туда адрес сервера, опционально включаем оффлайн-режим (чтобы в облака запросы не ходили) - и по сути все, теперь поддержкой IDE полностью занимается локальная lmstudio. Модельки там можно подобрать достаточно умные (devstrail, phi4, deepseek, qwen3, gemma3, qwq, tproit, codestral), получается не хуже чатгопоты, но абсолютно бесплатно, безопасно, и с возможностями покруче чем в хайповом курсоре.
Главное обратить внимание что обычно предлагается две модельки: нужно выбирать ту что побыстрее для автодополнения, и ту что поумнее для чатиков, рефакторинга и каких-нибудь глобальных перестроек. Если памяти достаточно, это еще и быстро работает: можно в сервере настроить опцию не выгружать модельки, и тогда обе будут доступны мгновенно, по запросу из IDE, без подгрузок. На современных 16+ gpu самое то.
AbitLogic
06.06.2025 19:17У меня стоял deepseek coder v2, в один прекрасный момент я решил на работе распарсить данные в BTree из обычного ini, и понял что без него сам уже с трудом вспомнил or_insert_with, решил не лениться и писать таки руками, а вот пообщаться с нейронкой про код это я всегда)
lazy_val
06.06.2025 19:17Устанавливаем Continue (ссылка). Заходим во вкладку установленного плагина.
А ссылка-то где?
danilovmy
06.06.2025 19:17Вероятно, https://marketplace.visualstudio.com/items?itemName=Continue.continue для VS-code, поскольку автор в итоге остался на этой IDE, @DLeo13 так?
danilovmy
06.06.2025 19:17У меня в VS-Codium стоят плагины к Zencoder и Codeium. Я пару лет бета тестер этих систем. Просто для авто-дополнения LLM не нужны, тот же Jedi делает это десятилетиями, и появился он намного раньше Conda или Kite.
В обоих Pluginах, что я назвал, есть агентное поведение (Coffee mode) оно хорошо работает через TDD: Дал ТЗ, надо - уточнил с AI, попросил создать сначала тесты, потом создать код под тесты, там где непонятно создать шаблоны и остановиться для запроса новых уточнений. Работает хорошо, потому как Zencoder, например, прогоняет тест/код у себя перед выдачей. И мне нравится, как выдается усредненный среднестатистический код, при кодовой начитанности он очень легко читается.
На понимание, как работает та или иная модель я трачу около 30 минут ежедневно (до 1,5ч. в день на обе) и уже могу предсказывать, какой результат получится на тот или иной промпт, или где именно будет ошибка в ответе модели. Было пару обновлений моделей с деградацией, сразу становится заметно. Знание этого очень убыстряет процесс разработки с AI, и не думаю, что мои когнитивные способности сильно снизились за последние 3 года. А критическое мышление по отношению к коду как раз улучшилось.
Увы собственные ресурсы пока не позволяют мне поставить модель локально, а codeium aka winsurf дает такую возможность.
Меня смешит вопрос NDA, поскольку слишком многие enterprise построены на OOS и не будь их, не было бы и этого enterprise. И мне повезло, что в компаниях, где я работал, не было запрета на работы с агентами.
Большое спасибо @DLeo13за возможность попробовать, вроде CodeQwen 7B или
DickPicDeepSeek могут у меня запуститься (полистал обсуждения на reddit).
Oeaoo
Без оговорок про необходимые ресурсы?
DLeo13 Автор
На 7b нужно что то типа гига на видеокарте. Можно запустить чисто на процессоре. Про 32b и больше есть сноска.
d-sh
Для qwen 8b в lmstudio с приличной скоростью работы (40 токенов в секунду) нужна видеокарта с 12гб памяти.
DLeo13 Автор
Спасибо, что дополнили информацию. Тем не менее есть разница между возможностью использования (фактически - запуска) и использования в высоком качестве (скорости).
Мне удалось запустить нейросеть для генерации автодополнения кода на ryzen 5 без видеокарты при адекватном использовании. В статье не учтены некоторые нюансы (например: для видеокарт Nvidia нейросетки адаптированы лучше и т.п.) намеренно, чтобы не грузить читателя.