Пора переезжать на локальные LLM. Или нет? / forpes.ru

Главная
Пора переезжать на локальные LLM. Или нет?

Пора переезжать на локальные LLM. Или нет? +4

10.03.2026 18:55

SiYa_renko 16 15000 Источник

Нет большой разницы в инструментах, когда речь идет о создании простеньких чат-ботов. Но когда вы работаете над продуктом посерьезнее, например создаете сложного AI-агента или работаете с чувствительными данными, облачные LLM начинают выставлять счета. И не только финансовые.

Что если переход на локальную инфраструктуру (вроде Ollama) это решение, которое не просто поможет сэкономить, но изменит саму динамику разработки?

Налог на итерацию

Главная проблема в разработке с помощью облачных LLM заключается в психологической и финансовой стоимости ошибки. Во-первых, много стоят токены, разработка тех же AI-агентов требует десятков и сотен вызовов для решения одной задачи. Каждый баг вымывает бюджет.

Во-вторых привязка к конкретному API ограничивает воспроизводимость экспериментов. Если модель на стороне провайдера обновится (или изменится её цензура), ваше решение может сломаться без предупреждения. И не будем забывать, что передача данных создает определенные риски при работе с проприетарным кодом и персональными данными.

Если почитать последние статьи на этот счет и упростить данные последних экспериментов по развертыванию локальных моделей, получается интересная закономерность. Сравнение разработчиков, использующих облачные API, и тех, кто перешел на Ollama, дает следующие результаты:

Скорость итераций выше. Если страха перед счетчиком нет, можно проводить в два раза больше экспериментов. Особенно критично при отладке сложных систем, где нужно писать хорошие системные промпты и подбирать корректные параметры квантования.
Снижение совокупной стоимости владения. В среднем, при активной разработке, затраты на инфраструктуру снижаются на 33%. Да, вам нужно железо, но оно окупается за счет отсутствия платы за каждый сгенерированный токен.
Глубина понимания выше. Работа с модельным зоопарком локально заставляет разобраться, как работают веса, что такое квантование и как архитектура модели влияет на потребление VRAM.

Почему Ollama?

Ollama привнесла в мир LLM уровень комфорта, сравнимый с тем, что Docker сделал для деплоя приложений. Это, по сути, вполне похожий опыт: команда pull, команда run, никаких головных болей с зависимостями и версиями драйверов. Она абстрагирует сложность настройки окружения (CUDA, зависимости, форматы моделей) и предоставляет простой API (localhost:11434), который идентичен по логике работы облачным сервисам, но работает полностью автономно.

Еще пару лет назад запуск LLM был уделом энтузиастов с кластерами A100. Сегодня ситуация изменилась благодаря трем факторам. Оптимизации весов, доступности железа и зрелости софта вроде Ollama. Современные модели типа Mistral, LLaMA, Phi-3 показывают хорошую производительность на обычных ПК, технологии сжатия позволяют запускать модели с 7-14 млрд параметров, практически не теряя в качестве логики для большинства прикладных задач.

Если мы возьмем разработку автономных агентов, а это самый дорогой вид разработки в облаке, агенту нужно сделать в среднем от 5 до 10 вызовов чтобы решить одну задачу (спланировать, вызвать инструмент, проверить результат, отрефлексировать ошибку). Представим что вы ошиблись в цикле и получили бесконечную рекурсию запросов. За ночь может потратиться весь бюджет. Если же мы берем локальный инференс, сами понимаете, каждый запрос стоит ноль.

Ну и да, поскольку вопрос приватности из параноидального перешел в разряд юридического, можно добавить, что использование локальных LLM автоматически решает вопрос соответствия стандартам обработки данных.

А теперь про недостатки

Если бы локальные модели были идеальны во всём, OpenAI уже бы обанкротилась. Главный ограничитель локального инференса это видеопамять. Модели уровня 7B-14B комфортно живут на потребительских 8-12 ГБ VRAM. Но если вам нужна мощная логика уровня Llama 3 70B, тут пожалуйста приготовьте две RTX 3090/4090 или Mac на чипе Ultra. Технически, конечно, запуск тяжелых моделей на процессоре возможен через Ollama, но скорость генерации упадет до 1-2 токенов в секунду.

Плюс да, несмотря на прогресс, локальные модели 8B все еще значительно глупее GPT-4o или Claude 3.5 Sonnet. Они чаще галлюционируют в сложных инструкциях, если ваш агент должен выдавать строгий JSON, локальная модель может случайно добавить лишнюю кавычку или комментарий, сломав ваш парсер и даже если модель поддерживает 128k контекста, локальное железо задохнется при попытке запихнуть в него 20 страниц текста. Потому что скорость падает экспоненциально.

Третья проблема заключается в отсутствии легкого масштабирования, потому что Ollama это инструмент для разработчика или небольшого внутреннего сервиса. Если завтра вашим продуктом начнут пользоваться 1000 человек одновременно, один сервер с Ollama ляжет. Да, здесь облачные провайдеры решают проблему за вас, тогда как локальная инфраструктура требует полноценного DevOps-стека.

Золотая середина заключается в...

...гибридной связке. Нет необходимости сливать бюджет на рутину.

Один из самых крутых сценариев это использование Ollama как первого эшелона защиты. Локальная модель может заниматься предварительной обработкой данных. Убирать персональную информацию, очищать код от проприетарных секретов или просто фильтровать мусорные запросы. В итоге в облако уходит чистый и сжатый контекст, что решает вопросы безопасности и экономит входные токены.

Вместо того чтобы слать каждый чих в тяжелую модель, вы можете реализовать простую логику маршрутизации. Локально классифицировать интенты, извлекать простые сущности из текста, делать саммари по логам или генерировать простые SQL-запросы. Это задачи, с которыми современные модели на 7-8 млрд параметров справляются отлично. А сложный reasoning, многоходовое планирование агента или написание критически важного кода отправляйте в облако.

Польза от искусственного интеллекта в разработке начинается не с красивых демо, а с понимания, где он действительно ускоряет работу, а где создаёт новые риски. На курсе «Искусственный интеллект для разработчиков» как раз разбирают практическое применение: генерацию кода, тестов и документации, работу с локальными моделями и аккуратное встраивание таких инструментов в повседневную разработку.

Чтобы узнать больше о формате обучения и познакомиться с преподавателями, приходите на открытый урок 11 марта в 19:30 на тему «Обзор инфраструктуры Ollama». Участие бесплатное, надо зарегистрироваться.

Полный список бесплатных уроков марта смотрите в дайджесте.

Комментарии (16)

funca
10.03.2026 19:21
#29646816
Модели, вроде тех что предоставляют Anthropic, Google или OpenAI это больше, чем только LLM. Например, вы можете загрузить видео через File API или просто дать ссылку на YouTube и Gemini разберёт его вам за секунды, попутно закешировав эмбеддинги на случай повторного обращения. Claude поддерживает инструменты на стороне сервера такие как web_search, web_fetch и code_execution. Можно долго перечислять. Если использовать Ollama, то решать вопросы масштабирования и готовить весь такой обвес вам придётся самим. А это серьезная и затратная инженерия.
1. Mox
  10.03.2026 19:21
  #29647098
  Речь не про это.
  Подключить веб поиск можно легко и с локальной моделью - даже проще
  
  Идея в том что сложные вещи типа плана выполнения задачи можно делать внешней дорогой моделью, а уже писать код по этому плану сможет локальная небольшая модель.
  
  То есть opus работает только в режиме планирования. Ну это пример для программирования
  1. funca
    10.03.2026 19:21
    #29647352
    Тот же Copilot в подписке даёт несколько простых моделей анлим (типа GPT-5-mini), а Gemin 3 flash или Grok стоят копейки. Часто на этапе реализации у меня работает несколько саб-агентов параллельно - на локалхосте так не отмасштабировать. По-моему если можно пользоваться большими моделями, то возиться с Ollama смысла нет.
    
    Annsky
    10.03.2026 19:21
    #29647932
    Если вы не ИИ маньяк. Мой workflow (хобби проекты, десятки) - по 6 сессий по 8 часов в день. Встаю в 6 утра чтобы скорее начать. Мне хватает Max лимитов дорогой подписки фронтир модели (Claude, сейчас Codex, Gemini бесплатно дает больше, чем платно), и я строю инфраструктуру - вот это все "отмасштабировать" - чтобы перестать столько платить, и чтобы собственно, работать в случае "я в самолете". Модели fast translate text, vision, computer use, Silera TTS, STT, у меня еще список в ресерчах на 20 видов моделей, списки локальных версий, которые можно запускать на GPU телефона, на GPU mac m1, на 3080, списки недорогих подписок (midjourney, подписки для генерации 3д моделей, текстур, конфиги Comfy UI), 6 устройств - пара macbook, PC 3080, samsung s23 с proot debian внутри с XFCE + VNC + open server, xperia III, потому что 4к на телефоне и дешево и крайне качественно для VR игр по moonlight (Dark Souls 3 в 3d!), в каждом устройстве по несколько open-server на разные виды деятельности.
    И ipad mini 6 с кастомной клавиатурой чехлом, чтобы править ими всеми (с) - помещается в карман куртки и удобно программировать в кафе, в пути, не таская рюкзак (хронически больные мышцы).
    
    И это я еще не самый энтузиаст, кто-то выжигает Max лимиты за пару дней и имеет несколько подписок.
    
    Qwen 3.5 вышла 2 марта и уже резонирует. Множество локальных специализированных моделей.
    
    Я сделала лайф хак - модель fast translate переводит русский в english и дает промт Qwen 3.5 0.8b (именно так, 0.8b), модель на английском работает на порядки качественнее чем с русскими промтами, отвечает на английском, и другой fast translate (и туда и обратно около 100мс всего) переводит на русский. В итоге я работаю с Qwen 0.8b на русском, а под капотом она максимально эффективна насколько может.
    
    Silera TTS - старый телефон 2016 года
    
    Телефон: OnePlus 3T (A3003)
    
    процессор: Qualcomm Snapdragon 821
    
    графика: Adreno 530
    
    RAM: 6 GB
    
    Vulkan: 1.1
    
    В 2016 году стоил 400$, сейчас б/у - 40$, я собрала tourch под старый arm, и если на CPU фраза Привет, как дела? генерировалась 30 секунд, на GPU этого телефона случился real time - 0.5-1c на генерацию. Локально. Качественный TTS. На телефоне за 40$. Без зависимостей от интернета. Ставлю туда Qwen 0.8b, чтобы сделать "Алису по прикольнее".
    
    И это я еще просто энтузиаст.

Incognito4pda
10.03.2026 19:21
#29647108
Что-то вы про Ollama как то круто завернули, когда уже например llama.cpp давно на голову выше как по скорости генерации (примерно x2 раза), так и по функциональности и удобству ПО. Единственный козырь Ollama возможность юзать тяжёлые модели в облаке, но и они имеют лимиты на бесплатное использование.
1. Ryav
  10.03.2026 19:21
  #29650106
  То есть llama.cpp выдаёт ответ в 2 раза быстрее на той же самой модели? Open WebUI тоже может дёргать разные модели через llama.cpp?
  1. nidalee
    10.03.2026 19:21
    #29650236
    Для дерганья моделей нужно поднимать костыль в виде llama-swap: github.com/mostlygeek/llama-swap
    
    Ничего не могу сказать про скорость по сравнению с ollama, потому что ее не пробовал даже из-за ее огороженности.

411
10.03.2026 19:21
#29647138
Пока ощущение от локальных моделей - возврат в 22-23 года.

K0Jlya9
10.03.2026 19:21
#29647422
мощная логика уровня Llama 3 70B

:рукалецо:

WhiteBehemoth
10.03.2026 19:21
#29647652
...гибридной связке. Нет необходимости сливать бюджет на рутину.

разумеется, и это первое , что приходит в голову, когда дело доходит до написания своего (или конфигурации чужого) оркестратора. Вот только "деплоить в прод" локальную LLM для "слабых" задач - весьма спорный вариант, сулящий куда больше проблем, чем выгоды.

Politura
10.03.2026 19:21
#29647658
Это антиреклама курсов чтоли? Надо быть откровенным дебилом, чтоб пойти на курсы по ИИ к тому, кто в 2026 году пишет про "мощную логику уровня Llama 3 70B".
1. SparkyJoyteon
  10.03.2026 19:21
  #29647760
  Тоже не понял этого прикола про мощную логику у модели которая с такими параметрами только научилась понимать смысл тобою написанного

krote
10.03.2026 19:21
#29647734
Перепробовал десятки локальных LLM на своей 3060 12Gb + 32 RAM, и скажу все что доступно с подобным железом и рядом не стоит с самыми дешевыми копеечными вариантами Claude, chatgpt, gemini (а локальный контекст 128k+ это боль даже на всяких 8b, ибо все что летает на 4096 контексте становится диким тормозом на больших контекстах, привет идее делать саммари логов, да и какое качество этих саммари будет?). Возможно, если бы у меня локально было 32..48VRAM + 96..128RAM я бы нашел варианты получше, но не с тем что у меня есть точно.

Смысл извращаться ради встраивания в свои процессы локальных LLM вижу только в таких случаях:
1) цензура
2) соображения корпоративной безопасности (но если важна безопасность, бизнес таки найдет деньги на нормальный сервер, который потянет на порядки большие модели чем 3060)
3) стартапы со всякими сервисами, когда страшно попасть в зависимость от внешнего сервиса (или не можешь себе их позволить) и пытаешься хоть как то выкрутиться на своих минимальных ресурсах.
1. nidalee
  10.03.2026 19:21
  #29648210
  На коробке с 395+ на 128 гигов объединенной памяти крутил и gpt-oss-120b, и devstral2 - могу вас утешить, с ростом количества параметров ничего принципиально не меняется (пока вы все еще бултыхаетесь где-то в пределах консьюмерского железа), все еще потешные "забыл перенести строку исправляя баш скрипт на 30 строк".
  
  Локальные модели для кодинга кое-как способны разве что переписывать крохотные блоки по подробному плану из под серьезной облачной модели вроде Claude или OpenAI. Самостоятельно они могут примерно ничего. Я уже даже в минусы не записываю, как часто оно сваливается в цикл "дай поправлю - не получается - дай поправлю" - это просто фича уже.
  
  Может быть энтузиасты с домашними кластерами на 128+ гигов поспорят, но 128 и меньше - мало даже поиграться.

SparkyJoyteon
10.03.2026 19:21
#29647756
Добавлю пару заметок на тему моделей, на железе потребительского уровня с 16гб видеопамяти и 64гб RAM, например RTX5070TI или 5080, можно спокойно запускать тот же qwen coder next 70b, это что из недавно выпущенных и работает он со скоростью +-20-30 токенов в секунду.

7-14B модели не годятся даже для базового общения(они часто могут в ответе вставлять иероглифы например вместо слов и вообще не понимать о чем идёт речь

Если у вас команда разработки и какая-то компания, то вероятнее всего можно подсчитать цену оборудования (дрябленький зеон + пачка видеокарт или серверные карты с бу рынка(но не сильно старые)) и посмотреть что вам в итоге окажется выгоднее, при ключи или сборка сервера под свои задачи, более менее вменяемые модели начинаются не меньше 70B, по сути это просто минимум

Если из оборудования выжимать все соки, то стоит использовать бэкенд на vLLM, но с ним нужно будет покопаться на уровне девопса

К моделям локальным для экономии контекста можно прикручивать RAG(для более экономного поиска информации в памяти как например документация проекта), а так же дообучить вашу модель и прикрепить Lora адаптеры для более точного и контролируемого вывода конкретных вещей

Rohan990
10.03.2026 19:21
#29649230
оллама штука крутая, но там боль с huggingface моделями. Искал альтернативы для локальных моделей и открыл для себя vLLM. По скорости генерации ответа буст приятный. Есть тензорный параллелизм. Разворачивается в докере одной командой. Правда vLLM больше требовательна к ресурсам