На вопрос «Чем локальная модель лучше коммерческой top‑quality модели от Anthropic, OpenAI или Google?», — обычно отвечают: приватность. На самом деле это не совсем так. Приватность важна, но не только она. У локальных моделей есть более важные качества, которые я опишу в этой статье.
Первое преимущество локальных моделей
У больших моделей от Anthropic, OpenAI или Google есть одно качество, которое ужасно раздражает — это качество ответов. Например у меня есть задача, которую мне нужно срочно решить. Понятно, что я активно работаю с кодом и моделью. В начале дня — все летает, модель дает корректные ответы, я хорошо выспался и работа движется быстро. Ближе ко второй половине дня — становится сложнее, я уже не такой свежий да и модель оказывается тоже начинает подтупливать. Но работа срочная — нужно сделать, к вечеру — осталось уже совсем чуть‑чуть, час, может полтора. Но не тут‑то было — модель начинает конкретно тупить и время тратится уже больше на общение с моделью и на попытку объяснить ей какую‑нибудь элементарную задачу.
Когда я столкнулся с этим впервые, я уже порядком устал и не сумел вовремя понять, что это не я туплю, это просто просело качество ответов. В результате провозился далеко за полночь, хотя к пяти вечера был уверен, что еще часок и свободен. Сейчас понятно как с этим работать, но все равно приятного мало.
УGoogle, Anthropic и OpenAI подход немного отличается. Например, Google просто молча снижает качество. Ты оплатил подписку, заплатил $, выбрал модель, которая как кажется обеспечивает нужное качество, а качество ответов потихоньку сползло в ноль. У Anthropic — лимиты: это более прозрачно, кажется, что окей, я заплатил денежку, выбрал нужную модель, работаю внутри лимита, значит, получаю качественные ответы.
А Вы в этом уверены? Что, если в данный момент AI получил слишком большое количество запросов? Что должна сделать компания? Отключить сессии у бесплатных и низкомаржинальных пользователей, сказать, что сервер недоступен, заставить всех пользователей ждать по полчаса? Все это негативный пользовательский опыт, который аукнется потерей клиентов. А может, просто поставить балансировщик, который будет отправлять простые запросы более простым моделям? Да, качество немного просядет, но большинство пользователей этого скорее всего не заметит. Ну потупит ваша модель немного, ну потратите вы 3 часа вместо двадцати минут, ну так в некоторых случаях это даже хорошо! Токенов‑то вы используете больше! Значит и заплатите тому‑же Anthropic больше!
Вообще это действительно интересно. Модель подписки подразумевает, что клиент оплачивает услуги определенного качества, а поставщик эти услуги предоставляет, как например с электричеством, или с телефонной связью. Но что, если покупатель не имеет средств определить качество предоставляемой услуги? С телефоном все понятно: слышно или нет, быстро грузятся сайты или нет, а как вы оцениваете качество ответов нейросети?
Собственно отсюда следует простой вывод - если нет объективных критериев оценки качества работы модели, а требование бизнеса - продать максимально дорогую модель максимально большому количеству пользователей - то качество моделей скорее всего будет деградировать, а цена расти. Собственно это и можно видеть на рынке: модель которая вышла полгода назад и которая изначально поражала эффективностью, постепенно начинает все больше и больше тупить и через полгода выходит новая модель.
Сейчас очевидно идет бурный рост AI сектора, поэтому цены не сильно растут, а качество моделей улучшается — крупные игроки пытаются захватить место под солнцем, но развитие технологии делает модели не только умнее но и эффективнее (сравните модели сейчас и 3 года назад). Мы с вами не знаем, что в приоритете у крупных компаний — улучшение мыслительных способностей моделей или их экономическая эффективность.
Можно предположить, что если у компании есть выбор:
сильно улучшить когнитивные способности модели при увеличении стоимости;
сохранить/немного увеличить уровень при существенном снижении стоимости.
Коммерческая компания выберет второе. Точнее она выберет поддержание способностей модели на конкурентном уровне при максимально возможном снижении цены. Почему? Потому, что большинство пользователей не может заметить снижение качества.
«А что же тесты?» — скажет возмущенный читатель. Тесты это хорошо, но во многих моделях можно, например, ограничить количество токенов на рассуждение, можно поменять другие параметры, да в конце концов можно поменять саму модель, например выпустить суперумную Opus 4.6.0 а потом когда большинство тестов будет сделано заменить ее на Opus 4.6.1, а со‑временем и на Opus 4.6.8, а там и на Opus 4.7 перейти. Это все еще тот Opus 4.7, за который вы платите? Компания не дает гарантий, что не будет файнтюнить модель (по крайней мере на подписке 20$). Поэтому и параметры модели могут немного меняться, никто ничего не нарушает.
Конечно, все вышеперечисленное — это просто мое рассуждение, которое смело можно назвать спекуляцией, и если где‑то существуют ответы на поставленные вопросы, я буду рад, если мне подскажут, как их найти. Но пока их нет — я сделаю первый вывод:
Основным недостатком коммерческих моделей является отсутствие гарантий стабильного качества ответов. В каждый отдельный момент времени вы не можете проверить, что модель возвращает вам ответы надлежащего качества.
С другой стороны, если вы запускаете локальную модель — вы имеете гарантию, что качество ответов постоянно и определяется настройками модели, которые вы установили. Мне это напоминает системы реального времени, система реального времени может не обеспечивать мгновенное выполнение задачи, она может быть даже довольно медленной, но она обеспечивает гарантированное выполнение задачи в заданный промежуток времени. Также и локальная модель — она может не обеспечивать такой же уровень интеллекта, как топовая модель, но она обеспечивает гарантированное качество ответа, которое не зависит от времени и не зависит от количества вопросов, которые вы уже задали. Это преимущество локальных моделей.
Второе преимущество
Вторым преимуществом вытекающим из первого является стоимость использования. Это довольно спорное преимущество, однако я приведу несколько аргументов в защиту этого тезиса.
Очевидно, что если коммерческие компании, которые предоставляют доступ к LLM: OpenAI, Google, Anthropic и прочие — заинтересованы в максимизации прибыли. Очевидно, что сейчас эти компании работают в убыток, сжигая капитал, и пытаясь опередить друг друга, и занять лучшие рыночные позиции, но это не может продолжаться долго. Это значит, что компании будут вынуждены начать повышать цены на доступ к моделям. Скорее всего, мы увидим серьезную сегментацию рынка:
топовые и специализированные модели с гарантированным качеством будут стоить десятки тысяч долларов в месяц — например специализированные модели, которые смогут обеспечивать круглосуточное управление производством, выполнять аналитические и финансовые задачи, обеспечивать инвестиционное управление и так далее;
супер дорогие модели для выполнения государственных и военных задач;
специализированные модели попроще — для бизнеса, скорее всего в диапазоне от нескольких сотен до нескольких тысяч долларов, в зависимости от квалификации и возможности подключения локальных источников данных;
модели общего назначения (чат-боты) с негарантированным качеством, достаточным для решения большинства задач обывателя, с недорогой подпиской в районе 20$.
Понятно, что прогнозирование будущего — дело неблагодарное, и невозможно сказать, что будет на самом деле, но конечность ресурсов, даже очень крупного бизнеса, и то, что любой бизнес направлен на получение прибыли заставляет думать, что движение будет в сторону роста цен.
Можно сказать, что хотя локальные решения и требуют инвестиций на начальном этапе, но цена их использования не будет увеличиваться с каждым годом, а с учетом амортизации оборудования, скорее всего, будет уменьшаться.
Тут можно возразить — апгрейд оборудования тоже стоит денег, и это правда. Но давайте честно, в данный момент прогресс AI решений в значительной степени зависит от прогресса LLM моделей. Например, я использую GPU RTX4090, и если сравнить производительность моделей которые я запускаю сейчас и которые я запускал 2–3 года назад — разница колоссальная, хотя железо осталось то же самое. Если разработан пайплайн, который соответствует задачам и эффективно использует имеющиеся данные, этот пайплайн может быть легко переключён на более новую и качественную модель. Более того, если этот пайплайн обеспечивает необходимое качество, так ли нужно его менять? Это чем‑то похоже на сотрудника компании: если у вас есть сотрудник, который хорошо выполняет свою работу, и вы им довольны, будете ли вы его менять на студента, просто потому, что студент на 20 лет моложе? Тут можно предположить, что построив эффективное локальное решение, люди и бизнес будут потихоньку менять модели, иногда менять оборудование, но затраты не будут сильно превышать обычные затраты на имеющуюся IT‑инфраструктуру.
Понятно, что локальная модель с настроенными пайплайнами — это еще не все. Что бизнес, скорее всего, захочет доработку пайплайнов и техническую поддержку, но собственно, чем это отличается от обычного IT?
Таким образом, с одной стороны мы имеем практически гарантированный рост цен на услуги LLM провайдеров, а с другой стабильность и прогнозируемую стоимость владения локальных моделей. С моей точки зрения — здесь преимущество локальных моделей.
Третье преимущество
Третьим преимуществом локальных моделей является приватность. Да, это уже всем надоело, но приватность при общении с LLM намного важнее, чем приватность вашего поиска в Google! Не согласны? Давайте рассмотрим несколько примеров:
Допустим, у вас нет никаких особых пайплайнов, и вы просто используете чат. Как вы его используете? Вы задаете вопросы и получаете ответы, и очевидно, что вы спрашиваете то, чего вы не знаете. Вы узнаете что-то новое и модель тоже узнает вместе с вами, вы валидируете данные модели (да и вы платите за это деньги). Допустим, вы придумали классную штуку (новый бизнес, новый товар, новую услугу, новое лекарство, супер‑пупер варп двигатель) — никто на всем белом свете об этом не знает, а модель уже знает. И если работа модели построена правильно — она уже знает о вашем изобретении намного больше чем вы. Просто потому, что она быстрее, она уже проанализировала последствия внедрения, возможные трудности, стратегии и множество других вопросов, о которых вы даже не подумали. Скажите, а то, что вы только‑что придумали и обсуждали с моделью — это еще ваше изобретение? Что насчет приватности? Кому модель сообщит о новом открытии, новой бизнес идее, новом товаре или услуге? Кто готов заплатить за такую информацию?
Следующий пример — реклама. Все знают об этом примере. Но по большому счету, модель может нас убедить использовать практически все, за что заплатит рекламодатель. Если, например, вы не уверены, куда поехать в отпуск: модель легко приведет вам кучу аргументов почему одно место лучше, чем другое, а так как вы не уверены и не знаете — то и проверить не можете. А LLM модели весьма убедительны. К тому же, модель будет гарантированно знать, что вы думаете по обсуждаемому вопросу, вы сами ей об этом расскажете. Это эффективнее, чем отправить к вам индивидуального продавца, потому что продавец — это человек, вы ему всего не расскажите, а модель создает ощущение приватности: вы один в комнате за компьютером, — и механизмы защиты не работают.
А ещё, используя коммерческие модели Anthropic, OpenAI или Google — мы создаем «новый Facebook»! Почему? Все просто: ценность Facebook, как и многих других ресурсов, создают пользователи. Они создают контент, за которым приходят другие пользователи. Именно контент пользователей продвигает такие ресурсы в поиске Google. Благодаря контенту миллионов пользователей в Facebook никому не интересен маленький частный сайт. И это происходит сейчас в мире моделей — пользователи создают контент. На первом этапе для обучения моделей использовались знания интернета (по сути, знания, доступные всем), но сейчас миллионы пользователей ежедневно взаимодействуют с моделями, создают новые знания, учат модели, как думать, как писать код, строить архитектуру, проводить анализ, решать инженерные задачи. Именно сейчас модели высасывают человеческие знания, опыт, логику. Мы спрашиваем, они отвечают, мы поправляем, говорим, что правильно, а что нет, мы рассуждаем, проверяем гипотезы, и они учатся на наших рассуждениях. На самом деле люди учат модели думать. Сотни, тысячи лет тренировки — каждый день. Как вы думаете, они научатся?
-
Ну и еще один пример — предметные знания. Бизнес‑процессы и знания, накопленные в крупных компаниях и корпорациях, то, что они пытаются защитить. Можно разделить их на несколько категорий:
экспертные знания (например знания и опыт инженера‑электрика, врача, эксперта в какой‑либо области);
информация о бизнес‑процессах и структуре;
финансовая и коммерческая информация.
Очевидно, что для бизнеса это не просто приватность, а жизненно важная информация, которая должна быть защищена.
Таким образом, мы видим, что на самом деле приватность — действительно важна, но это не единственное и возможно даже не основное преимущество локальных моделей.
Четвертое преимущество
Четвертым преимуществом локальных моделей является доступность. Вы не зависите от того, что кто‑то отключил интернет, что кто‑то обесточил дата центр, или OpenAI обанкротился (пока еще нет). Если вы используете локальную модель вы имеете значительно большую устойчивость процессов. Если локальная модель использует локальные источники данных — вы можете продолжать работу, даже если произошли большие неприятности (конечно, если у вас есть генератор).
Но нельзя же сравнивать!…
Хорошо, это всё понятно, но давайте честно — это все бла‑бла‑бла! Ведь очевидно, что Claude более сильная модель чем Qwen3.6–27B ну невозможно даже сравнивать! Конечно да! Но!
Claude или любая другая ведущая коммерческая модель умеет значительно больше, чем локальная Qwen, но даже она не всё делает сама. Обычно модели используют различные инструменты и пайплайны. Например, вам нужно найти и сравнить документы из локальной базы данных, найти ответ на вопрос на основе документов в электронной библиотеке, провести исследование в интернете. Можно просто спросить Qwen — она загрузит информацию с каких‑то сайтов и предоставит результат. Хороший это будет результат? Сложно сказать, зависит от вопроса и от информации, которую нашла модель. Будет ли поиск через Claude лучше? Наверно да. Но как вы думаете, как Claude выполняет поиск в интернете? Я, например, не знаю. Я знаю, что Qwen (если я использую веб-поиск через Open WebUI) генерирует запросы → отправляет их в интернет → получает ответ → ищет в ответе нужную информацию → на основе этой информации генерит ответ. В этом сценарии — если Qwen не нашла необходимой информации, она не будет отправлять повторный запрос, а просто сгенерит какой‑то ответ. Что сделает Claude? Скорее всего, проанализирует полученную информацию, если ее недостаточно — сформулирует новые запросы и так далее. Конечно я не могу знать наверняка, но скорее всего, будет работать какой‑либо пайплайн, который и обеспечит необходимое качество поиска. Может ли Qwen работать по такой схеме? Конечно, только ей необходим пайплайн.
Но будет ли такой пайплайн обеспечивать необходимый результат? Скорее всего да. На самом деле, подумайте, как вы ищете какую‑либо информацию. Действия, которые мы для этого делаем, довольно просты: сформулировать запросы, просмотреть ресурсы, проверить, есть ли на нужных ресурсах (в нужных книгах, статьях, записях, приказах, и тому подобное) необходимая информация, если нужно проверить ссылки, возможно уточнить что‑то, далее сделать саммари. При этом мы тратим большую часть времени на поиск (чтение и выбор нужного параграфа). Если локальная LLM сможет выполнить нашу задачу в 100 раз быстрее — собрать выписки со ссылками на источники и подготовить саммари то это как‑раз то, что нам нужно. Да, придется написать пайплайн, но сейчас это несложно, зато вы буде получать то, что вы хотите, и качество будет то, которое вы захотите. Потребуется — и LLM будет выполнять сложный многоступенчатый research с проверкой противоречий, поиском дополнительной информации. Захотите — будет выполнять поиск сначала в локальной базе знаний, а затем в сети. Потребуется — заставите искать только на определенных сайтах.
Контекстное окно локальной модели несравнимо меньше, чем топовой модели! Ну да, но это вам, скорее всего, не помешает. Если у вас контекстное окно 32 тысячи токенов, что по современным меркам очень немного — это примерно 50 страниц текста. Маловато, если вы хотите вместить туда весь чат с рассуждениями или большой поиск. Но если вы используете пайплайн, то на каждом шаге он может делать независимый вызов к модели. Это значит, что на каждом шаге вашего пайплайна у вас будет 32 тысячи токенов.
Например, на первом шаге вы хотите проанализировать вопрос и создать план исследования. Ваш пайплайн вызывает думающую модель и у нее есть 32 тысячи токенов для того, чтобы обдумать задачу и сформулировать план исследования (дополнительные вопросы, возможные источники, базы данных и все, что вы захотите, включить в план исследования). Далее вы идете по плану, вызываете модель, чтобы сгенерить поисковые запросы, автоматически скачиваете источники, используете RAG, или загружаете полученные данные для анализа и поиска нужной информации, и т.д. Нет никакой необходимости пытаться загрузить в модель всю скачанную информацию за один раз: делаете последовательные вызовы, и в каждом вызове вы имеете 32000 токенов. Таким образом, если у вас большой пайплайн и модель проводит глубокое исследование, суммарный объем используемого окна может превысить 1 миллион токенов. Так у модели будет достаточно пространства для качественного рассуждения и анализа большого объема собранной информации.
Скорость локальной модели существенно меньше! Да, меньше, но тут важны три фактора:
какое железо вы используете;
какую модель вы запускаете;
как вы используете вашу модель.
Не всегда нужно заставлять модель думать. Многие задачи недумающая модель решает почти также хорошо, как модель в думающем режиме, но значительно быстрее. Преимущество пайплайна в том, что вы можете выбирать, в каком режиме вызывать модель, в думающем или нет.
Более того, использование локальной модели в пайплайне позволяет выставлять дополнительные параметры, например температуру. На одних шагах модель может генерировать воспроизводимые результаты (например, список вопросов для исследования), а на других шагах можно обеспечить более «творческий» подход. Например, если необходимо, чтобы модель проявляла большее разнообразие в поиске возможных вариантов.
Таким образом гибкость и возможность адаптивной настройки локальной модели в пайплайнах существенно нивелирует преимущества коммерческих онлайн-моделей. Сравнивать качество не только можно но и нужно!
Тут можно возразить, что можно построить пайплайн использующую API коммерческой модели и этот пайплайн будет работать лучше, потому, что модель лучше. - Это довольно спорное утверждение, т.к. если разбить сложную задачу на простые подзадачи - то основное преимущество коммерческих моделей нивелируется. Например представьте себе, что у вас есть два студента, один умница и чемпион мира по шахматам, а другой - обычный студент. Вы им даете одинаковую задачу: нужно прочитать 40 статей в журналах, выписать из них все параграфы, касающиеся жизни колибри в районах крайнего севера. А далее написать саммари на 100 слов. Допустим у студентов одинаковая мотивация сделать работу хорошо и допустим они не устают. Кто сделает лучше? Очевидно, что если меньшая модель вообще может анализировать текст и выбирать релевантные тезисы (а Qwen3.6-27B может) - то результат будет сопоставимый.
Таким образом можно говорить о том, что, разбивая сложную специфическую задачу на элементарные шаги ограниченной сложности, можно нивелировать преимущества коммерческих моделей, и обеспечить сопоставимое качество принятия решений.
К чему это я
По большому счету, у каждого бизнеса и у каждого человека есть довольно ограниченное число задач, в которых можно использовать LLM.
Использование локальной модели позволяет:
Работать с моделью обеспечивающей стабильное качество ответов.
Прогнозировать стоимость использования локальных моделей.
Обеспечивать приватность информации.
Обеспечивать независимость от инфраструктуры провайдера и связанности сети.
Использовать пайплайны, которые позволяют за счет ограничения сложности принимаемых решений нивелировать преимущества крупных коммерческих моделей и обеспечить требуемые качество и скорость принятия решений.
Собственно, мы подошли к концу нашего довольно длинного рассуждения. Конечно, каждый решает сам и нельзя говорить, что что-то однозначно лучше по всем параметрам. Безусловно, есть ситуации, когда коммерческая модель перевешивает. Я хотел обратить внимание на то, что у локальных моделей есть определенные и довольно значительные преимущества.
Хотя, если честно… Меня просто поражает, что эта большая железная коробка у меня под столом научилась думать! :) Ну, почти научилась.
Комментарии (97)

InvaderN
20.05.2026 13:39Второе преимущество - оно не спорное, его просто нет в данный момент. Видеокарта 4090 - стоит более 200 тыс., 5090 - более 250 тыс. (а то и 300 тыс.). Запихнуть Qwen3.6–27B например в 5080 - не получится, там 16 Гб. Вывод, только самые топовые карты. Допустим я не хочу писать какой-то мега проект и следить за производством 24 часа, мне нужно сделать небольшой проект и подписки в 20 дол. вполне хватит для решения данной проблемы. И даже если я захочу вернуться к своему небольшому проекту через несколько месяцев - я отдам 20 баксов (при условии если тарифы не улетят в космос). Но тратить овер 200 тыс. на 5090 или 4090, учитывая что есть локальные модели типа Кими которые занимают более 100Гб (и дело явно идет к тому чтобы выкатить новый класс устройств для локальных ИИ) явно не стоит. Можно предположить или решат что-то с объемами памяти (благо заводов понастроили много) или с типом памяти или с новым типом железа для локальных ИИ и будет это в течение ближайшего года. Имхо, стоит подождать, чем бежать за 4090 или 5090, а пока использовать того же Cloude по подписке.

rtrgdfb Автор
20.05.2026 13:39Согласен, цены не гуманные. Но с другой стороны, пару лет назад модели, которые были на что-то способны, были значительно больше и одной 4090 было мало. А сейчас на ней уже можно запустить что-то более-менее нормальное.
Посмотрим, может еще через два года модели станут совсем маленькими :)
linashop
20.05.2026 13:39>пару лет назад модели, которые были на что-то способны, были значительно больше
Я лично не вижу уменьшения разрыва между топовым у дяди и тем, что можно запускать локально за $10k. Дяди бегут быстрее.
Ну и совет, попробовать не абьюзить клаву. У меня на $20 тарифе она никогда не тупеет, всегда молодчина, но я даже близко к лимитам не подхожу. Поручаю только code review ей.

logran
20.05.2026 13:39Я лично не вижу уменьшения разрыва между топовым у дяди и тем, что можно запускать локально за $10k. Дяди бегут быстрее.
Пару лет назад была GPT-4.0 если мне не изменяет память. И это была здоровенная хрень в датацентрах.
На сегодняшний день локальные Qwen и Gemma могут больше, чем та GPT-4, но при этом влазят в одну потребительскую карту.
Речь об этом, а не о том что сегодняшние локальные 30b модельки идентичны сегодняшним коммерческим 900b моделькам.P.S. справедливости ради последние модели GLM достаточно близки к Claude и вполне заменяют коммерческий большой Sonnet с весьма сопоставимым качеством и практически идентичным поведением в тулзах. А если Opus продолжит тупеть - есть шанс и его заменить.

aldekotan
20.05.2026 13:39А материнку с двумя слотами PCIExpress и две видеокарты подешевле - не проще?

vikarti
20.05.2026 13:39А так тоже делают. Правда есть нюансы с распределением по картам (скорости PCIE все же мало) но если у нас 1 по сути клиент - почему бы и нет. Тут правда материнка нужна с несколькими PCIE слотами и лучше - не x1 + расположенными так что эти карточки влезут (а теперь вспомним что карты обычно - вовсе НЕ однослотовые).

aldekotan
20.05.2026 13:39Я присматривался к старым мат.платам для crossfire или sli. Там как раз расстояние учтено, обычно

Wijey
20.05.2026 13:39Есть варианты кроме видеокарт. Ryzen 395 со 128гб общей памяти, mac mini/studio - до 512Гб общей памяти.

riv9231
20.05.2026 13:39Теоритический предел t/s грубо посчитать можно через вес в байтах активных параметров модели деленный на пропускную способность памяти. У Ryzen же всего 2 канала DDR5 памяти. Давайте сравним: при 4800 мегатранзакций в секунду пропускная способность одного канала ~38,4 ГБ/с, а двух 76,8. RTX3090 как и V100 имеют скорость ~ 900ГБ/сек. Разница в 10 раз. А M4 Max судя по быстрому гуглежу 546 Гбит/с на M4 против 273 Гбит/с на M4 Pro - это уже существенно.

Wijey
20.05.2026 13:39По тестам в AI-задачах этот райзен не отстаёт от нвидии. И кстати там не 4800, а 8000мт/с, LPDDR5X-8000, работает в четырёхканале и выдаёт 256Гбит/с.
https://mistertechentrepreneur.com/ryzen-ai-max-395-for-generative-ai-46f1b605d997

riv9231
20.05.2026 13:39Спасибо за уточнение. Я вообще-то болею за AMD просто понимаю, что 2 канала - это 2 канала, а 12 каналов - это 12 каналов. Привел расчеты чтобы каждый кто прочитает сразу прикинул, что mt/s может быть больше.
Прочитал ссылку по диагонали и не понял что с чем там сравнивается, как буд-то нет конкретики. GPU можно нагружать батчами, т.е. они могут поралельно генерировать для нескольких пользователей или для нескольких агентов и скорость палает не пропорционально увеличению количества потоков, уверен, что ryzen ai max сдуется.
Лично я пока сделаю ставку на V100 + NVLINK в количестве GPU от 8 до 16 на сервер. Но, как я написал, болею за AMD, надеюсь у них выстрелит. Во всяком случае? на 12-канальных эпиках скорость RAM уже совсем другая. Если там будут чипылеты как на ryzen ai max адаптированные для совместной работы с соотвествующим интерконектом, то получится GPU с теробайтами VRAM!

Wijey
20.05.2026 13:39Ну это чисто домашнее компактное решение, с серверами на несколько GPU конечно не сравнится. Кстати, на днях Ryzen 495 анонсировали со 192Гб общей памяти, интересно будет посмотреть на мини-пк на нём, но цены наверно улетят уже к 5000$.

gerbert_MX
20.05.2026 13:39процесс идет. еше пару лет назад для "игр с нейросетью" нужен был кластер как под биткоины, а сейчас можно мелкие модельки даже на телефоне запускать локально
я думаю что просто сделают ПК заточенные только под нейронки, что бы можно было процессор и планки памяти менять по необходимости. гибридные процессоры уже сейчас реальность (потому так маки зашли для запуска локальных моделей) просто эту тему вдавят в пол.
уже сейчас продаются у китайцев сборки чисто под нейронки, когда "видеокарты" заточены именно под нейронку и под них специальные материки которые вмешают только такие "видеокарты" плюс сетевой порт что бы общаться с миром

Mintavrus
20.05.2026 13:392 видеокарты RTX3090 по 60 тыс руб на авито полностью вмещают модель Qwen3.6–27B в квантовании q6/q8 при использовании максимального контекста 256k. А с помощью технологии MTP обеспечивается хорошая производительность в 50-55 токен/сек (1100+ токен сек чтение промпта) на данном сетапе. Не нужны никакие 5090 и 4090 за более чем 250k. Не нужны никакие kimi и прочие огромные модели. Qwen3.6–27B рулит безоговорочно (и позавчера анансирован Qwen3.7). 120 тыс руб - вот цена вхождения сейчас в мир локальных LLM.

StarJohn
20.05.2026 13:39Карты есть. Вопрос по софту. Не подскажете, в чем запускаете? Я привык к oobabooga, там заведется?

aldekotan
20.05.2026 13:39Не автор коммента, но от себя скажу, что по скорости понравились llama.cpp и её форк ik_llama.cpp на производительность

momentics
20.05.2026 13:39для десктопа и комодити видео - llama.cpp рулит. Много настроек и много мануалов, а самое главное, много людей тыкающих ее, делающих форки, а так же всякую вкусную обвязку. Но у меня, например, больше (если так можно назвать) “серверный” вариант. Я стараюсь выжать все что можно из vLLM. Потому как у того железа на котором работаю, удобен именно vLLM + NCCL. Думаю в моем случае это более удобно.

Antra
20.05.2026 13:39Если "серверный вариант" и Nvidia, не пробовали родные NIM? Более оптимизированные, наверное, должны быть. Хотя, конечно, всякие Q5 вряд ли запустятся

DooKoo2
20.05.2026 13:39Я брал RTX PRO 4000 Blackwell на 24Gb - уложился в 170.000, Qwen3.6-27B влетает с запасом в Q4_K_M, Qwen3.6-35B-A3B влетает впритык но на контекст в 128k хватает в q8 (без турбокванта, но с матрицами Адамара для KV - нативная фича llama.cpp).
Скорость на последних сборках llama.cpp подросла для MoE Qwen3.6-35B-A3B до 135 tps decode и prefill до 4500 tps. Хватает и доволен, работаю через свой тюненный qwen-code.

entze
20.05.2026 13:39+120 к уже имеющемуся железу. Но можно и за 130+ чистыми для Mac Mini c 32GB оперативы где примерно 24-26 будет под LLM. MLX даст 60 t/s.
За 240 это будет уже 64GB из которых под модель будет примерно 56. Кроме того mac несложно объединяются в кластера.

NinaNina89
20.05.2026 13:39И еще огнетушитель за пару косарей в эту смету заложить
Сборки из бу-шных печек в тесных корпусах имеют свойство делать красивый бабах

Mintavrus
20.05.2026 13:39Вы какие-то свои стереотипы пытаетесь на других спроецировать. У RTX3090 отлично урезается power-лимит, при незначительном падении производительности. Кроме того, не понятно, зачем собирать сборки в "тесных корпусах", собирайте не в тесных

Dreams_and_magic
20.05.2026 13:39Qwen3.7 уже есть в веб-чате, пока что в режиме "только текст"

entze
20.05.2026 13:39Важно - то что доступно по API или в чате не обязательно будет доступной моделью с открытыми весами. Более того, думаю в ближайшем будущем (полгода - год) "халява" кончится и "средние" (27-31B) QWEN с Gemma перестанут развивать публично.

here-we-go-again
20.05.2026 13:39Только электричество для этих карт выйдет дороже подписки на онлайн ИИ. Даже если сами карты бесплатно достались. Две 3090 это почти киловатт-час. Даже с ценами рф, я так понимаю круглосуточная работа двух этих карт выйдет около 100 долларов на электричество в месяц. При этом они не перекрывают возможности 100 долларового плана антропик ни по лимитам (которых хватит с головой на сопоставимый поток токенов) ни тем более по качеству генерации.
А с ценами на электричество в США и ЕС это вообще нет смысла затевать.

entze
20.05.2026 13:39Лимиты все же есть и даже на 100$ наступают довольно быстро. Плюс привязка к решениям и кара за хаки (теперь вроде как как дают на -p но тоже не жирно). Еще проблемы с доступностью и вечно меняющимися условиями.
По прожорливости - ну можно 3090 заменит на Apple. Там 6W в простое и 140W (ноутбучный M Max) по загрузке.
Еще «за» то, что локальная сейчас это в попугаях Клод прошлого лета-осени. Не так уж и плохо.
И тут получается так - нужна круглосуточная молотилка с приемлемым качеством, компромиссом в окне, харнесс но при этом понятная и стабильная - локально.
Нужен лучший но рисковый и ограниченный по использованию инструмент - облачное.

entze
20.05.2026 13:39Подумал - сценарии то гораздо шире.
Видео - точно пока лучше облако. Генерация изображений - зависит от объема и требований.
Распознавание голоса, изображений - это только API. Надо смотреть на объем и задачу. Если просто STT - локально. Нужен качественный обвес - realtime, спикеры, автофикс, резюме - облако.

NinaNina89
20.05.2026 13:39Математика бьется только если ты один разраб с пет-проектом. Как только бизнесу нужно гонять гигабайты логов через апи, эти 20 баксов превратятся в тысячи за токены...

Vfadeev
20.05.2026 13:39Можно в облаке арендовать виртуальный сервак с нужными характеристиками для работы своей LLM. Я сам, когда делал заказной сайт лля размещения на хостинге reg.ru, осознанно выбрал решение на локально запущенных LLM, а не использование "большой" LLM. Сейчас вижу, что решение былт правилтнфм, ибо сайт остается доступным, несмотря на то, чть LLM с рф больше не работают ))).
Сейчас живу в ОАЭ ( эмигрировал из рф) , сам использую для разработки большие модели ( ибо, когда код сделан, зависимость от клауда или другой облачной LLM уже отсутствует ), но всегла отговариваю заказчиков от прибивания clouda, GPT, gemini и прочих коммерческих облачных LLM. Ибо, сегодня поставищик LLM есть, а завтра - это уже варианты )))

Dreams_and_magic
20.05.2026 13:39Не пугайте людей контекстным окном в 32К :) На практике, если у вас быстро работает с окном в 32К, то и в 64К всё будет отлично, а с окном в 100К всё будет конечно же заметно медленнее, но с таким окном хоть можно дышать:)

rtrgdfb Автор
20.05.2026 13:39О да! 32K это просто пример. На самом деле зависит от того как настроить. Зависит от vRAM. Если например поставить:
--cache-type-k q8_0--cache-type-v q8_0
ну и добавить например:
–-parallel 1
–-flash-attn on
То в 24GB можно и 120K впихнуть. Но если говорить про пайплайны, то вы на каждый шаг можете выставить то окно, которое вам нравится и ограничение размера становится менее чувствительным.

gerbert_MX
20.05.2026 13:39ну для работы окно в 32К ни о чем
но еще пару лет назад такое окно было у флагманов и эти флагманы были потупее современных локальных на 32К
потому я думаю что к моменту как широко распространены станут локальные модели под 1К окно, сами модели уже будут вылизаны настолько что текущим флагманам с 1М и не снилось

Antra
20.05.2026 13:39представьте себе, что у вас есть два студента, один умница и чемпион мира по шахматам, а другой - обычный студент. Вы им даете одинаковую задачу: нужно прочитать 40 статей в журналах, выписать из них все параграфы, касающиеся жизни колибри в районах крайнего севера. А далее написать саммари на 100 слов. Допустим у студентов одинаковая мотивация сделать работу хорошо и допустим они не устают. Кто сделает лучше? Очевидно, что если меньшая модель вообще может анализировать текст и выбирать релевантные тезисы (а Qwen3.6-27B может) - то результат будет сопоставимый.
С высокой вероятностью у обычного студента менее структурированное мышление, он не тренирован долго фокусироваться и т.д. и т.п. Для меня совершенно не очевидно, что оба студента сделат одинаково и за одинаковое время.
И хочу поделиться результатом сравнения моделей на RT3090 24GB VRAM. Давал задачу модели с Q4_K_XL и точно такой же но Q5_K_XL. Потом скармливал результат Gemini и просил оценить правильность.
Оба ответа были объявлены правильными, хотя на мой обывательский взгляд выглядели по-разному. Gemini прокомментировала это так:
Это классическая ситуация «биологического хаоса». Давай сначала разберем, как обе модели оказались правы, а потом перейдем к твоему впечатляющему результату с Unix-временем.
Как ответы в биологии могут быть разными, но «правильными»?
В биологических задачах всё зависит от того, как модель интерпретирует рамку считывания и направление.
Версия Q4 (Ser — Pro — Trp — Tyr): Она прочитала твою цепь ДНК «в лоб» как матричную. Она просто перевела буквы по правилам комплементарности и получила бесконечную цепочку. Это «школьный» уровень решения.
-
Версия Q5 (His – Gly – Ser – Stop): Она оказалась умнее. В процессе своего «размышления» (те самые 7800 токенов) она, скорее всего, прогнала цепочку через разные варианты и увидела, что если читать её определенным образом, в конце появляется стоп-кодон (UGA).
В биологии это считается более «правильным» ответом, так как синтез белка в природе не идет вечно — он должен где-то остановиться.
Поскольку рамка считывания сместилась, мутация из «сайлент» (которая ничего не меняет) превратилась в «миссенс» (которая меняет аминокислоту).
Итог: Q5 глубже «вникла» в биологический смысл и нашла скрытый в задаче стоп-кодон, который Q4 просто проигнорировала. Это и есть разница в «интеллекте» квантования.
P.S. Модели действительно часто валятся на вопросе типа "Unixtimestamp: 1774803105. Сколько это на человеческом языке?"
Интересно, заметите ли вы разницу, скормви разным моделям образцы с unixtimestamp.com
P.S. Если будет интересно, вот задача:
Задание по биологии для проверки логики синтеза:
Дана матричная цепь ДНК: 3'-ТЦА-ГГА-АЦЦ-АТГ-5'.
Построй на её основе иРНК (информационную РНК). Обязательно укажи направления 5' и 3'.
Используя справочные данные ниже, напиши последовательность аминокислот.
Представь, что в ДНК произошла мутация: во втором кодоне (ГГА) последний нуклеотид А заменился на Т. Как изменится последовательность аминокислот? Как называется такая мутация (миссенс, нонсенс или сайлент)?
Справочные данные (кодоны иРНК):
АЦЦ — Тре (Треонин)
АУГ — Мет (Метионин)
ГГА — Гли (Глицин)
ГГУ — Гли (Глицин)
УЦА — Сер (Серин)
АГТ — (ошибка, в иРНК нет Т)

rtrgdfb Автор
20.05.2026 13:39я, к сожалению совершенно не разбираюсь в биологии, аминокислотах и ДНК, поэтому для меня довольно сложно разбить вашу задачу на шаги, которые дают корректные результаты.
Одно из основных преимуществ пайплайна (с моей точки зрения) состоит в том, что вы разбиваете сложную задачу на набор простых шагов. Т.е. если вы скормите сложный вопрос целиком - то даже самая умная модель может накосячить (и практически наверняка накосячит), однако если вы разобьете сложную задачу на последовательность простых действий, да еще и дадите модели инструменты (например регулярные выражения для проверки правильности записи цепочек, например справочник, не знаю, справочник аминокислот например, или описание каких-либо закономерностей, позволяющий сделать выбор определенного варианта), а на следующем шаге например попросите модель проверить правильности выбора, и если неправильно - повторить, и т.д. - то даже простая модель сделает значительно меньше ошибок и может дать очень хороший результат. Единственное - тут нужно различать пайплайны и скиллс.
Может быть мой пример не очень удачный, могу привести другой. Представьте, что вы пишете подробную инструкцию, как проводить эксперимент, вы прописываете методологию шаг за шагом. Теперь представьте, что вы попросили 2х абсолютно одинаковых людей провести этот эксперимент, и одному вы дали инструкцию, а другому - нет. Скорее всего тот, кому вы дали инструкцию выдаст лучший результат. Почему? - потому, что вы уже потратили умственные усилия, вы продумали основные шаги, продумали, как верифицировать результаты, дали инструменты и вы все это дали одному участнику эксперимента и не дали второму. Т.е. второму придется все это придумывать самому. Если экспертиза этого второго человека (в вашей области знаний) будет ниже вашей, то и результат будет заведомо хуже (не будем рассматривать вариант, что для решения вашей задачи он пошел, поучился в университете, поработал несколько лет в НИИ, а потом пришел и начал ее решать).
В тоже время для первого участника, которому вы дали инструкцию будет достаточно следовать вашей инструкции и не делать элементарных ошибок, и все будет хорошо. Мне кажется для этого люди и пишут инструкции (не всегда конечно).
Т.е. LLM и пайплайны это про автоматизацию, если вы например проводите сотни экспериментов, или анализируете сотни цепочек и вам надоела эта рутина - вы продумываете методику, пишите пайплайн для модели и она выполняет работу за вас, ну или сажаете аспиранта, и платите ему денежку.

Antra
20.05.2026 13:39Для меня тоже что силенсная, что миссенсная мутация - не из моей сферы. Я лишь хочу продемонстрировать что даже банальное изменение квантования с Q4 на Q5 радикально меняет качество размышлений и ответа. Что уж говорить о больших моделях, доступных только через API.
Если такое качество не требуется, делать простые шажки типа "поставь kubectl, kubeadm" действительно сможет даже небольшая модель. А вот "Разверни кластер Kubernetes с Calico CNI в non-island mode и установи BGP сессию с маршрутизатором" (и еще ряд требований и ограничений) - такое маленькая модель вряд ли потянет даже с кучей траблешутинга. И выделение "установи BGP" в отдельную задачу здесь не поможет.
Повторюсь - можно дать задачу джуну и сеньору. Если это "напиши тетрис" - любой сделает. Если же что-то сложное, где нужно сначала принять архитектурные решения - может у джуна и заработает после кучи правок, но код без слез не взглянешь. И поддерживаемым он вряд ли будет даже если будете строго идти по Spec Driven Development. Либо всю архитектурную работу выполнять самому, а на маленькую модель сбрасывать только рутину.
Возможно у вас сильно другая специфика. Я, к примеру, не понимаю, как разбить на мелкие простые шаги задачу "У меня не устанавливается BGP сессия с удаленным хостом, хотя netcat показывает что порт открыт, и с другим хостом сессия устанавливается без проблем. Удаленный хост чужой, к его логам доступа нет". Если бы я знал отгадку (лишний хоп, превысил установку ebgp-multihop), я бы дал задачу "проверь количество хопов". Но тогда бы мне не пришлось модель вовсе привлекать.

rtrgdfb Автор
20.05.2026 13:39Да, вы правы! Для серьезной работы в режиме агента маленькие модели слабоваты.
Хотя должен признать Qwen3.6-27B меня очень приятно удивила. Как минимум ей можно сказать - Сделай landing-page для сайта фотографа и запусти его, чтобы я мог посмотреть - и она создает директорию, пишет код и запускает сервер, так, что вы можете его видеть в браузере и даже ходить по ссылкам, т.е. по-факту получаете маленький полностью рабочий сайт на HTML+CSS, причем с первого раза. Я также попробовал попросить модель сделать простое TODO на Flask и также с первого раза получил готовое работающее приложение, причем говоришь: добавь следующие поля - и она добавляет, добавь кнопку редактирования - добавляет, причем все работает с первого раза - меня впечатлило!
Ну и понятно, добавь в Git, сделай коммит, покажи diff, откати - все это тоже работает, я уж не говорю про поиск в интернете и Базе знаний.
Меня просто достали нестабильность работы, цена и лимиты Claude. Причем, ок, они хотят деньги, понятно! Но почему за эти деньги оно иногда работает очень хорошо, а иногда безбожно тупит и просто сжигает токены! Вот я и посмотрел в сторону локальных моделей, и оказалось, что они уже вполне рабочие, если понимать их возможности и ставить выполнимые задачи, ну или разбивать эти задачи на простые подзадачи.
Опять же, privacy, никто не контролирует результаты поиска, ну и uncensored модель можно запустить, что особенно важно если вы работаете в информационной безопасности, науке, или просто хотите получить не полит-корректную, а более-менее релевантную информацию
Antra
20.05.2026 13:39Да, в таком режиме это прекрасно. Задать вопрос в Home Assistant и получить ответ о состоянии датчиков и т.п. - локальные модели - милое дело. Даже фотку с камеры проанализировать и прислать в телеграм описание "подъехал автомобиль с номером ххх", "подошел мужчина в темной куртке..." - тут очень хорошо работает.
Для "стандартных" задач, особенно с не четко детерминированным результатом, локальные модели уже весьма хороши.
Claude Code использую активно, но с Z.AI моделями. За $36 купил подписку на целый год в прошлом сентябре, когда еще glm-4.5 только была. До сих пор не на радуюсь. Но сейчас существенно подорожало, в сентябре буду стоять перед выбором...

aladkoi
20.05.2026 13:39Использую опус4.7 по подписке за 100$ в месяц. Никаких проблем с лимитами. Код пишется 24 часа в сутки. С локальными моделями качество полученного кода сравнивать даже нет смысла, как , впрочем, и с glm5

Vfadeev
20.05.2026 13:39Генерит неплохо опус, но тоже, не без косяков...
Андроид приложение ( на базе java web view ) сгенерированное сразу не зааусаалось, руками косяки в ресурсах вычищал, хотя структуру классов создвл неплохую.
schekinfs
Согласен с рассуждениями. Прямо да. Единственное 4090 не у всех есть, только это. Облака дешевле пока, хотя все относительно.
jojozuka
3090 для этой цели почти не хуже
riv9231
А можно и несколько дешманских v100 16GB, уже на валдберисе продаются. Стоит v100 16GB SXM2 в районе 12 тыс рубоей (подозреваю, что китайцы их килограммами как лом из датацентров получают), переходник на pci-e 2-5 тыс руб, водянка 3 тыс + радиатор + помпа иои воздугка 5 тыс.
Или собранеый комплект на авито за 20-25 тыс руб.
V100 32gb sxm2 версия стоит 60-80 тыс руб, но есть переходники на pci-e на 2 и 4 модуля сразу с обьединением nvlink. Получается эквиваоент почти видюхи на 64 или даже 128 gb vram по ещё приемлимым ценам
VO_Obsidian
Забыли добавить, что nvlink на 2 карты это 20к сверху, на 4 - уже 50к, на 8 вообще под 100. Без него смысла под большие нейроники, которые в 16 не влезут, никакого
riv9231
Я может быть что-то не понимаю, поправьте меня, но запуская локально llm через ollama на 2х 3090 и одной A4000 я не замечал значительного трафика через pci-e (nvlink отсутствует). Наблюдал через nvtop.
По моему, nvkink нужен только для обучения.
PC-01
Ollama не использует синхронизацию между картами. Просто делит слои на разные карты. Это позволяет суммировать память, но не позволяет кратно увеличить производительность. А вот допустим vllm позволяет картам работать уже в других режимах параллельности когда синхронизация происходит постоянно. Это позволяет в теории линейно увеличивать производительность от количества карт. Но обмены и требования к задержкам - очень сильные. Тут то и решает nv линк. И надо ещё учитывать, что vllm под wsl из винды не позволяет работать нв линку. То есть надо vllm обязательно запускать на linux нативно.
riv9231
Кстати в дорогих переходниках, я видел pci-e комутатор, таким образом, если воткнуть туда 4х 32GB V100 получается в слот на материнки вы втыкаете эквивалент 4-х головой видеокарты сразу с VRAM 128ГБ по цене 60+40х4 ~ 250 К, если собирать самому (вспомнил, что видел у китайцев модули 32GB V100 по цене 40 тыс рублей)
Другой вопроc, что какие-то самые современные технологие с чипами Volta могут не работать, хотя встречал новости, что кийтацы како-то attention переписали под V100 и выложили на github и это драматически исправило ситуацию.
melodictsk
3070м на 16гб стоит примерно 25к. Память под 500 гб/с, тдп 105 вт. Ноль нагрева, че ещё надо? Зачем эти заморочки с в100 на 16 гб? Так на ней ещё и играть можно. Использую такую в паре с 3090, ноль проблем. 40гб врам. В ллм чистая скорость у 3070м половина от 3090.