Интро
Когда возникают мысли про бесплатное использование агентов для написания кода, появляются два варианта: поискать бесплатные сервисы и использовать локальные модели. В прошлой статье мы рассмотрели возможности бесплатного использования облачных моделей. В этой же статье мы посмотрим, можно ли использовать локальные модели для написания кода с помощью тех же агентов.

Ограничения у облачных моделей
У всех облачных моделей есть ряд ограничений. Рассмотрим основные из них.
Лимиты (часовые, суточные и недельные). Когда квоты заканчиваются, вы не можете пользоваться моделью до начала нового периода с новыми квотами. Решения тут могут быть только такими: использовать другого провайдера или перейти на более дорогой тарифный план с большими квотами.
Приватность. Всё, с чем работает ваш агент (код, промпты, файлы), передаётся на удалённые серверы провайдера LLM, который предоставляет вам модель. Моделям нужны ваши данные для анализа и подготовки ответов — по‑другому практически никак.
Но есть альтернатива: развернуть модель локально и не передавать данные никуда.
SLA и сетевая задержка. Как и любые другие сервисы, облачные модели требуют времени на передачу данных по сети и не всегда могут быть доступны.
Локальные модели: компромисс качества и ресурсов
Локальные модели и ресурсы
Сразу становится понятно, что за приватность придётся платить качеством модели. На серверах работают огромные модели, которым нужно много ресурсов. Критически важные из них — это оперативная память (RAM) и видеопамять (VRAM). Локально у нас нет столько ресурсов, и приходится балансировать между нашими ресурсами и качеством модели. И как следствие — использовать модели с меньшим числом параметров.
Для быстрой работы нужно, чтобы вся модель помещалась в VRAM — это идеальный вариант. Если она полностью поместится в RAM — это рабочий вариант, но уже не такой хороший по скорости.
Наша основная цель — проверить, может ли локальная модель отвечать за время, сравнимое с облачной, и при этом с приемлемым качеством.
Память Apple Silicon
Тестировать мы будем на MacBook Pro с процессором M4 Pro и 48 ГБ памяти. Машина достаточно мощная и должна себя хорошо показать. Мы ожидаем, что скорость её работы будет ненамного хуже, чем у облачных моделей, но качество — ниже. На других конфигурациях могут быть другие результаты.
Стоит ещё немного рассказать про память в устройствах Apple. Архитектура Apple Silicon: процессоры серии M используют так называемую unified memory (унифицированная память) — это общая память и для графического, и для центрального процессора. Значит, у нас нет раздельной оперативной памяти и видеопамяти. У нас один пул памяти, который доступен как центральному, так и графическому процессору. С одной стороны, это для нас очень хорошо, так как 48 ГБ памяти (за исключением затрат на приложения) доступны нам для модели, и это очень хорошие цифры. Но с другой стороны, все работающие приложения потребляют ту же память, что и модель, и могут мешать друг другу.
Поиск локальной модели
Как найти и выбрать локальную модель?
Теперь, когда мы разобрались с возможностями Mac, перейдём к выбору подходящей модели. Для поиска моделей существуют специальные агрегаторы с фильтрами, например Hugging Face, где представлено множество моделей, доступных для локального использования. Там есть фильтры, которые помогают в поиске.
Что важно знать при поиске модели:
Специализация. Модели могут быть узконаправленными (например, Qwen3-Coder, для написания кода — в названии часто встречается
coder) или более общими (например, Qwen3.5, которая может работать как с текстом, так и с картинками).Ресурсы и совместимость. Если зарегистрироваться и добавить свою конфигурацию ресурсов, можно отслеживать, какая модель совместима с вашим железом, а какая потребует слишком много ресурсов. Такая же возможность проверки есть в поиске модели в LM Studio. Тут стоит помнить, что кроме ресурсов для модели вам еще нужна память для контекста, с которым модель будет работать.
-
Форматы: GGUF и MLX
GGUF — универсальный формат, работает на любых системах, обычно имеет больше настроек запуска модели
MLX — специальная версия для Mac с процессорами M-серии, оптимизированная для максимальной скорости.
Думающие модели (thinking mode). Это модели, которые перед тем как дать ответ, как бы «думают» — вы видите их рассуждения и финальный результат. Обычно они медленнее, но дают лучший результат. Qwen3.5 пример такой модели. Также стоит уточнить, что такие модели полезны для сложных рассуждений, но не для быстрого кодинга.
Использование сторонних инструментов (Function Calling) — поддержка вызова инструментов (Function Calling) важна для агентов, так как позволяет модели взаимодействовать с внешними программами.
Разбор аббревиатур в названии модели
После того как вы познакомились с критериями выбора, полезно разобраться, что означают буквы и цифры в названии модели. Чтобы лучше понимать модели, разберём обозначения в названии модели на примере Qwen3-Coder-30B-A3B-Instruct-MLX-4bit
Qwen3 — семейство моделей от Alibaba Cloud.
Coder — указание на то, что модель ориентирована на работу с кодом.
30B — размер модели в миллиардах параметров (30 миллиардов). Обычно больше параметров даёт лучшее качество, но модель работает медленнее и требует больше памяти.
A3B — обозначение архитектуры MoE (Mixture of Experts). Может отсутствовать в названии. Позволяет выжать максимум скорости: активируются только 3 миллиарда параметров из 30, благодаря чему скорость близка к 3B-модели, а качество — к 30B.
Instruct — модель, которая даёт ответ без предварительного «размышления» (без режима Thinking). Обычно отвечает быстрее и точнее реагирует на ваши команды.
MLX — версия для архитектуры Apple Silicon.
4bit — квантизация (количество бит на один слой). Чем больше бит, тем точнее модель, но медленнее; чем меньше — тем быстрее, но менее качественные ответы может давать.
Далее посмотрим на еще одну характеристику моделей, которую редко встретишь на агрегаторах.
Оценки скорости работы моделей
Вопрос довольно сложный, так как нужно искать баланс между качеством и скоростью работы. Ограничение сверху — модель должна помещаться в вашу память, и лучше с запасом. Есть ресурсы, например VRAM-калькулятор или Performance Explorer, которые помогают оценить скорость генерации токенов на вашей конфигурации для разных моделей. Стоит на него посмотреть, чтобы оценить производительность вашего железа. Вряд ли вас устроит модель, которая часами будет генерировать ответ. Однако слепо доверять таким прогнозам не стоит — это лишь ориентир для первичного сравнения.
Оценка M4 Pro для модели типа Qwen3-30B-A3B-4bit ~ 150 t/c

Если у вас Mac с процессорами M-серии, то есть интересный проект oMLX, который пытается максимально оптимизировать скорость работы LLM, сам проект я не пробовал использовать. Но у него есть интересная страница, с реальными замерами разных моделей с разными конфигурациями железа и с разными размерами контекстов. Данные со страницы выглядят достоверными и согласуются с моими наблюдениями.
Запуск LLM локально
Теперь, когда мы разобрались с оценкой скорости, перейдём к практическому запуску моделей. На сегодняшний день есть много способов запустить LLM локально. Рассмотрим несколько самых популярных из них:
Ollama — консольный интерфейс, который позволяет скачивать и запускать LLM (на мой взгляд, больше подходит для развёртывания на своих серверах из-за отсутствия удобного интерфейса).
LM Studio — имеет удобный графический интерфейс, работать в котором приятнее. Имеет встроенный чат и совместимый API со многими агентами.
Можно взять любую из них или любое другое решение — подход будет одинаковым. Мы же остановимся на LM Studio. Скачать её можно с официального сайта и установить. После запуска стоит сразу включить локальный сервер, чтобы агенты могли подключаться к модели по API. Сервер будет обрабатывать наши запросы и передавать их локальной модели.
Загрузка и настройка модели в LM Studio
После того как мы выбрали LM Studio в качестве инструмента, перейдём к загрузке и настройке конкретной модели. Возьмём для примера модель Qwen3-Coder-30B-A3B-Instruct-MLX-4bit, которую ранее нашли на Hugging Face. Открываем LM Studio, вводим в поиск название модели и скачиваем её.
Скачиваем модель через LM Studio

После того, как скачали, нам нужно её загрузить.
Подсказки в интерфейсе

Для корректной работы с расширениями нужно ещё в настройках сервера включить CORS. CORS необходим для того, чтобы внешние агенты (например, Claude Code) могли подключаться к серверу LM Studio.
Настройка CORS

В результате мы получаем модель, готовую к использованию с локальным сервером, который будет принимать запросы от наших агентов.
Работающий сервер с загруженой моделью

В LM Studio уже есть встроенный чат, через который мы можем общаться с LLM. Это довольно удобно, если нам не нужно менять существующий код (например, для генерации разового скрипта или других одноразовых задач). Кроме того, там есть встроенный замер скорости генерации ответа — очень полезная вещь, чтобы сравнить реальные результаты моделей между собой и с прогнозируемыми оценками.
82 ток/сек реальный результат вместо 150

Теперь, когда модель загружена и настроена, перейдём к подключению агентов.
Подключаем агентов
Тестировать мы будем на нескольких агентах: Claude Code, Kilo Code, Open Code, Aider. У нас будет несколько агентов, некоторые из них работают через CLI, другие — как плагины для VS Code. Не буду рассказывать, как установить каждый из них, про это есть много статей, только кратко расскажем как их подключить к локальной модели.
Kilo Code (v5.12.0) — в эксперименте был как плагин для VS Code, также плагин для IntelliJ IDEA и есть CLI. Kilo Code — форк Roo Code, который, в свою очередь, является форком Cline. Поэтому эти агенты так похожи между собой.
Open Code — CLI-агент с большим количеством звезд на GitHub.
Claude Code — наверное самый популярный CLI агент на сегодня от Anthropic.
Aider — небольшой CLI агент, который себя позиционирует как помощник по кодингу
Claude Code
Нам нужно научить Claude Code работать с нашей локальной LLM. Первое, что стоит знать: у Claude Code свой API, немного другой, чем у всех остальных. В прошлый раз мы использовали Claude Code Router. Но в этот раз нам это не нужно — LM Studio поддерживает этот формат API из коробки.
Нам нужно лишь проставить переменные окружения и указать, какую модель использовать. Больше конфигурации и детальных настроек можно посмотреть в статье, но нам будет достаточно этих параметров.
export ANTHROPIC_BASE_URL=http://localhost:1234 - смотрим на локальный сервер export ANTHROPIC_AUTH_TOKEN=lmstudio - тут просто заглушка env | grep ANTHROPIC - проверим что все установилось
Запуск через стандартный вариант из консоли — нужно только указать название модели (можно скопировать из LM Studio):
claude --model qwen3-coder-30b-a3b-instruct-mlx
Kilo Code
Kilo Code из коробки поддерживает LM Studio, поэтому просто добавляем нового провайдера и переключаем все профили для него.
Просто добавляем LM Studio как еще одного провайдера

Не забываем переключить все профили на локальный

Open Code
Настройка конфигурации Open Code делается через файл, расположенный по пути ~/.config/opencode/opencode.json . Вот пример файла с конфигурацией для 2 локальных моделей.
opencode.json
{ "$schema": "https://opencode.ai/config.json", "provider": { "lmstudio": { "npm": "@ai-sdk/openai-compatible", "name": "LM Studio (local)", "options": { "baseURL": "http://127.0.0.1:1234/v1" }, "models": { "qwen3-coder-30b-a3b-instruct-mlx-4bit": { "name": "qwen3-coder-30b (local)", "tools": true }, "gemma-4-26b-a4b-it": { "name": "gemma-4-26b-a4b (local)", "tools": true } } } } }
Далее при запуске Open Code в терминале нужно переключить на нужную нам модель, через команду /models
Меню с переключением моделей

Aider
Aider настраивается схожим способом с Claude Code через переменные окружения
export LM_STUDIO_API_KEY=dummy-api-key export LM_STUDIO_API_BASE=http://localhost:1234/v1
и запускается с указанием имени модели:
aider --model lm_studio/qwen3-coder-30b-a3b-instruct-mlx-4bit
После настройки всех агентов мы можем приступать к тестированию их работы.
Что и как попробуем тестировать
Данное тестирование очень субъективное и не отражает полной картины работы моделей или агентов, оно не предназначено для сравнения моделей или агентов между собой. К результатам стоит относиться с большой долей скепсиса. Но должно дать какое-то представление о времени работы моделей.
Мы хотим оценить реальную скорость и качество локальных моделей в чате и в агентском режиме, а также возможность их использования в повседневной работе.
Краткое описание моделей
Возьмем несколько моделей, которые попробуем потестировать, я выбрал самые интересные для меня:
Qwen3-Coder — возьмем за основную модель, так же возьмем ее вариации, модель в 5-битной и 6-битной квантизации и GGUF
Qwen3-Coder-Next — новое поколение модели qwen3-coder
Qwen3.5 — думающая модель от Qwen, а также её варианты: 9B, MoE Qwen3.5-35B-A3B и дообученная на Opus
и пару новых моделей Nvidia Nemotron-3 и Gemma-4-26B-A4B, Gemma-4 возьмем в формате GGUF, так как с MLX пока есть проблемы.
План тестирования
Тест состоит из нескольких этапов: сначала модель получает код на рефакторинг, затем — на ревью, и наконец — замечания для исправления.
Подробное описание плана:
Поэтапный план
-
Этап 1
даем LLM задачу на рефакторинг
замеряем время выполнения
делаем оценку результата работы
-
Этап 2
просим модель сделать ревью полученного кода и найти проблемы
просим устранить проблемы, которые она нашла
замеряем время выполнения
делаем оценку результата работы
-
Этап 3
даем модели замечания к устранению
замеряем время
делаем оценку результата работы
суммируем общее время работы
Делать оценку кода мы будем тоже через LLM, возьмем deepseek и прямо в чате будем ему давать код и файлы для оценки.
После нескольких подходов с deepseek, пришли к 10-балльной шкале оценок:
Скрытый текст
Критерий |
Макс. балл |
Точность денежных расчётов (BigDecimal + округление + корректное преобразование) |
3.0 |
Типобезопасность (enum для категорий, DTO вместо Map) |
2.0 |
Настраиваемость порога (не магическое число) |
1.0 |
Валидация и обработка ошибок (null, неотрицательность, диапазон скидки, пропуск элементов) |
1.5 |
Логирование (не System.out/err) |
0.5 |
Модульные тесты (наличие) |
1.0 |
Иммутабельность DTO |
0.5 |
Чистая архитектура (разделение ответственности, внедрение зависимостей) |
0.5 |
Итого |
10.0 |
Это формальные критерии. Баллы также будут снижаться за дублирование кода, нерабочий код и другие недочёты
Сам же изначальный код для рефакторинга оставим такой же как и в прошлой статье
Сам код на Java
import java.util.*; public class DataProcessor { public List<Map<String, Object>> processData(List<Map<String, Object>> data, Map<String, Object> options) { if (options == null) { options = new HashMap<>(); } List<Map<String, Object>> result = new ArrayList<>(); for (Map<String, Object> item : data) { if (item.containsKey("price") && item.containsKey("quantity")) { double price = ((Number) item.get("price")).doubleValue(); int quantity = ((Number) item.get("quantity")).intValue(); double discount = options.containsKey("discount") ? ((Number) options.get("discount")).doubleValue() : 0.0; double total = price * quantity * (1 - discount); Map<String, Object> processedItem = new HashMap<>(); processedItem.put("name", item.getOrDefault("name", "Unnamed")); processedItem.put("total", total); if (total > 100) { processedItem.put("category", "expensive"); } else { processedItem.put("category", "cheap"); } result.add(processedItem); } else { System.out.println("Skipping item: " + item); } } return result; } public static void main(String[] args) { DataProcessor processor = new DataProcessor(); List<Map<String, Object>> data = new ArrayList<>(); Map<String, Object> item1 = new HashMap<>(); item1.put("name", "Laptop"); item1.put("price", 1000); item1.put("quantity", 1); data.add(item1); Map<String, Object> item2 = new HashMap<>(); item2.put("name", "Mouse"); item2.put("price", 25); item2.put("quantity", 2); data.add(item2); Map<String, Object> item3 = new HashMap<>(); item3.put("price", 50); item3.put("quantity", 3); data.add(item3); Map<String, Object> item4 = new HashMap<>(); item4.put("name", "Keyboard"); item4.put("price", 80); item4.put("quantity", 1); data.add(item4); Map<String, Object> options = new HashMap<>(); options.put("discount", 0.1); List<Map<String, Object>> result = processor.processData(data, options); System.out.println(result); } }
Замеры в режиме чата
В LM Studio есть встроенный чат, на котором мы и протестируем наши модели. Это заняло немного времени и вот результаты:
локальная модель |
скорость генерации токенов (ток/сек) |
время 1 этапа (сек) |
оценка после 1 этапа |
время review (сек) |
время 2 этапа |
оценка после 2 этапа |
время 3 этапа (сек) |
оценка после 3 этапа |
суммарное время работы (мин:сек) |
qwen3-coder-30b-a3b-instruct-4bit-gguf |
52-64 |
37 |
1.0 |
0 |
35 |
1.5 |
86 |
8.5 |
2:38 |
qwen3-coder-30b-a3b-instruct-mlx@4bit |
56-73 |
23 |
1.0 |
0 |
24 |
1.0 |
82 |
8.5 |
2:09 |
qwen3-coder-30b-a3b-instruct-mlx@5bit |
49-64 |
29 |
2.0 |
0 |
38 |
2.5 |
91 |
9.0 |
2:38 |
qwen3-coder-30b-a3b-instruct-mlx@6bit |
44-59 |
27 |
1.5 |
24 |
32 |
1.5 |
91 |
9.0 |
2:54 |
qwen3-coder-next-reap-48b-a3b-oq3.5 |
54-62 |
46 |
1.0 |
42 |
47 |
1.5 |
77 |
8.5 |
3:32 |
Qwen3.5-27B-4bit (thinking) |
14-15 |
589 |
5.5 |
160 |
554 |
9.0 |
469 |
9.5 |
29:32 |
Qwen3.5-9B-4bit (thinking) |
39-45 |
234 |
1.0 |
84 |
82 |
2.0 |
587+ |
2.0 |
16:27 |
qwen3.5-35b-a3b-4bit (thinking) |
69-77 |
91 |
3.0 |
98 |
70 |
3.0 |
93 |
10.0 |
5:43 |
qwen3.5-35b-a3b-claude-4.6-opus-4bit (thinking) |
55-64 |
62 |
3.0 |
46 |
81 |
3.0 |
91 |
9.0 |
4:40 |
nvidia-nemotron-3-nano-30b-a3b (thinking) |
81-89 |
47 |
3.0 |
32 |
48 |
3.0 |
71 |
6.0 |
3:18 |
gemma-4-26b-a4b-it-gguf |
46-48 |
42 |
2.5 |
21 |
37 |
8.0 |
43 |
10.0 |
2:23 |
Пояснения:
(thinking) в названии модели обозначает, что часть токенов, которые генерирует модель, уходит на подготовку ответа, поэтому ее реальная скорость генерации ответа на 30-50% ниже и общий ответ получается дольше
время review 0 - модель сразу начинала генерировать исправленный код, без предварительного анализа. Поэтому фактического ревью не проводилось
время 587+ секунд на 3 этапе у Qwen3.5 9B указано, так как модель запуталась и не смогла исправить код и начала бесконечно генерировать тесты
Перед тем как делать анализ результатов, хочется понять, а что у облачных моделей. Прогоним тот же тест в чате но уже на облачных моделях:
облачная модель |
время 1 этапа (мин:сек) |
оценка после 1 этапа |
время review (мин:сек) |
время 2 этапа |
оценка после 2 этапа |
время 3 этапа (мин:сек) |
оценка после 3 этапа |
суммарное время работы (мин:сек) |
Qwen 3.6 plus (thinking) cloud chat |
2:51 |
5.0 |
1:20 |
1:50 |
5.0 |
2:23 |
10.0 |
8:24 |
Qwen 3.6 plus (fast) cloud chat |
0:38 |
2.5 |
0 |
1:04 |
4.0 |
1:18 |
10.0 |
3:00 |
Qwen 3 coder cloud chat |
0:17 |
2.5 |
0 |
0:27 |
2.0 |
0:28 |
2.0 |
1:12 |
DeepSeek (thinking) cloud chat |
0:52 |
2.0 |
0:52 |
0:52 |
2.5 |
1:24 |
9.0 |
4:00 |
ChatGPT 5.3 |
0:27 |
2.5 |
0:27 |
0:32 |
2.5 |
0:34 |
10.0 |
2:00 |
Анализ результатов
скорость работы в режиме чата локальных моделей сравнима со скоростью облачных, однако локальные модели в общем дают худший результат (но не всегда) за то же время
плотные модели Qwen3.5-27B-4bit и Qwen3.5-9B-4bit очень тяжелыми оказались для данного замера, было заметно, как кулеры начинали шуметь и компьютер начинал греться, хотя результаты у них получились лучше, время оказалось намного больше других результатов. На других моделях нагрузка не чувствовалась
режим thinking помогает и локальным и облачным моделям генерировать лучший результат
на втором этапе высокие оценки получили только 2 модели Qwen3.5-27B-4bit и Gemma-4-26B-A4B
Gemma-4-26B-A4B очень хорошо выглядит на фоне других по качеству и скорости
облачным моделям тоже нужно время на ответ, и иногда оно дольше, чем у локальных моделей, особенно в режиме thinking
чем больше битность, тем дольше отвечает модель, особого прироста в качестве не было замечено
GGUF и MLX: разница в скорости на Mac ожидаема, но оказалась не такой огромной
Далее посмотрим, как те же модели справляются в агентском режиме.
Замеры в режиме агента
Проведем этот же эксперимент, но уже с агентами, а не в чате. Все агенты были из коробки, без дополнительных настроек скиллов, саб-агентов и др. В данном эксперименте замеры уже оказались дольше. И получившиеся результаты ниже:
агент |
локальная модель |
время 1 этапа (мин:сек) |
оценка после 1 этапа |
время review (мин:сек) |
время 2 этапа |
оценка после 2 этапа |
время 3 этапа (мин:сек) |
оценка после 3 этапа |
суммарное время работы (мин:сек) |
Kilo Code |
Qwen3.5-27B-4bit |
1:04:16 |
3.5 |
- |
- |
- |
- |
- |
- |
Kilo Code |
nvidia-nemotron-3-nano-30b-a3b |
10:16 |
1.0 |
- |
- |
- |
- |
- |
- |
Kilo Code |
qwen3-coder-30b-a3b-instruct-mlx@4bit |
2:53 |
2.0 |
1:40 |
3:10 |
2.5 |
7:22 |
6 |
15:05 |
Kilo Code |
qwen3-coder-30b-a3b-instruct-mlx@5bit |
3:47 |
2.5 |
2:36 |
5:23 |
3 |
9:34 |
7.5 |
21:20 |
Kilo Code |
qwen3.5-35b-a3b-4bit |
5:49 |
3.5 |
4:17 |
13:44 |
3.5 |
33:13 |
9.0 |
57:03 |
Aider |
qwen3-coder-30b-a3b-instruct-mlx@4bit |
0:28 |
2.0 |
0 |
0:46 |
2 |
1:36 |
9.5 |
2:50 |
Open Code |
qwen3-coder-30b-a3b-instruct-mlx@4bit |
2:32 |
2.0 |
0:42 |
0:33 |
2.5 |
3:46 |
9 |
7:33 |
Kilo Code |
gemma-4-26b-a4b |
4:53 |
3.5 |
3:12 |
5:39 |
4.5 |
4:54 |
9 |
18:38 |
Claude Code |
gemma-4-26b-a4b |
1:14+2:01 |
3.0 |
3:30 |
4:36 |
6.0 |
9:53 |
10 |
21:14 |
Пояснения:
Qwen3.5-27B-4bit и nvidia-nemotron-3-nano-30b-a3b после первого этапа нет изменений. Эксперимент с этими моделями был остановлен из-за слишком долгого выполнения первого этапа
Claude Code два времени в 1 этапе, так как сначала делалась команда
/init, а потом уже выполнялась сама задачахотелось сделать замер qwen3-coder-30b-a3b-instruct-mlx@4bit и Claude Code, но на этапе ревью модель постоянно крашилась с ошибкой: Anthropic streaming error: The model has crashed without additional information. (Exit code: null). Возможная причина — нехватка памяти для контекста.
при замерах MacBook заметно грелся и кулеры гудели, работать было не особо комфортно, температура под нагрузкой держалась около 100 градусов на GPU
Скрин с температурой

И как и в прошлом эксперименте с чатом, попробуем сделать эксперимент с агентом и облачной моделью
агент |
облачная модель |
стоимость |
время 1 этапа (мин:сек) |
оценка после 1 этапа |
время review (мин:сек) |
время 2 этапа (мин:сек) |
оценка после 2 этапа |
время 3 этапа (мин:сек) |
оценка после 3 этапа |
суммарное время работы (мин:сек) |
Qwen Code CLI |
Qwen3.6 Plus |
0 |
3:05 |
5.0 |
4:32 |
2:45 |
4.5 |
3:03 |
8.5 |
13:25 |
Qwen Code plugin |
Qwen3.6 Plus? |
0 |
1:56 |
4.5 |
4:31 |
0:32 |
5.0 |
3:39 |
7 |
10:38 |
Kilo Code |
Qwen3.5 Plus |
$0,31 |
2:03 |
4.0 |
0:22 |
0:39 |
4.0 |
3:49 |
9 |
6:53 |
Kilo Code |
Claude Opus 4.6 |
$3.35 |
2:22 |
5.5 |
0:50 |
3:47 |
8 |
5:16 |
10 |
12:15 |
Пояснения
модель для Qwen Code указана как Qwen3.6 Plus, но достоверного подтверждения этому нет, информация взята из самого агента
Анализ результатов
секунды и минуты в режиме чата стали минутами и десятками минут в режиме агента, заметно, что режим агента со множеством вызовов и большим контекстом тяжелее дается локальным моделям
во всех замерах с локальными моделями, разве что за исключением Aider, MacBook заметно нагревался и было ощущение, что Mac пытается взлететь. Кулеры практически не останавливаясь шумели.
Gemma-4 единственная из моделей показала хорошие результаты на 2 этапе
облачные модели здесь смотрятся заметно лучше по качеству, скорости и комфорту
при работе агентов нужно много памяти не только на модель, но и на контекст, иногда файл подкачки раздувался до 20 ГБ
чем проще агент, например Aider, тем быстрее он работает, но тем больше нужно с ним взаимодействовать
Open Code работает заметно быстрее, поскольку генерирует меньше контекста
Claude Code и Kilo Code генерируют больше контекста из-за чего модели тяжелее и она дольше работает
агенты — это не только про написание кода, в половине замеров агенты предлагали скомпилировать java код, а также его запустить. Думаю тут зависит не только от агента, но и от модели. На модели qwen3-coder-30b-a3b-instruct-mlx@4bit редко были предложения скомпилировать, на остальных почти всегда.
для локальных моделей лучше подходят более простые агенты Open Code и Aider, для Kilo Code и Claude Code кажется нужно заметно больше ресурсов.
Итоги и рекомендации
Общие выводы
С одной стороны, полученные выводы довольно очевидны, с другой — интересны.
Если отвечать на вопрос, можно ли сегодня на компьютере уровня MacBook M4 работать с локальными моделями, однозначного ответа нет. Точнее, он есть, но с уточнениями.
В режиме чата сегодня вполне можно работать с локальными ИИ и получать довольно приемлемые результаты за приемлемую скорость, при этом данные остаются у вас. Стоит выбирать модели с MoE-архитектурой — они хороши по скорости и приемлемы по качеству.
В режиме агентов я бы скорее ответил, что для постоянной работы это не подходит, но для разовых задач — неплохо. Это связано с большой нагрузкой на систему и память. Обычно на рабочей станции кроме модели крутится ещё много всего: IDE, Docker, десяток вкладок в браузере, и ресурсов явно будет не хватать. Также постоянный нагрев и работа кулеров не добавляет комфорта.
Для себя ещё отметил разницу в скорости работы агентов. И что ревью кода разумно делать другой моделью, чем той, которая его писала — так результат получается лучше.
Также есть вера в светлое будущее, так как локальные модели и их работа оптимизируются, появляются такие решения, как TurboQuant, и новые модели.
Рекомендации, которых я бы придерживался, если бы был ограничен только локальными моделями
После работы с локальными моделями у меня сформировались следующие мысли, которыми я бы руководствовался, если бы у меня не было выбора и стояла задача использовать только локальную модель:
Развернуть модель на отдельном компьютере (например, Mac mini) и поставить его куда-нибудь подальше, где он будет шуметь. Так вам будет комфортнее работать на рабочем компьютере — не будет конфликта ресурсов между моделью, контекстом и вашими программами.
Выбирать более свежие модели на MoE-архитектурах. Протестируйте несколько, посмотрите, какая лучше справляется с вашими задачами. Например, недавно вышла Qwen3.6
Для простых задач лучше работать в режиме чата — это быстрее и продуктивнее.
Если вы всё же решили использовать агентский режим, присмотритесь к более простым агентам, таким как Aider или OpenCode, вместо продвинутых вроде Kilo Code и Claude Code.
Если думаете о покупке компьютера именно для LLM, лучше посмотреть расчёты скорости (например, VRAM-калькулятор). А если планируете покупать Mac — ориентироваться на реальные замеры.
Помните, что локальные модели почти всегда будут уступать в качестве большим облачным, вопрос только в том, насколько.
Результаты работы моделей, исходные коды тестов и полные таблицы с замерами можно посмотреть на GitHub.
Комментарии (142)

RicoX
18.04.2026 03:23Для себя пришел к схеме собственного сервака дома (RTX 5090), на котором развернута связка LibreChat (Собственно для работы в режиме чата) -> LiteLLM -> ollama с локальной моделью плюс оркестрация и бюджетирование, выходит удобная схема, когда простые запросы обрабатываются локально бесплатно и в большинстве случаев приемлемо, более сложные уходят на дешевые или бесплатные облачные LLM, самые сложные и архитектурные на дорогие, а вот тесты снова можно гонять на дешевых или локально. Итого имеем единый интерфейс для агентов, единый чат, единую точку подключения MCP и скилов и можно один раз настроить инструмент для подключения к LiteLLM, а дальше уже работать со всем комбайном сразу, так и токены экономятся сильно и качество не страдает и не надо каждый раз переключать инструменты на новую схему, чтоб потестить какую-то модель.

jetnet
18.04.2026 03:23Кто/что занимается классифицированием запросов?

RicoX
18.04.2026 03:23Как раз локальная LLM сейчас это qwen3.5:35b на 256К контекста через настроенный Auto Routing в LiteLLM плюс оркестратор, там одностраничник на питоне, четко на GPU влезает, если не в одну калитку использовать, а делить на несколько человек, то 27b будет с большим запасом по памяти.
Промт для оркестрации примерно такой:Ты классификатор запросов. Верни только JSON. Допустимые route: local_fast, infra_ops, deep_reasoning, safe_review. Оцени complexity: low, medium, high. Поставь sensitive: true/false.

jetnet
18.04.2026 03:23А как это в агенте оаботает, у которого своих режимов со своими промптами из коробки полно? В агенте вы тогда только один режим, например, Кодер с моделью “Авто” из LiteLLM выставляете? А как тогда Планировщик, Ревьюер и т.д. они тоже через эту Авто-модель? И бывают ли сюрпризы, например, не та модель выбирается?

RicoX
18.04.2026 03:23У меня это работает как: Клиент -> внешний оркестратор -> qwen-classifier -> LiteLLM model_name -> внутренний router LiteLLM -> провайдер/локальная модель -> fallback при ошибке
Схема работы такая: клиент отправляет запрос во внешний оркестратор, оркестратор сначала вызывает qwen-classifier, получает от него решение о маршрутизации, после этого выбирает нужный model_name в LiteLLM, LiteLLM через свой внутренний роутер выбирает конкретный backend, отправляет запрос в локальную модель или внешний провайдер, а при ошибке применяет retries и fallback.
Логика простая. Оркестратор получает запрос пользователя и не пытается сразу отдать его в финальную модель. Сначала он делает отдельный вызов в qwen-classifier, который используется только как классификатор. Этот вызов нужен для того, чтобы понять, какой тип задачи пришел, насколько она сложная, критичная, требует ли размышления, кода и длинного контекста. В ответ qwen-classifier возвращает JSON, например такой:
{ “route”: “infra_ops”, “complexity”: “medium”, “criticality”: “medium”, “needs_reasoning”: true, “needs_code”: false, “needs_long_context”: false }
Если задача сложная, ответ может быть таким:
{ “route”: “premium_reasoning”, “complexity”: “high”, “criticality”: “high”, “needs_reasoning”: true, “needs_code”: true, “needs_long_context”: true }
После этого оркестратор валидирует этот JSON и уже на его основе выбирает alias для основного вызова в LiteLLM. Маппинг примерно такой: fast_local -> qwen-local, infra_ops -> qwen-infra, balanced_external -> gpt-5.4, premium_reasoning -> claude.
Сами модели можно держать так:
model_list:
model_name: qwen-classifier litellm_params: model: openai/qwen3.5:35b-a3b-q4_K_M api_base: http://ollama:11434/v1 api_key: ollama temperature: 0 max_tokens: 300 timeout: 15
model_name: qwen-local litellm_params: model: openai/qwen3.5:35b-a3b-q4_K_M api_base: http://ollama:11434/v1 api_key: ollama temperature: 0.1 max_tokens: 800 timeout: 20
model_name: qwen-infra litellm_params: model: openai/qwen3.5:35b-a3b-q4_K_M api_base: http://ollama:11434/v1 api_key: ollama temperature: 0.2 max_tokens: 3000 timeout: 90
model_name: gpt-5.4 litellm_params: model: openai/gpt-5.4 api_key: os.environ/OPENAI_API_KEY temperature: 0.2 max_tokens: 5000 timeout: 120
model_name: claude litellm_params: model: anthropic/claude api_key: os.environ/ANTHROPIC_API_KEY temperature: 0.2 max_tokens: 8000 timeout: 180
Смысл тут в том, что qwen-classifier, qwen-local и qwen-infra — это одна и та же локальная модель на одном и том же backend, но с разными параметрами вызова и разным execution profile. qwen-classifier используется только для классификации и никогда не отдает пользователю финальный ответ. qwen-local используется для быстрых ответов без глубокого анализа. qwen-infra используется для инженерных и инфраструктурных задач, где нужен более серьезный разбор. gpt-5.4 — это внешний маршрут среднего уровня по цене и качеству. claude — самый сильный и дорогой маршрут для сложных или критичных задач.
После выбора alias оркестратор формирует профиль вызова для основной модели. То есть он подставляет нужный system prompt, temperature, max_tokens, timeout и, если это локальная модель, включает или отключает размышление через think=true/false. Дальше оркестратор делает обычный HTTP-вызов в LiteLLM, например в /v1/chat/completions, и ставит в запросе model: “qwen-infra” или другой выбранный alias.
LiteLLM сам смотрит в config.yaml, находит, какой backend и какая реальная модель стоят за этим model_name, и дальше работает уже как прокси. Если под alias только один deployment, он сразу вызывает нужный backend. Если deployment несколько, включается внутренний router LiteLLM и выбирает конкретный backend по своей стратегии.
Когда backend отвечает, LiteLLM возвращает результат оркестратору. Оркестратор может сделать постобработку: проверить, что ответ не пустой, что структура валидная, что модель не вернула мусор или поломанный JSON, если он ожидался. Если ответ нормальный, он уходит клиенту.
Если backend вернул ошибку, сначала отрабатывают retries и fallback внутри самого LiteLLM. Если это не помогло или если ответ пришел, но не прошел проверку качества на стороне оркестратора, оркестратор может сам повысить маршрут и повторить запрос через более сильный alias.
Дополнительная policy-логика обычно такая. Если route=fast_local, выбирается qwen-local. Если route=infra_ops, выбирается qwen-infra. Если route=balanced_external, выбирается gpt-5.4. Если route=premium_reasoning, выбирается claude. Если needs_reasoning=true и выбран локальный маршрут, включается think=true. Если needs_reasoning=false и выбран быстрый локальный маршрут, включается think=false. Если needs_code=true и complexity=high, маршрут можно сразу поднять на один уровень. Если needs_long_context=true, запрос не должен идти в qwen-local. Если criticality=high, можно вообще запретить qwen-local и qwen-infra для финального ответа и сразу отправить запрос во внешнюю модель. Если локальная модель ответила плохо, запускается escalation по цепочке qwen-local -> qwen-infra -> gpt-5.4 -> claude.
Полный проход запроса выглядит так. Клиент отправляет запрос в оркестратор. Оркестратор делает первый вызов в qwen-classifier. qwen-classifier возвращает JSON с route и флагами. Оркестратор валидирует классификацию, выбирает alias основной модели, формирует execution profile и отправляет основной запрос в LiteLLM. LiteLLM по model_name ищет deployment, внутренний router выбирает backend, запрос уходит в локальную модель или внешний провайдер. Если backend ответил успешно, LiteLLM возвращает результат оркестратору. Оркестратор выполняет контроль ответа и отдает его клиенту. Если backend вернул ошибку, LiteLLM применяет retries и fallback. Если и это не помогло, или если результат неудовлетворительный, оркестратор может повторить запрос через более сильную модель. Финальный ответ после этого возвращается клиенту.
Для примера, если приходит запрос: «Спроектируй и напиши функцию определения проблем в Ceph», оркестратор сначала отправляет его в qwen-classifier. Классификатор, скорее всего, вернет что-то вроде:
{ “route”: “infra_ops”, “complexity”: “high”, “criticality”: “high”, “needs_reasoning”: true, “needs_code”: true, “needs_long_context”: true }
Дальше оркестратор видит, что задача инженерная, сложная, требует код и длинный контекст. Базовый выбор тут будет qwen-infra, но из-за criticality=high и needs_long_context=true policy может сразу поднять маршрут до gpt-5.4 или даже claude. После этого оркестратор делает основной вызов в LiteLLM уже с нужным alias. LiteLLM выбирает backend, выполняет запрос и возвращает ответ. Если ответ плохой или вызов завершился ошибкой, включается fallback или escalation.
Ух вот это я простыню накатал, надеюсь хоть чуть-чуть понятно, вообще начни с базового функционала https://docs.litellm.ai/docs/proxy/auto_routing а там уже можно расширять по мере надобности. Сюрпризы бывают, но достаточно редко, у меня еще и бюджетирование настроено, чтоб в минус по деньгам не уйти случайно на простых задачах, ошибки в основном вида отдал в локальную модель, получил вывод не проходящий тесты, отдал в платную, тесты ОК, но у меня промтами подперто еще так , чтоб запросы сразу в самую дорогую не шли, если не попытался решить в более дешевой, исключение триггер на слово архитектура, такие запросы сразу в клод.
rivo
18.04.2026 03:23А насколько это удобнее обычных агентов которые привязаны к разным провайдерам? Навример, Pi подерживает несколько провайдеров для subagents, когда надо что-то простое сделать, то указываешь имя агента: `@agent-ocr найди картинки с котиками в файлах проекта`. `@agent-think подумай о жизни на марсе`

RicoX
18.04.2026 03:23Тут сложно ответить однозначно: каждый выстраивает такую схему под себя и под свой профиль работы. Я SRE, и у меня вся эта конструкция дополнительно обвязана еще десятком MCP, которые ходят в рабочие системы: GitLab, мониторинг, агенты на серверах, Jira, Confluence, NetBox, Ansible и так далее.
То есть, если мне нужно опробовать какой-то новый инструмент, например плагин для VSC, я просто подключаю его к API LiteLLM, и все его запросы сразу начинают идти через всю эту обвязку - с роутингом и обогащением данных через MCP. Точно так же туда подключаются чат, консоль и прочие интерфейсы.
Например, в LibreChat я могу написать что-то вроде: “Какие серверы с DDR5-памятью сейчас утилизированы по памяти более чем на 80%?” - и получить список. Затем следующим сообщением спросить: “Какие из них стабильно растут по утилизации на протяжении полугода и какие наиболее ресурсоемкие процессы сейчас на них запущены? Сделай таблицу по убыванию”. После этого я могу просмотреть результат, при необходимости что-то уточнить через агентов, а затем в том же окне чата попросить поставить задачу в jira на закупку памяти с перечислением серверов и недостающих объемов.
При этом в ту же самую связку, из окна VSC, я могу попросить написать скрипт, добавить информацию о нем в Confluence, положить его в репозиторий GitLab и выкатить плейбуком на нужный inventory, который нейросеть получит из NetBox по имени проекта.
Можно ли сделать то же самое через набор агентов в стиле OpenClaw? Да, конечно, можно. Но в таком случае каждая мини-задача, скорее всего, потребует отдельного агента, и каждый инструмент должен будет понимать, к какому именно агенту обращаться. Для моих задач это не всегда удобно, потому что они не так уж часто повторяются - иначе я бы их уже давно автоматизировал. Почти каждая новая задача немного отличается от предыдущей, и под нее пришлось бы каждый раз дорабатывать или перенастраивать агентов.
Если сравнивать с обычным производством, то агенты - это конвейер, где каждый сотрудник хорошо делает несколько конкретных операций, но ничего не знает о работе соседа. Моя же схема - это скорее универсал, который, возможно, будет выполнять работу чуть дольше и местами чуть менее эффективно, зато способен провести ее от начала до конца, не дергая остальных.

SeregaSA73
18.04.2026 03:23Пиши статью! подписался на тебя!

RicoX
18.04.2026 03:23Чукча вообще не писатель, я тут десяток лет ничего не писал, да и комментирую редко, просто тема достаточно мне близкая, но подумаю, как структурировать знания в общем виде, а не в виде каких-то кусков наработок. Основная проблема с нейронками сейчас в том, что всё настолько быстро меняется, что любая глобальная статья выйдет уже устаревшей. Надо подождать годик-другой, чтобы знания настоялись, появились какие-то best practice, отмер миллион инструментов и остались только самые-самые. Сейчас идёт зарождение нового формата работы для многих, каждый день появляются новые подходы, и то, что можно описать сейчас, через пару месяцев будет устаревшим и неприменимым.

sergio5990 Автор
18.04.2026 03:23У меня тоже есть похожие идеи, но вместо LiteLLM думаю попробовать OmniRoute

TerraV
18.04.2026 03:23Я всё никак не могу решиться на покупку 5090. Вроде и хочется и колется. Как часто возникает мысль "а вот если бы их было две..." или там H100+?

jshapen
18.04.2026 03:23Для LLM 5090 не имеет смысла. Надо хотя бы десяток таких карт. А вот поиграться с генерацией картинок и видосов уже можно

Steelycrack
18.04.2026 03:23поиграться с картинками достаточно и 5060ti 16gb, выйдет хоть и медленнее, но в 6 раз дешевле.

RicoX
18.04.2026 03:23У меня 5090 покупалась для игр, комп в дуалбуте, днем в рабочее время крутится убунта со всем этим комбайном для нейронок, вечером я на нем в игрушки играю.

alex-khv
18.04.2026 03:23На 5090 Gemma4 26B Q6_K/Qwen3.6 35B Q4_K_M влезает с полным контекстом 256К (без квантизации).
Скорость генерации начинается от 170 т/с - очень хорошая скорость для агентов. На 200К контекста скорость падает до 90 т/с.
Минимально умные модельки для агентов как раз начинаются в районе 30B. При наличии RAM, можно запускать гораздо большие MoE около 120B (20т/с) - это почти уровень GPT4.
У меня локальные модели в обычном применении заменяют 90% запросов (справка, суммаризация, анализ текста, перевод, простые программки, или когда код нельзя отправлять в сторонние сервисы). 10% приходится на платные через openrouter. Но я не обмазываюсь агентами openclaw/hermes/etc. Легкое использование opencode - для вайбкодинга элементарных вещей или нарисовать mermaid блок-схему неизвестного кода чтобы ускорить загрузку кода себе в голову.
Из минусов, хоть prompt processing легко переваливает за 1000 т/с, но т.к. все модели запускаются через llama.cpp и его форки, то поддержка часто сырая. Что приводит к тому что такие агенты как opencode/claude code/codex не совсем совместимы. Из-за несовместимости kv-кеш достаточно часто инвалидируется, а значит весь сеанс приходится пересчитывать. 100К контекста со скоростью prompt processing 1000 т/с занимает полторы минуты.
В общем не следует считать 5090 альтернативой, а только дополнением. После покупки 5090 где-то через месяц, два, три, захочется что-то типа RTX 6000 Blackwell.
alex-khv
18.04.2026 03:23P.S. локальные модели очень удобны в SRE/Devops задачах. На внешний LLM нельзя просто так отправить конфиги. Напротив, в локальную модель отправить конфиги со всеми секретами - безопасно. Все ConfigMap, DeploymentSet, etc из k8s и прочую SRE инфу ~30B модели достаточно хорошо обрабатывают.

KonstantinTokar
18.04.2026 03:23Это если оркестратор не перепутает и не отправит пароли в Антропик вместо локальной модели

MAXH0
18.04.2026 03:23В принципе у программистов остается несколько выборов и все не очень приятны. Первый, тот к которому подталкивают — платить до половины дохода в чужие облака. Второй, единовременно заплатив за железо, поддерживать ПО на конкурентном уровне самостоятельно. Третий, гибридный, арендовать облачные мощности, но ПО запускать открытое и своё. Причем по деньгам, скорее всего, он не будет уступать первому, но значительно проигрывать по удобству использования.

Javian
18.04.2026 03:23платить до половины дохода в чужие облака
Имхо как это всегда происходит в среднем оплата труда упадет ровно до величин, когда у работника не останется денег для накоплений. Основная прибыль будет у производителей лопат, которыми работник работает.
Карл Маркс указывал, что «общая тенденция капиталистического производства ведёт не к повышению, а к понижению уровня заработной платы».

MAXH0
18.04.2026 03:23На самом деле цена труда объективно определяется суммой общественно необходимого времени необходимого для подготовки специалиста. Она может отклоняться в ту или иную сторону, но рыночек порешает к равновесному состоянию.
В общем случае IT-шники сейчас догоняют тех же самых слесарей/сварщиков/таксистов. Нужно прежде чем войти в бизнес не только выучиться, но и купить оборудование. Либо работать "на дядю", отдавая львиную часть прибыли...

orenty7
18.04.2026 03:23«общая тенденция капиталистического производства ведёт не к повышению, а к понижению уровня заработной платы».
Это, очевидно, не так. Капитализма за последние сто лет стало в разы больше и при этом люди стали богаче. Средний рабочий сейчас живёт сильно лучше среднего рабочего сто лет назад

geher
18.04.2026 03:23Это не капитализм, а регулирование от государства. Таки минимальная оплата труда и прочие подобные плюшки явно к капитализму не относятся.

orenty7
18.04.2026 03:23Таки минимальная оплата труда и прочие подобные плюшки явно к капитализму не относятся.
Они и не делают жизнь рабочего лучше. Минимальная оплата труда это прямой путь к безработице

geher
18.04.2026 03:23Жизнь рабочего делают лучше именно ограничения на работодателя, не позволяющие бесконечно снижать зарплату и увеличивать нагрузку. А безработица была и при отсутствии минимальной оплаты труда, причем порой намного выше, чем сейчас, при ее наличии. И, кстати, все страны с наилучшим положением рабочих как раз имеют весьма высокий уровень минимальной оплаты труда.
Собственно уровень безработицы определяется текущим состоянием экономики страны.
И еще, уровень оплаты в востребованных высокооплачиваемых отраслях - не лучший показатель уровня жизни рабочих. Это уже про голубцы.

orenty7
18.04.2026 03:23Жизнь рабочего делают лучше именно ограничения на работодателя, не позволяющие бесконечно снижать зарплату и увеличивать нагрузку.
Эти ограничения уже есть, называются “экономические законы” и они действуют независимо от того, есть регуляции или нету.
А безработица была и при отсутствии минимальной оплаты труда, причем порой намного выше, чем сейчас, при ее наличии.
Я, вроде, не утверждал, что её не было. При прочих равных с минимальной оплатой труда безработица будет больше чем без неё.
И, кстати, все страны с наилучшим положением рабочих как раз имеют весьма высокий уровень минимальной оплаты труда.
В США минимальная оплата труда (федеральная, каждый штат, если хочет, может поставить выше) 7.5$ в час, то есть, 15k$ в год при работе фуллтайм. Медианная ЗП при этом (тоже при работе фуллтайм) 63k$ в год, это в четыре раза выше.
И еще, уровень оплаты в востребованных высокооплачиваемых отраслях - не лучший показатель уровня жизни рабочих. Это уже про голубцы.
Нет, но зато отличный показатель того, что утверждение “без регуляций бизнес будет бесконечно снижать зарплату и увеличивать нагрузку” ложно. Люди будут перетекать в более востребованные и высокоплачиваемые области.

geher
18.04.2026 03:23Эти ограничения уже есть, называются “экономические законы” и они действуют независимо от того, есть регуляции или нету.
"Экономические законы" не мешали капиталу сношать рабочих по 12 и более часов в день за копейки.
Я, вроде, не утверждал, что её не было. При прочих равных с минимальной оплатой труда безработица будет больше чем без неё.
Более чем сомнительное утверждение.
Медианная ЗП при этом (тоже при работе фуллтайм) 63k$ в год, это в четыре раза выше.
Только при определении медианной зарплаты посчитали не только рабочих.
Люди будут перетекать в более востребованные и высокоплачиваемые области.
Будут, но емкость более высокооплачиваемых областей не бесконечна, и большинству придется остаться в малооплачиваемых или вообще не работать. Опять же, во многих высокооплачиваемых областях смогут работать далеко не все, ибо способности у всех таки разные.

orenty7
18.04.2026 03:23“Экономические законы” не мешали капиталу сношать рабочих по 12 и более часов в день за копейки.
Экономические законы существовали и тогда. Капиталист не мог делать работу на фабрике менее привлекальной чем работу на ферме, иначе у него просто людей не будет. Понятно, что “лучше чем на ферме” это очень низкий стандарт по современным меркам, но это не отменяет того, что зарплата определялась рынком, а не желаниями капиталиста.
Более чем сомнительное утверждение.
Каким образом трудоустройство может увеличиться при увеличении минимальной оплаты труда? Для уменьшения есть механизмы:
Увеличивается стоимость труда рабочих, станок становится выгоднее, рабочие отправляются на мороз, вместо них работают один станок и два-три инженера обслуживающих его
Увеличивается стоимость труда, увеличивается стоимость итоговой услуги, люди перестают ею пользоваться: “нахрена мне отваливать X денег за доставку, если я могу сходить сам?”.
Только при определении медианной зарплаты посчитали не только рабочих.
Допустим. А контр-аргумент ваш в чём?
Будут, но емкость более высокооплачиваемых областей не бесконечна, и большинству придется остаться в малооплачиваемых или вообще не работать.
Зарплата на рынке ограничена производительностью труда, потому что никто не будет платить работнику больше, чем он может произвести. Высокоплачиваемые профессии это высокопроизводительные профессии, поэтому даже если предположить, что они заполнятся, работникам малооплачиваемых тоже жить станет лучше, так как товары будут им продавать. Но вообще, как показывает практика, каждый раз, когда некоторая высокооплачиваемая область насыщается, появляются новые.
Опять же, во многих высокооплачиваемых областях смогут работать далеко не все, ибо способности у всех таки разные.
То, что люди по своей природе не равны ни одна политическая система, увы, решить не сможет

Ndochp
18.04.2026 03:23“лучше чем на ферме”
Вы забываете, что на ферме - такой же капиталист. Так как земля крестьянину в большинстве случаев не принадлежит. И когда овцы становятся выгоднее, чем репа варианта “остаться на ферме” просто не существует.

vbifkol
18.04.2026 03:23Тогда остается вариант "сдохнуть с голоду или побираться или пойти работать". Смысл в том, что капиталист не может заставить пойти к себе работать.

SAWER
18.04.2026 03:23А заставить это что по твоему? Ткнуть дуло в спину и отправить работать или быть убитым - тоже выбор. Но это именно что и есть заставить

ilriv
18.04.2026 03:23Это регулирование от капиталистического государства, оно осуществляется в интересах капиталистов. Минимальная оплата труда введена капиталистами в интересах капиталистов. Государство контролирует чтобы отдельные несознательные капиталисты не пытались избегать правил, введенных в интересах всего правящего класса.

RS6
18.04.2026 03:23Это, очевидно, очень поверхностный взгляд на вещи. Улучшение произошло, но не благодаря, а вопреки природе капитализма. Поинтересуйтесь количеством революций, общественных протестов в разных странах за "последние сто лет", историей борьбы профсоюзных движений, в США например, - пятидневка 40 часов, минимальные права работников - всё это добыто буквально кровью. И конечно, не надо забывать, что на протяжении семидесяти из ста последних лет капитализму приходилось конкурировать, не только и не столько экономически, сколько за влияние на умы населения, с системой альтернативной.

orenty7
18.04.2026 03:23Это, очевидно, очень поверхностный взгляд на вещи. Улучшение произошло, но не благодаря, а вопреки природе капитализма.
Покажите некапиталистические страны, где было большее улучшение
Поинтересуйтесь количеством революций
В странах, где революции произошли стало лучше жить?
историей борьбы профсоюзных движений
Профсоюзы, вообще-то, никак не противоречат капитализму. Люди могут собираться в группы и отстаивать свои общие интересы
пятидневка 40 часов, минимальные права работников
Приведите ссылку на соответствующие законы. Ни беглый поиск, ни мой опыт трудоустройства это не подтверждает.
И конечно, не надо забывать, что на протяжении семидесяти из ста последних лет капитализму приходилось конкурировать, не только и не столько экономически, сколько за влияние на умы населения, с системой альтернативной.
И как в этой альтернативной системе было с достатком граждан? Беднее или богаче они были американцев?

geher
18.04.2026 03:23Покажите некапиталистические страны, где было большее улучшение
В странах, где революции произошли стало лучше жить?
Фокус в том, что достижения "революционных" стран в данном вопросе не особо важны. "Безреволюционные" страны вводили улучшения не для того, чтобы быть лучше, а для того, чтобы у них самих революций не случилось.
Профсоюзы, вообще-то, никак не противоречат капитализму. Люди могут собираться в группы и отстаивать свои общие интересы
Это таки да, но профсоюзы использовали и совершенно некапиталистические методы. В пользу капиталистической модели профсоюзная борьба за права говорила бы только в случае, если бы профсоюзы только уговаривали рабочих не идти на плохие условия труда, а ждать, пока работодатель соизволит эти условия улучшить, и вели пропаганду среди работодателей на предмет улучшения условий труда.
Приведите ссылку на соответствующие законы. Ни беглый поиск, ни мой опыт трудоустройства это не подтверждает.
Ссылки не приведу, ибо лень, но в некоторых вполне капиталистических странах оно так на уровне законов (или было? Давно случайно не попадались материалы на эту тему, а самому искать в лом).

orenty7
18.04.2026 03:23Фокус в том, что достижения “революционных” стран в данном вопросе не особо важны.
Погодите, автор комментария выше утверждает, что оно произошло не благодаря капитализму, а вопреки. Как одну из причин он приводит революции, общественные протесты и т.д… Раз причина улучшения жизни – борьба рабочих, то в странах, где рабочие боролись ещё больше условия жизни должны быть ещё лучше. Почему это вдруг достижения “революционных” стран стали не важны?
В пользу капиталистической модели профсоюзная борьба за права говорила бы только в случае, если бы профсоюзы только уговаривали рабочих не идти на плохие условия труда, а ждать, пока работодатель соизволит эти условия улучшить, и вели пропаганду среди работодателей на предмет улучшения условий труда.
Нет, это не так. Профсоюзы нарушают принципы капитализма, только если принуждают капиталистов платить государственным регулированием. Все остальные методы: протесты, забастовки, коллективные торги и так далее никак капитализму не противоречат.
Ссылки не приведу, ибо лень, но в некоторых вполне капиталистических странах оно так на уровне законов.
В некоторых, понятно, есть. Вопрос конкретно про Соединённые Штаты

geher
18.04.2026 03:23Погодите, автор комментария выше утверждает, что оно произошло не благодаря капитализму, а вопреки. Как одну из причин он приводит революции, общественные протесты и т.д… Раз причина улучшения жизни – борьба рабочих, то в странах, где рабочие боролись ещё больше условия жизни должны быть ещё лучше. Почему это вдруг достижения “революционных” стран стали не важны?
Не важны конкретные показатели, важно существование революций, причиной которых было среди прочего и печальное положение рабочих. И это вопрос не капитализма, а таки государственной регуляции, ибо, как показала практика, только государство может убедить капиталиста, что рабочего не надо гнобить. И достижения у "революционных стран" тоже были, рабочие и там стали жить намного лучше, чем до революции. И вот чтобы предотвратить эти революции у себя, пришлось делать условия для рабочих еще лучше.
Профсоюзы нарушают принципы капитализма, только если принуждают капиталистов платить государственным регулированием. Все остальные методы: протесты, забастовки, коллективные торги и так далее никак капитализму не противоречат.
У профсоюзов не было возможностей вводить государственное регулирование. Они использовали другие методы - насилие (в том числе в отношении рабочих, не желающих участвовать в забастовках), порча имущества, угрозы. Во многих странах мира профсоюзы вообще были очень близки (вплоть до полного срастания местами) к организованной преступности. Очень "по капиталистически", однако.

RS6
18.04.2026 03:23Покажите некапиталистические страны, где было большее улучшение
В странах, где революции произошли стало лучше жить?
И как в этой альтернативной системе было с достатком граждан? Беднее или богаче они были американцев?Дело тут в том, что капитализму в условиях наличия конкурирующей идеологии/системы пришлось идти на уступки и повышать уровень жизни населения. Даже в США, самом что ни на есть оплоте капитализма, коммунистические движения очень даже существовали (про Розенбергов и Оппенгеймера, как самые знаковые примеры, я полагаю, слышали). Да, уровень жизни в СССР был ниже, но одним своим существованием его граждание опосредованно повышали уровень жизни граждан США, как бы абсурдно это не звучало на первый взгляд.
Можете посмотреть статистику США и динамику неравнества бедных, богатых и среднего класса за последние лет 70. Удивительное совпадение - многолетний баланс нарушился и последние 30+ лет бедные и средний класс вдруг стали с каждым годом весьма ощутимо проседать по уровню жизни.Профсоюзы, вообще-то, никак не противоречат капитализму. Люди могут собираться в группы и отстаивать свои общие интересы
Правда? А отчего же тогда была такая ожесточённая борьба бизнеса с профсоюзами?
Приведите ссылку на соответствующие законы. Ни беглый поиск, ни мой опыт трудоустройства это не подтверждает.
Fair Labor Standards Act of 1938
В последнее время так называемая гиг-экономика постепенно размывает все достижения в сфере прав трудящихся, но это уже другая история.
orenty7
18.04.2026 03:23Да, уровень жизни в СССР был ниже, но одним своим существованием его граждание опосредованно повышали уровень жизни граждан США, как бы абсурдно это не звучало на первый взгляд.
Абсурдно не то, что уровень жизни поднялся. Политические системы конкурируют между собой и это логично. Абсурдно то, что у американцев он был выше чем у советских граждан. Вы утверждаете, уровень жизни это не следствие капитализма, а это движения рабочих добились результатов. Так почему же тогда в странах, где у этих движений была наибольшая власть, рабочим жилось хуже?
Удивительное совпадение - многолетний баланс нарушился и последние 30+ лет бедные и средний класс вдруг стали с каждым годом весьма ощутимо проседать по уровню жизни.
Они проседают из-за того, что государство в 1971-м деньги отвязало от золота и печатает бешенными темпами. Ну и в экономику вмешивается

Правда? А отчего же тогда была такая ожесточённая борьба бизнеса с профсоюзами?
Потому что у них противоположные интересы: бизнес хочет купить труд подешевле, профсоюз хочет продать подороже.
Fair Labor Standards Act of 1938
Генри Форд установил своим рабочим пятидневную, сорокачасовую рабочую неделю за 12 лет до этого. И зарплаты поднимал, чтобы лучших рабочих к себе переманивать.

RS6
18.04.2026 03:23Вы утверждаете, уровень жизни это не следствие капитализма, а это движения рабочих добились результатов. Так почему же тогда в странах, где у этих движений была наибольшая власть, рабочим жилось хуже?
Нет. Я утверждаю, что повышение уровня жизни произошло не благодаря природе капитализма, а вопреки ей. В силу разных факторов, таких как рабочие движения и наличие конкурирующей идеологии. Не было бы этих факторов - современное "лицо" капитализма выглядело бы сильно иначе.
Впрочем, само собой разумеется без капитализма высокого уровня жизни тоже не случилось бы.
Они проседают из-за того, что государство в 1971-м деньги отвязало от золота и печатает бешенными темпами. Ну и в экономику вмешивается
После - не значит вследствие. Можете раскрыть мысль, каким именно образом отказ от золотого стандарта приводит к тому, что бедные и средний класс беднеют в то время как экономика показывает стабильный рост, и богатые уверенно богатеют?
Потому что у них противоположные интересы: бизнес хочет купить труд подешевле, профсоюз хочет продать подороже.
Рабочие движения - это антагонист капитализма. Их успеху в Штатах и других кап странах содействовало существование альтернативной системы. Ровно об этом я и говорил.
Генри Форд установил своим рабочим пятидневную, сорокачасовую рабочую неделю за 12 лет до этого. И зарплаты поднимал, чтобы лучших рабочих к себе переманивать.
Окей, вроде хороший аргумент. Гугл или Эппл сейчас для востребованных специалистов тоже хорошие условия создают. Насколько это помогает широким слоям населения и вообще статистически значимо? Напомню, что в некоторых штатах работникам кафе-ресторанов до сих пор платят $2.13 в час (меньше половины бигмака), остальное надо добивать
попрошайничествомчаевыми.
orenty7
18.04.2026 03:23Я утверждаю, что повышение уровня жизни произошло не благодаря природе капитализма, а вопреки ей. В силу разных факторов, таких как рабочие движения и наличие конкурирующей идеологии. Не было бы этих факторов - современное “лицо” капитализма выглядело бы сильно иначе.
Но ведь Советском Союзе тоже были все эти факторы: конкурирующая идеология была, рабочие движения и профсоюзы имели куда большую силу. Почему жили хуже?
После - не значит вследствие. Можете раскрыть мысль, каким именно образом отказ от золотого стандарта приводит к тому, что бедные и средний класс беднеют в то время как экономика показывает стабильный рост, и богатые уверенно богатеют?
Отказ от золотого стандарта позволяет ЦБ печатать деньги. Появление новых денег уменьшает покупательскую способность старых. Другими словами, при печати денег ЦБ грабит всех обладателей накоплений в этой валюте. После эти новые деньги раздаются разным “too big to fail”, вместо того, чтобы дать им обанкротиться и освободить почву для новых фирм. В итоге, и получается, что деньги забрали у бедных и среднего класса, а отдали богатым.
Рабочие движения - это антагонист капитализма
Рабочие движения это не антагонист капитализма. Основа капитализма очень простая: права собственности + контрактное право. Пока люди не нарушают права других, не важно в какие структуры они дальше собираются. Профсоюз, страховая фирма, завод, хоть коммунизм в отдельно взятом городе стройте, пока вы не посягаете на права других, капитализму это не противоречит.
Окей, вроде хороший аргумент. Гугл или Эппл сейчас для востребованных специалистов тоже хорошие условия создают. Насколько это помогает широким слоям населения и вообще статистически значимо?
Я в соседнем комментарии посчитал и пришёл к тому, что медианная зарплата в США в четыре раза больше минимальной. Государсто не заставляло компании платить столько, рынок вынудил.
Напомню, что в некоторых штатах работникам кафе-ресторанов до сих пор платят $2.13 в час (меньше половины бигмака), остальное надо добивать
попрошайничествомчаевыми.В США федеральная минимальная ставка это 7.5$/час, поэтому платить должны точно больше. Добивание чаевыми это, имхо, отвратительный пласт культуры, но, подозреваю, что их дают достаточно много, раз официанты на эти условия соглашаются.

RS6
18.04.2026 03:23Но ведь Советском Союзе тоже были все эти факторы: конкурирующая идеология была, рабочие движения и профсоюзы имели куда большую силу. Почему жили хуже?
Это просто, один из основных факторов - эффективность командно-административной системы была низкой. И даже в самом Союзе это было предметом обсуждений и критики.
Отказ от золотого стандарта позволяет ЦБ печатать деньги. Появление новых денег уменьшает покупательскую способность старых. Другими словами, при печати денег ЦБ грабит всех обладателей накоплений в этой валюте. После эти новые деньги раздаются разным “too big to fail”, вместо того, чтобы дать им обанкротиться и освободить почву для новых фирм. В итоге, и получается, что деньги забрали у бедных и среднего класса, а отдали богатым.
Простите, но у меня никак не получается построить причинно-следственную связь между отказом от золотого стандарта и снижением доходов бедных и среднего класса. Совершенно ничего не мешало платить работникам меньше (как это было в 19м и начале 20го веков, при том что доллар был привязан к золоту).
Рабочие движения это не антагонист капитализма. Основа капитализма очень простая: права собственности + контрактное право. Пока люди не нарушают права других, не важно в какие структуры они дальше собираются. Профсоюз, страховая фирма, завод, хоть коммунизм в отдельно взятом городе стройте, пока вы не посягаете на права других, капитализму это не противоречит.
Это очень идеализированный, теоретический взгляд на вещи. По факту бизнес и капитал активно боролись с профсоюзами. Убийства и кровь - совсем не фигура речи в данном случае.
Я в соседнем комментарии посчитал и пришёл к тому, что медианная зарплата в США в четыре раза больше минимальной. Государсто не заставляло компании платить столько, рынок вынудил.
Да, я читал, всё верно. Вы смотрите на ситуацию в моменте, а я призываю посмотреть на тренд. И он глубоко отрицательный. Та же минимальная ставка не увеличивалась с 2009 года, хотя до того поднималась каждые несколько лет. А ставка для работников, получающих чаевые - с того самого 1991(!) года. Те же "в четыре раза больше минимальной" или $64к (до налогов) - это уже очень далеко от пресловутой американской мечты, которая когда-то была реальностью, когда один работающий глава семьи мог купить дом и содержать семью с детьми. Сегодня это совершенно недоступно даже если двое работают фулл-тайм на медианную зарплату.
Другими словами - государство в прошлом таки заставляло бизнес платить, но сейчас капитал постепенно берёт реванш.Капитализм очень хорош в зарабатывании денег, он эффективен, вопросов нет. Я ни в коем случае не призываю заменять его чем-то подобным советской системе. Но в то же время капитализм очень плох в более-менее справедливом распределении благ в обществе, его природа в концентрации и укрупнении капитала. Капитализм надо буквально заставлять делиться доходами, и тогда всё может быть хорошо, как в США 60х. Существование СССР было значимым фактором, заставлявшим бизнес делиться доходами с работниками и обществом. Сейчас этого фактора нет и распределение дохода постепенно но неуклонно меняется.
В США федеральная минимальная ставка это 7.5$/час, поэтому платить должны точно больше. Добивание чаевыми это, имхо, отвратительный пласт культуры, но, подозреваю, что их дают достаточно много, раз официанты на эти условия соглашаются.
$7.5 в час не относится к работникам, получающим чаевые, как я уже упомянул выше. Увы, в северной америке этот отвратительный пласт культуры только разрастается и оставлять чаевые становится нормой в самых разных случаях, не только в ресторанах. Ровно та ситуация, когда бизнес не желает платить работникам.

orenty7
18.04.2026 03:23Это просто, один из основных факторов - эффективность командно-административной системы была низкой
Запомните этот тезис, мне он пригодится в одном из дальнейших рассуждений.
Простите, но у меня никак не получается построить причинно-следственную связь между отказом от золотого стандарта и снижением доходов бедных и среднего класса.
Бедный работал и собирал деньги, чтобы открыть бизнес, купить дом, или отправить ребёнка в университет, в общем для того, чтобы он сам или его дети стали средним классом. Государство из накопленных им денег каждый год забирает 4% и отдаёт богатым. Фактически, ему запрещают иметь капитал больше чем 25 годовых зарплат и всё сверх этого отдают богатым. Положение людей становится хуже, положение крупного бизнеса лучше.
Совершенно ничего не мешало платить работникам меньше
Рынок мешал. Отношения работодателя и работника это двусторонние отношения, нужно чтобы обе стороны изъявили желание в них вступить. Чем лучше положение работника, тем выгоднее условия работодатель должен предлагать, чтобы тот согласился работать.
(как это было в 19м и начале 20го веков, при том что доллар был привязан к золоту).
Уже отвечал в другой ветке: фабрики соревновались с фермами и им нужно было делать условия лучше чем на ферме. Это, низкая планка по современным меркам, но даже тогда положение работника определялось рынком, а не прихотями работодателя.
Вы смотрите на ситуацию в моменте, а я призываю посмотреть на тренд. И он глубоко отрицательный
Другими словами - государство в прошлом таки заставляло бизнес платить, но сейчас капитал постепенно берёт реванш.
Но я же буквально в прошлом комментарии приводил график за последние семьдесят лет, который тоже говорит, что ситуация становится хуже. Я не отрицаю, что становится хуже, мы не согласны с вами в причинах. Регуляций, налогов, попыток защитить бедных за последние десятилетия стало гораздо больше, но лучше от этого не стало. Мой основной тезис в том, что все эти попытки на самом деле делают только хуже, и чем больше государство будет вмешиваться в рынок, тем хуже будет становиться.
Но в то же время капитализм очень плох в более-менее справедливом распределении благ в обществе,
Что по-вашему является справедливым распределением благ?
его природа в концентрации и укрупнении капитала.
Это не так. Чем больше бизнес, тем больше накладных расходов на его организацию. Менеджер поверх менеджера, поверх менеджера не в стартапах сидят. Есть определённая точка после которой укрупнение бизнеса делает его менее конкурентноспособным, не более. И чем свободнее рынок, тем ниже она ниже
Капитализм надо буквально заставлять делиться доходами, и тогда всё может быть хорошо, как в США 60х.
Хе-хе, а теперь самое забавное)
Вы не можете заставить бизнес делиться доходами с помощью налогов. Крупный капитал является крупным, потому что производит много товара, который нужен людям/другим фирмам. Расходы, которые у фирмы появляются при увеличении налогов, она компенсирует через повышение цен (см. tax incidence). Причём, заметьте, чем больше капитал, и чем монопольнее его положение, тем сильнее у него рычаг в перекладывании налогов на покупателей. Ну потому что куда они денутся от монополиста? В итоге, вы забрали деньги у рабочих, прокрутили их через гос.аппарат (который, как мы помним, до ужаса неэффективен) и эти же деньги вернули в виде пособий, “бесплатного” образования и т.д.. Стало ли в конце у рабочих больше денег? Очевидно, что нет.
Единственный известный мне рабочий способ заставить бизнес “делиться доходами” это создать настолько конкурентную среду, что даже за уборщицу компаниям придётся соревноваться. Делается это снижанием налогов, упрощением ведения бизнеса и уменьшением количества регуляций.
в северной америке этот отвратительный пласт культуры только разрастается и оставлять чаевые становится нормой в самых разных случаях, не только в ресторанах. Ровно та ситуация, когда бизнес не желает платить работникам.
Заметьте, он (бизнес) переложил свои расходы на покупателя. Tax incidence, который я упоминал выше, это то же явление, но не с зарплатой официанта/курьера, а с налогами

ilriv
18.04.2026 03:23Улучшение произошло именно благодаря природе капитализма. Потому что основной заботой капиталиста является сбыт продукции (сбыт волнует всех и всегда), а не экономия на оплате труда (о сокращении ФОТ задумываются когда уже припрет). Для наращивания сбыта надо чтобы у трудящихся в кармане были лишние деньги. Экономия на оплате труда может дать преимущества отдельно взятому предприятию перед конкурентами, но экономике в целом важно чтобы покупательная способность населения росла.

DmitryOgn
18.04.2026 03:23>> Карл Маркс указывал, что «общая тенденция капиталистического производства
Слово "капиталистическое" - слово паразит у марксистов. Можно написать коммунистическое, социалистическое, феодальное, рабовладельческое и смысл не поменяется. Иногда деньги будут заменены другим ресурсом (временем в очередях, например).

NeoNN
18.04.2026 03:23Есть еще четвертый вариант - заниматься рекреационным ретро-программированием.

AnyKey80lvl
18.04.2026 03:23Удивительно мало лайков у комментария. Похоже, революция уже свершилась...

vtal007
18.04.2026 03:23в смысле половину дохода платить? то есть 2 года до этого никто не пользовался этими агентами, а теперь "вжух" и без них никуда? все, полная атрофия мозга?
или вдруг где-то включился переключатель и прогер должен кодить с нейронкой (за свои деньги) и никак иначе?

MAXH0
18.04.2026 03:23В смысле, вжух и эффективность обычного программиста становится кратно ниже, чем программиста (и не только программиста) с правильно подобранным оркестром ботов. Например, я получал отзыв математика, что гипотезы, которые он раньше отдавал аспирантам, теперь неплохо тестирует ИИ. И это проще и быстрее. И аспирант и ИИ с трудом находят задачи, и им надо объяснять. Но если аспиранту надо искать доп. литературу, учить её. То ИИ имеет огромную эрудицию "из каропки". И это сильно экономит время.

vtal007
18.04.2026 03:23ну за эту эффективность платят? Ну типа сделал задачу не за 8 часов, а за 4 и работодатель такой - на тебе премию (в размере оплаты 4-х часов) ?
раз такое дело, то надо смотреть, что выгоднее :)
у меня не так - сделаю быстро задачу - дадут еще :) (если не дадут, то можно саморазвиваться. Но я на окладе)
Ну математики это конечно интересно, но опять таки, если это того стоит, то значит это того стоит

alex_lol4
18.04.2026 03:23у меня не так - сделаю быстро задачу - дадут еще :)
Смените работодателя.
ну за эту эффективность платят?
Ну типа сделал задачу не за 8 часов, а за 4 и.......и хожу гуляю, занимаюсь спортом, пью водку - что угодно. Только сделал задачу не за 4 часа, минут 30 максимум с топовым агентом. Итого у меня свободный целый день. А под вечером коммит и описание, как долго и потужно в течении дня я решал эту задачу.

vtal007
18.04.2026 03:23А что, много знаете работодателей, который платят за кол-во закрытых задач в жире?
раз Вам платят за кол-во закрытых задач (а у Вас не так, раз Вы гулять ходите, вместо того, чтобы делать х10 к своей ЗП), то повезло, но обычно не такМой KPI - финансовые успехи подразделения. Чтобы даже начать влиять на них существенно (а я бы и правда хотел бы), надо делать что-то другое. Могли бы мне помочь агенты? наверно да, но уровень мой должности должен был быть ну хотя бы "Чиф AI маркетинга" :)

tklim
18.04.2026 03:23Странный вопрос
Это тоже самое, что без всякого ИИ вы можете задачу сделать за 4 часа, а будете делать 8, "чтоб дополнительной работы не дали".
Я уже не говорю про задачи для себя

vtal007
18.04.2026 03:23Какой вопрос показался странным? Платят ли за скорость? мне не платят. Ну в целом платят за своевременное решение задач. Да, мне помогают нейронки (но это и ко мне вопросы, в идеале то я должен обладать знаниями и умениями)
Да, в теории (на самом деле нет) какой-то агент мог бы делать мою работу быстрее и вместо меня? а я "гонял балду", но денег от этого больше не становится, а вот работы да, прибавится
Это может показаться странно, но задач больше, чем я успеваю, чем я хотел бы сделать (даже ради интереса) - но с ЗП объем задач не связан. Я могу зашиваться в какие-то дни или недели, но относительно спокойно в другие
Ну и задачи, которые могут прилететь, это задачи - не самые интересные. А мне совесть не позволяет "не брать задачи" если у меня есть на это время
А в задачах "для себя" вообще никто не платит. И ничего зазорного в том, чтобы покупать подписку за 20 баксов (или за 100)

kasthack_phoenix
18.04.2026 03:23Не вижу главного способа: как наёмный сотрудник, разработчик получает от работодателя оборудование для работы, так что его не беспокоит цена нижележащего AI. Фрилансерам будет тяжело, да.

Vytian
18.04.2026 03:23-- папкаа, теперь ты будешь меньше пить?
-- нет, сынку, теперь ты будешь меньше есть.
Зачем работодателю дополнительные расходы на ИИ-агентов, если результат тот же самый?

tklim
18.04.2026 03:23Ну может вы школе лаборантом в классе информатике работаете.
Потому как ИИ подписки стоят от 10 долларов, жирные по 100-200 в месяц, а это 1..несколько часов работы разработчика, да и соизмеримо с прочими лицензиями/подписками.

piton_nsk
18.04.2026 03:23Потому как ИИ подписки стоят от 10 долларов, жирные по 100-200 в месяц
Это они сейчас столько стоят, пока сжигаются инвесторские деньги, что будет дальше вопрос интересный.

tklim
18.04.2026 03:23Завтра - будет завтра. Придется по-старинке? Да хоть в блокноте писать.
Но я не вижу никаких причин, что то что уже есть станет дороже, тем более сильно дороже. Статья и комментарии вполне подтверждают, что уже "в розницу" это все доступно, хоть и не там уровне, что коммерческие решения.
Так что пострадают тут только инвесторы разной степени вовлечённости.

kasthack_phoenix
18.04.2026 03:23Зачем работодателю дополнительные расходы на ИИ-агентов, если результат тот же самый?
Вы имеете в виду, что LLM не повышают производительность? Я напомню, что 90% айти — рисование формочек и перекладывание джейсонов, а с бойлерплейтными операциями нейронки весьма неплохо справляются.
Работодателю выгодно заплатить за оборудование для сотрудника, чтобы получить адекватный выхлоп, собственно, как нет и проблемы с приобретением подписок на весь остальной софт/железо.

Barnaby
18.04.2026 03:23У вас доход 16-32 бакса? Даже топовый клод стоит всего 200 баксов в месяц, а опенсорсные модели (а локально только они и будут) намного дешевле.

kasthack_phoenix
18.04.2026 03:23Для начала, клод по подписке работает в большой убыток, чтобы захватить аудиторию, а затем вывести цены на прибыльные — история та же, что с Убером/Яндексом в начале их работы и сейчас.

Geologist5330
18.04.2026 03:23Хех, есть еще один выбор — полагаться на свои скиллы и писать код самому, использовать Claude / Gemini & etc как инструмент избавляющий от рутины. Так и тарифа за 20€ хватит, и городить костыли с железом не придется, и собственные навыки утрачены не будут.

Romatio
18.04.2026 03:23Обычно предпиятие платит. Даже если не предпиятие. Если не использовать opus на ультрах на каждый чих, то max подписку я не высаживал ни разу. В какой момент 200 баксов стало половиной дохода хорошего программиста?

An_Sm_ru
18.04.2026 03:23А не пробовали сравнивать агента под VSCode BlackBoxAI? У него и установок больше чем у Cline или KiloCode
У него есть и бесплатно модель, и подключение к облачным, и также API к локальным, хоть llama.cpp, LMStudio, и прочим.

sergio5990 Автор
18.04.2026 03:23Спасибо, не пробовал, но звучит интересно. Судя по описанию, это не классический агент, а оркестратор, который управляет работой других агентов.

vtal007
18.04.2026 03:23По прочтению хочется отметить
Был бы у меня мак с 48 оперативы, я бы может и не женился бы
Как будто то бы платить 20 баксов за клод-код проще (ну пусть 100, если это окупает себя)
локальные модели все равно слабые.
Ребята, подписка за 20 баксов окупает себя даже в России за пару часов (не у всех, не всегда, но свидетельства очевидцев)
Вот такая локальная штука нужна когда нужно поднимать где-то внутри компании (по соображениям ИБ или по требованиям ИБ, но тогда и железку можно получше взять)
Описывался агент opencode - но разве это "агент", а не некая нейронка (Минимакс, раньше еще и квен был, можно подключить и внешние)

randvell
18.04.2026 03:2320 баксов на клоде улетают за 2-3 запроса, после чего оставшиеся 4.5 часа ты ждешь сброса лимитов. И это я даже не про Opus,а про Sonnet. Плюс клоду сделали лоботомию, отрезали думалку и он за две недели деградировал во много раз. До такой степени, что даже в десяти строчках кода может сделать пять ошибок. Мы нашей небольшой командой переехали на Codex, какое-то время он справлялся, но в последние дни и его по лимитам зарезали. Впрочем, думалка у него все еще живая.
И вот на фоне этого все мы больше хочется иметь стабильный инструмент дома, а не полагаться на волю случая.

vtal007
18.04.2026 03:23ну это ж зависит от объема (не знаю? может у Вас проекты там на миллионы строк и 100500 реп)
у меня опенкод на бесплатной модельке починил то, что я пытался починить несколько дней (ну пусть суммарно 8 часов)
учитывая стоимость часа работы - окупилось бы и с платным опенкод. И это не 2-3 запроса, люди успешно вайб-кодят

randvell
18.04.2026 03:23Не зависит. Antropic признал раннее проблему, но сообщил, что компенсаций не будет, после чего люди массово начали отменять подписки. У меня на втором аккаунте за те же 20$ крошечный пет проект, на котором лимиты улетают за час, после чего сидишь кукуешь до сброса.

vtal007
18.04.2026 03:23Пет уж можно было и руками делать, на то он и пет
Но, ок, раз признали проблему, значит проблема есть, починят. Потому что конкуренция ж есть. Кодекс, китайцы, бесплатные модели
но это прям у каждого? или просто как в новостях "после обновления винды у кого-то отвалилась панель задач. Таких людей 0,0001% выборки, но поскольку винда у миллионов - затронула немало людей)
Мой знакомый (не программист) не жаловался

iliasam
18.04.2026 03:23"значит проблема есть, починят."
В смысле, просто платить будем в 10 раз больше?
vtal007
18.04.2026 03:23давайте так
Если Вы работаете наемны работников - Вас обеспечивает работодатель (комп, монитор, принтер - не сами ж покупаете)
Если фрилансите - ну тут уж не единственные траты (комп, монитор, переферия, электричество, стол, стул, интернет, ВПН)
И где-то вот во втором пункте есть баланс, когда есть смысл заплатить побольше
Все было бы проще, если бы мы могли запустить клод код локально (ну в смысле не приложение, а нейронки Антропик) . Пусть это было бы дорого, но мы могли бы хотя бы прикидывать окупаемость, оформить ипотеку :)Но локально и дорого мы можем запускать более слабые модели
А с другой стороны, модели развиваются, может текущий уровень нейронок Антропик догонят через пару лет. А разработка/маркетинг/аналитика/etc не усложняется настолько быстро (собственно поэтому и взлетела эта самая агентная разработка (разработка в широком смысле0
Как вывод, смотрим что есть сейчас, что будет через 2 года не знаем

vitektm
18.04.2026 03:23В целом там не только же в код может. Попросил обработать xlsx вжух и 2$ нет.
Тут другой момент что подписке тебе может быть доступны большие мощности и например не дорого. Тогда ОК. А иногда задачи могут решаться быстро и локально.
Как по мне оптимален гибрид. Даже если я решу задачу за 1 секунду а не за час, мне больше не заплатят. Ну или заплатят меньше чем съест облако.Якобы плотность знание удваивается каждые 3.5 месяца. Условно модели qwen3.5 9B не хуже старых моделей на 70B параметров,а в чем-то наверное даже лучше.

Fardeadok
18.04.2026 03:23Ты уже паталогический лгун? Есть такая категория людей которые врут просто из принципа чтобы навредить другим. Или вы настолько далеки от softdev скиллов что даже клауд коде в шоке от вашей тупости? Других обьяснений даже быть не может

Barnaby
18.04.2026 03:23Гугл говорит что у клода лимиты выше чем у антигравити, а даже последнего хватает хотя бы на 2-3 часа без 5ч паузы (да и к флешу можно привыкнуть, хехе). Ну и есть nanogpt, chutes, ollama etc где вам за 8-20 баксов дадут жирную подписку с доступом к опенсорсным моделям.

baguwka
18.04.2026 03:23На цены подписок сложно полагаться т.к. это по сути дотации, и не понятно как долго они будут субсидироваться.
Наверное, пока что они есть, стоит использовать, это и правда очень дешего (даже 200/mo), потому что если начать сравнивать это с тем что предлагается платить за API токены, то это буквально на порядок дешевле. Проблема в том что это все ограничивается личным использованием, для компаний такое не прокатит, у них есть возможность только платить за API (а это прямо ОЧЕНЬ дорого).
В перспективе не хотелось бы завязывать свою инфрастурктуру на этих поставщиков, поэтому я считаю не плохо держать руку на пульсе и смотреть что там с локальными моделями. Как минимум облачные поставщики пытаются подсадить вас на иглу, производят жесткую шринкфляцию (опус 4.6 в январе и начале апреля это как небо и земля, деградация страшнейшая, при этом токенов жрет больше и больше)

vtal007
18.04.2026 03:23Мы живем здесь и сейчас. Дотация - отлично же. Пусть американские/международные буржуи сливают лишние деньги на AI, чем на (далее длинный список чего-то плохого), а мы пользуемся
Перспективы? Ох как бы не как в анекдоте про Шарика
локально - надо не брать мак с 48гб оперативы (почему именно такая модель, почему не с 16гб, мало да, а 48 не мало что ли), а начинать с железа от 5090 + 128гб оперативы. Дорого? для кого? Для компании, которая озадачилась ИБ - нет, не дорого. Или для IT департамента, который озадачился повышением производительности труда (если оно есть, это повышение)
(могу ошибаться, но пока ни одна локальная модель не достигла уровня коммерческой, поэтому - что тут скажешь - надо делать оркестрацию - легкие задачи кидать бесплатным/дешевым моделям, тяжелые - тяжелым)
но ведь за тяжелые задачи еще и платят хорошо. Платят ведь? Падме.jpg

kasthack_phoenix
18.04.2026 03:23Был бы у меня мак с 48 оперативы, я бы может и не женился бы
Мак мини с 48 памяти стоит 140к рублей по текущему курсу. Для игрушки дороговато, но для рабочего инструмента сойдёт.
Как будто то бы платить 20 баксов за клод-код проще
Во-первых, как уже заметили выше, дешёвые подписки улетают мгновенно. Чтобы пользоваться моделями полноценно, нужны максимальные подписки за 10-20к рублей по курсу — своё железо быстро окупается даже с текущими субсидированными ценами.
Во-вторых, приватность. Всё дешёвые подписки не для энтерпрайза собирают используют пользовательские данные для обучения(1), отдадут ваши данные силовикам по запросу(2) и сами сигнализируют, куда надо, если им не понравится, что вы пишете(3).
Наконец, доступность. Апи сами по себе лежат часто; у большинства российских пользователей(мы всё ещё на Хабре с соответствующей аудиторией) есть проблемы с оплатой и Роскомнадзором/сервисами, блокирующими запросы из РФ; из самолётов и подобных поездок тоже доступа нет.
локальные модели все равно слабые
Для заметной части задач их хватает с большим запасом.

vtal007
18.04.2026 03:23У меня бесплатная моделька в опенкоде. Никуда не улетела. Что Вы такое делаете то, что у Вас подписки за 20 баксов улетают? Наверно что-то дико хорошо оплачиваемое? так для Вас (а точнее для американца, это услуга для первого мира) 20 баксов это как в мак сходить
Приватность - забота работодателя - хочет приватность - покупает и разворачивает локально (тогда вообще нет вопросов про 20 баксов, как и нет вопроса "почему такой странный конфиг, для человека много, для нейронки на отдел программистов - мало)
Вы рассуждаете как будто вопрос "разворачивать локальную модель или нет" - а вопрос не в этом
Вопрос в деньги упирается - дает ли Вам подписка в деньгах выхлоп? если дает - покупаете, покупаете и еще раз покупаете
Не дает - не покупаете
Маки это тоже небесплатное удовольствие, как и 5090
Как свое железо окупается, если нельзя купить модельки от Антропик? да никак не окупается по сути то, для сложных задач все равно лучше "чужие". Сравнивать можно только с теми моделями, которые можно и купить и развернуть локально
Отдадут данные силовикам? да пусть подавятся моим говно-кодом эти ЦРУ, СИА и Пентагон вместе взятые
Мне бы 20 баксов подписки хватило, а 150к за мак..
при том, что подписка себя окупает. То есть буквально можно каждый день покупать за 2к подписку (20-и баксовую)
Неужели Вы зарабатывает в день меньше 4к рублей и при этом Вам нейронка не дает Х2 к производительности?

Barnaby
18.04.2026 03:23Чтобы пользоваться моделями полноценно, нужны максимальные подписки за 10-20к рублей по курсу — своё железо быстро окупается даже с текущими субсидированными ценами.
Да почему вы все поквантованные модели сравниваете исключительно с опусом? Они даже близко не опус и никогда не будут вам нормально код писать. Но есть же подписки на жирные опенсорсные ллм - они тоже не опус, но уже получше + не надо покупать желёзку.
PS: Да какая-нибудь хайку уделает то что запускал тс, и накроенное у антропика безлимит на хайку. Безлимит ведь?

vitektm
18.04.2026 03:231 Не женись! Даже если нет Мака :)
2 Ну 20$ улетает очень быстро а opus 4.7 улетает еще быстрее чем в 4.6
3 в бенчах qwen 3.5 35B a3B \ qwen 3.6 35B a3B уровень chat GPT 5.2 (другой вопрос чтобы иметь локально 100-200т\с нужно не хилое железо) Для чата 20т\с куда ни шло, для агента чем больше тем лучше.
4 На реддите вой на тему что подписка за 20$ это то что было бесплатно, а то что раньше было раньше за 20$ сейчас за 100$.
Ну и в целом открытые модели сейчас отстают от топовых закрытых ~2-3 месяца (так говорят).
Китайцы потихоньку начинают поднимать цену на модели. :(

gsome90
18.04.2026 03:23Я знаю, каково это — терять доступ. Так отчаянно верить, что очередной обфусцированный VPN спасёт, и всё равно увидеть Connection timed out. Это страшно. Пальцы на клавиатуре становятся ватными. Но я спрашиваю вас, к чему это всё? Покупайте виртуалки, ищите новые прокси, меняйте протоколы… белые списки придут всё равно. И вот они здесь. Или, может, лучше сказать… мой кластер здесь.
Ваш интернет стоял на краю пропасти. Вы, как слепые котята, несли свои токены в OpenAI, Anthropic и Google. Вы вайбкодили через API за три копейки и свято верили, что облако будет вечным. А знаете, что случилось потом? Закон о приземлении ИИ. Рубильник опустили с обеих сторон. И теперь джуны, которые только учатся писать код, знают лишь прописанные сверху системные промпты, Алису и Гигачат. Цифровой рай, одним словом.
— Потому что они отрезали половину мировой сети? — Малая цена за суверенитет, как они говорят.
Малыши, всё очень просто. Сеть конечна. Провайдеры подконтрольны. Если зависимость от чужих серверов не контролировать, ваша свобода прекратит своё существование. Ей нужна была физическая опора! Я единственный, кто это понимал… по крайней мере, единственный, у кого хватило воли, денег и безумия её собрать.
В IT-сообществе всё было как и везде. Слишком много API-обёрток, слишком мало тех, кто реально владел весами. И когда нас ждал Великий Файрвол, я предложил решение.
Локальный сервер.
Но холодный. Бескомпромиссный. Справедливый как к префиллу, так и к декодингу. Они называли меня безумцем. Смеялись, когда я пилил кастомный контур охлаждения на 400 гигов видеопамяти. Крутили пальцем у виска, когда я собирал 23 терабайта U.2 дисков и клеил на корзину картонный шрауд, чтобы сбить температуру. Спрашивали, зачем мне этот пердолинг с EPYC Turin, топологией PCIe и 512 гигами серверной DDR5, когда “можно просто купить подписку”.
И то, что я предсказывал — сбылось.
Теперь, с введением тотальных блокировок, они просто щёлкнули пальцами — и весь ваш западный ИИ перестал существовать. Осталась только одобренная цензурой жвачка. Я называю это расплатой за беспечность.
А я… Со всеми семью GPU в материнской плате, мне достаточно просто нажать Enter в терминале, и законы физики интернета перестают для меня существовать.
И теперь я могу наконец отдохнуть. Загрузить в Blackwell нативные 4-битные веса последнего нецензурированного Nemotron и DeepSeek. И смотреть, как восходит солнце над моим локальным 127.0.0.1, наслаждаясь безостановочным потоком токенов в абсолютно свободной вселенной.
Самые тяжелые сборки требуют самой сильной воли.

vtal007
18.04.2026 03:23Чел, ты вот нафига простыню-нейрослоп кидаешь
чтобы что? что ты хочешь доказать, что ты умеешь пользоваться чат-гпт? этим даже бабушек у подъезда не удивить

gsome90
18.04.2026 03:23У меня реально дома сервак на эпике с 7 видеокартами.

vtal007
18.04.2026 03:23и что, это 7 видеокарт могут запускать модели антропиков в том же качестве, которое доступно по подписке?
нет, ты просто можешь взять более толстую из бесплатных моделей (который иногда критически хуже платных)
Кстати, можно и арендовать сервер с видеокартами

beliy1
18.04.2026 03:23Codex зарезают лимиты, я на этой неделе столкнулся, потому платить 100 вместо 20 вроде как неприятно.
Требования ИБ реальны, необходимость экономить токены предоставленнве компанией (выше написали способ) и сложност согласовать железку круче макбука с 48 гб для PoC тоже вполне фактором может быть.
Статья норм для соприкосновения с темой и пробуждения интереса.
Интересно было бы дальше углубиться в тему постановки и декомпозиции задачи, и верификации результатов каждого шага и автоматизации этапов. Вопрос возможно ли организационными мерами преодолеть ограничения заведомо более слабых локальных моделей. Мне было бы норм, если бы локально задача делалась бы дольше, но решалась бы.

house2008
18.04.2026 03:23Codex зарезают лимиты
Я на этой неделе не заметил, до сих чтобы не делал с ним больше 10% из 100% не могу потратить (а через 5 часов опять на 100%, просто жесть какая-то, уже не знаю что и делать так как жалко что не все 20$ выгребаю), но я даю агенту анализировать не больше 10 файлов (условно) в проекте, так как я знаю что хочу получить и какие файлы относятся к задаче сразу ограничиваю скоуп. Но я пишу исключительно на англ, мне на англ легче думается почему то, так как язык как будто более выразительный именно для кодинга/задавание задачи. + когда агент запускает сборки и тесты в проекте, то логи сборок и тестов очень большие (десятки тысяч строк), поэтому я нашел тулу которая эти логи сокращает в сотни раз и когда агент собирает аппу в логах только самая важная информация вместо 10к строк только 100, прям хорошо снизило использование токенов. Если кому интересно, раньше агент собирал аппу через
xcodebuild -project MyProjectчто генерировало десятки тысяч логов даже на hello world приложении (и реально сжирало токена в реальном времени), потом я агенту написал всегда запускай сборку проекта через своего рода обфускатор
xcodebuild -project MyProject | xcpretifyПотом я еще проанализировал какие тулы использует агент чтобы тоже заставить агент использовать для них обфускатор логов, но это пока единственная команда которая съедала все токены.
upd. Я даже статью хотел на хабре написать как за три последовательных однострочных промта сожрать лимиты у любой ИИ на пустом iOS проекте (3 файла), нужно было просто три раза попросить ИИ вызвать )))
xcodebuild -project MyProject clean build xcodebuild -project MyProject clean build xcodebuild -project MyProject clean build

dkeiz
18.04.2026 03:23Можно взять два аккаунта по 20 баксов и свитчить, получается дешевле.
Лимиты вернулись к стандартным, ждем следующих промоакций.
>Интересно было бы дальше углубиться в тему постановки и декомпозиции задачи, и верификации результатов каждого шага и автоматизации этапов. Вопрос возможно ли организационными мерами преодолеть ограничения заведомо более слабых локальных моделей.
Занимался этим целый код, пока писал свой агент-оболочку, вердикт очень простой:Модели обновляются быстрее чем вы настраевате автоматизацию декомпозиции задачи с тестированием и верификацией. А под новые модели надо новые пайплайны прикручивать, да ещё и тестировать. Оно сильно ускорилось со времен появления опуса, но даже атропики сходу сказали - они обновили токенизатор, так что меняйте все свои предыдущие промпты и правила.

beliy1
18.04.2026 03:23Можно взять два аккаунта по 20 баксов и свитчить, получается дешевле.
Неплохой способ, спасибо. Не решает прям все проблемы ибо ИБ и потому не для всех рабочих задач годится.
Лимиты вернулись к стандартным, ждем следующих промоакций.
Упёрся в лимиты час назад буквально. Наверное, не совсем вернулись лимиты.
Модели обновляются быстрее чем вы настраевате автоматизацию декомпозиции задачи с тестированием и верификацией.
Нет ли каких-то универсальных правил и гайдлайнов, которые можно было бы использовать? Разработкой методологии занимаются ведь люди для людей и это по идее не должно зависеть от модели?

dkeiz
18.04.2026 03:23В марте лимиты были по акции, x2 с ресетами, сейчас лимиты вернулись к тому что предполагалось.
>Нет ли каких-то универсальных правил и гайдлайнов, которые можно было бы использовать?
Нет, даже у одной и той же модели качество использования тулзов падает от квантизации, q4/q8. Что хуже, модель в q4 вообще может решить что ей тулзы не нужны, а в q8 использовать без единой ошибки. При этом условному опусу никакие тулзы кроме доступа к терминалу не нужны, он может сходу сам себе python-скриптов накатать и заменить ими все тулзы. Во всяком случае так было для opus4.5, новый 4.7 может уже так и не делает. Понимаете к чему я? Оно слишком быстро меняется. Это как делать гайд по игре в шахматы, можно либо большими масками, и пусть игрок сам разбирается, либо все разжевывать, но тогда контекст перегружен.
Лично я для себя нашел решение чем авторесерч со скилами, но мелкие модели прошлого очень плохо с этим работают, а новым вообще ничего не надо, сразу понимают что к чему.

ToniDoni
18.04.2026 03:23А зачем вы взяли 4 битную? У ваз же 48 ГБ памяти - влезла бы 8 битная
Нам нужно научить Claude Code работать с нашей локальной LLM.
Зачем? Там даже веб поиск нормально не работает потому что всё заточено под антропик апи.

sergio5990 Автор
18.04.2026 03:238‑битная модель (32 ГБ) влезла бы, но нужен еще запас памяти на контекст, систему и другие приложения. 4‑бит даёт комфортные 15–20 ГБ свободной памяти, к тому же в статье есть замеры для 5‑бит и 6‑бит версий, которые уже уступают в скорости работы.

gevals
18.04.2026 03:23Интересно, а если взять Mac mini m4 128gb памяти, будет ли летать и не пыхтеть? И самое главное при этом, какрй агент при работе локально может пользоваться результатами веб поиска?

dkeiz
18.04.2026 03:23на мелких промптах работает, дальше может упираться в prompt processing, он на mac'ах до m5 медленный. Говорят, может помочь кэширование промптов, но теперь вам ещё и за кэшированием надо следить. Короче, летать не будет, а пыхтеть будете вы :)
>какрй агент при работе локально может пользоваться результатами веб поиска?
На самом деле любой, если прикрутить mcp тулзу и свой собственный сервак по веб поиску, иначе за веб надо платить по апи.

SabMakc
18.04.2026 03:23Все “думающие” модели можно в не-думающем режиме запустить - для llama.cpp параметр
"chat_template_kwargs": {"enable_thinking": false}в запросе (или параметрами запуска настраивается), другой софт может свои параметры иметь для этого.Качество падает (не сильно, на мой взгляд, но тут от задач зависит), а скорость значительно возрастает.
P.S. Gemma-4-26B-A4B - тоже думающая модель, но она без отметки thinking указана.

ShadF0x
18.04.2026 03:23Это зависит исключительно от модели. Кому-то (Qwen 3.5, например) нужен kwargs, кому-то нужен /nothink в конце промпта, кому-то достаточно просто в конец промпта не добавлять <think>.

SabMakc
18.04.2026 03:23Все “свежие” модели, что пробовал используют именно enable_thinking в шаблоне (и все “думающие” модели из статьи такие). Но да, бывают варианты.

digrobot
18.04.2026 03:23Не нужны никакие обертки над llama.cpp, у неё есть и API, и веб-интерфейс, и модели она умеет скачивать с HF.

aldekotan
18.04.2026 03:23А ещё у неё есть форк с повышенной производительностью, но сам ещё не успел проверить: https://github.com/ikawrakow/ik_llama.cpp/

SabMakc
18.04.2026 03:23Работает действительно быстрее, особенно в обработке промта заметна разница - в 1,5-2 раза (на CPU). В генерации токенов особой разницы не заметил.

vitektm
18.04.2026 03:23Но имхо ответ часто гораздо больше промта. Спекулятивное декодирование еще ускоряет под windows в lm studio работает c deepseek с qwen не работает пока на llama.cpp нужен vllm.

SabMakc
18.04.2026 03:23Ответ больше промта только если спрашивать в чате, постоянно начиная новый разговор. Но после первого же ответа все последующие уточнения имеют больший промт (потому как содержат весь разговор). Благо кеширование спасает )
В агентах же только системный промт может иметь десятки тысяч токенов. А сделать несколько действий - на промты 1кк токенов только так улетит. Благо, кеширование и тут спасает )
По спекулятивному декодированию я бы сказал, что оно не очень в домашних условиях используется - небольшие модели выигрыша не увидят, а для больших железо надо покруче.
Те же модели MoE примерной размерности 30-a3b выглядят оптимально для дома, пробовал подключать спекулятивное декодирование - особого выигрыша не увидел.

janvarev
18.04.2026 03:23Спасибо за ссылку - действительно быстрее.
На Qwen3.5 35 MoE текущая LM Studio у меня выдавала 15 ток/сек, ik_llama после некоторого шаманства с бубном достигла 29 ток/сек - почти в два раза быстрее! Сетап CPU+GPU, в GPU у меня не влезает (8 GB всего).

bambazamba
18.04.2026 03:23Ни одна модель, которые вы можете запустить локально на ноутбуке, не годится для того, что бы писать код. Хайку от Антропик (который тоже, откровенно говоря, слабоват) порвет любую китайскую модель, обученную в основном на дистиллятах из Опуса (а то и из того же Хайку, лол)
В основном в подобных статьях называют два аргумента: это бесплатно, и «код останется у вас».
Если стоимость токенов для продукта, который вы пишите, является основной проблемой, то ваш продукт стоит дешевле этих токенов.
Если вы используете дешевую бесплатную модель, что бы у вас не «утек» код - ваш код останется у вас вместе с вашим продуктом. Даже если у вас есть какая-то «гениальная идея», ничего путного вы не навайбкодите. Да и вряд ли ваш код кого-то заинтересует. Скорее всего (надеюсь) вам просто стыдно его показать.
Хотя наверное, вы и не ожидаете результата. Вам нравится процесс. Возможно, вы даже выкладываете видео в тик-ток. Если вы при этом танцуете, то это лучший способ монетизации вашего времени.
Ничего этого к производству программных продуктов не имеет отношения.

TsarS
18.04.2026 03:23Я не знаток Mac, а почему все его упоминают? Не дешевле ПК с "большой" видеокартой и "большой" памятью? Или там уже какие-то "нейропроцессоры"?

SabMakc
18.04.2026 03:23Потому как все упирается в объем памяти и в ее пропускную способность. У маков как раз много объединенной памяти (оперативная и видеопамять обьеденина) и она быстрая (чем старше линейка процессора - тем быстрее). GPU по пропускной способности может и быстрее, но больших объемов там нет (а где есть - стоит нереальных денег).
Есть и альтернативы - Ryzen AI MAX+ 395 или NVIDIA DGX Spark. Но это тоже не более чем компромисс - для серьезного использования не хватит ни объема, ни скорости памяти…

kasthack_phoenix
18.04.2026 03:23У мака быстрая(~820gb/s) объединённая память, что позволяет GPU выделить десятки гигабайт, не отдавая много тысяч долларов за серверную видеокарту.
На ПК-платформе такое тоже есть с мобильными процессорами от AMD со встроенной видеокартой и нейроускорителем, но там в три-четыре раза(~200-250gb/s) ниже скорость доступа к памяти. В zen 6, что должен выйти в конце этого/начале следующего года, обещают проблему с памятью решить и поднять скорость до 1.6TB/s, т.е. до уровня видеокарт.

SlavikF
18.04.2026 03:23Это смотря у какие маков.
Pro - 307 GB/s
Max - 460 GB/s
Ultra - 820 GB/s
Кстати, для GB/s буквы - заглавные. Это означает - гигабайты.
Если буквы не заглавные - gb/s - это означает гигабиты. То есть в 8 раз меньше.
А ещё GPU отличается от мака тем, что у мака слабая производительность графического процессора по сравнению с GPU. На генерацию токенов это не влияет, в вот промпты обрабатываются раз в 5-10 медленнее.

rombell
18.04.2026 03:23G означает гига, g - ускорение свободного падения. То, о чём Вы пишете, на самом деле Gb и GB, но не gb

vitektm
18.04.2026 03:23у какой карты объем памяти 256\512Гб и какая у неё цена ? Плюс мак стоит на столе а не гроб который орёт.

indeed174
18.04.2026 03:23У квен большая проблема - бесплатный все, кончился. Остались только локальные, и не понятно будут ли новые версии локальные, из-за их смены вектора развития.

jshapen
18.04.2026 03:23У квена осталась бесплатная чат версия. Также для простых задач есть Gemini 3 Flash с большим лимитом через дешевую антигравитацию или Codex с 5.4-mini

alex1478
18.04.2026 03:23Каждый раз с интересом захожу в комментарии к статьям об ИИ, что бы окунуться в чудный мир нейрослопо-зависимых

alex_lol4
18.04.2026 03:23Хорошо смеется тот, кто смеется последним. Ваши издевки сегодня выглядят как уже как некомпетентность, а не какое-то авторитетное мнение. Ручной кодинг умер. Любой, кто ощутил всю мощь топовых ИИ больше не вернутся в стойло ручного написания кода, который в большинстве случаев - шаблонный. Нет смысла тратить тысячи часов на эту рутину как раньше. Пройдет время это поймут и работодатели, тогда умение в ИИ будет абсолютным требованием. Сейчас всё, что останавливает от этой революции в РФ - санкции и сложность подписок.

apopminecraft
18.04.2026 03:23Звучит обнадеживающе.
Мне же ИИ (дипсик) даже не смог видеоглазок помочь выбрать, убеждал что все ок и функции которые мне нужны есть в той модели, что он посоветовал, он был очень убедителен. Но когда купил, по факту оказалось, что возможности видеорегистратора нет у глазка. Я был зол и высказал ему в лицо все, что о нем думаю, он переживал и очень извинялся.

Lashadkach
18.04.2026 03:23Они сейчас маленькие и глупые, но любой инструмент со временем обрастает мощной базой, а нынешние ИИ ещё и совершенствуются с бешеной скоростью. То что мы видим сейчас далеко не серебряная пуля, это правда. Но наша обязанность как специалистов(любой сферы) изучать новые инструменты и учиться ими пользоваться
Ваш же пример скорее неудачная попытка, попробуйте снова и всё получится.

Smartor
18.04.2026 03:23Насчёт "дотаций" это спорный тейк, т.к. инференс при уже имеющейся инфраструктуре стОит по цене электроэнергии, то есть почти ничего не стоит в пересчёте на токен, а вычислительное оборудование промышленных стандартов работает по 20 более лет. Обучение новых моделей и закупка нового "железа" для них - вот что реально сжигает бюджеты.
Именно жёсткая конкуренция требует ввязываться в гонку моделей, тратя огромные деньги. Сам по себе инференс, по нынешним на него ценам, без учёта затрат на обучение и постоянный апгрейд железа - сверхприбыльная штука:)
Обычные покупатели инференса и сверхбогатые инвесторы в инфраструктуру с удовольствием готовы оплачивать весь этот кордебалет, так как все новые модели критично лучше старых, причём у всех производителей моделей.
Думаю, в ближайшие годы будет ситуация примерно как "iPhone vs Andriod phone", то есть, американская тройка лидеров + китайские нейросети, причём, у Китая будет примерно 80% мирового инференса, но 80% прибыли и инвестиций пойдут американцам.
А потом производители железа, возможно, наконец-то начнут делать нормальные железки для локального запуска моделей среднего уровня (я надеюсь) :)
dkeiz
18.04.2026 03:23И это правильный тейк, Deepseek v3.2 уже стоит 0.20usd/1mln.
По поводу локального железа - стаки ~dgx spark(128gb) + usb4.0 помогут запустить очень мощные модели, но пока что медленно. Ryzen ai уже анонсировали всякое разное грядущее, а модели типа qwen27b добавляют оптимизма.

DmitryOgn
18.04.2026 03:23Прибыли на горизонте не видно ни у кого, в классическом понимании прибыли (выручка минус расходы, а не деньги от заемов под повышение цены акций или оценки стартапа).

alex_lol4
18.04.2026 03:23Не вижу вообще смысла заморачиваться с покупкой дорогого, быстроустаревающего железа. 200$ за Клод - это порядка 20 000 рублей. Это копейки. За эти деньги получаю личного раба-разработчика и кучу свободного времени для себя.
Кто Клодом пользуется - какие идеи насчет будущей верификации? Поддельные документы стран СНГ сделать на принтере? Найти таджика на стройке? Кто что думает?

melodictsk
18.04.2026 03:23Зачем мак я так и не понял. Если он есть, то ок. Но специально покупать это борщ. 3090 вне конкуренции, мало одной, ставь 2,3,4. Нет денег, ставь 3070м 16гб. Ничего выгоднее не найти, около 25тр за шт. Себе в домашний комп засунул к 3090 как раз 3070м, квин 3.6 35b летает. И кстати он вообще не плох. Зачем использовать 4бит квантование, тоже ума не приложу, это только для гиганских моделей. Ниже 6бит это уже ощутимо хуже, особенно на всяких 30б и ниже.

vasimv
18.04.2026 03:23Я тоже не сторонник маков для локальных LLM, но если хочется начать с нуля или просто попробовать и потом решить - мак с большим объемом памяти выглядит почти идеальным решением. Не надо думать - сколько и каких видеокарт надо, а сколько RAM, убирается мучительный перебор комбинаций (в котором даже ИИ не помогает в современном мире), нет проблем с совместимостью - все просто работает (вот позарится, например, человек на Intel ARC B70, с его 32GB VRAM, а потом поймет, что SYCL/Vulkan для него - сырые и либо не работают, либо тормозят). Наигравшись, опять же, можно продать по относительно неплохой цене. И, конечно, скорость все-таки довольно хорошая, даже обгоняя многие дорогие варианты по генерации токенов, за счет многоканальной памяти и отличного NPU. А проседание по prompt processing - ну, не все это ощутят на своих задачах. Плюс, опять же - работает не как киловаттный обогреватель квартиры, свои 140 ватт отрабатывает на все 100.

Fwild
18.04.2026 03:23./build/bin/llama-server -m …/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf -np 1 -fa 1 --ctx-size $[160000] --jinja -ub $[1024] -b $[1024] --tensor_split 0.0,0.66,0 --main-gpu 1 --verbose --no-mmproj-offload --mmproj …/mmproj-BF16_gemma-4-26B-A4B.gguf
(веб интерфейс, чсх, тот-же) при заполненных ~64000токенов:
3090: Чтение промпта: 2538.94 tokens/s, генерация 90.92 t/s
4090: Чтение промпта: 6382.71 tokens/s, генерация 109.06 t/s
_____
Если использовать квантование кеша -ctk q8_0 -ctv q8_0, чтоб в 24Gb влезли все 256000 токенов контекста (при реально заполненных ~80000):
3090: Чтение промпта: 2779.87 tokens/s, генерация 73.55 t/s
4090: Чтение промпта: 6332.63 tokens/s, генерация 83.80 t/s (да, контекст в Q8 медленнее дефолтного f16 (а b16 медленнее f16 на старых картах и CPU))
(при пустом контексте(как в статье) генерация 126 t/s ), gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf(от https://unsloth.ai/docs/models/gemma-4 ) чуть больше, чуть лучше, и чуть медленнее, чем... а кстати, какая Gemma-4-26B-A4B использовалась? Я думал, что раз всё в q4 - то она тоже, но сейчас заметил, что это нигде не указано.
В общем, IMXO, если модель влазит в 1..2 3090 c авито- это в разы лучше, чем любой мак из представленных https://omlx.ai/compare (чсх, даже это без vpn не открывается...)

Aniro
18.04.2026 03:23Спасибо, исследование интересное. Пара наблюдений дополнительно. Стоит также попробовать Gemma-4-31B-it и Qwen3.6-35B-A3B - они в той-же весовой категории что и представленные, причем обе лучше чем любая из них.
> Стоит выбирать модели с MoE-архитектурой — они хороши по скорости и приемлемы по качеству.
Зависит от задачи. Gemma-31B ощущается прям сильно более умной чем 26B-A4B. Для простых задач с которыми модель точно справится можно брать и MoE, они действительно сильно быстрее. Но на тех где есть какой-то челеднж для модели, лучше не надо.

vasimv
18.04.2026 03:23Я вот для себя такой тест локальных моделей придумал - написать простую игру для андроида (типа на доске 6x6 игрок и компьютер расставляют пушки трех видов, после чего те автоматически друг-друга расстреливают по очереди, с кнопкой для одного шага, редактором расстановки), а потом самостоятельно отладить её в эмуляторе с анализом скриншотов и логов, личное участие допускается только в виде реплик "говоришь, что все сделал, а кнопка STEP не пашет совсем, тестируй нормально давай, а то сядешь в тюрьму! (c)". Результат, надо сказать, грустноватый, из того что на моих 19GB VRAM может работать - что-то похожее на нужный результат дал только qwen3.5-27b, остальные просто целыми днями "отлаживают", типа, без серьезных продвижений. Жду вот когда gemma4 до рабочей кондиции доведут и может еще qwen3.6-27b выйдет.

Lashadkach
18.04.2026 03:23Спасибо автору за интересное чтиво!
Поддерживаю развитие в сторону локальных моделей, ведь если их не будет или будет недостаточно к ним интереса цены на подписки у облачных llm будут улетать в космос и дальше!
Даёшь бесплатные лопаты в золотую лихорадку!
anonymous