Хуанг на GTC 2026 предложил платить инженерам токен-бюджеты вместо части зарплаты. Forbes написал: “output isn’t software, it’s tokens”. Anthropic посчитала: Claude Code обходится в $13 на разработчика в день, $150-250 в месяц.

Я 4 месяца не обсуждаю, а считаю. И первое что посчитал: б/у RTX 3090 стоит $800-1000. За эти деньги я оплачиваю API и веду проекты: embedded firmware, криптография, backend, своя IDE. Карта за $800 дала бы одну модель среднего уровня и шум вентиляторов.

Нет, я не нашёл волшебную модель. Я научился считать. И начал с того, во что верит большинство.


Ollama скачивают 52 миллиона раз в месяц. Рост в 520 раз за 3 года. Нарратив один: “no subscription fees”, “inference is free”, “eliminates API costs”. Разберём эту бесплатность.

Видеокарта для 7B-модели: $180-220 за б/у RTX 3060. Для 27-32B: $800-1000 за б/у RTX 3090. И это открытые модели, не frontier. Frontier-модели (Claude Sonnet, Opus, DeepSeek V4) локально не запустишь вообще: они либо закрытые, либо требуют сотни гигабайт VRAM. То есть ты платишь за железо и получаешь модели слабее тех, что доступны через API за копейки.

Но дело не в цене входа. Железо устаревает за 1-2 года. Модели растут быстрее чем VRAM. Купил, настроил, привязался. Через год покупаешь снова. API не устаревает. Провайдер обновляет модели, ты платишь за использование. На дистанции 3-4 лет железо проигрывает.

Локальное железо

API

Вход

$800-1800 (1-2 карты)

$0

В месяц

$10-30 (свет + обслуживание)

$200

За 3 года

$1200-2900

$7200

Через 2 года

Устарело, покупай снова

Новые модели бесплатно

За 3 года с апгрейдом

$2500-5000+

$7200

Амортизация

Есть. Железо теряет в цене

Нет. Платишь за использование

Моделей одновременно

1 (переключаешь)

Любое количество

Настройка

Драйверы, CUDA, конфиги

Ключ API

Шум, тепло

Да

Нет

На бумаге локальное дешевле. Но ты платишь временем, комфортом и привязкой к железу которое устареет. Для бизнес-задач, где время на разработку стоит дорого, каждый час на настройку CUDA и обслуживание карты — это час не потраченный на продукт. API за $7200 за 3 года дал доступ к каждой новой модели в день релиза. Локальное за $2500-5000 дало одну карту, один апгрейд и кучу мороки.

И вот что забавно: на практике даже те кто купил карту, гоняют одну модель за раз и переключаются. 3 одновременно не тянет почти никто. А для серьёзной работы нужны минимум 3, разного калибра.

Локальная модель это не “бесплатно”. Это другая форма оплаты: деньгами за железо, временем за настройку, комфортом за шум и тепло. И ещё устаревание в подарок.

Есть сценарии где локальное оправдано: air-gap, compliance, NDA-код. Но это не про экономию. Это про ограничения. И даже в этих сценариях ты получаешь Qwen или Llama на все отделы, а не Opus на каждого.


А вот что я получил за API.

PKI-on-box (криптографическая система для embedded):

Метрика

Значение

Коммитов

131

PR (merged)

15

Тестов

62 contract + 15 HW

MCU-борды

3 (STM32)

Сессий с агентом

52

Дней

11

Стоимость

~3000₽

Около 3000 рублей за весь проект. Экстраполяция: трекинг был в 30 из 52 сессий, остальные по средней.

IDE (форк до рабочего прототипа):

Метрика

Значение

Сессий

20

Кредитов

2800

Дней

11

Стоимость

~5000₽

5000 рублей. Один ужин в ресторане на двоих. Убейте меня, но API это смешно дёшево. Прототип, но уже рабочий. Цель: не привязываться ни к чужой инфраструктуре, ни к чужому редактору.

Стоимость одного коммита в PKI-проекте: 23 рубля. Одной сессии: 58 рублей.

Для токенной разработки не важно, пишешь ты драйвер для STM32 или собираешь патчи для Electron. 11 дней активной работы над PKI. 11 дней над IDE. Важно сколько токенов ты тратишь и как эффективно ими управляешь.


Для бизнеса токены это уже не абстракция. Это строка в бюджете. Для команды цифры другие. $800 за карту — это на одного. Сервер на команду — несколько сотен тысяч рублей, плюс кто-то должен его обслуживать. API на 5 — те же $200/мес каждому, без железа, без обслуживания, с доступом к frontier-моделям. Компании которые сейчас закупают железо “чтобы не платить за API” через 2 года будут списывать устаревшие карты и всё равно покупать API. Те кто сразу считает токены как расходник, уже знают стоимость каждой фичи, каждого коммита, каждого проекта.

$200 в месяц или карта которая устареет через год. Если ты всё ещё веришь в “бесплатное локальное железо”, посчитай CAPEX, OPEX, амортизацию и время на настройку. А потом сравни с моими цифрами. Каждый потраченный токен посчитан.


Предыдущие публикации:

  1. Design by Contract в эпоху AI: как контракты Мейера защищают криптографию там, где тесты молчат

  2. Новый LAMP, или почему ваш Agent Pipeline — это Apache в 2006 году


P.S. Этот пост написан в кооперации с AI-агентом и обошёлся в 138 кредитов. Около 210 рублей. Чуть дороже одного коммита в PKI-проекте.

Комментарии (23)


  1. fire64
    03.05.2026 11:34

    А зачем видеокарты для нейросетей обновлять, если объема памяти текущих карт вам хватает, а принципиального роста объема в новых моделях не предвидится.

    Вы как запускали на текущих видеокартах локальные модели, так и дальше сможете их запускать.


    1. acc0unt
      03.05.2026 11:34

      "Объёма памяти текущих карт хватает" - это как те 640 килобайт, которых хватит всем.

      Хочется более способных моделей или более длинных контекстов? Докидывай железа. При прочих равных 32B топит 4B, а KV кэш по ходу выполнения задач жирнеет и выливается из VRAM на диск, роняя скорость инференса.

      Когда-то и 8 ГБ за глаза хватало для запуска передовых вещей вроде Stable Diffusion 1 и GPT-2. Сейчас же энтузиасты собирают системы на 96 гигов чтобы LLM средних размеров туда влезали без неприличных уровней квантизации.

      И это LLM средних размеров. В лабораториях тем временем жарят вещи вроде Mythos 5 на 10T параметров.


      1. fire64
        03.05.2026 11:34

        Ну вы так говорите, что Nvidia вот прям в следующем релизе сделает объем 48Гб в игровой линейки, а по факту они объем памяти не сильно то увеличивают от серии к серии и в тех же RTX60XX не факт что что-то изменится...

        Автор то про игровые серии пишет, а не про промышленные.


  1. nikulin_krd
    03.05.2026 11:34

    Ну а теперь немножко разбавим влажные фантазии автора:

    1. Локальные модели сейчас приблизились по качеству к Sonnet

    2. Локальные модели обеспечивают закрытый контур безопасности, где данные компании и коммерческая тайна не улетают на чужие сервера

    3. В локальных моделях ты можешь быть уверен в постоянном качестве инференса и не зависеть от политики компании предоставляющей тебе модель за деньги, как это было с резким отупением opus4.6, что приводило к кратному увеличению траты токенов


    1. pkaptus
      03.05.2026 11:34

      1. Локальные модели сейчас приблизились по качеству к Sonnet

      Можете посоветовать какие конкретно?


      1. nikulin_krd
        03.05.2026 11:34

        Если из тех моделей что влезут в 1 карточку, то Qwen3.6 только квантизацию ниже 4 бит лучше не брать


        1. sergeym69
          03.05.2026 11:34

          До Sonnet ей очень далеко, у Qwen3.6 уровень GPT 5-mini

          Кстати Mistral сегодня выпустила новую модель на 108B, местами у нее уровень Qwen3.5-397B, ну и вообще у Мистрал очень неплохие модели, надо потестить возможно это лучше Qwen3.6, а Qwen надо не жлобиться и выложить новые более мощные модели



      1. ampir-nn
        03.05.2026 11:34

        https://huggingface.co/Qwen/Qwen3.6-27B только не ниже Q_4 - то здесь любят потестить на Q_2, VRAM минимум 40 Гб


        1. nikulin_krd
          03.05.2026 11:34

          Лучше уже в GGUF-формате от Unsloth UD-Q4-K-XL https://huggingface.co/unsloth/Qwen3.6-27B-GGUF

          И она прекрасно влезает в 3090, если еще и квантовку чуть понизить у KV или использовать TurboQuant


          1. ampir-nn
            03.05.2026 11:34

            Я это и имел в виду :)


    1. Romatio
      03.05.2026 11:34

      Приблизились. Какое железо надо под них, чтоб нормально тянули хотя бы 200k токенов контекста? Это не так и много для нынешних задач.


  1. ggo
    03.05.2026 11:34

    очередной спор из разряда - железо on-premise vs cloud


  1. ampir-nn
    03.05.2026 11:34

    И вот одна из причин использования локальных llm //// Локализация и трансграничная передача: Согласно 152-ФЗ, персональные данные граждан РФ должны обрабатываться на территории России. Использование публичных облачных LLM (ChatGPT, Claude) часто означает передачу данных за рубеж, что без специальных мер нарушает закон. Скоро еще привезут законов - к бабке не ходи ...


  1. diderevyagin
    03.05.2026 11:34

    $200 в месяц или карта которая устареет через год

    А если учесть:

    • Возможное изменение тарификации на стороне облачного оператора. Сегодня 200, а кто сказал что завтра не будет 400 ?

    • Кто сказал что завтра облачный оператор будет работать вообще или для Вас ? Яркий пример ДЦ на Ближнем Востоке. Или Вас не заблокируют по непонятной хотелке

    • Кто сказал что канал связи с облаком будет работать ?

    • Кто сказал что мы можем передавать облаку данные проекта ? Очень много случаев, когда хозяин данных (вполне обоснованно) подозревает что передача в облако == данные утекут в 1000 мест. Сколько уже было инцидентов ...

    и так далее и прочее.

    Локальная инфраструктура требует вложение но - дешевле, безопаснее и гибче


    1. Romatio
      03.05.2026 11:34

      Нормальное железо под хорошие модели стоит как автомобиль. $200 банально дешевле.


  1. codecity
    03.05.2026 11:34

    Тут основной вопрос - для разработки ты почти для всех сценариев будешь использовать лучшие модели из доступных. Нет смысла экономить на спичках, как правило.

    А есть ли бесплатные аналоги топовых моделей и какое железо нужно, чтобы их запустить?


    1. nikulin_krd
      03.05.2026 11:34

      Kimi-K2.6 из сравнимых с Opus, но там много надо памяти.

      для разработки ты почти для всех сценариев будешь использовать лучшие модели из доступных

      Локальные модели вместе с RAG и скилами вполне могут использоваться в большинстве задач


  1. nidalee
    03.05.2026 11:34

    $200 в месяц или карта которая устареет через год. Если ты всё ещё веришь в “бесплатное локальное железо”, посчитай CAPEX, OPEX, амортизацию и время на настройку. А потом сравни с моими цифрами. Каждый потраченный токен посчитан.

    Это посчитали?
    Форму по ссылке никто не читает даже, я гарантирую это!
    Форму по ссылке никто не читает даже, я гарантирую это!


  1. Bardakan
    03.05.2026 11:34

    На бумаге локальное дешевле. Но ты платишь временем, комфортом и привязкой к железу которое устареет. Для бизнес-задач, где время на разработку стоит дорого, каждый час на настройку CUDA и обслуживание карты — это час не потраченный на продукт. API за $7200 за 3 года дал доступ к каждой новой модели в день релиза.

    Давайте начнем с самого начала. Вы рассказываете что-то там про Claude. А чего вы не включили тогда в смету услуги посредников, через которых платить подписку? А стоимость vpn? А почему вы умалчиваете тот факт, что anthropic периодически банит аккаунты? А то, что постоянно режет лимиты?


  1. Nikoteressi
    03.05.2026 11:34

    Ну если мы берём кампанию, то они вполне себе могут позволить купить сервер с теми же A100 под капотом. И их хватит на долгие годы. Вряд-ли в ближайшее время появятся новые архитектуры которые A100 не будут поддерживать. Ну а для Хоум Юза можно тоже сервер купить за тысяч 20 долларов с парой штук A100 под капотом и тоже залить на годы вперёд, и хватит чтобы запустить несколько ллм одновременно... В нашем мире ничего бесплатно не бывает, к сожалению,


  1. DasProtoss
    03.05.2026 11:34

    Я перестал читать этот бред сгенерированный ИИ вот тут:

    “Для 27-32B: $800-1000 за б/у >>>RTX 3090<<<”

    “Железо устаревает за 1-2 года”

    “Видеокарта NVIDIA GeForce RTX 3090 официально поступила в продажу 24 сентября 2020 года”


    1. Romatio
      03.05.2026 11:34

      RTX 3090 в целом на сегодня слабая и берет только количеством vram.