Конец эпохи халявного ИИ или когда подписки станут стоить как аренда квартиры / forpes.ru

Главная
Конец эпохи халявного ИИ или когда подписки станут стоить как аренда квартиры

Конец эпохи халявного ИИ или когда подписки станут стоить как аренда квартиры +2

23.04.2026 06:10

datamafia 11 4600 Источник

Пользователям пора осознать, что ИИ требует ресурсов, а ресурсы - денег.

Вы просыпаетесь, листаете ленту новостей и вдруг - Anthropic убирает Claude Code из стандартного Pro-плана. То есть, чтобы пользоваться их агентом для программирования, нужно покупать более дорогую подписку.

Не спешите рвать на себе волосы, ведь Anthropic тут же реагируют на гнев коммьюнити пользователей: "Это всего лишь АБ-тест на 2% новеньких".

Нас разводят или деньги кончились?

Давайте по фактам:

Anthropic ужесточили использование API через сторонние обёртки (вроде OpenClaude).
GitHub Copilot новым пользователям Pro, Pro+ и Student явно указал, что лимиты будут жестче, а модели Opus отныне не для вас.
Вы тоже чувствуете, что модели тупеют? Возможно, это не иллюзия, а следствие экономии ресурсов на инференсе (вычислении ответов).

Все эти точки складываются в одну тревожную картину. Дни, когда вы могли купить подписку за $20 и бездумно сжигать миллионы токенов в Claude Code, подходят к концу.

Сколько на самом деле стоит ваш запрос

$20 в месяц - это промо цена. Более-менее реальную цену подсказывают API-тарифы:

Claude Opus 4.7: $5 за миллион входных токенов, $25 за миллион выходных.
GPT-4: $2,5 за вход, $22,5 за выход.

Предположим, что API-цены - это точка безубыточности. То есть именно столько компания тратит на генерацию ответов.

Теперь посчитаем на примере $200 (Max-план Anthropic).

По API-цене $25 за миллион выходных токенов вы за эти деньги получили бы 8 миллионов токенов. Но это в идеале - без учёта входных токенов, системных инструкций и внутренних размышлений модели. В реальности с учётом всего этого - 6-7 миллионов.

А сколько вы сжигаете на практике?

Любой, кто неделю поработал с Claude Code, понимает, что вы проглатываете десятки миллионов токенов в месяц. Одна сложная сессия рефакторинга это 2-3 миллиона за пару часов. За месяц активный пользователь легко использует 30-50+ миллионов.

Ваши 30-50 миллионов токенов по API-ценам стоили бы $500-1000+, а вы платите $200 (или даже $20 в Pro-плане). Разницу доплачивает Anthropic. Это и есть субсидирование, и как любой стартап, они не смогут вечно тратить деньги инвесторов.

Что изменилось

Раньше люди задавали пару вопросов в чате и тратили мало токенов. Теперь агенты вроде Claude Code работают часами и сжигают миллионы за один день. Подписки остались старыми, а расходы выросли в десятки раз.

Агентные рабочие процессы (Agentic workflows). Вы больше не задаете один вопрос в чате. Ваш Claude Code сам гоняет циклы "подумал -> написал ->проверил -> исправил". Одна такая сессия жрёт как сотня обычных диалогов.
Думающие модели (Reasoning models). Они генерируют внутренний chain-of-thought. Вы его не видите, но токены сгорают. Ответ теперь требует в разы больше вычислений.
Физический кризис вычислений. Все упирается в реальное железо и оперативная память (нужна для инференса) подорожала. Сетевое оборудование для соединения тысяч GPU в кластеры в дефиците. Энергии для дата-центров не хватает, их строят прямо с газовыми турбинами. Компании вынуждены делить дефицитные вычислительные мощности между тренировкой новых моделей (хочется же обогнать конкурентов) и инференсом (чтобы текущие клиенты не ушли).

GitHub сам открыто признал в своем анонсе, что агентные рабочие процессы фундаментально изменили потребности Copilot в вычислениях. Раньше у вас была структура тарифа под случайные чаты, а теперь под бесконечные сессии, которые кушают все ресурсы.

Почему Anthropic больнее, чем OpenAI?

Гипотеза автора видео состоит в том, что у OpenAI исторически больше обычных людей среди пользователей, которые задают 5 вопросов в день про рецепт пиццы. Их токен-потребление минимально. А у Anthropic больше корпоративных клиентов и разработчиков, тех самых, кто запускает тяжелые агентные сессии. Следовательно, средний расход токенов на одного платного пользователя у Anthropic может быть радикально выше, а значит, и убытки от субсидирования больше.

Что будет с ценами на токены

Лимиты станут жестче. Ваш Claude Code будет чаще просить пополнить баланс или уходить в режим ожидания. Вы достигнете точки, когда подписка за $20 станет бесить.
Подписки подорожают - сильно. Не на 20%, а в разы. Компании начнут сравнивать стоимость ИИ-агента со стоимостью джуна. Если подписка за $1000 в месяц заменяет часть работы младшего разработчика (который получает $3000+), это выгодно. Через год-полтора цены вырастут до этих уровней.
Расслоение тарифов. Будут дешевые планы для болтовни с ChatGPT с жесткими лимитами на длину контекста и количество запросов. И будут отдельные, очень дорогие планы для агентной разработки.

OpenAI недавно привлекли $122 млрд. По слухам, этих денег им хватит всего на 18 месяцев работы. Сжигать деньги на субсидиях еще пару лет они не смогут, поэтому нас ждет переход к стадии "ИИ как дорогой профессиональный инструмент". Готовимся оптимизировать токены вручную.

Комментарии (11)

panzerfaust
23.04.2026 06:31
#29871778
Для кого-то внезапно зима наступает в декабре. А для кого-то внезапно на рынке начинают действовать законы рынка.

shovdmi
23.04.2026 06:31
#29871882
Все рассуждения в статье из расчета что цена 1 токена убыточна для Anthropic. Но что если это не так и цена в разы завышена?

Если подписка за $1000 в месяц заменяет часть работы младшего разработчика

Заменяет или нет, ещё нет четкого ответа ни со стороны бизнеса ни со стороны разработчиков
1. DooKoo2
  23.04.2026 06:31
  #29872236
  На самом деле если заморочиться можно прикинуть "плюс-минус локоть" по стоимости инференса для Claude. Используемые ими ускорители известны, скорость инференса одного ускорителя можно прикинуть через vast.ai запустив локально относительно большую модель и экстраполировав данные, сколько жрет токенов за 1 агентскую сессию ну тоже +/- понятно, количество пользователей - вроде есть статистика, энергопотребление ускорителя также есть в спеках.
  Ну то есть очень-очень приблизительно можно прикинуть.
1. akod67
  23.04.2026 06:31
  #29872616
  Какой джун напишет с нуля за неделю CRMку с парой десятков крудов, генерацией доков, аналитикой, CI и мониторингом и красивым дизайном? Никакой. Личный опыт.

Annsky
23.04.2026 06:31
#29871918
И все дружно запустят китайские модели или локальный inference. Потому что купить mac mini M4 это 500$. И запустить на нем что-то адекватное - уже реально. Qwen 3.6/Gemma 4.

Рынок может быть и поднимет тарифы в разы - только деньги инвесторов тогда сгорят в простаивающих дата центрах. Они копают себе яму.

Упрощая мою мысль - это фронтиры убыточны, а не AI. Это 100b+ модели убыточны, а не AI.
1. positroid
  23.04.2026 06:31
  #29872082
  С посылом согласен, с чем-то адекватным на mac за $500 (да даже на Pro за $3к) - нет. Если считать адекватным хоть какой то похожий на осмысленный текст ответ - это можно и на мобилке запустить.
  
  Чтобы получить приемлемое качество с приемлемой скоростью и контекстом хотя бы в 128к токенов - нужны совсем другие ресурсы. Для супер лайтовых задач или задач, не требующих контекста - сгодится. Для нормальных задач - нет.
  
  P.S. да и не убыточны ни фронтиры ни другой инференс облачных моделей, у OpenAi маржа в иксах от себестоимости. Убыточны исследования и обучение новых моделей.
  1. DaneSoul
    23.04.2026 06:31
    #29872460
    Чтобы получить приемлемое качество с приемлемой скоростью и контекстом хотя бы в 128к токенов - нужны совсем другие ресурсы.
    
    С другой стороны, если ИИ компании начнут через чур задирать цену, то такие ресурсы можно взять в аренду у их конкурентов - аренда сервера / облака с GPU давно доступна у многих крупных хостинговых компаний.
  1. x4team_only
    23.04.2026 06:31
    #29872804
    Привет. Вроде бы эта железка может выдавать 5-10т/c на пике контекста > 100k для moe моделей, к примеру qwen3.6-35b. При старте минимального контекста > 50 т/с
  1. Annsky
    23.04.2026 06:31
    #29873288
    Я просто переключаюсь между MiniMax 2.7 highspeed, Mistral, Qwen 3.5 9b, (вот тут внимательно, Qwen! 3.5! 9b!!!), Kimi 2.6 max и все модели все делают хорошо. Я чувствую разницу только на очень сложных задачах. Вы считаете Qwen 3.5 9b / Gemma 4 неадекватным, но мой опыт с вами не согласен. Все решают хорошие настройки. Я даже из Qwen 4b выжимала отличную работу по программированию, вот так.
    
    Почему я вообще продолжаю говорить на эту тему, а не покупаю себе 4090 чтобы радоваться скорости и уму модели?
    
    Я сопереживаю разработчикам, у которых есть деньги ровно на Mac Mini M4. Им - придется выкручиваться.
1. DooKoo2
  23.04.2026 06:31
  #29872324
  Если прикинуть какой-то базис для замера, например "условный интеллект на параметр" то мы еще далеко от насыщения. Мы видим что год к году модели с одинаковым количеством параметров "умнеют".
  
  Так что будущее это не только frontier в облаках, а локальный инференс. И я бы даже поставил локальный инференс выше в приоритетах развития ИИ, чем облачные гиганты.
  
  Потому:
  
  Frontier облака - будут дорожать 100%. На сколько - вопрос, но агенты жрут миллионы и меньше их не становится, OpenClaw/Claude code/Codex - с каждым днем пользователей все больше, токенов улетает триллионы. Так что ценники скакнут в разы.
  
  Local LLM - будет все популярнее, прознозирую также ПЛАТНЫЕ модели для локального инференса, то есть не OpenSource Huggingface модели, а именно "заплати 10 баксов - получишь веса" условной Qwen5.
  
  Развитие Edge AI в носимых устройствах через ternary LLM.
  
  Сам потихоньку перехожу на локальный инференс, Qwen3.6-31b-a3b через QwenCode работает неплохо. Купил себе GPU даже на 24GB VRAM.

flancer
23.04.2026 06:31
#29872610
Сжигать агентом миллиарды токенов по простому запросу “А ну-ка переведи мне этот legacy код на современные рельсы” немудрено. И это нормально, что за такую работу Компании будут драть деньги. Но им самим выгодно стимулировать тех, кто сможет выжимать максимум из “лёгких” моделей.

Так что, нам всем лучше уже прямо сейчас начать привыкать запускать своих агентов в мини-режиме и искать пути их оптимального использования на малых рабочих контекстах.