• Главная новость месяца — китайцы перестали быть «дешёвой альтернативой» и стали реальным конкурентом США по соотношению цена/качество. По чистому качеству американцы пока впереди, но по соотношению цена/качество (которое учитывает оба фактора) лидируют китайские модели. Это сдвиг рынка, а не «ещё один релиз».

  • Gemini-3.5-flash догнал OpenAI — 97/S, тот же балл, что у GPT-5.5, при этом в 2.5 раза дешевле ($0.09 против $0.23 за вызов). Google впервые на нашем тесте берёт ту же вершину, что OpenAI на длинном русском контенте.

  • DeepSeek V4 Flash — наша основная рабочая лошадка в клиентских продуктах. 83/A качества за $0.0019 — оптимум для production-генерации, где объём вызовов в сотнях тысяч в месяц.

  • DeepSeek V4 Pro прогнали третий раз за два месяца. Качество стоит на месте (87, было 89 — рутинная флуктуация). Но цена упала в 5.4 раза, и модель снова попала в зону полезного для production — не за счёт роста качества, а за счёт снижения тарифа.

  • Qwen 3.7 Max — регрессия относительно собственной 3.6. В прошлом тесте китайских иероглифов в русском тексте не было, в этом — вернулись (предел边际ной полезности). При премиум-тарифе 2.5/7.5 за 1M это плохая сделка.

  • Tencent Hy3-preview — чемпион сессии по цене/качеству: 81/A за $0.0017 за вызов. В 134 раза дешевле GPT-5.5 при потере 16 баллов качества.

  • Дополнительно за сессию. Нашли у себя в формуле cost_per_call систематическую ошибку, которая полгода занижала стоимость на 50–140%. Пересчитали через реальные response.usage OpenRouter. Плюс — короткий инженерный довод, почему модель в продукте стоит держать сменным параметром, а не зашивать в код.


Месяц назад я писал статью про парадокс DeepSeek V4 Pro — новейший флагман DeepSeek проиграл собственному дешёвому Flash и Qwen 3.6 Plus трёхнедельной давности. Тогда главный вывод звучал так: «новее и больше» перестало быть автоматическим критерием выбора модели.

Сегодня прогнал свежий battle на пяти моделях — два американских флагмана и три китайских — и понял, что главный сдвиг рынка ещё больше: китайцы перестали быть «дешёвой альтернативой» и стали реальным конкурентом США. По чистому качеству OpenAI и Google пока впереди, но по соотношению цена/качество лидируют китайские модели. И это не «ещё один тест на одной выборке» — это устойчивый паттерн в нашей БД за последние два месяца.

Это хорошо, потому что в нормальной конкурентной ситуации у заказчика всегда должен быть выбор. И в этой статье — про то, какой выбор сейчас реально доступен, что из этого идёт в production у нас, и почему модель в продукте вообще стоит держать заменяемой.

Что было месяц назад

В прошлой сессии вершину Tier S держали GPT-5.4 (97) и Claude Opus 4.6 (96). Claude Sonnet 4.6 — 95. Apr 2026 был самым плотным месяцем по релизам: DeepSeek V4 Pro и Flash, Kimi K2.6, Mimo V2.5/Pro, Gemini 3 Flash Preview. Тогда же родилась главная боль апреля — DeepSeek V4 Pro (89/A) проиграл собственному дешёвому Flash (83/A) по цене/качеству: Pro был в 13 раз дороже за прирост в 6 баллов. А Qwen 3.6 Plus, вышедший на 22 дня раньше Pro, обогнал его и по качеству (92), и по цене.

Повод для нового прогона дал Google: на этой неделе вышел Gemini-3.5-flash, и его надо было проверить. Заодно решил добрать то, до чего раньше не доходили руки. GPT-5.5 вышел ещё в конце апреля, почти одновременно с DeepSeek V4 — но я его тогда не гонял: премиум-цена не годится для нашего клиентского production с десятками тысяч вызовов в месяц. В этот раз взял его как референс премиум-сегмента — чтобы было с чем сравнивать Gemini. Плюс две китайские модели, которые ещё не пробовал: Qwen 3.7 Max и preview-релиз Tencent Hy3. И перепрогнал DeepSeek V4 Pro — спустя месяц после первого замера.

Первое открытие: Google впервые встал рядом с OpenAI

Gemini-3.5-flash выдал 97 баллов. Тот же балл, что у GPT-5.5. Тот же балл, что у GPT-5.4 месяцем раньше.

Чтобы было понятно, насколько это сдвиг — прошлая модель из семейства Google в нашем тесте была Gemini-3-flash-preview, апрельский релиз. Получила 57 баллов и Tier C. За полтора месяца прыжок с 57 до 97. Это не итеративное улучшение модели — это другой продукт. Видимо, Google наконец дал в обучение нормальный объём русских данных.

Сравнение Gemini-3.5-flash и GPT-5.5 на наших пяти бизнес-темах:

Топик

Gemini

GPT-5.5

Победитель

sales

99

98

Gemini (+1)

finance

97

95

Gemini (+2)

supply-chain

98

96

Gemini (+2)

pricing

96

96

Tie

hr

95

93

Gemini (+2)

avg точный

97.0

95.4

Gemini

Округлённо оба 97 — это паритет. По точному avg Gemini чуть впереди. Но интересно не это. Интересно, как каждая модель добилась своей оценки.

GPT-5.5 — классический OpenAI-сценарий: написать очень много. Avg 3720 слов на тему — больше всех в сессии. Самые подробные методологии (включая эмоциональную сторону возражений, работу с закупками — то, чего нет у других). Куча таблиц — на отдельные топики по 22–70 таблиц.

Gemini-3.5-flash взял разнообразием визуализаций. У него в одном уроке про cash conversion cycle стоит gantt-диаграмма. В уроке про продажи — kanban. В supply chain — sequenceDiagram с цветными зонами кризиса. Плюс у Gemini своя фишка — упражнения с готовыми решениями в <details>, то есть проверить себя можно прямо в тексте. У GPT-5.5 упражнения без решений, как в учебнике.

Это и есть разный подход двух школ: OpenAI пишет больше, Google пишет разнообразнее. На нашем тесте они вытащили один и тот же балл. Дальше — экономика.

Экономика паритета: $898 vs $2290 в месяц

GPT-5.5: input 5 за миллион токенов, output $30. Реальный вызов в нашем тесте — около 7506 output-токенов. Один вызов — **0.229**.

Gemini-3.5-flash: input 1.5/M, output $9/M. Чуть больше output-токенов на ответ (9835 — Gemini пишет плотнее, чуть короче по словам, но насыщеннее), но в три раза дешевле тариф. Один вызов — **0.090**.

В пересчёте на 10 000 вызовов в месяц:

  • GPT-5.5 — $2 290

  • Gemini-3.5-flash — $898

  • Разница — $1 392 в месяц или $16 700 в год за то же качество

Аргумент за GPT-5.5 один — модель пишет больше. Если ваша задача — длинные подробные методички для руководителей, где нужна именно «толщина», +22% объёма у GPT может быть критичным. Но за +22% объёма платить +154% цены — спорная сделка. У нас в боевых проектах уроки и так упираются в 3000–3500 слов как разумную верхнюю границу читаемости, и Gemini в этот диапазон попадает без труда.

И ещё один сюжет, который меня по-человечески зацепил. До этого battle я был уверен, что Google в премиум-сегменте отстаёт от OpenAI на одну итерацию минимум — что нормально, исторически так и было. После — пересмотрел рекомендации в production: эталон качества теперь Gemini-3.5-flash. Это первый раз, когда я ставлю Google референсом в нашем тесте.

DeepSeek V4 Pro: третий тест за два месяца, качество не растёт

Это история, которая меня одновременно радует и расстраивает.

DeepSeek V4 Pro я тестирую третий раз. Первые два — в апреле, через сутки друг от друга, после релиза 24 апреля. Получили ровно 89 баллов оба раза. Не статистический выброс, воспроизводимый результат. Третий тест — сегодня, через месяц.

Качество — 87. Минус 2 балла к апрелю, в пределах рутинной флуктуации на пяти топиках. По-честному — модель стоит на месте. Несмотря на месяц после релиза. Несмотря на то, что DeepSeek явно работал с моделью — она стала заметно компактнее (avg 1695 слов против 2598 в апреле, минус 35%). Стиль чище, без длиннот, но это уже на уровне постредактуры — фундаментальное «качество мысли» не сдвинулось.

Это меня и расстраивает. Я ждал от Pro серьёзного шага вперёд хотя бы на третьей итерации тестов. Reasoning-флагман с топовыми результатами на математических и кодовых бенчмарках (AIME, SWE-bench) не вытягивает длинный связный текст на русском уже два месяца. По-видимому, разрыв тут не «модель ещё не дозрела» — это конструктивный разрыв между задачами, на которых Pro обучали (математика, код), и задачей, которую мы решаем (длинный методический контент). Pro делает её компетентно, но без характера, без цитируемых пассажей.

Хотя один безусловный плюс у Pro есть, и его стоит назвать: китайских символов в русском тексте он не выдаёт. Для китайской модели это не данность (ниже будет Qwen, у которого с этим беда) — это заслуга. Чистый русский на выходе, без сюрпризов в середине слова.

Что радует — цена упала в 5.4 раза. Тариф input/output снизился с 1.74/3.48 за 1M токенов до 0.435/0.87. Плюс модель стала писать короче — реальный cost_per_call рухнул с $0.0256 до $0.0047.

Метрика

Apr 24

May 23

Δ

Claude Score

89

87

−2 (флуктуация)

Avg слов

2598

1695

−35%

Tariff input $/1M

$1.74

$0.435

−75%

Tariff output $/1M

$3.48

$0.87

−75%

Cost per call

$0.0256

$0.0047

−82% (5.4× дешевле)

Индекс цена/качество

75.8

86.6

+10.8

В апрельской статье я ставил V4 Pro в категорию «новейший флагман, который проиграл собственному Flash по цене/качеству». Сегодня — переставляю. Это уже хорошая модель для production где-то в середине рынка. Только не за счёт того, что качество выросло — а за счёт того, что цену снизили в 4 раза. Сама модель всё та же.

DeepSeek V4 Flash: наша основная рабочая лошадка

Раз уж зашла речь про DeepSeek — отдельно про Flash-вариант, который у нас сейчас идёт во все клиентские production-проекты по умолчанию.

DeepSeek V4 Flash в этом battle не участвовал — я перепрогнал только Pro. Но по апрельским цифрам, которые я доверяю: 83 балла Tier A, $0.0019 за вызов (с учётом ошибки в формуле — реальная цена ближе к $0.003, но всё равно по-прежнему лидер по цене/качеству). На 100 000 уроков в месяц это $190 против $470 у нового подешевевшего Pro и $2290 у GPT-5.5. На 1 миллион вызовов разница уже выражается в десятках тысяч долларов.

Что мне нравится во Flash после двух месяцев в production:

  • Стабильное качество — мы не ловим выбросов между запусками, диапазон оценок 81–85 устойчиво у любых заданий из нашего корпуса

  • Скорость — около 90 секунд на полный урок против 210 у Pro, разница в 2.3 раза, что критично для пакетной генерации

  • Нет китайских символов, не копирует промпт в заголовки, не ломает Mermaid-диаграммы — модель просто делает работу

  • Стиль компактный, без воды — что в B2B-контенте обычно плюс, а не минус

Чего она не даёт — литературного блеска. Если задача требует именно красивого, цитируемого текста (глубокий разбор для топ-менеджмента, презентация для совета директоров) — Flash не дотянет. Тут уже нужен Gemini или GPT-5.5. Но 90% наших задач этого и не требует, они требуют «корректно, по-делу, в срок».

И тут я подойду к одному из главных тезисов статьи. Когда мы выбирали Flash, мы не выбирали «лучшую в мире модель». Мы выбирали оптимальную по балансу качество/цена/скорость для нашей конкретной задачи. И этот выбор имеет смысл только тогда, когда модель в проекте — заменяема.

Третье открытие: Tencent Hy3 за $0.0017

Tencent Hy3-preview — это китайская модель Tencent, доступная на OpenRouter как preview-релиз. Тариф 0.066/0.26 за 1M токенов (input/output). На нашем тесте получила 81 балл (sales 83, finance 81, supply-chain 80, pricing 80, hr 80) — нижний край Tier A.

Цена за один вызов — $0.00172. В 134 раза дешевле GPT-5.5 при потере всего 16 баллов качества.

Что у Tencent объективно хорошо:

  • Чистый русский, ноль CJK-символов

  • Корректная структура с правильными заголовками

  • Все методологии на месте — SPIN, Challenger, MEDDIC, EOQ, остальная классика B2B-канона

Что слабее лидеров:

  • Меньше глубины — avg 1740 слов против 3031 у Gemini

  • Использует LSCPA вместо более популярного LAER для работы с возражениями (не ошибка, просто менее распространённый алгоритм)

  • Упражнения без готовых решений

  • Мелкий markdown-баг: пишет ##Введение без пробела после ## — это уже на стороне постобработки лечится

Индекс цена/качество у Tencent — 88.5. Самый высокий в сессии. Это означает: для массовой генерации (массовая персонализация рассылок, тестовые прогоны для проверки промптов, подстраховка, когда основная модель недоступна) модель отдаёт A-tier за деньги, на которых остальные ещё в B-tier. Для production того контента, который не пойдёт под бренд-критичные задачи, — берёшь и работаешь. Для эталонных уроков по-прежнему ставишь Gemini.

Qwen 3.7 Max: регрессия относительно собственной 3.6

На Qwen 3.7 Max у меня были большие расчёты. Qwen 3.6 Plus в апрельском battle взял 92 балла, был лидером по цене/качеству среди платных моделей, и главное — на нём в нашем тесте не было CJK-символов. Я ждал, что Alibaba возьмёт ту же базу, докатит на флагман-тариф и получит нормальную S-tier модель для русского.

Получил 81 балл и старую проблему, которой уже не должно было быть. В двух топиках из пяти Qwen 3.7 вставлял одиночные китайские слова прямо в русский текст:

«Денежная мотивация имеет предел边际ной полезности (закон убывающей предельной полезности)»

«Управление рисками требует перехода от реактивных мер к проактивному量化 (количественному) моделированию угроз»

边际 — это «marginal» по-китайски, прилеплено к русскому суффиксу. 量化 — «quantification», воткнуто перед русской скобкой. Языковой шов внутри слова — модель «думала» на китайском в момент генерации и пропустила токен, который не должен был добраться до output.

Это особенно странно, потому что в Qwen 3.6 этой проблемы не было. То есть Alibaba умеет фиксить эту проблему — мы её видели у них уже починенной. На 3.7 Max она вернулась. Возможно, при тренировке Max-варианта (с увеличенным контекстом или другими параметрами) они затронули слой, ответственный за переключение языка. Или это просто другая ветка обучения, в которой не успели прогнать регрессионные тесты на китайские символы. Со стороны не видно.

По методологии — штраф −3 балла (не −10, потому что затронуто буквально 1 слово на ~2000 текста). В остальном Qwen — солидная A-tier модель: формула Sales Velocity, иерархический дашборд по уровням, концепция операционного рычага в финансах. Но при цене в 41 раз дороже Tencent и в 15 раз дороже DeepSeek V4 Pro — я не вижу сценария, где её стоит выбирать над альтернативами. Будем надеяться, в 3.8 регрессию увидят и пофиксят. На 3.7 — пас.

Это конкретный пример, почему самостоятельные тесты на своих задачах важнее публичных бенчмарков. Qwen 3.7 Max занимает хорошие позиции в китайских рейтингах LLM, на английских задачах работает прилично. На русском с проблемой китайских символов — ловушка, которую публичные тесты не показывают.

Что это значит для рынка LLM в мае 2026

Если коротко — китайцы стали реальной альтернативой американцам. По чистому качеству OpenAI и Google по-прежнему держат верхушку: 97/S — это всё ещё их вершина. Но как только в уравнение попадает цена, картина меняется.

Верхушка по цене/качеству сейчас занята китайскими моделями. DeepSeek V4 Pro даёт 87/A за $0.0047 — индекс 86.6. Tencent Hy3 даёт 81/A за $0.0017 — индекс 88.5. На том же балле Qwen 3.7 (без CJK-проблемы) был бы в той же зоне. Чтобы догнать их по цене/качеству, Gemini-3.5-flash должен либо сильно подешеветь, либо вырасти в качестве с 97 до 110, что физически невозможно — потолок шкалы.

Это и есть главный сдвиг рынка месяца. «Дешевле» перестало быть единственным аргументом за китайские модели. Теперь это «лучше по цене/качеству» при сопоставимом качестве. И это нормальная конкурентная ситуация — у заказчика появился реальный выбор, а у американцев появился стимул либо снижать цены, либо находить другие способы оправдывать премиум.

Один из способов, который у меня уже несколько месяцев крутится в голове как гипотеза, — это open-source. Возьмём Gemma 4 31b от Google. Мы её тестировали в апреле (есть в нашем открытом лидерборде), результаты неплохие для open-weights модели такого размера. Для того, кто готов развернуть её сам, она фактически бесплатна — платишь только за железо. А кто не хочет возиться с развёртыванием, может взять её на OpenRouter, и там она стоит копейки — то есть барьер входа низкий в любом случае. И таких моделей в США выпускают не очень много, а коммерческие флагманы держат в закрытом API.

Моя гипотеза, не претендующая на истину: если бы американцы хотели вытеснить китайцев с рынка лучших по цене/качеству моделей, они могли бы это сделать через релизы хороших open-source моделей. Сейчас этого не происходит — премиум-флагманы (GPT-5.5, Claude Opus, Gemini Ultra) остаются в закрытом API с высоким тарифом. Open-source ниша больше занята китайцами (DeepSeek, Qwen) и небольшими игроками (Mistral, Meta-Llama). У OpenAI формально есть открытые GPT-OSS 120B и 20B, но они уже сильно устарели — это релиз, к которому с тех пор почти не возвращались. Gemma — один из немногих живых американских контрпримеров, и она показывает, что технически такое возможно.

Это не «капитализм-имеет-фундаментальную-проблему», это просто наблюдение. У Google и OpenAI свои причины не релизить open-source флагманы — деньги, безопасность, регуляторное давление. Но конкурентная ниша по цене/качеству на этом фоне отдаётся китайцам не потому, что они умнее, а потому что американцы её не защищают. Это интересный момент рыночной динамики, на который, наверное, обратили бы внимание не только я.

Почему модель в продукте лучше держать заменяемой

Из этой скорости релизов следует одна чисто инженерная вещь, на которую стоит обратить внимание любому, кто встраивает LLM в продукт: если модель зашита в код намертво, продукт устаревает — потому что новые, более сильные модели выходят чаще, чем ты успеваешь переписывать код под них. Если зимой 2025 поставить GPT-4 как основную модель и забыть — к маю 2026 мимо тебя прошёл не один десяток релизов: Sonnet 4 и 4.5, Opus 4.6, GPT-5.4 и 5.5, Gemini-3.5-flash, весь китайский фронт от DeepSeek до Tencent. Очень многие из них превосходят тот GPT-4 одновременно и по качеству, и по цене. Сегодня на его место можно поставить модель заметно сильнее за те же деньги — а чаще даже дешевле. Или ту же по качеству, но в разы дешевле. И всё это время, пока модель зашита намертво, твой продукт работает на устаревшем варианте просто потому, что её неудобно менять.

Вывод простой: модель стоит держать как сменный параметр, а не константу. Технически это недорого — обычно сводится к тому, что model_id хранится не в коде, а в конфиге или в БД, и вызов идёт через OpenRouter (или совместимый прокси) с этим id как параметром. Тогда смена openai/gpt-5.5 на google/gemini-3.5-flash — это одна строка, а не рефакторинг. Бонусом получаешь единый API независимо от вендора, прозрачную стоимость через response.usage (те самые реальные цифры из раздела ниже) и возможность переключиться на запасную модель при достижении лимита запросов. Мы у себя так и делаем по умолчанию — не из любви к красивой архитектуре, а потому что иначе продукт устаревает на ровном месте. Ну и клиентоориентированность и всё такое…:)

Непопулярная позиция: 90% продуктов не нуждаются в Opus или GPT-5

Частая установка при выборе модели для продукта — «поставим самую дорогую, чтобы наверняка». Понятная человеческая логика: лучше переплатить и получить, чем сэкономить и опозориться. Но в подавляющем большинстве случаев это просто сжигание токенов и денег.

Конкретно: для 90–95% production-задач массового AI-контента (генерация уроков, ассистент в B2B-приложении, обработка типовых запросов, классификация, краткий аналитический разбор) разница между GPT-5.5 за $0.23 и DeepSeek V4 Flash за $0.003 на выходе не заметна для конечного пользователя. И тот, и другой текст пройдут проверку «нормально», и редактор не сможет надёжно угадать, кто из них что писал. А разница в счёте за месяц — два порядка.

Когда премиум-модели реально нужны:

  • Финальная редактура материалов для топ-менеджмента, презентаций, важных коммерческих предложений (но и это часто решается ручной редактурой по тексту от средней модели)

  • Reasoning-задачи с многошаговой логикой (но это уже не про контент, а про другой класс задач)

  • Креатив, где нужен литературный голос (но и тут вкус — субъективен)

  • Когда экономия в принципе не критична (например, продукт на этапе MVP, и каждый запрос важен)

Обратная сторона того же подхода — когда без тестирования ставят самую дешёвую модель. Это тоже плохо. Если ваша модель ловит китайские символы в 7 из 18 случаев, или копирует промпт в заголовки, или выдаёт сломанные диаграммы — клиенту покажете именно это. Сэкономили $200 в месяц — потеряли репутацию.

Правильный путь между двумя крайностями — это тест на своих задачах + честная оценка экономики. Иногда оптимальная модель — премиум, иногда — самая дешёвая, чаще всего — где-то посередине, в районе $0.003–0.005 за вызов. И эта середина — это сейчас зона DeepSeek Flash и Pro, Tencent Hy3, иногда Qwen без китайских символов. Все варианты — китайские. Это и есть рыночный факт мая 2026.

И тут есть ещё один пласт, который чаще всего игнорируют — по-моему, из обычной разработческой лени. Почти любую крепкую среднюю модель можно кодом дотянуть до уровня топовой. Не саму модель, конечно — а итоговое качество того, что доходит до пользователя. Берёшь модель за полцента, обвешиваешь её алгоритмической обвязкой: автоматические проверки на типичные косяки (те же китайские символы, копирование промпта в заголовки, битые диаграммы), автокоррекция формата, повторный прогон при провале проверки, валидация структуры и фактуры по заданным правилам. На выходе — текст, который проходит так же, как от премиум-модели, а стоит в десятки раз дешевле.

Да, честно: это больше работы. Это не «вписал название модели в конфиг и ушёл», это инженерия — надо написать проверки, продумать сценарии отказа, поддерживать всё это. Но именно здесь и появляется настоящая экономия, и она тем больше, чем крупнее бизнес. Логика простая: стоимость разработки обвязки фиксированная, ты платишь за неё один раз. А экономия на запросах — умножается на объём. Чем больше вызовов в месяц, тем быстрее обвязка окупается и тем больше чистой выгоды.

Отсюда важный водораздел, про который редко говорят прямо. Для микробизнеса этот подход часто не имеет смысла — пара тысяч запросов в месяц не окупит разработку обвязки, и проще взять модель подороже «как есть». Дешевле заплатить за токены, чем за инженеров. Но уже для среднего бизнеса картина переворачивается: на десятках и сотнях тысяч вызовов в месяц разница между «дорогая модель как есть» и «средняя модель плюс обвязка» считается сотнями тысяч рублей в год. А для крупного — это вообще один из основных рычагов оптимизации затрат, который почему-то редко доводят до конца. Поэтому и решение «какую модель брать» для микробизнеса и для среднего/крупного — это два разных решения, хотя выглядят одинаково.

И отдельно — про мой косяк в методологии

По правилам честного теста должен рассказать: пока готовил эту сессию, я нашёл у себя в коде ошибку, из-за которой полгода считал стоимость вызовов по кривой формуле — с занижением на 50–140%. На выводы по моделям и на их относительный порядок это не влияет, но абсолютные цифры цены в старых статьях были оценочными. Кому интересна техническая кухня и как я это чинил — разворачивайте. Остальные могут смело пропустить, на рекомендации по моделям это никак не влияет.

Методологический фикс: как формула cost_per_call полгода врала на 50–140% (для тех, кто строит свои бенчмарки)

Когда я начал собирать сравнение с прошлым тестом DeepSeek V4 Pro для этого battle, увидел странное: новая цена $0.0047 за вызов, а в БД для апрельского теста стояло $0.0256. Тариф упал в 4 раза, а cost_per_call упал в 5.4. Откуда лишний коэффициент 1.35?

Пошёл смотреть формулу.

# было
input_tokens  = 2000          # фиксированная константа
output_tokens = word_count * 1.5  # приближение

cost = (input_tokens / 1_000_000) * input_price + \
       (output_tokens / 1_000_000) * output_price

Полез проверять реальные данные OpenRouter — там в response.usage лежат прямые prompt_tokens и completion_tokens. Сравнил с нашей оценкой:

Модель

Estimated cost

REAL cost

Ошибка

deepseek/deepseek-v4-pro

$0.00308

$0.00473

+53%

google/gemini-3.5-flash

$0.04392

$0.08977

+104%

tencent/hy3-preview

$0.00081

$0.00172

+112%

qwen/qwen3.7-max

$0.02922

$0.07019

+140%

Причина — два коэффициента сразу. 1.5 токена на слово — это нормальное приближение для английского. Для русского markdown с mermaid, LaTeX, callouts и таблицами реальное соотношение 2.7–3.3 токена на слово. Output я недооценивал в 1.8–2.2 раза. Плюс 2000 input_tokens оказались реально 786–928 — input переоценивал в 2.2 раза. Ошибки складывались несимметрично, и в сумме у моделей с большой долей output (а это все наши — 3000+ слов в ответ на 1000-токенный промпт) стоимость систематически занижалась.

Почему прожило полгода — относительное ранжирование между моделями оставалось примерно адекватным. У самой дешёвой индекс цена/качество выходил высокий, у самой дорогой — низкий. Цифры были некорректные, но порядок моделей в таблице сохранялся. Заметил, когда сравнивал retest V4 Pro с апрельскими цифрами и не сошлось.

Починили: compute_value.py теперь читает meta-файлы и берёт реальные usage из OpenRouter; в heuristic_scores JSON добавлено поле cost_per_call_source со значениями REAL или estimated. Перепрогонять все 80 исторических моделей разом — деньги и время, которых нет. Буду делать по мере возникновения вопросов: если читатель хочет сравнить актуальный Gemini-3.5-flash с GPT-5.4, придётся прогнать GPT-5.4 заново, чтобы получить реальную стоимость.

Из этой же сессии — второй фикс, не про деньги, а про сравнение версий теста. Первый черновик отчёта начинался так: «Gemini обогнал предыдущего лидера в нашем тесте — Claude Sonnet 4.5 (92, A-tier)». Это было неправдой. Sonnet 4.5 был лидером только в рамках test_version='4.1.0-battle'. Абсолютный лидер в БД был уже GPT-5.4 (97, S-tier) — но в 4.2.0-battle. SQL фильтровал по версии, GPT-5.4 туда не попадал. Без этого фикса каждый новый battle претендовал бы на «прорыв», даже когда результат равен уже существующему чемпиону из другой версии. Скрипт find_reference.py теперь берёт абсолютного top по quality_score без фильтра по версии.

Обнаружить такие ошибки через полгода после релиза методологии неприятно. Но публиковать отчёт, не сказав про них, было бы хуже. Метод, в котором фиксируешь только свои победы, перестаёт быть методом.

Обновлённые рекомендации (после пересчёта по реальной цене)

Для production эталонного качества, 1 000 – 10 000 вызовов в месяц. Берём google/gemini-3.5-flash. Цена $90–900 в месяц, качество 97/S, разнообразные визуализации (gantt/kanban/sequenceDiagram), упражнения с готовыми решениями. Текущий референс качества в нашей БД.

Для production-масштаба 10 000 – 100 000 вызовов, где деньги критичны. Берём deepseek/deepseek-v4-pro. Цена $47–470 в месяц — в 19 раз дешевле Gemini, в 48 раз дешевле GPT-5.5. Качество 87/A — приемлемо для большинства задач без обязательного человеческого ревью. Стиль компактный, плотный, без длиннот.

Для mass-market при жёстком бюджете, 100 000+ вызовов. Берём tencent/hy3-preview. Цена $17–170 в месяц для 10K–100K вызовов. Качество 81/A, на 16 баллов ниже Gemini — приемлемо для типовой генерации, чистый русский, нет language-switching. Индекс цена/качество 88.5 — лучший в сессии.

Премиум-сегмент. openai/gpt-5.5 — только если важно «больше слов любой ценой» (avg 3720 слов против 3031 у Gemini). Иначе берите Gemini и экономьте 60%.

Не рекомендую. qwen/qwen3.7-max для русского контента — китайские иероглифы в тексте при премиум-цене. openai/gpt-5.5 для типовой работы — переплата 154% за прирост 1.6 балла vs Gemini.

Главный вывод

Главное за май-баттл — не «вышел новый Gemini» и не «починили формулу». Главное — что у заказчика теперь реально есть выбор. По цене и качеству китайские модели догнали американцев, и в верхушке по цене/качеству сидят DeepSeek, Tencent и Qwen, а не американская тройка. Это первый раз за два года тестирования, когда я могу сказать клиенту «вот реальные альтернативы из разных юрисдикций, с сопоставимыми результатами», и это не маркетинговая фраза.

Что из этого следует практически — если у вас уже есть AI-продукт в production, и в нём зашита конкретная модель из 2024–2025 года, вы упустили пять-шесть качественных скачков. Сейчас можно поменять. Если только модель в продукте — заменяема. Если нет — это первое, что стоит починить, потому что через два месяца будет ещё один скачок, и через четыре ещё один.

И ещё один сюжет — не для всех, но для тех, кто строит свои бенчмарки. Параметры не равно качество. Дата релиза не равно превосходство. Бренд вендора не равно «модель лучше». Реальные тесты на своих задачах — единственный способ узнать, что у тебя реально под капотом. Доверять чужим тестам — это покупать ботинки, не примерив. Чего я никому не советую.

См. также

Это третий battle test в нашем цикле. Две предыдущие статьи — это контекст для сегодняшней:

Стоит учитывать: cost_per_call в обеих статьях — по старой приближённой формуле, реальные цифры выше на 50–140%. Качество и относительное ранжирование моделей остались валидными, абсолютная стоимость — оценочной.

Открытый лидерборд с обновлёнными реальными цифрами стоимости и активными ссылками на скрипты методологии — ссылку дам в посте Telegram-канала. Там же выкладываю апдейты по новым моделям между статьями — релизы выходят быстрее, чем я успеваю писать о каждом.

Контакты — там же: @maslennikovigor для канала и @maslennikovig для прямой связи. Если нашли в моей методологии ещё какую-нибудь систематическую ошибку — пишите, исправлю быстрее, чем за полгода.

Комментарии (10)


  1. ontop
    28.05.2026 21:20

    Видимо опытным путем уже научился определять уровень модели. :)

    Прошлые 2 месяца сидел на GPT5.4, 5.5

    Вышла Kimi2.6 сразу перешёл = GPT5.4 + Opus 4.6. Прекрасная модель, ещё и opensoure.

    Опытным путем заметил, что Sonnet 4.6 уже не тянет или тянет, но слаб в глобальном планировании. Нет такого уровня как у Kimi2.6.

    Дальше перешёл на DeepSeekV4Flash из-за скорости. Kimi2.6 для меня слишком задумчивый, если ускорят будет бомба. (Уже была новость, что ускорили в 10 раз).

    На самом деле мы подошли уже в тому краю, когда уровень написания кода моделями примерно равный. Отличаются они только разной способностью планирования.

    Composer 2.5 вышел, пропустили? Очень хорош, в задачах кодинга.

    Подготовил себе около 50 задач для тестирования уровня моделей для моих задач. Вчера начал собирать информацию, а оказалось разницы там между моделями топ уровня уже 92-98%.

    Но Gemini 3.5 flash крутая. Но она слишком самонадеянная, а именно в моем случае использовал недельный лимит токенов на 100$ ее обещаниями адаптировать llama под RDNA4 шейдеры. Каждый час, вот вот... В итоге оказалось есть в GPU некоторые инженерные моменты про которые модель не знает и она начинает нести откровенную ересь тем самым хватаясь за любую соломенку, только бы оправдать полный провал. То есть она очень легко может галлюацинационировать вам план, который будет связан с реальностью только слухами которые она слышала и приняла за чистую монету.


    1. rodial
      28.05.2026 21:20

      Gemini затачивается в том числе под поиск и в этом 3.5 вполне хороша, если предоставить ей возможность гуглить то и результат скорее всего будет иной.


    1. Absamad
      28.05.2026 21:20

      В агентских задачах, разница все ещё большая

      Я там успел уже хорошо поработать с разными моделями, причем плотно, брал на кажду подписку

      Минимакс 2.7 оказался очень быстрым, но насколько же глупым

      Простейшие задачи решает, в сложных ходит кругами

      Кими 2.6 на порядок лучше

      Уже можно давать решать сложные задачи

      Кругами не ходит, но до результата доходит долго и не всегда

      Мимо 2.5 про тоже был неплох, где-то на уровне Кими, но чуть хуже

      А вот чат гпт 5.5 показал себя просто великолепно

      Решал вообще все что приходило в голову

      По приколу кидал и довольно непростые, длинны задачи, которые решаются часами, он единственный кто мог уверенно дойти до конца

      Все это делал в гермес

      Там прям реально, каждый процент выполненных моделями задач на terminal bench был отчётливо виден

      По цене конечно да, разница большая

      Но если брать гпт про за 100 баксов, то там лимиты очень щедрые, из я тратил уже не задумываясь об экономии, хватало с запасом ( с учётом двойных лимитов )

      Кими за 40 баксов не хватало, приходилось экономить

      Гпт плюс хватало где-то на час, потом нужно ждать 5 часов

      У минимакса ну прям очень щедрые лимиты да копейки ( 15к запросов в неделю за 8 баксов ), но тратить мне их было особо некуда, модель слабовата


    1. Luis2
      28.05.2026 21:20

      Базовый шаблонный код они все генерят сносно, проблемы начинаются когда проект разрастается за пределы пары файлов и не лезет в контекстное окно


      1. TailsMan
        28.05.2026 21:20

        Пока что.


  1. Altair2021
    28.05.2026 21:20

    Качество — 87. Минус 2 балла к апрелю, в пределах рутинной флуктуации на пяти топиках. По-честному — модель стоит на месте. Несмотря на месяц после релиза. Несмотря на то, что DeepSeek явно работал с моделью — она стала заметно компактнее (avg 1695 слов против 2598 в апреле, минус 35%). Стиль чище, без длиннот, но это уже на уровне постредактуры — фундаментальное «качество мысли» не сдвинулось.

    Мб пропустил, но бенчмарк был через api openrouter'а или через веб-интерфейс? Если через апи -- то почему модель и её генерации должны как-то меняться?


    1. Luis2
      28.05.2026 21:20

      Через опенроутер запросы могут идти через разных сторонних провайдеров с разными параметрами квантизации, отсюда и плавающее качество генерации на одной и той же модели


      1. Altair2021
        28.05.2026 21:20

        Через опенроутер можно чётко задать провайдера. Иначе то, что "бенчмаркили" в статье, по сути, не имеет смысла. Просто поведение модели у разных провайдеров может отличаться из-за настроек хотя бы контекста и длины вывода. Тогда правильнее было бы сравнить поведение одной модели у разных провайдеров (и в разные промежутки времени).

        Кроме того, автор статьи явно указывает "модель стоит на месте, несмотря на месяц после релиза", что не вяжется с опенроутером и провайдерами.


  1. novice2001
    28.05.2026 21:20

    Замечание по расчету ошибки стоимости. Нельзя, просто математически нельзя занизить стоимость на 140% и получить положительное значение. Если стоимость занизить на 100%, вы уже получите 0. А дальше она станет отрицательной.

    Реальное занижение в ваших примерах составляет от 34,88% (вместо 53) до 58,37% (вместо 140).


  1. Luis2
    28.05.2026 21:20

    Я эту гонку бенчмарков читаю как спор аудиофилов про теплый ламповый звук. В проде у тебя все равно половина промптов отвалится из-за галлюцинаций какую LLM ни возьми