
Зачем вообще нужен умный роутинг
Каждый, кто пробовал подключать большую языковую модель (LLM) к реальному продукту, сталкивался с простым выбором: либо точнее, но дорого, либо дешевле, но хуже. GPT‑5, по словам авторов работы, уже движется к решению за счёт тестового роутинга: простые запросы идут в более быструю и бюджетную модель, сложные — к мощной. Команда Avengers‑Pro делает шаг дальше: объединяет несколько моделей разных семейств в единую систему и учит её стабильно держать баланс между точностью и стоимостью, не завися от одной большой модели.

Главная идея
Avengers‑Pro — это лёгкий тестовый роутер поверх набора LLM. Он сначала кодирует запрос в вектор с помощью эмбеддера, затем сопоставляет его с несколькими близкими кластерами и выбирает одну модель, которая даёт лучший баланс по производительности и эффективности. Роутер управляется одним параметром α: при большем α он смелее кидает задачи в дорогие и более точные модели, при меньшем — чаще использует недорогие.
Как это работает изнутри
Эмбеддинги. Запрос превращается в вектор (в работе — Qwen3‑embedding‑8B, 4096 измерений).
Кластеризация. На обучающей части (70% датасета) авторы запускают k‑means с k=60 и получают кластеры похожих задач.
Профиль моделей. Для каждой модели считают по каждому кластеру среднюю точность и стоимость токенов.
Скориинг. Внутри кластера каждый кандидат получает скор x = α·p + (1−α)·(1−q), где p — нормированная точность, q — нормированная стоимость.
Инференс. На лету запрос ищет top‑p ближайших кластеров (p=4), суммирует скор по ним и выбирает модель с максимальным итогом.
То есть никакой тяжёлой мультиагентной системы, сложных оркестраторов и цепочек промтов: один проход по простому правилу, одна модель на запрос, понятная настройка через один ползунок α.
Что проверяли
Набор сильный и разнородный: GPT‑5‑chat и GPT‑5‑medium, Claude‑4.1‑opus и Claude‑4‑sonnet, Gemini‑2.5‑pro и Gemini‑2.5‑flash, а также два варианта Qwen3‑235B (включая «thinking»). Бенчмарки — шесть разных наборов на суммарно 2 603 задачах: от GPQA‑Diamond и ARC‑AGI до LiveCodeBench и τ2‑bench. Стоимость считали по ценам OpenRouter, отдельно учитывая вход и выход.
Что из этого вышло
При сопоставимой цене Avengers‑Pro обгоняет лучший одиночный базис GPT‑5‑medium на +7% по средней точности: 66.66% против 62.25%, при близкой суммарной стоимости ($47.13 против $47.96).
Если зафиксировать точность как у GPT‑5‑medium, система снижает цену на 27%: 62.66% за $35.05.
Для сценария «нужно дёшево, но более‑менее качественно»: примерно 90% точности GPT‑5‑medium получается за минус 63% стоимости; относительно Gemini‑2.5‑pro экономия до 81% при сопоставимой точности.
И главное — в разрезе «точность–стоимость» ни одна одиночная модель не превосходит роутер одновременно по обоим критериям.
Баланс одним движением ползунка
Параметр α ведёт себя предсказуемо: по мере роста α возрастает доля тяжёлых моделей, растут и метрики, и цена. Авторы отмечают два «локтя»: около 0.4 (ещё дёшево, но уже заметный прирост качества) и около 0.6 (дальше точность выходит на плато, а стоимость растёт быстрее).

Кто реально тянет нагрузку
При низком α система чаще маршрутизирует в Qwen3 и Qwen3‑thinking — они дешёвые и неплохо справляются с частью задач. Когда α поднимается, растёт доля GPT‑5‑medium, а также подключаются Gemini‑2.5‑pro и Claude‑4.1‑opus для самых требовательных запросов. Похоже на здравую, автоматически выученную стратегию использования нескольких моделей.

Почему это важно
Предсказуемые бюджеты. Можно заранее зафиксировать целевую стоимость или точность и получить оптимальный режим без ручного микроменеджмента.
Простота внедрения. Роутер не требует сложной логики и легко встраивается поверх существующего стека, независимо от провайдера LLM.
Прозрачность. Решение интерпретируемо: видны кластеры, профили моделей и влияние α.
Несколько слов напоследок
Avengers‑Pro показывает, что разумная маршрутизация поверх зоопарка LLM может дать больше, чем поиск идеальной универсальной модели. Один параметр управляет компромиссом, а сами модели остаются взаимозаменяемыми. В результате — плюс к качеству при той же цене или заметная экономия без катастрофы по метрикам. Для команд, которые считают токены и SLA одновременно, это очень практичный рецепт.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Antra
Можно чуть поподробне, что все-таки что он оценивает?
Если "сложность запроса" - что это значит? Для меня (обывателя) - это то ли "много букв". То-ли сложные конструкции, задачи на логику. То-ли вообще просит программу писать, и надо отправить на модель попроще, зато заточенную именно на кодинг...