Зачем вообще нужен умный роутинг

Каждый, кто пробовал подключать большую языковую модель (LLM) к реальному продукту, сталкивался с простым выбором: либо точнее, но дорого, либо дешевле, но хуже. GPT‑5, по словам авторов работы, уже движется к решению за счёт тестового роутинга: простые запросы идут в более быструю и бюджетную модель, сложные — к мощной. Команда Avengers‑Pro делает шаг дальше: объединяет несколько моделей разных семейств в единую систему и учит её стабильно держать баланс между точностью и стоимостью, не завися от одной большой модели.

Avengers-Pro оптимизирует компромисс между точностью и стоимостью. (A) Изменяя параметр α, Avengers‑Pro формирует границу Парето: по сравнению с любыми одиночными моделями достигает максимальной точности при заданной стоимости и минимальной стоимости при заданной точности. (B) При сопоставимой стоимости Avengers‑Pro превосходит сильнейшую одиночную модель GPT‑5‑medium на 7.1%; при сопоставимой точности снижает стоимость на 26.9% по сравнению с GPT‑5‑medium.
Avengers-Pro оптимизирует компромисс между точностью и стоимостью. (A) Изменяя параметр α, Avengers‑Pro формирует границу Парето: по сравнению с любыми одиночными моделями достигает максимальной точности при заданной стоимости и минимальной стоимости при заданной точности. (B) При сопоставимой стоимости Avengers‑Pro превосходит сильнейшую одиночную модель GPT‑5‑medium на 7.1%; при сопоставимой точности снижает стоимость на 26.9% по сравнению с GPT‑5‑medium.

Главная идея

Avengers‑Pro — это лёгкий тестовый роутер поверх набора LLM. Он сначала кодирует запрос в вектор с помощью эмбеддера, затем сопоставляет его с несколькими близкими кластерами и выбирает одну модель, которая даёт лучший баланс по производительности и эффективности. Роутер управляется одним параметром α: при большем α он смелее кидает задачи в дорогие и более точные модели, при меньшем — чаще использует недорогие.

Как это работает изнутри

  • Эмбеддинги. Запрос превращается в вектор (в работе — Qwen3‑embedding‑8B, 4096 измерений).

  • Кластеризация. На обучающей части (70% датасета) авторы запускают k‑means с k=60 и получают кластеры похожих задач.

  • Профиль моделей. Для каждой модели считают по каждому кластеру среднюю точность и стоимость токенов.

  • Скориинг. Внутри кластера каждый кандидат получает скор x = α·p + (1−α)·(1−q), где p — нормированная точность, q — нормированная стоимость.

  • Инференс. На лету запрос ищет top‑p ближайших кластеров (p=4), суммирует скор по ним и выбирает модель с максимальным итогом.

То есть никакой тяжёлой мультиагентной системы, сложных оркестраторов и цепочек промтов: один проход по простому правилу, одна модель на запрос, понятная настройка через один ползунок α.

Что проверяли

Набор сильный и разнородный: GPT‑5‑chat и GPT‑5‑medium, Claude‑4.1‑opus и Claude‑4‑sonnet, Gemini‑2.5‑pro и Gemini‑2.5‑flash, а также два варианта Qwen3‑235B (включая «thinking»). Бенчмарки — шесть разных наборов на суммарно 2 603 задачах: от GPQA‑Diamond и ARC‑AGI до LiveCodeBench и τ2‑bench. Стоимость считали по ценам OpenRouter, отдельно учитывая вход и выход.

Что из этого вышло

  • При сопоставимой цене Avengers‑Pro обгоняет лучший одиночный базис GPT‑5‑medium на +7% по средней точности: 66.66% против 62.25%, при близкой суммарной стоимости ($47.13 против $47.96).

  • Если зафиксировать точность как у GPT‑5‑medium, система снижает цену на 27%: 62.66% за $35.05.

  • Для сценария «нужно дёшево, но более‑менее качественно»: примерно 90% точности GPT‑5‑medium получается за минус 63% стоимости; относительно Gemini‑2.5‑pro экономия до 81% при сопоставимой точности.

И главное — в разрезе «точность–стоимость» ни одна одиночная модель не превосходит роутер одновременно по обоим критериям.

Баланс одним движением ползунка

Параметр α ведёт себя предсказуемо: по мере роста α возрастает доля тяжёлых моделей, растут и метрики, и цена. Авторы отмечают два «локтя»: около 0.4 (ещё дёшево, но уже заметный прирост качества) и около 0.6 (дальше точность выходит на плато, а стоимость растёт быстрее).

Влияние параметра баланса α на производительность и эффективность: большее α отдаёт приоритет производительности над эффективностью; рост производительности обычно сопровождается увеличением стоимости.
Влияние параметра баланса α на производительность и эффективность: большее α отдаёт приоритет производительности над эффективностью; рост производительности обычно сопровождается увеличением стоимости.

Кто реально тянет нагрузку

При низком α система чаще маршрутизирует в Qwen3 и Qwen3‑thinking — они дешёвые и неплохо справляются с частью задач. Когда α поднимается, растёт доля GPT‑5‑medium, а также подключаются Gemini‑2.5‑pro и Claude‑4.1‑opus для самых требовательных запросов. Похоже на здравую, автоматически выученную стратегию использования нескольких моделей.

Доля использования моделей при разных значениях параметра компромисса α. При низком α система Avengers-Pro чаще направляет запросы к Qwen3 и Qwen3-thinking; при большем α предпочитает GPT5-medium и Qwen3-thinking.
Доля использования моделей при разных значениях параметра компромисса α. При низком α система Avengers-Pro чаще направляет запросы к Qwen3 и Qwen3-thinking; при большем α предпочитает GPT5-medium и Qwen3-thinking.

Почему это важно

  • Предсказуемые бюджеты. Можно заранее зафиксировать целевую стоимость или точность и получить оптимальный режим без ручного микроменеджмента.

  • Простота внедрения. Роутер не требует сложной логики и легко встраивается поверх существующего стека, независимо от провайдера LLM.

  • Прозрачность. Решение интерпретируемо: видны кластеры, профили моделей и влияние α.

Несколько слов напоследок

Avengers‑Pro показывает, что разумная маршрутизация поверх зоопарка LLM может дать больше, чем поиск идеальной универсальной модели. Один параметр управляет компромиссом, а сами модели остаются взаимозаменяемыми. В результате — плюс к качеству при той же цене или заметная экономия без катастрофы по метрикам. Для команд, которые считают токены и SLA одновременно, это очень практичный рецепт.

? Полная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (1)


  1. Antra
    29.08.2025 05:21

    Можно чуть поподробне, что все-таки что он оценивает?

    Если "сложность запроса" - что это значит? Для меня (обывателя) - это то ли "много букв". То-ли сложные конструкции, задачи на логику. То-ли вообще просит программу писать, и надо отправить на модель попроще, зато заточенную именно на кодинг...