Я спроектировал архитектуру команды из 9 ИИ-агентов, где каждый агент — это отдельная open-source модель, подобранная под конкретную роль по бенчмаркам. Цель — полный цикл генерации агентов: от пользовательского запроса до кода с тестами и security review.

Дисклеймер: это исследование и проектирование архитектуры, а не готовый продукт. Дашборд — визуализация на статических данных. Playground с живым инференсом на кластере — следующий этап. Статья отвечает на вопрос «какую модель на какую роль и почему» — не на вопрос «вот оно работает в проде».

Ниже — конкретика: какие модели, на какие роли, почему именно эти, как они шарят GPU, сколько стоят в гигабайтах и какие бенчмарки реально определяют выбор. С конфигурациями развёртывания от одной RTX 4090 до кластера A100.

TL;DR: 9 логических агентов = 3-4 физических модели. Минимальный сетап — 24 GB VRAM (одна RTX 4090). Полный продакшен — 211 GB (четыре A100). Интерактивный дашборд для визуализации маппинга роль→модель→GPU.


Зачем 9 агентов вместо одного GPT-5

Первый вопрос, который задают: зачем 9 моделей, когда можно одну большую?

Ответ в бенчмарках. У каждой модели есть суперсила — и слабое место:

Модель

Active

Суперсила

Score

Слабость

Kimi K2.5

32B

Кодогенерация (HumanEval)

99.0

Тяжёлая (1T total, ~125 GB), SWE-bench только 76.8

MiniMax M2.5

10B

Real-world баги (SWE-bench)

80.2

Нет данных по reasoning и instruction following

Qwen3.5-397B

17B

Reasoning + инструкции (GPQA / IFEval)

88.4 / 92.6

SWE-bench 76.4 — хорош, но не лучший кодер

DeepSeek V3.2

37B

Универсал (MMLU-Pro + LiveCodeBench + Aider)

85.0 / 83.3 / 74.2

Нет лидерства ни в одном бенчмарке — но топ-5 везде

GLM-4.7

32B

Tool use (tau-bench)

87.4

Заточена под оценку, а не генерацию кода

Qwen2.5-Coder-32B

32B

Локальный кодинг (HumanEval + Aider)

92.7 / 73.7

Dense-модель — нет MoE-экономии, только код

Devstral Small 2

24B

Agenting в реальных кодовых базах

SWE 68.0

24B — слабее на abstract reasoning

Ни одна модель не покрывает всё. Kimi K2.5 — бог HumanEval, но весит 125 GB и посредственно чинит реальные баги. Qwen3.5-397B — лучший reasoning, но не лучший кодер. GLM-4.7 — единственная модель с по-настоящему хорошим tool use — и она вообще не про кодогенерацию. DeepSeek V3.2 — везде в топ-5, но нигде не первый.

Не бывает «лучшей модели». Бывает лучшая модель для конкретной роли. Классическая софтверная команда — это специализация: аналитик не пишет код, тестировщик не проектирует архитектуру. С LLM — то же самое.


Архитектура: от запроса до деплоя

Вот как устроен пайплайн. Пользователь говорит: «Сделай мне агента поддержки, который интегрируется с Jira», и дальше:

User Request
     │
     ▼
[1. Оркестратор] ─── декомпозиция задачи, маршрутизация
     │
     ├──► [2. Аналитик] ─── ARD (Agent Requirement Document)
     │         │
     │         ▼
     ├──► [3. Исследователь] ─── Context Package (API, доки, паттерны)
     │         │
     │         ▼
     ├──► [4. Архитектор] ─── TDD (Technical Design Document)
     │         │
     │         ▼
     ├──► [5. Промпт-инженер] ─── Prompt Package (системный промпт, guardrails, tool configs)
     │         │
     │         ▼
     ├──► [6. Билдер] ─── код агента + конфигурации
     │         │
     │         ▼
     │    [7. Тестировщик] ─── тесты провалены?
     │         │         │
     │         │ да      │ нет
     │         ▼         ▼
     │    [6. Билдер]   [8. Критик] ─── «это хорошо сделано?»
     │    (fix & retry)       │
     │                        ▼
     └──────────────► [9. Безопасник] ─── Security Audit
                              │
                              ▼
                     Production-ready Agent

Каждый агент коммуницирует через структурированные артефакты (ARD, TDD, Prompt Package), а не через свободный текст. Это критично: передача контекста через free-form текст между агентами — это «испорченный телефон» в квадрате. Артефакты со строгой схемой решают эту проблему.

Два обязательных feedback loop:

  • Builder ↔ Tester: код не считается готовым, пока тесты не пройдены

  • Builder ↔ Critic: тесты могут пройти, но код при этом быть плохим — Критик ловит именно это


9 ролей: детальный маппинг модель → задача

Теперь — самое интересное. Для каждой роли я выбрал модель по принципу: какой бенчмарк критичен для этой роли, и кто в нём лидер.

1. Оркестратор — Qwen3.5-397B (17B active)

Мозг системы. Принимает запрос, декомпозирует на подзадачи, маршрутизирует между агентами, собирает результат.

Критические бенчмарки: GPQA (глубокое рассуждение) и IFEval (точность следования инструкциям).

Почему Qwen3.5-397B: лучший GPQA 88.4% среди всех open-source + лучший IFEval 92.6%. Оркестратор должен точно понимать, что хочет пользователь, и умно решать, кому делегировать. Любая ошибка оркестратора ломает весь пайплайн по цепочке.

397 миллиардов параметров, но благодаря MoE активны только 17B на каждый токен. ~50 GB VRAM в INT4.

Бюджет: QwQ-32B (16 GB) — сильный reasoning при 32B dense.

2. Аналитик требований — Qwen3-8B

Превращает расплывчатый запрос пользователя в структурированный ARD.

Для этой роли не нужен deep reasoning или кодогенерация — нужно хорошо понимать intent и формировать structured output. Qwen3-8B с его thinking/non-thinking mode — оптимальный баланс: достаточно умный для анализа требований, достаточно лёгкий (4 GB), чтобы не отъедать GPU у более требовательных ролей.

3. Исследователь — Qwen3.5-397B (shared с Оркестратором)

Собирает контекст до проектирования: существующие решения, API-документация, reference implementations.

Шарит инстанс с Оркестратором — они никогда не работают одновременно. Оркестратор делегирует и ждёт, пока Исследователь закончит. Ноль дополнительных GPU.

Альтернатива, когда нужен огромный контекст: Llama 4 Scout с окном 10M токенов.

4. Архитектор — DeepSeek V3.2 (37B active, 685B total)

Проектирует систему: компоненты, API, data flow, error handling, выбор фреймворка.

Критические бенчмарки: нужен одновременно и хороший reasoning, и понимание кода.

Почему V3.2: MMLU-Pro 85.0 (широкая эрудиция) + SWE-bench 73.1% (понимает реальные кодовые базы) + LiveCodeBench 83.3. Это единственная модель в топ-5 одновременно по reasoning И coding бенчмаркам. ~85 GB в INT4.

Бюджет: DeepSeek-R1-Distill-Qwen-32B (16 GB) — MATH-500 94.3, CodeForces 1691.

5. Промпт-инженер — Qwen3.5-397B (shared с Оркестратором)

Создаёт системные промпты, guardrails, few-shot examples, tool configurations.

Логика выбора: модель с лучшим IFEval (92.6%) лучше всех понимает, что делает инструкции эффективными. Она знает, как LLM реагируют на формулировки — потому что сама лучше всех им следует. Шарит инстанс с Оркестратором.

6. Билдер — Qwen2.5-Coder-32B (dense)

Пишет код. Много кода. Быстро.

Специализированная coding-модель. HumanEval 92.7% (уровень GPT-4o), Aider 73.7 (polyglot — работает с разными языками и фреймворками). Dense-модель — предсказуемое качество, нет MoE-джиттера.

При INT4 — всего 16 GB. Влезает на одну consumer-карточку.

Бюджет: Qwen2.5-Coder-7B (4 GB) — HumanEval 88.4, бьёт CodeStral-22B.
Перспектива: Qwen3-Coder-Next (3B active, 80B total) — SWE-bench 70.6% при 10 GB.

7. Тестировщик — Devstral Small 2 (24B dense)

Генерирует тесты, ищет edge cases, валидирует acceptance criteria из ARD.

Ключевое: SWE-bench 68.0%. Эта модель обучена на real-world software engineering задачах. Она понимает не изолированные функции, а целые кодовые базы — контексты, зависимости, интеграции. 12 GB в INT4.

Бюджет: Falcon H1R-7B (4 GB) — AIME 83.1% reasoning при 7B. Маленькая, но думает как большая.

8. Критик — GLM-4.7 (32B active, 355B total)

Оценивает результат не по принципу «тесты прошли», а «это хорошо сделано»: качество кода, ясность промптов, надёжность guardrails, соответствие архитектуре.

Критический бенчмарк: tau-bench — оценка качества tool use в реальных сценариях. GLM-4.7: 87.4% — лучший показатель среди всех open-source моделей. Критик должен понимать, как агенты используют инструменты, и оценивать качество этого использования.

44 GB в INT4.

Бюджет: Ministral 14B Reasoning (7 GB) — AIME ~85%, GPQA 71.2.

9. Безопасник — DeepSeek V3.2 (shared с Архитектором)

Prompt injection, утечки данных, избыточные permissions, API key management, adversarial тестирование.

Шарит инстанс с Архитектором — они работают в разных фазах пайплайна (Архитектор до кода, Безопасник после). Широкая база знаний (MMLU-Pro 85.0) + понимание кода = adversarial thinking.

Бюджет: DeepSeek-R1-Qwen3-8B (4 GB) — AIME 87.5% reasoning. Adversarial thinking за 4 гигабайта.


Шаринг инстансов: 9 агентов ≠ 9 GPU

Это, пожалуй, главный архитектурный трюк. Агенты работают последовательно в пайплайне: пока Билдер пишет код, Оркестратор ждёт. Пока Тестировщик проверяет — Билдер свободен.

Модели, которые никогда не работают одновременно, разделяют один инстанс:

Shared-инстанс

Роли

Почему вместе

VRAM

Qwen3.5-397B

Оркестратор, Аналитик, Исследователь, Промпт-инженер

Последовательный пайплайн — оркестратор делегирует и ждёт

50 GB

DeepSeek V3.2

Архитектор, Безопасник

Архитектор работает до кода, Безопасник — после

85 GB

Qwen2.5-Coder-32B

Билдер, запасной Тестировщик

Билдер заканчивает до начала тестирования

16 GB

GLM-4.7

Критик

Единственная модель с хорошим tau-bench

44 GB

Devstral Small 2

Тестировщик

Специализация на реальных кодовых базах

12 GB

Итого: 9 логических агентов → 5 физических инстансов → 207 GB VRAM.

Для бюджетного варианта (3 модели, 5 агентов) — 24 GB. Одна RTX 4090.


Бенчмарки, которые реально определяют выбор

Забудьте про MMLU и HellaSwag — они давно упёрлись в потолок, лидерборды стоят на месте. В 2026 году для агентных систем критичны совсем другие метрики:

Бенчмарк

Что измеряет

Для каких ролей

Почему важен

SWE-bench Verified

Починка реальных багов в реальных GitHub-репозиториях

Builder, Tester, Architect

Единственный бенчмарк, где модель работает с реальным кодом, а не toy-примерами

IFEval

Точность следования сложным инструкциям

Orchestrator, Prompt Engineer

Оркестратор живёт на инструкциях. IFEval < 90% = агент не понимает, что от него хотят

GPQA Diamond

Graduate-level reasoning (физика, химия, биология)

Orchestrator, Architect

Показатель глубины рассуждений. Если модель решает задачи PhD-уровня, она справится с декомпозицией

tau-bench

Качество tool use в реальных (не синтетических) сценариях

Critic, любой агент с tools

Единственный бенчмарк, тестирующий реальное использование инструментов, а не только парсинг JSON

Aider Polyglot

Кодогенерация на разных языках с реальным edit-test циклом

Builder

Измеряет способность модифицировать существующий код, а не писать с нуля

LiveCodeBench

Competitive programming (свежие задачи, без утечки в training data)

Architect, Builder

Чистый тест на reasoning + код, исключает memorization

BFCL v4

Function calling accuracy

Любой агент с API-интеграциями

Стандартный бенчмарк для вызова функций. Лучший open-source: Qwen3.5-122B-A10B (72.2%)

Источники: SWE-bench Verified, LiveBench, Berkeley Function Calling Leaderboard V4, Aider LLM Leaderboards, LMSYS Arena.


MoE: почему frontier-качество стало доступным

Mixture-of-Experts — главное архитектурное изменение, сделавшее этот проект возможным. Объясню на конкретных числах:

Модель

Всего параметров

Активных за токен

Качество

VRAM (INT4)

Qwen3.5-397B

397B

17B

≈ Claude 3.5 Sonnet

50 GB

MiniMax M2.5

230B

10B

SWE-bench 80.2% (лучший open-source)

29 GB

Qwen3-Coder-Next

80B

3B

SWE-bench 70.6%

10 GB

DeepSeek V3.2

685B

37B

MMLU-Pro 85.0, LiveCodeBench 83.3

85 GB

Как это работает: Все 397B параметров загружены в VRAM, но на каждый токен работает маленькая часть — 17B. Это как офис на 400 человек, где над каждой задачей работают 17, но каждый раз — другие 17 специалистов.

Для VRAM это значит: вы платите за хранение всех параметров (VRAM = total params). Но при вычислениях платите за инференс только активных (скорость ≈ dense-модель размера active params).

Для агентной фабрики, где агенты работают последовательно, MoE идеален:

  • VRAM заняты, но один инстанс обслуживает 4 роли

  • Compute на токен — как у 17B-модели, а не 397B

  • Качество — frontier-уровня

Именно MoE позволяет запустить 9 агентов frontier-качества на нескольких GPU.


Self-hosted vs. API: честное сравнение

Реальные цены API (март 2026)

Сначала — факты. Open-source модели доступны через API-провайдеров по ценам, которые делают self-hosting экономически невыгодным при малых объёмах:

Модель

Input ($/M)

Output ($/M)

Источник

DeepSeek V3.2

$0.26

$0.38

OpenRouter

Qwen3.5-397B

$0.39

$2.34

OpenRouter

Kimi K2.5

$0.45

$2.20

OpenRouter

MiniMax M2.5

$0.27

$0.95

OpenRouter

GLM-4.7

$0.38

$1.98

OpenRouter

Mistral Small 24B

$0.06

$0.18

OpenRouter

Один агентный запрос (9 агентов, ~100K input + ~30K output суммарно) обходится в $0.03-0.15 через API — не $0.50-2.00, как было бы на проприетарных моделях (Claude Opus / GPT-5). При 10-50 запросах в день — это $0.30-7.50/день. OpenRouter даёт 1000 бесплатных запросов в день при балансе от $10.

Вывод: для MVP и прототипирования API дешевле self-hosting. Покупать GPU ради экономии на API — нерентабельно при малых объёмах.

Когда self-hosting оправдан

Self-hosting начинает иметь смысл при:

1. Latency. Оркестратор на критическом пути каждого запроса. Каждый вызов API — сетевой roundtrip (50-200ms). При 5-10 внутренних вызовах на запрос задержки складываются в 0.5-2 секунды только на сеть. На локальном железе — UNIX socket или shared memory.

2. Приватность данных. Если агенты работают с внутренней документацией, кодом, credentials — отправлять это через сторонний API может быть неприемлемо. Self-hosting = данные не покидают периметр.

3. Независимость от rate limits. API-провайдеры ставят ограничения на запросы в секунду. Агентный пайплайн из 9 агентов генерирует пачки запросов — на бесплатных тирах это проблема. Своё железо = нет лимитов.

4. Объём. При 500+ запросах в день self-hosting на существующем кластере (если GPU уже есть и простаивают) становится дешевле API.

Слон в комнате: скорость инференса

Честно о throughput. Qwen3.5-397B на одной A100 в INT4 выдаёт ~7-15 tok/s. Один агентный запрос через пайплайн из 9 агентов генерирует суммарно ~100-200K токенов. При 10 tok/s это 3-6 часов на один запрос.

Для сравнения: тот же Qwen3.5-397B через API (OpenRouter) отвечает за секунды, потому что провайдер раскидывает модель на десятки GPU с tensor parallelism.

Что это значит на практике:

Конфигурация

Throughput

Один агентный запрос

Реалистичный сценарий

1x A100 (Qwen 397B INT4)

~10 tok/s

3-6 часов

Ночной batch-процессинг, не интерактив

4x A100 (tensor parallel)

~40-60 tok/s

45-90 мин

Фоновая генерация, допустимо для внутренних задач

MVP: QwQ-32B на RTX 4090

~30-50 tok/s

30-60 мин

Быстрее, потому что модель в 12x меньше

API (OpenRouter)

100+ tok/s

5-15 мин

Интерактивное использование

Вывод: self-hosting на MoE-гигантах — это batch-режим, не интерактивный. Для «ввёл запрос — получил агента через 10 минут» нужен либо API, либо 8+ GPU с tensor parallelism, либо компромисс на качестве (QwQ-32B вместо 397B). Статья описывает архитектуру, а не «запустил и всё летает» — и throughput это главная причина, по которой практическая валидация ещё впереди.

Паритет качества

Open-source модели в марте 2026 достигли паритета с проприетарными:

Метрика

Лучший open-source

Лучший проприетарный

Разрыв

SWE-bench

MiniMax M2.5 80.2%

Claude Opus 4.5 80.9%

0.7%

HumanEval

Kimi K2.5 99.0%

GPT-5.2 98.5%

OS лидирует

GPQA Diamond

Qwen3.5-397B 88.4%

Gemini-3-Pro 89.1%

0.7%

AIME 2025

Kimi K2.5 96.1%

Claude Opus 4.5 97.0%

0.9%

Все модели — MIT или Apache 2.0. Зависимость от проприетарных API больше не оправдана разницей в качестве — но может быть оправдана удобством и стоимостью инфраструктуры при малых объёмах.


Развёртывание: от домашнего GPU до продакшена

Конфигурация A: MVP на одной карточке

5 агентов, 3 модели, 24 GB VRAM. Влезает на RTX 4090 (24 GB) или RTX 5090 (32 GB):

Модель

VRAM (INT4)

Роли

QwQ-32B (32B dense)

16 GB

Оркестратор, Аналитик, Архитектор (shared)

Qwen2.5-Coder-7B

4 GB

Билдер

Falcon H1R-7B

4 GB

Тестировщик

Итого

24 GB

5 агентов

На A100 (80 GB) те же модели оставляют ~56 GB свободных под KV cache — можно обрабатывать длинные контексты без свопа.

Ограничения MVP: QwQ-32B вместо Qwen3.5-397B — заметно слабее reasoning (нет frontier-уровня GPQA/IFEval). Coder-7B вместо Coder-32B — проще код, меньше языков. Это proof-of-concept, не продакшен.

Конфигурация B: Quality Team (2x A100 80GB)

7 агентов, 4 модели, 73 GB VRAM:

┌──────────────────────────┐  ┌──────────────────────────┐
│    GPU 1 (80 GB)         │  │    GPU 2 (80 GB)         │
│                          │  │                          │
│  Qwen3.5-397B (~50 GB)   │  │  Qwen2.5-Coder-32B       │
│  → Оркестратор           │  │  (16 GB)                 │
│  → Аналитик              │  │  → Билдер                │
│  → Промпт-инженер        │  │  → Тестировщик (shared)  │
│  → Исследователь         │  │  → Безопасник (shared)   │
│                          │  │                          │
│  Ministral 14B (~7 GB)   │  │  Свободно: ~64 GB        │
│  → Критик                │  │                          │
└──────────────────────────┘  └──────────────────────────┘

Появляется frontier-качество Оркестратора (Qwen3.5-397B вместо QwQ-32B), отдельный Критик и Промпт-инженер.

Конфигурация C: Full Production (4x A100 80GB)

9 агентов, 6 моделей, все «best picks», 211 GB VRAM:

┌──────────────────┐ ┌──────────────────┐ ┌──────────────────┐ ┌──────────────────┐
│ GPU 1 (80GB)     │ │ GPU 2 (80GB)     │ │ GPU 3 (80GB)     │ │ GPU 4 (80GB)     │
│                  │ │                  │ │                  │ │                  │
│ Qwen3.5-397B     │ │ DeepSeek V3.2    │ │ Qwen2.5-Coder    │ │ GLM-4.7          │
│ ~50 GB           │ │ ~85 GB           │ │ -32B ~16 GB      │ │ ~44 GB           │
│                  │ │                  │ │                  │ │                  │
│ Оркестратор      │ │ Архитектор       │ │ Билдер           │ │ Критик           │
│ Аналитик         │ │ Безопасник       │ │                  │ │                  │
│ Исследователь    │ │                  │ │ Devstral 24B     │ │ Falcon H1R-7B    │
│ Промпт-инженер   │ │                  │ │ ~12 GB           │ │ ~4 GB            │
│                  │ │                  │ │                  │ │                  │
│                  │ │                  │ │ Тестировщик      │ │ Router/Eval      │
└──────────────────┘ └──────────────────┘ └──────────────────┘ └──────────────────┘

Каждая роль получает оптимальную модель. Все feedback loops работают с лучшими пиками.


Квантизация: что, чем и зачем

A100 не поддерживает FP8 нативно (в отличие от H100/B200), поэтому INT4 — основной формат.

Целевое железо

Модели

Метод

Ядро

Качество vs FP16

A100 / H100

Оркестратор, Критик (quality-critical)

AWQ INT4

Marlin

~95%

A100 / H100

Билдер, Тестировщик (throughput-critical)

GPTQ INT4

Marlin

~93%

A100 / H100

Малые модели (7-14B)

AWQ INT4

~95%

RTX 4090/5090

Все модели через Ollama

GGUF Q4_K_M

llama.cpp

~92%

Marlin kernels — ключевая оптимизация для A100: 10.9x ускорение INT4 инференса. Без Marlin INT4 на A100 работает медленнее, чем FP16 — потому что A100 нативно не оптимизирована под INT4.

Правило: Q5_K_M для Оркестратора/Архитектора/Критика (quality-critical), Q4_K_M для Билдера/Тестировщика (throughput-critical).


Инфраструктура инференса

Движок

Для чего

Рекомендация

SGLang

Агентные нагрузки

RadixAttention переиспользует KV cache между multi-turn вызовами агентов. Лучший выбор для agent factory

vLLM

Общий продакшен

Шире экосистема, стабильнее. Fallback, если SGLang вызывает проблемы

llama.cpp / Ollama

Consumer GPU

GGUF-квантизация. Лучший вариант для разработки и прототипирования на RTX

SGLang особенно важен для агентных систем: его RadixAttention хранит KV cache между multi-turn вызовами агентов. Когда Оркестратор многократно обращается к модели в рамках одной задачи, каждый вызов переиспользует кеш предыдущих — экономия compute до 40-60% на повторных обращениях.

Архитектура деплоя: одна модель на GPU (или MIG-партицию). Не пытайтесь запускать несколько моделей на одном GPU одновременно — тулинг для этого ещё незрел. Неактивные модели — на CPU offload.


Tier S: ландшафт open-source моделей (март 2026)

Для контекста — вот полная картина лидеров, из которых я выбирал:

Модель

Total / Active

Архитектура

Главное достижение

Лицензия

Kimi K2.5

1T / 32B

MoE

HumanEval 99.0, AIME 96.1, MATH 98.0

MIT

MiniMax M2.5

230B / 10B

MoE

SWE-bench 80.2 (лучший open-source)

Open

GLM-5

744B / 40B

MoE

Arena Elo 1451 (топ среди open-source)

MIT

DeepSeek V3.2

685B / 37B

MoE

MMLU-Pro 85.0, LiveCodeBench 83.3, Aider 74.2

MIT

Qwen3.5-397B

397B / 17B

MoE

GPQA 88.4, IFEval 92.6

Apache 2.0

GLM-4.7

355B / 32B

MoE

tau-bench 87.4 (лучший tool use)

Open

DeepSeek-R1

671B / 37B

MoE

MATH-500 97.3, AIME 87.5

MIT

Qwen3-235B

235B / 22B

MoE

AIME 81.5, MMLU-Pro 84.4

Apache 2.0

Все Tier S модели — из китайских лабораторий: Alibaba (Qwen), DeepSeek, Zhipu (GLM), Moonshot (Kimi), MiniMax. Все — MIT или Apache 2.0. Это новая реальность open-source AI.


Принципы проектирования агентной фабрики

Шесть правил, выведенных из исследований Anthropic, MetaGPT, metaswarm и собственных экспериментов:

1. Точное делегирование вместо «разбирайся сам». Каждый агент получает: цель, формат вывода, доступные инструменты, границы задачи. Исследование Anthropic показало, что размытое делегирование — главная причина провала multi-agent систем.

2. Spec-driven, не code-driven. ARD и TDD — первичные артефакты. Код — производный. Если спецификация правильная, код генерируется надёжно. Если спецификация плохая, никакой билдер не спасёт.

3. Обязательные feedback loops. Builder ↔ Tester и Builder ↔ Critic — неотключаемые циклы. «Я написал код, тесты пройдены» — это необходимое, но не достаточное условие качества.

4. Минимальный доступ. Сгенерированные агенты получают только необходимые permissions. Security Auditor — не опциональная роль. Агент с доступом к API и credentials — это высокорисковый артефакт.

5. Fail fast. Если агент не может выполнить задачу — он немедленно сообщает об этом Оркестратору. Никакого «сделаю плохо, но сделаю». Низкокачественный артефакт хуже, чем отсутствие артефакта — он портит всё дальше по цепочке.

6. Сохранение артефактов. Все промежуточные артефакты сохраняются. Это не опция — это обязательное условие. Без этого нет debugging, нет rollback, нет обучения из ошибок.


Интерактивный дашборд

Всё это визуализировано в интерактивном дашборде:

  • RolePanel — 9 ролей, клик для выбора

  • NeuralTopology — визуальная карта связей между агентами

  • ModelMatrix — сортируемая таблица 14+ моделей с бенчмарками, подсветкой рекомендаций

  • ComputePlan — конфигуратор GPU (A100 / H100 / B200): VRAM, bandwidth, стоимость, tokens/sec

Это единственный инструмент, который соединяет все три слоя:

Роль агента → Лучшая open-source модель → Конфигурация GPU

HuggingFace Leaderboard даёт бенчмарки, но не маппинг на роли. CrewAI/LangGraph даёт фреймворки, но не выбор моделей. Этот дашборд отвечает на вопрос, который задаёт каждая команда, строящая агентов: «Какую модель на какую роль? Сколько GPU нужно?»


Tool calling: уже не самое слабое место

В первой версии статьи я писал, что tool use — слабое звено open-source. Это устарело. Вот актуальные данные по τ²-Bench (март 2026):

Модель

τ²-Bench

Open-source?

Примечание

Claude Opus 4.5

92.5

Нет

Лидер overall

Gemini 3.0 Pro

90.7

Нет

Step 3.5 Flash

88.2

Да (196B/11B MoE)

Лучший open-source. Бесплатен на OpenRouter

GLM-4.7

87.4

Да (355B/32B MoE)

Использован в статье как Критик

Qwen3.5

86.7

Да (397B/17B MoE)

DeepSeek V3.2

85.2

Да (685B/37B MoE)

Использован в статье как Архитектор

Источники: τ²-Bench, Step 3.5 Flash paper, BFCL v4.

Разрыв между лучшим проприетарным (92.5) и лучшим open-source (88.2) — 4.3%. Полгода назад он был ~10%. Tool calling перестаёт быть блокером.

Structured Outputs как альтернатива

Отдельно стоит упомянуть подход Structured Outputs — режим, гарантирующий валидный JSON на выходе. Для агентного пайплайна, где каждый агент передаёт структурированные артефакты следующему, это может быть надёжнее, чем общий function calling.

  • OpenAI gpt-oss-120b (117B / 5.1B active, Apache 2.0) — поддерживает Structured Outputs нативно, помещается на одну A100. HuggingFace

  • gpt-oss-20b (21B / 3.6B active) — для consumer GPU (16 GB). HuggingFace

Недостаток: гарантированный structured output — фича конкретных моделей, а не универсальный стандарт. Привязка к экосистеме.

Рекомендация для продакшена

Fine-tune на своих tool schemas. Общий function calling — это «знание языка», но ваши конкретные API — это «знание жаргона». Модели быстро учатся на десятках примеров реальных инструментов. А для MVP — Step 3.5 Flash бесплатно на OpenRouter уже даёт 88.2% на τ²-Bench.


Что из этого следует

Компоненты для сборки multi-agent систем на open-source моделях есть:

  • Модели — frontier-уровня, MIT-лицензия, все на HuggingFace

  • Инфра — SGLang/vLLM/Ollama, от consumer GPU до серверных кластеров

  • Паттерны — orchestrator-worker, artifact-based communication, feedback loops

  • Экономика — MoE дал frontier-качество при доступных вычислительных затратах

Ключевой вывод из исследования: специализация моделей по ролям даёт лучший результат, чем одна универсальная модель на все задачи — точно так же, как в софтверной команде аналитик, архитектор и тестировщик работают лучше, чем один «фуллстек на все руки».

Что осталось — валидировать это на практике. Следующий шаг — playground на кластере с реальными прогонами и метриками: сколько времени занимает полный цикл, какое качество генерируемого кода, где пайплайн ломается. Когда будут результаты — напишу отдельный пост.


Все модели доступны на HuggingFace. Бенчмарки взяты с SWE-bench Verified, LiveBench, BFCL v4, Aider Leaderboards, LMSYS Arena (февраль–март 2026). Интерактивный дашборд: agent-factory-design.

Исследования: Anthropic Multi-Agent Systems, MetaGPT (ICLR 2024), metaswarm.

Комментарии (17)


  1. Ingref
    12.03.2026 21:19

    Подход интересный. Но хотелось бы примеры работы.


    1. ignat_penshin Автор
      12.03.2026 21:19

      Справедливо. Сейчас это исследование + интерактивная визуализация, а не готовый продукт. Следующий шаг — playground на кластере, где можно будет скормить запрос и посмотреть, как агенты передают артефакты друг другу. Когда будет — напишу отдельный пост :)


  1. aborouhin
    12.03.2026 21:19

    4 штуки А100 плюс сервер, куда их поставить, - по нынешним ценам ~3,5 млн. 200 месячных подписок на Claude Max 20x :) Покупаем сколько нужно, чтобы не влетать в лимиты, ходим с каждой через свой прокси, чтобы никто не догадался... Нет, я понимаю, что рассчитывать на подписки в долгосрочной перспективе не стóит. Но, блин, я бы не рискнул вложить такую сумму в стремительно устаревающее железо, не будучи уверенным, что оно хотя бы себя отобьёт :)

    Не очень понятно, а в чём Ваш бизнес на этом вот всём?


    1. ignat_penshin Автор
      12.03.2026 21:19

      4×A100 покупать с нуля ради эксперимента — конечно, безумие. Статья про архитектуру «как собрать», а не «стоит ли покупать сервер». Для тех, у кого железа нет — есть MVP на 24 GB, и комментарий @Triton5 ниже отлично показывает, что через API можно собрать почти бесплатно. Вариант хорош, если компания уже эксплуатирует свой кластер, и там есть простаивающие ресурсы для экспериментов и тд.


  1. kasthack_phoenix
    12.03.2026 21:19

    Слоп-статья со ссылкой на слоп-визуализацию фантазии на тему слопа.

    То есть, серьёзно, я взял первую ссылку — там навайбанный дизайн со статическими данными. Открыл гитхаб — там даже в теории нет ничего, кроме статики, зато красивые логи бегут и есть коммит, зачем-то стыдливо удаляющий MD-файлы от Claude, из которых собран этот слоп-пост.

    Сама статья — слоп на слопе и слопом погоняет, что видно не только по характерному стилю и пунктуации(что забавно выглядит в комментарии, где я набираю тире через wincompose), но и тупейшим глюкам от заканчивающегося контекста и неспособности LLM считать.

    Например, текст начинается с обещания:

    . Минимальный сетап — 24 GB VRAM (одна RTX 4090).

    Доходим до деплоя:

    Развёртывание: от домашнего GPU до продакшена

    5 агентов, 3 модели, 24 GB VRAM:

    1x GPU (80 GB)

    ~56 GB (KV cache + headroom)

    Да, 24 гигабайта. RTX 4090. Пять агентов, которые принимают запрос, проектируют, пишут код, тестируют и отдают результат. На видеокарте из игрового компьютера.

    Ммм, идея статьи пала жертвой нейронного склероза, вызванного потерей контекста.

    Ладно, предположим, что "автор"(промптер гейронки, whatever) опечатался. Взглянем на расчёты цен, которые сложно провалить, закончив хотя бы начальную школу, а не дорастя до PhD, как написано в профиле:

    При API-ценах (допустим, $3/M input + $15/M output для frontier-модели) один сложный запрос обходится в $0.50-2.00. При 1000 запросах в день — $500-2000/день. На своём железе — фиксированная стоимость GPU.

    Автор, значит, собрался тратить 35-130 миллионов токенов в день, если я ещё могу разделить ожидаемые расходы на цену токенов. В своей схеме он, напомню, собирается использовать RTX 4090 или кластер A100, чтобы запускать QWEN на 397B. Эта редакция qwen выдаёт 50 токенов в секунду на зверь-машине с четырьмя RTX PRO 6000(~$8000 за каждую карту, т.е. сервер общей ценой около $40k), если верить реддиту.

    Опять же, учимся делить и умножать: машина на RTX 6000 может производить 50 токенов в секунду * 86400 секунд в дне = 4.3 миллиона токенов в сутки, даже если мы игнорируем тот факт, что загрузка нелинейная, а пользователи не будут ждать часами в очереди, и берём теоретический максимум. Для 130 миллионов токенов в день надо 40 таких машин($1.6 миллиона чистых расходов на серверы). Если мы используем на сервере по одной консумерской карточке(та самая 4090 из параграфа выше), которая свопает модель в RAM, то производительность на каждой машине можно делить на двадцать — тут уже нужен небольшой датацентр при таком раскладе, который всё ещё стоил бы под миллион долларов даже без санкционных ограничений на ввоз видеокарт.

    То есть, автор со всей нейронной непосредственностью предлагает сделать миллион-два долларов(очевидно, нашёл их случайно в кармане лёгкой куртки, надев её впервые с осени) фиксированных затрат, чтобы получить минимальную окупаемость системы, не считая затрат на размещение, в 3+ года(как раз примерно срок службы карточек).

    Я за бан.


    1. ignat_penshin Автор
      12.03.2026 21:19

      Два валидных бага, спасибо:

      1. 24 GB vs 80 GB — диаграмма нарисована для A100, а текст говорит «RTX 4090». Конфигурация A задумана как «от 24 GB (RTX 4090, три модели по 4-16 GB) до 80 GB (A100 с запасом под KV cache)». В тексте это склеилось. Поправлю.

      2. Экономика $3 / $15 — цены взяты для проприетарных frontier-моделей (Claude Opus, GPT-5), не для open-source API. Аргумент был «зачем платить за проприетарный API, если open-source того же качества». @Triton5 ниже показал, что open-source через OpenRouter стоит в 10 раз дешевле — что, собственно, подтверждает тезис: open-source выгоднее. Но сравнение сформулировано криво, пересчёт нужен. Исправлю.

      По поводу слопа: Claude использовался как инструмент для написания и редактуры — как, собственно, и указано в коммитах. Исследование (анализ 30+ моделей по 12 бенчмаркам, маппинг на роли, конфигурации деплоя) — это ручная работа. MD-файлы удалены из репо, потому что это рабочие черновики, а не финальные артефакты — README остался.
      Дашборд — да, v1, статические данные. Playground с живым инференсом на кластере — следующий этап.


      1. kasthack_phoenix
        12.03.2026 21:19

        конфигурации деплоя) — это ручная работа.

        Я бы поверил, если бы там сходилась элементарная арифметика.

        Вы пишете: "запустим qwen на 397B параметров". QWEN даже на A100(я уже не говорю про 4090) даёт 7(семь) токенов в секунду. Для думающих запросов, которые токены тратят сотнями тысяч, это означает время выполнения >= 10 часов.

        Это ломает любые аргументы про "зачем платить за проприетарный API" — у любого человека, которому релевантно использование LLM, рабочий день стоит дороже одного доллара, который облачный провайдер попросит за инференс в таком объёме.

        Люди не делают такие ошибки. Если бы вы реально что-то запускали или хотя бы ресёрчилии тему, в статье и был бы текст "локально запускать без миллиона долларов смысла нет, т.к. инференс занимает вечность". LLM же шпарит, не думая — получается такой нейрослоп.

        маппинг на роли

        анализ 30+ моделей по 12 бенчмаркам

        это ручная работа

        Игнат, у вас есть таблица "роли", где есть роли "Оркестратор", "Критик" и "Consumer GPU". AI в приступе слопофазии смешал заявленные роли и железо, на котором должны выполняться модели. Я повторю ещё раз: люди не делают такие ошибки. Кого и зачем вы пытаетесь обмануть?

        И вообще, спросить LLM и скопипастить выхлоп, как несложно заметить в diff того самого коммита — это не анализ:

        -# Agent Factory: Open-Source Model Selection Guide
        -
        -> **Date:** March 2026
        -> **Goal:** Map the best open-weight LLM to each agent role, optimizing for GPU-usage / Effectiveness / Quality.
        -> **Constraint:** All models must have open weights on HuggingFace. No proprietary APIs.
        

        Вы спросили нейросеть, она выдала вам слопа, вы его кидаете в лицо читателям и пытаетесь отрицать, когда вам на это указывают.

        Я не желаю читать не верифицированный нейрослоп в свободное время — мне хватает на работе того, что я бью палкой разработчиков, которые вместо того, чтобы сделать свою работу и нормально подготовить пулл-реквест, пусть и с помощью AI, просто присылают выхлоп нейронки в виде PR и ожидают, что ревьюер будет писать десятки комментариев, которые они потом скопипастят в чат. Это элементарное оскорбление читателя: промтер берёт шланг и начинает того поливать нейронным дерьмом, которое сам не удосужился даже прочитать.


        1. ignat_penshin Автор
          12.03.2026 21:19

          Два конкретных бага от вас увидел:

          1. «Consumer GPU» в столбце «Роль» — да, ошибка. Столбец переименован, строки переструктурированы.

          2. Throughput — главная проблема, которую статья замалчивала. Qwen 397B на одной A100 в INT4 даёт ~7-15 tok/s. Один агентный запрос через 9 агентов = ~100-200K токенов = 3-6 часов. Это ломает любой интерактивный сценарий. Добавил секцию «Слон в комнате: скорость инференса» с честной таблицей throughput по конфигурациям.

          По поводу Claude: да, Claude использую как инструмент — косяки исправляю по мере нахождения.

          Если закинете пример аналогичной статьи на русском в этом домене и докажете, что подобранные модели — слоп и неправда для выбранной ролевки агентов (а в этом и есть основное study работы и ее смысл — показать маппинг ролей и моделей) — будет здорово, и я обращу внимание.

          Пока работаю с вашей конструктивной критикой (и говорю вам за нее спасибо) — редактуру текста по конструктиву провел (с помощью Клода, конечно же). А ваши личные переживания по поводу слопа строго игнорирую, тк верю, что в "нейрокаше и слопе" этой статьи ознакомительной пользы больше, чем в среднем может предоставить разработчик/исследователь в данном домене - человек просто не переварит объем контекста (если это не его PhD), чтобы сделать подобное study в рамках текущего состояния AI-индустрии в РФ.

          К тому же, у Вас очень пессимистичное отношение к AI. Web Search Tools анализируют ресурсы не хуже человека, а поиск паттернов и закономерностей — это вполне себе инструмент, который упрощает жизнь. Так что горячо рекомендую пересесть на AI, чтобы не "бить палкой" своих бедных разработчиков за плохой MR/PR — их уже давно шикарно проверяет CodeRabbit :)


          1. ignat_penshin Автор
            12.03.2026 21:19

            В целом, я крайне позитивно отношусь к критике в комментариях и использую это как Reinforcement Learning для данной статьи. Каждое замечание импрувит ее качество, а новый читатель будет видеть все более адекватный вариант текста и сможет от него "стартовать", если захочет решить задачку, которая здесь описана.


  1. Triton5
    12.03.2026 21:19

    "При API-ценах (допустим, $3/M input + $15/M output для frontier-модели) один сложный запрос обходится в $0.50-2.00. При 1000 запросах в день — $500-2000/день. "

    Нет таких цен на упомянутые модели:) Всё в разы дешевле.

    MoonshotAI: Kimi K2.5
    $0.45/M input tokens $2.20/M output tokens
    https://openrouter.ai/moonshotai/kimi-k2.5

    MiniMax: MiniMax M2.5
    $0.27/M input tokens $0.95/M output tokens
    https://openrouter.ai/minimax/minimax-m2.5

    Qwen: Qwen3.5 397B A17B
    $0.39/M input tokens $2.34/M output tokens
    https://openrouter.ai/qwen/qwen3.5-397b-a17b

    DeepSeek: DeepSeek V3.2
    $0.26/M input tokens $0.38/M output tokens
    https://openrouter.ai/deepseek/deepseek-v3.2

    Qwen: Qwen3 Coder 480B A35B (Qwen2.5-Coder-32B не было, взял новее и гораздо лучше)
    $0.22/M input tokens $1/M output tokens
    https://openrouter.ai/qwen/qwen3-coder

    Z.ai: GLM 4.7
    $0.38/M input tokens $1.98/M output tokens
    https://openrouter.ai/z-ai/glm-4.7

    Mistral: Mistral Small 3.2 24B (Devstral Small 2 не было, взял новее и гораздо лучше)
    $0.06/M input tokens $0.18/M output tokens
    https://openrouter.ai/mistralai/mistral-small-3.2-24b-instruct


    Ключевое допущение автора в расчёте $0.50–2.00 за запрос базируется на ценах проприетарных frontier-моделей ($3/$15 за млн токенов) и подразумевает следующую нагрузку на один «сложный агентный запрос»:

    Input ~100K–150K - Контекст, инструкции, артефакты от других агентов

    Output ~10K–90K Развёрнутый ответ, код, спецификации

    • Минимум: 0.1M × $3 + 0.01M × $15 = $0.45$0.50

    • Максимум: 0.15M × $3 + 0.09M × $15 = $1.80$2.00

      Исходя из этого, рассматривая реальные цены на модели, уже сразу можно пересчитать расходы в схеме автора, они будут меньше примерно в 10 раз:)

      Но!
      На Openrouter можно использовать БЕСПЛАТНО до 1000 обращений в день (как раз случай автора статьи) на бесплатном лимите (при балансе от 10 баксов).

      Вот бесплатные модели, достаточно мощные, имеющие хорошие результаты в тестах и и отлично работающие на данный момент:
      https://openrouter.ai/stepfun/step-3.5-flash:free
      https://openrouter.ai/arcee-ai/trinity-large-preview:free
      https://openrouter.ai/nvidia/nemotron-3-super-120b-a12b:free

      А также может пригодиться не самая новая, но удачная модель Mistral Large, там дают бесплатно 1 миллиард токенов в месяц (доступ через API Mistral Platform).

      Также через API Google AI Studio можно получить доступ к новейшей Gemini 3.1 Flash Lite (бесплатно до 500 запросов в день) и например Gemma 3 27B ( бесплатно целых 14400 запросов в день).

      Конечно, из-за ограничений на количество бесплатных запросов в секунду придётся запросы ставить в очередь (что в целом хорошая практика).

      Итого: абсолютно рабочий MVP при околонулевых затратах (если вы ещё не положили $10 на opеnrouter) + на всякий случай иметь запасных пару баксов на opеnrouter, на варианты подключения дешёвых платных моделей как резервный вариант в цепочке запросов (fallback).



    1. ignat_penshin Автор
      12.03.2026 21:19

      Cпасибо за подборку!
      Вы правы — мои $3 / $15 были для проприетарных моделей (Claude/GPT), а не для open-source API. При ценах OpenRouter агентный запрос обходится в $0.03-0.15, а не $0.50-2.00. И это, похоже, делает аргумент «self-hosting дешевле API» гораздо слабее для малых объёмов.

      Реальные аргументы за self-hosting при таких ценах: latency (нет сетевых roundtrip между агентами), приватность данных и отсутствие зависимости от rate limits / доступности сервиса. Экономический аргумент начинает работать только при серьёзных объёмах: исправлю секцию, чтобы это было наглядно показано.

      Про бесплатные тиры — просто золото для MVP!! Можно собрать PoC на OpenRouter + Google AI Studio с нулевыми затратами и валидировать архитектуру до любых вложений в железо. Возьму на вооружение.


      1. Triton5
        12.03.2026 21:19

        Спасибо за исправления, теперь всё соответствует текущим ценам и реалиям:)

        Концепт/MVP/PoC на бесплатных моделях ещё имеет невероятное преимущество, что можно всячески менять архитектуру, экспериментировать с количеством токенов, делать сколько угодно экспериментов с взаимной валидацией от нескольких нейросетей, с промежуточными обработками, гонять разные модели с разными промтами, и всё такое:) Ну а что, всё же бесплатно, кроме нашего личного времени:)

        Если Вы будете делать опенсорс MVP/PoC на бесплатных вариантах с openrouter, ещё также плюс в том, любой хабравчанин сможет это сразу повторить (ибо даже без $10 на OpenRouter доступны всего лишь 50 запросов в день, но для того чтобы просто запустить сборку из нескольких моделей несколько раз - вполне хватит). Это определённо плюс для будущей статьи:)

        Также хочу напомнить (для читающих Хабр новичков) тот факт, что работа нейросетей крайне сильно зависят от системного промта (лучше на англ языке) и от температуры, и любую прекрасную идею можно легко запороть плохим промтом и неправильной температурой:)

        Всем удачных экспериментов :)


  1. ignat_penshin Автор
    12.03.2026 21:19

    Спасибо @kasthack_phoenix, @Triton5, @aborouhin за разбор — сделал правки:

    1. Config A (MVP): убрал противоречие «RTX 4090» / «1x GPU (80 GB)». Теперь чёткая таблица: 3 модели, 24 GB, влезает на RTX 4090. A100 упоминается отдельно. Добавил ограничения MVP.

    2. Цены API: заменил фантазийные $3 / $15 на реальные цены OpenRouter (спасибо @Triton5 за подборку). Пока вывод: для MVP и прототипирования API дешевле self-hosting. Self-hosting оправдан при требованиях к latency, приватности данных или высоких объёмах.

    3. Убрал overclaiming: «без людей в цикле», «задача на выходные», «фабрика фабрик» — заменил на конкретику про следующие шаги и валидацию.


  1. Triton5
    12.03.2026 21:19

    "Слабое место: tool calling

    Честно — tool use остаётся самым слабым звеном open-source моделей. Лучший tau-bench: GLM-4.7 с 87.4%. Лучший BFCL v4: Qwen3.5-122B-A10B с 72.2%."

    https://taubench.com/#leaderboard
    Из опенсорсных лидер Qwen3-Max-Thinking и DeepSeek-V3.2

    на Openrouter:
    Qwen: Qwen3 Max Thinking Starting at $0.78/M input tokens | Starting at $3.90/M output tokens
    DeepSeek: DeepSeek V3.2 $0.26/M input tokens | $0.38/M output tokens
    То есть, Qwen3 Max Thinking безусловный лидер, а DeepSeek ненамного хуже, но значительно дешевле.

    Кстати, про новичков: Step-3.5-Flash (для MVP можно взять free версию на openrouter) вообще по Tau2 94.4% (по заявлениям производителя), то есть это какой-то тюнингованный агентный монстр на стероидах:)
    https://llmbase.ai/models/stepfun/step-3.5-flash/


    По BFCL
    https://gorilla.cs.berkeley.edu/leaderboard
    Сразу бросается в глаза Z.ai: GLM 4.6

    Из невошедшего в эти списки:
    Nvidia позиционирует NVIDIA: Nemotron 3 Super как предназначенную для function-calling .
    https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf

    В принципе, можно даже скачать тестовые задания бенчмарков и самому прогнать их на моделях, но это уже отдельная кроличья нора:)

    Можно попробовать усложнить себе задачу: использовать для цепочки Tool Calling/Function Calling Structured Outputs который всегда выдаёт валидный JSON .
    OpenAI ввёл Structured Outputs в конце 2024 года как отдельный режим.
    Можно попробовать с gpt-4o-mini это самая дешёвая из их платных моделей.
    https://openrouter.ai/openai/gpt-4o-mini
    Цены: Starting at $0.15/M input tokens | Starting at $0.60/M output tokens

    Для селф-хостинга: модели gpt-oss с ключом strict: true.
    gpt-oss-120b и gpt-oss-20b тоже поддерживают структурный вывод, т.к. эти модели тоже OpenAI выпустили и это объявлено в спецификациях.
    https://developers.openai.com/api/docs/models/gpt-oss-120b
    https://developers.openai.com/api/docs/models/gpt-oss-20b

    Структурный вывод легче валидировать и уточнять.
    Недостаток использования Structured Outputs в том, что мы жёстко привязываемся к моделям от OpenAI. Вообще все модели, где в описании применения написано что-то типа writing, storytelling, role-play и тому подобное, могут поддерживать structured outputs, но это зависит от промта и может не всегда срабатывать, у OpenAI это их нативный функционал.

    В общем, всё надо тестировать на конкретной области применения :)


    1. ignat_penshin Автор
      12.03.2026 21:19

      Спасибо за глубокий разбор секции «tool calling». Обновился по вашим наводкам. Вот что подтвердил при проверке:

      τ²-Bench: Step 3.5 Flash — 88.2% (это по статье — на llmbase.ai 94.4%, но оставлю цифру из статьи). Все равно это лучший open-source результат. Получается, обгоняет GLM-4.7 (87.4%). Разрыв с проприетарными топами (Claude Opus 4.5, 92.5%) — 4.3%, полгода назад было ~10%. Tool calling выносим из блокеров :) Хорошая динамика развития

      gpt-oss — это прямо находка. 120B/5.1B active, Apache 2.0, нативный Structured Outputs, помещается на одну A100. Для агентного пайплайна, где артефакты передаются в JSON между агентами, гарантированный structured output может быть надёжнее, чем general function calling. Добавил в статью.

      Step 3.5 Flash, действительно, есть в бесплатном варианте на OpenRouter — это мощный аргумент для MVP.

      Обновил секцию с таблицей актуальных τ²-Bench результатов, описанием Structured Outputs и gpt-oss.

      Пора закреплять авторство @Triton5 за парой секций этой статьи, похоже :)


  1. UtrobinMV
    12.03.2026 21:19

    На 1x4090 нормального ничего не поднять. А если и поднимите, то будет в лучшем случае 4 токена в секунду. Проверено. А статья это жуткая генерация LLM, реального опыта в ней 0.


    1. ignat_penshin Автор
      12.03.2026 21:19

      Да, опыт в эксплуатации своей ИИ-фабрики пока предстоит набрать. Решил сделать эту статью стартовой точкой, чтобы понимать, куда двигаться.
      В комментариях люди дают бесценные рекомендации: и это очень здорово! Статью потихоньку улучшаю на базе рекомендаций и новых источников информации от знатоков домена.

      Спасибо и вам за комментарий, в любом случае