Мы давно научили модели разговаривать и решать уравнения, но в реальном мире они спотыкаются о поиск и проверку фактов. Одного запроса в поиске часто мало: нужно идти по следам, уточнять, сопоставлять. Команда InfoAgent предложила именно такого «веб-детектива» — агента на базе LLM, который умеет долго и целенаправленно искать, читает страницы, возвращается назад и продолжает. Главная идея — не допускать легких коротких путей и заставить систему выстраивать цепочку шагов, будто это опытный аналитик.

Иллюстрация того, как InfoAgent использует инструменты поиска и просмотра, и сравнительные результаты на бенчмарках
Иллюстрация того, как InfoAgent использует инструменты поиска и просмотра, и сравнительные результаты на бенчмарках

Как это работает под капотом

Архитектура — в духе ReAct: модель чередует рассуждение с вызовами двух инструментов — поиска и просмотра. Поиск отдает список URL с короткими, но тщательно собранными сниппетами, просмотр — длинный фрагмент выбранной страницы. Вся история шагов и найденных кусочков попадает в контекст, так что агент опирается на собственный след рассуждений, а не только на память модели.

Где взять задачи, которые «ломают» простые стратегии

Здесь самое интересное. Авторы строят деревья сущностей из Википедии, а затем специально «размывают» ключевые детали: имена заменяют на описания, точные числа и даты — на диапазоны, формулировки — на перефразы. Из таких деревьев выбирают поддеревья, а в вопросах спрашивают не сам объект, а его атрибут (например, название команды, где дебютировал спортсмен), так что приходится раскручивать всю ветку. И еще они автоматически отбрасывают слишком легкие вопросы: если сильная модель с веб‑поиском берет их «в один клик», такой пример не проходит.

Конвейер синтеза: деревья сущностей с нечеткими фактами и генерация вопросов по поддеревьям
Конвейер синтеза: деревья сущностей с нечеткими фактами и генерация вопросов по поддеревьям

Почему просто «вики‑ретривера» недостаточно

Команда не полагалась на коммерческие API как на черный ящик и собрала собственную инфраструктуру поиска/просмотра. Поток поиска устроен так: берем результаты из поисковой системы, ползаем по страницам, разбиваем их на фрагменты, фильтруем через BM25, эмбеддинги и ререйанкер, а затем уже просим LLM собрать короткий, тематичный сниппет. Для просмотра — похожий конвейер, только без генерации сниппета и с длинным фрагментом. Это повышает полноту, контролируемость и скорость, а еще даёт стабильность при обучении с подкреплением, где запросов очень много.

Рабочий процесс поиска и просмотра: от черновых результатов до фокусного сниппета и длинного фрагмента страницы
Рабочий процесс поиска и просмотра: от черновых результатов до фокусного сниппета и длинного фрагмента страницы

Обучение: длинные траектории как «холодный старт», RL как усилитель

Модель — Qwen3‑14B, которую сначала дообучают на сгенерированных размеченных траекториях (SFT), а затем усиливают через RL (GRPO). Важная деталь: сами траектории SFT намеренно длинные — в среднем около 20 вызовов инструментов, нередко гораздо больше. Это задаёт правильную привычку «искать вглубь», а не бросаться к первому совпадению. RL затем учит лучше выбирать инструменты, уточнять запросы и доводить решение до конца.

Сравнение глубины: наш датасет требует больше вызовов инструментов, чем ASearcher и DeepDive
Сравнение глубины: наш датасет требует больше вызовов инструментов, чем ASearcher и DeepDive

Что получилось на практике

На сложных бенчмарках агент уверенно выступает в классе «до 15B» и при этом местами перегоняет более крупные открытые модели.

  • BrowseComp: 15.3 (лучший результат среди <15B; выше, чем у WebSailor‑72B — 12.0)

  • BrowseComp‑ZH: 29.2 (сильная кросс‑лингвальная генерализация, несмотря на англоязычное обучение)

  • Xbench‑DS: 40.4

  • WebWalkerQA: 52.7 (выше, чем у некоторых 32B)

  • SimpleQA: 90.4 (близко к большим открытым системам с поиском)

Еще один заметный эффект — переход от SFT к RL резко поднимает качество и делает поведение инструментарно «умнее». Без SFT агент повторяется, делает мало запросов и быстро «сдувается». С SFT начинает использовать больше разнообразных шагов и доводить поиск до результата.

Динамика RL: точность растет, запросы становятся разнообразнее, повторяемость падает
Динамика RL: точность растет, запросы становятся разнообразнее, повторяемость падает

Нюансы и ограничения, о которых важно знать

  • Качество инструмента критично. Если заменить собственный поиск на простой «вики‑ретривер», точность проседает и быстро упирается в потолок.

  • Слишком длинные траектории — палка о двух концах: они повышают качество на тяжелых задачах, но тратят контекст и время. Практичный вариант — смесь длинных и коротких примеров.

  • Пробовали добавлять «процессную» награду за находку целевых сущностей в траектории. Кривая обучения растет, но итоговая точность почти не меняется: бонус попадает не в тот шаг, а задачи уже неплохо решаются бинарной наградой.

  • В текущей версии RL работал при 16k–32k контекста. Расширение контекста и выход за пределы Википедии сделают агент еще полезнее — и сложнее в обучении.

Итог

InfoAgent показывает, как сочетать данные, среду и обучение так, чтобы LLM перестала выдумывать факты и стала терпеливым исследователем. Собственный прозрачный поиск дает контроль и масштабируемость. А синтетические задачи с размытыми фактами учат агента не угадывать, а проверять. Для продуктов, где нужны надежные факты, проверка источников и воспроизводимость, это шаг в правильном направлении.

? Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)