
Мы давно научили модели разговаривать и решать уравнения, но в реальном мире они спотыкаются о поиск и проверку фактов. Одного запроса в поиске часто мало: нужно идти по следам, уточнять, сопоставлять. Команда InfoAgent предложила именно такого «веб-детектива» — агента на базе LLM, который умеет долго и целенаправленно искать, читает страницы, возвращается назад и продолжает. Главная идея — не допускать легких коротких путей и заставить систему выстраивать цепочку шагов, будто это опытный аналитик.

Как это работает под капотом
Архитектура — в духе ReAct: модель чередует рассуждение с вызовами двух инструментов — поиска и просмотра. Поиск отдает список URL с короткими, но тщательно собранными сниппетами, просмотр — длинный фрагмент выбранной страницы. Вся история шагов и найденных кусочков попадает в контекст, так что агент опирается на собственный след рассуждений, а не только на память модели.
Где взять задачи, которые «ломают» простые стратегии
Здесь самое интересное. Авторы строят деревья сущностей из Википедии, а затем специально «размывают» ключевые детали: имена заменяют на описания, точные числа и даты — на диапазоны, формулировки — на перефразы. Из таких деревьев выбирают поддеревья, а в вопросах спрашивают не сам объект, а его атрибут (например, название команды, где дебютировал спортсмен), так что приходится раскручивать всю ветку. И еще они автоматически отбрасывают слишком легкие вопросы: если сильная модель с веб‑поиском берет их «в один клик», такой пример не проходит.

Почему просто «вики‑ретривера» недостаточно
Команда не полагалась на коммерческие API как на черный ящик и собрала собственную инфраструктуру поиска/просмотра. Поток поиска устроен так: берем результаты из поисковой системы, ползаем по страницам, разбиваем их на фрагменты, фильтруем через BM25, эмбеддинги и ререйанкер, а затем уже просим LLM собрать короткий, тематичный сниппет. Для просмотра — похожий конвейер, только без генерации сниппета и с длинным фрагментом. Это повышает полноту, контролируемость и скорость, а еще даёт стабильность при обучении с подкреплением, где запросов очень много.

Обучение: длинные траектории как «холодный старт», RL как усилитель
Модель — Qwen3‑14B, которую сначала дообучают на сгенерированных размеченных траекториях (SFT), а затем усиливают через RL (GRPO). Важная деталь: сами траектории SFT намеренно длинные — в среднем около 20 вызовов инструментов, нередко гораздо больше. Это задаёт правильную привычку «искать вглубь», а не бросаться к первому совпадению. RL затем учит лучше выбирать инструменты, уточнять запросы и доводить решение до конца.

Что получилось на практике
На сложных бенчмарках агент уверенно выступает в классе «до 15B» и при этом местами перегоняет более крупные открытые модели.
BrowseComp: 15.3 (лучший результат среди <15B; выше, чем у WebSailor‑72B — 12.0)
BrowseComp‑ZH: 29.2 (сильная кросс‑лингвальная генерализация, несмотря на англоязычное обучение)
Xbench‑DS: 40.4
WebWalkerQA: 52.7 (выше, чем у некоторых 32B)
SimpleQA: 90.4 (близко к большим открытым системам с поиском)
Еще один заметный эффект — переход от SFT к RL резко поднимает качество и делает поведение инструментарно «умнее». Без SFT агент повторяется, делает мало запросов и быстро «сдувается». С SFT начинает использовать больше разнообразных шагов и доводить поиск до результата.

Нюансы и ограничения, о которых важно знать
Качество инструмента критично. Если заменить собственный поиск на простой «вики‑ретривер», точность проседает и быстро упирается в потолок.
Слишком длинные траектории — палка о двух концах: они повышают качество на тяжелых задачах, но тратят контекст и время. Практичный вариант — смесь длинных и коротких примеров.
Пробовали добавлять «процессную» награду за находку целевых сущностей в траектории. Кривая обучения растет, но итоговая точность почти не меняется: бонус попадает не в тот шаг, а задачи уже неплохо решаются бинарной наградой.
В текущей версии RL работал при 16k–32k контекста. Расширение контекста и выход за пределы Википедии сделают агент еще полезнее — и сложнее в обучении.
Итог
InfoAgent показывает, как сочетать данные, среду и обучение так, чтобы LLM перестала выдумывать факты и стала терпеливым исследователем. Собственный прозрачный поиск дает контроль и масштабируемость. А синтетические задачи с размытыми фактами учат агента не угадывать, а проверять. Для продуктов, где нужны надежные факты, проверка источников и воспроизводимость, это шаг в правильном направлении.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.