
Большинство открытых исследований по глубокому поиску работают по простому принципу: складывать всё найденное в одно большое окно контекста. С каждым шагом туда летят новые выдержки, ссылки, заметки. В итоге полезное тонет в шуме, ранние ошибки остаются навсегда, а место для размышления стремительно уменьшается. Авторы WebResearcher предлагают ровно обратный подход: периодически останавливать поток, выжимать главное в сжатый отчёт и начинать следующий раунд уже с чистым рабочим столом. Так агент сохраняет знание, но не тащит весь багаж вперёд.
Главная идея: исследование раундами
WebResearcher строится вокруг IterResearch — итеративной схемы в терминах MDP. Каждый раунд состоит из трёх частей:
Think: короткое обдумывание, план шага. Живёт только в текущем раунде.
Report: центральная память — аккуратная выжимка всего, что уже проверено и согласовано.
Action: вызов инструмента или финальный ответ.
Между раундами сохраняется только обновлённый Report и последний ответ инструмента. Вся эфемерная «грязь» отбрасывается. Так контекст не распухает, а рассуждение остаётся ясным и устойчивым даже на десятках шагов.

Откуда берутся сложные задачи: фабрика данных WebFrontier
Чтобы научить агента реально исследовать, нужны задачи, которые требуют не просто вспоминания факта, а построения ответа шаг за шагом. Для этого авторы создали WebFrontier — масштабируемый конвейер генерации и отбора задач.
Сначала из веба, статей и книг собираются плотные фрагменты, из их комбинаций рождаются стартовые вопросы и ответы.
Затем тот же агент с инструментами (поиск по вебу и Google Scholar, браузерная выжимка, Python) поэтапно усложняет задачи, добавляет расчёты и кросс-проверки.
Наконец, идёт строгий контроль качества: простые пары отбраковываются, сложные решаются сильным решателем, дубликаты удаляются, факты сверяются судьями. На выходе остаётся массив проверяемых, по-настоящему трудных задач — именно тех, на которых разница между базовой LLM и системой с инструментами ярко проявляется.

Как учат и как масштабируют на инференсе
Модель учат на корректных траекториях IterResearch: сохраняют только те, где итог совпал с эталоном, и обучают шаблону Think–Report–Action. Это помогает отделить рассуждение от шумных ответов инструментов. Далее подключают RL: разрезают траектории на раунды и получают гораздо больше обучающих примеров, чем в моно-контекстной схеме.
На этапе применения используется приём Research-Synthesis. Несколько независимых агентов параллельно исследуют задачу, каждый даёт финальный отчёт и ответ. Затем отдельный синтезирующий агент агрегирует именно отчёты, а не всю историю. За счёт этого в ограниченный контекст помещается больше разнообразных линий рассуждения, и итог становится устойчивее.

Что получилось на бенчмарках
Система построена на Qwen3-30B-A3B с набором инструментов: Search, Scholar, Visit и Python. На шести наборах задач WebResearcher показывает уровень лучших систем или превосходит их:
HLE: 36.7%, лучше DeepSeek-V3.1 (29.8%) и OpenAI Deep Research (26.6%).
BrowseComp-en: 51.7% — на уровне OpenAI Deep Research (51.5%).
BrowseComp-zh: 56.8% против 58.1% у o3 и 49.2% у DeepSeek-V3.1.
GAIA: 72.8% — выше Claude-4-Sonnet (68.3%), o3 (70.5%).
Xbench-DeepSearch: 71.0% — рядом с DeepSeek-V3.1 (71.2%).
FRAMES: 84.8% — выше DeepSeek-V3.1 (83.7%) и o3 (84.0%).
Абляции показывают, что основная прибавка идёт именно от итеративного инференса: моно-контекст деградирует по мере роста цепочек, а IterResearch стабильно выдерживает длинные маршруты. Профили инструментов подстраиваются под задачу: на HLE преобладает Scholar и короткие цепочки, на BrowseComp — длинная навигация с Search и Visit (в среднем более 60 шагов).
Как далеко можно параллелить
Авторы проверили, как растёт качество при увеличении числа параллельных исследователей n. До n=8 прибавка заметная, дальше — отдача снижается, а затраты растут линейно. Практический баланс — около восьми независимых траекторий.


Почему это важно
Главный вклад — смена парадигмы. Вместо бесконтрольного наращивания контекста агент регулярно консолидирует знания в компактный отчёт и заново строит рабочее пространство. Такое устройство лучше согласуется с тем, как человек ведёт длинное исследование: черновики, сводка, следующий заход. Плюс, фабрика данных WebFrontier уучит не запоминать, а строить ответ по шагам, что критично для задач с несколькими источниками, вычислениями и проверками. В итоге получаем более надёжное рассуждение, лучшее использование инструментов и устойчивость на очень длинных цепочках.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Nurked
Мне ТАК нравятся все эти статьи про ИИ ассистентов нового уровня. Просто кровь застывает в жилах, когда я вижу что процент непонятного бенчмарка подскакивает на целых два процента. А иногда даже на пять.
В области ИИ столько инноваций такого низкого качества, что они все идут шумом к общему прогрессу. Можно спокойно выбирать инструмент и работать с ним по пол-года год, а потом просто перепроверять, что есть дешевле и радоваться дешевому варианту.