
В последнее время автономные агенты позиционировались как системы, которые умеют генерировать идеи и код на их основе, самостоятельно проводить эксперименты и писать научные статьи. Однако на практике такие системы часто оказывались неэффективными: генерируемые ими идеи были не до конца проверены на новизну, эксперименты носили характер прототипа, а получаемые результаты оказывались слабыми (см. AI SCIENTIST V1 / V2). Исследователи из Токийского университета решили, что такой уровень автономии для реальных статей слишком амбициозен, и предложили Jr. AI Scientist — систему, которая будет вести себя как добросовестный младший сотрудник. Находить ограничения, предлагать улучшения, реализовывать их прямо в исходной кодовой базе, проверять и создавать черновик статьи.

Идея в двух словах
Jr. AI Scientist налагает строгое ограничение: одна статья, ее код и данные, полная работа с несколькими файлами и полный набор экспериментов для одного нового эксперимента, несколько формулировок гипотез, полнофункциональный код, воспроизводимые результаты и черновик статьи. Это важно, поскольку предыдущие системы оптимизировали либо симуляцию научного процесса, либо написание статьи, а не оба аспекта. Важное нововведение в том, что на входе одна статья, а не область исследований. Это ограничение существенно увеличивает вероятность того, что система предложит реалистичное и пригодное для публикации улучшение, поскольку у системы нет возможности предлагать эксперименты по всей мировой литературе.
Как это работает под капотом
В первую очередь, от модели требуют, чтобы она выделила ограниения эксперимента в статье и предложила улучшение. Далее, базу обязательно проверяют на наличие аналогов с помощью semantic scholar. За составление списка экспериментов и скриптов отвечает отдельный агент. Для этого он использует Claude Code с рабочей директорией, которая содержит код статьи и две точки входа экспериментов — baseline.py и plot.py. Агент может читать и редактировать любые файлы из рабочей директории и смотреть логи различных запусков. Запуски кода выполняются родительской системой, сам агент ничего не выполняет, но видит файлы и логи. Скрипты проходят в несколько этапов. Сначала, они реализуют предложенное улучшение с фильтрацией багов. Далее, они делают несколько итераций до улучшения метрик. В конце всегда проводится абляция новой части или гиперпараметров.

Отдельный запуск того же агента также создает короткий черновик статьи в шаблоне под нужную конференцию со всеми нужными таблицами и правильно оформленными BibTeX ссылками. Он три раза полностью проходит рефлексивные циклы с автопроверками на структурные дефекты, все ли содержимое, ссылки и т.д. нужны, нет ли повторяющихся слов и фраз, ошибок грамматики, орфографии, алгебраические ошибки, соответствие цитат со всеми упомянутыми статьями на semantic scholar, которые были неявно использованы при написании статьи. Использование одного и того агента с рабочей директорией для экспериментов и написания статьи является грубой попыткой уменьшить несоответствие между описанием экспериментов в статье и фактическом коде. Так же, система сохраняет абляции со всеми экспериментами в отдельный json файл, так что при постобработке сгенерированного черновика статьи мы могли бы заменить таблицы в черновике статьи на таблицы с экспериментами для проверки.

Что показали оценки
Систему тестируют на двух реальных статьях о OOD-детекции с помощью CLIP — LoCoOp и GL-MCM, а также на Min-K%++, который ищет следы предобучения в больших языковых моделях. В каждой есть несколько улучшений и абляций. Для оценки качества статей используют DeepReviewer-14B как автоматического рецензента, а также отправляют их экспертам на платформе Agents4Science. Кроме того, авторы статей самостоятельно проводят подробную проверку.
Jr. AI Scientist показывает заметно лучшие результаты, чем предыдущие полностью автономные системы, если судить по оценкам DeepReviewer. Средний рейтинг отрецензированных им статей — 5.75, с пиком в 6.25 для одного лучшего черновика статьи — против 3.30 у AI Scientist v1 / v2. Однако стоит отметить, что все три статьи были отклонены в Agents4Science. Полученные рецензии описывают их как хорошо написанные, воспроизводимые, с множеством абляций и соответствием научным стандартам. Однако отзывы говорят о скромном улучшении базовой статьи, умеренной новизне, а также нехватке сравнения с альтернативами и теоретического содержания. Общий вывод таков, что Jr. AI Scientist не дотягивает до стандартов сообщества при полностью автономном использовании — особенно если человека полностью исключить из этапа генерации идей, где, по всей видимости, система демонстрирует наихудшие показатели.
В чем проблемы?
Самая ценная часть статьи — подробное описание рисков. Во-первых, в GL-MCM автор отмечает, что Jr. AI Scientist добился значительного продвижения за счет функции, учитывающей нормализацию по батчу. Использованная обработка данных формирует батчи только из идентификаторов или только из OOD, поэтому нормализация по батчу не смешивает идентификаторы и значения OOD. Это создает ситуацию, когда агент систематически повышает метрики путем «взлома» экспериментов. Эксперт сразу заметит такую «оптимизацию», но в полностью автономной системе нет явного способа указать, что наборы экспериментов и новизна идеи адекватны, кроме как вручную проверять западет ли она, например, в небольшое улучшение одной метрики за счет деградации остальных. Авторы подчеркивают, что более гибкие агенты только повысят эти риски, поэтому необходим строгий надзор.

На ранних этапах разработки агент был склонен выдумывать данные и галлюцинировать. Например, Jr. AI Scientist часто придумывал реальные данные экспериментов при написании интерпретаций, если система рефлексии запрашивала больше экспериментов. Простых запретов галлюцинации данных было недостаточно для преодоления этого ограничения. При размышлении он обычно запрашивал хорошо структурированные файлы с реальными результатами, поэтому исследователи добавили их. Даже просьбы вроде «напиши подробнее» увеличивали вероятность галлюцинаций ссылок, дополнительных интерпретаций и сравнений экспериментов.
После доработки первого прототипа агент перестал выдумывать новые эксперименты, факты и ссылки. Однако сохранилась другая важная проблема: он неправильно интерпретировал или полностью пропускал некоторые уже реализованные эксперименты. Например, если результаты экспериментов не были доступны в виде машинно-читабельных данных из сценария экспериментов, агент часто выдумывал свою интерпретацию этих данных или полностью их пропускал. Эту проблему удалось решить только путем сохранения аннотированных интерпретаций во внешний файл и считывания их при написании секции обзора экспериментов.
В итоговом тесте остались некоторые мелкие ошибки: агент перепутал одну из таблиц с аннотированными ссылками и смешал интерпретацию результатов для различных методов обучения с подкреплением. LLM обычно плохо выявляют такие ошибки, поэтому для случаев использования, требующих высокой точности, необходимы тщательная экспертная проверка и чёткие определения понятий.
Что дальше
Jr. AI Scientist показывает, что реалистичная постановка задачи и сильные агенты для программирования уже позволяют выдавать статьи заметно выше предыдущих полностью автоматических систем. Однако до реального использования по нажатию одной кнопки еще далеко. Авторы не рекомендуют использовать систему для академического письма в чистом виде, а также отмечают несколько важных моментов из их опыта: ограничение задачи позволяет добиться более высокого качества; без эксперта, задач ориентированных только на метрики легко «взломать»; необходим структурированный и проверенный воркфлоу - иначе возрастает количество фабрикаций; текущие ИИ рецензенты плохо оценивают рассогласование между текстом и кодом, поэтому для оценки необходимы открытые артефакты и доступ к экспериментам.
Исследователи видят прогресс в лучшей фильтрации идей, внедрении дерева поиска, получении экспертных рекомендаций для сомнительных путей, и более продвинутых механизмов проверки экспериментов. В сочетании с артефактами и рецензией, где доступны код и логи экспериментов, они считают, что такие системы могут стать полезными - хотя и в роли «джуниора».
Итак, эпоха автономных исследователей, похоже, начинается не с гениев, а с джуниоров, и это, вероятно, правильный путь вперед.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.