ИИ-ученые 2025: SR-Scientist, DeepEvolve и Kosmos — чем отличаются и зачем. И почему выстрелил Kosmos / forpes.ru

Главная
ИИ-ученые 2025: SR-Scientist, DeepEvolve и Kosmos — чем отличаются и зачем. И почему выстрелил Kosmos

ИИ-ученые 2025: SR-Scientist, DeepEvolve и Kosmos — чем отличаются и зачем. И почему выстрелил Kosmos +4

07.11.2025 16:43

Neurosonya 0 879 Источник

В 2025-м на наших глазах складывается новый класс инструментов - ИИ-Ученые (AI-Scientist). Если раньше алгоритмы ИИ могли только генерировать идеи или перерабатывать уже известные решения, то современные системы умеют не просто придумывать гипотезы, но и реализовывать их на практике, тестировать и совершенствовать из раза в раз.

Речь не просто про чат-боты и Co-Pilot’ы, речь про агентные системы, которые сами ставят гипотезы, пишут и исполняют код, проверяют результаты и накапливают опыт.

В чем суть

В науке есть 3 сложных момента:

понять, что уже известно и где пробелы/противоречия
превратить идеи в работающий код/метод, а не в презентацию
вытащить из цифр простые законы, которые объясняют мир.

Современные агенты закрывают каждое из этих мест по-разному - и это важно: они не конкуренты, а звенья одной цепи.

В статье разберем 3 разных роли в этой экосистеме:

SR-Scientist — ищет компактные формулы из числовых данных, DeepEvolve — добывает идеи из внешних источников и превращает их в рабочие алгоритмы, Kosmos — стыкует анализ данных и чтение литературы в длинном, аудируемом цикле и отдает отчет со ссылками на код и первоисточники.

Я расскажу про каждого ИИ-агента для науки, чем они отличаются, в каких сценариях лучше подойдут, и почему именно Kosmos наделал столько шума.

SR-Scientist: из чисел — в формулу

Обычно задача поиска фундаментальных уравнений по данным — сложная из-за шума и огромного пространства формул. Раньше решения программировались вручную, а LLM лишь подсказывала варианты. SR-Scientist поменял этот принцип.

Агент SR-Scientist способен самостоятельно открывать законы природы без участия человека. Такой агент анализирует данные, пишет и запускает код, формулирует и проверяет уравнения, находит оптимальные константы и шаг за шагом совершенствует гипотезы, используя обратную связь с результатами экспериментов. Он по сути выполняет всю работу человека - исследователя, только с машинной скоростью.

SR-Scientist: агент с инструментами анализа данных и оценки уравнений, а также буфер опыта

Под капотом — ReAct-агент с 2-мя инструментами: аналитик данных (для проверки статистики, ошибок и примеров) и оценщик уравнений (подбирает константы и вычисляет метрики формул). Есть память лучших решений (буфер опыта), чтобы не терять удачные структуры, и обучение с подкреплением для длинного, целенаправленного мышления.

На бенчмарке LSR-Synth (4 дисциплины) SR-Scientist стабильно превосходит сильные базы по точности, лучше держится на шумных данных, надежнее обобщается на OOD-задачи и во многих случаях символически восстанавливает эталонные формулы.

https://arxiv.org/html/2510.11661v1 - сравнение SR-Scientist с дургими по 4-м дисциплинам

Я рекомендую подробнее прочитать про SR-Scientist на arxiv.org - там наглядно и схематично рассказан его принцип работы, представлены бенчмарки

Когда пригодится SR-Scientist: если требуется интерпретируемая формула (символьная регрессия) по табличным и временным рядам — компактное уравнение, объясняющее зависимость и пригодное для защиты перед экспертами (физика, материаловедение, биокинетика, эконометрика).

DeepEvolve: от идеи к лучшему алгоритму

DeepEvolve так же как и SR-Scientist, автономный и объединяет deep research (планирование, поиск по внешним источникам, синтез идей) и эволюцию кода (кросс-файловые правки, системный дебаг, оценка, память кандидатов).

В общем, собирает внешние знания, формирует и проверяет гипотезы, переписывает и отлаживает многофайловый код, оценивает метрики и путем итераций улучшает решение. Такой режим снимает ограничения чистой эволюции* (когда модель замкнута на собственной памяти) и чистого ресерча* (идеи без реализации). Работает в цикле с обратной связью, как и в человеческом научном процессе.

Эволюция кода без Deep Research и Эволюция кода + Deep Research благодаря DeepEvolve

На 9 бенчмарках (химия, математика, биология, материалы, патенты) система стабильно улучшает исходные методы

Оценка «Initial vs New algorithms» (LLM-as-a-judge) на задачах Molecule Prediction, Molecule Translation, Circle Packing, Burgers’ Equation, Parkinson’s Disease, Nuclei Image, Open Vaccine, USP P2P. Показаны три метрики: Originality, Future Potential, Code Difficulty. Источник: DeepEvolve, Fig. 3 (arXiv:2510.06056)

Есть открытый репозиторий

Когда пригодится DeepEvolve: у вас уже есть метод/ пайплайн, но стоит задача не просто исследовать, улучшить рабочий алгоритм и показать прирост метрик (скорость, точность, устойчивость).

Я рекомендую подробнее прочитать про DeepEvolve на arxiv.org - там наглядно и схематично рассказан его принцип работы

Kosmos: синхронизация больших данных и литературы

Kosmos - тоже ИИ-агент для автономных научных открытий, как и SR-Scientist и DeepEvolve. Их отличает архитектура, масштаб, набор инструментов, но общая идея (автоматизация большого цикла научного поиска без человека) абсолютно совпадает.

Kosmos -это следующая версия ИИ-Ученого от компании Edison Scientific (Представлен 5 ноября 2025). В отличие от прошлых поколений (например, Robin), Kosmos использует структурированную world model, которая держит общий контекст между агентом анализа данных и агентом литературы, чтобы условно одна «часть мозга» понимала, что нашла другая.

Работает циклами до 12 часов: параллельно анализирует данные, ищет литературу и синтезирует выводы в отчеты. В отчетах каждое утверждение снабжено ссылкой на конкретный код или первоисточник (можно отследить путь к выводу). Для науки прозрачность - это критично.

За один прогон Kosmos выполняет около 200 агентных итераций, в среднем пишет около 42 000 строк кода и просматривает около 1 500 полнотекстовых статей за запуск. Словом, Kosmos способен читать тысячи научных статей, запускать десятки тысяч строк анализа данных и проводить сложные мультидисциплинарные исследования.

Отмечают суммарную корректность утверждений в отчетах ~79,4%

Цена и кредиты: $200 за запуск (это 200 кредитов по $1/кредит). Параллельно есть Founding Subscription $200/мес с 650 кредитами/мес. У Kosmos расход — 200 кредитов за прогон. Итоговая экономика зависит от того, платите ли вы за разовые прогоны или берете подписку, еще есть академический бесплатный тариф.

Так что Kosmos - это инструмент для дорогих вопросов, когда нужно за день получить то, что у группы заняло бы месяцы, - за 6 месяцев он сделал 7 научных открытий в нейронауке, материаловедении и генетике, - я на этом отдельно остановлюсь.

Но сразу хочу обратить ваше внимание на то, что Kosmos не делает никаких физических экспериментов. Это вычислительный агент, он анализирует уже существующие датасеты и литературу, а человек по-прежнему нужен, особенно для интерпретации результатов.

Я рекомендую подробнее прочитать про Kosmos в этом PDF документе - там наглядно и схематично рассказан его принцип работы, представлены бенчмарки. PDF на английском, но вы всегда можете открыть сайт в ИИ-браузере Comet (или Atlas) и попросить в нем Ассистента перевести.

В общем, если у вас задача быстро охватить тему, проанализировать большие объемы данных и собрать аудируемый отчет (что известно, где противоречия, какие гипотезы стоит проверить) со всеми ссылками на код и первоисточниками, и показать коллегам на консилиуме, Kosmos потянет точно.

Почему Kosmos сейчас на слуху

Этому послужила совокупность факторов:

Редкий случай, когда агент масштабно и аудируемо соединяет анализ данных и литературу.
Плюс понятная экономика конкретно под дорогие вопросы.
За 12 часов Kosmos успел прочитать 1500 статей, провести 200 исследовательских циклов и сгенерировать 42 тыс. строк кода.
Новый ИИ-агент сделал 7 научных открытий (4 новых и 3 уже известных), на которые человеку понадобилось бы 6 месяцев работы.
В добавок к этому, множество пабликов распространили информацию, что эти 7 открытый он сделал за один запуск. На самом деле это не за один запуск, а совокупно по разным прогонкам/кейсам, что никак не умаляет достоинств Kosmos.

При этом вмешательство человека все еще необходимо: если аналитические выводы агента были корректны на 85,5%, то интерпретационные — лишь на 57,9%.

Когда мы уже узнали про каждый инструмент, давайте разберемся, чем они по сути отличаются, как выбрать свой инструмент и какие риски и ограничения есть.

Различия SR-Scientist, DeepEvolve и Kosmos

Чем отличиаются SR-Scientist, DeepEvolve, Kosmos

Вход и режим работы:

Kosmos — берет много статей + существующие датасеты и объединяет их в линию рассуждения.
DeepEvolve — ищет идеи вне модели и тут же превращает их в исполняемый код.
SR-Scientist — работает на ваших численных данных, целенаправленно тянет компактное уравнение.

Что на выходе дает:

Kosmos — аудируемый отчет + ссылки на код/первичники и конкретные гипотезы/нахождения.
DeepEvolve — улучшенный алгоритм/реализация с приростом метрик на задачах.
SR-Scientist — интерпретируемая формула (символьная регрессия) + проверка на данных.

Как выбрать между SR-Scientist, DeepEvolve и Kosmos

Если нужно быстро сориентироваться в области и получить отчет (спорные точки и гипотезы с доказательной базой), который можно защищать перед коллегами - Kosmos
Если нужны реальные улучшения метода в коде, а не красивые слова - DeepEvolve
У вас уже есть свои данные и нужен человеческий понятный закон/ формула из ваших чисел - SR-Scientist.

Ниже я более подробно раскрою тему:

Kosmos - если цель большая наука. Подойдет, когда нужно “сузить круг”, понять, что уже известно, где спорные места, какие датасеты, какие гипотезы перспективны. На выходе вы получаете отчет с цитатами на код/статьи + shortlist гипотез. Тут уже 12-часовые прогоны с моделью мира (world model), которая связывает агента по данным и агента по литературе. Он за один прогон проглатывает около 1 500 статей, запускает около 42 000 строк анализа, держит общий контекст и выдает проверяемый отчет с ссылками на код и источники. Человеческая оценка точности его выводов около 79,4%, к тому же есть 7 кейсов открытий. Но это уже и коммерческий проект - цена кусается - $200 за запуск (= 200 кредитов по $1), - уже сужает круг пользователей, исключая просто любопытных, - инструмент для дорогих вопросов.
DeepEvolve - когда нужно придумать/улучшить рабочий алгоритм (реальный код) по теме исследования. Он сочетает глубокое исследование и «эволюцию алгоритма» в одном цикле: ищет знания вне модели, нашел идею, реализовал, отладил (переписывает многофайловый код, дебажит), замерил и снова улучшил. На 9 бенчмарках стабильно выигрывает - химия, биология, математика, материалы, патенты. Открытый код. Этот инструмент больше про новые методы и прирост метрик, а не про обзор поля. Грубо говоря, превратит перспективные идеи в исполняемые алгоритмы.
SR-Scientist - поможет там, где нужна ясность, если нужно вывести понятную формулу/закон из ваших данных, чтобы понять механику процесса (и проще защитить результат перед отраслевыми экспертами). Сам автономно анализирует данные, строит и проверяет уравнения, подбирает константы, запоминает удачи и итеративно улучшает гипотезы. В экспериментах обгоняет сильные базовые подходы и лучше устойчив к “шуму”. Этот инструмент больше про интерпретируемые законы, а не про длинные отчеты или новые алгоритмы. Заточен под SR-задачи с метриками точности и символическим совпадением.

Риски и ограничения SR-Scientist, DeepEvolve и Kosmos

Kosmos не делает физических экспериментов и может зарываться в “кроличьи норы”, поэтому лучше запускать несколько прогонов на одну цель+ нужна человеческая проверка.
DeepEvolve не заменяет обзор поля, а хорош там, где важна практичность кода и бенчмарки
SR-Scientist силен только в таких задачах, где существует компактный закон, если природа процесса — сложная без простой формулы, никакой магии не будет.

ИИ-Ученые - к чему это все ведет

ИИ-лаборатории - разделение труда между агентами становится нормой: один — про знания, второй — про код, третий — про формулы. Главное — ставить им правильные роли и склеивать результаты в единую продуваемую трубу. Например, Kosmos, чтобы быстро сузить поле и собрать проверяемые выводы, DeepEvolve, чтобы превратить идеи в работающие алгоритмы, SR-Scientist, чтобы там, где нужно, добыть четкую формулу. Вместе это уже похоже на «конвейер для открытий».
Роль человека меняется: меньше копает вручную, и больше ставит задачи, проверяет здравый смысл и планирует эксперименты. Без этого любой агент принесет не открытия, а уверенный бред.
Побеждает прозрачность, то есть системы, где каждый вывод можно «прокликать» до кода/данных/статей. Здесь Kosmos уже задает планку, и остальные будут подтягиваться.

Что ж, подобные агенты способны существенно ускорить научные открытия и минимизировать участие человека в рутинных научных поисках. P.S: Вы можете поддержать меня в моем канале НейроProfit - там я пишу более простым языком о том, в чем разбираюсь сама. ИИ-сервисы и LLM тестирую сама, так что накопилось достаточно проверенных нейросетей.