Всем привет!
Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые считаю стоят внимания. В основном про AI, изменение процессов, тренды и продуктовое видение.
У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.
Использование AI в научных исследованиях набрало популярность, но многие работы выдают некорректные результаты. Разбираем, как слабые бенчмарки и предвзятость публикаций приводят к завышенным ожиданиям от AI в науке и почему к таким данным стоит относиться скептически. Статья от Nick McGreivy, физика, который в прошлом году получил докторскую степень в Принстоне.
Анализ распределения z-значений в медицинских исследованиях выявил «пропажу» отрицательных результатов, что прямо коррелирует с эффектом смещения выжившего, наблюдаемым в AI-исследованиях. Это показывает, как искажённая отчётность системно завышает видимую эффективность новых технологий
В 2018 году, будучи студентом второго курса докторантуры Принстона, изучающим физику плазмы, я решил сменить направление своих исследований на машинное обучение. У меня ещё не было конкретного исследовательского проекта, но я думал, что смогу оказать большее влияние, используя ИИ для ускорения физических исследований. (Я также, честно говоря, был мотивирован высокими зарплатами в сфере ИИ.)
В итоге я выбрал для изучения то, что пионер ИИ Yann LeCun позже назвал «действительно горячей темой»: использование ИИ для решения дифференциальных уравнений в частных производных (PDE). Но когда я попытался развить то, что считал впечатляющими результатами, я обнаружил, что методы ИИ работают намного хуже, чем было заявлено.

Сначала я попытался применить широко цитируемый метод ИИ под названием PINN к некоторым довольно простым PDE, но обнаружил, что он оказался неожиданно хрупким. Позже, хотя десятки статей утверждали, что методы ИИ могут решать PDE быстрее, чем стандартные численные методы — в некоторых случаях до миллиона раз быстрее — я обнаружил, что подавляющее большинство этих сравнений были несправедливыми. Когда я сравнивал эти методы ИИ на равных с современными численными методами, любое узко определённое преимущество ИИ обычно исчезало.
Этот опыт заставил меня усомниться в идее, что ИИ готов «ускорить» или даже «революционизировать» науку. Действительно ли мы стоим на пороге того, что DeepMind называет «новой золотой эрой научных открытий, основанных на ИИ», или общий потенциал ИИ в науке был преувеличен — так же, как это было в моей подобласти?
Многие другие выявили схожие проблемы. Например, в 2023 году DeepMind заявила об открытии 2,2 миллиона кристаллических структур, что представляет собой «расширение известных человечеству стабильных материалов на порядок величины». Однако, когда материаловеды проанализировали эти соединения, они обнаружили, что это было «по большей части мусором» и «с уважением» предположили, что статья «не сообщает о каких-либо новых материалах».
Отдельно, компьютерные учёные из Принстона Arvind Narayanan и Sayash Kapoor составили список из 648 статей в 30 областях, в которых все допущена методологическая ошибка, называемая утечкой данных. В каждом случае утечка данных приводит к чрезмерно оптимистичным результатам. Они утверждают, что научные исследования, основанные на ИИ, сталкиваются с «кризисом воспроизводимости».
Тем не менее, внедрение ИИ в научные исследования резко растёт на протяжении последнего десятилетия. Конечно, информатика испытала наибольшее влияние, но другие дисциплины — физика, химия, биология, медицина и социальные науки — также наблюдают быстрое увеличение использования ИИ. Среди всех научных публикаций уровень использования ИИ вырос с 2 процентов в 2015 году до почти 8 процентов в 2022 году. Сложнее найти данные за последние несколько лет, но есть все основания полагать, что рост по экспоненте продолжился.

Чтобы было ясно, ИИ может привести к научным прорывам. Моя озабоченность касается их масштаба и частоты. Действительно ли ИИ показал достаточный потенциал, чтобы оправдать такой масштабный перенос талантов, обучения, времени и денег от существующих направлений исследований к одной парадигме?
Каждая область науки по-разному ощущает влияние ИИ, поэтому мы должны быть осторожны в обобщениях. Однако я убеждён, что некоторые уроки из моего опыта широко применимы в науке:
Внедрение ИИ среди учёных стремительно растёт не столько потому, что это приносит пользу науке, сколько потому, что это приносит пользу самим учёным.
Поскольку исследователи ИИ почти никогда не публикуют отрицательные результаты, область ИИ для науки сталкивается с систематической ошибкой выжившего.
Публикуемые положительные результаты, как правило, излишне оптимистичны в отношении потенциала ИИ.
В результате я пришёл к выводу, что ИИ в целом был менее успешным и революционным в науке, чем кажется.
В конечном итоге, я не знаю, изменит ли ИИ многолетнюю тенденцию снижения научной продуктивности и стагнации (или даже замедления) темпов научного прогресса. Думаю, никто не знает. Но за исключением крупных (и, на мой взгляд, маловероятных) прорывов в области продвинутого ИИ, я ожидаю, что ИИ будет скорее обычным инструментом для постепенного, неравномерного научного прогресса, чем революционным.
Мой опыт с PINN
Летом 2019 года я впервые столкнулся с темой, которая впоследствии стала моей диссертацией: решение дифференциальных уравнений в частных производных (PDE) с помощью ИИ. PDE — это математические уравнения, используемые для моделирования широкого спектра физических систем, и их решение (т. е. моделирование) является чрезвычайно важной задачей в вычислительной физике и инженерии. Моя лаборатория использует PDE для моделирования поведения плазмы, например, внутри термоядерных реакторов и в межзвездной среде космоса.
Модели ИИ, используемые для решения PDE, представляют собой специализированные модели глубокого обучения, гораздо более аналогичные AlphaFold, чем ChatGPT.
Первый подход, который я попробовал, назывался физически-информированной нейронной сетью (PINN). PINN были недавно представлены во влиятельной статье, которая уже набрала сотни цитирований.
PINN были радикально иным способом решения PDE по сравнению со стандартными численными методами. Стандартные методы представляют решение PDE как набор пикселей (как в изображении или видео) и выводят уравнения для каждого значения пикселя. Напротив, PINN представляют решение PDE как нейронную сеть и помещают уравнения в функцию потерь.
Как наивный студент-аспирант, у которого даже ещё не было научного руководителя, я находил в PINN что-то невероятно привлекательное. Они казались такими простыми, изящными и универсальными.
Также результаты выглядели хорошо. В статье, представляющей PINN, было обнаружено, что их «эффективность» была «продемонстрирована на наборе классических задач в гидродинамике, квантовой механике, реакционно-диффузионных системах и распространении нелинейных волн на мелкой воде». Если PINN решили все эти PDE, я решил, то, конечно, они смогут решить некоторые PDE по физике плазмы, которые интересовали мою лабораторию тоже.
Но когда я заменил один из примеров из этой влиятельной первой статьи ( 1D Burgers’) другим, но всё ещё чрезвычайно простым PDE ( 1D Vlasov), результаты не были похожи на точное решение. В конце концов, после обширной настройки, мне удалось получить что-то, что выглядело правильно. Однако, когда я попробовал немного более сложные PDE (такие как 1D Vlasov-Poisson), никакое количество настройки не могло дать мне достойного решения.
Через несколько недель неудач я написал другу из другого университета, который рассказал мне, что он тоже пытался использовать PINN, но не смог получить хороших результатов.
Что я узнал из своих экспериментов с PINN
В конце концов, я понял, что пошло не так. Авторы оригинальной статьи о PINN, как и я, «наблюдали, что конкретные настройки, которые давали впечатляющие результаты для одного уравнения, могли потерпеть неудачу для другого». Но поскольку они хотели убедить читателей в том, насколько захватывающими были PINN, они не показали никаких примеров неудач PINN.
Этот опыт научил меня нескольким вещам. Во-первых, быть осторожным, принимая исследования ИИ за чистую монету. Большинство учёных не пытаются никого ввести в заблуждение, но поскольку они сталкиваются с сильными стимулами представлять благоприятные результаты, всё же существует риск, что вы будете введены в заблуждение. В дальнейшем мне придётся быть более скептичным, даже (или, возможно, особенно) в отношении высокоэффективных статей с впечатляющими результатами.
Во-вторых, люди редко публикуют статьи о неудачах методов ИИ, только об их успехах. Авторы оригинальной статьи о PINN не публиковали информацию о PDE, которые их метод не смог решить. Я не публиковал свои неудачные эксперименты, представив лишь постер на малоизвестной конференции. Так что очень немногие исследователи узнали о них. На самом деле, несмотря на огромную популярность PINN, потребовалось два года, чтобы кто-либо опубликовал статью об их режимах отказа. Эта статья теперь имеет более тысячи цитирований, что говорит о том, что многие другие учёные пробовали PINN и столкнулись с аналогичными проблемами.
В-третьих, я пришёл к выводу, что PINN — не тот подход, который я хотел использовать. Они были простыми и изящными, конечно, но они также были слишком ненадёжными, слишком капризными и слишком медленными.
На сегодняшний день, шесть лет спустя, оригинальная статья о PINN имеет колоссальные 14 000 цитирований, что делает её самой цитируемой статьей о численных методах 21-го века (и, по моим подсчётам, через год-два она станет второй по цитируемости статьей о численных методах за всю историю).
Хотя сейчас общепризнано, что PINN, как правило, не могут конкурировать со стандартными численными методами для решения PDE, продолжаются споры о том, насколько хорошо PINN справляются с другим классом задач, известных как обратные задачи. Сторонники утверждают, что PINN «особенно эффективны» для обратных задач, но некоторые исследователи энергично оспаривают эту идею.
Я не знаю, чья сторона в этом споре права. Хотелось бы думать, что что-то полезное получилось из всех этих исследований PINN, но я также не удивлюсь, если однажды мы будем оглядываться на PINN как на просто гигантский пузырь цитирования.
Слабые исходные данные приводят к чрезмерному оптимизму
Для своей диссертации я сосредоточился на решении дифференциальных уравнений в частных производных (PDE) с использованием моделей глубокого обучения, которые, как и традиционные решатели, рассматривали решение PDE как набор пикселей на сетке или графе.
В отличие от PINN, этот подход показал большой потенциал для сложных, зависящих от времени PDE, которые интересовали мою лабораторию. Наиболее впечатляюще, статья за статьёй демонстрировала способность решать PDE быстрее — зачастую на порядки быстрее — чем стандартные численные методы.
Примеры, которые больше всего заинтересовали моего научного руководителя и меня, были PDE из механики жидкостей, такие как уравнения Навье-Стокса. Мы думали, что можем увидеть аналогичные ускорения, потому что PDE, которые нас интересовали — уравнения, описывающие плазму в термоядерных реакторах, например — имеют похожую математическую структуру. Теоретически, это могло бы позволить учёным и инженерам, таким как мы, моделировать более крупные системы, быстрее оптимизировать существующие конструкции и, в конечном итоге, ускорить темпы исследований.
К этому моменту я был достаточно опытен, чтобы знать, что в исследованиях ИИ не всё всегда так радужно, как кажется. Я знал, что надёжность и устойчивость могут быть серьёзными проблемами. Если модели ИИ дают более быстрые симуляции, но эти симуляции менее надёжны, стоило бы это компромисса? Я не знал ответа и решил выяснить это.
Но когда я пытался — и в основном терпел неудачу — сделать эти модели более надёжными, я начал сомневаться, насколько большой потенциал показали модели ИИ для ускорения решения PDE.
Согласно ряду известных статей, ИИ решал уравнения Навье-Стокса на порядки быстрее, чем стандартные численные методы. Однако я в конце концов обнаружил, что базовые методы, используемые в этих статьях, не были самыми быстрыми из доступных численных методов. Когда я сравнивал ИИ с более продвинутыми численными методами, я обнаружил, что ИИ не был быстрее (или, в лучшем случае, лишь немного быстрее) более сильных базовых показателей.

Мой руководитель и я в итоге опубликовали систематический обзор исследований по использованию ИИ для решения PDE из механики жидкостей. Мы обнаружили, что 60 из 76 статей (79 процентов), которые заявляли о превосходстве над стандартным численным методом, использовали слабую базовую линию, либо потому, что они не сравнивали с более продвинутыми численными методами, либо потому, что они не сравнивали их на равных условиях. Статьи с большим ускорением все сравнивали со слабыми базовыми линиями, что говорит о том, что чем впечатляющее результат, тем более вероятно, что в статье было сделано несправедливое сравнение.

Мы также обнаружили, что исследователи склонны не сообщать об отрицательных результатах, что известно как систематическая ошибка публикации. В итоге мы пришли к выводу, что исследования ИИ для решения PDE чрезмерно оптимистичны: «слабые базовые показатели приводят к чрезмерно положительным результатам, а систематические ошибки публикации приводят к занижению отрицательных результатов».
Эти результаты вызвали дискуссию об ИИ в вычислительной науке и инженерии:
Lorena Barba, профессор GWU, ранее обсуждавшая недобросовестную исследовательскую практику в том, что она назвала «научным машинным обучением для обмана масс — призыв к открытой науке», увидела наши результаты как «убедительное доказательство, подтверждающее наши опасения в сообществе вычислительной науки относительно хайпа и ненаучного оптимизма» ИИ.
Stephan Hoyer, руководитель команды в Google Research, которая независимо пришла к подобным выводам, описал нашу статью как «хорошее резюме того, почему я перешёл от [ИИ] для PDE» к прогнозированию погоды и климатическому моделированию, приложениям ИИ, которые кажутся более перспективными.
Johannes Brandstetter, профессор JKU Linz и соучредитель стартапа, который предоставляет «физические симуляции, управляемые ИИ», утверждал, что ИИ может достичь лучших результатов для более сложных промышленных приложений и что «будущее этой области остаётся неоспоримо многообещающим и полным потенциального влияния».
По моему мнению, ИИ со временем может оказаться полезным для некоторых приложений, связанных с решением PDE, но в настоящее время я не вижу особых причин для оптимизма. Я хотел бы видеть гораздо больше внимания к попыткам достичь надёжности численных методов и к тестированию на уязвимости методов ИИ; сейчас они не имеют ни теоретических гарантий, ни эмпирически подтверждённой надёжности стандартных численных методов.
Я также хотел бы, чтобы фонды стимулировали учёных к созданию сложных задач для PDE. Хорошей моделью может быть CASP, двухгодичный конкурс по сворачиванию белков, который помог мотивировать и сфокусировать исследования в этой области за последние 30 лет.
Ускорит ли ИИ науку?
Помимо сворачивания белков, канонического примера научного прорыва от ИИ, вот несколько примеров научного прогресса от ИИ (*1):
Прогнозирование погоды, где прогнозы ИИ имели до 20% более высокую точность (хотя и более низкое разрешение) по сравнению с традиционными физическими прогнозами.
Открытие лекарств, где предварительные данные предполагают, что лекарства, открытые ИИ, были более успешными в клинических испытаниях Фазы I (но не Фазы II). Если эта тенденция сохранится, это будет означать почти двукратное увеличение скорости одобрения лекарств на всех этапах.
Но компании в сфере ИИ, академические и государственные организации, а также СМИ всё чаще представляют ИИ не только как полезный научный инструмент, но и как тот, что «окажет трансформационное влияние» на науку.
Я не думаю, что мы должны обязательно отвергать эти заявления. Хотя текущие LLM, по словам DeepMind, «всё ещё испытывают трудности с более глубокой креативностью и рассуждениями, на которые полагаются учёные», гипотетические продвинутые системы ИИ могут однажды быть способны полностью автоматизировать научный процесс. Я не ожидаю, что это произойдёт в ближайшее время — если вообще когда-либо. Но если такие системы будут созданы, нет сомнений, что они изменят и ускорят науку.
Однако, основываясь на некоторых уроках из моего исследовательского опыта, я думаю, что мы должны быть довольно скептически настроены по отношению к идее, что более традиционные методы ИИ находятся на пути к значительному ускорению научного прогресса.
Уроки об ИИ в науке
Большинство рассказов об ускорении науки ИИ исходят от компаний, занимающихся ИИ, или учёных, работающих над ИИ, которые прямо или косвенно извлекают выгоду из этих рассказов. Например, CEO NVIDIA Jensen Huang говорит о том, как «ИИ будет способствовать научным прорывам» и «ускорит науку в миллион раз». NVIDIA, чьи финансовые конфликты интересов делают их особенно ненадёжным рассказчиком, регулярно делает гиперболические заявления об ИИ в науке.
Можно подумать, что растущее внедрение ИИ учёными является доказательством полезности ИИ в науке с точки зрения их использования. В конце концов, если использование ИИ в научных исследованиях растёт экспоненциально, это должно быть потому, что учёные считают его полезным, верно?
Я в этом не так уж уверен. На самом деле, я подозреваю, что учёные переходят на ИИ не столько потому, что это приносит пользу науке, сколько потому, что это приносит пользу им(*2).
Рассмотрим мои мотивы для перехода на ИИ в 2018 году. Хотя я искренне считал, что ИИ может быть полезен в физике плазмы, я был в основном мотивирован более высокими зарплатами, лучшими перспективами трудоустройства и академическим престижем. Я также заметил, что вышестоящие сотрудники моей лаборатории обычно больше интересовались потенциалом сбора средств ИИ, чем техническими соображениями.
Более поздние исследования показали, что учёные, использующие ИИ, чаще публикуют высокоцитируемые статьи и в среднем получают в три раза больше цитирований. При таких сильных стимулах к использованию ИИ неудивительно, что так много учёных делают это.
Так что даже когда ИИ достигает действительно впечатляющих результатов в науке, это не означает, что ИИ сделал что-то полезное для науки. Чаще всего это отражает только потенциал ИИ быть полезным в будущем.
Это происходит потому, что учёные, работающие с ИИ (включая меня), часто работают «наоборот». Вместо того чтобы выявлять проблему, а затем пытаться найти решение, мы начинаем с предположения, что ИИ будет решением, а затем ищем проблемы для решения. Но поскольку сложно выявить открытые научные задачи, которые можно решить с помощью ИИ, такой стиль науки «молоток в поисках гвоздя» означает, что исследователи часто будут решать проблемы, которые подходят для использования ИИ, но которые либо уже решены, либо не создают нового научного знания.
Чтобы точно оценить влияние ИИ на науку, нам нужно фактически изучить саму науку. Но, к сожалению, научная литература не является надёжным источником для оценки успеха ИИ в науке.
Одна из проблем — систематическая ошибка выжившего. Поскольку исследования в области ИИ, по словам одного исследователя, имеют «почти полное отсутствие публикаций об отрицательных результатах», мы обычно видим только успехи ИИ в науке, а не неудачи. Но без отрицательных результатов наши попытки оценить влияние ИИ на науку обычно искажаются.
Как знает любой, кто изучал кризис воспроизводимости, систематическая ошибка выжившего — серьёзная проблема в науке. Обычно виновником является процесс отбора, при котором статистически незначимые результаты отфильтровываются из научной литературы.
Например, ниже показано распределение z-значений из медицинских исследований. Z-значение между -1.96 и 1.96 указывает на то, что результат не является статистически значимым. Резкий разрыв вокруг этих значений предполагает, что многие учёные либо не публиковали результаты между этими значениями, либо подгоняли свои данные до тех пор, пока они не преодолели порог статистической значимости.
Проблема заключается в том, что если исследователи не публикуют отрицательные результаты, это может привести к тому, что врачи и широкая общественность переоценят эффективность медицинских процедур.

Нечто подобное происходит в области ИИ для науки, хотя процесс отбора основан не на статистической значимости, а на том, превосходит ли предложенный метод другие подходы или успешно ли он выполняет какую-либо новую задачу. Это означает, что исследователи ИИ для науки почти всегда сообщают об успехах ИИ и редко публикуют результаты, когда ИИ не успешен.
Вторая проблема заключается в том, что ошибки часто приводят к тому, что публикуемые успешные результаты приходят к излишне оптимистичным выводам об ИИ в науке. Детали и серьёзность кажутся разными в разных областях, но проблемы в основном попадают в одну из четырёх категорий: утечка данных, слабые исходные данные, выборочный подход и искажение отчётов.

Хотя причины этой тенденции к чрезмерному оптимизму сложны, основная проблема, по-видимому, заключается в конфликте интересов, когда одни и те же люди, которые оценивают модели ИИ, также извлекают выгоду из этих оценок.
Эти проблемы кажутся достаточно серьёзными, чтобы я рекомендовал людям относиться к впечатляющим результатам в области ИИ для науки так же, как мы относимся к удивительным результатам в области науки о питании: с инстинктивным скептицизмом.
*1 В ранних черновиках этой статьи приводились три примера, включая статью аспиранта MIT Aidan Toner-Rodgers об использовании ИИ для открытия новых материалов. Эта статья была описана как «лучшая статья, написанная на данный момент о влиянии ИИ на научные открытия». Но затем MIT объявил о намерении отозвать статью из-за опасений «по поводу целостности исследования». Конечно, обвинения в откровенном мошенничестве — это другая проблема, нежели более тонкие методологические проблемы, на которых я сосредоточился в своей статье. Но тот факт, что эта статья получила столько внимания в СМИ, подчёркивает мою более широкую мысль о том, что у исследователей есть различные стимулы преувеличивать эффективность методов ИИ.
*2 Когда я говорю об учёных, использующих ИИ, я имею в виду обучение или использование специализированных моделей ИИ, таких как PINN или AlphaFold. Я не говорю об использовании LLM для помощи в написании грантовых заявок или для проведения базового фонового исследования.
Комментарии (3)
Smogendrr
22.05.2025 11:53Как будто без ИИ в науке не было кризиса воспроизводимости и притягивания за уши позитивных результатов... Как автор узнал, что эти проблемы созданы ИИ, а не людьми?
phenik
22.05.2025 11:53Спасибо за интересный перевод.
Очень полезным в физике будет ИИ натренированный не на текстах из Интернета, а на эмпирических данных генерируемых в экспериментах, а они сейчас очень объемные, с целью поиска закономерностей в них. Пример такой работы - поиск оценки размерности пространства сложных динамических систем, которые не имеют аналитического решения (оригинал, статья на Хабре). ИИ ориентированный на решение физических задач должен применяться в области эмпирических исследований, а не в копании в текстах из сети, там новой физики по определению нет!
v0br23
Выглядит как погоня за цитированиями (т.к. хайповая тема) и сложность опубликовать отрицательные результаты.