Глубокое обучение в науке вредно без глубокой проверки фактов / forpes.ru

Главная
Глубокое обучение в науке вредно без глубокой проверки фактов

Глубокое обучение в науке вредно без глубокой проверки фактов +37

13.06.2025 06:10

PatientZero 16 3300 Источник

Глубокое обучение гламурно и ажиотажно. Если обучить трансформер (современную языковую модель) на датасете из 22 миллионов ферментов, а затем использовать его для прогнозирования функции 450 неизвестных ферментов, то можно опубликовать свои результаты Nature Communications (уважаемом научном издании). Вашу статью прочитают 22 тысяч раз и она будет в верхних 5% из всех результатов исследований по оценке Altmetric (рейтингу внимания к онлайн-статьям).

Однако если вы проделаете кропотливую работу по анализу чужой опубликованной работы и обнаружите, что она полна серьёзных ошибок, в том числе сотнями некорректных прогнозов, то можете опубликовать на bioRxiv препринт, который не получит и доли цитат и просмотров исходного исследования. На самом деле, именно это и произошло в случае двух статей:

Эта пара статей о функциях ферментов стала прекрасным примером для изучения границ применения ИИ в биологии и неправильно расставленных акцентов в современной публикации результатов. В этом посте я расскажу о некоторых подробностях, однако призываю вас изучить статьи самостоятельно. Этот контраст станет ярким напоминанием о том, как сложно бывает оценить правдивость результатов ИИ без глубокого знания предметной области.

Задача определения функции ферментов

Ферменты — это катализаторы реакций, поэтому они очень важны для всех процессов, происходящих в живых организмах. Шифры классификации ферментов (КФ) — это иерархическая система классификации тысяч различных функций. Если знать последовательность аминокислот (строительных блоков всех белков, в том числе и ферментов), то можно ли спрогнозировать, каким будет шифр КФ (а значит, и функция фермента)? Похоже, эта задача как будто предназначена для машинного обучения, ведь у неё есть чётко заданные входные и выходные данные. Более того, существует обширный датасет — в онлайн-базе данных UniProt хранится список из более 22 миллионов ферментов и их шифров КФ.

Решение задачи при помощи транформеров (ИИ-модели)

В исследовательской статье модель трансформера глубокого обучения использовалась для прогнозирования функций ферментов с ранее неизвестными функциями. Похоже, это качественное исследование! Авторы использовали разумно подобранную и хорошо показавшую себя архитектуру нейронной сети (два энкодера трансформера, два свёрточных слоя и линейный слой), заимствованную у BERT. Они изучили области с высоким вниманием, чтобы убедиться, что они биологически значимы; это означает, что модель обучилась их внутреннему значению и обеспечила интерпретируемость. Они использовали стандартный датасет из миллионов элементов, разделённый на множества для обучения, валидации и тестирования. Затем исследователи применили модель к датасету без «эталонных данных», чтобы получить приблизительно 450 новых прогнозов. Из этих новых прогнозов они случайно выбрали три для тестирования in vitro («в пробирке») и подтвердили, что прогнозы оказались точными.

Показанная слева модель трансформера использовалась для прогнозирования шифров КФ для неспециализированных ферментов E. coli. Три из них были протестированы in vitro (рис. 1a и рис. 4 из статьи Kim, et al.)

Погрешности

Созданные моделью трансформера из статьи в Nature Communications «новые» прогнозы почти наверняка ошибочны. В статье использовалась стандартная методология оценки производительности на тестовом датасете, который не видел трансформер, и реализовала её достаточно хорошо (хотя при последующем исследовании возникли подозрения об утечке данных). Выяснилось, что заявленные результаты для ферментов без эталонных данных полны ошибок.

Например, по прогнозу ген YjhQ E. coli должен быть микотиолсинтазой, но в E. coli вообще не синтезируется микотиол! Уже десяток лет назад было доказано in vivo, что ген yciO, эволюционно возникший из гена TsaC, не имеет ту же функцию, что у TsaC, однако в публикации Nature Communications сделан вывод, что он обладает такой же функцией.

Из 450 «новых» результатов, представленных в статье, 135 оказались совсем не новыми; они уже есть в онлайн-базе данных UniProt. Ещё 148 показали нелогично высокие уровни повторяемости: для генов E. coli одни и те же специфичные функции ферментов повторно встречались до двенадцати раз, что биологически маловероятно.

Большинство «новых» результатов из статьи о трансформере было или не новыми, или необычно повторяющимся, или ошибочными паралогами (рис. 5 из статьи de Crecy, et al.)

Микробиологический детектив

Как обнаружились эти ошибки? После обучения, валидации и проверки модели на датасете из миллионов элементов её использовали для создания приблизительно 450 новых прогнозов, и три из них были проверены in vitro. Так получилось, что один из ферментов, выбранных для тестирования in vitro (yciO), уже подробно исследовался за десяток лет до этого доктором де Креси-Лагаром. Когда она прочитала, что глубокое обучение спрогнозировало для yciO ту же функцию, что и гена TsaC, то по своему долгому опыту работы в лаборатории поняла, что это неправда. Её предыдущие исследования показали. что ген TsaC обязателен для E. coli , даже если в том же геноме присутствует yciO и даже если ген yciO сверхэкспрессирован. Более того, активность yciO, заявленная в статье Kim et al., на более чем четыре порядка величин (то есть больше, чем в 10000 раз) слабее, чем активность TsaC. Из всего этого следует, что yciO НЕ выполняет ту же ключевую функцию, что и TsaC.

Два фермента с общим эволюционным предком, но с разными функциями (рис. 7 из статьи de Crecy, et al.)

YciO и TsaC имеют структурную схожесть, к тому же YciO эволюционировал из предка TsaC. Десятки лет исследований эволюции белков и ферментов показали, что новые функции часто эволюционируют дублированием существующего гена с последующей диверсификацией его функции. Это становится основной проблемой при определении функции фермента, потому что их гены могут иметь множество общих признаков с теми генами, из которых они дублировались и диверсифицировались.

Таким образом, изучение структурного подобия — лишь один тип доказательств при анализе функции фермента. Крайне важно учитывать и другие типы доказательств, например, контекст соседства генов, докинга субстратов, совместного присутствия генов на метаболических путях и другие признаки ферментов.

При классификации функции фермента важно учитывать различные типы доказательств (рис. 2 из статьи de Crecy, et al.)

Сотни ошибочных с большой долей вероятности результатов

Обнаружив это ошибку, де Креси-Лагар и её соавторы внимательнее присмотрелись к другим ферментам, для которых в статье Kim, et al были найдены новые результаты. Они выяснили, что 135 из этих результатов уже есть в списке онлайн-базы данных, использованной для создания датасета обучения, а поэтому на самом деле не новы. Ещё 148 результатов содержали высокую степень повторяемости: одни и те же высокоспецифичные функции встречались в них до двенадцати раз. Перекосы, дисбаланс данных, отсутствие релевантных признаков, архитектурные ограничения или плохая калибровка неопределённости могут заставлять модели применять самую часто встречающуюся в обучающих данных разметку.

Ошибочность других результатов была доказана благодаря биологическому контексту или поиску по литературе. Например, по прогнозу ген YjhQ должен иметь функцию микотиолсинтазы (катализатора синтеза микотиола), но в E. coli микотиол не синтезируется. Исследование прогнозировало, что YrhB синтезирует определённое соединение, синтезировать которое по другому прогнозу должен фермент QueD. Разновидность E. coli с мутировавшим QueD была неспособна синтезировать соединение, и это доказало, что на самом деле функция YrhB иная.

Переосмысление классификации ферментов и «истинных неизвестных»

На самом деле, процесс определения функции ферментов состоит из двух достаточно сильно различающихся задач, которые обычно объединяют:

проецирование разметки известных функций на ферменты из того же функционального семейства
выявление действительно неизвестных функций

Авторы второй статьи подметили, что «модели машинного обучения с учителем по природе своей не могут использоваться для прогнозирования функции истинных неизвестных». Машинное обучение может быть полезно при проецировании известных функций на дополнительные ферменты, но при этом может возникать множество ошибок, например, ошибочное отсутствие проецирования разметки и ошибочное проецирование, ошибки курирования и ошибки экспериментов. К сожалению, ошибочные функции добавляются в основные онлайн-базы данных наподобие UniProt, и эти некорректные данные могут в дальнейшем распространяться, если используются для обучения прогнозирующих моделей. Со временем эта проблема становится всё более серьёзной.

Необходимость знаний в предметной области

Нет ничего нового в том, что работа ИИ часто получает больше признания и поддержки, чем работа людей, внимательно изучающих данные и интегрирующие глубокие знания предметной области. В статье с метким названием Everyone Wants to do the Model Work, not the Data Work («Все хотят работать с моделями, но не с данными») приведены десятки случаев, когда специалисты по машинному обучению работали над важнейшими ИИ-проектами. Авторы статьи пришли к выводу, что одной из ключевых причин катастрофических провалов становилось неадекватное применение знания предметных областей.

Источники каскадных сбоев в системах машинного обучения (рис. 1 из статьи Sambasivan, et al.)

Подобные статьи стали напоминанием о том, насколько сложно (а иногда и невозможно) бывает оценить утверждения ИИ в областях вне нашей собственной сферы опыта. Я не специалист в функциях ферментов E. coli. И в большинстве научных статей о глубоком обучении специалисты в предметной области не изучали под лупой качество результатов авторов. Какая доля кажущихся впечатляющими научных статей не выдержала бы тщательной проверки? Труд по проверке сотен прогнозов функции ферментов менее гламурна, чем работа по созданию генерирующих их ИИ-модели. Тем не менее, он важнее. Как нам мотивировать учёных проводить подобные исследования с целью проверки на ошибки?

Я считаю, что в условиях сокращающегося финансирования мы должны делать обратное и ещё сильнее вкладываться в широких спектр естественнонаучных и биомедицинских исследований под множеством разных углов. И нам нужно бороться с системой мотивации, непропорционально перекошенной в сторону громких ИИ-решений ценой качества результатов.

Комментарии (16)

anshdo
13.06.2025 07:56
#28432466
Нужно бороться с системой мотивации, непропорционально перекошенной в сторону громких ~~ИИ-~~решений ценой качества результатов. Увы, эта проблема в науке возникла задолго до ИИ.

anonymous
13.06.2025 07:56
#28433014
1. LinkToOS
  13.06.2025 07:56
  #28433330
  К тому же, в статье нет цифр подтверждающих наличие перекоса финансирования в пользу исследований с применением ИИ (трансформеров). Нет цифр показывающих процент использования ИИ, среди всех исследований использующих компьютерное моделирование.

aeder
13.06.2025 07:56
#28432496
То есть я правильно понимаю - вместо литературных текстов, системе глубокого обучения дали на вход 22 миллиона спецификаций ферментов и описания их свойств, а далее - для спецификации фермента предложили описать его свойства?

Охренительно. То есть модель никакого физического представляения о самом ферменте (и том, как он работает в огранизме) не имеет, но выдаёт "похожие на настоящие" описания?

Хайпожоры, что тут сказать.
1. Kergan88
  13.06.2025 07:56
  #28434794
  Так в таком режиме модель должна работать на порядок качественнее, чем если ей давать "литературное описание". Фактически, это идеальная задача для трансформера.

JuryPol
13.06.2025 07:56
#28432724
Да, именно охренительно...

Забавно, но в этот момент на тысячах компов генерятся «похожие на настоящие» куски кода, которые покрываются «похожими на настоящие» тестами, а потом собираются в «похожие на настоящие» системы и продукты.

Впору вводить лейбл «Без ИИ», аналог надписи на пачке халвы «Без ГМО».
1. RomTec
  13.06.2025 07:56
  #28433256
  Ага! не просто лейбл, а оформлять патент - "No-AI"
1. Cheddar1789
  13.06.2025 07:56
  #28435008
  *на пачке соды

dmitrye1
13.06.2025 07:56
#28432778
В первой статье не нашел как был поделен датасет на обучающую и тестовую выборки.
Если все 22 миллиона обучающих данных были спущены на обучение модели, а тестирование проводилось на трех(!) экспериментальных - какая гадость....

den0law
13.06.2025 07:56
#28432882
Строго говоря, публикация этой статьи это и ошибка редактора: так как он не привлёк к редактированию профильных специалистов по ферментам (а они узнали об этом исследовании только после печати).
И если авторы назвали цифру в 450 ферментов, то пускай и подтверждают все их свойства in vitro, а не "тяп-ляп" и готово.
1. alexandr93
  13.06.2025 07:56
  #28434580
  Когда-то был выпуск "Адам портит всё", где говорилось, что там чуть ли не половина научных исследований не воспроизводятся. И главная проблема в том, что научных статей слишком много и все проверить невозможно. Поэтому недобросовестные "исследователи" могут сначала печататься в мусорных журналах, а потом перепечатывать свои статьи в нормальные со ссылками.
  
  И вот тут с ИИ проблема в том, что он может написать столько мусорных работ, сколько раньше было сделать невозможно. И это может очень серьёзно усугубить проблему. Поэтому нужно разрабатывать какие-то автоматизированные методики, которые будут помогать выявлять ИИ-статьи.

Dmitrii4317
13.06.2025 07:56
#28433572
позвольте на эту тему ответить цитатой Льва Толстого

anonymous
13.06.2025 07:56
#28434562

pavelsha
13.06.2025 07:56
#28435118
внимательнее присмотрелись к другим ферментам, для которых в статье Kim, et al были найдены новые результаты. Они выяснили, что 135 из этих результатов уже есть в списке онлайн-базы данных, использованной для создания датасета обучения, а поэтому на самом деле не новы. Ещё 148 результатов содержали высокую степень повторяемости: одни и те же высокоспецифичные функции встречались в них до двенадцати раз.

Шикарно. Я искренне надеюсь, что команду де Креси-Лагар, никто не придумает обвинять в токсичности.

Чем-то ситуация с публикацией исследований по ферментам и с последующим разоблачение напоминает историю с "Корчевателем" 2007 года.

Ситуация с публикацией исследований по ферментам (которые похоже были подготовлены при помощи комбинации традиционного и ИИ-мухлежа) с последующим разоблачением напоминает сюжет с SCIgen/"Корчевателем" 2007 года. «Мухлеж» с использованием ИИ, а затем «детективная история» с раскрытием обмана снова иллюстрируют пару старых тезисов:
1. «Никому нельзя верить».
2. Для широкой общественности, в том числе в научных кругах, форма подачи и презентация исследований важнее, чем их содержание.
1. LinkToOS
  13.06.2025 07:56
  #28436014
  Чем-то ситуация с публикацией исследований по ферментам и с последующим разоблачение напоминает историю с "Корчевателем" 2007 года.
  
  В случае с использованием трансформеров для анализа ферментов, нет признаков мошенничества. Использование трансформеров это новая область компьютерного анализа, в которой еще не накоплено достаточно данных. Некоторые группы исследователей пробуют этот инструмент, и делятся полученными результатами, не претендуя на истину. Все открыто для критики.
  Статья про использование трансформеров была опубликована в ноябре 2023. Статья с критикой была опубликована в июле 2024 на researchgate.net и в октябре на biorxiv.org. Наверно если бы это было мошенничеством, то было бы достаточно откликов чтобы статью про трансформеры сняли.

WispRushForever
13.06.2025 07:56
#28435134
Слишком громкие заявления для обозначенной в статье проблемы.
1. Первичная структура белка определяется всё. Она определяет форму, форма определяется функцию. Взаимосвязь "структура-функция" первична. Поэтому если показано, что фермент является гидролазой и имеет такую активность, значит является и имеет. Он при этом может быть ещё и рецептором, но от этого он не перестанет быть гидролазой.
2. Автор трактует исследование и слова критики той докторини не принимая во внимание горизонтального переноса генов и генеза вирусного мусора в бактериях. Да что в бактериях - в растениях можно найти внедренный паразитом ген для синтеза редкого углевода, который растение не ест - а паразит ест и ещё как.
Задача определения структуры по последовательности решалась биоинформатиками ещё задолго до всех этих RNN и "Внимание всё что нужно тебе". Выравнивание последовательностей, поиск гомологов, фолдинг - все эти процедуры известны. Наоборот, авторы молодцы, что имплементируют новые методы для решения таких задач. Тут, скорее, важен вопрос оценки параметров ошибки и критериев проверки. Но нельзя тыкнуть в несколько результатов и сказать "смотрите, это не подходит, поэтому так нельзя"! Вы же устанете тыкать в другие результаты и кричать "А это подходит, и это подходит, и это подходит...". А привычные "другие типы доказательств, например, контекст соседства генов, докинга субстратов, совместного присутствия генов на метаболических путях и другие признаки ферментов" не совсем и не всегда актуальны по причинам, представленным выше. Если такая инфа есть, то задача тривиальна, а если нет, то нельзя однозначно трактовать это как негативный ответ.