Глубокое обучение гламурно и ажиотажно. Если обучить трансформер (современную языковую модель) на датасете из 22 миллионов ферментов, а затем использовать его для прогнозирования функции 450 неизвестных ферментов, то можно опубликовать свои результаты Nature Communications (уважаемом научном издании). Вашу статью прочитают 22 тысяч раз и она будет в верхних 5% из всех результатов исследований по оценке Altmetric (рейтингу внимания к онлайн-статьям).
Однако если вы проделаете кропотливую работу по анализу чужой опубликованной работы и обнаружите, что она полна серьёзных ошибок, в том числе сотнями некорректных прогнозов, то можете опубликовать на bioRxiv препринт, который не получит и доли цитат и просмотров исходного исследования. На самом деле, именно это и произошло в случае двух статей:

Эта пара статей о функциях ферментов стала прекрасным примером для изучения границ применения ИИ в биологии и неправильно расставленных акцентов в современной публикации результатов. В этом посте я расскажу о некоторых подробностях, однако призываю вас изучить статьи самостоятельно. Этот контраст станет ярким напоминанием о том, как сложно бывает оценить правдивость результатов ИИ без глубокого знания предметной области.
Задача определения функции ферментов
Ферменты — это катализаторы реакций, поэтому они очень важны для всех процессов, происходящих в живых организмах. Шифры классификации ферментов (КФ) — это иерархическая система классификации тысяч различных функций. Если знать последовательность аминокислот (строительных блоков всех белков, в том числе и ферментов), то можно ли спрогнозировать, каким будет шифр КФ (а значит, и функция фермента)? Похоже, эта задача как будто предназначена для машинного обучения, ведь у неё есть чётко заданные входные и выходные данные. Более того, существует обширный датасет — в онлайн-базе данных UniProt хранится список из более 22 миллионов ферментов и их шифров КФ.
Решение задачи при помощи транформеров (ИИ-модели)
В исследовательской статье модель трансформера глубокого обучения использовалась для прогнозирования функций ферментов с ранее неизвестными функциями. Похоже, это качественное исследование! Авторы использовали разумно подобранную и хорошо показавшую себя архитектуру нейронной сети (два энкодера трансформера, два свёрточных слоя и линейный слой), заимствованную у BERT. Они изучили области с высоким вниманием, чтобы убедиться, что они биологически значимы; это означает, что модель обучилась их внутреннему значению и обеспечила интерпретируемость. Они использовали стандартный датасет из миллионов элементов, разделённый на множества для обучения, валидации и тестирования. Затем исследователи применили модель к датасету без «эталонных данных», чтобы получить приблизительно 450 новых прогнозов. Из этих новых прогнозов они случайно выбрали три для тестирования in vitro («в пробирке») и подтвердили, что прогнозы оказались точными.

Погрешности
Созданные моделью трансформера из статьи в Nature Communications «новые» прогнозы почти наверняка ошибочны. В статье использовалась стандартная методология оценки производительности на тестовом датасете, который не видел трансформер, и реализовала её достаточно хорошо (хотя при последующем исследовании возникли подозрения об утечке данных). Выяснилось, что заявленные результаты для ферментов без эталонных данных полны ошибок.
Например, по прогнозу ген YjhQ E. coli должен быть микотиолсинтазой, но в E. coli вообще не синтезируется микотиол! Уже десяток лет назад было доказано in vivo, что ген yciO, эволюционно возникший из гена TsaC, не имеет ту же функцию, что у TsaC, однако в публикации Nature Communications сделан вывод, что он обладает такой же функцией.
Из 450 «новых» результатов, представленных в статье, 135 оказались совсем не новыми; они уже есть в онлайн-базе данных UniProt. Ещё 148 показали нелогично высокие уровни повторяемости: для генов E. coli одни и те же специфичные функции ферментов повторно встречались до двенадцати раз, что биологически маловероятно.

Микробиологический детектив
Как обнаружились эти ошибки? После обучения, валидации и проверки модели на датасете из миллионов элементов её использовали для создания приблизительно 450 новых прогнозов, и три из них были проверены in vitro. Так получилось, что один из ферментов, выбранных для тестирования in vitro (yciO), уже подробно исследовался за десяток лет до этого доктором де Креси-Лагаром. Когда она прочитала, что глубокое обучение спрогнозировало для yciO ту же функцию, что и гена TsaC, то по своему долгому опыту работы в лаборатории поняла, что это неправда. Её предыдущие исследования показали. что ген TsaC обязателен для E. coli , даже если в том же геноме присутствует yciO и даже если ген yciO сверхэкспрессирован. Более того, активность yciO, заявленная в статье Kim et al., на более чем четыре порядка величин (то есть больше, чем в 10000 раз) слабее, чем активность TsaC. Из всего этого следует, что yciO НЕ выполняет ту же ключевую функцию, что и TsaC.

YciO и TsaC имеют структурную схожесть, к тому же YciO эволюционировал из предка TsaC. Десятки лет исследований эволюции белков и ферментов показали, что новые функции часто эволюционируют дублированием существующего гена с последующей диверсификацией его функции. Это становится основной проблемой при определении функции фермента, потому что их гены могут иметь множество общих признаков с теми генами, из которых они дублировались и диверсифицировались.
Таким образом, изучение структурного подобия — лишь один тип доказательств при анализе функции фермента. Крайне важно учитывать и другие типы доказательств, например, контекст соседства генов, докинга субстратов, совместного присутствия генов на метаболических путях и другие признаки ферментов.

Сотни ошибочных с большой долей вероятности результатов
Обнаружив это ошибку, де Креси-Лагар и её соавторы внимательнее присмотрелись к другим ферментам, для которых в статье Kim, et al были найдены новые результаты. Они выяснили, что 135 из этих результатов уже есть в списке онлайн-базы данных, использованной для создания датасета обучения, а поэтому на самом деле не новы. Ещё 148 результатов содержали высокую степень повторяемости: одни и те же высокоспецифичные функции встречались в них до двенадцати раз. Перекосы, дисбаланс данных, отсутствие релевантных признаков, архитектурные ограничения или плохая калибровка неопределённости могут заставлять модели применять самую часто встречающуюся в обучающих данных разметку.
Ошибочность других результатов была доказана благодаря биологическому контексту или поиску по литературе. Например, по прогнозу ген YjhQ должен иметь функцию микотиолсинтазы (катализатора синтеза микотиола), но в E. coli микотиол не синтезируется. Исследование прогнозировало, что YrhB синтезирует определённое соединение, синтезировать которое по другому прогнозу должен фермент QueD. Разновидность E. coli с мутировавшим QueD была неспособна синтезировать соединение, и это доказало, что на самом деле функция YrhB иная.
Переосмысление классификации ферментов и «истинных неизвестных»
На самом деле, процесс определения функции фермеров состоит из двух достаточно сильно различающихся задач, которые обычно объединяют:
проецирование разметки известных функций на ферменты из того же функционального семейства
выявление действительно неизвестных функций
Авторы второй статьи подметили, что «модели машинного обучения с учителем по природе своей не могут использоваться для прогнозирования функции истинных неизвестных». Машинное обучение может быть полезно при проецировании известных функций на дополнительные ферменты, но при этом может возникать множество ошибок, например, ошибочное отсутствие проецирования разметки и ошибочное проецирование, ошибки курирования и ошибки экспериментов. К сожалению, ошибочные функции добавляются в основные онлайн-базы данных наподобие UniProt, и эти некорректные данные могут в дальнейшем распространяться, если используются для обучения прогнозирующих моделей. Со временем эта проблема становится всё более серьёзной.
Необходимость знаний в предметной области
Нет ничего нового в том, что работа ИИ часто получает больше признания и поддержки, чем работа людей, внимательно изучающих данные и интегрирующие глубокие знания предметной области. В статье с метким названием Everyone Wants to do the Model Work, not the Data Work («Все хотят работать с моделями, но не с данными») приведены десятки случаев, когда специалисты по машинному обучению работали над важнейшими ИИ-проектами. Авторы статьи пришли к выводу, что одной из ключевых причин катастрофических провалов становилось неадекватное применение знания предметных областей.

Подобные статьи стали напоминанием о том, насколько сложно (а иногда и невозможно) бывает оценить утверждения ИИ в областях вне нашей собственной сферы опыта. Я не специалист в функциях ферментов E. coli. И в большинстве научных статей о глубоком обучении специалисты в предметной области не изучали под лупой качество результатов авторов. Какая доля кажущихся впечатляющими научных статей не выдержала бы тщательной проверки? Труд по проверке сотен прогнозов функции ферментов менее гламурна, чем работа по созданию генерирующих их ИИ-модели. Тем не менее, он важнее. Как нам мотивировать учёных проводить подобные исследования с целью проверки на ошибки?
Я считаю, что в условиях сокращающегося финансирования мы должны делать обратное и ещё сильнее вкладываться в широких спектр естественнонаучных и биомедицинских исследований под множеством разных углов. И нам нужно бороться с системой мотивации, непропорционально перекошенной в сторону громких ИИ-решений ценой качества результатов.
Комментарии (12)
aeder
13.06.2025 07:56То есть я правильно понимаю - вместо литературных текстов, системе глубокого обучения дали на вход 22 миллиона спецификаций ферментов и описания их свойств, а далее - для спецификации фермента предложили описать его свойства?
Охренительно. То есть модель никакого физического представляения о самом ферменте (и том, как он работает в огранизме) не имеет, но выдаёт "похожие на настоящие" описания?
Хайпожоры, что тут сказать.
Kergan88
13.06.2025 07:56Так в таком режиме модель должна работать на порядок качественнее, чем если ей давать "литературное описание". Фактически, это идеальная задача для трансформера.
JuryPol
13.06.2025 07:56Да, именно охренительно...
Забавно, но в этот момент на тысячах компов генерятся «похожие на настоящие» куски кода, которые покрываются «похожими на настоящие» тестами, а потом собираются в «похожие на настоящие» системы и продукты.
Впору вводить лейбл «Без ИИ», аналог надписи на пачке халвы «Без ГМО».
dmitrye1
13.06.2025 07:56В первой статье не нашел как был поделен датасет на обучающую и тестовую выборки.
Если все 22 миллиона обучающих данных были спущены на обучение модели, а тестирование проводилось на трех(!) экспериментальных - какая гадость....
den0law
13.06.2025 07:56Строго говоря, публикация этой статьи это и ошибка редактора: так как он не привлёк к редактированию профильных специалистов по ферментам (а они узнали об этом исследовании только после печати).
И если авторы назвали цифру в 450 ферментов, то пускай и подтверждают все их свойства in vitro, а не "тяп-ляп" и готово.alexandr93
13.06.2025 07:56Когда-то был выпуск "Адам портит всё", где говорилось, что там чуть ли не половина научных исследований не воспроизводятся. И главная проблема в том, что научных статей слишком много и все проверить невозможно. Поэтому недобросовестные "исследователи" могут сначала печататься в мусорных журналах, а потом перепечатывать свои статьи в нормальные со ссылками.
И вот тут с ИИ проблема в том, что он может написать столько мусорных работ, сколько раньше было сделать невозможно. И это может очень серьёзно усугубить проблему. Поэтому нужно разрабатывать какие-то автоматизированные методики, которые будут помогать выявлять ИИ-статьи.
Dmitrii4317
13.06.2025 07:56позвольте на эту тему ответить цитатой Льва Толстого
ubillibilla
13.06.2025 07:56Возможно, имелись в виду последние слова Льва Толстого. По разным версиям, они могут быть такими:
«Только одно советую вам помнить: на свете есть много людей, кроме Льва Толстого, а вы смотрите только на одного Льва». «Одно только прошу вас помнить: на свете пропасть народа, кроме Льва Толстого, а вы смотрите на одного Льва». «Помните одно: есть на свете пропасть народу, кроме Льва Толстого, а вы все смотрите на одного Льва».
anshdo
Нужно бороться с системой мотивации, непропорционально перекошенной в сторону громких
ИИ-решений ценой качества результатов. Увы, эта проблема в науке возникла задолго до ИИ.