Когда в марте 2020 года вирус поразил Европу, больницы погрузились в новый для себя кризис, не видя путей для выхода. Мы столкнулись с резкой нехваткой знаний. Врачи не понимали, как вести пациентов, фармкомпании думали, как разработать вакцину, государства — как ограничить распространение ковида нанести минимум вреда экономике.


Но существовали данные из Китая, который уже четыре месяца боролся с пандемией. Если бы алгоритмы машинного обучения можно было обучить на этих данных, возможно, врачи и чиновники смогут принимать более взвешенные решения. И это спасет тысячи жизней.


Тогда действительно появлялась масса проектов, стартапов и статей о них. Вот только за март-апрель на Хабре, самые многообещающие:



Больницы были готовы принять любую помощь. Рук не хватало, им нужна была автоматизация. Были разработаны сотни инструментов, от маленьких до гипер-амбициозных. Но ничего почему-то не произошло. Ни один алгоритм не помог.




На помощь врачам тогда пришли исследовательские группы со всего мира. Например, некоторые из них пытались разработать ПО, которое позволило бы быстрее диагностировать пациентов, и отсекать ложные случаи (вот, например, статья о таком ИИ от Alibaba). Были созданы сотни инструментов прогнозирования и диагностики. Но ни один из них не принес той огромной пользы, на которую надеялись. А большинство в итоге оказались даже вредными.


К такому выводу пришел ряд исследований, опубликованных за последние несколько месяцев. В частности, в июне Институт Тьюринга, главный в Великобритании центр по исследованию ИИ, опубликовал отчет (PDF). В нем подводятся итоги процесса внедрения искусственного интеллекта в борьбу с коронавирусом. Их консенсус: инструменты ИИ, если и оказали какое-либо содействие в борьбе с ковид, то крайне незначительное. Несмотря на то, что в эти стартапы инвестировали несколько десятков миллиардов, которые можно было бы потратить на постройку госпиталей и производство аппаратов ИВЛ.


 


Не подходит для клинического использования




Выводы Института Тьюринга перекликаются с результатами двух других крупных исследований, в которых оценивались сотни инструментов прогнозирования, разработанных в прошлом году. Ведущим автором в одном из них является Лауре Винантс, эпидемиолог Маастрихтского университета в Нидерландах. В исследовании, опубликованном в British Medical Journal, она говорит:


Я возлагала большие надежды на помощь машинного интеллекта. Я подумала, если и есть время, когда ИИ может показать себя, так это сейчас.

Лауре и ее коллеги изучили 232 алгоритма диагностики пациентов или прогнозирования того, насколько больными могут быть люди. Они обнаружили, что ни один из них не пригоден для клинического использования. Ни нашумевшая система, пытающаяся определить коронавирус по голосу. Ни проект, засекающий ковид на рентгеновских снимках. Всего два алгоритма (из 232!) были выделены как достаточно многообещающие для проведения будущих испытаний.


Это шокирует. Здесь сплошные ошибки. Я опасалась чего-то подобного, но это превзошло все мои страхи.



К похожему выводу пришла еще одна группа исследователей во главе с Дереком Дриггсом, исследователем машинного обучения из Кембриджского университета. Их работа опубликована в жунрале Nature Machine Intelligence. Они исследовали модели deep-learning по обнаружению вируса и предсказания рисков для пациента. Были проверены 415 доступных инструмента, разработанных за последние полтора года. Их выводы: ни один из них не пригоден для клинического использования.


Дриггс говорит:


Эта пандемия стала большим тестом для ИИ и медицины. Насколько мы готовы к реальному использованию этих IT-инструментов? Полагаю, мы не прошли этот тест.

 


Что пошло не так




Обе команды обнаружили, что исследователи повторяли одни и те же ошибки при обучении или тестировании своих инструментов. Неправильные предположения об изначальных данных часто означали, что обученные модели не работали так, как заявлено.


Винантс и Дриггс по-прежнему считают, что ИИ может помочь. Но они волнуются о том, что системы могут нанести больше вреда. Сейчас все они могут легко пропустить диагноз или недооценить риск для уязвимых пациентов. Особенно если дело касается групп населения, о которых пока собрано меньше данных: нацменьшинств, детей, людей с хроническими заболеваниями.


Нереалистичные ожидания вызывают желание использовать инструменты с ИИ до того, как они будут готовы. И они уже применяются в некоторых госпиталях, в частности в Китае. А другие — продаются частными разработчиками, иногда за сотни тысяч долларов. «Я боюсь, что они могли причинить вред пациентам», — говорит Винантс.


Большинство проблем с инструментами связаны низким качеством данных, которые исследователи использовали для их разработки. Информация о пациентах с коронавирусом, в том числе о медицинских сканах, плохо передавалась в разгар глобальной пандемии: у врачей были дела поважнее. В итоге большинство инструментов были созданы с использованием неправильно маркированных данных или данных из неизвестных источников.




Дриггс говорит, что в свободном доступе были только «данные Франкенштейна», которые собирались вместе из нескольких источников и часто содержали дубликаты. А это означало, что некоторые инструменты в конечном итоге тестировались на тех же данных, на которых они были обучены. И показывали сильно завышенную эффективность (вспоминается Alibaba с её заявлениями о точности ИИ 96%).


 


Пара забавных случаев


Десятки групп разработчиков использовали набор данных, содержащий сотни тысяч сканов грудной клетки детей, у которых не было ковида, — в качестве примеров того, как выглядят случаи отсутствия короны в людях. В результате их ИИ научились с точностью определять детей, а не вирусов.




Группа Дриггса натренировала модель, используя датасет, содержащий снимки людей, сделанных в положении лежа, и в положении сидя. Казалось бы, какая разница, верно? Но поскольку пациенты, сканированные в положении лежа, с большей вероятностью были серьезно больны, ИИ начал неправильно оценивать риски от коронавируса. Вместо того чтобы анализировать сценарии развития болезни, модель решила предсказывать, будете ли вы лежать или стоять, когда пойдете делать скан легких.


В других случаях было обнаружено, что некоторые ИИ улавливают шрифт текста, который некоторые больницы использовали для маркировки сканированных изображений. В результате сканы из больниц с более серьезной нагрузкой стали предикторами риска заражения коронавирусом. Модели научились прекрасно отличать один шрифт от другого, но ближе к определению ковида это их не привело.


Оглядываясь назад, подобные ошибки кажутся очевидными. Их также можно исправить, изменив модели (если исследователи знают о типе ошибки). Но многие инструменты были разработаны программистами, исследователями ИИ, которым не хватало медицинских знаний для выявления ошибок в данных. Либо медицинскими исследователями, которым не хватало математических навыков, чтобы как-то компенсировать эти недостатки.


Это всё может показаться забавным. Но, согласно Винантсу, тысячи госпиталей в США, Азии и Европе теперь используют эти модели при работе с пациентами. И даже не сообщают, какие именно из них, поскольку подписывают договоры о неразглашении с поставщиками медицинских ИИ. Когда исследователи спрашивали врачей, какие системы стоят у них на местах, те чаще всего отвечали, что им не разрешено говорить. Поэтому, даже если вы эксперт по ИИ, узнать с какой именно ошибкой алгоритма вы столкнетесь в своей больнице — практически невозможно.


 


Пути решения проблемы




Более точные и структурированные данные могут помочь, но в разгар кризиса сложно требовать  чего-то такого. Намного важнее правильно использовать имеющиеся наборы информации. По словам Дриггса, проще было бы, если бы команды ИИ сотрудничали с медиками. А исследователи ИИ — делились своими моделями и рассказывали о том, как они обучались, чтобы другие могли полноценно их протестировать. «Эти две простые вещи решат, возможно, 50% выявленных нами проблем».


Получать данные было бы проще, если бы форматы были стандартизированы. Это — задача на следующий раз, для следующего кризиса, решение которого потребует нечеловеческого интеллекта.


Еще одна проблема, которую выделяют Винантс, Дриггс и другие, состоит в том, что большинство исследователей поспешили разработать свои собственные модели, вместо того, чтобы попробовать улучшить уже существующие. В результате коллективными усилиями разработчиков со всего мира были получены сотни посредственных инструментов — а не десяток должным образом обученных и протестированных сисстем.


Винантс говорит:


Модели настолько похожи — почти все они используют одни и те же методы, одинаковые входные данные. И все совершают одни и те же ошибки. Если бы все эти люди, делающие новые модели, вместо этого занимались тестированием тех, которые уже доступны, возможно, сейчас у нас было бы что-то, что действительно могло бы помочь.

В некотором смысле это старая проблема. У программистов и академических исследователей мало карьерных стимулов, чтобы свободно делиться своей работой или просить кого-то подтвердить существующие результаты. Мы привыкли конкурировать с другими, и нам сложно переключиться в другой режим.


Для решения этой проблемы Всемирная организация здравоохранения рассматривает возможность создать стандарт обмена данными в чрезвычайных ситуациях. Он будет вступать в силу во время международных кризисов. Это позволит исследователям легче передавать данные через границы стран и за пределы собственных компаний.


На саммите G7 в Великобритании в июне ведущие научные группы из участвующих стран также призвали всех «заранее готовить данные», чтобы их можно было быстро брать и анализировать в случае будущих ЧС. Ученые говорят:


Нам нельзя забыть уроки этой пандемии. Это будет неуважительно по отношению к тем, кто на этот раз ушел из жизни из-за наших ошибок.


P. S. Хотите найти достойную работу? Подключайте телеграм-бот g-mate. Задаете свои преференции, и на вас выходят топовые компании. Не нужно ни резюме, ни портфолио. Настройка занимает меньше 30 секунд.


Комментарии (24)


  1. vityoha
    10.08.2021 14:57

    Сумасшедшее время, конечно


  1. Amonara
    10.08.2021 15:23

    Жаль, конечно, по сути, распознавание изображений это фишка нейроныйх сетей. И тут такое.


    1. dreesh
      10.08.2021 16:12
      +2

      Из статьи мне кажется они не умеют готовить ИИ)


  1. iiwabor
    10.08.2021 15:28

    Тут нужны серьезные и глубокие исследования, а сейчас торопятся - и эта спешка до добра не доводит


    1. Arastas
      10.08.2021 16:21
      +2

      Зато доводит до финансирования.


      1. Aleksandr-JS-Developer
        14.08.2021 20:10
        +1

        с другой стороны программа, которая не запускается приносит несравненно меньше проблем, чем та, которая запускается и работает неправильно..


  1. Vsevo10d
    10.08.2021 17:52
    +6

    Вот один из немногих раз, которых я вижу, когда явно обозначена проблема отсутствия смежников. То есть, людей, работающих на стыке наук. В данном случае, программисты и медики даже диалог не смогли наладить - просто чтобы одни сказали, что нейросети могут обучаться на куче побочных факторов, а другие призадумались и дали более чистые выборки или придумали логические "вилки" и отдельные когорты - медикам ведь реально виднее, как организована выборка больных и сканирование на КТ.

    Кстати, вспоминаю старый рассказ Лема "Ананке", написанный очень задолго и даже мной прочитанный еще лет за десять до бума нейросетей. Там потерпел катастрофу космический корабль, врубивший перед посадкой полную тягу по неизвестной причине. Главный герой логикой доходит до того, что профессор, обучавший бортовой компьютер корабля разнообразным ситуациям, был жестким педантом и много времени уделял избеганию космических тел. И заходя на свою первую посадку, компьютер скорее всего решил, что перед ним не поверхность планеты назначения, а очень большой астероид.

    Тогда я счел такую фабулу наивной, а вот сейчас я думаю, что рассказ поистине визионерский. Нейросети для всего на свете - это хорошо, пока они грамотно и без логических недочетов обучены.


    1. fareloz
      11.08.2021 12:20

      Сейчас нейросети активно используются производителями мед оборудования для автоматизации измерений и диагностик. И вот там смежники есть. Причем очень часто программисты заканчивали около медицинские универы


    1. Goupil
      12.08.2021 17:20
      +1

      Тут проблема как смежников готовить и как потом их поощрять (сам как пытающийся смежник говорю). Биологии и медицине долго и нудно учиться, это требует определенного склада ума, так как хотя биологические системы естественные, они сложные и плохо поддаются редукции. У врачей часть обучения вообще посвещена межчеловеческому общению, так как каждый день приходится общаться с не слишком здоровыми людьми в сложный для них период и с их родными. У технарей тоже долгое и сложное обучение, где приходится карабкаться на перевернутую пирамиду знаний, от самых базовых до прикладных, и не дай бог пропустить одну ступень, но при этом из одного вытекает другое. Смежники должны сочетать эти малосочетаемые области за разумное количество времени и денег. Насколько это реально - я думаю не очень. А результаты мы сейчас и видим - технари придумали мощные инструменты, которыми медики не могут воспользоваться.


    1. garwall
      03.09.2021 15:27

      Ну на самом деле не "очень за долго", а где-то около предыдущей волны "хайпа" по машинному обучению (экспертных систем)


  1. savostin
    10.08.2021 18:32
    +1

    добавил бы еще проекты, которые по кашлю пытались определить COVID.


  1. AlexeyALV
    10.08.2021 22:22
    +2

    Есть мнение уважаемых людей, что ИИ ещё не разработан. Нейронные сети - это не ИИ. Это прекрасный инструмент выявления закономерностей, разработанный еще в 70-е годы.


    1. Aleksandr-JS-Developer
      14.08.2021 20:33

      Имхо, но реальный ИИ уже разработан и довольно распространён. Другое дело, что ИИ-реальный и ИИ-ожидаемый - это два абсолютно разных ИИ.


    1. OverFitter
      20.08.2021 18:48
      +1

      Нет, то, что сейчас есть - так называемый "слабый искусственный интеллект", а тот ИИ, о котором вы, скорее всего, говорите называется "сильным"


  1. Daddy_Cool
    10.08.2021 22:35

    Модели научились прекрасно отличать один шрифт от другого

    Забавно. Напоминает попытки детей определить правильные ответы в тесте не напрягая голову самими вопросами. Или вообще — использование мета-знания для определения результата.


  1. omxela
    10.08.2021 23:51

    Есть мнение уважаемых людей, что ИИ ещё не разработан.

    Ну, да. Лично для меня это довольно очевидно. Сейчас имеется (очередной) бум, волна интереса к ИИ - и связанные с этим вполне понятные перехлёсты. Хочется же, чтобы было. Каждое десятилетие (примерно) эта история так или иначе повторяется, начиная с яркой волны 60-х. Пока мы не знаем, что такое "интеллект". Откуда бы взяться ИИ?

    Но я не про то. В контексте обсуждаемой статьи приведенные результаты вполне ожидаемы. Это общая проблема дистанционной диагностики. Она существует давно. Вот у нас в Институте есть такая лаборатория. Ее зав - мой давний знакомый, мы иногда встречаемся за чашкой чая. Если абстрагироваться от природы датчиков и хитроумных методов обработки, которых за три десятка лет накопилось немало, то проблему можно сформулировать так. Задним числом все хорошо различается. Скажем, если я ужЕ знаю, что у пациентки в груди опухоль, то все мои методы анализа на нее укажут: локализация, размер, характеристики, и т.п. Если не знаю - вероятность дифференциальной диагностики неприемлемо мала. Это при том, что ребята сотрудничают с медиками по полной и ужЕ немало лет. В этом смысле ковидные лёгкие - объект ничуть не лучше, а, вероятно, хуже, ибо картинка размазана и нет явного объекта для локализации. Именно по этой причине сетка хочет уцепиться хотя бы за что-то определенное. Получается кикс.


  1. edo1h
    11.08.2021 03:52

    Группа Дриггса натренировала модель, используя датасет, содержащий снимки людей, сделанных в положении лежа, и в положении сидя. Казалось бы, какая разница, верно? Но поскольку пациенты, сканированные в положении лежа, с большей вероятностью были серьезно больны, ИИ начал неправильно оценивать риски от коронавируса. Вместо того чтобы анализировать сценарии развития болезни, модель решила предсказывать, будете ли вы лежать или стоять, когда пойдете делать скан легких.

    В других случаях было обнаружено, что некоторые ИИ улавливают шрифт текста, который некоторые больницы использовали для маркировки сканированных изображений. В результате сканы из больниц с более серьезной нагрузкой стали предикторами риска заражения коронавирусом. Модели научились прекрасно отличать один шрифт от другого, но ближе к определению ковида это их не привело.

    уверен, что и оценки живых людей (в том числе и профессиональных врачей) страдают от тех же самых искажений.


    1. Vsevo10d
      11.08.2021 11:07

      Да, но человек на то и человек, что может генерировать множество предположений и отбрасывать их. А нейросеть - это как трафарет. Наложилось-не наложилось.


  1. fareloz
    11.08.2021 12:21

    Получать данные было бы проще, если бы форматы были стандартизированы

    На мед устройствах есть стандарт хранения данных - DICOM.


  1. eutist
    12.08.2021 10:39
    -2

    По словам Дриггса, проще было бы, если бы команды ИИ сотрудничали с медиками

    Сейчас уже почти до каждого доменного эксперта дошло, что ИИ — это то, что скоро заберёт у него работу. Поэтому они часто или не сотрудничают с «командами ИИ» вовсе, или «сотрудничают» так, как описано в статье. Это проблема, кстати, о которой мало говорят — почему-то предполагается, что человек всю жизнь нарабатывал компетенцию в сложной и тяжёлой отрасли только для того, чтобы в итоге стать подножным кормом для нейросетей и отправиться на улицу ради торжества прогресса. Естественно, что это их не устраивает и тут будет и откровенный саботаж, и кормление ИИ заведомо ложными датасетами, и много чего ещё.


    1. Goupil
      12.08.2021 17:24
      +1

      Не согласен. Врачи столь перегружены, что рады бы скармливать ИИ хотя бы ряд данных, чтобы получать быстрый и правильный ответ и улучшить качество медицинской помощи. Работу ИИ у врачей и медсестер заберет только если перебьет всех людей, а с этим и сами люди прекрасно справляются.


  1. DocVag
    20.08.2021 18:48
    +1

    Добрый день, коллеги! (Осторожно, время на чтение комментария 3 мин, наслаждайтесь)

    Вопрос значения ИИ для COVID-19 стоит на повестке (он уже поднимался тут https://www.facebook.com/sergey.karelov.5/posts/4177692985599693.).

    Позвольте, добавлю альтернативное мнение к этому посту.

    Мы специально опубликовали научную статью на трех языках о том, как разные ИИ-сервисы в рамках Московского Эксперимента по применению ИИ в лучевой диагностике влияют на оценку COVID-19 по данным компьютерной томографии грудной клетки. Анализ проведен на 260 тыс. человек (!), проходивших КТ грудной клетки в 2020 году, часть из которых в момент формирования медицинского заключения врачом-рентгенологом имели результаты анализа этих исследований ИИ-сервисом для помощи врачу в принятии окончательного решения (протокола описания и заключения).

    Отвечая на вопрос этого поста, оказалось, что применение ИИ привело к уменьшению % исследований с тяжелой и критической степенями поражения легких по сравнению с контрольной группой (без ИИ). К чему это могло привести? К тому, что в условиях применения ИИ часть людей обоснованно не были направлены на госпитализацию, а остались на амбулаторном лечении. То есть не перегружали и без того перегруженные стационары.

    Наша научная статья тут: https://journals.eco-vector.com/DD/article/view/60040

    Мы сейчас ведём продолжение работы над новой научной публикацией. Нулевая гипотеза в том, что применение ИИ для COVID-19 не повлияло на количество госпитализаций. Если гипотеза будет опровергнута, то надо обсуждать, что ИИ помог ограничить нерелевантные госпитализации (чтобы оставить место для тех, кто реально в этом нуждался в условиях перегрузки системы здравоохранения). Исходя из нашей первой статьи, основания для этого предположения есть. Чтобы понять масштаб, то речь о десятке тысяч человек в Москве. Чтобы было с чем сравнить "К настоящему моменту в столице развернуто почти 17 тысяч коек" и это с учетом всех павильонов и стадионов (https://www.mos.ru/news/item/92329073/).

    Получается интересная (в каком-то смысле обычная в науке) ситуация: в одних статьях написано одно, а в других - другое. Может быть дело в том, что наш проект mosmed.ai является методологически и технически детально подготовленным основанием для качественных научных публикаций и оказывает помощь ИИ-сервисам, включая размещение базовых диагностических и функциональных требований, обучений для врачей, а также общедоступную публикацию самого крупного в мире датасета с 1110 КТ грудной клетки с признаками COVID-19 (https://journals.eco-vector.com/DD/article/view/46826)... Или в том, что наш Эксперимент по ИИ - это самый крупный научный проект в мире по изучению влияния ИИ в лучевой диагностике на здравоохранение? Всё может быть и надо изучать ИИ как явление. Множество ИИ-сервисов уже больше года работает в Москве. Проанализированы более 2,5 млн исследований и сразу эти ИИ-результататы предоставлены врачам для помощи в принятии решений.

    Надо поднимать, что ИИ это не Святой Грааль в своей законченной форме, а инструмент, который продолжает развиваться семимильными шагами. Рано подводить такие результаты как указаны в посте.

    У нас в работе почти десяток научных статей для того, чтобы поделиться и обсуждать полученные результаты. А если конкретнее, то изменение процесса работы врача с имплементацией ИИ заключалась в следующем:

    1. Еще до просмотра исследования врачом в рабочем списке исследований те, которые были проанализированы ИИ-сервисами с выявлением целевых патологических находок получали дополнительный статус (исследование становилось выделено красным цветом) и врач мог посмотреть его раньше, чем то, которое было без патологии (по мнению ИИ).

    2. Как только врач открывал исследование, то кроме оригинального изображения добавлялось еще одна серия, автоматически присланная ИИ-сервисом, которая как раз и содержала результаты находок по мнению ИИ с локализацией на изображении (обведено кружком или заштриховано цветом - в зависимости от предпочтений разработчиков ИИ-сервисов). Врач мог оценить как оригинальную КТ-исследование, так и синхронно посмотреть КТ-серию от ИИ с локализацией патологических находок. Таким образом, врач мог проверить разметку ИИ-сервисов и довериться ей, если она отражает действительность по мнению врача.

    3. Врач переходил в область формирования протокола медицинского описания и заключения о выполненном КТ-исследовании, где у него справа появлялась автоматически сформированная информация от ИИ-сервиса с подготовленным на русском языке протоколом заключения по целевой задаче (включая указание на степень поражения легких).

    4. Любой из 538 врачей, участвующих в Эксперименте, мог для каждого из исследований, обработанных ИИ, оставить обратную связь о том, насколько он согласен с результатами работы ИИ-сервиса.

    Наш Центр (ГБУЗ "НПКЦ Диагностики и телемедицинских технологий ДЗМ") является организатором и оператором (по факту рефери) этого Эксперимента под покровительством Департамента Здравоохранения Москвы и Мэрии Москвы (все-таки самый крупный эксперимент в мире как ни крути). Мы собираем очень много данных о ходе Эксперимента и о ходе тестирования ИИ-сервисов, чтобы их допустить до проспективного участия (предоставления результатов врачам прямо в городские поликлиники и стационары), подготовили уже больше 100 датасетов по множеству направлений. Совсем скоро (если судьба будет благоволить), то выложим онлайн dashboard для всех желающих Эксперимента.

    Официальный сайт Эксперимента - mosmed.ai Мы проводим регулярные онлайн мероприятия с отчетностью о ходе проекта. Научные результаты, разумеется требуют времени, внимания и сил, иначе заявления могут смотреться голословно.

    Запуск Эксперимента тщательно планировался по сути не один год с подготовкой методологической, нормативно-правовой и этической основ параллельно с открытым обсуждением в профессиональных сообществах как в России, так и за рубежом. Среди медицинских данных лучевая диагностика является лидером по масштабам развития цифровизации, поэтому во всей медицине больше всего ИИ-сервисов именно для лучевой диагностики, наконец, в Москве есть всё необходимое: цифровое оборудование лучевой диагностики + огромный ЕРИС-ЕМИАС + лучшая команда для запуска инициативы + поддержка города. Прозрачный и открытый вход в Эксперимент для всех компаний, желающих поучаствовать со своими ИИ-алгоритмами (которых сегодня уже 43!).

    Хорошо, что автор сделал пост про ИИ - у меня появился повод написать об Эксперименте и наших результатах.


    1. Arnak Автор
      20.08.2021 18:48

      Напишите об этом полноценный пост) К сожалению, здесь это мало кто увидит.


      1. DocVag
        20.08.2021 18:54

        Спасибо на добром слове.

        Я новый пользователь на habr, это мой первый комментарий, поэтому его одобрения ждал несколько дней (кажется больше недели). А сделать полноценный пост без статуса "захабренный" невозможно. Поэтому написал комментарий.