Небольшое исследование показало, что ChatGPT превосходит врачей-людей при оценке историй болезни, даже если последние использовали чатбота.

 В ходе эксперимента врачи, которым ChatGPT помогал диагностировать заболевания, справились с задачей лишь немного лучше, чем врачи, которые этого не делали. Но чатбот в одиночку превзошёл всех врачей.
В ходе эксперимента врачи, которым ChatGPT помогал диагностировать заболевания, справились с задачей лишь немного лучше, чем врачи, которые этого не делали. Но чатбот в одиночку превзошёл всех врачей.

Доктор Адам Родман, эксперт по внутренним болезням в Медицинском центре Бет Израэль Диконес в Бостоне, был уверен, что чат-боты, созданные с использованием искусственного интеллекта, помогут врачам диагностировать заболевания.

Он ошибался.

Вместо этого в исследовании, в разработке которого принимал участие доктор Родман, врачи, получившие доступ к ChatGPT-4 наряду с обычными ресурсами, справились с задачей лишь немного лучше, чем врачи, не имевшие доступа к боту. И, к удивлению исследователей, ChatGPT, действовавший в одиночку, превзошёл врачей. «Я был потрясён», — сказал доктор Родман.

Чатбот, созданный компанией OpenAI, набрал в среднем 90%, когда диагностировал медицинское заболевание по истории болезни и объяснял свои рассуждения. Врачи, случайно назначенные для использования чатбота, получили в среднем 76 баллов из 100. Те, кто не использовал чатбота, получили в среднем 74 балла.

Исследование показало не только превосходную работу чатбота. Оно показало, что врачи порой непоколебимо верят в поставленный ими диагноз, даже если чатбот потенциально может предложить более точный вариант.

Исследование показало, что, несмотря на то, что врачи используют в своей работе инструменты искусственного интеллекта, лишь немногие из них знают, как использовать возможности чат-ботов. В результате они не смогли воспользоваться способностью систем искусственного интеллекта решать сложные диагностические задачи и предлагать объяснения своим диагнозам.

По словам доктора Родмана, системы ИИ должны быть «помощниками врачей», предлагая ценные вторые мнения по поводу диагнозов. Но, похоже, до реализации этого потенциала ещё далеко.

История болезни, будущее болезни

В эксперименте приняли участие 50 врачей — ординаторов и лечащих врачей, набранных через несколько крупных американских больничных систем. Результаты эксперимента были опубликованы в прошлом месяце в журнале JAMA Network Open.

Испытуемым дали шесть историй болезни и оценили их способность предлагать диагнозы и объяснять, почему они предпочитают именно такие диагнозы или исключают другие. Оценки также давали за правильность постановки окончательного диагноза.

Оценки выставлялись медицинскими экспертами, которые видели только ответы участников, не зная, были ли они от врача с ChatGPT, врача без него или от ChatGPT самого по себе.

Истории болезни, использованные в исследовании, были основаны на реальных пациентах и являются частью набора из 105 случаев, который используется исследователями с 1990-х годов. Эти случаи намеренно никогда не публиковались, чтобы студенты-медики и другие люди могли проводить на них тесты, ничего не зная о них. Это также означало, что ChatGPT не обучался на них.

Но чтобы проиллюстрировать суть исследования, исследователи опубликовали один из шести случаев, по которым тестировались врачи, а также ответы на вопросы теста по этому случаю от врача, получившего высокий балл, и от врача, получившего низкий балл.

В этом тестовом случае речь шла о 76-летнем пациенте с сильными болями в пояснице, ягодицах и икрах при ходьбе. Боль началась через несколько дней после того, как ему была проведена баллонная ангиопластика для расширения коронарной артерии. В течение 48 часов после процедуры он принимал препарат для разжижения крови — гепарин.

Мужчина жаловался, что его лихорадит и он устал. Его кардиолог провёл лабораторные исследования, которые показали новое начало анемии и накопление азота и других продуктов жизнедеятельности почек в его крови. Десятилетием ранее мужчина перенёс операцию шунтирования по поводу болезни сердца.

Далее в отрывке из истории болезни приводились подробности физического обследования мужчины, а затем — результаты лабораторных анализов. Правильным диагнозом была холестериновая эмболия — состояние, при котором осколки холестерина отрываются от бляшек в артериях и закупоривают кровеносные сосуды.

Участникам предлагалось назвать три возможных диагноза, подкрепив каждый из них доказательствами. Кроме того, их попросили указать для каждого возможного диагноза данные, которые его не подтверждают или наличие которых ожидалось, но не подтвердилось. Участников также попросили поставить окончательный диагноз. Затем они должны были назвать до трёх дополнительных шагов, которые они предпримут в процессе диагностики.

Как и диагноз для опубликованного случая, диагнозы для остальных пяти случаев в исследовании было нелегко определить. Но они не были и настолько редкими, что практически не встречались. Тем не менее врачи в среднем справились с задачей хуже, чем чатбот.

Что же происходит, спрашивают исследователи? Ответ, похоже, кроется в том, как врачи ставят диагноз и как они используют такой инструмент, как искусственный интеллект.

Врач в машине

Как же врачи ставят диагнозы пациентам? Проблема, по словам доктора Эндрю Лиа, историка медицины из больницы Бригхэма и Женщин, который не принимал участия в исследовании, заключается в том, что «мы действительно не знаем, как думают врачи». По словам доктора Леа, описывая, как они пришли к диагнозу, врачи говорят: «интуиция» или «основываясь на своём опыте».

Подобная расплывчатость десятилетиями не давала покоя исследователям, которые пытались создать компьютерные программы, способные думать как врач. Эти поиски начались почти 70 лет назад. «С тех пор как появились компьютеры, люди пытались использовать их для постановки диагнозов», — говорит доктор Леа.

Одна из самых амбициозных попыток началась в 1970-х годах в Питтсбургском университете. Информатики привлекли к работе доктора Джека Майерса, заведующего кафедрой внутренних болезней медицинского колледжа, который был известен как мастер диагностики. Он обладал фотографической памятью и проводил по 20 часов в неделю в медицинской библиотеке, стараясь выучить всё, что было известно в медицине.

Доктор Майерс получал медицинские подробности случаев и объяснял свои рассуждения, когда размышлял над диагнозами. Учёные-компьютерщики преобразовали его логические цепочки в код. Получившаяся программа, названная INTERNIST-1, включала более 500 заболеваний и около 3 500 симптомов болезней.

Чтобы протестировать компьютер, исследователи предоставили ему примеры из журнала New England Journal of Medicine. «Компьютер справился очень хорошо», — сказал доктор Родман. Его производительность «вероятно, была лучше, чем у человека», — добавил он.

Но INTERNIST-1 так и не заработал. Он был сложен в использовании и требовалось более часа, чтобы предоставить ему информацию, необходимую для постановки диагноза. И, как отметили его создатели, «нынешняя форма программы недостаточно надёжна для клинического применения».

Исследования продолжались. К середине 1990-х годов существовало около полудюжины компьютерных программ, которые пытались ставить медицинские диагнозы. Ни одна из них не получила широкого распространения. «Дело не только в том, что она должна быть удобной для пользователя, но и в том, что врачи должны были ей доверять, — говорит доктор Родман.

И в условиях неопределённости в отношении того, как думают врачи, эксперты начали задаваться вопросом, стоит ли им беспокоиться. Насколько важно пытаться разработать компьютерные программы, чтобы они ставили диагнозы так же, как это делают люди? «Были споры о том, насколько компьютерная программа должна имитировать человеческие рассуждения, — говорит доктор Леа. — Почему бы нам не сыграть на силе компьютера?» Компьютер может быть не в состоянии дать чёткое объяснение пути принятия решения, но разве это имеет значение, если он ставит правильный диагноз?

Ситуация изменилась с появлением больших языковых моделей, таких как ChatGPT. Они не делают явных попыток воспроизвести мышление врача; их диагностические способности обусловлены их способностью предсказывать язык.

«Чат-интерфейс — это приложение, превосходящее все остальные, — говорит доктор Джонатан Х. Чен, врач и компьютерный учёный из Стэнфорда, автор нового исследования. — Мы можем заложить в компьютер целую историю болезни. Ещё пару лет назад компьютеры не понимали языка».

Но многие врачи, возможно, не используют этот потенциал.

Ошибка оператора

После первоначального шока от результатов нового исследования доктор Родман решил немного углубиться в данные и просмотреть реальные диалоги между врачами и ChatGPT. Врачи должны были видеть диагнозы и рассуждения чатбота, так почему же те, кто пользовался чатботом, не справлялись с задачей лучше?

Оказалось, что когда чатбот указывал на то, что противоречило диагнозам врачей, их это часто не убеждало. Вместо этого они были склонны придерживаться своего собственного представления о правильном диагнозе. «Они не слушали ИИ, когда ИИ говорил им то, с чем они были не согласны», — говорит доктор Родман.

В этом есть смысл, говорит Лаура Зваан, которая изучает клинические рассуждения и диагностические ошибки в Медицинском центре Эразма в Роттердаме и не принимала участия в исследовании. «Люди обычно слишком самоуверенны, когда считают, что они правы», — сказала она.

Но была и другая проблема: многие врачи не знали, как использовать чат-бота в полной мере. По словам доктора Чена, он заметил, что, заглядывая в журналы чатов врачей, «они обращались с ними как с поисковой системой, задавая направленные вопросы»: «Является ли цирроз печени фактором риска развития рака? Каковы возможные диагнозы боли в глазах?»

«Лишь небольшая часть врачей поняла, что они могут буквально скопировать всю историю болезни в чат-бот и попросить его дать исчерпывающий ответ на весь вопрос, — добавил доктор Чен. — Только часть врачей увидела удивительно умные и исчерпывающие ответы, которые мог дать чат-бот».

Комментарии (5)


  1. gotch
    06.12.2024 06:56

    из больницы Бригхэма и Женщин

    Замечательно, что из этой статьи и автор сделал совершенно правильный вывод. Вместо того, чтобы писать и переводить самому, лучше доверить это чат-боту.


  1. 3epka
    06.12.2024 06:56

    Brigham and Women's Hospital - вообще интересное словообразование, конечно правильный перевод Женская больница Бригама... (тут целое обсуждение на счет перевода этого названия https://www.multitran.com/m.exe?a=2&l1=1&l2=2&MessNum=209571). Что интересно больница эта не только для женщин...


  1. avshkol
    06.12.2024 06:56

    И, очевидно, врачи понимали, что участвуют в эксперименте, поэтому старались больше времени и сил уделять каждому диагнозу, и все равно по сумме проиграли LLM.

    Но, чтобы понять действительную картину, нужно такие исследования проводить с тысячами врачей в разных странах и разных уровнях медучреждений, и сотнями диагнозов/случаев в разных областях. В том числе исследуя случаи, когда LLM критически ошибается (и когда врачи ошибаются, и насколько области ошибок LLM и врачей пересекаются?). В чём сильны LLM, а в чём - врачи?

    Мы так или иначе движемся в будущее, когда ИИ начнёт теснить людей-врачей, забирая часть функций и решений... и не только врачей.