Введение в идею исследования

В настоящее время в обществе существуют определенные опасения по поводу использования LLM в медицине, даже с учетом более ранних исследований, демонстрирующих достижение ChatGPT 4.0 диагностической точности, сопоставимой с уровнем обычных врачей. (В некоторых случаях даже сами врачи оценивали ответы LLM как более качественные и эмпатичные, чем ответы от их коллег.)

Медицинские рекомендации, сгенерированные ИИ, положительно воспринимаются человеком, если авторство ИИ не раскрывается, однако, когда вскрывается правда, возникает открытое недоверие. В различных областях заметили это явление и назвали "отвращением к алгоритмам". 

Общественное восприятие таких рекомендаций действительно важно, так как оно непосредственно влияет на поведение пациентов, удовлетворенность лечением и его результаты, поэтому необходимо проведение крупных экспериментов для получения качественной обратной связи!

Исследователи провели два масштабных эксперимента (n = 1,050 и n = 1,230), чтобы изучить, как маркировка медицинских советов (“создан врачом”, “сгенерирован ИИ”, “совместная работа врача и ИИ”) влияет на восприятие их надёжности. В работе также измеряли готовность следовать таким медицинским рекомендациям и интерес к использованию инструментов ИИ. 

Результаты исследования

В этом исследовании использовались отчеты о случаях, охватывающие четыре различные медицинские темы: отказ от курения, колоноскопия, агорафобия и рефлюксная болезнь. Каждый из этих сценариев представляет собой краткий диалог, состоящий из вопроса, который мог бы задать обычный человек через чат-интерфейс на цифровой платформе здравоохранения, и соответствующего ответа на этот вопрос. 

Для генерации ответов в стиле, аналогичном популярным большим языковым моделям, эти вопросы использовались в качестве запросов для ChatGPT 3.5 от OpenAI. Полученные результаты были отредактированы, дополнены и проверены на медицинскую точность сертифицированным врачом. Таким образом, все ответы представляли собой результат сотрудничества между ИИ и врачом, независимо от информации, предоставленной участникам эксперимента! *(люди видели одни и те же диалоги с разными метками)

*Авторские метки, отображающиеся перед ответом:

Рис.1 Сценарий, посвященный рефлюксной болезни
Рис.1 Сценарий, посвященный рефлюксной болезни
Рис. 2 Сценарий, посвященный колоноскопии 
Рис. 2 Сценарий, посвященный колоноскопии 
Рис. 3 Сценарий, посвященный отказу от курения
Рис. 3 Сценарий, посвященный отказу от курения
Рис. 4 Сценарий, посвященный агорафобии
Рис. 4 Сценарий, посвященный агорафобии

На рисунке 5 показаны средние оценки по каждому исследуемому параметру (эмпатия, надежность, доступность (понятность)) и по метке автора («человек», «ИИ», «человек + ИИ») в исследовании 1. Ожидаемо, метка автора оказала значительное влияние на оценки эмпатии: советы, помеченные как «человеческие», воспринимались значительно более эмпатичными, чем советы от «ИИ». Различий в оценках эмпатии между ответами «ИИ» и «человек + ИИ» не было.

Оценки надежности также значительно различались между метками автора. Закономерно, советы, помеченные как «человеческие», оценивались как значительно более надежные, чем советы от «ИИ» и «человек + ИИ». Удивительно, что для участников эксперимента не было разницы в том, полностью ли сгенерирован ответ ИИ, или он был скорректирован человеком (хотя в настоящее время считается, что силы ИИ дополняют мнения и показания врачей, для достижения наилучшего результата).

Оценки доступности не зависели от метки автора.

На рисунке 6 показаны основные результаты исследования 2. Во всех анализах тенденции аналогичны результатам исследования 1. Таким образом, «человеческие» советы оценивались как более эмпатичные и надёжные, но не как более понятные по сравнению с советами от «ИИ» и «человек + ИИ». 

Участники также отмечали значительно меньшую готовность следовать предоставленным советам, если считали, что в их создании участвовал ИИ (и опять же нет разницы, присутствовало ли там мнение врача).

Однако доля участников, сохранивших ссылку на (фиктивную) платформу, на которой были сгенерированы медицинские советы, не различалась между условиями «человек» и «ИИ». *Были три группы участников, которым предлагались советы, помеченные как созданные «человеком», «ИИ» или «человеком + ИИ». Соответственно, процент участников, сохранивших ссылку на платформу, составил: «человек» — 19.3%, «ИИ» — 18.5%, «человек + ИИ» — 22.9%. 

Рис. 5 Результаты исследования 1
Рис. 5 Результаты исследования 1
Рис. 6 Результаты исследования 2
Рис. 6 Результаты исследования 2

Результаты показывают, что метка «врач» ассоциируется с большей заботой и уважением, что важно для успешного взаимодействия пациента и врача. Общественность воспринимает врачей как более надёжный источник медицинской информации, чем ИИ, что, в целом, согласуется с ранее наблюдаемым отвращением к алгоритмам в здравоохранении. 

Использование ИИ могло восприниматься как «обезличивание», что объясняет низкие оценки эмпатии. Сопротивление советам ИИ может быть связано с феноменом "игнорирования уникальности", когда пользователи считают, что ИИ не учитывает их индивидуальные особенности. 

Кроме того, рекомендации ИИ не воспринимаются как менее понятные и доступные, что, вероятно, связано с тем, что данная характеристика воспринимается как более техническая и менее критичная для медицинских условий. 

Метка автора не влияла на решение сохранить ссылку на платформу, что говорит о начальном интересе к инструментам, связанным с ИИ. Однако необходимы дальнейшие исследования, чтобы понять, возможно ли успешное использование таких платформ в долгосрочной перспективе.

Очевидно, результаты экспериментов указывают на предвзятость против медицинских рекомендаций, сгенерированных ИИ, даже под контролем врачей. 

Интересно, что другие исследования показывали, что люди больше доверяют сочетанию человека и ИИ, если им гарантируют, что врачи остаются на позиции принятия решений. Соответственно, правильное оформление участия ИИ может быть ключевым для его принятия.

Комментарии (11)


  1. nikolz
    27.07.2024 14:19
    +7

     Соответственно, процент участников, сохранивших ссылку на платформу, составил: «человек» — 19.3%, «ИИ» — 18.5%, «человек + ИИ» — 22.9%. 

    Такой низкий процент говорит о том, что у большинства участников нет доверия к полученным советам вне зависимости от их источника.


  1. achekalin
    27.07.2024 14:19
    +3

    Вы серьезно сравниваете работу врача и ответы генеративной сети, обученной на текстах из интернета?

    Серьёзно?

    А по телефону аппендицит не попробовать ли лечить? И как llm сможет живот "пощупать", и признать состояние пациента, скажем, аппендицитом?

    Пишу так, потому что несколько раз в жизни видел, как llm на часть вопросов в некой беседе пишет внятные ответы, а дальше чушь несет - но этт в безеде на экране, а мы говорим про медицину!


    1. infectedtrauma
      27.07.2024 14:19
      +1

      Автор сравнивает генеративную сеть общего назначения с врачом, тут уже все понятно. Статья просто ради статьи с ссылочкой на их прокси до чатгпт)


    1. usego
      27.07.2024 14:19
      +1

      на часть вопросов в некой беседе пишет внятные ответы, а дальше чушь несет

      Неоднократно видел такое и с людьми. Бывает и сразу с чуши начинается =)


    1. chapai22
      27.07.2024 14:19
      +4

       И как llm сможет живот "пощупать", и признать состояние пациента, скажем, аппендицитом?


      А почему сразу апендицит, не "у меня чото голова побаливает"? Чего кидаться в крайности.
      Голова болит чаше чем случается острый аппендицит. И предварительный опрос делает отнюдь не врач - а обученная медсестра. Как и после врача и процедур, последующие приемы и беседы. Например если я назначу ща беседу со своим кардилогом, спросить чего или пожаловаться - то мне предложат видеозвонок к ее помощнику. А к врачу только если надо. Да и кардиолог, - я ее лично вообще вживую не встречал - только видео, а она назначила исследования (в госпитале спецами), и изучив, сделала назначения, Америка, если что. И это очень хороший кардиолог и хорошие госпиталя с хорошей страховкой. А на кой мне лично к ней ехать - если щупать руками нечего.
      И вот это, беседы, опросы, вполне заменяется ИИ. Что и будет прям скоро - тут и сомнений нет.

      а мы говорим про медицину!

      такое ощущение, что медицина всегда на высоте и священная корова. И всегда - топчик в любом месте и краю света, а главное, бесплатно.
      Вы вообще понимаете, что она стоит денег и очень дорого? И хрен так просто получишь и тем более сразу. Даже если есть страховка. А если ее нет - то все меняется.
      И многие вещи - врач не нужен по сути, но лекарство может выписать только он - вы купить не можете. Хотя часть проблем я бы и сам, но вот - не продадут без рецепта -а для него визит, даже если пять минут говорения и баксов 200 оплаты от страховки + моя двадцатка- даже видео.. И мне было бы проще в удобное мне время побеседовать с ИИ забесплатно или дешево. А там уже решить или получить нужный рецепт или продление(refill) или чего продолжать и к кому. И не визит к врачу через месяц когда у него "окно" в расписании.

      В реальности и само обследование не так уж дорого и прям сложно - просто зарегулировао, монополизировано и поэтому цены в потолок.
      Так то Ctscan можно поставить на каждом углу с техником обслуги (как оно и есть в госпитале), и стоит будет 20-50 баксов сеанс а не $3000.
      Но вот чтение результатов - уже особых денег, ибо это делает врач а не техник- но этот врач не здесь сидит, а вообще в другом госпиталеили даже штате , и неизвестно кто, просто спец с лицензией- рентгенолог, и прочее - он умеет читать результат - хотя вообще меня не знает и не видел.
      А уж его ответ будет смотреть мой врач.. И вся цепочка работает не прям вот быстро.
      И скажем ИИ может здесь вполне что то делать.

      что до технической части - прогресс имеется. (Предположительно) можно сунуть человека в CTscan, MRT, Ultasound, пункцию и тд + экспресс анализ крови, жидкостей, и прочего, детально. Прям на койку и прокатить через конвейр. То есть нечто автоматизированное что выдаст анализируемый результат. Если уже есть телероботы хиргические то робота для шупанья и глядения тоже можно изготовить.
      Ну и просто щупальщика поставить, недорогого но обученного - который будет делать сообразуясь с оперативными рекомендациями. Недорого и за углом.
      И вызовет скорую если надо.

      Вообще то не так давно были только гостиницы и такси с шашечками - и казалось - ну как иначе? И телепрограммы делали только обученные телеведушие и журналисты в особом здании. А потом хлоп - и оказалось что можно иначе и даже лучше. Я лично гостиницами и официальным такси вообще не пользуюсь, как стал убер и эйрбнб.
      Как и телевидением через кабель - и тем что было официально тем более..И газетами.
      Ну и здесь так же будет в некотором роде. И это очень хорошо.
      а главное это станет доступно удобно и оперативно. Возможно даже качественней в чем то - как тот же убер.


  1. Blacpaul57
    27.07.2024 14:19
    +2

    Да, щас бы сравнивать врача и ИИ, это сильно...


    1. geradeaus
      27.07.2024 14:19

      Участкового терапевта в госполиклинике из райцентра Нечерноземья - почему бы и нет?


      1. geradeaus
        27.07.2024 14:19

        А с чем, собственно, авторы минусов несогласны? Что так, что эдак пациенту будет перепадать выписывание фуфломицинов, нулевая ответственность за результат (не)обследования + немножко угадывания с первым этапом диагностики и сбор анамнеза, но по крайней мере, часы приема ИИ может иметь любые, в з/п не нуждаться, прекрасно параллелиться на прием сотен пациентов, не реагировать на неадекватов и не переносить реакцию на неадекватных пациентов на следующих. Как по мне, чистый вин-вин в краях, не изобилующих финансами.


    1. chapai22
      27.07.2024 14:19
      +3

      а например _отсутствие_ врача? Полно бедных стран где врача нет или за тыщщу километров. Там тоже люди. Про них вы не думаете?


    1. plFlok
      27.07.2024 14:19

      почему бы и нет?

      ИИ - это красивое слово для описания "статистик": модели, описывающей, что для таких-то вводных более вероятны такие-то следствия.

      Медицина работает примерно так. Как бы глубоко врач ни знал медицину, всё равно я вижу 3 вещи, которые не дают принципиально разобрать всё на причинно следственные связи:

      1. мы не знаем, как точно работает мозг - есть только статистические данные

      2. мы не знаем, как точно кодируется и интерпретируется днк - есть только статистические данные

      3. мы до конца не знаем, почему те или иные атомы взаимодействуют, образуя новые вещества, а другие - нет. Есть только много статистических данных.

      Вон, даже мою любимую мигрень до сих пор не могут объяснить, но есть статистические данные, что некоторым людям помогает ввод специальных антител, а другим - отказ от сыра. Считается ли такой вывод научным? Да, считается. Считаю ли я его лаконичным и красивым? Нет, но альтернатив в жизни для прописывания лечения у нас нет.

      Если врач опирается на статистику, почему ИИ - квинтессенция статистики - не может делать то же самое?


      ChatGPT вряд ли сможет - там статистический аппарат под другую цель заточен - не диагноз по анализам ставить, а правдоподобный флуд в ответ на флуд генерировать. Но специально узкозаточенные нейросети - почему бы и не заюзать. ЕМНИП, ещё 10 лет назад IBM Watson Health (могу наврать в названии) заявляли, что их модели точнее и полнее распознают онкологии на разного рода снимках, чем врачи на тех же снимках. И на хабре уже были статьи, что подобные ИИ были готовы к внедрению ещё до появления хайпа с chathpt


  1. avshkol
    27.07.2024 14:19

    LLM, которая будет заменять врача, явно не будет LLM общего назначения, а будет специализированной, и - главное - победившей в конкурентном отборе какое-то количество врачей (условно, худших 30%). И это будет фантастический сдвиг для беднейших стран и небогатых людей (и людей из удаленных районов), ибо врачебные консультации и назначение лекарств станут очень дешевыми и мгновенными.