В медицине клинический диагноз часто требует от врача нескольких действий: построения разумной гипотезы на основании симптомов пациента, проведения соответствующих тестов для подтверждения или исключения этой гипотезы, а также окончательного решения о том, когда остановить тестирование и сделать вывод о диагнозе. Большинство больших языковых моделей (LLM) демонстрируют хорошие результаты при диагностике по фиксированным случаям, однако им не хватает планирования, когда требуется выбрать и фокусироваться на важных диагностических тестах в несколько этапов. Эта задача требует активного сбора информации, типичного для управления агентами, обучаемыми с использованием методов обучения с подкреплением (RL), которые оптимизируют не только конечный диагноз, но и стратегию выбора действий.

Обзор метода: виртуальная среда DiagGym как модель мира и обучение DiagAgent с подкреплением
Обзор метода: виртуальная среда DiagGym как модель мира и обучение DiagAgent с подкреплением

Виртуальная клиника как модель мира

В новом исследовании авторы разрабатывают виртуальную клинику для клинической диагностики, где агенты выбирают, какие действия предпринять, и получают награду не только за правильный диагноз, но и за оптимизацию всей последовательности действий. Ключом к созданию этой среды является имитация реального поведения тестирования в различных клинических сценариях. По сути, это задача моделирования мира, где среда предсказывает, что обнаружит тот или иной тест для заданного пациента, учитывая предыдущие действия, позволяя замкнуть цикл между агентом и средой.

Авторы разрабатывают DiagGym, текстовую среду клинической диагностики, основанную на последовательности действий из электронных медицинских записей (MIMIC-IV), которая имитирует результаты диагностических тестов. Чтобы убедиться, что DiagGym не упрощает набор возможных результатов до нескольких шаблонов, они вычисляют различные распределительные метрики. DiagGym согласуется с реальными последовательностями в 96.91% случаев (оценка LLM) и 95% (по мнению врачей). Он показывает метрики, более близкие к реальным данным, чем универсальные LLM, а также быстрее их. Затем задача диагностики состоит в том, чтобы выбрать соответствующие тесты и прийти к правильному диагнозу быстрее и с меньшими затратами.

Как оценивают симулятор: качество по случаям и по распределениям результатов обследований
Как оценивают симулятор: качество по случаям и по распределениям результатов обследований

Агент, который учится на действиях

Внутри виртуального симулятора DiagGym авторы обучают DiagAgent, который на каждом этапе выбирает, какой тест заказать или когда завершить диагностику. Это мотивирует агента точно диагностировать, эффективно собирать релевантную информацию и завершать диагностику с минимальным количеством действий. Агента обучают с подкреплением (RL) для оптимизации всей последовательности действий в интерактивной среде. Таким образом, агент обучается стратегическому поведению для сбора информации при неопределённости, выходящему за рамки простого дообучения на реальных сценариях.

DiagAgent работает лучше в двух сценариях:

1) Одношаговая задача, где на каждом шаге он должен предложить следующий тест или сделать диагноз;

2) Полная задача, где он активно разыгрывает всю последовательность действий внутри среды.

В одношаговой задаче агент превосходит двух сильных агентных бэйзлайнов и 10 LLM: +9.34% в точности диагноза, +44.03% в рекомендациях диагностических тестов, включая GPT-4o и DeepSeek-v3, которые опережают другие LLM. В полной задаче агент опережает их на +15.12% по точности диагноза и +23.09% по F1.

Как меряют одношаговые рекомендации и итоговые диагнозы; сравнительные результаты DiagAgent и LLM
Как меряют одношаговые рекомендации и итоговые диагнозы; сравнительные результаты DiagAgent и LLM

Что видно по разбору случаев

На примере желтухи симулятор воспроизводит ключевые результаты (повышенный билирубин и сопутствующие симптомы). Это подтверждает, что модель мира не упрощает картину до шаблонов, а сохраняет разнообразие и контекст.

Сопоставление сгенерированных и истинных результатов обследований по одному кейсу
Сопоставление сгенерированных и истинных результатов обследований по одному кейсу

Показательный случай — аппендицит. Агент быстро сужает пространство гипотез, сначала заказывает общий анализ крови и обоснованно идёт на КТ брюшной полости; находки подтверждают диагноз. Траектория близка к референсной и экономит лишние шаги.

Многошаговый диалог DiagAgent и эталонная клиническая хронология
Многошаговый диалог DiagAgent и эталонная клиническая хронология

Но в одном из кейсов также показан провал: при разрыве внематочной беременности агент верно устанавливает диагноз, но не инициирует срочные лечебные действия, которые лежат вне текущего скоупа задач. Поэтому диагностическое рассуждение есть, а шагов нет.

Сбой: точная диагностика без выполнения неотложных процедур
Сбой: точная диагностика без выполнения неотложных процедур

Почему это работает

Во‑первых, сама виртуальная среда возвращает правдоподобные, вариативные результаты, поэтому агент учится на богатых сценариях, а не на одних и тех же шаблонах. Во‑вторых, цель обучения: оптимизируется не красивая формулировка ответа, а весь путь к нему. RL на траекториях стабильно превосходит чистое инструкционное дообучение и поднимает потолок качества для разных исходных семейств моделей.

Честно показаны и ограничения. Базы для обучения и проверки взяты вдумчиво, но RL проводился только на моделях до 14 миллиардов параметров: более крупные могут обеспечить дополнительный скачок производительности. Оценивалась только диагностика: расширение модели мира на лечение и прогноз может потребовать дополнительных доработок. Авторы приветствуют дополнительные методы оценки.

Таким образом ИИ приходит к роли мыслящего медицинского исследователя, который не просто отвечает на вопросы, а планирует, проверяет гипотезы и осваивает искусство клинического рассуждения — шаг к созданию действительно разумных медицинских помощников.

? Полная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (6)


  1. JBFW
    02.11.2025 21:47

    Когда-то, давно, прочили светлое будущее "экспертным системам": программам, которые на основании результатов анализов и опросов, по симптомам, будут выявлять, ну например, различные заболевания - буквально так же, как это делают врачи, основываясь на своем опыте и знаниях.

    И даже язык программирования подходящий для этого был, Prolog.

    Проблема оказалась в другом: никому не интересно наполнять экспертную систему реальными знаниями, чтобы потом оказаться без работы, когда она будет делать всё то же самое, только быстрее.

    ИИ сейчас - читерство, попытка получить "электронного врача" без участия врачей: само почитает материалы, само научится, само и лечить будет.
    Ну-ну


    1. NeriaLab
      02.11.2025 21:47

      Теперь современные версии когнитивно-символьных систем и гибридов обучают с привлечением специалистов, чтобы они могли верифицировать данные. Да, обучение дольше, но результат того стоит


    1. gmtd
      02.11.2025 21:47

      Как "второе мнение" это работает прекрасно, исправляя ошибки врачей и спасая жизни

      Не в России


      1. Wesha
        02.11.2025 21:47

        Проблема в том, что когда студенты привыкают к тому, что «да оно всегда правильный ответ даёт», собственый мозг начинает отключаться, и вскоре

        получится что-то такое


  1. Zippy
    02.11.2025 21:47

    вот как у ИИ наберется лет десять враченого опыта тогда и пойду к нему на прием.

    И если научатся привлекать ИИ к суду за врачебные ошибки.


  1. Wesha
    02.11.2025 21:47

    более крупные могут обеспечить

    Одна их версий закона заголовков Беттериджа: «В любом заголовке, содержащем слово „может...“, следует в конце мысленно добавлятьа может и не...“»