Большой медицинский Machine learning дайджест подготовлен командой телеграм канала Machine Learning Interview.
Модели машинного обучения и бенчмарки
? ONCOPILOT: Интерактивная модель для сегментации опухолей на основе КТ и измерения по RECIST 1.1.
ONCOPILOT основана на модели Segment Anything Model и адаптирована для сегментации медицинских изображений.
Модель обрабатывает 2D-изображения и маркировку: рамка, точка или маска. Цель модели - сгенерировать 3D-предсказание объема конкретной анатомической структуры на основе входного изображения и визуальной маркировки.
ONCOPILOT прошла предварительное обучение на данных нормальной анатомии и онкологических поражений, а затем на онкологических поражениях с помощью тонкой настройки, фокусируясь только на опухолях.
ONCOPILOT принимает на вход целое КТ-изображение и визуальную маркировку(рамка или точка). Модель выводит начальную 2D-маску сегментации, которая затем распространяется последовательно по оси Z, используя маску из соседнего среза в качестве подсказки для следующего среза.
Этот процесс распространяет маски сегментации от среднего среза, что приводит к 3D-маске сегментации.
Для обучения ONCOPILOT использовались общедоступные наборы данных, содержащие КТ-изображения нормальной анатомии и более 7500 опухолей различных органов: TotalSegmentator v1, DeepLesion, Radboudumc, MSD, LNDb, KITS23, LiTS, NIH-LN и LIDC-IDRI.
Результаты тестов показали, что ONCOPILOT превосходит современные модели сегментации (например, nnUnet), достигая точности на уровне радиолога в измерениях RECIST 1.1.
? RespLLM: MLLM для прогнозирования состояния дыхательной системы.
RespLLM использует знания LLM и кросс-модальное внимание для объединения звука и текста.
Архитектура модели включает три основных модуля: текстовый энкодер, аудиоэнкодер с проектором и LLM. Для выравнивания звуковых вложений со словесными вложениями используется простой линейный слой. Только часть предварительно обученных параметров обновляется с использованием LoRA, что обеспечивает адаптацию к задачам прогнозирования. Настройка инструкций обеспечивает интеграцию данных из нескольких источников для универсальности.
Для обучения модели использовались данные из пяти открытых наборов данных аудиозаписей дыхания: кашель, обычное дыхание и легочные звуки, связанные с курением, COVID-19 и другими респираторными заболеваниями. Эти наборы данных дополнительно содержат демографическую и медицинскую информацию (возраст, пол, историю болезни, симптомы и т.д)
Результаты экспериментов показывают, что RespLLM превосходит ведущие базовые модели в среднем на 4,6% по обученным задачам, на 7,9% по не видимым ранее наборам. Модель демонстрирует высокую способность обобщения, хорошо работает на новых данных и комплексных задачах.
? GlucoBench: набор данных для прогнозирования уровня глюкозы.
GlucoBench - комплексный ресурс для исследований в области прогнозирования уровня глюкозы на основе данных непрерывного мониторинга глюкозы (CGM).
Проект включает в себя набор тщательно отобранных общедоступных CGM-наборов данных (Broll, Colás, Dubosson, Hall и Weinstock), стандартный набор задач для оценки моделей, набор моделей (NHiTS, TFT, Gluformer и Latent ODE) для сравнительного анализа и подробный анализ факторов, влияющих на производительность моделей.
Наборы данных включают информацию о пациентах с диабетом 1 и 2 типа, а также о пациентах без диабета, что позволяет протестировать модели прогнозирования на разных группах населения.
Результаты тестов показывают, что простые модели, такие как ARIMA и линейная регрессия, демонстрируют высокую точность прогнозирования на большинстве наборов данных.
Модель Gluformer показывает наилучшие результаты в оценке неопределенности на всех наборах данных
? DiffAbXL: Модель диффузии для оценки аффинности связывания антител.
DiffAbXL - это масштабируемая модель диффузии, разработанная для прогнозирования и ранжирования аффинности связывания антител.
Модель использует двунаправленный марковский процесс диффузии, который постепенно добавляет шум к входным данным (последовательность и структура антитела), а затем обучается обращать этот процесс, чтобы восстановить исходные данные из шума.
DiffAbXL обучается предсказывать тип, положение и ориентацию аминокислот в CDR-регионах антитела, основываясь на контексте каркасных областей и антигена.
Модель использует три функции потерь: дивергенция Кульбака-Лейблера для типов аминокислот, среднеквадратичная ошибка для положения и ошибка вращения для ориентации.
Для обучения DiffAbXL использовался объединенный набор данных из базы данных SAbDab и 1,5 миллиона синтетических структур, сгенерированных ImmuneBuilder2 с парными последовательностями из Observed Antibody Space (OAS). Для оценки модели использовались 7 различных наборов данных, включающих данные об аффинности связывания антител и нанотел.
Результаты тестов показали, что DiffAbXL демонстрирует высокую корреляцию между логарифмической вероятностью и измеренной экспериментально аффинностью связывания, превосходя другие модели, основанные на графах и диффузии.
Фреймворки и методологии
? DALL-M: Система дополнения клинических данных с учетом контекста с помощью LLM.
DALL-M - платформа, которая использует LLM для создания новых клинически значимых признаков, дополняя наборы данных рентгеновских снимков с учетом контекста.
DALL-M работает в три этапа:
Извлечение и хранение клинического контекста: на этом этапе собирается информация, относящаяся к конкретному случаю пациента, из Radiopaedia и Википедия, используя метки поражений из набора данных REFLACX. Эта информация, полученная с помощью RAG, сохраняется в базе данных графов Neo4j.
Запросы экспертов и формирование подсказок: в сотрудничестве с рентгенологами разрабатывается набор структурированных вопросов. Эти вопросы преобразуются в промпт для LLM, используя RAG для получения ответов из базы данных, созданной на первом этапе. Результатом является корпус дополненных клинических знаний (ACK), обогащающий контекст каждого случая.
Дополнение признаков с учетом контекста: LLM с помощью few-shot learning выявляет новые клинически значимые признаки из корпуса ACK. Затем, используя RAG и сочетая информацию из корпуса ACK, базы данных предметной области, рентгенологического отчета пациента и демографических данных, LLM генерирует значения для этих новых признаков.
Для обучения DALL-M использовался набор данных MIMIC-IV, содержащий рентгеновские снимки грудной клетки, рентгенологические отчеты и клинические данные 799 пациентов. Метки поражений были взяты из набора данных REFLACX.
Результаты тестов показали, что включение признаков, созданных с помощью DALL-M, значительно улучшает производительность методик машинного обучения: Decision Trees, Random Forests, XGBoost и TabNET. В частности, XGBoost продемонстрировал увеличение F1-меры на 16,5%, а точности и полноты - примерно на 25%.
? ClinicalLab: Платформа для оценки и разработки медицинских агентов, имитирующая реальный клинический диагностический процесс.
ClinicalLab - набор инструментов и методологий, предназначенных для оценки и разработки медицинских агентов на основе LLM, которые могут эффективно имитировать процесс клинической диагностики.
ClinicalLab состоит из 3 компонентов:
ClinicalBench: бенчмарк, основанный на реальных случаях для комплексной многопрофильной клинической диагностической оценки LLM. Он охватывает 24 направления и 150 заболеваний, моделируя 8 клинических диагностических задач, с которыми сталкиваются врачи в реальной практике.
ClinicalMetrics: набор из четырех метрик, разработанных для точного измерения эффективности LLM в задачах направления пациента в нужное отделение и постановка диагноза. Эти метрики учитывают точность и качество инференса.
ClinicalAgent: диагностический агент, который динамически распределяет K наиболее подходящих отделений и назначает N врачей из каждого отделения для совместной консультации на основе жалоб пациента.
Для обучения моделей и оценки их производительности в ClinicalLab использовались данные из реальных клинических записей, которые включают в себя 1500 случаев, 150 заболеваний и 24 направления.
? Синтез хирургических наборов данных с помощью диффузионных моделей.
Метод, основанный на диффузионных моделях, который позволяет генерировать реалистичные хирургические изображения с полными аннотациями.
Ключевой идеей является использование сегментационных масок для обучения диффузионных моделей, чтобы сделать их "осведомленными" об анатомии.
Метод позволяет генерировать мультиклассовые наборы данных, используя только бинарные реальные данные и мультиклассовые моделированные маски.
Результаты оценки показывают, что синтетические наборы данных, созданные с помощью данного метода, отличаются высоким качеством и полезны в качестве обучающих наборов данных для сегментации.
Тестирование продемонстрировало улучшение показателей сегментации на 15% при объединении с реальными изображениями. Это свидетельствует о том, что метод эффективно фиксирует текстуру различных органов и позволяет генерировать реалистичные хирургические изображения.
Медицинские LLM-приложения
? MMedAgent: Мультимодальный медицинский агент.
MMedAgent предназначен для обработки медицинских изображений разных модальностей и решения задач: grounding, сегментация, классификация, генерация медицинских отчетов (MRG), генерация с извлечением информации (RAG) и визуальные вопросы и ответы (VQA).
MMedAgent построен на основе модели LLaVA-Med и состоит из двух основных компонентов: MMLM, настроенной с помощью инструкций, которая выступает в качестве планировщика действий и агрегатора результатов, и набора медицинских инструментов, предназначенных для конкретных задач.
MMedAgent обрабатывает запросы пользователя и медицинские изображения, определяя необходимый инструмент, выполняя его и предоставляя пользователю окончательный ответ. Для обучения MMedAgent используется набор данных, включающий данные для разных модальностей: MRI, CT, рентгеновские снимки и гистологические изображения.
В обучении использовались наборы данных FLARE2021, WORD, BRATS, Montgomery County X-ray Set (MC), VinDr-CXR, multi-modal cell segmentation dataset (Cellseg), PMC article 60K-IM, MIMIC-CXR, Merck Manual.
Результаты тестирования MMedAgent показывают, что он превосходит другие модели с открытым исходным кодом и GPT-4o, в решении различных медицинских задач. MMedAgent демонстрирует высокую точность выбора инструментов и способность интегрировать новые инструменты без ущерба для производительности. Тестирование также показало превосходство MMedAgent в задачах VQA, включая открытый медицинский диалог и бенчмарки VQA.
? Гибридная система для выявления редких заболеваний из неструктурированных клинических отчетов.
Cистема предназначена для решения проблемы идентификации редких заболеваний, используя преимущества как NLP-инструментов, так и LLM.
Для построения словаря редких заболеваний используется онтология редких заболеваний Orphanet (ORDO), которая затем сопоставляется с Unified Medical Language System (UMLS) для расширения синонимии и охвата терминов.
Для извлечения клинических сущностей из электронных медицинских карт используется SemEHR. Для уточнения результатов и повышения точности применяются LLaMA3, Phi3-mini, OpenBioLLM и BioMistral. Исследуются различные стратегии промптов: zero-shot, few-shot и knowledge-augmented generation.
Результаты показывают, что LLaMA3 и Phi3-mini достигают наивысших показателей F1 при идентификации редких заболеваний, причем few-shot prompting с 1-3 примерами дает наилучшие результаты.
? LLM-AMT: конвейер для повышения точности LLM в задачах QA.
LLM-AMT состоит из четырех основных компонентов:
Query Augmenter;
Hybrid Textbook Retriever;
Knowledge Self-Refiner;
LLM Reader.
Query Augmenter переписывает и расширяет исходный вопрос, используя точную медицинскую терминологию и добавляя соответствующие медицинские термины, чтобы улучшить поиск информации.
Hybrid Textbook Retriever использует гибридный подход, сочетающий разреженный поиск с переранжированием для извлечения соответствующих отрывков из корпуса из 51 медицинского учебника.
Knowledge Self-Refiner фильтрует извлечённые отрывки, удаляя нерелевантные и бесполезные сегменты, для повышения точности.
LLM Reader использует уточнённые знания для построения окончательного ответа.
Для оценки системы были использованы три набора данных для ответов на вопросы в области медицины: MedQA-USMLE, MedQA-MCMLE и MedMCQA.
Результаты экспериментов показали, что LLM-AMT значительно превосходит базовые модели GPT-3.5 и GPT-4, достигая повышения точности на 11,6–16,6%.
Исследования и обзоры
? Реконструкция изображений компьютерной томографии с малым числом ракурсов.
Исследование, посвященное поиску эффективных методов реконструкции КТ-изображений с ограниченным числом проекций.
В основе подхода лежит использование регуляризованных методов численной оптимизации для реконструкции КТ-объемов с использованием 4-28 проекций. Предлагаемая методология обычно реализуется в виде последовательности из двух или трех этапов численной оптимизации.
На первом этапе выполняется реконструкция КТ-объема с помощью стандартного метода реконструкции с малым числом ракурсов.
Полученная реконструкция используется для инициализации второго этапа, на котором реконструируется предварительное изображение с использованием сильных ограничений/регуляризации.
На последнем этапе выполняется реконструкция с использованием любого итерационного алгоритма реконструкции, начиная с изображения, реконструированного на предыдущем этапе, с использованием слабых ограничений для уменьшения смещения.
Для демонстрации эффективности методов использовались четыре измеренных и три смоделированных набора данных КТ с малым числом ракурсов.
Тесты, проведенные на данных, полученных с помощью рентгеновского микротомографа Xradia Ultra, показали, что с помощью Simple Function RLS можно восстановить среднюю плотность и вариации плотности внутри стекловолокна диаметром 180 мкм, используя всего 19 проекций.
Алгоритм RDLS успешно использовался для реконструкции динамических событий, снятых с помощью системы Multi-Energy Flash CT (MEFCT) в DEVCOM Army Research Laboratory (DEVCOM ARL).
Спасибо за внимание.