Модели машинного обучения и бенчмарки
? OLAPH: Повышение достоверности ответов на медицинские вопросы.
OLAPH (Optimizing Large Language models’ Answers with Preferences of mitigating Hallucination) - метод, который фокусируется на повышении достоверности ответов в формате лонгрида, используя итеративный процесс обучения с контролируемой тонкой настройкой (SFT) и прямой оптимизацией предпочтений (DPO).
На первом этапе - SFT, LLM обучается на небольшом наборе данных, содержащем вопросы пациентов и ответы экспертов. Далее модель генерирует несколько вариантов ответа, которые оцениваются с помощью различных метрик (Rouge, BLEURT, BERTScore, HALLUCINATION и COMPREHENSIVENESS)
На основе оценок создаются наборы предпочтительных и нежелательных ответов. DPO настраивает LLM на генерацию предпочтительных ответов. Итеративное обучение повторяет этот процесс, пока модель не достигнет желаемого уровня достоверности.
OLAPH оценивался на наборе MedLFQA, собранный из бенчмарков LiveQA, MedicationQA, HealthSearchQA и K-QA. MedLFQA. Он содержит вопросы пациентов, ответы экспертов, а также утверждения, необходимые для автоматической оценки достоверности.
Результаты тестирования показали, что OLAPH значительно повышает достоверность ответов LLM, особенно по метрике FACTSCORE, не используемой во время обучения. 7B модели, обученные с OLAPH, демонстрируют уровень достоверности, сравнимый с ответами медицинских экспертов.
? LLMD: LLM для интерпретации медицинских карт пациентов.
LLMD – модель, разработанная для анализа истории болезни пациента на основе его медицинских карт. LLMD обучается на большом корпусе данных, из миллионов медицинских карт, собранных за многолетний период из различных медучреждений и на задачах и метках, которые устанавливают связи между этими записями.
LLMD обучается в 2 этапа: предварительного обучения и тонкой настройки с помощью инструкций. На этапе предварительного обучения базовая модель обучается на медицинских знаниях и записях за 10 лет лечения из 140 медицинских учреждений на каждого пациента.
Затем LLMD проходит SFT с использованием инструкций для получения навыков структурирования и абстрагирования.
Задачи структурирования включают идентификацию и нормализацию метаданных документа, информации о происхождении, клинических именованных сущностей и сопоставлений с онтологиями.
Задачи абстрагирования объединяют эти данные в высокоуровневые представления, например, непрерывный период времени, в течение которого пациент принимал лекарство.
В LLMD используется многоуровневую систему валидации, включающую непрерывные случайные проверки и настраиваемую проверку экспертами.
LLMD-8B достигает современной точности в ответах на текстовые вопросы PubMedQA, превосходя модели, размером на порядки больше.
? LifeGPT: агностическая генеративная модель для клеточных автоматов.
LifeGPT - трансформерная модель, обученная на примерах переходов состояний в математической игре "Life" Джона Конвея. LifeGPT – это первая модель, способная предсказывать переходы состояний в двумерной системе клеточных автоматов (Cellular Automata).
Модель обучалась на наборах данных, представляющих пары двумерных сеток, кодирующих начальные условия (IC) и следующие состояния игры (NGS). Для обучения использовалась кросс-энтропийная функция потерь и техника forgetful causal masking (FCM), которая улучшает способность модели к zero/few-shot learning .
Тестирование модели проводилось на наборе данных, содержащем как стохастически сгенерированные, так и предопределенные IC, соответствующие известным паттернам "Жизни".
LifeGPT продемонстрировала высокую точность (более 99.9%) в предсказании NGS, даже при использовании IC, не встречавшихся в обучающих данных.
Для рекурсивного моделирования динамики "Life" была разработана концепция "авторегрессивного авторегрессора" (ARAR). ARAR подает выходные данные LifeGPT (NGS) обратно на вход модели, позволяя ей имитировать эволюцию игры на протяжении нескольких временных шагов.
LifeGPT показала многообещающий потенциал в моделировании сложных систем с эмерджентными свойствами.
? MedCare: Раздельное согласование в обучении медицинских LLM.
MEDCARE - модель, которая направлена на решение проблемы снижения производительности LLM при адаптации к специализированным медицинским задачам.
Перед обучением модели медицинские задачи были разделены на 2 типа: требующие глубокого понимания медицинской информации (ответы на вопросы и ведение диалога) и ориентированные на соблюдение специфичных форматов вывода (медицинская терминология и распознавание сущностей)
MEDCARE обучалась в 2 этапа:
Агрегация разнородных знаний (MKA): на этом этапе модель обучается на наборе данных, включающем оба типа задач с использованием модуля MoLoRA, который разделяется на два агрегатора: KNOWLEDGE AGGREGATOR (KA) для общих знаний и NOISE AGGREGATOR (NA) для специфических требований выравнивания. После обучения NA удаляется, чтобы избежать искажения знаний.
Выравнивание по конкретной задаче (DA): на этом этапе модель дообучается на данных, специфичных для задачи выравнивания, с использованием дополнительного модуля Align.
Для предотвращения потери знаний, полученных на первом этапе, используется метод ортогональной регуляризации, который гарантирует, что обучение выравниванию происходит в направлении, ортогональном пространству знаний.
Оценка MEDCARE проводилась на 20 медицинских задачах, включая тесты на знание медицины и задачи, требующие выравнивания.
Результаты показали, что MEDCARE превосходит существующие модели аналогичного размера по всем показателям. Модель продемонстрировала высокую точность в ответах на вопросы, а также способность генерировать текст в соответствии с заданными требованиями.
? Y-Mol: LLM для разработки лекарственных средств.
Y-Mol - инструктивная модель, основанная на LLaMA2, предназначенная для решения задач разработки лекарственных средств.
Y-Mol использует масштабные биомедицинские знания, чтобы улучшить возможности LLM в открытии соединений-лидеров, доклинических и клинических прогнозах.
Y-Mol использует три типа инструкций: описательные аннотации из обработанных публикаций, семантические промпты для извлечения ассоциаций из графов знаний и шаблонные подсказки для понимания знаний экспертов из биомедицинских источников.
Оценка Y-Mol проводилась на прикладных задачах: виртуальный скрининг, дизайн лекарств, прогнозирование свойств и прогнозирование лекарственного взаимодействия.
Результаты показали, что Y-Mol значительно превосходит LLaMA2 в открытии соединений-лидеров, прогнозировании молекулярных свойств и выявлении лекарственных взаимодействий.
? WorldMedQA-V: многоязычный мультимодальный корпус данных для оценки медицинских моделей.
WorldMedQA-V - актуальный мультимодальный набор данных на разных языках для оценки моделей разной модальности в задачах здравоохранения.
WorldMedQA-V состоит из 568 вопросов с несколькими вариантами ответов в сочетании с 568 медицинскими изображениями из четырех стран (Бразилии, Израиля, Японии и Испании). Набор данных включает как оригинальные языки, так и проверенные переводы на английский язык, выполненные врачами-носителями языка.
В исследовании использовались модели с открытым и закрытым исходным кодом различных размеров: GPT4o-2024-05-13, GPT4o-MINI-2024-07-18, GeminiFlash1-5 May, GeminiPro1-5 May, llava-next-llama3(8B), llava-next-yi-34b, llava-next-mistral-7b, llava-next-vicuna-7b, Yi-VL-34B и Yi-VL-6B.
Все модели были настроены на генерацию 512 токенов с температурой "0" в среде оценки VLMEvalKit. Для оценки надежности каждой модели были рассчитаны коэффициенты каппа Коэна (ответ на вопрос на исходном языке по сравнению с английским переводом).
Фреймворки и методологии
? MedINST: набор медицинских инструкций для обучения LLM.
MEDINST (Meta Dataset of Biomedical Instructions) - новый многозадачный мета-набор данных медицинских инструкций из множества направлений.
MEDINST включает 133 задачи NLP в медицине, 12 категорий и более 7 млн. обучающих выборок, что делает его самым обширным датасетом медицинских инструкций на сегодняшний день.
Все задачи представлены в формате генерации текста с инструкциями, аннотированными вручную для каждого набора данных/задачи.
В рамках проекта также разработан MEDINST32 - бенчмарк на отобранных из MEDINST данных, предназначенный для оценки способности LLM к обобщению. MEDINST32 предлагает 32 задачи различной сложности по разным уровням знаний и сложности инструкций.
Для оценки эффективности MEDINST была проведена серия экспериментов с использованием LLaMA-3 и MMed-LLaMA-3. Модели были обучены на MEDINST и протестированы на MEDINST32.
Результаты показывают, что LLM, обученные на MEDINST, демонстрируют улучшенное обобщение на новых задачах по сравнению с базовыми моделями.
?Arxiv ?Github ?Dataset ?Benchmark ?Model
? MCQG-SRefine: автоматическая генерация медицинских вопросов.
MCQG-SRefine - система, предназначенная для автоматической генерации высококачественных вопросов множественного выбора в стиле экзамена USMLE (United States Medical Licensing Examination).
MCQG-SRefine использует LLM и итеративный процесс самосовершенствования, основанный на критике и корректировке. В качестве исходных данных используются медицинские случаи из реальной практики. Для точной настройки LLM и обеспечения соответствия стандартам USMLE используются промпты, разработанные экспертами.
Процесс генерации вопроса: идентификация темы и ключевых концепций, создание контекста, формулировка вопроса, генерация правильного ответа и вариантов-дистракторов.
LLM оценивает каждый сгенерированный компонент, предоставляя критический отзыв и оценку. На основе этого отзыва система вносит коррективы, улучшая качество и сложность вопроса.
MCQG-SRefine сравнили с вопросами, сгенерированными GPT-4. Результаты сравнения: MCQG-SRefine превосходит GPT-4 по качеству генерируемых вопросов, она создает более сложные и соответствующие стандартам USMLE задания.
? AgentClinic: повышение диагностической точности LLM в симулированной медицинской среде.
AgentClinic - система, которая дает возможность агенту-врачу, основанному на LLM, итеративно совершенствовать свои рассуждения и действия после постановки неверного диагноза.
Система моделирует динамический процесс диагностики, который состоит из взаимодействия с пациентом, интерпретации медицинских тестов и принятия решений в условиях неопределенности.
Она состоит из четырех агентов: агента-врача, агента-пациента, агента измерений и агента-модератора. Агент-врач, управляемый LLM, собирает информацию и ставит диагноз, взаимодействуя с агентом-пациентом и запрашивая результаты тестов у агента измерений.
В случае неверного диагноза, предлагаемая система предоставляет агенту-врачу возможность автоматической коррекции, позволяя ему анализировать предыдущие действия и корректировать свою стратегию.
Эффективность оценивали на наборе данных MedQA с использованием GPT-4 и GPT-3.5 в качестве агентов. Эксперименты показали, что система автоматической коррекции значительно улучшает способность агентов-врачей, основанных на LLM, ставить верные диагнозы даже в сложных клинических сценариях.
? MeNTi: использование инструментов в LLM для решения медицинских задач.
MeNTi - это архитектура агента для LLM, разработанная специально для решения задач, связанных с медицинскими расчетами.
MeNTi объединяет специализированный набор медицинских инструментов и использует механизмы мета-инструментов и вложенных вызовов для улучшения использования инструментов LLM.
Архитектура MeNTi состоит из 3 компонентов:
Meta-инструмент: отвечает за выбор подходящего инструмента из набора медицинских калькуляторов.
Вложенные вызовы: позволяет LLM использовать дополнительные инструменты, когда текущих инструментов и информации недостаточно для решения задачи.
Набор инструментов: MeNTi использует специализированный расчетный набор, содержащий 44 медицинских калькулятора и 237 инструментов для преобразования единиц измерения.
Для оценки MeNTi был создан бенчмарк CalcQA, состоящий из 100 пар «случай-расчет», основанных на реальных клинических случаях.
MeNTi значительно превосходит базовые модели LLM и существующие платформы для работы с инструментами по показателям точности выбора калькулятора, заполнения слотов, преобразования единиц измерения и расчета.
Медицинские LLM-приложения
? AGENTiGraph: Интерактивная чатбот-платформа под управлением LLM.
AGENTiGraph (Adaptive Generative ENgine for Task-based Interaction and Graphical Representation) - платформа, которая объединяет LLM с графами знаний для решения задач в специфических областях. Платформа решает проблему галлюцинаций и ограниченных возможностей рассуждения путем интеграции структурированной информации из графов.
AGENTiGraph использует многоагентную архитектуру, где каждый агент специализируется на определенной задаче: интерпретации пользовательских запросов, извлечении ключевых понятий, планировании задач, взаимодействии с графом знаний и генерации ответов.
Агенты обучаются методами Few-Shot Learning и Chain-of-Thought. Few-Shot Learning позволяет агентам эффективно обучаться на небольших объемах данных, а CoT способствует более глубокому пониманию контекста и построению логических связей.
С AGENTiGraph был проведен ряд экспериментов. Тестирование проводилось на наборе данных из 3500 тестовых случаев, охватывающих 6 типов задач и свободные запросы. AGENTiGraph показал точность 95,12% в классификации задач и 90,45% в успешном выполнении задач, превзойдя базовые модели без предварительного обучения.
? MMed-RAG: Мультимодальная медицинская RAG-система.
MMed-RAG - система повышения фактической точности, разработанная для борьбы с галлюцинациями, возникающими в больших медицинских визуально-языковых моделях (MedVLM).
MMed-RAG использует три модуля:
Механизм поиска с учетом предметной области, он обрабатывает медицинские изображения из разных источников (например, рентгеновские снимки, патологические срезы, снимки глазного дна).
Адаптивный метод выбора количества извлекаемых контекстов для фильтрации некачественной информации.
Точная настройка на основе предпочтений (RAG-PT) для улучшения межмодального и общего согласования модели.
Для оценки MMed-RAG были проведены эксперименты на 5 медицинских датасетах, содержащих три типа медицинских изображений (рентгенография, патология и офтальмология).
MMed-RAG показала увеличение фактической точности MedVLM, достигнув улучшений в 18,5% и 69,1% в задачах QA и генерации медицинских отчетов соответственно.
? Medical Graph RAG: Безопасная медицинская LLM c поиском по графу знаний.
MedGraphRAG – это метод использования LLM в медицине, основанный на RAG, дополненной поиском по графу знаний. MedGraphRAG призван повысить безопасность и надежность LLM при работе с конфиденциальными медицинскими данными, генерируя ответы, основанные на проверенных источниках.
В основе MedGraphRAG лежит концепция построения «тройного графа», который связывает пользовательские документы с надежными медицинскими источниками и контролируемыми медицинскими словарями.
Этот граф состоит из трех уровней: данные пользователя, медицинские публикации и словарь UMLS. Процесс построения графа включает семантическую сегментацию документов, извлечение сущностей, их связывание с источниками и определениями, а также установление отношений между сущностями.
Поиска информации в графе реализован с помощью метода U-Retrieval, сочетающий точный поиск сверху вниз с уточнением ответа снизу вверх.
Сначала LLM генерирует теги для пользовательского запроса и находит наиболее релевантный граф, используя иерархическую структуру тегов. Затем LLM формулирует первоначальный ответ, используя найденный граф, и уточняет его, постепенно интегрируя теги более высокого уровня.
Тестирование MedGraphRAG на 9 медицинских бенчмарках, 2 бенчмарках проверки фактов о здоровье и 1 наборе данных для генерации длинных текстов показало, что он превосходит современные модели по всем показателям. Ответы MedGraphRAG содержат ссылки на достоверные источники и определения, что подтверждено количественными тестами и оценкой экспертов-врачей.
? MedAide: Многоагентная система для комплексных медицинских задач.
MEDAIDE – платформа для решения сложных медицинских задач, основанная на LLM и мульти-агентной архитектуре, где каждый агент специализируется на определенном аспекте здравоохранения.
MEDAIDE работает в три этапа:
Переформулировка запроса: На этом этапе система анализирует исходный запрос пользователя и, при необходимости, дополняет его информацией из базы медицинских руководств, используя RAG.
Распознавание намерений: С помощью специально обученного контекстного энкодера (BioBERT) система определяет, какие именно медицинские намерения скрываются за запросом пользователя.
Мульти-агентное взаимодействие: В зависимости от распознанных намерений система активирует соответствующих агентов (пре-диагностика, диагностика, медикаментозное лечение и пост-диагностика).
Финальный ответ формируется модулем анализа решений, который объединяет результаты работы агентов и учитывает медицинскую историю пациента.
Экспериментальная оценка MEDAIDE проводилась на 4 наборах данных с 17 типами медицинских намерений.
Результаты: MEDAIDE превосходит существующие LLM по метрикам, BLEU, ROUGE и GLEU. Оценка экспертов-врачей подтвердила высокую точность и практическую ценность рекомендаций, генерируемых системой.
? Генерация синтетических клинических испытаний на LLMs.
Система, которая использует LLM для создания синтетических клинических испытаний, чтобы решить проблему нехватки данных и этических ограничений, связанных с использованием реальных данных о пациентах.
Система состоит из 3 модулей: поиска, рассуждения и генерации. Модуль поиска извлекает данные о лекарствах из базы DrugBank. Модуль рассуждения анализирует реальные испытания и выявляет причины их успеха или неудачи. Модуль генерации создает синтетические отчеты, опираясь на информацию из предыдущих модулей.
Для генерации оценочных данных использовалась дообученная модель BioBERT.
Визуализация данных с помощью t-SNE и анализа косинусного сходства подтверждает, что синтетические данные формируют отдельный кластер, расширяя разнообразие данных и обладая большей внутренней вариативностью.
Исследования и обзоры
? UniStruct: новая архитектура для представления структурированных медицинских данных.
UniStruct - метод, основная идея которого заключается в адаптации техник субсловной токенизации, например, Byte Pair Encoding (BPE), для представления групп медицинских кодов, которые статистически часто встречаются вместе, как единые токены.
UniStruct предлагает использовать двухмодальную архитектуру Transformer, объединяющую структурированные медицинские данные с неструктурированным клиническим текстом. Для текстовой модальности используются стандартные модели на основе BERT. Модуль структурированных данных использует кастомный токенизатор и предварительно обучается на данных истории болезни пациента с использованием задачи причинного языкового моделирования.
UniStruct был экспериментально протестирован на двух наборах данных: закрытом и публичном. Закрытый набор данных, полученный из больницы Cheng Hsin General Hospital, содержит более 10 миллионов записей о 765 000 пациентов. Публичный набор данных EHRSHOT содержит записи 6 739 пациентов.
Результаты показали, что UniStruct значительно превосходит существующие методы по показателям recall. На закрытом датасете улучшение составило до 23%, а на EHRSHOT – до 42% по сравнению с базовыми моделями.
? Адаптация медицинских LLM для 50 языков: подход с использованием MoE по языковым семьям.
В исследовании рассматривается проблема адаптации медицинских LLM к локальным языкам, чтобы улучшить доступ к медицинским услугам. Однако, основным препятствием является нехватка медицинских данных на многих языках.
Для решения этой проблемы авторы исследуют внутренний информационный поток в многоязычных LLM с помощью Mixture of Experts (MoE). MoE позволяет модели использовать различных «экспертов» для обработки разных типов ввода.
В работе предлагается новый метод маршрутизации MoE, который использует специализированных языковых экспертов и кросс-лингвистическую маршрутизацию.
Анализ маршрутизации, вдохновленный теорией цепей, выявил механизм «расширения в конце». В ранних слоях модели происходит интеграция кросс-лингвистической информации, а в более поздних слоях наблюдается языковая дивергенция. Это открытие привело к разработке архитектуры Post-MoE, в которой структура MoE применяется только в последних слоях.
Для масштабирования модели до 50 языков авторы предлагают концепцию экспертов по языковым семьям. Языки группируются в языковые семьи на основе лингвистических принципов. Это позволяет сократить количество экспертов и уменьшить количество параметров модели.
Эксперименты с моделями разного размера (0.5B, 1.5B и 7B) подтвердили масштабируемость метода и его эффективность для адаптации медицинских LLM к большому количеству языков.
? Можно ли добиться успеха в обучении медицинской VLM на чисто синтетических данных?
В статье изучается возможность использования исключительно синтетических данных для обучения моделей MedVLM.
Для тестирования был создан SynCXR - синтетический набор данных, состоящий из 200 000 сгенерированных пар "изображение-текст" с равномерным распределением. Для генерации текста использовалась Llama3.1-70B-Instruct, а для генерации рентгеновских снимков грудной клетки - модель RoentGen.
Обучение MedVLM моделей (ConVIRT и GLoRIA) проводилось на SynCXR, реальных данных (MIMIC-CXR), а также на их комбинации.
Полученные модели оценивались в 7 задачах классификации, локализации и сегментации изображений в режиме zero-shot.
Модели, обученные на SynCXR, превосходят модели, обученные на реальных данных, на 3,8% по средней AUC в zero-shot классификации.
Комбинирование синтетических и реальных данных приводит к дальнейшему улучшению на 9,07%. Это подтверждает эффективность предложенного метода генерации синтетических данных.
Исследование демонстрирует, что MedVLM модели могут успешно обучаться на полностью синтетических данных.
Machine learning дайджест для вас подготовила редакция канала Machine learning interview, заходите у нас много полезного из мира МО.