Всем привет! Сегодня я хочу рассказать про мета-модели в медицине. Обязательно читайте до конца, вас ждёт сюрприз!
Под мета-моделями в машинном обучении обычно понимают модели, которые в качестве входных данных используют предсказания других алгоритмов. Мета-модель обучается комбинировать эти предсказания оптимальным образом в зависимости от задачи и характеристик конкретной единицы данных. Вообще существуют как простые примеры объединения предсказаний (голосование моделей), так и более хитрые – например, стекинг, в котором мета-модель может быть алгоритмом любой сложности – от логистической регрессии до глубокой нейронной сети.
![](https://habrastorage.org/getpro/habr/upload_files/e92/b5b/1b3/e92b5b1b32352b3d2d71923ed23988b7.png)
На тему ансамблирования моделей уже написано немало статей и постов, поэтому здесь я хочу рассказать о паре интересных случаев использования мета-моделей для медицинских данных.
Обычно мета-модели используют, когда хотят объединить предсказания разных алгоритмов – например, логистической регрессии, Random Forest, KNN, нейронок разных архитектур. Разные модели могут обращать внимание на разные закономерности в данных и в совокупности давать более точный результат, чем каждая модель по отдельности. Такой подход часто используется и в медицине, однако есть и более интересный кейс.
Датасеты по одной и той же медицинской проблеме часто размечены с помощью разных шкал. К примеру, для описания маммографических данных в медицине обычно используется шкала Bi-RADS. Врач-рентгенолог присваивает исследованию оценку от 1 до 5, которая отражает уверенность врача в наличии злокачественного образования на изображении. В то же время, во многих случаях у нас есть доступ только к бинарной информации о наличии рака – есть или нет. Если мы хотим использовать все эти датасеты для обучения, одно из возможных решений – использование мета-модели. Сначала мы обучаем отдельные модели на каждом датасете со своей шкалой или методологией разметки, а затем уже используем их предсказания как фичи в мета-модели.
Ещё один распространённый кейс – наличие небольшого количества «сильной» разметки и большого количества «слабой». Под слабой разметкой понимают наличие аннотации только на уровне пациента или исследования – например, здоров он или болен. А под сильной – более детальную разметку, например, на бибоксы или маски объектов на изображении.
![](https://habrastorage.org/getpro/habr/upload_files/763/2ea/f83/7632eaf839a6d864e154df48af4df592.png)
Обучать классификационные нейронки напрямую на слабой разметке достаточно сложно. Нейронная сеть должна вычленить, где именно на изображении или целом 3D-вольюме (пачке изображений) находятся объекты интереса и определить их тип, при этом напрямую мы ей эту информацию при обучении не предоставляем. Такой тип проблем в машинном обучении называется Multiple Instance Learning.
Мета-модели предлагают альтернативный способ использования слабой разметки. Сначала мы обучаем одну или несколько локализационных моделей (детекторов или сегментаторов) на сильной разметке с аннотированными объектами, а затем генерим предсказания этих моделей на слабых данных. Эти предсказания могут быть использованы для генерации различных фичей, которые используются для обучения мета-модели.
А теперь обещанный сюрприз! Мы, совместно с ODS, подготовили для вас соревнование, в котором вы сможете обучить медицинскую мета-модель как раз по последнему сценарию. Мы взяли несколько наших детекторов различного качества и сгенерили их предсказания для большого количества маммографических изображений, по которым есть только разметка по шкале Bi-RADS.
![](https://habrastorage.org/getpro/habr/upload_files/0fe/657/a3a/0fe657a3a0115ef683a33a92fc9b2eff.png)
Это соревнование позволит прокачать ваши навыки сразу в двух областях: feature engineering и обучении классических ML-моделей. Тем, кто хочет добиться наилучших результатов, предстоит погрузиться в доменнную область, изучить специфику маммографических исследований и сгенерить крутые фичи, которые позволят построить модели наивысшего качества.
Соревнование продлится до конца лета, после этого мы подведём итоги и наградим победителей крутыми гаджетами и комплектующими для ваших DL-станций. Присоединяйтесь!