Неинвазивная прогнозируемая AI-коронарография
Резюме
Предложен новый подход в выявлении коронарной болезни сердца. С помощью нейросетевого анализа создана модель диагностики ишемической болезни сердца, выявляющая ишемию миокарда, патологию магистральных коронарных артерий. В задачу исследования входило сравнить точность обученной модели нейронной сети на входных структурированных данных (пол и возраст, уровень холестерина, наличие хронических заболеваний, наследственные факторы, образ жизни и пр.) и ЭКГ-изображений с результатами классической инвазивной коронарографии. Доказана высокая чувствительность и достоверность предложенной диагностической модели на 1500150 наблюдений. Проведено сравнение модели с классическими методами диагностики преходящей ишемии миокарда – тредмил-тест, суточное мониторирование ЭКГ. Выявлено значимое превосходство представленной диагностической модели. Оценена точность прогнозов с профильными специалистами-кардиологами, ежедневно курирующих пациентов с ОКС. В данной статье также предложен новый метод экстраполяции выборки с помощью генеративно-состязательных нейронных сетей, позволяющим превзойти объём наблюдений, использующихся в классических мета-анализах.
Создано мобильное приложение для определения патологии артерий сердца.
Список сокращений
АВ — атриовентрикулярная, АКШ — аортокоронарное шунтирование, ЕОК — европейское общество кардиологов, ИИ — искусственный интеллект, КТ – компьютерная томография, МРТ – магнитно-резонансная томография, ОКС — острый коронарный синдром, ОНМК — острая недостаточность мозгового кровообращения, ХКС — хронический коронарный синдром, ЭКГ — электрокардиограмма, AI - artificial intelligence, AUC - area under receiver operating characteristic curve, DS – data science, CNN - convolutional neural networks,
Введение
Ишемическая болезнь сердца и другие патологии сердечно-сосудистой системы остаются главными причинами смертности людей во всем мире. По статистике, от сердечно-сосудистых заболеваний в России ежегодно умирает 621 человек на каждые 100 тысячнаселения. К сожалению, в регионах этот показатель значительно выше, чем в центральной части нашей страны
«Золотым стандартом» диагностики этих заболеваний является коронарография — рентгенконтрастный метод исследования, позволяющий достоверно оценить состояние коронарных артерий, которые доставляют к сердцу насыщенную кислородом кровь, обеспечивая его бесперебойную работу. Однако классическая коронарография — это инвазивная методика, которая имеет ряд противопоказаний и, как любая хирургическая процедура, несет определенные риски. Существуют и другие, неинвазивные виды диагностики (например, КТ-ангиография, МРТ сердца, суточное мониторирование ЭКГ и др.), но все они требуют наличия дорогостоящего оборудования и длительного нахождения пациента в клинике. Кроме того, данные состояния нередко развиваются бессимптомно, поэтому пациенты обращаются к врачу уже с такими острыми, жизнеугрожающими формами, как нестабильная стенокардия и инфаркт миокарда. Есть ряд других сложностей, связанных с выявлением патологий сосудов сердца: массовая самодиагностика пациентов с помощью информации из интернет-источников, сложность клинической диагностики и верификации диагноза врачом.
С целью уточнения возможности эффективности применения искусственного интеллекта в оценке патологии коронарного русла и для решения вышеописанных проблем нами проведено данное исследование.
Перспектива ИИ и машинного обучения в кардиологии состоит в том, чтобы предоставить набор инструментов для повышения эффективности работы кардиолога. Внедрение в клиническую практику таких технологий, как полигеномное секвенирование и потоковая передача биометрических данных с мобильных устройств, вскоре потребует от кардиологов интерпретации и практического применения информации из многих разрозненных областей биомедицины (1–4).
В то же время растущая нагрузка в медицине требует от врачей и систем здравоохранения более высокой операционной эффективности (5). Наконец, пациенты начинают требовать более быстрого и индивидуального подхода (6,7). Количество данных, с которыми приходится работать специалисту увеличивается, требуется более сложная интерпретация, ожидается повышение эффективности врачей (8, 9). Решением является машинное обучение, которое может улучшить каждый этап курации пациентов - от исследований и открытий до диагностики и выбора терапии.
Рисунок 1. Место data science в доказательной медицине
Материалы и методы
Для обучения нейронной сети была собрана база данных с ЭКГ изображениями, для этого в исследовании приняли участие 100 пациентов, которым осуществлялась коронарография в плановом и экстренном порядках. На основании данных 100 пациентов обучена нейронная сеть. Использовался алгоритм обучения с учителем, в которых были известны исходы (данные коронарограмм), а параметры нейронной сети подстраивались так, чтобы минимизировать ошибку.
Показания к коронарографии верифицированы согласно рекомендациям ЕОК. Исследование выполнено в соответствии со стандартами надлежащей клинической практики (Good Clinical Practice) и принципами Хельсинской Декларации. Определены нижеследующие критерии включения и исключения. Основные критерии включения:
Подписание до проведения исследования информированного согласия, в том числе на проведение статистической обработки данных истории болезни,
Возраст более 18 лет,
Наличие показаний (плановых или экстренных) к выполнению коронарографии,
Наличие документированной электрокардиографической записи (скорость 25 мм), выполненной за сутки и/или менее до коронарографии,
Ключевые критерия исключения:
нарушения ритма на ЭКГ в виде фибрилляции предсердий, АВ-узловой тахикардии, желудочковой тахикардии в момент записи,
ранее проведенное стентирование и/или шунтирование коронарных артерий,
наличие выраженных помех и артефактов на снятой ЭКГ,
регистрация электрокардиограммы более, за пределами 24 часов перед коронарографией,
любое хирургическое или медицинское состояние, которое по мнению исследователя, могло бы значительно помешать работе алгоритма машинного обучения применительно к точности результатов,
Врач, проводящий исследование, анализировал данные медицинской карты (жалобы, анамнез, объективные, лабораторные и инструментальные данные) и вносил эти результаты в базу данных машинного обучения в бинарном формате.
На первом этапе сбора данных по каждому наблюдению проведено внесение структурированных параметров в табличную форму, а также введение изображения ЭКГ-записи в формате jpeg в базу данных. Для обучения нейронных сетей использовались многочисленные морфометрические, объективные, лабораторные и инструментальные данные пациентов. Такими данными являлись: возраст, пол, диагноз ОКС или ХКС, патология сегмента ST на ЭКГ, наличие или отсутствие сопутствующей патологии (сахарного диабета, гипертонической болезни, ожирения, анемии, перенесенного ОНМК, атеросклероза, аритмии, дислипидемии), отягощенная наследственность, наличие вредных привычек (курение, злоупотребление алкоголем), присутствие стрессовых факторов, низкая физическая активность, менопауза, повышенное питание. Вышеописанные факторы фиксировались в структурированном бинарном виде (0, 1) в табличном формате. Регистрация ЭКГ поводилась с использованием одного вида аппарата и запись передавалась оператору машинного обучения в электронном виде в формате jpeg. Таким образом, для выработки алгоритма обучения нейронной сети были использованы суммарно 22 параметра (ключевые признаки).
Нейронная есть обучалась на данных, полученных при анализе коронарограмм. В качестве «таргетных» значений взяты:
наличие атеросклероза коронарных артерий,
стеноз ствола левой коронарной артерии,
субокклюзия ствола левой коронарной артерии,
окклюзия передней межжелудочковой артерии,
субокклюзия передней межжелудочковой артерии,
стеноз передней межжелудочковой артерии,
окклюзия огибающей артерии,
субокклюзия огибающей артерии,
стеноз огибающей артерии,
окклюзия правой коронарной артерии,
субокклюзия правой коронарной артерии,
стеноз правой коронарной артерии,
выполненное стентирование или рекомендованное АКШ по результатам коронарографии.
Значение стеноза коронарной артерии было внесено в таблицу в цифровом виде в процентах, далее переведены в бинарный вид (1 – стеноз более 50%), остальные показатели заполнялись в бинарном виде по наличию или отсутствию поражения. Вышеописанные «таргетные» значения прогнозировал обученный алгоритм машинного обучения на трех выборках.
Алгоритму было необходимо решить задачу классифицирования поражений коронарных артерий, спрогнозировать отсутствие или наличия стенозов и их выраженности. Для решения задачи классифицирования поражений коронарных артерий по системе «0;1» использована нейронная сеть, принимающая на вход структурированные данные и изображение, на выходе получена мультифакторная классификация коронарных артерий.
В качестве программного обеспечения для построения архитектуры нейронной сети использованы наборы библиотек для языка программирования Python (pandas — для работы с табличными данными; tensorflow — для конструирования нейронных сетей и их обучения).
На вход нейронной сети одновременно поступали изображения ЭКГ размером (200, 200, 1) и структурированные табличные данные. На выходе нейронная сеть прогнозировала мультиуровневые значения пораженных коронарных значений в вероятностном виде.
В качестве слоев нейронной сети для обработки изображений были взяты полносвязные, сверточные, батч-нормализирующие (слой пакетной нормализации), «dropout» (слой исключения). Для обработки структурированных данных взяты только полносвязные слои. Внутри нейронной сети использовался связывающий «concatenate layer» (объединяющий слой) для обобщения весов изображения и датасета. После обобщающего слоя два полносвязных слоя. Выходной слой состоит из 13 нейронов для предсказаний по каждому параметру.
Рисунок 2. Структура нейронной сети.
В качестве оптимизатора взят «Adam» (алгоритм оптимизации адаптивной скорости обучения путем вычисления экспоненциального скользящего среднего градиента и квадратичного градиента), лосс-функция - бинарная кроссэнтропия. Обучение производилось на 100 «эпохах» (одна эпоха - один прямой проход и один обратный проход всех обучающих примеров). (рис.) Размер «батча» (количества обучающих примеров за одну итерацию) - 8, размер валидационной выборки 0.1. Подбор параметров и структуры нейронной сети произведен опытным путем. В качестве отправной метрики для оценки качества модели выбрана AUC (площадь под ROC-кривой).
Оценка точности произведена на специально подобранных тестовых выборках, сравнение проводилось по данным коронарограмм, полученными во время выполнения инвазивной коронарографии.
Рисунок 3. Блок-схема исследования.
Выборка 1.
20 стационарных пациентов с крайне сложной и нетипичной клинической картиной, особенностями анатомии коронарного русла. Пример 1: пожилой пациент с типичной клинической картиной ангинозных болей, факторами риска – по данным коронарографии без патологии.
Пример 2: пожилая пациентка без ангинозных болей, верифицированным атеросклерозом ранее – по данным коронарографии многососудистое поражение коронарного русла с вовлечением ствола.
На данных 20 пациентов составлены 20 задач. Врачам-кардиологам ежедневно курирующих пациентов с ОКС предлагалось спрогнозировать наличие ишемии миокарда, поражение магистральных артерий. Проведено сравнение точности с обученной нейронной сетью.
Выборка 2.
30 амбулаторных пациентов с типичной клинической картиной или отсутствием симптоматики ИБС. Сравнение точности обученной нейронной сети проводилось с результатами КТ-ангиографии. Перед выполнением КТ-коронарографии пациентам выполнялся тредмил-тест и суточное мониторирование ЭКГ.
Проведено сравнение точности выявления преходящей ишемии миокарда с классическими методами.
Выборка 3.
На создание данной выборки авторов вдохновила статья коллег (10). В данной публикации проводилось выявление признаков новой коронавирусной инфекции на рентгенограммах при помощи нейросетевого анализа. Авторы, при помощи GAN, сгенерировали рентген-изображения с поражениями характерными при новой коронавирусной инфекции и на данных изображениях вместе с реальными рентгеновскими снимками обучили нейронную сеть и достигли неплохих результатов. Нам было интересно проверить насколько обученная нейронная сеть точна на экстремально большой выборке, сгенерированной GAN.
На вход генератора подавались 100 рандомных чисел с нормальным распределением. На выходе сгенерировано изображение (200, 200) и структурированные табличные данные размером (1, 35). (одна строка, 35 столбцов). Внутри генератора был обобщающий слой, для сохранения потоковой передачи данных между строкой таблицы и изображением.
На вход дискриминатора подавались сгенерированное изображение размером (200, 200) вместе с реальными ЭКГ-изображениями (200, 200) и сгенерированные табличные данные размером (1, 35) вместе с реальными табличными данными. На выход дискриминатор выдавал бинарную классификацию, соответствующую реальным данным и синтетическим.
Таким образом двум нейронным сетям было необходимо превзойти друг друга. Одна нейронная сеть старалась сгенерировать изображение и таблицу которые не отличит от реальных дискриминатор, старался искать признаки характерные для реального изображения и таблицы, чтобы отличить сгенерированные изображения и таблицу от реальных.
Рисунок 4. Структура генеративно-состязательной нейронной сети.
Было получено 1500000 ЭКГ-изображений и структурированных данных (таблица размерами 1500000 * 35).
После генерации авторам было необходимо решить проблему. Насколько сгенерированные данные похожи на реальные и сохранена ли потоковая зависимость признаков.
Для ЭКГ-изображений использовался обычный визульный анализ. ЭКГ-изображения внешне практически неотличимы от реальных.
Рисунок 5. Реальные и сгенерированные ЭКГ изображения.
Пример генерации ЭКГ-изображения нейронной сетью.
Более сложной проблемой являются табличные данные, насколько они приближены к реальным?
Проведен анализ распределения пациентов по возрасту. Распределение реальных данных нормальное, синтетические данные распределены с тремя пиками, в сторону медианы, минимальных и максимальных значений.
Рисунок 6. Скрипичная диаграмма распределения по возрасту реальных и сгенерированных данных.
Выполнен количественных анализ сгенерированных признаков. Распределение приближено к реальному, однако выявленные отличия в количественном отношении признаков.
Рисунок 7. Количественное распределение реальных и сгенерированных данных.
Создана тепловая карта сравнения базовых описательных статистик (медианы, среднего 25 квантиля, 75 квантиля, минимального и максимального значений). Получены значимые отличия в половине признаках.
Рисунок 8. Тепловая карта разницы базовых описательных статистик.
Создана тепловая карта разницы корреляционных матриц реального и синтетического датасетов. Основные корреляционные составляющие сохранены.
Рисунок 9. Тепловая карта разницы корреляционных матриц датасетов.
Проведено вычисление и визуализация главных компонент (PCA) реального и сгенерированного датасетов.
Рисунок 10. Главные компоненты реального и сгенерированного датасетов.
Визуализировано cтохастическое вложение соседей с t-распределением (англ. t-distributed Stochastic Neighbor Embedding, t-SNE).
Рисунок 11. TSNE реального и сгенерированного датасетов.
Сравнив синтетические данные с реальными можно сделать вывод о приближенности сгенерированных данных к реальным. Основные базовые потоковые зависимости признаков сохранены, однако сгенерированный датасет не полностью копирует зависимости реального, таким образом можно сделать вывод о наличии новых отличных «рандомных» наблюдений.
Результаты.
Тестовая выборка 1
Проведено прогнозирование поражения магистральных коронарных артерий и преходящей ишемии миокарда.
На тестовой выборке, состоящей из 20 пациентов результат нейронной сети составил: AUC score 0.74, точность (accuracy) достигала 80%, «прецизионная» точность (precision) – 63%, полнота (recall) - 55%, f1 score – 59%.
Средние показатели ответов врачей кардиологов: accuracy 76%, precision 48%, recall 55%, AUC score 0.68, f1 score 49%. Лучшие значения среди врачей кардиологов составили: AUC score 0.72, accuracy 76%, precision 48%, recall 67%, f1 score 56%.
Прогнозирование поражения магистральных коронарных артерий и ишемии миокарда |
AUC |
Accuracy |
Precision |
Recall |
F1 score |
Неинвазивная прогнозируемая AI-коронарография |
74 |
80 |
63 |
55 |
59 |
Усредненные ответы специалистов |
68 |
76 |
48 |
55 |
49 |
Лучший ответ специалиста |
72 |
76 |
48 |
67 |
56 |
Тестовая выборка 2
Проведено прогнозирование поражения магистральных коронарных артерий и ишемии миокарда.
На тестовой выборке, состоящей из 30 пациентов результат AUC score составил 0.87. Точность (accuracy) достигала 96%, «прецизионная» точность (precision) – 76%, полнота (recall) - 71%, f1 score – 74,1%.
Прогнозирование поражения магистральных коронарных артерий и ишемии миокарда |
AUC |
Accuracy |
Precision |
Recall |
F1 score |
Неинвазивная прогнозируемая AI-коронарография |
87 |
96 |
76 |
71 |
74 |
Выполнено сравнение эффективности выявления ишемии миокарда на основе расчета прогноза необходимости выполнения реваскуляризации коронарных артерий методом нейросетевого анализа и результатами полученными при выполнении суточного мониторирования ЭКГ и тредмил-теста.
Результаты метода нейросетевого анализа: accuracy 93%, precision 60%, recall 100%, AUC score 96%, f1 score 75%, суточное мониторированием ЭКГ: accuracy 87%, precision 33%, recall 33%, AUC score 63%, f1 score 33%, тредмил-тест: accuracy 70%, precision 12%, recall 33%, AUC score 54%, f1 score 18%.
Выявление ишемии миокарда |
AUC |
Accuracy |
Precision |
Recall |
F1 score |
Неинвазивная прогнозируемая AI-коронарография |
96 |
93 |
60 |
100 |
75 |
Суточное мониторирование ЭКГ |
63 |
87 |
33 |
33 |
33 |
Тредмил-тест |
54 |
70 |
12 |
33 |
18 |
Тестовая выборка 3.
Проведено прогнозирование поражения магистральных коронарных артерий и преходящей ишемии миокарда на 1500000 синтетических наблюдений.
Результат AUC score составил 0.79. Точность (accuracy) достигала 88%, «прецизионная» точность (precision) – 73%, полнота (recall) - 63%, f1 score – 67%.
Прогнозирование поражения магистральных коронарных артерий и ишемии миокарда |
AUC |
Accuracy |
Precision |
Recall |
F1 score |
Неинвазивная прогнозируемая AI-коронарография |
79 |
88 |
73 |
63 |
67 |
Обсуждение
Созданная модель нейросетевого анализа позволяет с достаточной вероятностью прогнозировать поражение магистральных коронарных артерий на основе структурированных данных и ЭКГ-изображений. Точность выявления преходящей ишемии миокарда, определенной методом нейросетевого анализа, полученная с целью прогнозирования необходимости выполнения реваскуляризации коронарных артерий выше, чем у классических методов диагностики, таких как суточное мониторирование ЭКГ и тредмил-тест. Полученные результаты позволяют говорить о возможном практическом применении метода нейросетового анализа в клинической практике.
Инновационность подхода заключается в использовании нейронных сетей для диагностики патологии коронарных артерий на основании факторов риска и ЭКГ-изображения. На выходе нейронной сети мы получаем наличие или отсутствие патологии на каждой магистральной коронарной артерии (ствол левой коронарной артерии, передней межжелудочковой артерии, огибающей артерии, правой коронарной артерии), вероятность атеросклероза, необходимости выполнения инвазивной коронарографии с возможной реваскуляризацией в настоящий момент. Преимуществом использования нашего метода является простота (требуется заполнение анкеты и загрузка ЭКГ изображения), быстрота (время расчетов менее секунды), неинвазивность методики при сохранении высокой точности. Нашу методику можно использовать удаленно, позволит выполнять неинвазивную прогнозируемую AI-коронарографию в местах где нет возможности специализированной медицинской помощи (необходимо наличие снятой ЭКГ-ленты). Также не требует обширных компьютерных ресурсов и дорогостоящего оборудования, что позволяет упростить постановку верного диагноза специалистом. Система помогает на ранних стадиях выявлять острое состояние по типу окклюзий, субокклюзий, значимых стенозов коронарных артерий что послужит ранним поводом к обращению к специалисту. Моментальное получение результата - это огромное преимущество над другими исследованиями, результаты которых необходимо ожидать от 24 до 48 часов. Продолжительность исследования занимает несколько минут, а также не требует затрат квалифицированного медицинского труда, что позволило бы сократить нагрузку для врачей. Любой сотрудник больницы сможет задать несколько вопросов пациенту, а также загрузить ЭКГ-ленту в систему. При внедрении исследования в систему оказания медицинской помощи гражданам по ОМС, мы могли бы получать пациентов с «повышенной категорией риска». При получении такого результата данных пациентов возможно было бы приоритетно записывать к врачу-кардиологу и далее на необходимые дополнительные исследования, требуемые для постановки более точного диагноза. Наша методика позволяет подойти к скриннингу патологии коронарных артерий на новом уровне, исследование возможно применять массово в связи с отсутствием "инвазивности", введением контрастных исследований, перегрузок миокарда. Наша программа позволит самостоятельно заподозрить и выявить у пациента наличие патологии. В случае получения «положительного результата» пациент мог бы сразу записаться к врачу, имея повышенную категорию риска. В своей работе мы максимально старались приблизить работу ИИ к работе врача.
Важным дополнительным преимуществом нейросетевого анализа данных является тот факт, что при курации ХКС у кардиологов нет надежных «инструментов» для несомненного направления на коронароангиографию, и в этих условиях искусственный интеллект позволяет верно интерпретировать совокупность данных и нацелить врача на выполнение интервенционной технологии. Также особо стоит отметить, что у пациентов старческого возраста вне симптомов, с ограниченными возможностями выполнения стресс-тестирования по факту ХКС методика глубокого машинного обучения дает неоценимую перспективу своевременного направления больного на коронарографию.
Заключение
Нейросетевой анализ подготовленных клинических, лабораторных и инструментальных данных позволяет настроить параметры сети для последующего прогнозирования поражения магистральных коронарных артерий. Обученная нами нейронная сеть прогнозирует поражение магистральных коронарных артерий с чувствительностью 63%, специфичностью 88%, AUC 0.74.
На тестовой выборке нейронная сеть работает эффективнее чем в среднем врачи кардиологи и, что особенно важно позволяет нацелить врача на выполнение инвазивных методов обследования в тех случаях, когда для этого решения недостаточно вводных данных. Один из пяти специалистов смог приблизиться к точности обученной модели нейронной сети.
Эффективность выявления преходящей ишемии миокарда на тестовой выборке выше у обученной нейронной сети по сравнению с классическими методами диагностики, такими как суточное мониторирование ЭКГ, тредмил-тест.
На экстремально большой выборке в размере 1500000 наблюдений получен высокий AUC score.
Список литературы.
1. Kuo FC, Mar BG, Lindsley RC, Lindeman NI. The relative utilities of genome-wide, gene panel, and individual gene sequencing in clinical practice. Blood 2017;130:433–9.
2. Muse ED, Barrett PM, Steinhubl SR, Topol EJ. Towards a smart medical home. Lancet 2017;389: 358.
3. Steinhubl SR, Muse ED, Topol EJ. The emerging field of mobile health. Sci Transl Med 2015;7: 283rv3.
4. Shameer K, Badgeley MA, Miotto R, Glicksberg BS, Morgan JW, Dudley JT. Translational bioinformatics in the era of real-time biomedical, health care and wellness data streams. Briefings in Bioinformatics 2017;18:105–24.
5. Konstam MA, Hill JA, Kovacs RJ, et al. The academic medical system: reinvention to survive the revolution in health care. J Am Coll Cardiol 2017; 69:1305–12.
6. Steinhubl SR, Topol EJ. Moving from digitalization to digitization in cardiovascular care: why is it important, and what could it mean for patients and providers? J Am Coll Cardiol 2015;66: 1489–96.
7. Boeldt DL, Wineinger NE, Waalen J, et al. How consumers and physicians view new medical technology: comparative survey. J Med Internet Res 2015;17:e215.
8. Высоцкая Ж.М., Терзов А.И. Математические модели неинвазивного определения поражения коронарных артерий у больных ишемической болезнью сердца. В сб. Новые приложения морфометрии и математическое моделирование в медико-биологических исследованиях. Харьков, 1990; 53.
9. Бала Ю.М., Подвальный С.Л., Стрелецкая Г.Н. и др. Математический подход к автоматической диагностике ишемической болезни сердца. В сб. Компьютеризация в медицине. Воронеж, 1990; 66-70.
10. A. Waheed, M. Goyal, D. Gupta, A. Khanna, F. Al-Turjman and P. R. Pinheiro, "CovidGAN: Data Augmentation Using Auxiliary Classifier GAN for Improved Covid-19 Detection," in IEEE Access, vol. 8, pp. 91916-91923, 2020, doi:10.1109/ACCESS.2020.2994762.
FirsofMaxim
Спасибо, работа проделана очень большая, материала очень много. Пара вопросов:
Почему начинаете с резюме?
Можно было бы разбить на несколько статей
Аудитория хабра в основном ненаучная, можно попроще текст :)