На Хабре уже писали о научном конкурсе для математиков и разработчиков, который запустили создатели мобильного кардиографа CardioQVARK. Вкратце, суть соревнования заключается в создании алгоритма, который мог бы обнаружить курильщика среди некурящих людей на основе их кардиограмм.

Одним из лидеров соревнования стал к.т.н. Роман Исаков, доцент кафедры биомедицинских и электронных средств и технологий Института инновационных технологий Владимирского государственного университета имени А.Г. и Н.Г. Столетовых. Он разработал метод определения курильщика на основе RR-интервалограмм и искусственных нейронных сетей — о нем мы сегодня и поговорим.

Зачем искать курильщика


Существуют исследования специалистов по машинному обучению, которые показывают, что ЭКГ-сигнал несет в себе информацию о функционировании всех систем организма, а не только сердца. При этом каждое заболевание по-своему «модулирует» ЭКГ-сигнал, а значит знаки приращений интервалов и амплитуд последовательных кардиоциклов можно использовать для диагностики информации о возможных проблемах со здоровьем у человека, в том числе на ранних этапах их возникновения.

image

В докладе на V Международной конференции «математическая биология и биоинформатика» Константин Воронцов из из Вычислительного центра им. А. А. Дородницына РАН продемонстрировал различия в знаках приращения интервалов (dRn), амплитуд (dTn) и углов (d?n) кардиоциклов у здоровых и страдающих различными заболеваниями людей

Поиск курильщика по кардиограмме поможет добиться главной цели соревнования — получение результата, который бы продемонстрировал возможность или невозможность осуществления качественной диагностики с помощью ЭКГ и алгоритмов выявления в сигнале кардиограммы маркеров заболеваний различных органов.

Суть предложенного метода


Решение поставленной задачи основывалось на гипотезе о зависимости вариабельности ритма сердца (ВСР) от функционального состояния организма [Р.М.Баевский и др.] Данная модель включает в себя обратную связь посредством периферической нервной системы через головной мозг, позволяющую управлять потоком крови, в том числе путем динамического управления частотой ритма сердца.

Исходя из этого, основным сигналом для анализа была выбрана RR-интервалограмма. Этот сигнал содержит всю информацию о процессах управления ритмом сердца в конечном её проявлении.

Проблема в извлечении информации о влиянии никотина и других веществ на организм человека сводится к поиску параметров ВСР, обладающих наибольшей разделяющей способностью классов курящих и не курящих людей. Учитывая то, что характер взаимосвязи параметров может быть нелинейным, в основу классификатора была положена технология искусственных нейронных сетей.

Обучающая выборка кардиограмм для конкурса включала 100 записей курящих и некурящих людей с соотношением 50/50%. Также была представлена контрольная выбора, включающая 250 кардиограмм — в ней не было представлено аннотаций, поэтому использовать ее для исследования было невозможно.

Поэтому исследователю потребовалось разбить обучающую выборку на две равные «подвыборки»: обучающую и тестовую.

Отбор записей в тестовую и обучающую подвыборки осуществлялся произвольным образом, но с соблюдением условия равного соотношения курящих и не курящих людей в каждой из них. Так как количество записей в обучающей подвыборке оказалось слишком малым, то на финальном этапе после выбора лучшей модели пришлось также занять её «доучиванием» на записях тестовой подвыборки.

Не все так просто


Для сведения к минимуму явления переобучения из набора данных, используемого для
обучения, выделялся локальный валидационный набор (20%) в случайном порядке. Он не принимал участие в корректировке параметров модели и служил для мониторинга ошибки модели. При возрастании ошибки на валидационном наборе обучение прекращалось.

Существует вероятность попадания в класс «не курит», людей скрывших данный факт или пассивных курильщиков, а в класс «курит» — людей с незначительным «опытом» курения. Поэтому одно из исследований было произведено с модификацией обучающей базы данных на основе нейросетевого анализа выборки при помощи лучшей из полученных моделей. В результате, модифицировались те записи, расхождение с моделью которых было наибольшим. Данный подход показал небольшой рост эффективности на независимой (валидационной) выборке. Однако, можно предположить, что в ней также присутствуют ошибочные метки, что является ограничивающим фактором.

Обработка и анализ данных


Для формирования пространства признаков для модели распознавания курящего человека исследователь изучил различные известные статистические параметры, специальные параметры для оценки вариабельности ритма сердца, а также спектр и гистограмму ритма сердца.

Параметры разделялись на следующие группы:

  1. Энтропийные;
  2. Параметры временной области;
  3. Параметры частотной области;
  4. Параметры формы гистограммы.


Исследование заключалось в вычислении всего набора параметров для классов курящих и не курящих в записях обучающей базы и последующем совместном анализе их распределений. Выбирались только те параметры, плотности распределения которых имели значимые расхождения в какой-либо области.

Дополнительно исследовались спектры ритма сердца, выбирались диапазоны частот в которых наблюдалось наибольшее разделение двух классов. Затем производился кросскорреляционный анализ выбранных параметров для исключения сильных линейных связей в пространстве признаков.

В описание конкурсного решения исследователь отмечает, что производились параллельные исследования набора параметров без оптимизации корреляционным анализом и с использованием отсчетов спектра ритма сердца. Результаты данных в решении не приводятся, поскольку они не показали лучших результатов.

В результате был получен следующий набор параметров:

1) EnLog — Энтропия «логарифмической энергии» (Log Energy Entropy);
2) EnTrs — Пороговая энтропия (Threshold Entropy);
3,4) EnSamp — Две энтропии отсчетов (Sample Entropy) с параметром 1 и 5;
5) NN22 — Число последовательных RR-интервалов, различающихся больше чем на 22 мс;
6) HRVTi — Триангулярный индекс гистограммы ритма сердца;
7) LF/HF — Отношение мощности низкочастотной к высокочастотной части спектра (стандартный параметр оценки ВСР);
8) LFn — Отношение мощности низкочастотной части спектра к сумме мощностей низкочастотной и высокочастотной частей спектра;
9) SBxn(4) — Отношение мощности спектра в диапазоне от 0.093 Гц по 0.125 Гц к общей мощности спектра (ТР). Данный параметр получен в результате специального спектрального анализа;
10) SB1n — Мощность спектра в диапазоне от 0.0039 Гц по 0.0391 Гц. Данный параметр получен в результате специального спектрального анализа.

Алгоритм обработки данных можно пошагово описать следующим образом:

На первом шаге осуществляется загрузка кардиоинтервалограммы (КИГ). Затем с помощью отсечения на уровне 1 СКО определяются выбросы. Далее они исключаются с помощью интерполяции медианой, проводится сплайн-интерполяция КИГ для получения эквидистанционно квантованного сигнала ритмограммы (РГ).

Для удаления постоянной составляющей проводилось вычитание из ритмограммы среднего значения, после чего она обрабатывалась окном Тъюрки для подавления эффекта Гиббса. Впоследствии для обработанной ритмограммы осуществлялось быстрое преобразование Фурье, а благодаря вычислению абсолютного значения от комплексных значений этого преобразования удалось получить спектр ритма сердца.

Представленные выше параметры вычислялись с использованием КИГ (кроме спектральных параметров), а затем проводилось их нормирование для получения динамического диапазона от 0 до 1.

Модель удалось получить следующим образом:

Сначала осуществлялось обучение персептронных нейронных сетей (НС) с последовательно увеличивающимся количеством нейронов в скрытых слоях (по ранее описанной методике). В результате получается набор нейросетевых моделей разного размера, позволяющий выбрать оптимальный размер нейронной сети.

Далее анализировался набор НС на тестовой подвыборке и из него по параметру AUC вы
бирались лучшие.

Третьим шагом стала настройка порога отсечения выбранных моделей при помощи ROC-анализа путем балансировки Чувствительности и Специфичности для получения их минимальной разницы. Значения Чувствительности или Специфичности менее 50% отбраковывались.

По данной методике исследовались следующие структуры НС:

  1. двухслойная, с одним скрытым сигмоидальным слоем и сигмоидальным выходом (SS);
  2. трехслойная с двумя скрытыми сужающимися сигмоидальными слоями и сигмоидальным выходом (SSdS);
  3. трехслойная с двумя скрытыми сужающимися сигмоидальными слоями и линейным выходом (SSdP).

Результаты


Из результатов тестирования видно, что в среднем показатели эффективности классификатора находятся в районе 60-70%.

При этом, исследователь отмечает, что предоставленные на конкурс обучающие и тестовые выборки содержали ошибочные метки. Это снижает эффективность предложенных им моделей, а значит при использовании «чистых» данных можно ожидать увеличения эффективности созданного классификатора.

Кроме того, по мнению автора исследования, положительную роль может также сыграть увеличение размера обучающей базы данных.

На независимой выборке данных исследователю удалось добиться показателей Чувствительности на уровне 63% и Специфичности на уровне 71%.

Результат работ, проведенных в рамках научного конкурса, демонстрирует наличие теоретической и экспериментально подтвержденной связи между вариабельностью ритма сердца и функциональными изменениями организма, связанными с табакокурением.

Комментарии (24)


  1. SKolotienko
    30.03.2016 14:27
    +3

    А случайное угадывание даёт 50% и 50% соответственно?


    1. ZlodeiBaal
      30.03.2016 16:55
      +3

      А если вспомнить, что у них там выборка была 50 человек всего...:)


      1. O1eja
        30.03.2016 20:34

        Это не новая тема совсем. У нас была выборка больше. Более 1000. Были тесты на уровне Минздрава. Методика старая и работает. Тут вопрос точности предсказываемого заболевания, например, какой именно вид анкологии, если даже в результате анализа скважности импульсов на неё есть подозрение. Но зато есть плюс, что видно всё это часто на ранних стадиях.


    1. isvirin
      30.03.2016 19:05

      Вот прям в точку:) Пока читал, в голове крутился бородатый анекдот про блондинку:

      Спрашивают блондинку: Какова вероятность того, что, выйдя на улицу, вы
      встретите динозавра.
      Б: 50 процентов
      — Этот как??
      Б: Ну, или я его встречу, или нет


  1. Vjatcheslav3345
    30.03.2016 14:57

    «Существуют исследования специалистов по машинному обучению, которые показывают, что ЭКГ-сигнал несет в себе информацию о функционировании всех систем организма, а не только сердца. При этом каждое заболевание по-своему «модулирует» ЭКГ-сигнал, а значит знаки приращений интервалов и амплитуд последовательных кардиоциклов можно использовать для диагностики информации о возможных проблемах со здоровьем у человека, в том числе на ранних этапах их возникновения.»
    Главное, что контроль организма будет прост и дешев и в реальном времени, круглосуточно.


    1. O1eja
      30.03.2016 18:41

      Не получится круглосуточно. Мы занимались этим лет 20 назад. Нам требовалось 600 ударов сердца в состоянии покоя. То есть 10 минут примерно. Желательно даже не думать по возможности, так как соматическая реакция на мысли тоже будет вносить шум.


      1. Vjatcheslav3345
        30.03.2016 20:03

        Это наверное потому что технология и подход еще несовершенны. Первые компьютеры тоже ведь были чуть ли не механическими устройствами — а сейчас так их строить не будет никто. Со временем, можно будет научить устройство ставить диагнозы даже во время занятий спортом — и, может быть, это даже будет лучше, так как что у человека, что у механизма под нагрузкой все проблемы начинают всплывать на поверхность.(https://geektimes.ru/company/icover/blog/273490/)


        1. O1eja
          30.03.2016 20:28
          +1

          Тут вопрос в том, что измеряются именно интервалы между R-зубцами. Чтобы набралась достоверная статистика требуется определённое количество интервалов. Это чистая математика. При этом человек должен находиться в состоянии полного покоя, чтобы внешние воздйствия не вносили шум, так как наше серце очень живо реагирует на внешние изменения и, как я писал выше, даже мысли. Мы использовали помещения с тусклым светом и без внешних раздражителей. Можно было выделять инфекционные заболевания и паталогии. Резулььаты обрабатывалсь (использовалось, если мне память не изменяет преобразование Фурье) и визуализировалсь разным способом. Фактички, каждое заболевание имело свою картинку. Чётко были видны например ГРИПП, ОРВИ, рак, всякие гормональные отклонения и т.д. Высказывалась также гипотеза, что модулирование скважностьи импульсов это один из способов управления системами организма. Потом к сожалению все эти исследования прекратились… Следующим лагичным шагом было бы разбирать ритмы энцефалограммы, но тогда обрудование стоило сильно дорого для таких измерений и поток информации для расчётов был сильно больше. Думаю, что тут можно было бы сократить интервал записи и получить сильно более детальную картинку. Но дальше первых шагов мы тогда не двинулись.


          1. Here_and_Now
            30.03.2016 22:45

            А что препятствует возрождению ваших исследований в век расцвета мед стартапов? Просто скоро у людей будут годы информации о теле, а вот в анализе пока ничего толкового и нет...


            1. O1eja
              30.03.2016 23:20
              +1

              Была команда, работавшая ещё с советского периода. В СССР, когда был создан "Институт сердца", то одной из задач было создание искусственного органа сердца. Причём нужно было не только создать насос, а понять и воссоздать электрическую часть. Достаточно быстро стало ясно, что электрические сигналы имеют также функцию управления, причём не только работы кровеносной системы как насоса, но и ряд прочих регулирующих функций. Была создана отдельная кафедра занимающаяся разными спец. устройствами. Вот с её специалистами довелось поработать на самом интересном, но последнем этапе её существования.
              Было создано несколько поколений устройств. Далее без “умных названий — своими словами"

              1. Устройство по промыванию, а фактически — стимулированию заживления гнойных ран, которое заключалось в подаче двумя трубками физ. раствора к ране с импульсным реверсивным движением по контуру. Это в разы ускоряло заживление и оставляло сильно меньше рубцы.
              2. Было создано устройство гидроакустического воздействия на организм (на человека сидящего в специальной ванной по сути). С терапевтическим действием разрушения камней в почках, желчном пузыре. Камни в итоге не крошились и не выходили с болью, а преобразовывались при подобном воздействии во фракцию похожую на мягкий пластилин или воск и спокойно выходили.
              3. Был создан ленточный вибро-массажор, который тоже лечил ряд заболеваний.
              4. Наконец, была создана установка действовавшая сразу на всё тело слабыми электромагнитными импульсами. /При увеличении напряжённости поля эффект резко сходил на нет/. Тут были достигнуты самые впечатляющие результаты. Лечились различные хронические заболевания, очень неплохо онкология, были очень впечатляющие результаты при работе с наркоманами, например за один сеанс в 1-1.5 час можно было избавить человека от зависимости. И много — много ещё всего.

              Все эти устройства прошли сертификацию Минздрава СССР, а потом и Минздрава России. Последнее только на уровне клинических испытаний.
              Для 3 и 4 устройств как раз и велась разработка диагностического комплекса на принципах описанных в данной статье.
              "Ну и где всё это"? — можете спросить вы. Да нигде, как у нас часто бывает. Этот коллектив после Института Сердца работал на кафедре нелекарственной терапии при Первом Меде, потом Геранталогическом центре, далее в 17-ой наркологической и даже в “Институтке Катастроф” (это название мало чего кому скажет, но это по сути самая “сильная” и большая структура из перечисленных, которая в частности разворачивает полевые госпитали в проблемных точках, когда это требуется). А потом ничего. Часть людей устав от нищенского существования ушли, один программист эмигрировал в штаты, мой друг — тоже светлая голова, погиб. Тот, кто всё это вёл, отошёл от дел лет 14 назад. И вот никого и не осталось.
              Сам я что-то едва ли смогу возродить и начать. Специфика моего опыта немного не та. Я занимался сопутствующим железом именно на 4 фазе проекта (с электромагнитной установкой). Кардиографы, вычислительная техника и т д. То есть я не знаю, что за математика лежала в основе до степени воссоздания чего-то подобного. Но понимаю о чём речь, как, например, в этой статье.
              Если бы кто-то решился воссоздать что-то подобное, было бы здорово. Я бы с удовольствием пообщался бы с такими людьми, но практической помощи от меня едва ли было бы много к сожалению.


              1. Vjatcheslav3345
                31.03.2016 09:20

                Можно попросить у правопреемника выпустить ваши наработки как открытые патенты и их обязательно используют (https://ru.wikipedia.org/wiki/%D0%9E%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B9_%D0%BF%D0%B0%D1%82%D0%B5%D0%BD%D1%82; https://insider.pro/ru/article/16/; https://geektimes.ru/post/269742/).
                А организация-правопреемник от этого получит дополнительную полезную ей известность в мире и ей это ничего не будет стоить.
                В мире это нормальная практика, например чтобы выпустить максиму Уильямом Шелтером специально писалось письмо — и вот ответ на него (http://maxima.sourceforge.net/index.html).


                1. O1eja
                  31.03.2016 10:51

                  Возможно вы и правы. Спасибо.


              1. Here_and_Now
                31.03.2016 12:01

                Спасибо, что не поленились написать. Очень интересная история.


                1. O1eja
                  31.03.2016 12:53

                  Один момент, который наверное не совсем понятен из написанного мной выше. Все разработки имели свою основу в исследовании ритмов сердца. Способ их воздействия на организм в каждом конкретном случае (кроме первого) не уникален и не раз в медицинской практике встречался. Но в данном случае результативность была на порядок выше по той причне, что удалось разобраться немного в ритмах управления в организме. И использовать соответствующие частоты для механического, акустического (по сути тоже механического) и электромагнитного воздействий.


              1. SADKO
                02.04.2016 01:57

                Какой у вас был рабочий диапазон индукции, если не секрет, и как добивались однородности?


                1. O1eja
                  03.04.2016 14:31

                  Всего было произведено 5 экземпляров установки
                  Частотный диапазон от 1 до 1.5 октав
                  Нижняя граница 50-60 Гц

                  Любой физиолог скажет, что частота слишком низкая и что ей, собственно, ничего не добиться. И будет прав. :)

                  Если интересуетсь не ради праздного любопытсва, то пишите в личку. Тут есть нюансы.


            1. SADKO
              02.04.2016 01:44

              С мед стартапами всё не так просто, беда в том, что "Скрипач не нужен, родной"…
              … в смысле, что зачем лечить дёшево и быстро, если можно долго и намного дороже


              1. O1eja
                03.04.2016 14:36

                Именнр так.
                По этой причине мы прошли и фазу банидитов и структур итд…


          1. SADKO
            07.04.2016 15:01

            Интересная история, но для исследователей должен заметить, что R-R нужно ещё уметь правильно измерять, а большинство популярных гаджетов делают это так что более чем на индикатор усреднённой ЧСС, эти данные не годятся…


            1. O1eja
              07.04.2016 15:52

              Об этом я вообще молчу… :)


      1. kisaa
        03.04.2016 17:19

        Осталось создать потребительское устройство (типа Mi Band), которое будет снимать ЭКГ во сне и передавать его для анализа такой сети.


        1. O1eja
          03.04.2016 17:24

          Тут тоже вопрос. Во сне мозг работает совершенно в ином режиме и занимается иным кругом задач. Возможно, для режима сна потребуется разрабатывать свой алгоритм анализа данных. А устройств, которые могут измерить пульс и передать данные сейчас уже превиликое множество. Конечно потреубуется некоторая адаптация, так как нужно передавать не абсолютное значение пульса, а «телеметрию». Но не думаю, что это проблема.


  1. 0tt0max
    30.03.2016 18:17
    +2

    На мой взгляд. при определении курильщика не правильно ограничиваться КИГ. Наверно, сама ЭКГ покажет больше признаков в своей морфологии.


  1. artemart1
    31.03.2016 21:21

    60-70% — это наверно Ф-мера, хороший показатель в целом для нового направления, но не показателен для 100 записей, очень мало, для нейросетки конечно