Хабровчане, приветствую! Меня зовут Андрей Иванов, я системный аналитик в сфере медицины и здравоохранения. До 2005 года работал практикующим врачом, потом руководил медицинским информационно-аналитическим центром. Спустя время возникла настоятельная потребность получить базовое IT-образование и научиться тому, чем прежде приходилось руководить, — так я начал обучение на курсе «Системный аналитик»

Позже я принял участие в Мастерской Практикума, где смог реализовать одну свою давнюю идею — сделать удобочитаемыми материалы медицинской статистики. На сей раз выбор пал на отчёт главного онколога Министерства здравоохранения России. Он выходит ежегодно и выглядит как огромный сборник таблиц формата А4. Ни один даже самый крутой мегамозг, просматривая эти гектары цифр, не в состоянии понять, «что такое хорошо и что такое плохо в онкологической службе». 

Решить эту проблему и взялась команда аналитиков данных. Сразу же оговорюсь, мы не пытаемся анализировать данные онкологической статистики. Мы разрабатываем целевой инструмент, который хотим передать в руки медицинского (онкологического) сообщества — там уже смогут с полным правом делать профессиональные выводы «о добре и зле» и конечно же, ответить на извечный вопрос «что делать?». 

Исходные данные и предполагаемый результат
Исходные данные и предполагаемый результат

Небольшая предыстория: в конце обучения на курсе «Системный аналитик» я решил поучаствовать в разработке проекта для Мастерской. Оказалось, я «сел не в свои сани» — проект был предназначен для аналитиков данных. Я всё равно решил участвовать — так я увидел возможности технологий, очень воодушевился работами других участников.

На итоговом созвоне я всех поблагодарил и упомянул о старой идее визуализации данных онкологической статистики. Многие заинтересовались, стали расспрашивать, что да как. Чуть погодя ко мне обратилась проджект-менеджер — и вот в октябре 42 студента занялись воплощением этой идеи в жизнь. Я же выступал в роли заказчика и отчасти ментора (по медицинским аспектам).

Исходные данные и цели проекта

Наибольшие проблемы находятся на стыке сфер компетенций: люди, которые умеют профессионально диагностировать и лечить злокачественные новообразования, не обладают знаниями в области аналитики данных. И потому не предъявляют требований должного уровня к визуализации этих данных. И наоборот, аналитики данных не знают медицинских аспектов, сути процессов и терминологии. Именно этот пробел мы и постарались восполнить.

Мы взялись за визуализацию открытых данных. Повторюсь: нет никакой, даже минимальной, возможности проанализировать ситуацию, просто посмотрев на таблицы отчёта главного онколога. Его публикуют на сайте Ассоциации онкологов России, по ссылкам можно ознакомиться, как это выглядит:

Не пытайтесь что-то разглядеть, просто представьте ещё 500 таких страниц. Как здесь что-нибудь понять?
Не пытайтесь что-то разглядеть, просто представьте ещё 500 таких страниц.
Как здесь что-нибудь понять?

По сравнению с таблицей график и диаграмма являются гораздо более наглядными. А чарт дашборда — ещё на две головы более наглядный и эффективный в руках исследователя. Кроме простого созерцания он может своими собственными руками и по своему собственному разумению подключать и отключать отображаемые показатели. Выбирать интервал времени или территории, на которых он хочет видеть сравнение показателей. 

Целью нашей команды стало предоставление таких возможностей профильным специалистам. Возможностей, при которых специалист-исследователь сам может варьировать настройки для лучшего понимания цифр и ситуации, которую они характеризуют. Всё, чего мы хотим, — дать инструмент, который сделает процесс принятия управленческих решений в онкологии более обоснованным, а саму онкологическую помощь более эффективной.

Вот такая возвышенная и ответственная цель, и в этой всей связи мне очень часто вспоминается памятная фраза очень любимого киногероя: «Мысль опережает действие, поэтому все действия надо подгонять под заранее намеченный результат. А он обязан быть успешным».

Процесс и промежуточные результаты

Все 500 страниц отчёта были разделены на 204 фрагмента — по одной таблице на каждый файл *.pdf. Всё это было распознано конвертером и приведено к виду электронных таблиц. Из них был сформирован датасет, который поделили на пять частей. Каждый студент получил только часть данных и визуализировал их на дашборде. 

Дашборд — это виртуальная аналитическая панель, которую пользователь может настраивать, чтобы видеть именно то, что интересно его профессиональному глазу. Например, заболеваемость среди мужчин, среди женщин или заболеваемость суммарную среди обоих полов, заболеваемость среди различных возрастных групп. И что особенно актуально, заболеваемость, смертность, летальность на различных территориях России (в краяхх, областях, республиках), динамику этих показателей по годам. 

Также пользователь может сравнивать показатели в группах заболеваний с различной локализацией опухолевого процесса. Всё это не определено автором дашборда, а задаётся его пользователем, — это важно. 

С помощью созданных в проекте инструментов можно наблюдать проценты выявления опухоли в I, II, III и IV стадиях для разных регионов РФ. Так как ранняя диагностика определяет успех дальнейшего лечения, эти данные очень важно изучать и сравнивать. Например, исследователь может с помощью наших инструментов обозначить вопросы, ответы на которые повлекут за собой чрезвычайно ответственные решения. Например:

  • Почему в Дагестане в первой (самой начальной) стадии рака диагностируют 21,6% всех опухолей, а в Мурманской области почти в два раза больше (38,9%)?

  • Почему в Брянской области почти треть всех выявляемых опухолей (28,6%) выявляют в IV стадии, когда всё лечение может быть направлено только на облегчение страданий, а в Ленинградской области таких случаев в 3 раза меньше (8,7%)? 

  • 1823 человека умерли от злокачественных новообразований в 2021 году в Свердловской области, не будучи на учёте у онколога. То есть 20,9% умерших не получали никакой онкологической помощи. Почему так? 

Дашборды, которые были созданы на первом этапе нашего проекта:

Заболеваемость и смертность по различным локализациям опухоли. Кирилл Рыжиков 
Геоплот с долей умерших от злокачественных новообразований (ЗНО) и не состоявших на учёте у онколога. Павел Бакакин
Лечение злокачественных новообразований, впервые зарегистрированных в 2021 году и подлежащих радикальному лечению. Фёдор Кириллов
Распределение заболеваемости и смертности по различным возрастным группам в зависимости от локализации опухоли. Амест Осипян
Летальность и стадийность в диагностике злокачественных новообразований. Надежда Иванова
Соотношение методов лечения при злокачественных новообразованиях. Слева по территориям России, справа — по локализациям опухолевого процесса. Фёдор Кириллов
Количество пациентов состоящих на учёте на 100 тысяч населения. Слева по локализации опухолевого процесса, справа — по территориям России. Ольга Кальдина
Частота активной диагностики злокачественных опухолей. Слева по локализациям заболевания, справа — по территориям России. Ольга Кальдина
Тепловая карта заболеваемости, смертности и летальности в регионах России по различным локализациям опухолевого процесса. Даниил Гришин
Как говорится, лучше один раз потрогать, чем сто раз увидеть. На этот случай, с согласия авторов, публикуем ссылки на дашборды. 

Текущий этап работы и планы 

Мы завершили первый этап работы

Так как изначальные данные мы делили на пять групп, каждый автор получал только один из пяти вариантов данных. У нас был довольно широкий простор для творчества: каждый мог визуализировать полученный датасет как душе угодно. Данные брали из электронных таблиц.

В итоге мы получили множество дашбордов, которые не являются единым изделием, не представляют полную картину и не обладают общим стилем. Все подали информацию по-разному, и это хорошо — есть от чего оттолкнуться в следующей итерации. 

На момент подготовки этого материала завершается второй этап

  • Мы сделали предобработку данных с помощью скриптов на Python и предоставили всем полные датасеты. При создании дашбордов студенты обращаются не к электронным таблицам, а к единой базе данных. 

  • Сейчас мы производим анализ дашбордов из предыдущей итерации, ищем лучшие и худшие практики, чтобы взять их в работу. 

Мы рассчитываем, что после окончания Мастерской приступим к созданию общедоступного веб-ресурса по нашим наработкам. Уже зарезервировано доменное имя, идут работы по разработке web-приложения. Надеемся в недалёком времени представить наше изделие широкому кругу читателей и узкому кругу специалистов. Мы хотим, чтобы наш инструмент приносил пользу людям безо всякого различия, по какую сторону от болезни они находятся (сообщество врачей или сообщество больных).

Также хотим получить обратную связь от пользователей в медицинской среде: какие-то комментарии о том, что удалось хорошо, а что стоит улучшить, есть ли ошибки (должны, обязаны быть, активно ищем). Было бы замечательно, если бы профессиональное сообщество дало вектор дальнейшего развития проекта, стало бы использовать предоставленный нами инструмент в своих исследованиях, докладах и для иллюстрации своих профессиональных выводов. Студенты Практикума не являются носителями медицинских знаний. Сейчас они буквально с листа, с моих слов воспринимают такие термины, как заболеваемость, смертность, летальность. Поэтому в нашем проекте наверняка есть что покритиковать, и мы активно приглашаем к этому каждого, кому есть что сказать.

Концесловие: коллегам и всем читателям

Нет предела совершенству, движение к горизонту бесконечно: чем дальше идёшь, тем дальше видишь. Как только мы сделали первую часть, мы сразу же увидели следующий этап. Когда мы закончим вторую, мы увидим, куда следует двигаться дальше. Уже сейчас есть очень уверенное ощущение, что этот процесс бесконечен.

Бесконечен, потому что является очень высоко востребованным. Тема, которой посвящен этот проект, — без всякого преувеличения, одна из важнейших проблем человечества в данный момент. И в то же время это глубоко личная проблема для каждого из нас. 

Потому этот подвижнический труд многих людей настолько важен и так почётен. Я благодарен всем и каждому участнику нашего проекта за радость общего результата. Благодарен от имени всех, кого это касается. К этой задумке я собирался подступиться довольно существенное время. Но всё сошлось: и желание, и технологические возможности, и командное устремление коллег — участников проекта. И как же тут не вспомнить ещё одно избитое выражение. Оно очень известное, я не помню, кто это сказал. Но я его часто повторяю, особенно в связи с этим проектом:

Есть только один способ научиться плавать — прыгнуть в воду. 

Комментарии (7)


  1. dididididi
    15.01.2024 07:21
    +3

    Спасибо, человече. Ты крут.


  1. Mckar
    15.01.2024 07:21
    +1

    Вещь интересная, но вы опоздали на год- уже есть 22, а скоро и 23 подойдет и тогда в сравнении можно уже делать


    1. Nestor_Siherti Автор
      15.01.2024 07:21
      +1

      Привет,@Mckar.Спасибо за оценку. Но про то что мы опоздали, так точно не соглашусь. Ведь эти данные будут актуальны всегда. Следующий после 2021 отчет 22-го года вышел в октябре 23-го. Когда у нас уже полным ходом шла мастерская. И мы конечно же продолжим этот проект, не только добавив туда данные 22-го, 23-го и всех последующих годов. Но так же и данные за предшествующие года начиная с 2007 го и отчасти с 1993 го.
      The Show Must Go On !!!!
      И кстати, буду очень признателен за ссылку на вторую часть отчета 22-го года. Пока что у меня есть только ссылка на "Состояние онкологической помощи в России в 2022" А второй части отчета там где Злокачественные новообразования в Росссии в 2022 У меня так пока что и нет. Так что буду очень признателен за ссылку


  1. vagon333
    15.01.2024 07:21
    +1

    Прошу прощения что комментом, но не нашел автора статьи чтоб послать personal message:
    Летальность и стадийность в диагностике злокачественных новообразований. Надежда Иванова
    Внизу должны быть числа, но в диаграмме отображается как NaN.
    Еще раз - я бы послал в личку автору, но не смог найти автора статьи.


    1. Nestor_Siherti Автор
      15.01.2024 07:21
      +2

      Совсем ничего что комментом. Спасибо за реакцию. Весьма отрадно что это читают и обращают внимание на такие детали. Я сейчас свяжусь с автором дашборда и попрошу прокомментировать или исправить или дать пояснение. Очевидно Вы имеете в виду правую диаграмму на первой вкладке.


    1. Snowbird_fly
      15.01.2024 07:21
      +1

      Добрый день. Это моя работа, и Nan появился только при отображении в самом названии, цифры все показаны верно. Я так и не смогла найти, откуда тянется этот Nan. Могу в личном сообщении показать скрин настроек этого чарта (если Хабр позволяет передавать файлы, я тут недавно). В названиях везде указана только стадия, но при добавлении в подписи Measure Names появляются вот эти Nan-ы.


  1. dolgovmd
    15.01.2024 07:21
    +1

    Добрый день! Вы делаете очень правильную и нужную работу, но ценность не всех дашбоардов одинаково полезна. Готов присоединиться к проекту со стороны экспертного онкологического сообщества. Визуализацию данных сложно переоценить, однако такие проекты часто подвергают критике. Я написал Вам в личку и даже в FB. Очень жду обратной связи. Буду очень признателен.