Сегодня, 15 июня, стартует чемпионат на платформе ML Boot Camp, посвященный проблемам здравоохранения и долголетия человечества. Чемпионат организован нами совместно с Insilico Medicine в сотрудничестве с Республиканским центром электронного здравоохранения при Министерстве здравоохранения Республики Казахстан. О том, почему это не очень обычный для нас конкурс — под катом.


Это уже третий по счету чемпионат в этом году, но он совершенно особенный по очень многим причинам. Во-первых, это первый чемпионат, который мы проводим не в одиночку — конкурс проводится в тесном партнерстве с Insilico Medicine и Республиканским центром электронного здравоохранения при Министерстве здравоохранения Республики Казахстан.


Во-вторых, тематика конкурса необычна и очень близка к актуальным проблемам человечества в целом. Это медицина. В этот раз программисты будут искать решение задачи по диагностике сердечно-сосудистых заболеваний. Это первый в Евразии чемпионат, в рамках которого участники используют технологии машинного обучения для поиска решений, обеспечивающих здоровье и долголетие. Нам кажется, что для участников это очень хороший шанс не просто решить интересную задачу, но и возможно способствовать решению таких важных вопросов, как общее здоровье человечества. Кто знает, может быть мы стоим сейчас у истоков совершенно новых средств диагностики и лечения. И это здорово!


В-третьих, датасет. Никаких логов, самые настоящие клинические данные, скрупулезно собранные в медицинских учреждениях. 100 тысяч анонимизированных клинических анализов. Кроме того, механика решения задачи немного отличается от того, что мы обычно делаем на наших чемпионатах (см. раздел «Задача»).


В-четвертых, призы. Наши постоянные участники уже в курсе сложившейся схемы «top6 призовых мест + 50 сувенирных». Но есть небольшой сюрприз, об этом ниже.


В остальном же, чемпионат проходит как обычно — в течение одного месяца, с 15 июня по 15 июля 2017 года, участники должны решить ровно одну задачу.


Задача «Наличие ССЗ»


В рамках конкурса участникам нужно предсказать наличие сердечно-сосудистых заболеваний по результатам классического врачебного осмотра. Датасет сформирован из 100.000 реальных клинических анализов, и в нём используются признаки, которые можно разбить на 3 группы:


Объективные признаки:


  1. Возраст
  2. Рост
  3. Вес
  4. Пол

Результаты измерения:


  1. Артериальное давление верхнее и нижнее
  2. Холестерин
  3. Глюкоза

Субъективные признаки:


  1. Курение
  2. Употребление Алкоголя
  3. Физическая активность

Возраст дан в днях. Значения показателей холестерина и глюкозы представлены одним из трех классов: норма, выше нормы, значительно выше нормы. Значения субъективных признаков — бинарны.


Все показатели даны на момент осмотра. Теперь немного необычного.



Последняя группа признаков не имеет однозначной интерпретации и более того, собрана со слов самого больного. Поэтому, для части данных в тестовой выборке мы специально исключили эти параметры. Участникам придется либо предсказать их самостоятельно для некоторых случаев, либо вовсе игнорировать.


Данные поделены в соотношении 70/10/20. Тренировочная выборка состоит из 70 тысяч результатов, еще по десяти тысячам считается публичная метрика, доступная участникам в ходе соревнования. Оставшиеся 20 тысяч отправились в скрытую проверочную выборку, подсчет метрики по которой и определит победителей в финале.


Поскольку мы имеем дело с бинарной классификацией, метрикой является логарифмическая функция потерь.


Призы


Распределение шести призовых мест в этот раз выглядит так:


Top1: MacBook Pro
Top2: NVIDIA 1080ti
Top3: NVIDIA 1060
Top4-5-6: WD My Cloud 6 TB


По традиции, 50 лучших участников получат майки с символикой чемпионата.


Участники с наиболее интересными для организаторов решениями получат возможность стажировки или сотрудничества с Mail.Ru Group, Insilico Medicine и Министерством здравоохранения Республики Казахстан. Кроме того, специальным призом от жюри является поездка в Астану для личной встречи с министром здравоохранения Республики Казахстан.


Сообщество MLBootCamp


С каждым новым соревнованием наше сообщество в Telegram становится все больше. Профессионалы делятся опытом, новички учатся. Двери открыты для всех, так что присоединяйтесь.


Регистрация


Чемпионат стартует уже сегодня, в 18:00 по Москве. Регистрируемся здесь. Желаем удачи!

Поделиться с друзьями
-->

Комментарии (16)


  1. erwins22
    15.06.2017 17:09
    +1

    Я надеялся на сотни реальных параметров…


    1. sat2707
      15.06.2017 17:20
      +1

      Довольно сложно собрать 100 x 100k. Мы бы с удовольствием, но… К тому же, не всё разрешено обнародовать


  1. SADKO
    15.06.2017 20:52

    Я не никогда участвовал в конкурсах вроде этого, просто на данные взглянуть захотелось, проверить мыслишку одну, ибо дохтор внутри меня твердит что решение тривиально, но не суть…

    … а в данные специально испорчены? это типа часть задачи?


    1. sat2707
      16.06.2017 01:00
      +1

      Нет, специально мы данные не портили. Но мы специально не стали их чистить :)


      1. SADKO
        16.06.2017 03:42

        А очень похоже на логическую порчу, ибо вполне себе лечатся, и даже вписываются в общую модель…
        … а тестовое множество, оно такое же будет весёлое?


        1. sat2707
          16.06.2017 14:21

          Нет, честное слово, ничего не портили. Просто не чистили, дали как есть :)
          А поделено равномерно. То есть, да, в тестовом должны сработать все те же ухищрения по чистке датасета


          1. SADKO
            18.06.2017 15:11

            Вот тут-то и развернётся борьба :-) но к медицине это уже никакого отношения не имеет :-(


            1. sat2707
              19.06.2017 10:47

              А мне кажется, за месяц все успеют и чистку датасета расковырять, и собственно саму модель


  1. Germanets
    16.06.2017 10:27

    Датасет сформирован из 100.000 реальных клинических анализов

    Тут получается интересный момент — все эти 100.000 человек как минимум пришли в больницу по какой-то причине и после этого были направлены на проверку тех самых сердечно-сосудистых заболеваний(иначе в выборке просто не было бы ответа — есть заболевания или нет)… Я так подозреваю, что большинство из этих людей пришли в больницу уже с жалобами на сердечно-сосудистую систему, и выборка получается далека от среднего человека.


    1. sat2707
      16.06.2017 14:23
      +1

      Не, на самом деле есть куча причин, по которым человеку могут измерить рост, вес, глюкозу итп. Та же диспансеризация, к примеру, так что выборка довольно репрезентативная


      1. Germanets
        16.06.2017 16:01
        +1

        Эти параметры — да, измерят, но как при этом поймут, что у человека есть\нет сердечно-сосудистых заболеваний? То, что человек на них не жалуется и не попадал с ними в больницу — это не показатель, я знаю 2х людей, у которых нашли врождённый порог сердца в 20, а до этого никто и не догадывался об отклонениях. Только если врачи при диспансеризации ещё и исследуют сердечно-сосудистую систему, а для этого у меня в больнице недостаточно даже отдельных жалоб на боли — нужно описать действительно какой-то серьёзный симптом и только тогда тебя отправят к специалисту — кардиологу или ещё кому-то.


        1. sat2707
          18.06.2017 03:25

          Честно говоря, я совсем не силен в медицине. Но вот как я на это смотрю:
          Естественно, ни один врач не поставит диагноз лишь по этим 11-ти параметрам (были еще анализы, анамнез, в конце концов интуиция специалиста). И возможно, что у пациента были какие-то еще причины заинтересоваться состоянием своего здоровья, помимо простой диспансеризации.
          Но так или иначе, вот мы имеем 100 тысяч пациентов, о которых мы знаем ровно 11 параметров и точно знаем факт наличия ССЗ после доп.исследований (если я вас верно понял, факт отсутствия ССЗ мы даже в этом случае можем знать лишь условно?). Почему бы не исследовать возможные корреляции. Конечно, вряд ли мы сразу же на выходе получим модель предсказания группы риска, подходящую для всех и каждого (я наконец-то понял смысл вашего первого комментария о «выборка далека от среднего человека»). Но с чего-то нужно начинать, я уверен, что результаты будут интересны :)
          Кроме того, возможно чемпионат выявит DS-специалистов, заинтересовавшихся именно этой тематикой и желающих работать дальше именно в этом направлении.


          1. SADKO
            18.06.2017 15:09

            точно знаем факт наличия ССЗ

            Лично я в этом сильно сомневаюсь, ибо кроме косяков упомянутых мною выше, база сия полна пациентов чудных ;-)
            CCЗ — не диагноз, но абстракция очень высокого уровня, и на самом деле, в ряде случаев доктор способен 100% определить наличие ССЗ только по одному виду пациента, и по циферкам в базе некоторые пациенты должны быть гарантированными обладателями ССЗ, но если верить базе они ими не являются…
            … я грешу на потенциальные ошибки ввода любых параметров, включая само наличие ССЗ!


            1. sat2707
              19.06.2017 10:41

              Ну если рассуждать логически и представить себе оцифровку медкарты, то скорее можно ожидать ошибку ввода любых параметров, _исключая_ наличие ССЗ :)


  1. Batin
    16.06.2017 18:15

    А кому будет принадлежать интеллектуальная собственность на результаты работы?


    1. sat2707
      16.06.2017 18:16

      По правилам чемпионата, участники из топ-10 присылают решения для валидации (грубо говоря, «проверка на списывание»).
      Но решения участников принадлежат участникам.