Сегодня, 15 июня, стартует чемпионат на платформе ML Boot Camp, посвященный проблемам здравоохранения и долголетия человечества. Чемпионат организован нами совместно с Insilico Medicine в сотрудничестве с Республиканским центром электронного здравоохранения при Министерстве здравоохранения Республики Казахстан. О том, почему это не очень обычный для нас конкурс — под катом.
Это уже третий по счету чемпионат в этом году, но он совершенно особенный по очень многим причинам. Во-первых, это первый чемпионат, который мы проводим не в одиночку — конкурс проводится в тесном партнерстве с Insilico Medicine и Республиканским центром электронного здравоохранения при Министерстве здравоохранения Республики Казахстан.
Во-вторых, тематика конкурса необычна и очень близка к актуальным проблемам человечества в целом. Это медицина. В этот раз программисты будут искать решение задачи по диагностике сердечно-сосудистых заболеваний. Это первый в Евразии чемпионат, в рамках которого участники используют технологии машинного обучения для поиска решений, обеспечивающих здоровье и долголетие. Нам кажется, что для участников это очень хороший шанс не просто решить интересную задачу, но и возможно способствовать решению таких важных вопросов, как общее здоровье человечества. Кто знает, может быть мы стоим сейчас у истоков совершенно новых средств диагностики и лечения. И это здорово!
В-третьих, датасет. Никаких логов, самые настоящие клинические данные, скрупулезно собранные в медицинских учреждениях. 100 тысяч анонимизированных клинических анализов. Кроме того, механика решения задачи немного отличается от того, что мы обычно делаем на наших чемпионатах (см. раздел «Задача»).
В-четвертых, призы. Наши постоянные участники уже в курсе сложившейся схемы «top6 призовых мест + 50 сувенирных». Но есть небольшой сюрприз, об этом ниже.
В остальном же, чемпионат проходит как обычно — в течение одного месяца, с 15 июня по 15 июля 2017 года, участники должны решить ровно одну задачу.
Задача «Наличие ССЗ»
В рамках конкурса участникам нужно предсказать наличие сердечно-сосудистых заболеваний по результатам классического врачебного осмотра. Датасет сформирован из 100.000 реальных клинических анализов, и в нём используются признаки, которые можно разбить на 3 группы:
Объективные признаки:
- Возраст
- Рост
- Вес
- Пол
Результаты измерения:
- Артериальное давление верхнее и нижнее
- Холестерин
- Глюкоза
Субъективные признаки:
- Курение
- Употребление Алкоголя
- Физическая активность
Возраст дан в днях. Значения показателей холестерина и глюкозы представлены одним из трех классов: норма, выше нормы, значительно выше нормы. Значения субъективных признаков — бинарны.
Все показатели даны на момент осмотра. Теперь немного необычного.
Последняя группа признаков не имеет однозначной интерпретации и более того, собрана со слов самого больного. Поэтому, для части данных в тестовой выборке мы специально исключили эти параметры. Участникам придется либо предсказать их самостоятельно для некоторых случаев, либо вовсе игнорировать.
Данные поделены в соотношении 70/10/20. Тренировочная выборка состоит из 70 тысяч результатов, еще по десяти тысячам считается публичная метрика, доступная участникам в ходе соревнования. Оставшиеся 20 тысяч отправились в скрытую проверочную выборку, подсчет метрики по которой и определит победителей в финале.
Поскольку мы имеем дело с бинарной классификацией, метрикой является логарифмическая функция потерь.
Призы
Распределение шести призовых мест в этот раз выглядит так:
Top1: MacBook Pro
Top2: NVIDIA 1080ti
Top3: NVIDIA 1060
Top4-5-6: WD My Cloud 6 TB
По традиции, 50 лучших участников получат майки с символикой чемпионата.
Участники с наиболее интересными для организаторов решениями получат возможность стажировки или сотрудничества с Mail.Ru Group, Insilico Medicine и Министерством здравоохранения Республики Казахстан. Кроме того, специальным призом от жюри является поездка в Астану для личной встречи с министром здравоохранения Республики Казахстан.
Сообщество MLBootCamp
С каждым новым соревнованием наше сообщество в Telegram становится все больше. Профессионалы делятся опытом, новички учатся. Двери открыты для всех, так что присоединяйтесь.
Регистрация
Чемпионат стартует уже сегодня, в 18:00 по Москве. Регистрируемся здесь. Желаем удачи!
Комментарии (16)
SADKO
15.06.2017 20:52Я не никогда участвовал в конкурсах вроде этого, просто на данные взглянуть захотелось, проверить мыслишку одну, ибо дохтор внутри меня твердит что решение тривиально, но не суть…
… а в данные специально испорчены? это типа часть задачи?sat2707
16.06.2017 01:00+1Нет, специально мы данные не портили. Но мы специально не стали их чистить :)
SADKO
16.06.2017 03:42А очень похоже на логическую порчу, ибо вполне себе лечатся, и даже вписываются в общую модель…
… а тестовое множество, оно такое же будет весёлое?sat2707
16.06.2017 14:21Нет, честное слово, ничего не портили. Просто не чистили, дали как есть :)
А поделено равномерно. То есть, да, в тестовом должны сработать все те же ухищрения по чистке датасета
Germanets
16.06.2017 10:27Датасет сформирован из 100.000 реальных клинических анализов
Тут получается интересный момент — все эти 100.000 человек как минимум пришли в больницу по какой-то причине и после этого были направлены на проверку тех самых сердечно-сосудистых заболеваний(иначе в выборке просто не было бы ответа — есть заболевания или нет)… Я так подозреваю, что большинство из этих людей пришли в больницу уже с жалобами на сердечно-сосудистую систему, и выборка получается далека от среднего человека.sat2707
16.06.2017 14:23+1Не, на самом деле есть куча причин, по которым человеку могут измерить рост, вес, глюкозу итп. Та же диспансеризация, к примеру, так что выборка довольно репрезентативная
Germanets
16.06.2017 16:01+1Эти параметры — да, измерят, но как при этом поймут, что у человека есть\нет сердечно-сосудистых заболеваний? То, что человек на них не жалуется и не попадал с ними в больницу — это не показатель, я знаю 2х людей, у которых нашли врождённый порог сердца в 20, а до этого никто и не догадывался об отклонениях. Только если врачи при диспансеризации ещё и исследуют сердечно-сосудистую систему, а для этого у меня в больнице недостаточно даже отдельных жалоб на боли — нужно описать действительно какой-то серьёзный симптом и только тогда тебя отправят к специалисту — кардиологу или ещё кому-то.
sat2707
18.06.2017 03:25Честно говоря, я совсем не силен в медицине. Но вот как я на это смотрю:
Естественно, ни один врач не поставит диагноз лишь по этим 11-ти параметрам (были еще анализы, анамнез, в конце концов интуиция специалиста). И возможно, что у пациента были какие-то еще причины заинтересоваться состоянием своего здоровья, помимо простой диспансеризации.
Но так или иначе, вот мы имеем 100 тысяч пациентов, о которых мы знаем ровно 11 параметров и точно знаем факт наличия ССЗ после доп.исследований (если я вас верно понял, факт отсутствия ССЗ мы даже в этом случае можем знать лишь условно?). Почему бы не исследовать возможные корреляции. Конечно, вряд ли мы сразу же на выходе получим модель предсказания группы риска, подходящую для всех и каждого (я наконец-то понял смысл вашего первого комментария о «выборка далека от среднего человека»). Но с чего-то нужно начинать, я уверен, что результаты будут интересны :)
Кроме того, возможно чемпионат выявит DS-специалистов, заинтересовавшихся именно этой тематикой и желающих работать дальше именно в этом направлении.SADKO
18.06.2017 15:09точно знаем факт наличия ССЗ
Лично я в этом сильно сомневаюсь, ибо кроме косяков упомянутых мною выше, база сия полна пациентов чудных ;-)
CCЗ — не диагноз, но абстракция очень высокого уровня, и на самом деле, в ряде случаев доктор способен 100% определить наличие ССЗ только по одному виду пациента, и по циферкам в базе некоторые пациенты должны быть гарантированными обладателями ССЗ, но если верить базе они ими не являются…
… я грешу на потенциальные ошибки ввода любых параметров, включая само наличие ССЗ!sat2707
19.06.2017 10:41Ну если рассуждать логически и представить себе оцифровку медкарты, то скорее можно ожидать ошибку ввода любых параметров, _исключая_ наличие ССЗ :)
erwins22
Я надеялся на сотни реальных параметров…
sat2707
Довольно сложно собрать 100 x 100k. Мы бы с удовольствием, но… К тому же, не всё разрешено обнародовать