Сегодня, 25 июня, стартует ML Boot Camp VI с задачей «Прогноз отклика аудитории на интернет-опрос» (если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер).

Спойлер
ML Boot Camp — чемпионат, посвящённый решению задач по машинному обучению. Схема работы: мы даём задачу, а участники в течение месяца решают её и присылают решения. Авторы лучших решений получают призы. В прошлый раз мы дарили MacBook Pro за первое место, NVIDIA 1080ti — за второе, NVIDIA 1060 — за третье, и WD My Cloud 6 TB за 4-6 места. По традиции, 50-ти лучшим участникам мы отправили майки с символикой чемпионата.

С каждым новым соревнованием аудитория ML Boot Camp значительно возрастает (на данный момент зарегистрировано уже 7000 участников из более 20 стран).

На старте участники получают условия задачи и словесное описание доступных данных — обучающую выборку. Выборка состоит из размеченных примеров — векторов описаний каждого объекта с известным ответом. Участники с помощью известных им методов машинного обучения тренируют компьютер и испытывают обученную систему на тестовой выборке, которая поделена на две части: рейтинговую и финальную. Победителем становится тот, кто получит наилучшие результаты на финальных данных.

В последний день чемпионата участник может выбрать два решения, которые будут представлять его в финале. Лучшее из них пойдет в зачет в таблицу лидеров.

Правила и полезные материалы вы можете найти на сайте чемпионата.

В этот раз мы предлагаем вам погрузиться в темную пучину маркетинга: в рамках очередного соревнования ML Boot Camp вы сможете спрогнозировать поведение пользователей в одном из масштабных маркетинговых исследований.

Мы предлагаем задачу соответствующего уровня, при этом стараемся, чтобы интересно было и профи, и новичкам. В этом чемпионате вас ждет настоящая исследовательская работа.

Формат соревнования не изменился: чемпионат будет длиться в течение одного месяца, с 25 июня по 25 июля 2018 года. Подробнее про призы и задачу — ниже.

Задача «Прогноз отклика аудитории на интернет-опрос»


Есть результаты интернет-опроса. Известно, что часть аудитории прошла анкетирование полностью и корректно. Другая часть завершила опрос частично, с ошибками, или совсем отказалась от участия. Необходимо с максимально возможной точностью предсказать, кто из респондентов относится к первой группе, то есть прошел исследование полностью и без ошибок.

Основной файл с данными содержит 19 528 597 строчек (10Гб) и состоит из 6 столбцов:

1. cuid — идентификатор. Для одного идентификатора в файле может содержаться несколько записей;
2. cat_feature — некоторая категориальная переменная. Область значений: {0,1,2,3,4,5};
3-5. счетчики, собранные на основе поведения человека в интернете. Формат: {w_1: c_1, w_2: c_2, ...}, где w_i — закодированный токен, а c_i — частота этого токена;
6. dt_diff — количество дней до даты, когда было получено значение целевой переменной.



Небольшой кусочек данных в качестве примера:

00000d2994b6df9239901389031acaac 5 {"809001":2,"848545":2,"565828":1,"490363":1} {"85789":1,"238490":1,"32285":1,"103987":1,"16507":2,"6477":1,"92797":2} {} 39

Предсказания необходимо сделать для 181 тысячи пользователей. Набор данных для обучения модели содержит таблицу с идентификаторами и значениями целевой переменной (427 995 записей).

Метрикой задачи является ROC AUC. Это значит, что ответом служит оценка принадлежности к классу, лежащая в диапазоне [0; 1] для каждого cuid. Данная метрика, по сути, оценивает правильность упорядочения классификатором объектов относительно одного из классов. В данном случае нас не интересует конкретная метка класса, которую выдаст алгоритм, или конкретная вероятность для каждого объекта. Нас интересует правильность самого упорядочения.

Конечно, бывает так, что в контексте конкретной прикладной задачи при равных roc_auc одно решение может оказаться лучше другого, но мы решили не усложнять задачу.

Призы


Распределение шести призовых мест в этот раз выглядит так:

Top1: Apple MacBook Pro 13
Top2: Apple MacBook Air 13
Top3: Western Digital My Cloud Mirror
Top4-5-6: Western Digital My Passport 4 TB

Как и всегда, топ-50 участников получат майки с символикой чемпионата, а участники с наиболее интересными решениями будут приглашены на собеседование в Mail.Ru Group на позиции Data Scientists.

Сообщество MLBootCamp


Присоединяйтесь к нашему сообществу в Telegram. Вы всегда можете задать вопросы, получить советы экспертов в области Data Science. Кроме того, сообщество чемпионатов Mail.Ru Group — это нетворкинг, где легко найти единомышленников.

Регистрация


Чемпионат стартует сегодня, в 19:00 по московскому времени. Регистрация открыта. Ждем всех и желаем удачи!

Комментарии (0)