В начале ноября стартовал чемпионат по машинному обучению и анализу данных под кодовым названием Telecom Data Cup, организаторами которого являются Mail.Ru Group и МегаФон.
Соревнование запущено на уже известной платформе ML Boot Camp. На ней стараемся проводить большинство своих контестов по анализу данных. Это соревнование уже второе по счету в этом году и седьмое за всё время существования проекта. Предыдущие чемпионаты открыты в режиме песочницы, что позволяет вам в любое время дня и ночи тренироваться в решении прошлых заданий.
На текущее соревнование зарегистрировалось свыше 2500 пользователей, 1700 человек скачали датасет, загружено 7800 различных решений, а сообщество в чате перешагнуло отметку в 1600 участников. Завершится соревнование 16 декабря, поэтому пора уже вступать в бойцовский клуб, если вы еще не в нем. Приветствуем и помогаем всем. Кофе или что-то свое собственное и бодрящее вам в помощь :)
В футере статьи вы найдете полезные ссылки и материалы по этому и предыдущим соревнованиям. Главное, что уже сейчас вы погрузитесь в мир задачи Telecom Data Cup, что позволит вам быстро втянуться в процесс и получить удовольствие от настоящих исследований.
Коротко про задачу
Те, кто уже в курсе того, что происходит на чемпионате, могут переходить к следующему разделу.
Все мы устаем от навязчивых телефонных и интернет-опросов «маркетологов». Представьте, как вам звонят и спрашивают, смотрите ли вы сейчас телевизор, какой канал, сколько устройств в данный момент включено и какая телепередача по ним идет. Боже, так и хочется бросить трубку (так часто и делаем). Пользователи негодуют, совсем неохотно делятся обратной связью, что негативно влияет на качество предоставляемых услуг. Проблема требует решения.
В этом соревновании нужно погрузиться в мир телекоммуникаций, чтобы на основе анонимизированных пользовательских данных, предоставленных телеком-оператором МегаФон и полученных в ходе опросов настоящих живых клиентов, предсказать, удовлетворены ли абоненты качеством связи.
Было опрошено 9443 абонента. Результатом опроса является индекс удовлетворенности для каждого абонента, равный нулю (0 — доволен) или единице (1 — не доволен). Необходимо с максимально возможной точностью выявить недовольных клиентов.
Метрикой, оценивающей ваши решения, выбран ROC AUC. Предсказание нужно сделать для 5221 абонентов в том же порядке, что и в файле subs_csi_test.csv. Данные можно скачать на сайте платформы. Предварительные результаты будут формироваться по ответам для 2088 абонентов, а финальные — по ответам для 3133 абонентов (40/60). Максимальное количество загрузок решений в день — 5, а количество выбираемых решений — 2.
Граали
Задача вызвала любопытство у сообщества. Участники выбирают разные пути решения. Одни генерируют N моделей, просматривают их, стекают и стекают, и… вуаля, — готово. Другие генерят фичи, изучают дисциплину «Информационные системы и технологии» по лекциям, выложенным в репозиторий, и вроде тоже всё нормально. А некоторые надеются на рандом с хорошим сидом.
Для того, чтобы лидерборд в конце конкурса приобрел более красивый вид, хотим поделиться с вами некоторыми Граалями по задаче.
Грааль №0.
Обратите внимание на чат и Github-репозиторий с лекциями. Там очень много полезной информации. Многие из нас мало представляют, как работает сеть. Кто ищет, тот всегда найдет! В репозиторий добавили короткую презентацию с описание работы БС и файл с распределением признаков по услугам.
В чате участники пытают организаторов. Пытаемся сдерживаться, но сложно.
Грааль №1
В предложенных данных поле cell_lac_id обозначает одну соту. Каждая сота принадлежит только одному поколению связи: 2G, 3G, 4G (LTE). Рекомендуем попробовать определить для каждой соты, к какому поколению она принадлежит.
Грааль №2
У каждого телефона есть максимальная технология передачи данных, которую он поддерживает: 2G, 3G, 4G. Информация об этом содержится в поле INTERNET_TYPE_ID таблицы subs_features. Поле закодировано. Подумайте, как можно определить, какое из значений этого поля соответствует какой технологии.
Грааль №3
Обратите внимание: если у какого-то клиента есть телефон с поддержкой 4G, но по истории мы видим, что он часто качает трафик через соты 3G или даже 2G, как этот факт может влиять на его восприятие качества связи?
Грааль №4
У клиентов есть соты, на которых они бывают часто и регулярно (дом, работа, дорога, магазин и т.п.), и соты, на которых они бывают редко и мало. Как вы думаете, качество каких сот может быть важнее для клиента? Как можно определить важные соты?
Грааль №5
В таблице subs_bs_consumption для интернет-трафика есть информация как об объеме переданных данных (SUM_DATA_MB), так и о затраченном на это времени (SUM_DATA_MIN). Какие сведения об опыте клиента на соте можно извлечь из этих данных?
Грааль №6
В таблицах bs_avg_kpi и bs_chnn_kpi есть информация о большом количестве характеристик сот как в среднем за день, так и в час наибольшей нагрузки (ЧНН), причем с историей за несколько месяцев. Попробуйте выделить группы сот, похожих друг на друга по этим характеристикам. Может быть, есть соты, сильно отличающиеся от общей массы? Что происходит с клиентами, которые часто бывают на этих сотах?
На этом Граали от организаторов закончились. Уверены, что они вам помогут в достижении лучшего скора на привате. Не получается — загружайте рандом, мало ли, взлетит на футболку. Всё самое интересное впереди. В конце чемпионата лидерборд будет гореть :) Запомните пятерку!
Расписание
Дата окончания чемпионата — 16 декабря, а 22 декабря награждение в офисе МегаФона.
Подарочки
1-е место: 400 000 рублей;
2-е место: 200 000 рублей;
3-е место: 100 000 рублей.
Традиционно — топ-200 получат футболки с символикой чемпионата.
Кроме того, есть специальные номинации:
- За самый «вжух» вниз на привате — SSD Kingston 120 Gb.
- Каждый участник, занявший место, кратное 50, получит футболку со стикером из пака сообщества.
Сообщество
Присоединяйтесь к нашему сообществу в Telegram. Вы всегда можете задать вопросы, получить советы экспертов в области Data Science. Сообщество чемпионатов Mail.Ru Group — это нетворкинг, где легко найти единомышленников.
Полезные ссылки
- ML Boot Camp I (Machine Learning Boot Camp — как это был...)
- ML Boot Camp II (ML Boot Camp 2016. Новичок в Топ-10, «Оценка производительности». Очень прост...)
- ML Boot Camp III. Бинарные данные (Как мы делали ML Boot Camp III, Победное решение конкурса ML Boot Camp I..., ML Boot Camp III: предсказание ухода пол...)
- ML Boot Camp IV. Задача с секретом (ML Boot Camp IV. Четвертый. Секретный. Т..., ML Boot Camp IV. С 1 в паблике на 35 в п..., Стабилизация и процессы Дирихле в решени...)
- ML Boot Camp V. Предсказание ССЗ (AgeHack — первый онлайн-хакатон по продл..., ML Boot Camp V, история решения на 3 мес..., Meetup по итогам чемпионата ML Boot Camp)
- ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос (ML Boot Camp VI. Прогноз отклика аудитор..., История первого места на ML Boot Camp VI).
Комментарии (3)
sigo73
07.12.2018 12:59Подскажите — говоря о граалях, это означает что задача уже была ранее решена самим владельцем датасета?
sergeyns
А я то думал чего это количество различных сот сильно больше общего числа БС всех операторов в России. А оказывается их много на одной БС )).