Привет Хабр,
Итак, мы провели Фестиваль Данных на выставке новых технологий SMIT в Музее Москвы, о котором писали здесь.
Это первое мероприятие из серии, в которой мы собираем экспертов из разных областей бизнеса, науки и государственного управления и рассказываем про аналитику данных.
Хранение и анализ данных, которые были прерогативой узкого круга компаний и людей теперь начинают затрагивать жизнь практически всех. По этой причине мы и начали данную серию мероприятий, где мы широкой аудитории рассказываем про данные и их аналитику.
Итак, что же было на Фестивале:
Сначала, Андрей Устюжанин (Руководитель совместных проектов Яндекса и CERN) рассказал, как машинное обучение помогает изучать Черную Материю.
Далее, Алексей Воробьев и Кирилл Краснощеков (ГУП «НИ и ПИ Генплана Москвы») рассказали про использование Больших Данных для планирования города.
Наталья Калайтанова (Медиаэксперт компании DCA) рассказывала про изменение подхода к медийным размещениям с помощью аналитики.
Никита Котляров из Avito рассказал про использование машинного обучения для блокирования обманных объявлений на Авито.
Юрий Кашницкий из Школы Данных «Билайн» рассказал про важность анализа выбросов в данных на примере выявления очень успешных моделей Playboy по своим параметрам не подходящим под классические каноны.
Ростислав Яворский (Доцент департамента анализа данных и искусственного интеллекта факультета компьютерных наук НИУ ВШЭ) рассказывал про анализ социальных сетей.
Сергей Марин из департамента Big Data Билайн и основатель Школы Данных «Билайн» рассказал про использование Больших Данных для создания персонализированного клиентского опыта на уровне каждого клиента.
Все презентации доступны здесь.
Также, в рамках Фестиваля мы провели Хакатон по анализу данных. Темой Хакатона было — предсказание связей между абонентами.
Специально для хакатона мы сгенерировали синтетические данные, максимально близкие к реальности, которые описывали граф связей между различными абонентами. Вершин графа было более миллиона.
После, мы специальным образом зашумили эти данные, разрушив некоторые из связей. Задачей было — восстановить максимальное количество связей, попутно, не создав множество новых ребер, раннее не существующих.
Мы не ограничивались простым фактом существования какой-либо связи между пользователями, но также добавили информацию о величине и форме связи между ними.
Описание полей файла:
A — Id абонета А,
B — Id абонета B,
x_A — Id оператора абонета А,
x_B — Id оператора абонета В,
c_AB — количество звонков от А к В,
d_AB — длительность звонков от А к В,
c_BA — количество звонков от В к А,
d_BA — длительность звонков от В к А,
s_AB — количество смс от А к В,
s_BA — количество смс от В к А
Участникам также был предоставлен код для ознакомления со структурой формата решения и для внутренних проверок:
Benchmark.ipynb — пример простого решения с конвертацией ответа в специальный формат, требуемый для проверки результатов.
Checker.ipynb — код, которым будет проверяться качество решения.
В ходе Хакатона мы поняли, что предлагаемая задача интереснее и сложнее, чем нам виделось раньше, и мы решили не ограничиваться исходными четырьмя часами, дав зарегистрировавшимся участникам время до 18:00 среды 23 декабря. Для этого, мы оперативно перевели Хакатон в онлайн режим.
Последующий формат онлайн взаимодействия был следующий:
Была создана форма в гуглформах, в которой зарегистрированные участники указывали следующую информацию:
Имя и Фамилия (или никнейм)
Почта
Прямая ссылка на выложенный submission.csv
Комментарий — на случай вопросов
Итоговый документ был виден только организаторам.
Раз в день или чаще мы:
Скачивали решения и прогоняли их через чекер с исходными данными
Обновляли рейтинг и результаты участников
Отвечали на вопросы
После 6 вечера в среду мы подвели результаты и определили победителей. Ими оказались:
1-ое место: Александр Кукушкин. Приз: Сертификат на обучение в Школе Данных Билайн
2-ое место: Антон Устинов. Приз: Билет на Квест
3-ье место: Георгий Зубриенко. Приз: Наушники
Александр выложил описание своего решения здесь.
Все ребята большие молодцы! Все призы мы торжественно вручим в первую неделю января в центральном офисе «ВымпелКом» в Москве.
В целом, хочется сказать Огромное Спасибо всем участникам нашего Фестиваля, а также выразить надежду, что само мероприятие и организация понравились.
Это первое из подобных мероприятий и в следующем году мы планируем их много больше. Следите за анонсами на Хабре и подписывайтесь на новости на странице Школы.
В довершение этого года и в продолжение парадигмы рассказать про аналитику данных широкой аудитории мы выступили в эфире радио Комсомольская Правда, где рассказали про аналитику данных, про тренды и про Школу Данных. Запись эфира доступна здесь.
Всех с Наступающими Праздниками и до встреч в Новом Году!