Привет, Хабр. В этом посте я хочу анонсировать новое мероприятие в рамках Moscow Data Science Meetupworkshop hackathon практический семинар по анализу данных и машинному обучению. Итак кратко: { «когда»: «27 июня 2015, регистрация с 10 утра, начало в 11 утра», «где»: «московский офис Mail.Ru Group», «продолжительность»: «пока не разойдемся», «тема»: «поиск», «ЦА»: «начинающие специалисты и выше», «требования»: [ «минимальные знания в области машинного обучения и анализа данных», «владение как минимум одним языком программирования», «наличие ноутбука и зарядника для него», «присутствие в рейтинге конкурса Search Results Relevance» ], «регистрация»: «вот тут»}. За подробностями прошу под кат.

Предыстория


Уже два года, ежеквартально в московском офисе компании Mail.Ru Group проходят встречи специалистов в области анализа данных и машинного обучения. Весенняя встреча состоялась в конце мая, а следующая планируется на конец лета. Как правило, наши встречи состоят из трех-четырех докладов практикующих программистов, аналитиков и ученых с последующим обсуждением, которое плавно перетекает в одно из увеселительных заведений района метро Аэропорт, где мы, естественно, продолжаем обсуждение затронутых в докладах тем. В процессе обсуждения мы часто поднимаем тему того, что было бы неплохо не только обсуждать практику, но и поработать всем вместе над какой-нибудь проблемой. Но практическая часть никак не вписывается в формат наших встреч. Именно для этого мы решили провести экспериментальный семинар, где мы весь день (а может, и ночь) будем работать над одной проблемой. Если такой формат понравится гостям, то такие семинары станут регулярным дополнением к основной ежеквартальной встрече. Итак, подведу итог:
  • целью мероприятия являются профессиональные знакомства, общение и обмен опытом в процессе решения задачи;
  • мы не планируем соревноваться друг с другом;
  • практический семинар не является учебным классом для абсолютных новичков;
  • на семинаре нет учителя, который ходит по аудитории и подсказывает, как правильно, есть только модератор, который является таким же участником семинара, как и все остальные.

Данные


Задачу хотелось выбрать наиболее нейтральную, а также, чтобы после семинара участники могли сразу же где-то применить новые знания и написанный код. Выбор, несомненно, пал на платформу Kaggle. Изучив несколько подобных (If you can’t beat them, invite them и Hacking the Otto Group Challenge in Paris) мероприятий, пообщавшись с участниками и организаторами, мы решили, что подобный формат нас полностью устраивает. Кэгл также поддержал нас, но поставил условие, что весь код, написанный в процессе работы, должен быть открыт:

The only tricky part is to be careful about our competition rules regarding sharing code privately. If you work on code together, make sure that either you're all on one single team, or that the code is posted publicly in the competition forums.

Для этого на страницах конкурсов есть специальный раздел для скриптов. Конечно, это не мешает никому, в том числе и вам, использовать полученный код в конкурсе после семинара, улучшая его, не публикуя новые улучшения.

И еще один важный момент: на ежеквартальные встречи к нам в офис приходит около 100-150 человек, но для уютного практического семинара это, вероятно, слишком много людей. Так что мы решили ввести онлайн-часть с небольшим фильтром (как нам кажется, честным): за две недели до семинара мы будем анонсировать конкурс, на котором будем практиковаться; за 3 дня до мероприятия мы отранжируем все заявки по их положению в турнирной таблице, и первым N участникам пришлем приглашения. В этот раз N = 40 (есть мнение, что это все, кто вообще подаст заявки и сделает сабмит на кэгл), а конкурс выбран этот — Search Results Relevance. Мы надеемся, что такой фильтр поможет избежать превращение семинара в класс по обучению основам анализа данных, а также позволит собравшимся сразу заняться делом, а не тратить время на изучение конкурса.

Программа


Онлайн-часть с 15 по 24 июня включительно:


Офлайн-часть 27 июня в московском офисе Mail.Ru Group:

  • 10:00 — начало регистрации;
  • 11:00-11:30 — короткая лекция о том, как побеждать на кегле от одного из топовых участников;
  • 11:45-12:15 — короткая лекция о машинном обучении для задач поиска (Владимир Гулин, team lead в Поиске Mail.Ru);
  • 12:30-13:00 — общее знакомство и стихийное разделение на рабочие группы;
  • 13:00-17:00 — две рабочих итерации;
  • 17:00-18:00 — обед (вероятно, пицца);
  • 18:00-22:00 — еще две рабочих итерации;
  • 22:00-… — финальный крутой сабмит (желающие продолжают работать =).


Одна рабочая итерация — это примерно:

  • 1.5 часа — работа над задачей в группах;
  • 0.5 часа — общее обсуждение и мозговой штурм.

Проходить все это будет в большом зале с уютными рабочими местами и кинозалом для общих обсуждений.

Анализ данных — это такой же навык, как и спортивное программирование, и этот навык теряется, если его не тренировать. Нам хотелось бы создать формат мероприятия, который позволил бы начинающим и более старшим специалистам собираться вместе для практики, обмена опытом и общения. Мы были бы признательны, если уважаемая публика высказала бы свои пожелания — это поможет нам скорректировать следующие семинары.

UPD:
Многие спрашивают каким образом отбираются заявки, и нужно ли попасть в топ-40?
Ответ: нет! мы выберем топ-40, среди всех кто подал заявки, а не вообще по лидборду кэгла =) не переживайте, я думаю пригласим всех, кто подаст заявку в правильном виде — со ссылкой на кэгл аккаунт

Комментарии (2)


  1. lightcaster
    16.06.2015 16:48

    Я б сходил, если успею в Мск доехать. А сколько людей планируется? Похоже что сабмит на Кагл может многих отфильтровать.

    Павел, ты организатор?


    1. mephistopheies Автор
      16.06.2015 17:55

      А сколько людей планируется?

      я думаю если 35-40 сделает сабмит и пришлет заявку то это успех, цифра выбрана как раз из предположения, что именно столько людей пришлет правильные заявки, так что думаю никто не останется не приглашенным, если сделал все верно; конечно если заявок внезапно окажется чуть больше, то позовем всех

      Павел, ты организатор?

      не я один, и мейлру ессесно =) я на этой встрече буду модератором

      если успею в Мск доехать.

      ждем