Как мы уже неоднократно сообщали ранее, в этом году компания JUG.ru Group решила заглянуть в будущее и
Зачем мы собираем конференцию по Big Data и машинному обучению? Потому что не можем не собрать. И чтобы обратить в наше братство как можно большее количество разработчиков, мы традиционно открываем бесплатную онлайн-трансляцию из первого зала конференции.
Итак, бесплатная онлайн-трансляция из главного зала SmartData 2017 начнётся 21 октября 2017 года в 9:30 утра по московскому времени. Только вы, мы и будущее. В этот раз трансляция будет доступна в 2k — доставайте ваши 4k мониторы!
Ссылка на онлайн-трансляцию первого трека конференции SmartData 2017 и краткое описание докладов — под катом.
Смотреть онлайн-трансляцию
В первом треке конференции, проходящем в главном зале, выступают:
- Виталий Худобахшов — Имя — это фича
- Михаил Камалов — Рекомендательные системы: от матричных разложений к глубинному обучению в поточном режиме
- Сергей Николенко — Глубокие свёрточные сети для обнаружения объектов и сегментации изображений
- Дмитрий Бугайченко — От клика к прогнозу и обратно: Data Science-пайплайны в Одноклассниках
- Артем Маринов — Сегментируем 600 миллионов пользователей в режиме реального времени каждый день
- Александр Крашенинников — Hadoop high availability: опыт Badoo
- Иван Ямщиков — Neurona: зачем мы научили нейросеть писать стихи в стиле Курта Кобейна?
В перерывах между докладами, когда спикеры и участники на площадке удаляются в зазеркалье дискуссионных зон, зрителям онлайн-трансляции мы показываем репортажи о внесессионных событиях конференции и берём увлекательные интервью у докладчиков и интересных гостей. Если по ходу интервью у вас возникает собственный вопрос — пишите его в Telegram-чат конференции. Вот как это выглядело на JPoint:
Программа первого трека
9:30 — 10:30 // Открытие, интервью с командой JUG.ru Group, вступительные слова от организаторов и партнеров конференции.
10:30-11:20 Виталий Худобахшов — Имя — это фича
Как бы странно это ни казалось образованному человеку, вероятность быть одинокой/одиноким «зависит» от имени. Мы поговорим про любовь и отношения, а точнее, что именно могут рассказать об этом данные социальной сети. Это примерно всё равно, что сказать: «Вероятность быть сбитым машиной, если тебя зовут Серёжа, выше, чем если бы тебя звали Костя!» Звучит довольно дико, не правда ли? Ну, как минимум, ненаучно. Таким образом, мы поговорим о самых неожиданных и контринтуитивных наблюдениях, которые можно сделать с помощью анализа данных в социальных сетях. Конечно, мы не обойдём вниманием вопросы статистической значимости таких наблюдений, влияния ботов и ложных корреляций.
11:40-12:30 Михаил Камалов — Рекомендательные системы: от матричных разложений к глубинному обучению в поточном режиме
В настоящее время рекомендательные системы активно применяются как в сфере развлечений (YouTube, Netflix), так и в сфере интернет-маркетинга (Amazon, Aliexpress). В связи с этим, в докладе будут рассмотрены практические аспекты применения глубинного обучения, коллаборативной и контентной фильтрации и фильтрации по времени как подходов в рекомендательных системах. Дополнительно будет рассмотрено построение гибридных рекомендательных систем и модификации подходов для онлайн-обучения на Spark.
12:50-13:40 Сергей Николенко — Глубокие свёрточные сети для обнаружения объектов и сегментации изображений
Свёрточные нейронные сети давно стали основным классом моделей для обработки изображений. В докладе мы обсудим, как сети, распознающие отдельные объекты, превращаются в сети, выделяющие объекты среди массы других. Мы поговорим и о знаменитом YoLo, и о single-shot detectors, и о линии моделей от R-CNN до совсем недавно появившейся Mask R-CNN.
14:25-15:15 Дмитрий Бугайченко — От клика к прогнозу и обратно: Data Science-пайплайны в Одноклассниках
Машинное обучение — это весело, но чтобы оно работало в промышленности, нужно делать много всего скучного. В данном докладе мы рассмотрим все технологии, алгоритмы и методы, необходимые для того, чтобы ваше машинное обучение сияло, как бриллиант в золотой оправе.
В качестве примера мы рассмотрим одну сложную задачу — персонализацию новостной ленты. Не вдаваясь в детали машинного обучения, мы поговорим о сборе данных (пакетном и в режиме реального времени), ETL, а также об обработке, необходимой для получения модели.
Но просто получить модель недостаточно, поэтому мы также поговорим о том, как получить основанные на модели прогнозы в сложной высоконагруженной распределённой среде и как их использовать для принятия решений.
В данном докладе мы поговорим о технологиях обработки и хранения данных экосистемы Hadoop, а также о многом другом. Этот доклад будет полезен тем, кто занимается машинным обучением не только для развлечения, но и для профита.
15:35-16:25 Артем Маринов — Сегментируем 600 миллионов пользователей в режиме реального времени каждый день
Каждый день пользователи совершают миллионы действий в Интернете. Проекту FACETz DMP необходимо структурировать эти данные и проводить сегментацию для выявления предпочтений пользователей. Расскажем, как мы, используя Kafka и HBase:
• сегментируем 600 миллионов пользователей после перехода с MapReduce на Realtime и как мы это сделали;
• обрабатываем 5 миллиардов событий каждый сутки;
• храним статистику по количеству уникальных пользователей в сегменте при потоковой обработке;
• отслеживаем влияние изменений параметров сегментации.
16:45-17:35 Александр Крашенинников — Hadoop high availability: опыт Badoo
Инфраструктура Hadoop – популярное решение для таких задач, как распределённые хранение и обработка данных. Хорошая масштабируемость и развитая экосистема подкупают и обеспечивают Hadoop’у прочное место в инфраструктуре различных информационных систем. Но чем больше ответственности возлагается на этот компонент, тем важнее обеспечивать его отказоустойчивость и высокую доступность. В докладе мы расскажем про обеспечение высокой доступности компонентов Hadoop-кластера. Кроме этого, поговорим:
• о «зоопарке», с которым мы имеем дело;
• о том, зачем обеспечивать высокую доступность: точки отказа системы и последствия отказов;
• о средствах и решениях, существующих для этого;
• о нашем практическом опыте внедрения: подготовка, деплой, проверки.
Доклад будет наиболее полезен тем, кто уже использует Hadoop (для углубления своих знаний). Другой части аудитории доклад будет интересен с точки зрения обзора архитектурных решений, применяемых в этом программном комплексе.
17:50-18:40 Иван Ямщиков — Neurona: зачем мы научили нейросеть писать стихи в стиле Курта Кобейна?
В 2017 году «искусственный интеллект» — это словосочетание, которое слышно из каждого утюга. Есть много примеров применения машинного обучения и искусственных нейронных сетей в бизнесе, но в этом докладе мы поговорим о творческих возможностях ИИ. Расскажем, как мы делали Neurona, Нейронную Оборону и Пианолу. Мы обсудим современные задачи в области построения творческого ИИ и поговорим о том, почему это важно и интересно.
Подводя итог нашему анонсу, вспомним цитату из популярного кинофильма: «Жизнь на Земле — это загадка. Но её составляющие являются технической проблемой».
Присоединяйтесь!
Ограничения
- Трансляция предоставляется по принципу as is: мы уверены, что всё будет хорошо, но если вдруг что – не обессудьте!
- Видеозаписи. Будут доступны практически сразу, но только для участников конференции, оставивших фидбэк. А для всех остальных мы традиционно выложим их через 3-4 месяца на YouTube-канал конференции.
- Вы не сможете смотреть, что происходит в других залах. А там будет много интересного. В следующий раз приобретайте билеты и смотрите всё без ограничений.