Как рассказывать о конференции, где ключевым словом было «данные»? Мы решили, что в тексте о прошедшей в Санкт-Петербурге SmartData интересно сделать подзаголовками конкретные числа. Эти данные получились очень разнородными, нейросеть из них вряд ли что-то полезное извлечёт, а вот вы можете.
0
Столько составляет количество предыдущих конференций SmartData: эта стала первой. И с точки зрения подготовки SmartData это означало, что невозможно было ориентироваться на отзывы о предыдущей. При организации конференций мы внимательно сравниваем выставленные докладам оценки и читаем отзывы, чтобы пойти в правильную сторону — можно сказать, что у нас reinforcement learning. Но первый раз — это всегда дефицит данных, и приходится экспериментировать. Удался ли эксперимент? Можете сами решить для себя, а мы приведём примеры того, о чём можно было услышать на конференции.
20700
Столько просмотров у августовского хабрапоста Виталия Худобахшова, который лёг в основу открывающего кейноута SmartData. Наблюдение, что люди с разными именами оказываются одинокими с ощутимо разной частотой, впечатляет своей контринтуитивностью: на это немедленно хочется возражать. Но доклад отличался от поста как раз тем, что учитывал возникшие после поста возражения: оказалось, что первые приходящие в голову варианты вроде «это боты картину исказили» не подтверждаются.
В итоге первое выступление конференции получилось одновременно и забавным, и в то же время вполне серьёзно подходящим к вопросу, там было и над чем посмеяться, и над чем задуматься.
2001
Это количество звёзд на GitHub у библиотеки CatBoost, озвученное в докладе Анны Вероники Дорогуш. А сейчас это число уже успело увеличиться до 2041 звезды (возможно, этому как раз поспособствовали зрители доклада). Также, как было замечено в докладе, сайт Infoworld недавно включил CatBoost в список лучших инструментов для машинного обучения.
В общем, пока в обществе много хайпа вокруг нейронных сетей, профессионалы активно интересуются и градиентным бустингом — зная, что для разнородных данных он может подходить куда лучше. А ещё лучше вместе: среди прочего в докладе упомянули, что в Яндексе для достижения наилучших результатов используют нейросети и градиентный бустинг в связке.
2
Столько библиотек градиентного бустинга сравнил Алексей Натёкин: в докладе «Карты, бустинг, два стула» он рассмотрел XGBoost и LightGBM, придя в итоге к выводу «использование GPU для градиентного бустинга нецелесообразно». И, возможно, то, что ограничился двумя, сыграло с ним злую шутку. Потому что та же Анна Вероника Дорогуш, зайдя на его доклад, во время вопросов и ответов начала аргументированно возражать, основываясь на опыте третьей: «Начнём с реализации на нескольких картах. Про LightGBM я согласна, что его очень сложно завести, но вот с ходу: CatBoost на нескольких картах...».
Начавшись сразу после доклада, дискуссия затем переместилась в дискуссионную зону. Ну, всегда интересно, когда получается оживлённое обсуждение, а не просто все кивают головой и расходятся!
ДВА МИЛЛИОНА ВОСЕМЬСОТ ПЯТЬДЕСЯТ ТЫСЯЧ, КАРЛ!
Это мы дословно цитируем слайд Ивана Дрокина. Он описывал, сколько рублей пришлось бы потратить в конкретном проекте, если для определения положения деталей на рабочей поверхности вместо компьютерного зрения использовался бы труд живых разметчиков.
Дальше он переходил к основному содержанию доклада, показывая, что если под рукой нет подходящего датасета с реальными фотографиями, чтобы «натренировать» на них, то возможно использовать искусственно сгенерированные. Но замечание о деньгах по-своему показательно. Работа с «большими и умными данными» отчасти связана с академическим миром, и на SmartData выступал, например, Алексей Потапов из ИТМО, однако конференция не превращалась в научный симпозиум, оторванный от приземлённых земных материй вроде денег. Здесь многое было посвящено не абстрактным данным в вакууме, а реальным индустриальным задачам, где значение имеет как размер датасета, так и размер бюджета.
14 000 000 000
записей отправляются в ленты пользователей Одноклассников ежедневно. Неудивительно, что теме «как составить ленту новостей наиболее правильным образом» компания уделяет большое внимание. На конференции Дмитрий Бугайченко рассказывал о технической реализации: там используется машинное обучение, но доклад был не конкретно о нём, а о всём сопутствующем, и зазвучали слова вроде Hadoop. Возможно, они звучат менее эффектно и хайпово, чем «нейросеть» — но, опять же, для практикующих специалистов значат не меньше, и по зрительским оценкам доклад занял второе место на конференции.
У нас сразу возник вопрос к Дмитрию не об основном содержании доклада, а вот о чём. Окей, для рядового пользователя соцсети такое составление ленты новостей может давать большое преимущество по сравнению с простым хронологическим подходом. Но продвинутые пользователи часто говорят «у меня в ленту уже аккуратно включено именно что я хочу, не вмешивайтесь со своими хитрыми алгоритмами» и постоянно переключают ленту Фейсбука из «top stories» в «most recent». Не хотят ли и Одноклассники ввести кнопку, позволяющую отказаться от всего этого машинного обучения?
Ответ Дмитрия оказался таким: вводить «кнопки для продвинутых пользователей» чревато тем, что менее продвинутые тоже на них нажимают, а потом страдают. Поэтому более правильным подходом будет «система сама понимает, какому пользователю нужна максимально прямолинейная лента». Вычленить таких — нетривиальная задача, но двигаться хочется в эту сторону.
2
Получится ли два расстояния от Земли до Марса, если записать на DVD данные, генерируемые человечеством за один день, и сложить эти диски в стопку? В перерывах между докладами можно было отдохнуть от потока сложной информации с помощью более развлекательной. Спонсорами конференции были Сбербанк-Технологии, EPAM и First Line Software, и третья из компаний на своём стенде собрала подобные факты о больших данных, предлагая угадать «правда это или нет». Можете тоже попробовать — прячем ответ под спойлер.
Скрытый текст
Нет: First Line нам сказали, что на самом деле получится расстояние от Земли до Луны, а не Марса. Можно догадаться, что в условии неправда, если вспомнить, что расстояние между Землёй и Марсом (в отличие от Луны) очень сильно меняется.
3,5
спикеров от Яндекса было на конференции. Во-первых, уже упомянутая Анна Вероника Дорогуш.
Во-вторых, Артём Григорьев, рассказывавший о краудсорсинге на опыте Яндекс.Толоки. Слово «толока» (форма деревенской взаимопомощи, то есть как раз своего рода краудсорсинг) на gramota.ru даётся с ударением на второй слог, а тут представитель одноимённого сервиса делал ударение на последний. Теперь пытаемся понять, какой же вариант правильный и можно ли узнать это с помощью краудсорсинга.
В-третьих, Владимир Красильщик, который рассказывал о «правильном устройстве» банковской системы, в чём ему помогал ещё «до-яндексовый» опыт. Высказываемые им идеи о том, что надо хранить все события в четырёх временах («время, когда событие произошло, когда мы о нём узнали, и две отметки для интервала его действия»), у некоторых зрителей вызывали возражения — так что после доклада с ним активно дискутировали.
А что с «половиной» спикера? Иван Ямщиков в случае с Яндексом выступает в роли «внешнего консультанта» — так что тут не совсем понятно, как считать. Зато по зрительским отзывам понятно вот что: его закрывающий кейноут о «творческом икусственном интеллекте» понравился аудитории сильнее всего. Тут, как и с открывающим кейноутом, получилось «одновременно весело и серьёзно». Когда слова об «исследовании пространства» иллюстрируют фотографиями детей, тискающих собак, это всем понятно. Когда про такую фотографию говорят, что там фидбэк явно скоро изменится с позитивного на негативный, это вызывает смех:
И когда Иван запускал музыку собственного проекта Neurona, где нейросеть на основе текстов Курта Кобейна сочинила тексты в его духе, это звучит очень доступно. Но серьёзности стоящей за этим работы и того, что человечество получило принциально новые возможности (даже если не считать их «настоящим творчеством»), это никак не отменяет.
Если лидерство выступления Ивана очевидно, то остальной фидбэк от зрителей (пока что продолжающий поступать) нам ещё предстоит как следует обработать и сделать выводы. И когда это сделаем, следующая SmartData окажется ещё умнее, чем первая!