К нам в гости заглянул Влад Грозин — создатель ODS Pet Projects, ex. Head of Data Science из компании INCYMO, чтобы поговорить за жизнь про получение PhD в Америке и экзистенциальные риски, связанные с разработкой рекомендательных систем: пузыри рекомендаций и появление алгоритмов, которые будут предсказывать желания пользователя.

На Хабре мы публикуем выжимку всего самого сочного из беседы с Владом. Полная запись разговора без купюр и монтажных склеек (но с легкими проблемами со звуком) доступна на YouTube.

Как поступить на PhD в США

Возможно, сейчас оптимальное время, чтобы пойти в Data Science и сорваться куда-нибудь на обучение, но в моем случае это был постепенный процесс.

Сперва была DM Labs, школа Леши Натекина, которая запустилась еще до Open Data Science. Затем удалось попасть в большой проект по оптимизации работы инкассации в одном банке. Потом я устроился в компанию к одному из лекторов DM Labs. Одна компания, другая… Когда выдался шанс запилить стартап, я за него ухватился и сейчас работаю в теме, связанной с компьютерными играми. С таким бэкграундом я решил устроиться в аспирантуру в США и уже второй год там учусь.

Я считаю, что Data Science лучше изучать на практике — идти и решать понятные для тебя задачи. В процессе выясняешь всякие особенности, нюансы, а потом читаешь пейпер. Так ты понимаешь, что тебе интересно, лучше запоминаешь, получаешь практический опыт.

Сертификат с профессиональных курсов показывает мало твоего личного импакта, курсы проходят все

Если работал над каким-то проектом (который, например, сам придумал, выложил на GitHub, или запустил где-нибудь на сервере), то это и навыки прокачивает быстрее, и в резюме выглядит очень круто.

Что касается места поступления, то я пришел к выводу, что нужно поступать не в университет, а к конкретному профессору. В американском университете научный руководитель очень сильно влияет на то, какие знания ты будешь получать, и чем вообще будешь заниматься. Поэтому есть смысл поступать даже в ноунеймный университет, но к хорошему нужному профессору. Также стоит посмотреть на людей, которые там учатся, на своих будущих коллег.

Перед поступлением я составил список ученых, которые внесли значительный вклад в развитие рекомендательных систем, посмотрел, кто из них набирает студентов. Получился список из шести-семи человек. Затем я просто наштамповал CV с резюме и отправил. Только не стоит спешить.

В одном месте я запорол процесс подачи, потому что неправильно указал даты. В результате создавалось впечатление, что я бакалавр, который решил в PHD прыгнуть

В итоге после личного общения с профессорами я понял, что Робин Бёрк — это человек, который мне близок по духу, по мотивации и по тому, как он делает многие вещи. Это один из отцов-основателей области рекомендательных систем. Он написал главу в книге Recommender Systems Handbook. На самом деле, так я о нем и узнал. Сейчас профессор Бёрк специализируется на исследовании отдельных аспектов рекомендательных систем, например, fairness в Колорадском университете в Боулдере. Туда я и пошел учиться.

Впрочем, нужно хорошо понимать, что ты делаешь и для чего. Хорошо, когда есть тяга к наукоемким проектам, но ведь может быть и иначе. Можно сразу после магистратуры пойти на PhD с целью набить себе цену на рынке. Возможно, это не оптимальная стратегия, но она имеет право на жизнь. Если хочешь получить бумажку, то можно и просто податься в топ-10 американских университетов. Если у тебя PhD в одном из них, то работодатели с руками оторвут.

Еще стоит иметь в виду, что очная аспирантура в США длится около 5 лет. Все эти пары, исследования, статьи сложно совмещать с работой, даже если это part-time. Ты становишься научным сотрудником research assistant, или teaching assistant и, условно, студентов по питону гоняешь. Это считается полноценной full-time занятостью, и легально дополнительно работать уже не получится. Будто возвращение к бакалавриату первых курсов — снова живешь в общаге на стипендию.

Для себя я решил эту дилемму так, что я одной ногой у себя в стартапчике — другой ногой в PhD. Но усидеть на двух стульях сложно, а удается в основном потому, что эти активности про одно и то же.

Data Science в геймдеве и синтетические данные

По сути, профессор Бёрк занимается моделированием поведения пользователя. Это очень близко к тому, чем я занимаюсь в стартапе.

Мы берем Data Science-решения — то, что хорошо работает, например, в электронной коммерции — и применяем эти идеи, технологии и модели в мобильных играх.

Процесс разработки и геймдизайнерские приемы сейчас отлажены и заоптимизированы по самые помидоры

Разработка простого мобильного релиза занимает три недели, но, при этом достижения прогресса в области Data Science в игровую индустрию пока не дошли. Один из последних проектов, которым мы занимались — генерация синтетических данных.

Представьте, что есть большая корпорация, у которой много пользователей и много разнородных данных. И есть ученые, у которых данных нет. Корпорации очень хочется, чтобы ученые поресерчили и нашли нечто полезное в данных, но она не может дать им эту информацию, как есть — это же личные данные пользователей.

Отсюда появилась идея — взять и сгенерировать на основании пользовательских данных новый синтетический датасет, который будет достаточно близок к исходному, но в котором не будет реальных пользователей, их персональных данных. Чтобы решить эту задачу, как раз и нужно подумать, а что такое «пользователь»? Как можно его смоделировать и как смоделировать его интеракции с твоей системой? Это очень востребованная тема. Достаточно вспомнить завирусившуюся среди специалистов историю с Netflix.

В 2006 году они сильно двинули область рекомендаций вперед, устроив соревнования. Они выложили довольно большой датасет с реальными данными об интеракциях пользователей с их системой, только ID закодировали. Для каждого пользователя и фильма, который он смотрел, они указывали рейтинг, но часть рейтинга была скрыта. Челлендж состоял в том, чтобы предсказать эти оценки на 10% лучше, чем это делают алгоритмы Netflix.

Netflix обещал победителям приз в 1 миллион долларов, так что за дело взялись все ученые, которые могли этим заниматься

В процессе выяснилось много неочевидных нюансов и деталей, про которые могли бы подумать, но не подумали. Например, система была заточена под предсказание рейтингов, но внезапно оказалось, что это не самая лучшая метрика, которую можно оптимизировать. Потому что на самом деле важно предсказать, скажем, топ-10 наиболее вероятно понравившихся пользователю фильмов. Реально нужна только верхушка.

Но почему это был первый и, наверное, последний, челлендж такого рода?

Одна девушка скачала этот датасет. Она знала, что смотрела, какие оценки оставляла и смогла найти свой аккаунт в наборе данных. Правда, у нее был общий аккаунт с бойфрендом. И тут она обнаружила, что он с кем-то по вечерам регулярно смотрит фильмы. Выяснилось, что он делал это с другой девушкой. Бойфренд не нашел ничего более умного, чем подать иск на Netflix. Теперь мы все знаем об этом, но сильнее всех в результате огреб Netflix. Так что в таких случаях вся надежда остается на синтетические данные, про которые я говорил.

Зачем дата-сайентистам философия, а нам новые дата-сайентисты

Не знаю, так ли во всех западных вузах, но мне очень понравилось, как учат на PhD в Колорадском университете. Ожидаешь, что тебя ждет хардкорный матан, типа: давайте запрогаем линал под GPU, и заоптимизируем, чтобы супербыстро считалось. На самом деле, нет.

Первый год изучали 10 сортов философии. Сначала я этого вообще не понял, и мне не очень понравилось, а потом, как понял, и понравилось

Линал под GPU ты сам напишешь, если почитаешь документацию или посмотришь уроки на YouTube. А когда дело касается таких более абстрактных тем, то… Декарта сам не пойдешь читать. Нужно, чтобы кто-то поставил такую задачу, а потом еще и спросил с тебя ревью. Но это как раз сильно расширяет кругозор и готовит к решению по-настоящему сложных, почти философских проблем, которыми никто системно не занимается.

Есть статья Пола Резника, где он описывает рекомендательную систему для новостей. Там он приходит к выводу, что для эффективной фильтрации достаточно проанализировать рейтинги интеракций пользователей с этими новостями. Эта статья замечательная во всех аспектах.

Она сдвинула парадигму с контента на поведение, а еще в ней прямо написано, как этот алгоритм скейлить. Но главное другое. В конце есть ремарка от автора на полстраницы, где он говорит про social implications и предполагает, что произойдет, если вдруг все начнут применять этот замечательный новый алгоритм. Что, возможно, будут создаваться filter bubble — такие маленькие деревеньки пользователей, которые потребуют один контент. И из-за этого будет поляризация общества.

Год выхода статьи — 1994-й. Прошло уже почти 30 лет, и мы наблюдаем это воочию.

Резник в воду глядел, все верно написал, верно предсказал. Только мы с этим ничего не сделали. Знали, куда придем, но туда и пошли

Теперь это довольно горячий топик — то, как работать с пузырем рекомендаций, что с ним делать и как спроектировать систему, которая будет агрегировать контент из разных источников и показывать людям разные стороны вопроса. Теперь многие над этим работают.

Или взять рекомендательные системы для онлайн-магазинов, например, в Amazon. От них тоже есть сильный социальный импакт. Если мерчанта по каким-то причинам не показывают в поиске, то он недополучит прибыль и, возможно, потеряет работу. К счастью, уже есть какие-то гайдлайны по тому, как должны работать такие системы. В то же время в контексте игр царит Дикий Запад. 

За годы экспериментов геймдизайнеры пришли к отточенным формулам, которые реально цепляют людей. А теперь представим, что этот аддиктивный геймплей, который хорошо вынимает деньги из кошельков, помножат на предсказание предпочтений игрока и на возможность на лету генерировать контент под эти предпочтения. Получается нечто очень страшное.

Я считаю, что уже сейчас нужно думать, что мы будем с этим делать. Как мы будем дальше с этим жить? И если никак, то как мы с этим будем бороться?

Вряд ли эта перспектива пугает крупные компании — скорее наоборот, ведь их задача максимизировать собственную прибыль. Остается надежда на ученых и стартапы, которые будут активнее искать новые ниши и новые формулы геймплея, которые будут более честными по отношению к игрокам. По крайней мере до тех пор, пока их не купит условный Netflix.

Этими вопросами нужно заниматься уже сейчас, чтобы, когда три — четыре — пять лет, когда это будущее наступит, сказать: «Ага! У меня есть формула, как сделать такие алгоритмы правильными, этичными и честными, чтобы геймеры не забывали про еду и не разорялись на лутбоксах».

Комментарии (2)


  1. KivApple
    07.09.2023 11:31

    В истории с Netflix, как я понял, главная проблема в том, что они выложили данные в общий доступ. Если бы данные были доступны только сотрудникам под NDA, то иск бы прилетел уже девушке, от Neflix. Наверное, создание синтетических данных актуально именно для конкурсов...

    Интересно как эта история переносится на современные реалии, где по GPDR сервис обязан выдать данные в машиночитаемом виде владельцу аккаунта. Там по идее так же получилось бы вычислить изменяющего парня.

    Не вижу, чем это принципиально отличается от случая с Netflix, ведь хоть данные и в общем доступе, узнать данные конкретной девушки можно только зная "ключ" в виде её просмотров и оценок, то есть нужно быть тоже владельцем аккаунта в каком-то роде. Человек без доступа к аккаунту не сможет деанонимизировать данные.


    1. larasage
      07.09.2023 11:31

      Достаточно было зашифровать ещё и фильмы. Синтетические данные дадут синтетическую ценность в данном случае.