Исследователи космоса отворачиваются от небес, чтобы помочь вам решить, что надеть, что смотреть и что слушать. Но и данные по звёздам, и данные магазина Stitch Fix обрабатываются с использованием машинного обучения.



Stitch Fix – одна из компаний, использующих физику, чтобы лучше понять все проблемы стиля своих клиентов

Крис Муди не понаслышке знаком со Вселенной. Как астрофизик он делал симуляции галактик, моделировал на суперкомпьютерах расширение Вселенной и столкновения галактик. Однажды вечером, вскоре после защиты докторской в Калифорнийском университете в Санта-Круз, он встретился с группой других астрофизиков за кружечкой пива. Но в тот вечер никто из них не говорил о галактиках. Они говорили о моде.

Пара приятелей Муди, астрофизиков, недавно бросили науку, и перешли в Stitch Fix, компанию, предоставляющую онлайн-услуги стилиста, которую сегодня оценивают уже в $2 млрд. Муди с удивлением воззрился на них. «Они спросили меня: Ты что, не считаешь эту задачу интересной?» – говорит он. И он действительно так думал. Однако когда его друзья, используя такие фразы, как «байесовские модели» или «пространство Пуанкаре», подробно описали свою работу, состоящую в том, чтобы предсказывать, какая одежда может понравиться клиенту, она странным образом была похожей на ту работу, которой он занимался для докторской. Он обнаружил, что количественная оценка стиля «оказалась очень близкой аналогией общей теории относительности».

Прошло четыре года, и теперь Муди тоже работает на Stitch Fix. Он из постепенно растущей группы дезертиров от астрофизики, прекративших исследовать космос и начавших создавать алгоритмы рекомендации и модели данных для технологической индустрии. Они входят в команды специалистов по науке данных в таких компаниях, как Netflix, Spotify и Google. И даже в элитарных университетах всё меньше астрофизиков после защиты докторской остаются в академической среде. Всё больше таких людей отправляются в Кремниевую долину.

Чтобы понять, что влечён астрофизиков к стартапам, занимающимся потребительскими продуктами, вспомним недавний всплеск интереса к машинному обучению (МО). Астрофизики, обрабатывающие огромные массивы данных, собранных мощными телескопами, глядящими в небо, давно уже использовали модели МО, «обучающие» компьютеры выполнять задачи на основе предоставленных примеров. Скажите компьютеру, что нужно найти в одной фотографии межгалактического пространства, и он сможет сделать это для 30 млн остальных фотографий, а потом начать делать предсказания. Однако МО можно использовать и для предсказаний поведения пользователей, и в 2012 году корпорации начали набирать людей, знающих, как применять этот метод.

Сегодня МО лежит в основе практически всего, от коробок с одеждой в Stitch Fix до персонализированных рекомендаций фильмов в Netflix. Как Spotify удаётся так идеально предсказывать песни, которые удивят и порадуют вас, в еженедельных персонализированных списках? Это работает машинное обучение. И хотя МО уже составляет собственную область для исследований, раз учёные из таких областей, как астрофизика, уже много лет работают с такими моделями, из них получаются идеальные кандидаты для наполнения команд, работающих с наукой о данных.

«Мы уже занимались большими данными, ещё до того, как большие данные стали отдельной областью», — говорит Судип Дас, бывший астрофизик, работающий в Netflix.

Дас защитил докторскую в Принстоне, исследуя реликтовое излучение – электромагнитное излучение, оставшееся от Большого взрыва [точнее, оно образовалось через 380 000 лет после Большого взрыва, когда закончились «тёмные века» / прим. перев.]. После этого несколько лет он изучал данные, полученные космологическим телескопом Атакама в Чили. Телескоп каждую ночь собирал порядка терабайта данных из космоса, и в этом огромном массиве данных Дас обнаружил неуловимый астрофизический сигнал. Это было редкое вознаграждение за годы скрупулёзной работы. Это открытие привлекло к нему внимание Мичиганского университета, где ему предложили должность ассистент-профессора.

Однако Дас отказался и вместо этого переехал в Кремниевую долину – сначала на работу специалиста по данным в Beats Music, потом в OpenTable, а теперь и в Netflix.

На решение уйти из научного мира повлияло не так много факторов: зарплата выше, и работа понасыщеннее. «Существуют препятствия на пути в члены постоянного штата института», — говорит он. А на территории залива Сан-Франциско ни ему, ни его жене – тоже астрофизику — не нужно было волноваться о поиске работы. Однако настоящим сюрпризом для него стало то, что работа в технологических компаниях была действительно интересной. Он встретился в Beats с «единомышленниками, работавшими над задачами сходными по интеллектуальной сложности». Математика та же, применение другое.

Дас замечает, как всё больше физиков меняет тяжкую долю учёного – где можно лет десять заниматься ненадёжной финансово работой постдока – на лёгкую и хорошо оплачиваемую работу в технокомпаниях. «Из всех моих сокурсников, защитивших докторскую в Принстоне, только два человека не перешли в коммерческие компании, — говорит он. – Чтобы оставаться там, нужно быть учёным до мозга костей».

Этот большой взрыв захватил всю индустрию. «Астрофизики – наша группа номер один», — говорит Эрик Колсон, главный заслуженный специалист по алгоритмам в Stitch Fix. «У большинства людей имеется докторская из области работы с численными данными, но если построить график, думаю, астрофизики окажутся на первом месте. Они очень хорошо преподают математику – очень многие физики лучше разбираются в математике, чем математики. Они также хорошо преподают программирование. Они лучше разбираются в информатике, чем большинство специалистов по информатике».

Муди, пришедший в команду к Колсону в 2015-м, направил полученные при работе в области астрофизики знания на решение таких задач, как разметка «скрытого стиля» клиента – уникального личного вкуса в одежде. Stitch Fix не просит клиентов определять свой стиль при помощи каких-то банальных ярлыков. Она собирает данные по предпочтениям людей в покупках и при помощи инструментов типа Style Shuffle – нечто вроде тиндера для одежды, где люди могут отмечать, понравились им или не понравились определённые вещи. После сбора все эти данные формируют «пространство стиля» – карту всего того, что нравится клиентам, и то, как эти предметы связаны друг с другом. Муди с командой используют эту модель для предсказывания того, что ещё может понравиться клиенту. Алгоритм может сделать вывод, что если вам нравятся толстые бусы, вам могут понравиться и бусы из бисера – сходным образом алгоритмы Netflix предполагают, что вам может захотеться посмотреть ещё одну комедию с женщиной в главной роли.

Муди говорит, что подобные задачи не так уж и сильно отличаются от тех, с которыми он имел дело при работе над докторской. Карта скрытого стиля? «Это пространство Пуанкаре. Это то, что Эйнштейн использовал для описания релятивистских пространств», — говорит Муди.

В понимание скрытого стиля вовлекаются и другие физические принципы. Команда Муди использует такую вещь, как спектральное разложение матрицы, концепцию из линейной алгебры, для разделения отдельных «ноток» в индивидуальном стиле – нечто вроде того, что вы «дёргаете гитарную струну и слушаете наложение нескольких нот». Клиенту могут нравиться вещи женского покроя, но более казуальные, чем профессиональные. У стиля каждого человека есть множество точек данных – мало каких людей можно отнести к чётко обозначенным стилям – и Муди говорит, что при помощи физики его команда лучше понимает все сложности отношения клиентов к стилю.

«Никто из тех, кто изучает физику, не собирается заниматься одеждой, но оказывается, что эта область феноменально богата, — говорит Муди. – Удивительно пытаться думать о личном стиле человека с точки зрения науки».

Колсон говорит, что многих астрофизиков в его команде работа в компании привлекает «из-за тех видимых результатов, которые редко встречаются в теоретической науке. Здесь они могут отправить вещь в производство и увидеть результаты». Когда Муди всё делает правильно, Stitch Fix с большей вероятностью предложит клиентам вещи, которые тем понравятся – и эту метрику его команда может отслеживать и улучшать в ежедневном режиме.

В научном мире астрофизики годами могут биться над одной и той же задачей. А многие из самых интересных проблем уже решены, говорит Амбер Робертс, бывшая инженером по машинному обучению и астрофизиком, а ныне – сотрудница компании Insight Data Science, помогающей учёным переходить в индустрию. «Мы узнали размер Вселенной. Мы измерили скорость света. Мы нашли пульсары. Мы нашли чёрные дыры, — говорит она. – Многие из этих крупных открытий, к примеру, понимание принципов работы пространства-времени или гравитационное искажение, и заставили людей заинтересоваться изучением космоса и космологией. Однако реально то, чем вы занимаетесь – это расширяете очень малую долю области знаний, и по три года работаете над написанием научного труда, который заинтересует десяток людей во всём мире».

Дас, астрофизик, работающий на Netflix, говорит, что от романтики, окружающей изучение Вселенной, тяжело отказаться. «Когда я объясняю происходящее моим родителям, они говорят: Ты же такие потрясающие вещи делал со Вселенной, а теперь ты подсовываешь людям рекомендации по фильмам!» – говорит Дас. Однако он соглашается, что его рутинная работа больше связана с техническими вопросами, типа «попыток уменьшить ошибку в измерении параметра с 50% до 5%», вместо изучения Вселенной.

В Netflix техническая работа примерно так и выглядит. Но когда он задумывается над тем, что реально делает на работе –объединяет людей по всему миру с фильмами и историями, которые помогут им лучше понять друг друга – он чувствует не меньшее удовлетворение от своего вклада, чем когда он работал астрофизиком. «Это похоже на изучение другой вселенной, — говорит Дас. – Вселенной человеческих существ».

Комментарии (1)


  1. Victor_koly
    25.10.2019 10:49

    реликтовое излучение – электромагнитное излучение, оставшееся от Большого взрыва.


    Даже в Вики написано правильно. Я в курсе, что перевод, но на самом деле было
    Так
    Вселенная постепенно охлаждалась и через 379 000 лет после Большого Взрыва стала достаточно холодной (3000 К): замедлившиеся электроны получили возможность соединяться с замедлившимися протонами (ядрами водорода) и альфа-частицами (ядрами гелия), образуя атомы (этот процесс называется рекомбинацией). Таким образом, из состояния плазмы, непрозрачного для большей части электромагнитного излучения, материя перешла в газообразное состояние. Тепловое излучение той эпохи мы можем непосредственно наблюдать в виде реликтового излучения.