Привет, %username%! Сегодня мы поговорим об истории персонализации контента, принципах формирования “контентного пузыря” каждого из нас, как на основе личных предпочтений, так и на основе цифрового отпечатка пользователя. Ну а рассказывать будет Лидия Храмова, team lead data scientist в компании QIWI и преподаватель курса «Профессия? ?Data? ?Scientist?» в Skillbox. Она постаралась рассказать о самых важных и интересных нюансах процессов формирования контента так, чтобы эта статья была понятна всем, а не только специалистам.
Все самое интересное — под катом!
Листая в утренней дреме ленту любимой социальной сети, мы едва ли задумываемся, как работает алгоритм, предоставляет интересную именно нам информацию. Благодаря этому и другим алгоритмам контент следует за нами всюду. Если повезет – он похож на большое уютное одеяло с атмосферными фото и музыкой, если не повезет – тянется за нами назойливым и липким облаком, от которого хочется отмахнуться, хотя получается это далеко не всегда.
Кажется, мы и не заметили, когда у физического мира появилось новое измерение – измерение контента со своими правилами и особенностями. Но привыкли мы к нему быстро.
Изобилие информации заставляет нас забыть о том, как добывать и просеивать крупицы знаний и опыта – ведь она, готовая и отсортированная, уже лежит на нашей тарелке, словно ассорти из деликатесов. Но откуда все это появляется, а главное — как мы можем повлиять на свое контентное окружение? Да и можем ли?
История ранжирования и поиска
Вопреки популярным представлениям, инструменты подбора и ранжирования информации для разных полезных целей – довольно старое изобретение. Оно появилось не сейчас, а в эпоху полузабытых ныне библиотечных каталогов.
До изобретения в 15 веке книгопечатного станка библиотечный каталог являлся всего лишь описью драгоценных книг с указанием их названий. Именно появление печатных копий зародило в библиотекарях и читателях необходимость в каталогизации и удобном поиске нужных сочинений.
Довольно сложно установить, кто именно стал создателем первого каталога, часть источников приписывают его изобретение Иоганну Тритемию, аббатту Спонгеймскому, библиотекарю, историку и любителю криптографии, но большинство упоминает Готфрида Ван Свитена – австрийского чиновника и префекта императорской библиотеки в Вене.
Именно Готфрид Ван Свитен в 1780 году создал первый карточный каталог, очень похожий на современные библиотечные каталоги – карточки с названием книги, именем автора, годом издания и кратким описанием. Можно сказать, что карточный каталог стал предвестником современных поисковых систем – ведь по сути, это была первая мета информация – то есть информация о другой информации, необходимая для поиска и навигации. Конечно, скромные карточки Ван Свитена не могли справиться со всеми нуждами читателей и исследователей – но замена им пришла лишь в 1870 году благодаря изобретению американского библиотекаря Мелвила Дьюи.
Дьюи долгое время работал над повышением эффективности каталогизации и пришел к абсолютно новой системе, основанной на классификации книг по содержанию, так называемой десятичной системе. Ее идея базировалась на делении всех сочинений на десять разделов – от общего до религии, языка и географии и истории. Каждый раздел, в свою очередь, делился на десять подразделов, и так далее, при этом код образовывался из числовых индексов раздела и подразделов, которые указывались слава направо, например:
500 Natural sciences and mathematics
510 Mathematics
516 Geometry
По сути, это был первый тематический каталог странового масштаба, позволяющий без труда найти любую необходимую информацию. Более того, за счет отсутствия в индексах тем нечисловых символов, система Дьюи идеально подошла для машинной обработки и до сих пор действует в библиотеках США и Канады.
Это изобретение подтолкнуло бельгийских библиографов Поля Отле и Анри Лафонтена на еще более дерзкую идею – заменить бумажные книги системой электронных карточек с фрагментами информации, которая позволит классифицировать ее без субъективного взгляда автора. В 1934 году эта идея воплотилась в книге Поля Отле «Monde», которая, по мнению многих исследователей, предвосхитила создание интернета. К сожалению, эту книгу трудно найти на русском языке, поэтому приведу лишь одну цитату на английском:
“Everything in the universe, and everything of man, would be registered at a distance as it was produced. In this way a moving image of the world will be established, a true mirror of his memory. From a distance, everyone will be able to read text, enlarged and limited to the desired subject, projected on an individual screen. In this way, everyone from his armchair will be able to contemplate creation, as a whole or in certain of its parts. ”
Напоминает о наших реалиях, не правда ли?
К сожалению, идеи Поля Отле не стали реальностью при его жизни, и всемирная паутина родилась гораздо позже. А уже в 1998 году с изобретением Сергеем Брином и Ларри Пейджем алгоритма оценки интернет страниц PageRank наступила эра бесконечного веб серфинга.
Информация стала доступной, поиск удобным и легким. А с появлением новых хранилищ и вычислительных мощностей данные стал собирать и бизнес.
Обоюдоострый меч больших данных
Увеличение объема накапливаемых данных сулило новые возможности для бизнеса – от лучшего понимания клиента, до абсолютно новых цифровых продуктов.
Аналитика из ювелирной работы по проверке каждой гипотезы превратилась в поиск устойчивых закономерностей в огромных массивах данных, описывающих людей и явления мира. Такой подход позволил увидеть вещи, о которых раньше просто не было информации, моделировать и оптимизировать разные процессы, от рекламы до продуктовых предложений, персонализировать клиентский опыт в разных сферах и улучшать его к радости клиента и бизнеса. Этот скачок, на мой взгляд, сравним с переходом от средневековой книжной описи к стройной системе карточных каталогов, где каждому объекту назначено свое место на полке и тег.
Тем не менее, работа с большими данными пока не стала панацеей для всего, и на это есть несколько причин.
Несмотря на эти ограничения, все больше компаний находят ресурсы и возможности для разворачивания собственных сервисов, позволяющих персонализировать клиентский опыт и увеличивать свою прибыль. Из источника знаний данные превращаются в источник для монетизации, причем иногда довольно агрессивной. В некоторых случаях даже возможны побочные эффекты как для клиента, так и для бизнеса: от информационной перегрузки до так называемого контентного пузыря. И перед тем, как поговорить о них, разберемся – что же прячется под капотом у рекомендаций?
Под капотом персональных рекомендаций
Большинство моделей, предлагающих контент, товар или услугу попадают в одну из пяти простых концепций.
Проблемы рекомендаций и перезагрузка контентного окружения
Все эти модели работают довольно неплохо (даже эвристика!), но все равно могут приводить к неприятным ситуациям:
Такие ситуации крайне нежелательны не только для клиента, но и для бизнеса, поскольку могут существенно снижать желание и дальше взаимодействовать с рекламируемыми сервисами, либо использовать тот или иной продукт или приложение.
Значительная часть из них может быть исправлена внутри рекомендательной системы, например, нерелевантное время или навязчивые рекомендации устраняются проработанной политикой коммуникаций и расписанием.
Даже контентный пузырь может стать менее однообразным, если добавить в рекомендательную систему конкурирующие алгоритмы, которые будут показывать альтернативные предложения, либо дополнительный элемент случайности, который предложит вам что-то абсолютно новенькое и в случае интереса расширит границы рекомендаций (см Рис 1).
Рис. 1 Конкурирующие модели с случайными дополнениями.
Тем не менее, часть последствий несовершенных рекомендаций придется лечить нам самим. Какие методы могут помочь в борьбе за приятное контентное окружение?
Как улучшить свое контентное окружение
Чтобы найти путь к своему контенту, нужному и релевантному, пробуйте поиграть с окружающими вас алгоритмами и выяснить, на что они реагируют лучше всего. Но перед этим предлагаю взять на вооружение несколько простых правил data science гигиены, которые уберегут вас от самых назойливых рекомендаций.
В остальном – почаще используйте активный поиск и пробуйте что-то новенькое. Большинство хороших рекомендательных моделей используют не только ретро данные (данные о вашей активности за большой период), но и данные о текущих действиях, отдавая им бОльший приоритет. Немного поиграв с новыми запросами, вы сможете получить порцию контента под ваше текущее настроение.
А если и этого покажется мало – вступайте в стройные ряды датасаентистов, чтобы сделать ту самую идеальную рекомендательную систему и познать все тонкости изнутри. Без пытливого человеческого ума в машинном обучении не обойтись!
Все самое интересное — под катом!
Листая в утренней дреме ленту любимой социальной сети, мы едва ли задумываемся, как работает алгоритм, предоставляет интересную именно нам информацию. Благодаря этому и другим алгоритмам контент следует за нами всюду. Если повезет – он похож на большое уютное одеяло с атмосферными фото и музыкой, если не повезет – тянется за нами назойливым и липким облаком, от которого хочется отмахнуться, хотя получается это далеко не всегда.
Кажется, мы и не заметили, когда у физического мира появилось новое измерение – измерение контента со своими правилами и особенностями. Но привыкли мы к нему быстро.
Изобилие информации заставляет нас забыть о том, как добывать и просеивать крупицы знаний и опыта – ведь она, готовая и отсортированная, уже лежит на нашей тарелке, словно ассорти из деликатесов. Но откуда все это появляется, а главное — как мы можем повлиять на свое контентное окружение? Да и можем ли?
История ранжирования и поиска
Вопреки популярным представлениям, инструменты подбора и ранжирования информации для разных полезных целей – довольно старое изобретение. Оно появилось не сейчас, а в эпоху полузабытых ныне библиотечных каталогов.
До изобретения в 15 веке книгопечатного станка библиотечный каталог являлся всего лишь описью драгоценных книг с указанием их названий. Именно появление печатных копий зародило в библиотекарях и читателях необходимость в каталогизации и удобном поиске нужных сочинений.
Довольно сложно установить, кто именно стал создателем первого каталога, часть источников приписывают его изобретение Иоганну Тритемию, аббатту Спонгеймскому, библиотекарю, историку и любителю криптографии, но большинство упоминает Готфрида Ван Свитена – австрийского чиновника и префекта императорской библиотеки в Вене.
Именно Готфрид Ван Свитен в 1780 году создал первый карточный каталог, очень похожий на современные библиотечные каталоги – карточки с названием книги, именем автора, годом издания и кратким описанием. Можно сказать, что карточный каталог стал предвестником современных поисковых систем – ведь по сути, это была первая мета информация – то есть информация о другой информации, необходимая для поиска и навигации. Конечно, скромные карточки Ван Свитена не могли справиться со всеми нуждами читателей и исследователей – но замена им пришла лишь в 1870 году благодаря изобретению американского библиотекаря Мелвила Дьюи.
Дьюи долгое время работал над повышением эффективности каталогизации и пришел к абсолютно новой системе, основанной на классификации книг по содержанию, так называемой десятичной системе. Ее идея базировалась на делении всех сочинений на десять разделов – от общего до религии, языка и географии и истории. Каждый раздел, в свою очередь, делился на десять подразделов, и так далее, при этом код образовывался из числовых индексов раздела и подразделов, которые указывались слава направо, например:
500 Natural sciences and mathematics
510 Mathematics
516 Geometry
По сути, это был первый тематический каталог странового масштаба, позволяющий без труда найти любую необходимую информацию. Более того, за счет отсутствия в индексах тем нечисловых символов, система Дьюи идеально подошла для машинной обработки и до сих пор действует в библиотеках США и Канады.
Это изобретение подтолкнуло бельгийских библиографов Поля Отле и Анри Лафонтена на еще более дерзкую идею – заменить бумажные книги системой электронных карточек с фрагментами информации, которая позволит классифицировать ее без субъективного взгляда автора. В 1934 году эта идея воплотилась в книге Поля Отле «Monde», которая, по мнению многих исследователей, предвосхитила создание интернета. К сожалению, эту книгу трудно найти на русском языке, поэтому приведу лишь одну цитату на английском:
“Everything in the universe, and everything of man, would be registered at a distance as it was produced. In this way a moving image of the world will be established, a true mirror of his memory. From a distance, everyone will be able to read text, enlarged and limited to the desired subject, projected on an individual screen. In this way, everyone from his armchair will be able to contemplate creation, as a whole or in certain of its parts. ”
Напоминает о наших реалиях, не правда ли?
К сожалению, идеи Поля Отле не стали реальностью при его жизни, и всемирная паутина родилась гораздо позже. А уже в 1998 году с изобретением Сергеем Брином и Ларри Пейджем алгоритма оценки интернет страниц PageRank наступила эра бесконечного веб серфинга.
Информация стала доступной, поиск удобным и легким. А с появлением новых хранилищ и вычислительных мощностей данные стал собирать и бизнес.
Обоюдоострый меч больших данных
Увеличение объема накапливаемых данных сулило новые возможности для бизнеса – от лучшего понимания клиента, до абсолютно новых цифровых продуктов.
Аналитика из ювелирной работы по проверке каждой гипотезы превратилась в поиск устойчивых закономерностей в огромных массивах данных, описывающих людей и явления мира. Такой подход позволил увидеть вещи, о которых раньше просто не было информации, моделировать и оптимизировать разные процессы, от рекламы до продуктовых предложений, персонализировать клиентский опыт в разных сферах и улучшать его к радости клиента и бизнеса. Этот скачок, на мой взгляд, сравним с переходом от средневековой книжной описи к стройной системе карточных каталогов, где каждому объекту назначено свое место на полке и тег.
Тем не менее, работа с большими данными пока не стала панацеей для всего, и на это есть несколько причин.
- Моделирование любого объекта или явления предполагает, что у нас есть данные, достаточные, чтобы описать его. В тоже время, некоторые вещи описать просто невозможно – например, ваше настроение этим утром может зависеть не только от истории покупок и прослушанных треков, но и увиденного сна, который принадлежит вам и только вам.
- Математика помогает находить устойчивые взаимосвязи, но неспособна определить тонкие нюансы. Более того, вопреки популярным представлениям, даже отбор признаков, на которых будет обучаться модель, гораздо лучше сделает человек с экспертными знаниями, а без знания предметной области хорошую модель и вовсе не построить.
- Все модели имеют определенный процент ошибок и склонны к деградации со временем, так как мир меняется, и найденные однажды паттерны могут смениться другими. Мониторинг протухания, замена или переобучение модели – это немалые затраты, без которых не обойтись в машинном обучении.
- Использование действительно качественных моделей в продакшн – это недешево, полный жизненный цикл от анализа до вывода в эксплуатацию требует как инвестиций в инфраструктуру, так и команду – датасаентистов, дата-инженеров.
Несмотря на эти ограничения, все больше компаний находят ресурсы и возможности для разворачивания собственных сервисов, позволяющих персонализировать клиентский опыт и увеличивать свою прибыль. Из источника знаний данные превращаются в источник для монетизации, причем иногда довольно агрессивной. В некоторых случаях даже возможны побочные эффекты как для клиента, так и для бизнеса: от информационной перегрузки до так называемого контентного пузыря. И перед тем, как поговорить о них, разберемся – что же прячется под капотом у рекомендаций?
Под капотом персональных рекомендаций
Большинство моделей, предлагающих контент, товар или услугу попадают в одну из пяти простых концепций.
- Основанные на эвристиках. Самый простой вид рекомендации, основанный на простых предположениях – например, при просмотре карточки товара фотоаппарата логично показать и аксессуары к нему, либо товары, которые были в корзине других покупателей вместе с этим фотоаппаратом.
- Основанные на графе связей. Вам рекомендуется популярный контент или хештеги, на которые подписаны ваши друзья и / или ваши подписчики, либо контент, который интересен вашим любимым блогерам.
- Модели склонности. Такие рекомендации заточены на определенный вид продукта, и основываются на обучающей выборке, состоящей из бинарной переменной «купил – не купил» и матрицы характеристик клиентов. Для каждого нового клиента результатом будет вероятность покупки, она же склонность – и если ее значение выше определенного порога, ему будет показана рекомендация.
- Сегменты по интересам. Модели, основанные на особенностях интересов клиента – темах книг, жанрах и поджанрах музыки и так далее. Под капотом могут быть как простые варианты кластеризации без обучения, так и более сложные – например тематические модели, находящие ваши ключевые интересы. Каждому клиенту в результате моделирования присваивается сегмент или несколько – словно в картотеке, который используется для рекомендации. Например, любителям готического романа можно показать другие книги это жанра, любителям музыки 70-х – еще не прослушанные альбомы.
- Гибридные модели – сочетание нескольких подходов, например графового и сегментов по интересам.
Проблемы рекомендаций и перезагрузка контентного окружения
Все эти модели работают довольно неплохо (даже эвристика!), но все равно могут приводить к неприятным ситуациям:
- Перенасыщение. Много похожих моделей, обученных на неполных данных (ведь у каждой компании есть только кусочек знания) атакуют вас одинаковыми предложениями. Предположим, вы – любитель кофе. И вот, сегодня утром вам предложили чудесный ароматный каппучино в ближайшем к дому кафе. Предложение вызвало у вас энтузиазм и удовольствие от поглощения кофейной пенки. Но затем к вам стучится еще один пуш с намеком на кофе, еще один баннер — и вот их уже пятнадцать. А сколько чашек кофе вы можете выпить за день?
- Нерелевантные рекомендации – типичная ситуация, в семье одна карточка на двоих и держателю карты приходят рекомендации, подходящие не ему / ей, а партнеру. Сообщения взрываются то скидками в магазине косметики, то шинами нового поколения – и все не вовремя.
- Навязчивые рекомендации – вы лишь один раз кликнули на тот пост поп-звезды, и теперь она везде в ваших рекомендациях.
- Отсутствие спам политики в рекомендациях и адекватного графика рассылок – вы получаете одно и тоже предложение уже пятый раз подряд, и не только в виде смс, но и звонков в 9 утра, когда вы обычно заняты завтраком. Возможно, это предложение вас бы и заинтересовало, но не в этот раз.
- Контентный пузырь – раз за разом вы видите одни и те же рекомендации, казалось бы, подходящие вам и вполне разнообразные, но почему-то вызывающие ощущение дежавю и скуки. Постепенно вы уже начинаете догадываться, какая вариация видео с котиками ожидает вас утром.
Такие ситуации крайне нежелательны не только для клиента, но и для бизнеса, поскольку могут существенно снижать желание и дальше взаимодействовать с рекламируемыми сервисами, либо использовать тот или иной продукт или приложение.
Значительная часть из них может быть исправлена внутри рекомендательной системы, например, нерелевантное время или навязчивые рекомендации устраняются проработанной политикой коммуникаций и расписанием.
Даже контентный пузырь может стать менее однообразным, если добавить в рекомендательную систему конкурирующие алгоритмы, которые будут показывать альтернативные предложения, либо дополнительный элемент случайности, который предложит вам что-то абсолютно новенькое и в случае интереса расширит границы рекомендаций (см Рис 1).
Рис. 1 Конкурирующие модели с случайными дополнениями.
Тем не менее, часть последствий несовершенных рекомендаций придется лечить нам самим. Какие методы могут помочь в борьбе за приятное контентное окружение?
Как улучшить свое контентное окружение
Чтобы найти путь к своему контенту, нужному и релевантному, пробуйте поиграть с окружающими вас алгоритмами и выяснить, на что они реагируют лучше всего. Но перед этим предлагаю взять на вооружение несколько простых правил data science гигиены, которые уберегут вас от самых назойливых рекомендаций.
- Здоровая разборчивость в оформлении скидочных карт избавит вас от лишнего спама – подумайте, стоит ли оформлять карту, если вы совсем не уверены, что вернетесь в этот магазин за повторной покупкой. Если же решились – внимательно проверьте, на какие коммуникации вы подписываетесь и поставьте галочку на приемлемых для вас способах – например, только email.
- Не забывайте время от времени отписываться от неактуальных для вас рассылок – это не только снижает стресс от реагирования на очередное неинтересное вам письмо, но и дает полезную обратную связь компании.
- Не стесняйтесь нажимать на кнопку – «это неактуальная реклама», наличие таковой подразумевает, что ваше мнение будет учтено в модели и в следующий раз вам покажется что-то более симпатичное.
- Будьте аккуратны с оплатой покупок – лучше всего иметь отдельные платежные инструменты для всех членов семьи, а иногда – и для отдельных целей.
- Периодически отключайте wifi в местах, где много публичных сетей.
В остальном – почаще используйте активный поиск и пробуйте что-то новенькое. Большинство хороших рекомендательных моделей используют не только ретро данные (данные о вашей активности за большой период), но и данные о текущих действиях, отдавая им бОльший приоритет. Немного поиграв с новыми запросами, вы сможете получить порцию контента под ваше текущее настроение.
А если и этого покажется мало – вступайте в стройные ряды датасаентистов, чтобы сделать ту самую идеальную рекомендательную систему и познать все тонкости изнутри. Без пытливого человеческого ума в машинном обучении не обойтись!
По теме:Источники
- Статья «Собеседование по Data Science: что могут спросить и где найти ответы на вопросы»;
- Практический онлайн-курс «Профессия? ?Data? ?Scientist?».
- www.history.ox.ac.uk/british-medieval-library-catalogues
- Fred Lerner, “The story of libraries, from invention of writing to the computer age”, continuum, 2006
- en.wikipedia.org/wiki/Gottfried_van_Swieten#As_librarian
- en.wikipedia.org/wiki/Dewey_Decimal_Classification
- Milena Tsvetkova. Документ – книга – семантический веб: вклад старой науки о документации. Scientific Enquiry in the Contemporary World: Theoretical basiсs and innovative approach, 2016, San Francisco, United States. pp.115-128
- boxesandarrows.com/forgotten-forefather-paul-otlet
- www.mondotheque.be/wiki/images/e/e2/Heuvel_Rayward_Facing_Interfaces.pdf
- Sergey Brin, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. — 1998.
- googleblog.blogspot.com/2009/12/personalized-search-for-everyone.html