Нельзя завалиться в Патентное бюро с заявлением — «Я буду определять вероятность подбора пар, на основе факта полового акта. Дайте добро!». Поэтому патенты пишутся «патентным» языком, что дает лазейки для других компаний в использовании эффективных схем. Разбираю патент компании Match Group и судебные тяжбы с Bumble. Будет скучно!
Система подбора — ключевой элемент в бизнес модели тиндер-подобных сервисов.
Факты для справки
То, что компания Match Group может использовать «социальный рейтинг» — Elo Score и мат. аппарат теории Графов для ранжирования, говорит нам патент.
Тот факт, что сервис тиндер использует нечто очень похожее по описанию «Algorithm 101» говорит нам официальное заявление tinder.
Тот факт, что сервис Bumble использует связку выставления соц рейтинга по ELO и мат аппарата Графов для ранжирования, говорит нам «суть претензий» в судебных исках. Ибо использовать их по отдельности может любой человек.
Эти вопросы уже по сто раз оговорены, у меня за два года набралось достаточно статей по теме с детальным разбором документации. Так что здесь их я обсуждать не буду, а ставлю вопрос…
Вопрос
Достаточно ли описанной информации в патенте MatchGroup для выявления факта половой близости и как дейтинг сервис может использовать эту информацию для корректировки «пользовательского опыта». (чуть ли не дословно патент процитировал))
Ответ — Да.
Вообще странно, что общественность пропустила данный вопрос, не каждый день тебе лезут в постель для твоего же блага. Хотя это прошло патентное бюро, да я и сам, признаться, заметил только спустя два года исследований — заковыристые формулировки, неоднозначная трактовка, 1 предложение из 15 листов текста с картинками. И не слабо напрячь голову, чтобы связать софтверную часть патента с описанием хардварной и спецификой поведения homo-sapiens.
Пункт [0068] — Validation set
Validation set — группа пользователей для отладки «системы проверки точности ранжирования».
Since the validation set is a set of matches that are known to satisfy the target profile of a requester, the validation set can be used to check the accuracy of the ranking model.
Т.е. это группа людей, которые, точно известно, что удовлетворяют запросам профиля пользователя. И используется для отладки алгоритмов последующей выдачи кандидатов.
Пункт [0065]
Gradient-boosted decision trees have several free parameters: number of trees, number of nodes, and shrink age. The decision trees may be trained using the training partition (e.g., a set of labeled matches) and selected free parameters using the validation set (e.g., a set of labeled matches that are relevant), exploring ranges of free parameter values.
Здесь мы понимаем, что отстройка алгоритма строится как на обычной выборке из совместных матчей, так и на параметрах из «валидированной выборки».
Получается
Validation set — не гипотетическая группа с максимальной вероятностью мечта полученная на статистических данных, а группа на которой отлаживаются этот механизм, описанный на странице 2 Fig.2
Простите, что? Фраза «that are known» или «matches that are relevant» — никого не смущает? А давайте посмотрим, что «вы» знаете и откуда вы можете это знать, чтобы сделать такое смелое предположение о релевантности группе и выборке!
Поведенческие данные Страница 4/ Fig. 3
phone exchange |
Обмен телефонными номерами |
email exchange |
Обмен e-mail адресами |
regexp match |
Обмен данными о встрече |
num exchanges |
количество сообщений друг другу |
message Orphan |
отправленное сообщение без ответа |
message disparity |
разница в количестве отправленных сообщений |
exchange timespan |
длительность переписки |
message density |
периодичность отправки сообщений (от первого до последнего) |
skip |
видел профиль, но не отправил сообщения |
num View exchanges |
количество просмотров профилей друг друга |
View orphan |
пользователь открыл профиль другого, но не был увиден в ответ |
View disparity |
разница в открытии профилей друг друга |
View titmespan |
время просмотров профилей друг друга |
View density |
частота просмотров профиля от первого до последнего сообщения |
Пункт [0069]
…For example, a query (e.g., target profile) may be obtained via a graphical user interface from a user's interaction with a local application, web site or web-based application or service and may be accomplished using any of a variety of well known mechanisms for obtaining information from a user…
Здесь о том, что система отладки модели ранжирования учится не только с пользовательских действий в интерфейсе, но и данных собираемых с обслуживающей инфраструктуры. Fig 4. страница 5.
А это данные о геолокации и соединения с сетью. Что и дает представление о том как валидируется validation set, т.е. точно известно, что люди друг другу понравились.
Видим, что в патенте описаны механизмы и алгоритмы, а также данные достаточные для фиксирования факта коммуникации и длительного контакта. Остается настроить пару пресетов для Validation set для разных сегментов аудитории.
Как я обычно ставлю задачу на такой пресет: Ребята занесите в validation set профили с обоюдными мечтами, длинной переписки в пару часов, обменом контактными данными и нахождением в одной или двух геолокациях одновременно в диапазоне с 23 вечера до 4 утра. Да, и присваивайте обоим в таком кейсе пониженный рейтинг социальной ответственности, чтобы они метчились по схожему поведенческому признаку.
Вероятность
Есть конечно вероятность, что мальчик с девочкой списались, поужинали, а потом поехали к нему играть в Heavy Rain, или к ней чай попить. Но…«Были сигналы: не чай он там пьет.»
P.S.
Не вижу причин, почему остальные игроки рынка не могут последовать примеру Bumble и использовать данную схему. А может уже.
Match Group подала в суд на Bumble только после «корпоративного шпионажа» — термин из ответного иска. В теле иска состоящего из 811 пунктов нарушений патентов, отмечается, что Match Group не известно о факте использования конкретной реализации алгоритмов или части кода, который мог использовать бывший сотрудник и основатель Bumble. На что Бамбл инициировала процедуру проверки для аннулирования патентов Match Group.
В июне 2020 компании пришли к мировой и отозвали совместные претензии, комитет по патентованию отменил процедуру проверки — разделять рынок на двоих выгоднее чем делится с остальными.
Комментарии (49)
mSnus
27.10.2022 09:00+6С вы спите знает любой Яндекс, к которому разрешён доступ к вашему GPS, любой ВКонтакте, любой Сбер. Тем более - любой фитнесс-трекер, у которого нами ещё и данные о частоте вашего пульса. Более того, даже GPS не очень нужен - достаточно, чтобы вы через одну точку WiFi зашли.
pantsarny
27.10.2022 09:44+29Раньше я спал со своими родственниками , а теперь с соседом, ага
EvilBeaver
27.10.2022 09:47+8Если вы время от времени ночуете в другом месте, и там же ночует человек, с которым вы вместе бываете в каком-то еще месте (вы же где-то познакомились, верно?) то вероятность того,что вы спите вместе - очень высокая. И даже сложных математик не надо, достаточно действительно общих точек WiFi в характерные времена суток
AndrewYaremko Автор
27.10.2022 09:50+3Отследить нет проблем, вопрос в том, как дальше этими данными пользоваться. Компания Match Group придумала как и запатентовала.
pantsarny
27.10.2022 10:33+6Мой сосед еще и мой коллега, в командировках снимаем номер в гостиницах, но спим не вместе, и не тянет.
Какие то дополнительные условия все таки вы забыли
vassabi
27.10.2022 11:50+8Мой сосед еще и мой коллега, в командировках снимаем номер в гостиницах, но спим не вместе, и не тянет.
вы об этом и не узнаете, вам только реклама будет показывать ... всякие товары ;)
AndrewYaremko Автор
27.10.2022 17:28+1Ага самый первый шаг — Вы с вашим коллегой пользуетесь приложением и у вас обоюдный мэч и наличие переписки с обменом контактов?
AndrewYaremko Автор
27.10.2022 09:48-1Этого я не отрицаю, но патентов на ранжирование ца по ним не видел. чтобы это было базовой механикой тоже. Второстепенной для рекламы — предположу, что возможно. Но даже если таковые есть, не помню чтобы были из за этого суды.
ssj100
27.10.2022 10:45Тем более - любой фитнесс-трекер, у которого нами ещё и данные о частоте вашего пульса
Это как? Cколько пытался разглядеть, по графику пульса ни разу не получилось, более менее точно определить, даже дополнительных PAI не зарабатал. ;(
mSnus
27.10.2022 10:55+6Но если трекер зафиксировал "бег в течение полутора часов" с почти нулевой дистанцией, то либо у вас там беговая дорожка, либо...
Cerberuser
27.10.2022 11:26+20В течение полутора часов? Да вы оптимист...
aploskov
27.10.2022 14:45+6Собрались парни покатать в доту на одной квартире, а их уже в "спящих вместе" определили.
Dima_Sharihin
27.10.2022 11:00+3Зато в 2021 после Sputnik-V я получил ачивку по PAI, не выползая из под одеяла с температурой 39.5.
aaa_bbb
27.10.2022 09:02+2не очень понял это хороший алгоритм или плохой )) он только делает выводы, о том что кто-то с кем-то спал и докладывает об этом или все-таки на подбор пары влияет? ))
AndrewYaremko Автор
27.10.2022 09:06+1Да влияет. Валидирующая выборка как раз определяет и корректирует следующие выборки и вероятности в ней. Это только алгоритм, он не может быть хорошим или плохим, все будет определять использование продукта. А вот тут включается человеческий Фактор. И получаем, чт о люди сетующие на контингент тогоже тиндера просто встречают людей из соответствующим поведение, а остальных им не показывают. Но мне лично неприятен факт такого наблюдения за моей жизнью
Sunrise55g
27.10.2022 09:07+13Если кратко, то ерунда все эти системы подбора. Реально востребованы ~90% женщин и ~5% мужчин. При этом востребованность можно определить из анализа возраста и антропометрических данных анкет. Имхо, это оверинжиниринг, использовать сложные алгоритмы в тех сферах, где работают инстинкты, давно описанные и валидизированные зоопсихологами.
AndrewYaremko Автор
27.10.2022 09:09+7Ссылочу на сатисти может покажете, пруфы? Мы очень цифры любим, исследования и оф отчеты.
vtal007
27.10.2022 09:15+2Была инфа, что в приложениях для знакомств, популярны 20% мужиков (красивых и успешных), остальные в пролете. При том что женщин в принципе меньше (раза в 2). Соостветственно, у неудалых мужиков шансов мало.
Тем не менее, подбор правильной пары все равно нуженp.s. а еще пробегала инфа, что в этих самых сервисах. Им не выгодно, чтобы люди сразу нашли пару (кто платить будет?), поэтому первым мужику покажут девушку "не очень", а только потом более подходящую
AndrewYaremko Автор
27.10.2022 09:18+6Я конкретный патент привожу и описываю, с указанием каждого пункта, номера страницы и цитаты из него. А вы — где то, какая то статья, что то видел. Совсем не серьезно, молодой человек.
vtal007
27.10.2022 09:23-2А я разве с этим патентом как-то пересекаюсь в своих рассказах? Патент описывает %% востребованности мужиков или соотношение зарегенных мужчин и женщин?
AndrewYaremko Автор
27.10.2022 09:44+5Я к тому, что мало ли кто какую статью написал. Верить можно только официальной документации, желательно финансовой. И то внимательно вчитываясь в трактовки.
Cerberuser
27.10.2022 09:31+4в приложениях для знакомств, популярны 20% мужиков (красивых и успешных), остальные в пролете.
Ну так оно и понятно - пары, в которых не заморачиваются с "красотой и успешностью", находят друг друга без всяких приложений.
AndrewYaremko Автор
27.10.2022 09:41Статистику покажите? у меня на руках рост пользователей. Это факт что не заморачивающихся становится меньше? или все же тренд на онлайн знакомства очениден?
mSnus
27.10.2022 10:57-6удивительное совпадение
K0styan
27.10.2022 11:13+7Вот только мало того, что второй график не от нуля идёт, так ещё и стартовый 2016-й год на нём даже не посередине.
Население в итоге за 3 года выросло с примерно 322-323 тыс. до 327-328 тыс. - на 5 тыс. человек или на 1,5%, а пользователи дейтингов прибавили 384 тысячи только за квартал. А за 3 года выросли более чем в 5 раз.
AndrewYaremko Автор
27.10.2022 17:38На графике же написано — платящая аудитория, только те кто имеет подписку, а соответственно умножте на количество фришных аккаунтов) и получите соотношения прироста всех пользователей к приросту популяции.
zlat_zlat
27.10.2022 18:11+2Звучит как очень сильное преувеличение, всё же. Вы, простите, лично, готовы переспать с девятью женщинами из 10? Иначе откуда эти 90 процентов?
Vsevo10d
27.10.2022 11:32+2Такие громкие заявления "залезть к вам в постель", как будто там смотрят по GPS когда два телефона рядом, а потом движения бедрами по гироскопу телефона в кармане штанов считывают.
Всего лишь секут обмен контактами и игнорит ли человек сообщения, по этим данным уточняют модель. Ну для итерационных потрахушек самое то наверное, для поиска одного серьезного партнера на всю жизнь - вряд ли полезно.
AndrewYaremko Автор
27.10.2022 16:58как будто там смотрят по GPS когда два телефона рядом,
привежу цитату из патента пункт 0069 - 0070
For example, as illustrated in FIG. 4, implementations are contemplated in
which users interact with a diverse network environment via
any type of computer (e.g., desktop, laptop, tablet, etc.)
1102, media computing platforms 1103 (e.g., cable and
satellite set top boxes and digital video recorders), handheld
computing devices (e.g., PDAs) 1104, cell phones 1106, or
any other type of computing or communication platform.
0070 And according to various embodiments, input that
is processed in accordance with the invention may be
obtained using a wide variety of techniques. For example, a
query (e.g., target profile) may be obtained via a graphical
user interface from a user's interaction with a local application, web site or web-based application or service and may be accomplished using any of a variety of well known
mechanisms for obtaining information from a user.Так что не только обмен контактами они смотрят. А отслеживание близких устройств — одна из основных функций, которая выдает выборку по радиусу. И речь идет о Validation set'e — а он в отличае от набора просто совпадений и игноров как написано в патенте «a set of matches that are known to satisfy the target profile of a requester»
0xd34df00d
27.10.2022 17:01+1Вы так говорите, будто серьезный партнер на всю жизнь сам по себе полезен.
AndrewYaremko Автор
27.10.2022 17:42+2Серьезный партнер это минус потенциальный подписчик. Не берусь судить на сколько он полезен в каждом случае, но точно вреден для дейтинг бизнеса.
0xd34df00d
27.10.2022 17:48+1Да хрен бы с дейтинг-сервисами этими вашими. Серьёзный партнёр — это плюс одна привязанность и плюс одна ответственность, и непонятно, зачем.
AndrewYaremko Автор
27.10.2022 17:54+2А вот на эту тему готовлю перевод публикиций исследований толлерантности к дофамину и статей Маслоу. Там предельно понятно зачем.
Vsevo10d
28.10.2022 02:57+1и непонятно, зачем.
Так, батенька, недалеко и до разговоров о смысле жизни.
Child_Of_Flowers
27.10.2022 11:38+2Да, и присваивайте обоим в таком кейсе пониженный рейтинг социальной ответственности
Очень опрометчиво и предвзято. Прям даже возмутительно. Почему у вас по умолчанию встреча = постель? (по крайней мере, по ходу чтения ваших рассуждений складывается такое ощущение). Я уж не буду поднимать вопрос, почему вы вешаете ярлык "низкая социальная ответственность" на людей, у которых, очевидно, имеются трудности с удовлетворением одной из естественных потребностей. Но если вернуться к алгоритму, для определения кто с кем спал, я считаю, как минимум, нужно учитывать ранжирование совпадающих геолокаций по типам. Например, если два юзера таки встретились, но тип текущей геолокации не спальный район, а, например, парковая зона, или ТЦ, то вряд ли у них происходит "то самое"... Хотя, конечно, бывают всякие любители экстрима... но такая вероятность минимальна. Так же не мешало бы подумать над анализом содержимого сообщений (как бы это не было аморально), да и, хотя бы, описания профиля. Потому что, например, у огромного количества представительниц слабого пола в описании чёрным по белому написано (я сам не видел, мне друг рассказывал)) "интим услуги не оказываю, на первой встрече в койку не ложусь, голые фотки не высылаю, и фотографий ваших причиндалов видеть не хочу (Эх...)". А так же "Встречи на раз не интересуют, ищу мужа на долго, хочу пятерых детей и ипотеку", и т.п... Конечно я понимаю прекрасно, что женщина - существо загадочное и непредсказуемое, и всё вышеперечисленное, написанное в её профиле, может совершенно не означать, что так оно и есть на самом деле. Но, всё же, думаю, вкупе с остальной информацией о пользователе, эти маячки могут прилично увеличить шанс правильного определения психотипа (или как там это правильно называется) пользователя, и вероятности того, что действительно
не чай он там пьет
Также не стоит забывать тот момент, что многие, у кого таки доходит дело до интимной близости, удаляются из приложения, и, вполне вероятно, за некоторое время до того, как эта самая близость наступит. Ну или не удаляются, а прекращают активность. То есть, с одной стороны, с приличной долей вероятности можно предположить, что если два юзера после долгой переписки вышли из сети, то у них всё сложилось лучшим образом. Но с другой стороны, в этот момент пропадает возможность собрать стопроцентные доказательства теории...
Вот пишу я всё это, а у самого крутится в голове всего один вопрос... Вас серьёзно волнует, что кто-то узнает, с кем вы спите? Вы спите с кем-то не тем что ли? Или, даже, по другому. Как уже написали комментаторы выше, не только лишь
всетиндер, но и куча других сервисов умеют прекрасно определять, когда и с кем вы спите (да, да, пока не позовёшь Алису, она не услышит стонов и скрипа кровати). Ну и что с того? Какую это для меня, например, представляет опасность? Ну да, могут злые хакеры украсть базы. Но я сильно сомневаюсь, что там данные хранятся в формате "вчера в 20:00 Вася Пупкин @#$%! Машу Иванову". Очевидно, там огромный объём обобщённых данных, из которых косвенно можно сделать определённые выводы. И это под силу только алгоритму. Ну и кто ради меня будет во всём этом копаться? Я не такая уж большая птица, с меня и взять то особо нечего. Кто может узнать с кем я сплю, в первую очередь узнает о том, что на меня не стоит тратить время. Так что я не очень понимаю, о чём вообще статья. Моральный вопрос? Ну извините, вы бы не пользовались сервисом, если бы не согласились с пользовательским соглашением. Вы же не думали, соглашаясь, что там что-то написано в вашу пользу?CrashLogger
27.10.2022 13:12+2Это сейчас вы никому не интересный Вася Пупкин, а через n лет станете депутатом или президентом) Вот там-то бигдата и вытащит весь компромат наружу.
Child_Of_Flowers
27.10.2022 15:09+3В наше время оптимистами считают тех, кто календарик покупает на следующий год... А вы, прям, мега оптимист)))
mortadella372
27.10.2022 15:59+2Вас серьёзно волнует, что кто-то узнает, с кем вы спите?
Жена, например, может узнать..
AndrewYaremko Автор
27.10.2022 17:19Незнакомые люди общаются меньше пары часов, а потом ночь проводят в одном месте. Вопрос — чем они там занимаются?
Разумеется описал пресет сильно упрощенным, по факту смотрел бы и часоту переписки и частоту открытия профилей, и время потраченное на просмотр профилей и содержание переписки — говорят ли они о домашних животных, политике, семейном положении-детях и тд что позволяет чекать обмен интересами. Происходит ли это разово, встречались ли они еще. общались ли после этого более длительо и тд. Описание сценария больше бы место занало чем сама публикация. О пониженном рейтинге — вот список параметров которые балы добавляют. Я к тому, что собираемых данных достаточно для формирования очень качественной валидирующей выборки по которой для определенной аудитории можно выявить тех кто использует сервис только для секса. И далее этим людям, предоставлять выборки с соответствующими поведенчискими профилями. Я не моралист и не нахожу ничего предосудительного в распространении своих услуг через дейтинг сервисы. Благо я пользуюсь сервисом таким образом, что данные люди в мои выборки не попадают.
AndrewYaremko Автор
27.10.2022 17:24Также не стоит забывать тот момент, что многие, у кого таки доходит дело до интимной близости, удаляются из приложения, и, вполне вероятно, за некоторое время до того, как эта самая близость наступит.
Я описал кейс, когда все случается одним днем.
Что касается удаления приложений — многие не удаляют приложение будучи в уже в начале отношений, как минимум на «тестовый» период. И меня вот это больше всего вещь возмущает. При том, что зная что у людей начинаются отношения и есть вероятность выхода из сервиса, можно по этому поводу выборку подтянуть — и анкеты поинтереснее и процент количества метчей скорректирова. Вот что аморально, а не то что я написал.
barbaris76
28.10.2022 11:58+1Я тоже всю жизнь думал - да кому там интересно, в каких магазинах я картой плачу, и куда мой телефон с включенной геолокацией перемещается... А оказалось - очень интересно государству и военкомату, которые хотят меня куда-то отправить, куда мне нах не надо. Так что я своё мнение насчёт приватности сильно пересмотрел. Если что-то отслеживается и может теоретически быть применено против вас, то государство рано или поздно обязательно этим воспользуется.
GenGen
Использование ненормативной лексики сначала смутило... :) но потом обратил внимание на следующую строку текста.