Нельзя завалиться в Патентное бюро с заявлением — «Я буду определять вероятность подбора пар, на основе факта полового акта. Дайте добро!». Поэтому патенты пишутся «патентным» языком, что дает лазейки для других компаний в использовании эффективных схем. Разбираю патент компании Match Group и судебные тяжбы с Bumble. Будет скучно!

Система подбора — ключевой элемент в бизнес модели тиндер-подобных сервисов. 

Факты для справки

То, что компания Match Group может использовать «социальный рейтинг» — Elo Score и мат. аппарат теории Графов для ранжирования, говорит нам патент. 

Тот факт, что сервис тиндер использует нечто очень похожее по описанию «Algorithm 101» говорит нам официальное заявление tinder. 

Тот факт, что сервис Bumble использует связку выставления соц рейтинга по ELO и мат аппарата Графов для ранжирования, говорит нам «суть претензий» в судебных исках. Ибо использовать их по отдельности может любой человек. 

Эти вопросы уже по сто раз оговорены, у меня за два года набралось достаточно статей по теме с детальным разбором документации. Так что здесь их я обсуждать не буду, а ставлю вопрос…

Вопрос

Достаточно ли описанной информации в патенте MatchGroup для выявления факта половой близости и как дейтинг сервис может использовать эту информацию для корректировки «пользовательского опыта». (чуть ли не дословно патент процитировал))

Ответ — Да. 

Вообще странно, что общественность пропустила данный вопрос, не каждый день тебе лезут в постель для твоего же блага. Хотя это прошло патентное бюро, да я и сам, признаться, заметил только спустя два года исследований — заковыристые формулировки, неоднозначная трактовка, 1 предложение из 15 листов текста с картинками. И не слабо напрячь голову, чтобы связать софтверную часть патента с описанием хардварной и спецификой поведения homo-sapiens.

Пункт [0068] — Validation set

Validation set — группа пользователей для отладки «системы проверки точности ранжирования». 

Since the validation set is a set of matches that are known to satisfy the target profile of a requester, the validation set can be used to check the accuracy of the ranking model.

Т.е. это группа людей, которые, точно известно, что удовлетворяют запросам профиля пользователя. И используется для отладки алгоритмов последующей выдачи кандидатов. 

Пункт [0065]

Gradient-boosted decision trees have several free parameters: number of trees, number of nodes, and shrink age. The decision trees may be trained using the training partition (e.g., a set of labeled matches) and selected free parameters using the validation set (e.g., a set of labeled matches that are relevant), exploring ranges of free parameter values.

Здесь мы понимаем, что отстройка алгоритма строится как на обычной выборке из совместных матчей, так и на параметрах из «валидированной выборки». 

Получается

Validation set — не гипотетическая группа с максимальной вероятностью мечта полученная на статистических данных, а группа на которой отлаживаются этот механизм, описанный на странице 2 Fig.2

Простите, что? Фраза «that are known» или «matches that are relevant» — никого не смущает? А давайте посмотрим, что «вы» знаете и откуда вы можете это знать, чтобы сделать такое смелое предположение о релевантности группе и выборке!

Поведенческие данные Страница 4/ Fig. 3

phone exchange 

Обмен телефонными номерами

email exchange 

Обмен e-mail адресами

regexp match

Обмен данными о встрече

num exchanges

количество сообщений друг другу

message Orphan

отправленное сообщение без ответа

message disparity

разница в количестве отправленных сообщений

exchange timespan

длительность переписки

message density

периодичность отправки сообщений (от первого до последнего)

skip

видел профиль, но не отправил сообщения

num View exchanges

количество просмотров профилей друг друга

View orphan 

пользователь открыл профиль другого, но не был увиден в ответ

View disparity 

разница в открытии профилей друг друга

View titmespan

время просмотров профилей друг друга

View density

частота просмотров профиля от первого до последнего сообщения

Пункт [0069]

…For example, a query (e.g., target profile) may be obtained via a graphical user interface from a user's interaction with a local application, web site or web-based application or service and may be accomplished using any of a variety of well known mechanisms for obtaining information from a user… 

Здесь о том, что система отладки модели ранжирования учится не только с пользовательских действий в интерфейсе, но и данных собираемых с обслуживающей инфраструктуры. Fig 4. страница 5.

А это данные о геолокации и соединения с сетью. Что и дает представление о том как валидируется validation set, т.е. точно известно, что люди друг другу понравились.

Видим, что в патенте описаны механизмы и алгоритмы, а также данные достаточные для фиксирования факта коммуникации и длительного контакта. Остается настроить пару пресетов для Validation set для разных сегментов аудитории.

Как я обычно ставлю задачу на такой пресет: Ребята занесите в validation set профили с обоюдными мечтами, длинной переписки в пару часов, обменом контактными данными и нахождением в одной или двух геолокациях одновременно в диапазоне с 23 вечера до 4 утра. Да, и присваивайте обоим в таком кейсе пониженный рейтинг социальной ответственности, чтобы они метчились по схожему поведенческому признаку.

Вероятность

Есть конечно вероятность, что мальчик с девочкой списались, поужинали, а потом поехали к нему играть в Heavy Rain, или к ней чай попить. Но…«Были сигналы: не чай он там пьет.»

P.S.

Не вижу причин, почему остальные игроки рынка не могут последовать примеру Bumble и использовать данную схему. А может уже.

Match Group подала в суд на Bumble только после «корпоративного шпионажа» — термин из ответного иска. В теле иска состоящего из 811 пунктов нарушений патентов, отмечается, что Match Group не известно о факте использования конкретной реализации алгоритмов или части кода, который мог использовать бывший сотрудник и основатель Bumble. На что Бамбл инициировала процедуру проверки для аннулирования патентов Match Group.

В июне 2020 компании пришли к мировой и отозвали совместные претензии, комитет по патентованию отменил процедуру проверки — разделять рынок на двоих выгоднее чем делится с остальными.

Комментарии (49)


  1. GenGen
    27.10.2022 08:18
    +3

    компания Match Group может использовать «социальный рейтинг» — Elo Score и мат.

    Использование ненормативной лексики сначала смутило... :) но потом обратил внимание на следующую строку текста.


  1. mSnus
    27.10.2022 09:00
    +6

    С вы спите знает любой Яндекс, к которому разрешён доступ к вашему GPS, любой ВКонтакте, любой Сбер. Тем более - любой фитнесс-трекер, у которого нами ещё и данные о частоте вашего пульса. Более того, даже GPS не очень нужен - достаточно, чтобы вы через одну точку WiFi зашли.


    1. pantsarny
      27.10.2022 09:44
      +29

      Раньше я спал со своими родственниками , а теперь с соседом, ага


      1. EvilBeaver
        27.10.2022 09:47
        +8

        Если вы время от времени ночуете в другом месте, и там же ночует человек, с которым вы вместе бываете в каком-то еще месте (вы же где-то познакомились, верно?) то вероятность того,что вы спите вместе - очень высокая. И даже сложных математик не надо, достаточно действительно общих точек WiFi в характерные времена суток


        1. AndrewYaremko Автор
          27.10.2022 09:50
          +3

          Отследить нет проблем, вопрос в том, как дальше этими данными пользоваться. Компания Match Group придумала как и запатентовала.


        1. pantsarny
          27.10.2022 10:33
          +6

          Мой сосед еще и мой коллега, в командировках снимаем номер в гостиницах, но спим не вместе, и не тянет.

          Какие то дополнительные условия все таки вы забыли


          1. vassabi
            27.10.2022 11:50
            +8

            Мой сосед еще и мой коллега, в командировках снимаем номер в гостиницах, но спим не вместе, и не тянет.

            вы об этом и не узнаете, вам только реклама будет показывать ... всякие товары ;)


          1. EugeneVRN
            27.10.2022 12:54
            +6

            а еще эти люди могут спать вместе а ночевать не вместе.


            1. Dolios
              27.10.2022 16:12
              +4

              — Трахнуть сразу двух…
              — Переспать с двумя!
              — Это называется "трахаться".
              — Это на твоём языке!
              — Это на любом языке.


              "Достучаться до небес"


          1. AndrewYaremko Автор
            27.10.2022 17:28
            +1

            Ага самый первый шаг — Вы с вашим коллегой пользуетесь приложением и у вас обоюдный мэч и наличие переписки с обменом контактов?


        1. Art3
          27.10.2022 11:50

          Не помню, когда последний раз вообще пользовался «ваифаи».


          1. qw1
            27.10.2022 12:12
            +10

            Этого и не нужно. Android использует BSSID ближайших точек для определения местоположения внутри зданий, а с каких-то версий, даже если WiFi выключен. Это разбирали несколько лет назад на Хабре.


            1. Art3
              28.10.2022 12:22

              Ок, но у меня не Андройд


              1. qw1
                28.10.2022 13:10

                Может, у вас ещё и тиндера нет? :D


    1. AndrewYaremko Автор
      27.10.2022 09:48
      -1

      Этого я не отрицаю, но патентов на ранжирование ца по ним не видел. чтобы это было базовой механикой тоже. Второстепенной для рекламы — предположу, что возможно. Но даже если таковые есть, не помню чтобы были из за этого суды.


    1. ssj100
      27.10.2022 10:45

      Тем более - любой фитнесс-трекер, у которого нами ещё и данные о частоте вашего пульса

      Это как? Cколько пытался разглядеть, по графику пульса ни разу не получилось, более менее точно определить, даже дополнительных PAI не зарабатал. ;(


      1. mSnus
        27.10.2022 10:55
        +6

        Но если трекер зафиксировал "бег в течение полутора часов" с почти нулевой дистанцией, то либо у вас там беговая дорожка, либо...


        1. Cerberuser
          27.10.2022 11:26
          +20

          В течение полутора часов? Да вы оптимист...


          1. aploskov
            27.10.2022 14:45
            +6

            Собрались парни покатать в доту на одной квартире, а их уже в "спящих вместе" определили.


      1. Dima_Sharihin
        27.10.2022 11:00
        +3

        Зато в 2021 после Sputnik-V я получил ачивку по PAI, не выползая из под одеяла с температурой 39.5.


  1. aaa_bbb
    27.10.2022 09:02
    +2

    не очень понял это хороший алгоритм или плохой )) он только делает выводы, о том что кто-то с кем-то спал и докладывает об этом или все-таки на подбор пары влияет? ))


    1. AndrewYaremko Автор
      27.10.2022 09:06
      +1

      Да влияет. Валидирующая выборка как раз определяет и корректирует следующие выборки и вероятности в ней. Это только алгоритм, он не может быть хорошим или плохим, все будет определять использование продукта. А вот тут включается человеческий Фактор. И получаем, чт о люди сетующие на контингент тогоже тиндера просто встречают людей из соответствующим поведение, а остальных им не показывают. Но мне лично неприятен факт такого наблюдения за моей жизнью


  1. Sunrise55g
    27.10.2022 09:07
    +13

    Если кратко, то ерунда все эти системы подбора. Реально востребованы ~90% женщин и ~5% мужчин. При этом востребованность можно определить из анализа возраста и антропометрических данных анкет. Имхо, это оверинжиниринг, использовать сложные алгоритмы в тех сферах, где работают инстинкты, давно описанные и валидизированные зоопсихологами.


    1. AndrewYaremko Автор
      27.10.2022 09:09
      +7

      Ссылочу на сатисти может покажете, пруфы? Мы очень цифры любим, исследования и оф отчеты.


      1. vtal007
        27.10.2022 09:15
        +2

        Была инфа, что в приложениях для знакомств, популярны 20% мужиков (красивых и успешных), остальные в пролете. При том что женщин в принципе меньше (раза в 2). Соостветственно, у неудалых мужиков шансов мало.
        Тем не менее, подбор правильной пары все равно нужен

        p.s. а еще пробегала инфа, что в этих самых сервисах. Им не выгодно, чтобы люди сразу нашли пару (кто платить будет?), поэтому первым мужику покажут девушку "не очень", а только потом более подходящую


        1. AndrewYaremko Автор
          27.10.2022 09:18
          +6

          Я конкретный патент привожу и описываю, с указанием каждого пункта, номера страницы и цитаты из него. А вы — где то, какая то статья, что то видел. Совсем не серьезно, молодой человек.


          1. vtal007
            27.10.2022 09:23
            -2

            А я разве с этим патентом как-то пересекаюсь в своих рассказах? Патент описывает %% востребованности мужиков или соотношение зарегенных мужчин и женщин?


            1. AndrewYaremko Автор
              27.10.2022 09:44
              +5

              Я к тому, что мало ли кто какую статью написал. Верить можно только официальной документации, желательно финансовой. И то внимательно вчитываясь в трактовки.


        1. Cerberuser
          27.10.2022 09:31
          +4

          в приложениях для знакомств, популярны 20% мужиков (красивых и успешных), остальные в пролете.

          Ну так оно и понятно - пары, в которых не заморачиваются с "красотой и успешностью", находят друг друга без всяких приложений.


          1. AndrewYaremko Автор
            27.10.2022 09:41

            Статистику покажите? у меня на руках рост пользователей. Это факт что не заморачивающихся становится меньше? или все же тренд на онлайн знакомства очениден?


            1. mSnus
              27.10.2022 10:57
              -6

              население США
              население США

              удивительное совпадение


              1. K0styan
                27.10.2022 11:13
                +7

                Вот только мало того, что второй график не от нуля идёт, так ещё и стартовый 2016-й год на нём даже не посередине.

                Население в итоге за 3 года выросло с примерно 322-323 тыс. до 327-328 тыс. - на 5 тыс. человек или на 1,5%, а пользователи дейтингов прибавили 384 тысячи только за квартал. А за 3 года выросли более чем в 5 раз.


                1. AndrewYaremko Автор
                  27.10.2022 17:38

                  На графике же написано — платящая аудитория, только те кто имеет подписку, а соответственно умножте на количество фришных аккаунтов) и получите соотношения прироста всех пользователей к приросту популяции.


          1. 0xd34df00d
            27.10.2022 17:00
            +1

            Непроверяемое и неочевидное утверждение.


    1. zlat_zlat
      27.10.2022 18:11
      +2

      Звучит как очень сильное преувеличение, всё же. Вы, простите, лично, готовы переспать с девятью женщинами из 10? Иначе откуда эти 90 процентов?


  1. Vsevo10d
    27.10.2022 11:32
    +2

    Такие громкие заявления "залезть к вам в постель", как будто там смотрят по GPS когда два телефона рядом, а потом движения бедрами по гироскопу телефона в кармане штанов считывают.

    Всего лишь секут обмен контактами и игнорит ли человек сообщения, по этим данным уточняют модель. Ну для итерационных потрахушек самое то наверное, для поиска одного серьезного партнера на всю жизнь - вряд ли полезно.


    1. AndrewYaremko Автор
      27.10.2022 16:58

      как будто там смотрят по GPS когда два телефона рядом,

      привежу цитату из патента пункт 0069 - 0070

      For example, as illustrated in FIG. 4, implementations are contemplated in
      which users interact with a diverse network environment via
      any type of computer (e.g., desktop, laptop, tablet, etc.)
      1102, media computing platforms 1103 (e.g., cable and
      satellite set top boxes and digital video recorders), handheld
      computing devices (e.g., PDAs) 1104, cell phones 1106, or
      any other type of computing or communication platform.
      0070 And according to various embodiments, input that
      is processed in accordance with the invention may be
      obtained using a wide variety of techniques. For example, a
      query (e.g., target profile) may be obtained via a graphical
      user interface from a user's interaction with a local application, web site or web-based application or service and may be accomplished using any of a variety of well known
      mechanisms for obtaining information from a user.

      Так что не только обмен контактами они смотрят. А отслеживание близких устройств — одна из основных функций, которая выдает выборку по радиусу. И речь идет о Validation set'e — а он в отличае от набора просто совпадений и игноров как написано в патенте «a set of matches that are known to satisfy the target profile of a requester»


    1. 0xd34df00d
      27.10.2022 17:01
      +1

      Вы так говорите, будто серьезный партнер на всю жизнь сам по себе полезен.


      1. AndrewYaremko Автор
        27.10.2022 17:42
        +2

        Серьезный партнер это минус потенциальный подписчик. Не берусь судить на сколько он полезен в каждом случае, но точно вреден для дейтинг бизнеса.


        1. 0xd34df00d
          27.10.2022 17:48
          +1

          Да хрен бы с дейтинг-сервисами этими вашими. Серьёзный партнёр — это плюс одна привязанность и плюс одна ответственность, и непонятно, зачем.


          1. AndrewYaremko Автор
            27.10.2022 17:54
            +2

            А вот на эту тему готовлю перевод публикиций исследований толлерантности к дофамину и статей Маслоу. Там предельно понятно зачем.


          1. Vsevo10d
            28.10.2022 02:57
            +1

            и непонятно, зачем.

            Так, батенька, недалеко и до разговоров о смысле жизни.


  1. Child_Of_Flowers
    27.10.2022 11:38
    +2

    Да, и присваивайте обоим в таком кейсе пониженный рейтинг социальной ответственности

    Очень опрометчиво и предвзято. Прям даже возмутительно. Почему у вас по умолчанию встреча = постель? (по крайней мере, по ходу чтения ваших рассуждений складывается такое ощущение). Я уж не буду поднимать вопрос, почему вы вешаете ярлык "низкая социальная ответственность" на людей, у которых, очевидно, имеются трудности с удовлетворением одной из естественных потребностей. Но если вернуться к алгоритму, для определения кто с кем спал, я считаю, как минимум, нужно учитывать ранжирование совпадающих геолокаций по типам. Например, если два юзера таки встретились, но тип текущей геолокации не спальный район, а, например, парковая зона, или ТЦ, то вряд ли у них происходит "то самое"... Хотя, конечно, бывают всякие любители экстрима... но такая вероятность минимальна. Так же не мешало бы подумать над анализом содержимого сообщений (как бы это не было аморально), да и, хотя бы, описания профиля. Потому что, например, у огромного количества представительниц слабого пола в описании чёрным по белому написано (я сам не видел, мне друг рассказывал)) "интим услуги не оказываю, на первой встрече в койку не ложусь, голые фотки не высылаю, и фотографий ваших причиндалов видеть не хочу (Эх...)". А так же "Встречи на раз не интересуют, ищу мужа на долго, хочу пятерых детей и ипотеку", и т.п... Конечно я понимаю прекрасно, что женщина - существо загадочное и непредсказуемое, и всё вышеперечисленное, написанное в её профиле, может совершенно не означать, что так оно и есть на самом деле. Но, всё же, думаю, вкупе с остальной информацией о пользователе, эти маячки могут прилично увеличить шанс правильного определения психотипа (или как там это правильно называется) пользователя, и вероятности того, что действительно

    не чай он там пьет

    Также не стоит забывать тот момент, что многие, у кого таки доходит дело до интимной близости, удаляются из приложения, и, вполне вероятно, за некоторое время до того, как эта самая близость наступит. Ну или не удаляются, а прекращают активность. То есть, с одной стороны, с приличной долей вероятности можно предположить, что если два юзера после долгой переписки вышли из сети, то у них всё сложилось лучшим образом. Но с другой стороны, в этот момент пропадает возможность собрать стопроцентные доказательства теории...

    Вот пишу я всё это, а у самого крутится в голове всего один вопрос... Вас серьёзно волнует, что кто-то узнает, с кем вы спите? Вы спите с кем-то не тем что ли? Или, даже, по другому. Как уже написали комментаторы выше, не только лишь все тиндер, но и куча других сервисов умеют прекрасно определять, когда и с кем вы спите (да, да, пока не позовёшь Алису, она не услышит стонов и скрипа кровати). Ну и что с того? Какую это для меня, например, представляет опасность? Ну да, могут злые хакеры украсть базы. Но я сильно сомневаюсь, что там данные хранятся в формате "вчера в 20:00 Вася Пупкин @#$%! Машу Иванову". Очевидно, там огромный объём обобщённых данных, из которых косвенно можно сделать определённые выводы. И это под силу только алгоритму. Ну и кто ради меня будет во всём этом копаться? Я не такая уж большая птица, с меня и взять то особо нечего. Кто может узнать с кем я сплю, в первую очередь узнает о том, что на меня не стоит тратить время. Так что я не очень понимаю, о чём вообще статья. Моральный вопрос? Ну извините, вы бы не пользовались сервисом, если бы не согласились с пользовательским соглашением. Вы же не думали, соглашаясь, что там что-то написано в вашу пользу?


    1. CrashLogger
      27.10.2022 13:12
      +2

      Это сейчас вы никому не интересный Вася Пупкин, а через n лет станете депутатом или президентом) Вот там-то бигдата и вытащит весь компромат наружу.


      1. Child_Of_Flowers
        27.10.2022 15:09
        +3

        В наше время оптимистами считают тех, кто календарик покупает на следующий год... А вы, прям, мега оптимист)))


    1. mortadella372
      27.10.2022 15:59
      +2

      Вас серьёзно волнует, что кто-то узнает, с кем вы спите?

      Жена, например, может узнать..


    1. AndrewYaremko Автор
      27.10.2022 17:19

      Незнакомые люди общаются меньше пары часов, а потом ночь проводят в одном месте. Вопрос — чем они там занимаются?
      Разумеется описал пресет сильно упрощенным, по факту смотрел бы и часоту переписки и частоту открытия профилей, и время потраченное на просмотр профилей и содержание переписки — говорят ли они о домашних животных, политике, семейном положении-детях и тд что позволяет чекать обмен интересами. Происходит ли это разово, встречались ли они еще. общались ли после этого более длительо и тд. Описание сценария больше бы место занало чем сама публикация. О пониженном рейтинге — вот список параметров которые балы добавляют. Я к тому, что собираемых данных достаточно для формирования очень качественной валидирующей выборки по которой для определенной аудитории можно выявить тех кто использует сервис только для секса. И далее этим людям, предоставлять выборки с соответствующими поведенчискими профилями. Я не моралист и не нахожу ничего предосудительного в распространении своих услуг через дейтинг сервисы. Благо я пользуюсь сервисом таким образом, что данные люди в мои выборки не попадают.


    1. AndrewYaremko Автор
      27.10.2022 17:24

      Также не стоит забывать тот момент, что многие, у кого таки доходит дело до интимной близости, удаляются из приложения, и, вполне вероятно, за некоторое время до того, как эта самая близость наступит. 

      Я описал кейс, когда все случается одним днем.

      Что касается удаления приложений — многие не удаляют приложение будучи в уже в начале отношений, как минимум на «тестовый» период. И меня вот это больше всего вещь возмущает. При том, что зная что у людей начинаются отношения и есть вероятность выхода из сервиса, можно по этому поводу выборку подтянуть — и анкеты поинтереснее и процент количества метчей скорректирова. Вот что аморально, а не то что я написал.


    1. barbaris76
      28.10.2022 11:58
      +1

      Я тоже всю жизнь думал - да кому там интересно, в каких магазинах я картой плачу, и куда мой телефон с включенной геолокацией перемещается... А оказалось - очень интересно государству и военкомату, которые хотят меня куда-то отправить, куда мне нах не надо. Так что я своё мнение насчёт приватности сильно пересмотрел. Если что-то отслеживается и может теоретически быть применено против вас, то государство рано или поздно обязательно этим воспользуется.