Многим известен так называемый «парадокс дружбы» (friendship paradox) в социальных сетях, впервые упомянутый в научной работе 1991 года, когда социальные сети были только в офлайне. Этот парадокс применим и к современным социальным сетям в интернете.

Если взять любого пользователя Facebook и случайным образом выбрать любого из его друзей, то с вероятностью 80% у друга будет больше «френдов». Люди, которые плохо знакомы с математической статистикой, очень огорчает тот факт, что почти все френды более «успешны» в общении, чем они сами. Но здесь нет причины для депрессии: так и должно быть, в соответствии с наукой и здравым смыслом.

Парадокс дружбы — одна из форм «парадокса инспекции» (Inspection Paradox), который встречается буквально повсюду и частенько вводит в заблуждение обывателей.

Суть парадокса дружбы в том, что пользователи с большим количеством френдов чаще попадают в статистическую выборку. Например, по данным Stanford Large Network Dataset Collection на выборке из 4000 человек у среднего пользователя Facebook — 42 друга, а у каждого из этих френдов, в среднем, 91 друг.



То же самое наблюдается в других областях исследования.

Например, парадокс размера класса. Предположим, что мы опрашиваем студентов, сколько человек учится у них в группе, а потом выводим среднее арифметическое из их ответов — и получаем 56 человек. Но администрация университета говорит, что среднее количество студентов в группе — 31. Как ни странно, никто не врёт, и оба значения справедливы. Просто во время опроса больше шансов попасть в выборку имеют студенты из больших групп, потому что их на самом деле больше. Если у нас две группы 10 и 100 человек, то 100 из 110 опрошенных назовут размер своей группы в 100 человек, и только 10 человек назовут размер группы 10. Средний размер группы, по такому опросу, составит 92 студента.

Казалось бы, банальная ошибка, но она является источников недопонимания во многих реальных ситуациях. Например, при анализе пассажиропотока в общественном транспорте. Профессор информатики Аллен Дауни (Allen Downey) для статьи в журнале Американского статистического общества приводит пример среднего промежутка времени между электропоездами Red Line в Бостоне. Он записал время прибытия 70 электричек между 17:00 и 18:00.



Минимальный интервал между поездами составил 3 минуты, максимальный — 15 минут. По фактическим данным средний промежуток между поездами составляет 7,8 минуты, то есть среднее время ожидания поезда должно быть около 3,9 минуты. Но опрос пассажиров показывает, что среднее время ожидания на самом деле составило 4,4 минуты, а интервал между поездами — 8,8 минуты, то есть на 15% больше.

Причина в том, что при большей задержке поезда в его ожидании скапливается больше пассажиров, а прибывшие с коротким интервалом поезда идут менее заполненными. Соответственно, большинство пассажиров жалуются на давку в вагоне и долгое время ожидания поезда, тогда как по данным компании среднее время и загруженность вагонов соответствует норме.

Такая же проблема с авиарейсами. Большинство пассажиров говорят о полных салонах самолётов, в то время как авиакомпании жалуются на потерю прибыли, потому что так много рейсов летят почти пустыми. И те, и те правы.

«Парадокс инспекции» наблюдается, например, в забегах на длинные дистанции или при поездках на автомобиле по трассе. В каждом из этих случаев участник движения обгоняет «слишком медленных», а его обгоняют «слишком быстрые». Создаётся субъективное впечатление, что все участники движения делятся на слишком медленных или слишком быстрых, а средних нет.

Последний пример Аллена Дауни родился после прочтения книги «Оранжевый — хит сезона», мемуаров Пайпер Керман (Piper Kerman), которая провела 13 месяцев в федеральной тюрьме. В одном из фрагментов книги она выражает удивление большой продолжительностью сроков, которые отбывают заключённые. Очевидно, девушка не знакома с законами математической статистики. А ведь в соответствии с парадоксом инспекции, если попасть в тюрьму в случайный момент времени и выбрать случайного заключённого, то с большой долей вероятности он приговорён к длительному сроку заключения. Это вовсе не свидетельство негуманной тюремной системы США, а простой вывод из парадокса инспекции.



По официальным данным U.S. Sentencing Commission, средний срок составляет 121 месяц, а «субъективный средний срок» при опросе заключённых — 183 месяца.

Даже при опросе окружающих заключённых в течение тринадцати месяцев, как показывает расчёт, полученный средний результат не сильно отличается от первоначального однократного опроса.



Более-менее объективную цифру можно получить при опросе в течение 600 и более месяцев.

Комментарии (34)


  1. qbertych
    07.09.2015 01:26
    +15

    Любопытно. Антропный принцип примерно на эту же тему. Разве что в нем выборка ни к черту — всего 1 элемент =).


  1. Kain_Haart
    07.09.2015 09:05
    +1

    Мне кажется во многих случаях этого можно избежать, правильно обрабатывая данные.

    Например, в ситуации с размером группы, брать среднее сначение не среди студентов попавших в выборку, а среди групп, студенты из которых попали в выборку


    1. KonstantinSoloviov
      07.09.2015 09:39
      -10

      Именно, как тут не вспомнить про среднюю температуру по больнице.
      И о том, что статистика — предельная форма лжи.


      1. Lerk
        07.09.2015 09:51
        +11

        Все таки не обижайте статистику. Сама по себе она достаточно точна и корректна. Вопрос в способе подачи информации — а этим уже занимаются маркетологи, PR и прочие люди, у которых цели несколько иные, нежели корректная подача информации. Сразу вспоминаются сравнения производительности чего-нибудь со шкалой по «Y», стартующей не с нуля.


        1. KonstantinSoloviov
          07.09.2015 12:35
          +1

          Математическую статистику — опирающуюся на теорию вероятности, безусловно уважаю. Но в статье речь явно не о ней. Тот же пример с группами студентов — это явное передергивание фактов, та самая средняя температура по больнице. Математики включили бы в опрос идентификатор группы. А в больнице — статус пациента :)


          1. Loki3000
            08.09.2015 13:42
            +4

            Не передергивание, а ошибка в методологии. Сложность статистики не в том чтобы поделить результат на размер выборки и экстраполировать на всю выборку, а в том чтобы корректно эту выборку составить. На этом очень многие срезаются. Вспомните хотябы парадокс Монти Холла, уж насколько все кажется элементарно, но практически никто не может без подсказки правильно определить базу для расчета.


            1. KonstantinSoloviov
              08.09.2015 16:13
              -2

              Хосподи! Что вы меня все, блин, лечите-то! :))) Да, знаю я вашего Монти-Холла с козлами да машинами.
              Всего-то известное (вижу, что не всем) выражение перефразировал:

              «Существуют три вида лжи: ложь, наглая ложь и статистика»

              // вставил бы ссылку, но теперь уже увы… гугл вам в помощь ;)

              dixi


              1. Nashev
                11.09.2015 10:22
                +1

                Всем лечащим понятно, что за глупость Вы цитировали, уверяю Вас


      1. KonstantinSoloviov
        07.09.2015 17:51
        -2

        off: Забавно, наблюдаю «парадокс минусплюсатора», который можно сформулировать так:

        Вижу утверждение которое не нравится, за которым следует утверждение с которым согласен — автоматом ставлю первому «минус» и второму «плюс».

        Был бы минус без второго утверждения? Вот Вам и парадокс… :)


        1. Kain_Haart
          07.09.2015 21:24
          +2

          Скорее наоборот, после минуса первому утверждению читатель «следом» ставит плюс второму комментарию,
          потому что автор второго комментария уже изложил ту самую критику первого утверждения, на основании которой читатель поставил минус первому комментарию.

          P.S.: Совершенно непонятно, с чего вы именуете приводимое явление «парадоксом»?


        1. mugisbrows
          10.09.2015 16:32
          +1

          Забавно, наблюдаю «парадокс минусанутого», который можно сформулировать так:
          меня минусанули, не буду думать об уместности приятности и полезности своего утверждения, а вместо этого подумаю о том как удивительно устроен мир и люди которые меня окружают и хотят обидеть через эти важные для меня цифорки и байтики и выражу своё несогласие в виде неочевидной апелляции, чтобы никто не сообразил что сейчас произошло.


    1. mcpro
      07.09.2015 09:45
      +1

      Так опрашивающий не знает ничего о группах студентов. Сами студенты называют свою группу. И хорошо, если все студенты из 100-ой группы знают, что их 100. Многие ведь могут отвечать примерно: 90-100, 70-95 и т.д. +)
      В статье был приведен упрощенный пример, чтобы объяснить парадокс. В жизни разделить на группы не так-то просто.


      1. Kain_Haart
        07.09.2015 10:51

        В опрос следует включить идентификатор группы


        1. mcpro
          07.09.2015 13:49

          Так если опрос касается величин групп студентов. Вы выхватываете из толпы любого студента и узнаете количество студентов в его группе. Первый отвечает, что 75-80, второй — 90-100, третий — 90-95, четвертый — я насчитал 88. Как вы планируете раздавать идентификаторы этим группам? +))
          Если все студенты точно знают численность своей группы, то вами предложенное обрабатывание данных сработает. В ином случае все усложняется неоднородными данными полученными при опросе.


          1. soniq
            07.09.2015 14:07

            Как вы планируете раздавать идентификаторы этим группам?

            Студенты могут не знать точно, сколько у них в группе человек. Но номер своей группы они должны знать :)


            1. mcpro
              07.09.2015 18:47

              А если цель опроса — определить примерную среднюю численность группы, и предположить, что студенты не знают номер своей группы и тем более настоящую численность? +))


              1. Kain_Haart
                07.09.2015 21:27

                <irony> Тогда не имеет смысла их об этом спрашивать :)) </irony>


            1. Loki3000
              08.09.2015 13:44

              Студенты могут не знать точно, сколько у них в группе человек. Но номер своей группы они должны знать :)

              Тогда проще в деканате спросить:)


    1. dannk
      08.09.2015 00:09

      Если предположить, что выборка абсолютно случайна, то вероятность, что из A опрошенных a_i скажут, что в их группе x_i студентов, равна A n_i x_i / N, где N=sum_i n_i x_i — число всех студентов на потоке. А значит, что n_i/N=a_i/(A x_i). С другой стороны, среднее число студентов в группе равно N/sum_i n_i. Отсюда следует, что среднее число студентов можно вычислить как A/(sum_i (a_i/x_i)). То есть информации в опросе достаточно, просто надо ее правильно использовать.


      1. Chesnok
        09.09.2015 18:35

        С самого начала прочтения этой статьи, у меня была мысль, что данных должно быть достаточно для оценки среднего значения. Комментатор выше абсолютно прав и приводит правильную формулу для определения среднего значения.
        Как легко заметить, во всех приведенных в статье примерах просто допущена банальная ошибка подсчетов, статистика тут совершенно не при чем.


        1. il--ya
          10.09.2015 13:16

          во всех приведенных в статье примерах просто допущена банальная ошибка подсчетов, статистика тут совершенно не при чем

          Потому и называется «парадокс»: мнение, суждение, резко расходящееся с общепринятым, противоречащее (в действительности или на первый взгляд) здравому смыслу.


  1. baceolus
    07.09.2015 09:51
    +1

    Как раз вчера думал про то, что сравнивать молодых и старых не всегда корректно, потому что старые, которые были подверженны тем или иным привычкам, чаще умирали, что создало смещение в выборке.


    1. force
      07.09.2015 13:26
      +4

      1. baceolus
        07.09.2015 20:29
        +1

        да, но по сути, это очень похожие вещи


  1. Aingis
    07.09.2015 15:52

    Типичная ошибка. А начале обучения теории вероятности берут для примера кубик, у которого выпадение каждой грани вероятность одинаковая. Однако, в общем случае надо смотреть, являются ли оцениваемые события равновероятными. Иначе выходит как в анекдоте: «вероятность 50%: либо встречу динозавра, либо нет». Здесь примеры из той же серии.


    1. wormball
      07.09.2015 17:05

      Строго говоря, птицы являются динозаврами, так что вероятность встретить динозавра на улице не так уж и отличается от 50%.


      1. Aingis
        08.09.2015 16:31

        Это с каких пор динозавры стали теплокровными?


        1. wormball
          08.09.2015 17:10
          +1

          А почему непременно все динозавры должны стать теплокровными? Вот те, которые стали птицами — стали. А остальные — совершенно не обязательно. А во-вторых, палеонтологи говорят, что есть свидетельства, что немалая доля «тех» динозавров также была теплокровной.

          ru.wikipedia.org/wiki/%D0%9C%D0%BE%D0%BD%D0%BE%D1%84%D0%B8%D0%BB%D0%B8%D1%8F

          Вот даже здесь статью специально для вас написали: geektimes.ru/post/249914


      1. il--ya
        10.09.2015 13:19

        Строго говоря, птицы являются динозаврами

        Строго говоря, птицы не являются динозаврами.

        ДИНОЗА?ВР, динозавра, муж. (от греч. den — давно и saura — ящерица) (палеонт.). Вымершее пресмыкающееся огромных размеров.


        (По другим данным, образовано путем сложения греч. deinos «огромный, ужасный» и sauros «ящерица».)


      1. il--ya
        10.09.2015 13:36

        Птицы являются динозаврами лишь в узком смысле, в контексте кладистики.


        1. wormball
          10.09.2015 15:14

          Ну я точно так же могу сказать, что птицы не являются динозаврами лишь в узком смысле — в контексте вашего словаря. К тому же определение у вас так себе. Получается, что ихтиозавры и вымершие крокодилы также являются динозаврами, а вот велоцираптор — нет, ибо он заметно меньше человека. И вообще, непонятно, какими точно должны быть размеры, чтобы считаться огромными. Так что ваше определение не является не только общепринятым, но и строгим. А чтобы сколько-либо строго определить динозавров, как раз приходится прибегать к кладистике, то бишь называть динозаврами всех представителей некоторой ветви древа жизни. И с этим, насколько я знаю, согласно подавляющее большинство специалистов по систематике.


          1. il--ya
            10.09.2015 15:22

            Давайте тогда сойдёмся на том, что птицы также, строго говоря, являются снарядами, и с этим согласно подавляющее большинство людей, играющих в игру Angry Birds.


            1. wormball
              10.09.2015 15:55

              Ёж — птица гордая, пока не пнёшь — не полетит.

              Что-то мне подсказывает, что когда вам надо будет поменять трубы в ванной, вы пойдёте к сантехнику, а не к игроку в марио.


  1. Nashev
    11.09.2015 10:26

    Не узнал Ализара! Неужто чудо свершилось? Или статистически рано судить?