Любитель обработки массивов данных, скрывающийся под ником CuriousGNU, решил проверить «Закон Годвина» по отношению к дискуссиям на reddit. Анализ 4,6 миллионов комментариев к записям reddit, проведённый при помощи сервиса Google BigQuery, показал хорошее соответствие закона реальности.

Американский журналист и писатель Майкл Уэйн Годвин по прозвищу «Майк», интересовался интернетом ещё со времён появления Usenet, а в 1990-м году устроился в фонд EFF (Фонд электронных рубежей, занимающийся правами человека в цифровом мире) и стал первым штатным юристом организации.

Являясь активным пользователем Usenet и изучая первые появляющиеся интернет-мемы, Майк заметил, что в дискуссиях с завидным постоянством всплывали упоминания нацистов или Гитлера. Это показалось ему настолько навязчивым, что в шутку он вывел "Закон Годвина нацистских аналогий": с ростом онлайн-дискуссии, вероятность упоминания в ней нацистов или Гитлера стремится к единице.

CuriousGNU, как энтузиаст больших данных, построил несколько графиков, связанных с этим «законом».

image
Количество комментариев, в которых упоминаются нацисты или Гитлер

Интересно, что, даже исключив из рассмотрения исторические реддиты, от закона Годвина уйти не получается. Для постов, в которых количество комментариев перевалило за тысячу, вероятность упоминания нацистов уже превышает 70%. В постах с более чем 4000 комментариями вероятность стремится к 95%.

image

Комментарии (11)


  1. DrSavinkov
    09.05.2016 00:05
    +9

    Хмм, а разве это не частный случай утверждения, что событие, имеющее ненулевую вероятность, гарантированно произойдёт на бесконечном промежутке времени?


    1. staticlab
      09.05.2016 14:51
      +3

      Для события, которое наблюдается в выборке n=4000 с достоверностью 95%, у него достаточно высокая вероятность. Кроме того, каждый отдельный пост в треде не является независимым событием, поскольку, по большей части, зависит от предыдущих, а потому закономерности вроде теоремы Пуассона здесь неприменимы.


  1. Barafu
    09.05.2016 00:13
    +7

    Хотелось бы, для сравнения, посмотреть частоту упоминания чего-либо столь же известного. Например, Христа. Или яичницы.


    1. barmaley_exe
      09.05.2016 12:42

      С Христом не получилось бы, ибо «Jesus Christ» является очень распространённым выражением, своего рода аналогом «Чёрт побери». С яичницей похожая история — есть поговорка «You can't make an omelette without breaking eggs». Хотя может и про Гитлера есть поговорка.

      UPD: с другой стороны, что Иисус, что яичница просто имели бы другую вероятность упоминания, но график вероятности хотя бы одного упоминания в серии из n испытаний должен был бы выглядеть похоже.


      1. mafia8
        09.05.2016 17:47

        Mylene Farmer — Que mon coeur lache — видео, в начале.
        — Отец, ты меня звал?
        — Нет, это просто такое выражение.


  1. Espleth
    09.05.2016 13:24

    Всегда радовали такие графики, которые по сути противоречат их сути — наглядности. Сделали фигню? Давайте используем график с кривыми отметками, чтобы казалось, что наша работа имеет смысл.


    1. herr_kaizer
      09.05.2016 16:54

      В каком месте они ненаглядны?


      1. eduard93
        09.05.2016 20:04

        На оси абсцисс не выдержан масштаб.


        1. Labunsky
          09.05.2016 22:48

          Он выдержан на отделенных пунктирами областях


          1. Espleth
            10.05.2016 00:23
            +2

            Я уверен, что большинство читающих, на эти пунктиры то и не смотрят, а видят график как «ух ты, интересный скачок идет после 1000 комментов!». Конечно, это можно спихнуть на невнимательность пользователя, но как по мне такие графики — это первый шаг на пути к «ученый изнасиловал журналиста».


  1. Spetros
    09.05.2016 20:27

    И как всё это соотносится с интернет-мемом граммар-наци?