В ноябре 2012 года Рэндал Монро опубликовал комикс xkcd с календарём, в котором размер чисел каждого месяца был пропорционален тому, как часто это число упоминается в книгах по своему имени (например, «14 октября») в базе данных Google Ngrams с 2000 года. Большинство крупных дат довольно очевидны: 4 июля, 25 декабря, первое число каждого месяца, последнее число почти всех месяцев, ну и 11 сентября, оставляющее всех позади. Не так уж много дней выглядит сильно меньше остальных. К примеру, 29 февраля – крохотная точка. Но если приглядеться, можно увидеть, что 11 число каждого месяца относительно маленькое. К комиксу шло примечание: «Во всех остальных, кроме сентября, месяцах, 11-е упоминается гораздо реже остальных дат. Так было и до 11 сентября [2001], и я не знаю, почему это так». Я покопался в данных, и думаю, что разобрался, почему.

Сначала я убедился, что 11-е отличается от остальных. В месяце может быть до 31 дня, и какие-то из этих дней обязательно будут наименьшими из всех. Может быть, 11-е число на календаре не самое мелкое, просто наш глаз за это цепляется. Так что я сравнил реальные данные, а не просто изучил комикс. База данных Ngrams возвращает общее количество раз, которое фраза упоминается за год, нормализованное по количеству вышедших в тот год книг.

Я выбрал количество каждого из дней года (1 января, 2 января) и построил медианы по месяцам для каждого из дней месяца (1 января, 1 февраля и т.п.) для каждого года. Это показало, как часто 11-е и 30 других дней упоминаются в выбранном году. Медиана позволяет сгладить всплески от дней типа 4 июля. Медиана будет выглядеть необычно, только если порядковый номер будет сильно отличаться в не менее чем 6 из 12 месяцев.

Я построил медианы для каждого порядкового номера с 2000 по 2008 года. Ниже приведена гистограмма для 31 медианы. Первое число выделяется из всех, а 15 едва видно среди оставшихся. Но результат у 11-го числа меньше всех на довольно большую величину (с Р-значением < 0,05), что на первый взгляд сложно объяснить.



И этот недостаток существует уже давно. На следующем графике – все порядковые номера для каждого из годов промежутка 1800-2008. Данные сглажены по 11 годам, чтобы убрать шум. Даже в самом начале 11-е гораздо ниже основной группы. Его небольшой недостаток сохраняется несколько десятилетий, а затем в 1860-х 11-е внезапно отклоняется от своей позиции последнего в ряду средних. Разрыв между 11-м и обычными порядковыми номерами резко увеличивается, и в результате значение для частоты его упоминаний становится примерно вполовину ниже, что продолжается в первой половине XX-го века. Во второй половине разрыв сокращается, но не исчезает до самого конца.



Внимательные читатели заметят ещё одну странность. Есть ещё 4 линии, находящиеся ниже, чем они должны быть. Сверху вниз это 2-е, 3-е, 22-е и 23-е числа. С 1800 по 1890-е они находятся даже ниже, чем 11-е. Но с 1900-го их разрыв сокращается, в то время как разрыв с 11-м начинает увеличиваться, и полностью исчезает к 1930-м. Это тоже довольно интересная тема, которую мы рассмотрим чуть позже.

Типографские курьёзы


Начиная исследование, я надеялся найти тайное табу на события 11-го числа или типографическое отклонение от правил печати. Увы, причина оказалась гораздо более приземлённой: число 1 очень похоже на прописную I (i) или на строчную l (L) в большинстве шрифтов, используемых при печати книг. А также 11 можно перепутать с n. Алгоритмы от Google ошибаются, распознавая 11 на странице, и интерпретируют порядковый номер как некое слово.

Мы можем напрямую поискать бессмысленные фразы типа ll марта или II июля или ii мая. 11 можно спутать с девятью комбинациями из I, l и i. Пять из них действительно встречаются в базе данных, хотя бы для одного месяца: II-ный, Il-ный, ii-ный, li-ный и ll-ный. Также нашлись варианты с только одним неправильным символом, 1l-ный, 1i-ный и l1-ный. Я назвал эти ошибки xxth. Google Books делает запросы к более новой базе данных, чем Ngrams, но примеры таких ошибок всё равно можно отыскать. Вот, например, гугль распознаёт следующее, как II января:



Как ll февраля:



А вот li марта:



Таких примеров в базе полно. Можно найти и другие ошибочно интерпретированные порядковые номера, но 11-е встречается гораздо чаще других.

Я добавил в свои подсчёты II января, ll января, и т.д., и сделал то же для других месяцев. Следующий график показывает, что 11-е получает большой прирост от такого добавления. До 1860-х разница между 11-ми и основной группой исчезла. После 1860-х исчезла треть или четверть этой разницы.



А куда делись остальные 11-е? С 1860-х гугловский алгоритм начинает странным образом ошибаться – вместо 11-х он распознаёт n-ные. Вот пример страницы, заполненной n-ными числами января:



В некоторых годах количество неправильных распознаваний превышает количество правильных. Я добавил n-ное число января к 11-м января, и сделал то же с другими месяцами. На следующем графике показаны как n-ные числа, так и их сумма с 11-ми. До 1860-х их вклад был незначителен, но потом эта ошибка начинает отвечать почти за все пропавшие 11-е.



Комбинированный график

Добавив xxth и n-ные ошибки в график 11-х, я устранил разрыв по всей длине графика, и 11-е стало выглядеть так же, как все остальные даты. Выходит, что неправильное распознавание 11-го в виде n-ного, II, ll, и так далее, ответственно за малое количество 11-х чисел среди других дней месяца.



Типографические машины


Хотя понятно, почему 11-е было чаще других распознано неправильно, почему количество ошибок столь неравномерно? Что случилось в 1860-х, из-за чего так сильно подскочил процент ошибок? Я подозреваю, что это связано с изобретением в 1860-х такого устройства, как пишущая машинка. У самых ранних пишущих машинок не было отдельной клавиши для номера 1. Предлагалось вместо него использовать букву l (L) в нижнем регистре. И когда алгоритм распознаёт ll-ное октября, он на самом деле делает это правильнее, чем мы считали. В Google books не так много напечатанных на машинке документов, но это популярное устройство сильно повлияло на развитие шрифтов. 1 и l не отличались на всё больше распространявшихся машинках, и даже типографский шрифт стал оправдывать ожидания этого сходства. Сравните эти символы в шрифте 1850 года:



Видна разница между l без засечки вверху и 1 с явной засечкой. Сравните их в шрифте 1920 года:



Символы идентичны, за исключением кернинга. И сегодня большинство шрифтов изображают 1 и l в виде высоких символов с двумя засечками внизу и одной, направленной влево, вверху. Только угол у засечки 1 чуть больше, чем у l. Качество печати книг с 1970 года способствует уменьшению количества неправильных распознаваний, но полностью они не исчезли, поэтому оставшиеся проблемы и проявились на комиксе от xkcd.

Открытым остаётся вопрос популярности ошибки, при которой 11 заменяется на n-ное. Это довольно странная ошибка. n-ный часто встречается в математике и научных публикациях, и это может повлиять на его популярность. В большинстве шрифтов верхняя часть n очень тонкая, и наверно может быть не видна в текстах, на которых тренировался алгоритм. Но в росте 1 и n есть большая разница, особенно в эпоху пишущих машинок, где происходит много ошибок. Но фраза n-ное января – это нонсенс, поэтому шансы такого распознавания должны были уменьшиться. Возможно, в каких-то современных текстах содержались ошибки, и в них 11-е были промаркированы, как n-ные, что и послужило источником ошибок? Единственный способ это узнать – открыть исходный код алгоритма от Google, распознающего текст. Это упражнение мы оставим читателю.

Пропажа 2, 3, 22 и 23-х


С 11-ми числами мы разобрались, но во время исследования их поведения я столкнулся с ещё одной загадкой – непонятно низкое количество 2-х, 3-х, 22-х и 23-х чисел, но только до 1930-х годов, после чего их количество выравнивается.

На графике ниже расположены все числа, и по нему выходит, что в 1800-х годах указанные даты вообще не используются. Первые упоминания о наших датах появляются в 1810-х, их количество растёт с той же скоростью, что и у остальных дат, но сохраняет при этом разрыв с ними – их число примерно в два раза меньше. Внезапно в 1890-х разрыв уменьшается, и так происходит до 1930-х, когда они, наконец, вливаются в основную группу.



Дореволюціоннымъ стилемъ


Так что же, числа 2 и 3 в XIX-м веке были несчастливыми? Алгоритм от Google с трудом распознавал двойки и тройки в старых шрифтах? Нет, оказывается, что раньше вместо теперешней английской записи «2nd, 3rd, 22nd, 23rd» было принято писать «2d, 3d, 22d, 23d». Я построил медиану для January 2d, February 2d и других месяцев, и так же поступил с оставшимися датами. На графике ниже показана частота появления этих дат в старом стиле записи – они начинают с частотой других дат, но потом постепенно исчезают к 1890-м, и полностью растворяются к 1930-м.



Иногда можно встретить современное использование старой формы записи, если оно используется в названии с долгой историей, типа 3d Marine Division. Но остаточное использование такой записи происходит в основном из-за существования репринтов старых книг и публикаций старых дневников.

Комбинированный график


Если добавить старый стиль к новому, мы получим следующий график. Из него следует, что правильно подсчитанные даты почти ничем не отличаются от всех остальных.



Почему теперь получается, что упоминания 2-х и 3-х чисел иногда превышают по частоте остальные, остаётся для меня непонятным. Думаю, что по причине слишком частого упоминания 1-го числа месяца, 2-е и 3-и числа тоже должны упоминаться чуть чаще. Но если поискать в Google Books вхождения January 2d или January 2nd, можно найти довольно много подобных пассажей:



Видимо, Google Books игнорирует запятые. Так что, хотя числа месяца с 1 по 4 ничего особенного собой не представляют, такие вот примеры могут влиять на статистику.

Рассуждения


Почему раньше писатели использовали такие однобуквенные аббревиатуры? Возможно, из-за латыни, где индикатором порядкового номера служила буква о. В таких романских языках, как испанский, итальянский и португальский, до сих пор используются о или а. Мы бы до сих пор использовали d, если бы не 1st, 4th и т.п., у которых последняя согласная не выражается в английском одной буквой. Получилось, что следование английскому языку перевесило желание подражать латыни.
Поделиться с друзьями
-->

Комментарии (31)


  1. DEM_dwg
    24.09.2016 08:37
    -46

    Исследование показывающее как далеко иногда ученые от реальной жизни.
    11 сентября был крупнейший теракт в США


    1. pnetmon
      24.09.2016 08:48
      +8

      автор об этом пишет — «Так было и до 11 сентября, и я не знаю, почему это так», точнее в оригинале before 9/11, где под 11 сентября подразумевается 11 сентября 2001


      1. DEM_dwg
        24.09.2016 08:54
        -19

        Так он а пост фильтрация запросов делалась?
        Чтобы отсечь 11.09.2001…
        И большие сомнения я имею, что исследование велось с до 11.09.2001


        1. pnetmon
          24.09.2016 09:19
          +3

          Как можно написать о 11 сентября как о терракте в изданном до 11 сентября 2011 года? По оси X — года публикации


        1. pnetmon
          24.09.2016 10:06

          Хотя в чем-то вы правы если автор пишет «в базе данных Google Ngrams с 2000 года.»

          Но если смотреть на 11 число других месяцев — он пишет «Я построил медианы для каждого порядкового номера с 2000 по 2008 года.» и «Но результат у 11-го числа меньше всех на довольно большую величину»…

          Почему так для 11 чисел других месяцев в выборке с 2000 года автор так и не ответил


          1. Robotex
            26.09.2016 19:12
            +1

            А ты статью читать пробовал?


            1. pnetmon
              26.09.2016 20:39

              Пробывал. Что хочешь обсудить?
              Приведенный рисунок составлен для книг с 2000 года, то есть все рассуждения про шрифты и написания для этих данных идут лесом.
              Автор пишет: Я построил медианы для каждого порядкового номера с 2000 по 2008 года… Но результат у 11-го числа меньше всех на довольно большую величину (с Р-значением < 0,05), что на первый взгляд сложно объяснить.… Качество печати книг с 1970 года способствует уменьшению количества неправильных распознаваний, но полностью они не исчезли, поэтому оставшиеся проблемы и проявились на комиксе от xkcd.Открытым остаётся вопрос популярности ошибки, при которой 11 заменяется на n-ное.… Единственный способ это узнать – открыть исходный код алгоритма от Google, распознающего текст. Это упражнение мы оставим читателю.

              Что 11 февраля, марта, июня, июля, августа это проблема распознования?


              1. Robotex
                26.09.2016 21:05

                А чем 11 февраля, марта, июня, июля, августа отличается от 11го числа других месяцев?


                1. pnetmon
                  26.09.2016 22:25

                  Тем что на рисунке они имеют маленький размер.


                  1. Robotex
                    26.09.2016 22:56
                    +1

                    Они все имеют маленький размер. И статья объясняет почему.


                    1. pnetmon
                      27.09.2016 11:23

                      Они не все имеют маленький размер (9/11 исключаем), указанные имет очень отличный от среднего других дней в месяце
                      Статья не объясняет почему именно по выборке 2000-2008(2015).


                      1. Robotex
                        27.09.2016 13:33

                        Они тоже меньше, просто человеческий глаз не может это заметить.
                        Ну выбрал автор такую выборку и что? Это ж даты оцифровки и добавления книг, а не их публикации


                        1. pnetmon
                          27.09.2016 21:36

                          Они размлчны между собой как 11 число.

                          Это даты публикации. Графики с 1800 года. С 2000 для 11 числа упоминание все равно мало по сравнению с другими числами


    1. igruh
      24.09.2016 09:06
      +33

      Статью не читай, комментируй быстрее, твоё мнение так важно, наш капитан.


      1. DEM_dwg
        24.09.2016 10:27
        -6

        Статью читал, прежде чем написать…
        Но вот не увидел чтобы было написано, 11 сентября 1999 года было упомянуто 20005 раз, 11 сентября 1908 было в запросах 100 раз и т.д.
        Попробуйте наберите 11 сентебря и любой год, и у вас на соответствующую дату будет очень очевидный результат.
        Была ли проведена пост фильтрация не написано.


        1. Thero
          24.09.2016 11:15
          +7

          там ващет написано что с 11 сентября после 2001 всё понятно, а речь идёт о том что с 1800 года 11 число месяца попадает в статистику реже чем например 15е.

          P.S. коментарий показывающий насколько далеки коментаторы от внимательного чтения статьи.


          1. DEM_dwg
            24.09.2016 11:47
            -6

            Ну и о чем это говорит?
            Что всё таки 11.08.2001 всё таки внесло сильный вклад в эту статистику?
            Вы в конце концов попробуйте забить эту дату в поисковик и такую же но в другом году.
            Он ничего не пишет о пост фильтрации.


            1. pudovMaxim
              24.09.2016 13:47
              +1

              Вы не туда думаете. В посте идет подсчет статистики не запросов в «просто гугл», а его сервиса ngrams, который ищет не в вебе, а в буках(книгах).


            1. avost
              24.09.2016 16:43
              +2

              Он пишет, что специально считал медианы, чтобы уменьшить влияниу этого очевидного выброса. Вы это тоже не прчитали.? И, да, влияние, безусловно, есть. Вы и картинку с календарём не видели? Чего вы вообще получить хотите? С 9/11 всё предельно ясно, случай тривиальный и абсолютно неинтересный.


              1. Thero
                24.09.2016 18:26
                +2

                кажется проблема в том, что мы учитываем 9/11 но делаем это без уважения.


                1. avost
                  24.09.2016 19:27
                  -2

                  Похоже.
                  Эгей, товарищ демдвг, если у вас так чешется, то вот вам моё троекратное «КУ»! Отпускает?


    1. Juma
      24.09.2016 11:54

      Исследование о том что число 11 любого месяца (кроме 11 сентября) встречается реже чем остальные числа.
      Если посмотреть на первую картинку, то там в каждом месяце число 11 почти самое маленькое (кроме 11 сентября)


    1. Phantom91x
      24.09.2016 12:27
      +1

      Так в этой статье речь не об 11 сентября, а об 11 числах всех других месяцев. И об упоминании 11.09 до 2001 года.


  1. Beholder
    24.09.2016 12:44
    +2

    Ещё одна статья на тему «Вы ещё доверяете машинному распознаванию?»


    1. napa3um
      24.09.2016 13:03
      +1

      Возможно помимо дефектов распознавания там действительно кроется некий статистический артефакт в стиле закона Бенфорда.


      1. Regis
        27.09.2016 02:21
        +1

        в стиле закона Бенфорда
        Спасибо за упоминание. Было интересно о нем почитать.


  1. NikitosZs
    24.09.2016 15:31

    >>как часто это число упоминается в книгах по своему имени (например, «14 октября»)
    Я минут 15 сижу гуглю про 14 октября и ничего не могу найти. На календаре с картинки дата имеет обычный размер. Или это как пример «любой клавиши»?


  1. Biga
    24.09.2016 19:40
    +1

    > если оно используется в названии с долгой историей, типа 3d Marine Division.

    Сейчас такое использование вновь набирает популярность, особенно на афишах кинотеатров.


  1. Borz
    25.09.2016 09:11
    +2

    интересно, после добавления буквенно-цифровых комбинаций для «11», сделал ли он так же для остальных чисел с единицей? Из текста не очень понял этого


  1. 4ebriking
    26.09.2016 17:08
    +2

    эх, распознавалки… «из-за холма показались тапки противника. С неба на них обрушились наши вилы»
    Ну и «Николай ИИ-тый» с некоторых пор тоже доставляет.


  1. Sliver
    28.09.2016 15:22
    -1

    Очевидно, автор совсем не знаком с китайской и азиатской культурой.
    Про цифру 2 и числа с её участием там вообще никто не задумывается: оно означает "смерть".


    Аналогично тому, как в английском 2=>to, 4=>for, в китайском языке каждая цифра созвучна с каким-то словом.
    Вот двойке не повезло.


    Ни один китаец не купит дом с номером 2, 12 и так далее, откажется от номеров гостиницы и квартиры на этих этажах — сильно дешевле, чем на других.