Кто-то с помощью Хабра пиарится, кто-то ведет свою контент стратегию, а кто-то просто делится интересной информацией. Но всем хочется знать заранее что будет с опубликованным материалом, будет он популярным или нет, понравится ли читателям. Можно ли предугадать сколько просмотров получит статья по первым трем часам ее жизни?

image


Для анализа и работы над ошибками мы трекаем наши хабровские статьи сервисом t.onthe.io. Вот так выглядит сравнение нашей статьи (синий график) со статьей, которая вышла приблизительно в то же время и висела выше нас в интересном (зеленый график):

image

Интересный факт: соотношение добавлений в избранное к количеству просмотров в статьи практически одинаковое на протяжении всей жизни статьи. Т.е. можно сделать вывод, что качественно статья оценивается одинаково все свое время жизни — т.е. если вас любят в первые часы, то в дальнейшем ничего измениться не должно.

Соотношение добавлений в избранное на второй день приблизительно равно 1,5%:

image

Когда-то на хабре было опубликовано исследование, о том, в какой день лучше публиковаться. Нам стало интересно, можно ли предугадать сколько будет у статьи просмотров через 2 дня по первым трем часам ее жизни.

Почему 48 часов
В ходе эксперимента мы выяснили, что через 48 часов количество просмотров статьи существенно замедляется.

Начало эксперимента


Дашборд.

Для анализа были выбраны первые 10 статей понедельника (13-07-2015) и одна наша популярная статья про нейронные сети:

Публикация Короткое название
Основы успешной реализации push-уведомлений для мобильных приложений pushUvedomleniya
Введение в Octopus Deploy octopusDeploy
Entity Framework 6 (7) vs NHibernate 4: взгляд со стороны DDD entityFramework
ERP на виртуальной машине: тестируем SAP + Oracle Database на виртуальных
машинах VMware и СКАЛА-Р
erpNaVirtMashine
Автоматический регулятор температуры газовой колонки RegGasKolonki
Databene Benerator — бенерируй это DatabeneBenerator
Реал-тайм процессинг данных в AWS Cloud. Часть 2 RealTimeProcessing
Условие как компромисс UslovieKompromiss
Что дают профили антивируcной защиты? ProfiliAntivirus
Основы успешной реализации push-уведомлений для мобильных приложений ModelVichProcess
Как нейронные сети рисуют картины IOneuralNetwork

Все статьи были подключены к трекеру в одно время. Разброс по времени публикации: от 4 утра до 13 дня по МСК. Метрики для исследования:

  • Комментарии.
  • Количество просмотров.
  • Добавление в избранное.
  • Рейтинг автора.

Сравнение количества просмотров публикаций:

image

Результаты эксперимента


Таблица данных:
Название Кол. просмотров через 3 ч Кол. просмотров через 48 ч Процент роста
pushUvedomleniya 1240 7070 470%
erpNaVirtMashine 656 2440 272%
octopusDeploy 1950 5610 188%
entityFramework 4650 9450 103%
RegGasKolonki 3540 12700 259%
DatabeneBenerator 1610 3040 89%
RealTimeProcessing 247 1710 592%
UslovieKompromiss 4350 15630 259%
ProfiliAntivirus 1160 3810 228%
ModelVichProcess 1170 3810 226%
IOneuralNetwork 8120 29990 269%

По данным видно, что средний прирост просмотров большинства исследуемых статей равен 243%. Мы исключили аномальные значения. У некоторых статей прирост просмотров более 400%, по всей видимости из-за того, что они попали в лучшее. У других статей прирост слишком мал (80-100%), потому что они были опубликованы задолго до включения трекера (начало анализа в 13:00 по МСК).

По итогам эксперимента мы можем приблизительно знать сколько просмотров получит статья по первым трем часам ее жизни. Прирост скорее всего составит 240-250%.

Трехмерный график зависимости роста рейтинга автора от количества просмотров и добавлений в избранное.

image

Чем больше просмотров и добавлений в избранное получает статья, тем больше прирост рейтинга автора. В этом графике не учтены лайки публикации, тем не менее связь и так видна. Одинаковый максимальный прирост рейтинга получили авторы статей, у которых количество просмотров отличается почти в два раза.

Еще интересные наблюдения


По графикам видно когда на хабре идет прирост просмотров. Утром после 7:30, далее днем после 13:00 и вечером после 18:00. Но и так понятно почему так происходит. Забавно, что в пятницу после 18:00 просмотры спадают, а в выходные начинают расти только после 10:00 по МСК.

Наша статья про умный кроп с достаточно высокой конверсией просмотров в звездочки (1%) не стала такой популярной как статья про Нейронные сети (итоговая конверсия — 0,5%).

Когда наша статья попала в еженедельную рассылку от хабра, количество просмотров статьи возросло всего на 6%.

image

Кстати, эта статья прямо сейчас трекается нашим сервисом в реальном времени.

За какими еще параметрами публикаций было бы интересно понаблюдать в реальном времени?

Конспект


  1. Трекать статьи на хабре можно с помощью сервиса t.onthe.io.
  2. Конверсия количества просмотров в добавление в избранное не меняется на протяжении жизни статьи.
  3. С некоторой вероятностью можно предсказать, что статья через 48 часов получит на 240-250% больше просмотров, чем в первые 3 часа жизни.
  4. Прирост количества просмотров замедляется через 48 часов жизни публикации, если конечно она не попадает в недельную рассылку.

Комментарии (11)


  1. sim-dev
    16.07.2015 16:09
    +1

    Самый первый график очень не информативен: я лично не могу обнаружить в нем зеленый. Последний в том же духе — серый слился с голубым.


    1. moccachin Автор
      16.07.2015 16:19

      А первый график сейчас?


      1. sim-dev
        16.07.2015 21:04

        Сейчас все, кроме последнего, вполне прилично выглядят.


  1. WingedFlame
    16.07.2015 16:14
    +1

    Интересно было бы последить за соотношением количества добавлений в избранное к количеству (и, возможно, суммарному/среднему рейтингу) комментариев. Можно предположить, насколько много людей добавляют статью в избранное из-за полезной информации в комментариях.


    1. moccachin Автор
      16.07.2015 18:15

      По одной из статей вот так выглядит соотношение избранного в комментарии. Добавления растут с ростом количества комментариев.
      image


  1. varagian
    16.07.2015 16:58
    +2

    1. glazik
      16.07.2015 17:53

      Добавлю:
      В какой день лучше писать на «Мегамозге»? (и хабре) — megamozg.ru/company/fixico/blog/16516


  1. shtorman
    16.07.2015 17:03
    +2

    Как автор не самой лучшей по проценту роста публикации отмечу:
    на просмотры в первые 3 часа — на мой взгляд, влияет время публикации!
    за 48 часов — подача материала до cut'а (сумеет ли заинтриговать).
    после 48 часов — актуальность материала (популярность темы в основном на хабре).
    после продолжительного времени — велика ли тематическая аудитория данного поста (не только на хабре).
    На добавление в избранное — только полезность материала или примененных в ней каких-то решений: интересные цитаты, схемы, графики, картинки…
    … и не забудьте про котиков!
    Спасибо за конспект!


  1. ffriend
    17.07.2015 03:01
    +3

    Давайте учиться делать статистические исследования.

    Во-первых, делать какой-либо вывод на основе 11 публикаций — изначально неправильных подход. Обычно в качестве минимального количества советуют брать 30, а для такого исследования не помешало бы взять хотя бы 100.

    Во-вторых, если статья попала в лучшее, это не делает её аномальной. Даже чисто с точки зрения анализа данных. Аномальный — это когда пользователи вводили свой возраст, и кто-то случайно опечатался и написал 266 лет вместо 26. Рост просмотров статьи на 400%+ процентов — это как раз очень полезные данные, которые нужно тщательно изучать, а не отбрасывать.

    А вот что нужно отбрасывать, и это в-третьих, это крайние по времени значения — замеры в начале и конце изучаемого интервала. Но именно по времени замеров, а не по проценту роста количества просмотров.

    Кстати, общее количество просмотров — это так себе метрика для временных рядов. Ну вот что она сама по себе показывает? Просто какое-то число, которое растёт. Чаще всего исследуется либо количество просмотров за период (например, час) или скорость роста/падения популярности, т.е. производная от кол-ва просмотров за период. И вот график изменения частоты просмотров статьи в зависимости от времени после публикации было бы действительно интересно посмотреть.

    В-четвёртых, следущее предложение неверно:

    С некоторой вероятностью можно предсказать, что статья через 48 часов получит на 240-250% больше просмотров, чем в первые 3 часа жизни.

    Ну, т.е., оно верно, но не больше, чем «с некоторой вероятностью через 48 часов статья получит на 100500% больше просмотров» или «с некоторой вероятностью через 48 часов инопланетяне взорвут землю». С некоторой вероятностью — да, вопрос именно в том, с какой вероятность. И, судя по вашим данным, это вероятность будет не так и велика: стандартное отклонение (сигма) у вас составляет 146.6%. Т.е. если предположить нормальное распределение, то в 95% случаев через 48 часов статья получит 245% плюс-минус 440% прироста, что делает эту метрику (первые 3 часа) практически бесполезной.

    Вообще, такие вещи анализируются многомерной регрессией (multivariate regression), обязательно с учётом времени суток, времени публикации, темы публикации, аудитории соответсвущего хаба, попаданием на главную и т.д. Вот тогда можно будет говорить и про анализ тенденций, и про предсказание количества просмотров.

    Кстати, дашборд ваш на данный момент тоже не работает — просто пустой текст возвращает.


    1. moccachin Автор
      17.07.2015 11:45

      Уже работют Дашборды


  1. alkozin
    21.07.2015 08:48

    В списке 10 статей понедельника одна повторяется: «Основы успешной реализации push-уведомлений для мобильных приложений»