Для анализа и работы над ошибками мы трекаем наши хабровские статьи сервисом t.onthe.io. Вот так выглядит сравнение нашей статьи (синий график) со статьей, которая вышла приблизительно в то же время и висела выше нас в интересном (зеленый график):
Интересный факт: соотношение добавлений в избранное к количеству просмотров в статьи практически одинаковое на протяжении всей жизни статьи. Т.е. можно сделать вывод, что качественно статья оценивается одинаково все свое время жизни — т.е. если вас любят в первые часы, то в дальнейшем ничего измениться не должно.
Соотношение добавлений в избранное на второй день приблизительно равно 1,5%:
Когда-то на хабре было опубликовано исследование, о том, в какой день лучше публиковаться. Нам стало интересно, можно ли предугадать сколько будет у статьи просмотров через 2 дня по первым трем часам ее жизни.
Начало эксперимента
Дашборд.
Для анализа были выбраны первые 10 статей понедельника (13-07-2015) и одна наша популярная статья про нейронные сети:
Публикация | Короткое название |
Основы успешной реализации push-уведомлений для мобильных приложений | pushUvedomleniya |
Введение в Octopus Deploy | octopusDeploy |
Entity Framework 6 (7) vs NHibernate 4: взгляд со стороны DDD | entityFramework |
ERP на виртуальной машине: тестируем SAP + Oracle Database на виртуальных машинах VMware и СКАЛА-Р |
erpNaVirtMashine |
Автоматический регулятор температуры газовой колонки | RegGasKolonki |
Databene Benerator — бенерируй это | DatabeneBenerator |
Реал-тайм процессинг данных в AWS Cloud. Часть 2 | RealTimeProcessing |
Условие как компромисс | UslovieKompromiss |
Что дают профили антивируcной защиты? | ProfiliAntivirus |
Основы успешной реализации push-уведомлений для мобильных приложений | ModelVichProcess |
Как нейронные сети рисуют картины | IOneuralNetwork |
Все статьи были подключены к трекеру в одно время. Разброс по времени публикации: от 4 утра до 13 дня по МСК. Метрики для исследования:
- Комментарии.
- Количество просмотров.
- Добавление в избранное.
- Рейтинг автора.
Сравнение количества просмотров публикаций:
Результаты эксперимента
Таблица данных:
Название | Кол. просмотров через 3 ч | Кол. просмотров через 48 ч | Процент роста |
pushUvedomleniya | 1240 | 7070 | 470% |
erpNaVirtMashine | 656 | 2440 | 272% |
octopusDeploy | 1950 | 5610 | 188% |
entityFramework | 4650 | 9450 | 103% |
RegGasKolonki | 3540 | 12700 | 259% |
DatabeneBenerator | 1610 | 3040 | 89% |
RealTimeProcessing | 247 | 1710 | 592% |
UslovieKompromiss | 4350 | 15630 | 259% |
ProfiliAntivirus | 1160 | 3810 | 228% |
ModelVichProcess | 1170 | 3810 | 226% |
IOneuralNetwork | 8120 | 29990 | 269% |
По данным видно, что средний прирост просмотров большинства исследуемых статей равен 243%. Мы исключили аномальные значения. У некоторых статей прирост просмотров более 400%, по всей видимости из-за того, что они попали в лучшее. У других статей прирост слишком мал (80-100%), потому что они были опубликованы задолго до включения трекера (начало анализа в 13:00 по МСК).
По итогам эксперимента мы можем приблизительно знать сколько просмотров получит статья по первым трем часам ее жизни. Прирост скорее всего составит 240-250%.
Трехмерный график зависимости роста рейтинга автора от количества просмотров и добавлений в избранное.
Чем больше просмотров и добавлений в избранное получает статья, тем больше прирост рейтинга автора. В этом графике не учтены лайки публикации, тем не менее связь и так видна. Одинаковый максимальный прирост рейтинга получили авторы статей, у которых количество просмотров отличается почти в два раза.
Еще интересные наблюдения
По графикам видно когда на хабре идет прирост просмотров. Утром после 7:30, далее днем после 13:00 и вечером после 18:00. Но и так понятно почему так происходит. Забавно, что в пятницу после 18:00 просмотры спадают, а в выходные начинают расти только после 10:00 по МСК.
Наша статья про умный кроп с достаточно высокой конверсией просмотров в звездочки (1%) не стала такой популярной как статья про Нейронные сети (итоговая конверсия — 0,5%).
Когда наша статья попала в еженедельную рассылку от хабра, количество просмотров статьи возросло всего на 6%.
Кстати, эта статья прямо сейчас трекается нашим сервисом в реальном времени.
За какими еще параметрами публикаций было бы интересно понаблюдать в реальном времени?
Конспект
- Трекать статьи на хабре можно с помощью сервиса t.onthe.io.
- Конверсия количества просмотров в добавление в избранное не меняется на протяжении жизни статьи.
- С некоторой вероятностью можно предсказать, что статья через 48 часов получит на 240-250% больше просмотров, чем в первые 3 часа жизни.
- Прирост количества просмотров замедляется через 48 часов жизни публикации, если конечно она не попадает в недельную рассылку.
Комментарии (11)
WingedFlame
16.07.2015 16:14+1Интересно было бы последить за соотношением количества добавлений в избранное к количеству (и, возможно, суммарному/среднему рейтингу) комментариев. Можно предположить, насколько много людей добавляют статью в избранное из-за полезной информации в комментариях.
moccachin Автор
16.07.2015 18:15По одной из статей вот так выглядит соотношение избранного в комментарии. Добавления растут с ростом количества комментариев.
varagian
16.07.2015 16:58+2Вдогонку к этому исследованию:
Синдром ступеньки и срез посещаемости Хабра
Пульс Хабра
Когда никто не читает Хабр
Часть первая, а вторую часть всё равно никто не читает
Портрет Хабра-tutorialglazik
16.07.2015 17:53Добавлю:
В какой день лучше писать на «Мегамозге»? (и хабре) — megamozg.ru/company/fixico/blog/16516
shtorman
16.07.2015 17:03+2Как автор не самой лучшей по проценту роста публикации отмечу:
на просмотры в первые 3 часа — на мой взгляд, влияет время публикации!
за 48 часов — подача материала до cut'а (сумеет ли заинтриговать).
после 48 часов — актуальность материала (популярность темы в основном на хабре).
после продолжительного времени — велика ли тематическая аудитория данного поста (не только на хабре).
На добавление в избранное — только полезность материала или примененных в ней каких-то решений: интересные цитаты, схемы, графики, картинки…
… и не забудьте про котиков!
Спасибо за конспект!
ffriend
17.07.2015 03:01+3Давайте учиться делать статистические исследования.
Во-первых, делать какой-либо вывод на основе 11 публикаций — изначально неправильных подход. Обычно в качестве минимального количества советуют брать 30, а для такого исследования не помешало бы взять хотя бы 100.
Во-вторых, если статья попала в лучшее, это не делает её аномальной. Даже чисто с точки зрения анализа данных. Аномальный — это когда пользователи вводили свой возраст, и кто-то случайно опечатался и написал 266 лет вместо 26. Рост просмотров статьи на 400%+ процентов — это как раз очень полезные данные, которые нужно тщательно изучать, а не отбрасывать.
А вот что нужно отбрасывать, и это в-третьих, это крайние по времени значения — замеры в начале и конце изучаемого интервала. Но именно по времени замеров, а не по проценту роста количества просмотров.
Кстати, общее количество просмотров — это так себе метрика для временных рядов. Ну вот что она сама по себе показывает? Просто какое-то число, которое растёт. Чаще всего исследуется либо количество просмотров за период (например, час) или скорость роста/падения популярности, т.е. производная от кол-ва просмотров за период. И вот график изменения частоты просмотров статьи в зависимости от времени после публикации было бы действительно интересно посмотреть.
В-четвёртых, следущее предложение неверно:
С некоторой вероятностью можно предсказать, что статья через 48 часов получит на 240-250% больше просмотров, чем в первые 3 часа жизни.
Ну, т.е., оно верно, но не больше, чем «с некоторой вероятностью через 48 часов статья получит на 100500% больше просмотров» или «с некоторой вероятностью через 48 часов инопланетяне взорвут землю». С некоторой вероятностью — да, вопрос именно в том, с какой вероятность. И, судя по вашим данным, это вероятность будет не так и велика: стандартное отклонение (сигма) у вас составляет 146.6%. Т.е. если предположить нормальное распределение, то в 95% случаев через 48 часов статья получит 245% плюс-минус 440% прироста, что делает эту метрику (первые 3 часа) практически бесполезной.
Вообще, такие вещи анализируются многомерной регрессией (multivariate regression), обязательно с учётом времени суток, времени публикации, темы публикации, аудитории соответсвущего хаба, попаданием на главную и т.д. Вот тогда можно будет говорить и про анализ тенденций, и про предсказание количества просмотров.
Кстати, дашборд ваш на данный момент тоже не работает — просто пустой текст возвращает.
alkozin
21.07.2015 08:48В списке 10 статей понедельника одна повторяется: «Основы успешной реализации push-уведомлений для мобильных приложений»
sim-dev
Самый первый график очень не информативен: я лично не могу обнаружить в нем зеленый. Последний в том же духе — серый слился с голубым.
moccachin Автор
А первый график сейчас?
sim-dev
Сейчас все, кроме последнего, вполне прилично выглядят.