Привет, habr! ?

Вы когда-нибудь задумывались, почему некоторые посты набирают тысячи просмотров, а другие остаются незамеченными? Ясно, что Content is King, но есть ли дополнительные факторы, которые влияют на успешность поста?

Мы решили не гадать, а действовать. ?

Соскрейпили все посты на VC, а затем посчитали корреляции, чтобы выяснить, что же на самом деле привлекает внимание аудитории.

Данные и графики ниже! 

Данные включали длину статьи, количество и активность комментариев, общее количество просмотров автора и многое другое.

График 1: Теги и длина названия

Показы отражают количество раз, когда статья была показана пользователям, а просмотры фиксируют, когда пользователи переходили, чтобы прочитать полный текст.

Количество тегов vs Показы: Статьи с 5-10 тегами часто имеют больше показов. Это может указывать на то, что умеренное количество тегов может улучшить видимость статьи в ленте пользователей.

Количество тегов vs Просмотры: Статьи с меньшим количеством тегов имеют больше просмотров. Возможно читатели предпочитают статьи с конкретной тематикой, которые легко найти по релевантным тегам.

Длина заголовка vs Показы: Статьи с более длинными заголовками не всегда получают больше показов. Вместо явной линейной зависимости мы наблюдаем более разбросанные данные. Тем не менее, можно заметить умеренную положительную тенденцию: заголовки средней длины, кажется, привлекают больше показов, чем очень короткие или слишком длинные.

Длина заголовка vs Просмотры: Здесь также не обнаружено чёткой корреляции, подчеркивая, что качество и привлекательность заголовка могут быть более важны для стимулирования просмотров, чем их длина.

График 2: Длина контента и популярность автора

Тут смотрим на влияние персональной популярности автора на показы его статей. По оси X отложено общее количество просмотров, которое набрал автор, а по оси Y — количество показов отдельной статьи.

Наблюдаемые тренды:

  • Авторы с высоким общим количеством просмотров: Статьи авторов, которые уже имеют значительное количество просмотров, склонны иметь высокое количество показов. Это может говорить о том, что у этих авторов уже сложилась своя аудитория, которая активно следит за новыми публикациями.

  • Новые или менее популярные авторы: У авторов с меньшим общим количеством просмотров также есть статьи с высоким количеством показов, но таких случаев меньше. Это может указывать на то, что даже авторы, не обладающие большой популярностью, могут достичь широкой видимости, если их контент окажется крутым.

  • Без четкой корреляции: На графике нет четкой линейной зависимости, что показывает, что не всегда большее количество общих просмотров у автора гарантирует больше показов для каждой статьи.

Эти данные могут указывать на то, что популярность — это сочетание таланта (способности писать крутой контент) и труда (построение аудитории со временем). Это также подчеркивает, что новичкам не стоит отчаиваться: качественный контент имеет потенциал для успеха независимо от истории просмотров автора.

Важно отметить, что эти выводы представляют только одну сторону истории. Для полной картины следует рассмотреть другие факторы, такие как тематика статьи, актуальность темы, время публикации и формат представления контента.

График 3: Длина текста и время жизни

  • Начальный интерес: Статьи обычно получают большинство просмотров сразу после публикации. Это может быть видно по большому количеству точек, сконцентрированных в начале графика, что указывает на высокую активность в первые дни.

  • Снижение активности: С увеличением количества дней после публикации количество просмотров постепенно снижается, что показывает типичный жизненный цикл контента, когда начальный всплеск интереса затихает.

  • Долговечный контент: Однако, некоторые статьи продолжают набирать просмотры даже спустя значительное время после публикации, что может свидетельствовать о долговременной ценности контента или о его "возрождении" за счёт повторного внимания (например, когда на статью ссылаются из новых публикаций).

Результаты

Контент на VC действительно имеет свои паттерны. Например, есть магический баланс между длиной статьи и ее способностью собирать лайки. Слишком короткая и она кажется легковесной, слишком длинная — и читатели утекают прежде, чем успеют понять про что контент.

И да, звезды VC.ru действительно имеют свою силу притяжения   — но это не значит, что у новичков нет шансов!

Получить исходники нашего мини-исследования можно на GitHub

Комментарии (4)


  1. sawabear_a
    24.04.2024 02:12
    +2

    Привет, вы нашли корреляции и благодаря им можете построить модель для предсказания просмотров статьи, например.

    Но в статье не выявлены причины такого количества просмотров. Очевидно, что тэги, длина статьи и длина заголовка при мусорном контенте совершенно не работают. Анализ стоило проводить в разрезе популярный/не популярный автор - кажется, что вы бы обнаружили, что правила, работающие для популярных авторов, совершенно не работают для других.

    Дело не в том, что у не популярных будет просмотров меньше в любом случае (так как у них нет своей аудитории), а в том, что выявленные корреляции не работают в принципе, если статья не получила охваты.


    1. diyor28 Автор
      24.04.2024 02:12
      +2

      Привет. В первую очередь спасибо за конструктивный фидбек.
      Нынче поведение "чайка" очень популярно (обосрал и улетел).

      Это первый раз когда я что-то подобное делаю.
      И уже пост фактум понял что нужно было еще отделить новости, совсем старые статьи и всякий мусор. (код обновился с тех пор)

      Поделить на популярных/не популярных авторов отличная идея. Возможно эти изменения когда-то дойдут до хабра:)

      Кстати в GitHub есть еще кое-что, что не попало в статью. При помощи word2vec и K-means сгруппировал заголовки по схожести. И можно посмотреть заголовки с какой структурой и формулировкой преобретают больше всего просмотров. Либо CTR.


  1. ilya_pu
    24.04.2024 02:12

    Статьи авторов, которые уже имеют значительное количество просмотров, склонны иметь высокое количество показов. Это может говорить о том, что у этих авторов уже сложилась своя аудитория, которая активно следит за новыми публикациями.

    А может быть и наоборот - те, кто научился писать "на злобу дня", нащупал, что интересно аудитории, получает больше просмотров - и это его мотивирует писать больше. Корреляции - они как дышло, куда повернул, туда и вышло...

    Количество тегов vs показы... А как насчёт распределения статей по количеству сопровождающих их тегов? Готов поспорить, что картинка получится примерно такая же - а значит, теги на показы не влияют.

    Данные как минимум не очищены - например, видна чёткая граница по длине заголовка (в символах, верно?) на уровне 150 с небольшим, а потом бац - и один заголовок на 175+ символов (выброс, такие штуки обычно исключают из рассмотрения, т.к. они выбиваются из колеи и ломают найденные зависимости).

    Дни с момента публикации vs показы... Не совсем корректный график... Можно ожидать, что количество показов любого материала увеличивается со временем (причём в момент сразу после публикации число показов нулевое), соответственно, мы должны увидеть не ровный лес с первого дня, а разные темпы роста, ещё по этому графику вопрос - а что происходит после примерно 460 дней с показами - почему там все точки "прижаты к полу"? По-видимому, здесь отображено число показов в сутки. Тогда ещё показательнее провал показов спустя 460 дней после публикации, и было бы интересно посмотреть - кто эти счастливчики, на какие темы они писали, что их всё ещё показывают?

    Длина заголовка vs показы и vs просмотры - здесь, чтобы понимать, что происходит, необходимо добавлять третье измерение, чтобы видеть плотность точек в разных зонах.

    Общее количество статей автора и общее количество просмотров автора - непонятно, почему точки выстроились вдоль вертикальных прямых (предположу, в результате округления очень больших чисел до не очень больших чисел, с потерей всего что только возмоно).

    Кстати, для того, чтобы можно было говорить о корреляции, неплохо бы посчитать как сам коэффициент корреляции, так и дать оценку его значимости (в ряде случаев коэффициент может быть большим, но при этом - незначимым). Как обстоят дела с коэффициентами в этом исследовании?


  1. SubMaroon
    24.04.2024 02:12

    Интересная статья! Я буквально на прошлой неделе сделал "исследование" по смежному проекту - DTF. Было весело :)