Вы ведь знаете, что НЛО заботится о вас? Ну, во всяком случае, об этом регулярно напоминают в публикациях редакторского отдела Хабра — новостях на околополитические, околоскандальные и другие околотемы.


Давайте выясним, как часто редакторы используют эту стандартную "заглушку" и для каких именно публикаций? А также выполним и другие пожелания из комментариев к предыдущему Хабра-детективу о редакторах.


Итак, когда же у вас, Хабра-пользователи, возникают "противоречивые чувства", которые вы не можете сдержать и высказываете в комментариях? А самое главное — что их вызывает? Начнём наше новое расследование!


Мотивация


Когда вышла публикация Хабра-детектив: тайна редакторов новостей, она собрала разные предложения в комментариях. В том числе, и от одного из редакторов — denis-19. Пара цитат приведена ниже.


И еще — интересно узнать, сколько раз в публикациях редакторы поставили в конце

Минутка заботы от НЛО...

denis-19 от 15.12.2019.


Как же вы забыли вот про этот анализ:
https://habr.com/ru/post/475058/

Обязательно выложить графики выявленных редакторов в этом виде :-)

alan008 от 16.12.2019.


И поскольку тема "заботы НЛО" достаточно интересна, я решил не откладывать её в долгий ящик, а сразу и использовать.


Любимая всеми заглушка


Если так случилось, что вы никогда не замечали эту магическую цитату, привлекающую к комментированию ещё большее количество людей, то выглядит она так:


Минутка заботы от НЛО

Этот материал мог вызвать противоречивые чувства, поэтому перед написанием комментария освежите в памяти кое-что важное:

Как написать комментарий и выжить
— Не пишите оскорбительных комментариев, не переходите на личности.
— Воздержитесь от нецензурной лексики и токсичного поведения (даже в завуалированной форме).
— Для сообщения о комментариях, нарушающих правила сайта, используйте кнопку «Пожаловаться» (если доступна) или форму обратной связи.


Что делать, если: минусуют карму | заблокировали аккаунт

> Кодекс авторов Хабра и хабраэтикет
> Полная версия правил сайта

Обычно она встречается в публикациях о политике, законодательстве и всём том, что вызывает бурные и не всегда корректные обсуждения и последующее карма-нытьё.


Временные рамки и жертвы исследования


В статье опубликованы данные за 2019 год с 1 января по 28 декабря (совсем немного не дотянул до конца года, но в пред- и праздничное время обычно мало важных новостей).


Среди авторов публикаций такие городские легенды, как alizar и marks, а также другие редакторы, их начальники и просто писатели новостей: denis-19, maybe_elf, AnnieBronson, baragol, Leonid_R, k_karina и Travis_Macrif.


Статистика НЛО


За этот год перечисленные авторы вызывали НЛО 197 раз (Рис. 1). Это по 1 публикации каждые 1.85 дня. Достаточно высокая частота, чтобы их все пропустить.



Рис. 1. Все публикации с НЛО. UTC
Версия для мобильных устройств


Подробности визуализации

Идея визуализации взята из публикации Город засыпает, просыпаются хабровчане DreamingKitten и слегка модифицирована для удобства.


Ось абсцисс показывает время суток от 00:00 до 23:59 с точностью до минуты. Ось ординат — день года от 1 января до 31 декабря с точностью до дня.


Каждая вертикальная черта определяет начало часа (01:00, 02:00 и т.д.), каждая горизонтальная черта определяет начало месяца (1 февраля, 1 марта и т.д.). Для удобства, каждая 3 черта по обеим осям выделена.


Цвет точки определяется рейтингом публикации, однако расширена относительно стандартных GWR для положительно, нейтрально и негативно оцененных.


Вначале я хотел использовать градацию рейтингов Хабра. Ту, которую можно увидеть исключительно для своих публикаций (>30, >10, >-1 и <-1), но и это счёл недостаточным. Подробности цветовой палитры под спойлером. Очевидно, она избыточна, но вносит некоторое разнообразие в изображение-результат не уменьшая информативность.


Цветовая палитра
Рейтинг Цвет RGB
[151; +?) 0, 255, 255
[101; 150] 0, 255, 191
[51; 100] 0, 255, 127
[31; 50] 0, 255, 0
[11; 30] 0, 191, 0
[1; 10] 0, 127, 0
[0] 127, 127, 0
[-10; -1] 127, 0, 0
[-30; -11] 191, 0, 0
(-?; -30] 255, 0, 0

Поскольку абсолютные числа слишком неопределённы с точки зрения НЛО, давайте введём "коэффициент заботы", который определим как соотношение публикаций с плашкой о НЛО к общему количеству публикаций.


Для всех 9 авторов количество публикаций за год составило 2 615. Вот так (Рис. 2) их можно визуализировать во времени и в соответствии с рейтингом. Соответственно, коэффициент заботы равен 8.16%.



Рис. 2. Все публикации. UTC
Версия для мобильных устройств


Кстати, если вас интересует, действительно ли так мало редакторских публикаций набирает отрицательный рейтинг, напоминаю. В отличии от комментариев, публикации можно скрывать в черновики. Потому статистика учитывает лишь то, что доступно на Хабре на данный момент.


Кто чаще всех вызывает НЛО?


Вы не поверите. Хотя нет, лично я в таком результате был уверен.


Не буду тянуть кота за то, за что не следует, и скажу сразу — это alizar. За этот год он воспользовался помощью НЛО 87 раз (Рис. 3). То есть в среднем — каждые 4.2 дня. При этом, всего он опубликовал 546 постов (Рис. 4), что даёт показатель заботы в 15.93%.



Рис. 3. Публикации alizar с НЛО. UTC
Версия для мобильных устройств



Рис. 4. Публикации alizar. UTC
Версия для мобильных устройств


Заметили, да? alizar обязательно отдыхает не меньше 6 часов в сутки (исключения достаточно редки).


Серебро


Ожидаемо второе место достаётся marks. И хотя он не сильно отстаёт с результатом в 80 НЛО-заглушек (в среднем каждые 4.56 дня, Рис. 5), общее количество публикаций за год у него достигает 757 (Рис. 6). В результате, показатель заботы о читателе всего 10.57%.



Рис. 5. Публикации marks с НЛО. UTC
Версия для мобильных устройств



Рис. 6. Публикации marks. UTC
Версия для мобильных устройств


Август явно был месяцем отпуска. Ну что ж, отдыхать всем нужно. О чём свидетельствует и ежедневные 6-7 часов отдыха от публикаций.


Бронза


На 3 месте в сегодняшнем забеге оказался один из инициаторов этой публикации — denis-19. Вызвав НЛО 25 раз (Рис. 7), он обеспечивает нас регулярной встречей с высшей Хабра-силой примерно раз в 2 недели (14.6 дней).



Рис. 7. Публикации denis-19 с НЛО. UTC
Версия для мобильных устройств


Показатель заботы, учитывая 351 публикацию за год, составляет 7.21%. Тут стоит отметить, что писать новости он начал не вначале года. Потому, это значение — нижняя граница.



Рис. 8. Публикации denis-19. UTC
Версия для мобильных устройств


Другие друзья НЛО


Если вы считали, то могли заметить, что на всех остальных авторов приходится всего 5 НЛО-сообщений за год. Из них 2 на maybe_elf и по 1 на Leonid_R, baragol и AnnieBronson. Поскольку показывать 5 точек на рисунке 1440 x 365 пикселей — слегка нерационально, этот рисунок я упущу.


А вот все публикации каждого автора приведены под спойлерами. Кстати, всего они опубликовали 761 пост за этот год.


@Leonid_R

Всего 37 публикаций.



Рис. 9. Публикации Leonid_R. UTC
Версия для мобильных устройств


@baragol

Всего 46 публикаций.



Рис. 10. Публикации baragol. UTC
Версия для мобильных устройств


@maybe_elf

Всего 297 публикаций.



Рис. 11. Публикации maybe_elf. UTC
Версия для мобильных устройств


@AnnieBronson

Всего 270 публикаций.



Рис. 12. Публикации AnnieBronson. UTC
Версия для мобильных устройств


@k_karina

Всего 56 публикаций.



Рис. 13. Публикации k_karina. UTC
Версия для мобильных устройств


@Travis_Macrif

Всего 55 публикаций.



Рис. 14. Публикации Travis_Macrif. UTC
Версия для мобильных устройств


О чём конкретно заботится НЛО?


Естественно, интересно узнать, от чего же пользователей Хабра пытается защитить НЛО. Составим "word cloud" для заголовков постов. Сначала я хотел не сортировать список и не исправлять количество вхождений одного слова в разных формах, но об этом попросили в комментариях.


Кстати, шаблон был взят специально близкий к тематике публикации, а потому нужно нарисовать НЛО как можно качественнее.


Для отрисовки использовался первый попавшийся в Google-выдаче сайт по запросу "word cloud from text".


Итак, alizar больше всего вызывал НЛО для защиты от (Рис. 15):



Рис. 15. Облако слов для публикаций alizar


А вот для marks облако… Да практически такое же (Рис. 16):



Рис. 16. Облако слов для публикаций marks


Поскольку у denis-19 публикаций с вызовом НЛО существенно меньше, детализация НЛО слегка подвела (Рис. 17):



Рис. 17. Облако слов для публикаций denis-19


Ну и напоследок, общее облако. Оно получилось практически идеальным (Рис. 18):



Рис. 18. Облако слов для всех публикаций с участием НЛО


Вместо заключения


Обычно в конце публикации я пишу какой-нибудь риторический вопрос и пару вариантов ответа на него. Но сегодня мне в голову приходит лишь одно:


Заботьтесь об НЛО и НЛО будет заботиться о вас.

Спасибо за внимание!


Кстати, КДПВ — это облако слов для данной статьи (финальной версии текста и markdown, перед вёрсткой непосредственно на Хабре), за исключением ссылок на hsto.org.


Update: Обновлены графики, добавлены подписи по осям.


Update-2: Обновлены облака слов.


Update-3: Добавлены ссылки на специальные версии графиков для мобильных устройств.


P.S. Если вы нашли опечатки или ошибки в тексте, пожалуйста, сообщите мне. Это можно сделать выделив часть текста и нажав "Ctrl / ? + Enter", если у вас есть Ctrl / ?, либо через личные сообщения. Если же оба варианта недоступны, напишите об ошибках в комментариях. Спасибо!


P.P.S. Возможно, вам будут интересны также другие мои исследования Хабра или вы хотите предложить свою тему для следующей публикации, а может даже новый цикл публикаций.


Где найти список и как внести предложение

Всю информацию можно найти в специальном репозитории Хабра-детектива. Там же можно узнать, какие предложения уже были озвучены, а что уже находится в работе.


Кроме того, вы можете упомянуть меня (написав VaskivskyiYe) в комментариях к публикации, которая кажется вам интересной для исследования или анализа. Спасибо Lolohaev за эту идею.

Комментарии (17)


  1. Shished
    29.12.2019 11:53

    Получается, упоминание Роскомнадзора привлекает НЛО.
    Можете ли вы проверить, сколько статей упоминают Роскомнадзор, но не имеют плашки от НЛО?


    1. VaskivskyiYe Автор
      30.12.2019 11:13

      Если вопрос только про заголовок, то это не сложно. Если полный текст публикации — займёт некоторое время. Записал в список


  1. ZuOverture
    29.12.2019 12:58
    +3

    Одно пожелание: примените stopwords и stemming перед построением облаков. Облака будут намного чище.


    1. VaskivskyiYe Автор
      30.12.2019 12:15

      В процессе. Чуть позже сегодня будет готово. К сожалению, не нашел ни одного онлайн ресурса, который делал бы это качественно и без нужды в ручной корректировке


    1. VaskivskyiYe Автор
      30.12.2019 15:09

      Обновил облака слов, что думаете теперь?


      1. ZuOverture
        30.12.2019 17:27

        Спасибо, так намного приятнее читается. А углы поворота тоже чем-то определяются, или рандом? Если рандом, то кмк это лишнее — повернутые слова воспринимаются в отрыве от остальных. И самый мелкий шрифт ещё трудно разглядеть.


        1. VaskivskyiYe Автор
          30.12.2019 17:35

          Рандом. Пробовал с только горизонтальными и вертикальными — получается так себе из-за некоторых очень длинных слов. Ну или нужно отключать зависимость размера от количества вхождений, что тоже не очень.


          P.S. На каждой картинке висит ссылка (< a href="..." >) на hsto.org, где можно посмотреть её в полном размере. Тогда все слова читаемы. Только придерживайте Ctrl, т.к. Хабр обрезает target="_blank" у ссылок и они открываются в этом же окне


  1. dolovar
    29.12.2019 13:36
    +1

    По возможности, подскажите пожалуйста сервис для генерации облаков, который дает возможность выкидывать из текста отдельные слова («рис» выглядит неинформативным) и умеет сливать воедино слова в разных падежах, родах и количествах («противоречивый» с «противоречивыми»).


    1. OlegPyatakov
      30.12.2019 09:03
      +1

      Как вариант, открытый код готового сервиса по созданию облаков тегов.
      Есть свой набор стоп-слов. Можно загружать список своих стоп-слов.
      Соединяет и приводит к нормальной форме слова на русском.


  1. amartology
    29.12.2019 15:11
    +2

    VaskivskyiYe можно ли посмотреть на корреляции между оценками статей и их длиной? Насколько популярен формат твиттера? Хорошо ли заходят лонгриды? Есть ли оптимальный размер статьи?


    1. kababok
      30.12.2019 02:08
      +1

      Очень хороший вопрос.


      Сравните объём, содержание и показатели следующих статей. ;)


      https://habr.com/ru/company/vk/blog/480188/


      https://habr.com/ru/post/480730/


      https://habr.com/ru/company/odnoklassniki/blog/480178/


    1. VaskivskyiYe Автор
      30.12.2019 11:13

      Уже в планах (:


  1. Tyusha
    30.12.2019 21:13

    Без шкал на распределениях ничего не понятно. Можно догадаться, но с усилием.


    1. VaskivskyiYe Автор
      30.12.2019 09:36

      Исправил


  1. osmanpasha
    30.12.2019 07:21

    Визуализации с телефона выглядят как черные прямоугольники — точки слишком мелкие, чтобы при уменьшении быть видными. Ну и, как уже заметили, без осей ничего не понятно, хоть в тексте и написано.


    1. VaskivskyiYe Автор
      30.12.2019 15:47

      Добавил под каждым рисунком ссылку на версию с большими точками на графиках. Оси были добавлены чуть раньше


      1. osmanpasha
        30.12.2019 20:34

        Спасибо. В мобильной версии так-то можно нажать на рисунок, он откроется побольше, и точки будет худо-бедно видно, но, мне кажется, было бы лучше сделать белый фон и точки побольше размером. Ну, в других статьях белые графики читаются гораздо лучше.