Вы ведь знаете, что НЛО заботится о вас? Ну, во всяком случае, об этом регулярно напоминают в публикациях редакторского отдела Хабра — новостях на околополитические, околоскандальные и другие околотемы.
Давайте выясним, как часто редакторы используют эту стандартную "заглушку" и для каких именно публикаций? А также выполним и другие пожелания из комментариев к предыдущему Хабра-детективу о редакторах.
Итак, когда же у вас, Хабра-пользователи, возникают "противоречивые чувства", которые вы не можете сдержать и высказываете в комментариях? А самое главное — что их вызывает? Начнём наше новое расследование!
Мотивация
Когда вышла публикация Хабра-детектив: тайна редакторов новостей, она собрала разные предложения в комментариях. В том числе, и от одного из редакторов — denis-19. Пара цитат приведена ниже.
И еще — интересно узнать, сколько раз в публикациях редакторы поставили в конце
Минутка заботы от НЛО...
denis-19 от 15.12.2019.
Как же вы забыли вот про этот анализ:
https://habr.com/ru/post/475058/
Обязательно выложить графики выявленных редакторов в этом виде :-)
alan008 от 16.12.2019.
И поскольку тема "заботы НЛО" достаточно интересна, я решил не откладывать её в долгий ящик, а сразу и использовать.
Любимая всеми заглушка
Если так случилось, что вы никогда не замечали эту магическую цитату, привлекающую к комментированию ещё большее количество людей, то выглядит она так:
Минутка заботы от НЛО
Этот материал мог вызвать противоречивые чувства, поэтому перед написанием комментария освежите в памяти кое-что важное:
Как написать комментарий и выжить— Не пишите оскорбительных комментариев, не переходите на личности.
— Воздержитесь от нецензурной лексики и токсичного поведения (даже в завуалированной форме).
— Для сообщения о комментариях, нарушающих правила сайта, используйте кнопку «Пожаловаться» (если доступна) или форму обратной связи.
Что делать, если: минусуют карму | заблокировали аккаунт
> Кодекс авторов Хабра и хабраэтикет
> Полная версия правил сайта
Обычно она встречается в публикациях о политике, законодательстве и всём том, что вызывает бурные и не всегда корректные обсуждения и последующее карма-нытьё.
Временные рамки и жертвы исследования
В статье опубликованы данные за 2019 год с 1 января по 28 декабря (совсем немного не дотянул до конца года, но в пред- и праздничное время обычно мало важных новостей).
Среди авторов публикаций такие городские легенды, как alizar и marks, а также другие редакторы, их начальники и просто писатели новостей: denis-19, maybe_elf, AnnieBronson, baragol, Leonid_R, k_karina и Travis_Macrif.
Статистика НЛО
За этот год перечисленные авторы вызывали НЛО 197 раз (Рис. 1). Это по 1 публикации каждые 1.85 дня. Достаточно высокая частота, чтобы их все пропустить.
Рис. 1. Все публикации с НЛО. UTC
Версия для мобильных устройств
Идея визуализации взята из публикации Город засыпает, просыпаются хабровчане DreamingKitten и слегка модифицирована для удобства.
Ось абсцисс показывает время суток от 00:00 до 23:59 с точностью до минуты. Ось ординат — день года от 1 января до 31 декабря с точностью до дня.
Каждая вертикальная черта определяет начало часа (01:00, 02:00 и т.д.), каждая горизонтальная черта определяет начало месяца (1 февраля, 1 марта и т.д.). Для удобства, каждая 3 черта по обеим осям выделена.
Цвет точки определяется рейтингом публикации, однако расширена относительно стандартных GWR для положительно, нейтрально и негативно оцененных.
Вначале я хотел использовать градацию рейтингов Хабра. Ту, которую можно увидеть исключительно для своих публикаций (>30, >10, >-1 и <-1), но и это счёл недостаточным. Подробности цветовой палитры под спойлером. Очевидно, она избыточна, но вносит некоторое разнообразие в изображение-результат не уменьшая информативность.
Рейтинг | Цвет RGB |
---|---|
[151; +?) | 0, 255, 255 |
[101; 150] | 0, 255, 191 |
[51; 100] | 0, 255, 127 |
[31; 50] | 0, 255, 0 |
[11; 30] | 0, 191, 0 |
[1; 10] | 0, 127, 0 |
[0] | 127, 127, 0 |
[-10; -1] | 127, 0, 0 |
[-30; -11] | 191, 0, 0 |
(-?; -30] | 255, 0, 0 |
Поскольку абсолютные числа слишком неопределённы с точки зрения НЛО, давайте введём "коэффициент заботы", который определим как соотношение публикаций с плашкой о НЛО к общему количеству публикаций.
Для всех 9 авторов количество публикаций за год составило 2 615. Вот так (Рис. 2) их можно визуализировать во времени и в соответствии с рейтингом. Соответственно, коэффициент заботы равен 8.16%.
Рис. 2. Все публикации. UTC
Версия для мобильных устройств
Кстати, если вас интересует, действительно ли так мало редакторских публикаций набирает отрицательный рейтинг, напоминаю. В отличии от комментариев, публикации можно скрывать в черновики. Потому статистика учитывает лишь то, что доступно на Хабре на данный момент.
Кто чаще всех вызывает НЛО?
Вы не поверите. Хотя нет, лично я в таком результате был уверен.
Не буду тянуть кота за то, за что не следует, и скажу сразу — это alizar. За этот год он воспользовался помощью НЛО 87 раз (Рис. 3). То есть в среднем — каждые 4.2 дня. При этом, всего он опубликовал 546 постов (Рис. 4), что даёт показатель заботы в 15.93%.
Рис. 3. Публикации alizar с НЛО. UTC
Версия для мобильных устройств
Рис. 4. Публикации alizar. UTC
Версия для мобильных устройств
Заметили, да? alizar обязательно отдыхает не меньше 6 часов в сутки (исключения достаточно редки).
Серебро
Ожидаемо второе место достаётся marks. И хотя он не сильно отстаёт с результатом в 80 НЛО-заглушек (в среднем каждые 4.56 дня, Рис. 5), общее количество публикаций за год у него достигает 757 (Рис. 6). В результате, показатель заботы о читателе всего 10.57%.
Рис. 5. Публикации marks с НЛО. UTC
Версия для мобильных устройств
Рис. 6. Публикации marks. UTC
Версия для мобильных устройств
Август явно был месяцем отпуска. Ну что ж, отдыхать всем нужно. О чём свидетельствует и ежедневные 6-7 часов отдыха от публикаций.
Бронза
На 3 месте в сегодняшнем забеге оказался один из инициаторов этой публикации — denis-19. Вызвав НЛО 25 раз (Рис. 7), он обеспечивает нас регулярной встречей с высшей Хабра-силой примерно раз в 2 недели (14.6 дней).
Рис. 7. Публикации denis-19 с НЛО. UTC
Версия для мобильных устройств
Показатель заботы, учитывая 351 публикацию за год, составляет 7.21%. Тут стоит отметить, что писать новости он начал не вначале года. Потому, это значение — нижняя граница.
Рис. 8. Публикации denis-19. UTC
Версия для мобильных устройств
Другие друзья НЛО
Если вы считали, то могли заметить, что на всех остальных авторов приходится всего 5 НЛО-сообщений за год. Из них 2 на maybe_elf и по 1 на Leonid_R, baragol и AnnieBronson. Поскольку показывать 5 точек на рисунке 1440 x 365 пикселей — слегка нерационально, этот рисунок я упущу.
А вот все публикации каждого автора приведены под спойлерами. Кстати, всего они опубликовали 761 пост за этот год.
О чём конкретно заботится НЛО?
Естественно, интересно узнать, от чего же пользователей Хабра пытается защитить НЛО. Составим "word cloud" для заголовков постов. Сначала я хотел не сортировать список и не исправлять количество вхождений одного слова в разных формах, но об этом попросили в комментариях.
Кстати, шаблон был взят специально близкий к тематике публикации, а потому нужно нарисовать НЛО как можно качественнее.
Для отрисовки использовался первый попавшийся в Google-выдаче сайт по запросу "word cloud from text".
Итак, alizar больше всего вызывал НЛО для защиты от (Рис. 15):
Рис. 15. Облако слов для публикаций alizar
А вот для marks облако… Да практически такое же (Рис. 16):
Рис. 16. Облако слов для публикаций marks
Поскольку у denis-19 публикаций с вызовом НЛО существенно меньше, детализация НЛО слегка подвела (Рис. 17):
Рис. 17. Облако слов для публикаций denis-19
Ну и напоследок, общее облако. Оно получилось практически идеальным (Рис. 18):
Рис. 18. Облако слов для всех публикаций с участием НЛО
Вместо заключения
Обычно в конце публикации я пишу какой-нибудь риторический вопрос и пару вариантов ответа на него. Но сегодня мне в голову приходит лишь одно:
Заботьтесь об НЛО и НЛО будет заботиться о вас.
Спасибо за внимание!
Кстати, КДПВ — это облако слов для данной статьи (финальной версии текста и markdown, перед вёрсткой непосредственно на Хабре), за исключением ссылок на hsto.org.
Update: Обновлены графики, добавлены подписи по осям.
Update-2: Обновлены облака слов.
Update-3: Добавлены ссылки на специальные версии графиков для мобильных устройств.
P.S. Если вы нашли опечатки или ошибки в тексте, пожалуйста, сообщите мне. Это можно сделать выделив часть текста и нажав "Ctrl / ? + Enter", если у вас есть Ctrl / ?, либо через личные сообщения. Если же оба варианта недоступны, напишите об ошибках в комментариях. Спасибо!
P.P.S. Возможно, вам будут интересны также другие мои исследования Хабра или вы хотите предложить свою тему для следующей публикации, а может даже новый цикл публикаций.
Всю информацию можно найти в специальном репозитории Хабра-детектива. Там же можно узнать, какие предложения уже были озвучены, а что уже находится в работе.
Кроме того, вы можете упомянуть меня (написав VaskivskyiYe) в комментариях к публикации, которая кажется вам интересной для исследования или анализа. Спасибо Lolohaev за эту идею.
Комментарии (17)
ZuOverture
29.12.2019 12:58+3Одно пожелание: примените stopwords и stemming перед построением облаков. Облака будут намного чище.
VaskivskyiYe Автор
30.12.2019 12:15В процессе. Чуть позже сегодня будет готово. К сожалению, не нашел ни одного онлайн ресурса, который делал бы это качественно и без нужды в ручной корректировке
VaskivskyiYe Автор
30.12.2019 15:09Обновил облака слов, что думаете теперь?
ZuOverture
30.12.2019 17:27Спасибо, так намного приятнее читается. А углы поворота тоже чем-то определяются, или рандом? Если рандом, то кмк это лишнее — повернутые слова воспринимаются в отрыве от остальных. И самый мелкий шрифт ещё трудно разглядеть.
VaskivskyiYe Автор
30.12.2019 17:35Рандом. Пробовал с только горизонтальными и вертикальными — получается так себе из-за некоторых очень длинных слов. Ну или нужно отключать зависимость размера от количества вхождений, что тоже не очень.
P.S. На каждой картинке висит ссылка (< a href="..." >) на hsto.org, где можно посмотреть её в полном размере. Тогда все слова читаемы. Только придерживайте Ctrl, т.к. Хабр обрезает target="_blank" у ссылок и они открываются в этом же окне
dolovar
29.12.2019 13:36+1По возможности, подскажите пожалуйста сервис для генерации облаков, который дает возможность выкидывать из текста отдельные слова («рис» выглядит неинформативным) и умеет сливать воедино слова в разных падежах, родах и количествах («противоречивый» с «противоречивыми»).
OlegPyatakov
30.12.2019 09:03+1Как вариант, открытый код готового сервиса по созданию облаков тегов.
Есть свой набор стоп-слов. Можно загружать список своих стоп-слов.
Соединяет и приводит к нормальной форме слова на русском.
amartology
29.12.2019 15:11+2VaskivskyiYe можно ли посмотреть на корреляции между оценками статей и их длиной? Насколько популярен формат твиттера? Хорошо ли заходят лонгриды? Есть ли оптимальный размер статьи?
kababok
30.12.2019 02:08+1Очень хороший вопрос.
Сравните объём, содержание и показатели следующих статей. ;)
https://habr.com/ru/company/vk/blog/480188/
https://habr.com/ru/post/480730/
osmanpasha
30.12.2019 07:21Визуализации с телефона выглядят как черные прямоугольники — точки слишком мелкие, чтобы при уменьшении быть видными. Ну и, как уже заметили, без осей ничего не понятно, хоть в тексте и написано.
VaskivskyiYe Автор
30.12.2019 15:47Добавил под каждым рисунком ссылку на версию с большими точками на графиках. Оси были добавлены чуть раньше
osmanpasha
30.12.2019 20:34Спасибо. В мобильной версии так-то можно нажать на рисунок, он откроется побольше, и точки будет худо-бедно видно, но, мне кажется, было бы лучше сделать белый фон и точки побольше размером. Ну, в других статьях белые графики читаются гораздо лучше.
Shished
Получается, упоминание Роскомнадзора привлекает НЛО.
Можете ли вы проверить, сколько статей упоминают Роскомнадзор, но не имеют плашки от НЛО?
VaskivskyiYe Автор
Если вопрос только про заголовок, то это не сложно. Если полный текст публикации — займёт некоторое время. Записал в список