Решила повторить исследование, сделанное в 2017 году и посмотреть, что изменилось за 5 лет. Ссылка на предыдущую статью Анализ статей Хабрахабр и Geektimes. Дизайн сайта изменился, поэтому делала все в jupyter python, а не wolfram mathematica. Далеко не все графики удалось воспроизвести заново. Получился анализ более чем 260000 статей.
Результаты обработки данных
Анализ хабов
Распределение количества хабов, в которых размещена статья:
1 132354
2 47260
3 38671
5 25265
4 23349
NaN 54
Статей, в которых 5 хабов, стало больше, чем статей, в которых 4 хаба.
Самые большие хабы по количеству статей:
Чулан 29217.0
Программирование 14972.0
Информационная безопасность 14417.0
Разработка веб-сайтов 13796.0
IT-компании 11741.0
Научно-популярное 10972.0
JavaScript 7864.0
Гаджеты 7334.0
Системное администрирование 5706.0
Компьютерное железо 5685.0
Я пиарюсь 5637.0
Разработка игр 5465.0
Разработка мобильных приложений 5318.0
DIY или Сделай сам 5295.0
Open source 5223.0
Разработка под Android 5150.0
IT-инфраструктура 5076.0
Законодательство в IT 5073.0
Карьера в IT-индустрии 5015.0
Python 4885.0
В хабе "программирование" стало больше статей, чем в хабе Разработка веб-сайтов.
Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):
Чулан 29125
IT-компании 5652
Я пиарюсь 5573 Информационная безопасность 4244
Разработка веб-сайтов 2753
Настройка Linux 2117
DIY или Сделай сам 1821
Разработка под Android 1820
Социальные сети и сообщества 1790 Компьютерное железо 1780
Гаджеты 1657
Habr 1647 Законодательство в IT 1521 Программирование 1131
PHP 1064
Java 1048
Разработка игр 1006
Научно-популярное 984
Управление проектами 981
JavaScript 979
Здесь все осталось примерно также.
Количество статей в зависимости от времени
Количество постов за месяц:
За год:
К 2018 количество статей уменьшилось, но затем снова возросло.
В хабе «Математика» за месяц:
В хабе «Математика» за год:
За исключением 2016 года количество статей росло.
Хаб «Космонавтика» за месяц и за год:
К 2021 году количество статей достигло уровня 2015 года.
Хаб «Хабрахабр» превратился в хаб «Habr»:
В 2019 году количество статей немного возросло, но по-прежнему уменьшается.
Облака ключевых слов и отдельных хабов
Здесь ничего не изменилось. Текст выглядит по-другому, так как использовала wordcloud python.
Хаб «Математика»:
Хаб «Программирование»:
Хаб «Java»:
Хаб «Open source»:
Хаб «Машинное обучение»:
Частота встречаемости слов
Здесь не хватило ресурсов для подсчета всех словосочетаний. Можно увидеть как появляются новые термины на примере слова "ковид". В 2013 году термин есть потому, что автор дополнил статью в 2020 году.
Средний и суммарный рейтинг по годам и месяцам
Средний рейтинг по годам:
Суммарный рейтинг по годам:
Средний рейтинг по месяцам:
Суммарный рейтинг по месяцам:
Посты с максимальным количеством
Комментариев: Судьба предателя, угнавшего новейший МиГ-25 в Японию
Рейтингом: Делаем приватный монитор из старого LCD монитора
Количеством плюсов: Делаем приватный монитор из старого LCD монитора
Количеством минусов: Первый пост
Добавлением в закладки: 300 потрясающих бесплатных сервисов
Комментарии (25)
KGeist
09.10.2021 19:34+3Интересна статистика по корпоративным блогам, где большая часть контента - переводы. Есть один топовый блог, где все переводы, которые я изучил - Google Translate с небольшой корректурой (при этом зачастую корректор делает ещё хуже, т.к. не знает матчасти). Стало интересно, насколько плоха ситуация в целом. Причём также заметил, что часто тематика статей просто берётся с Hacker News с задержкой в пару дней.
alexshy
09.10.2021 21:27+3Ситуация очень плоха. Именно в целом. И это одна из причин, почему русский веб становится неинтересен даже русскоязычным, и почему в нем вынужденно топчутся те, кто не может себе позволить ресурсы на иностранных языках. Естественно, по причине их незнания.
К сожалению, в России это бОльшая часть населения. Так, например, среди европейских стран хуже россиян знают английский только в двух странах - Азербайджане и Турции.
Правда, это две самостоятельные проблемы, но они очень даже между собой связаны.
Norgorn
10.10.2021 15:53+2А какие есть англоязычные альтернативы Хабру? Здесь всё ещё часто встречается довольно высокий уровень дискуссии, при этом посты не только хвалят, но и по делу критикуют. Немного искал, но не находил мест с похожей атмосферой - на Реддите, вроде, тухло (может, в темах по ии всякому и математике не так, но по программированию и "просто техническому" мне так показалось), HackerRank норм, но неудобный, Medium сильно слабее.
В других форматах есть что почитать, но в своём формате Хабр кажется на голову выше всех (может, просто кажется)
alexshy
10.10.2021 16:34-3А Вы не думали, почему? (Подсказка: примерино потому же, почему ресурсы вроде Avito никому нигде, кроме как в России не нужны. И снова тот же вопрос: почему?) Никогда не задавали его себе?
atomlib
11.10.2021 02:22Что такое Craigslist? Что такое Gumtree? Что такое eBay?
alexshy
11.10.2021 12:35Речь немного не об этом. А о том, что много ли Вы знаете россиян, кто пользуется Крейглистом? eBay'ем? и наоборот, тех, кто в Америке (Англии, Японии, Зеландии и далее по миру) пользует Avito? а еще о том, что иностранцы почему-то упорно не хотят покупать товары у Wildberries или KupiVIP, или, скажем, на Озон-зон-зоне...
KGeist
10.10.2021 20:39>А какие есть англоязычные альтернативы Хабру
Hacker News. Читаю и его, и Хабр - заметил, что большая часть статей на Хабре (новости и переводы) это то, что на Hacker News обсуждали неделю назад. Правда, там формат другой - обычно просто ссылки на сторонние ресурсы, но самое интересное для меня именно дискуссии.
>в своём формате Хабр кажется на голову выше всех
>Здесь всё ещё часто встречается довольно высокий уровень дискусси
По моему впечатлению, если сравнивать Hacker News и Хабр, то на первом уровень дискуссии намного выше. Неконструктивный мусор/балаган сливают намного быстрее и жёсче. Более того, в комментариях легко можно встретить и пообщаться с каким-нибудь CEO Гитхаба и другими известными людьми
A_Degteryov
09.10.2021 19:48На многих графиках в конце наблюдается резкий обрыв вниз. Такое может быть вызвано неправильным учётом неполного месяца/года. Или действительно есть такая тенденция?
third112
09.10.2021 19:54ИМХО есть еще 3 интересных показателя (и парные к ним): общее число минусов 1) за статьи; 2) за комменты; 3) в карму. Парные — общее число плюсов.
alan008
10.10.2021 08:57+1Зачем в облаке тегов Java слово Java встречается аж 3 раза, причем визуально даже регистр одинаковый
MAXH0
А пользователей анализировали?
Например, мне кажется, но в последнее время на Хабре я наблюдаю активацию спавших - юзер зарегистрировался давно, ничего не писал и не коментировал, как вдруг решил распаковать свой акк и начинает либо его активно продвигать, либо топит за некую "идею". В некоторых холивароопасных обсуждениях от таких юзеров не протолкнуться... Хочешь понять взгляды комментатора, а у него и взглядов нет - три, четыре коммента и всё...
Интересно было бы посмотреть - это моя паранойя или закономерность. Мозг - забавная зверюшка. После того как он что-то заметил, он охотнее видит подтверждения, чем опровержения.
urticazoku Автор
Нет, пользователей не анализировала.
lain8dono
Не паранойя. Видел таких неоднократно. Чуть ли не каждый автор сильно заминусованного комментария такой, если мы говорим о некоторых специфических темах.
savostin
Имхо эта тенденция из-за того, что раньше, если не согласен с автором, поставил минус статье и "высказался". А теперь для минуса требуется опубликованный материал, который есть далеко не у всех. Приходится писать "гневный комментарий", чтобы высказаться.