Решила повторить исследование, сделанное в 2017 году и посмотреть, что изменилось за 5 лет. Ссылка на предыдущую статью Анализ статей Хабрахабр и Geektimes. Дизайн сайта изменился, поэтому делала все в jupyter python, а не wolfram mathematica. Далеко не все графики удалось воспроизвести заново. Получился анализ более чем 260000 статей.

Результаты обработки данных

Анализ хабов

Распределение количества хабов, в которых размещена статья:

1 132354
2 47260
3 38671
5 25265
4 23349
NaN 54

Статей, в которых 5 хабов, стало больше, чем статей, в которых 4 хаба.

Самые большие хабы по количеству статей:

Чулан 29217.0
Программирование 14972.0
Информационная безопасность 14417.0
Разработка веб-сайтов 13796.0
IT-компании 11741.0
Научно-популярное 10972.0
JavaScript 7864.0
Гаджеты 7334.0
Системное администрирование 5706.0
Компьютерное железо 5685.0
Я пиарюсь 5637.0
Разработка игр 5465.0
Разработка мобильных приложений 5318.0
DIY или Сделай сам 5295.0
Open source 5223.0
Разработка под Android 5150.0
IT-инфраструктура 5076.0
Законодательство в IT 5073.0
Карьера в IT-индустрии 5015.0
Python 4885.0

В хабе "программирование" стало больше статей, чем в хабе Разработка веб-сайтов.

Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):

Чулан 29125
IT-компании 5652
Я пиарюсь 5573 Информационная безопасность 4244
Разработка веб-сайтов 2753
Настройка Linux 2117
DIY или Сделай сам 1821
Разработка под Android 1820
Социальные сети и сообщества 1790 Компьютерное железо 1780
Гаджеты 1657
Habr 1647 Законодательство в IT 1521 Программирование 1131
PHP 1064
Java 1048
Разработка игр 1006
Научно-популярное 984
Управление проектами 981
JavaScript 979

Здесь все осталось примерно также.

Количество статей в зависимости от времени

Количество постов за месяц:

За год:

К 2018 количество статей уменьшилось, но затем снова возросло.

В хабе «Математика» за месяц:

В хабе «Математика» за год:

За исключением 2016 года количество статей росло.

Хаб «Космонавтика» за месяц и за год:

К 2021 году количество статей достигло уровня 2015 года.

Хаб «Хабрахабр» превратился в хаб «Habr»:

В 2019 году количество статей немного возросло, но по-прежнему уменьшается.

Облака ключевых слов и отдельных хабов

Здесь ничего не изменилось. Текст выглядит по-другому, так как использовала wordcloud python.

Хаб «Математика»:

Хаб «Программирование»:

Хаб «Java»:

Хаб «Open source»:

Хаб «Машинное обучение»:

Частота встречаемости слов

Здесь не хватило ресурсов для подсчета всех словосочетаний. Можно увидеть как появляются новые термины на примере слова "ковид". В 2013 году термин есть потому, что автор дополнил статью в 2020 году.

Средний и суммарный рейтинг по годам и месяцам

Средний рейтинг по годам:

Суммарный рейтинг по годам:

Средний рейтинг по месяцам:

Суммарный рейтинг по месяцам:

Посты с максимальным количеством

Комментариев: Судьба предателя, угнавшего новейший МиГ-25 в Японию

Рейтингом: Делаем приватный монитор из старого LCD монитора

Количеством плюсов: Делаем приватный монитор из старого LCD монитора

Количеством минусов: Первый пост

Добавлением в закладки: 300 потрясающих бесплатных сервисов

Комментарии (25)


  1. MAXH0
    09.10.2021 19:25
    +7

    А пользователей анализировали?
    Например, мне кажется, но в последнее время на Хабре я наблюдаю активацию спавших - юзер зарегистрировался давно, ничего не писал и не коментировал, как вдруг решил распаковать свой акк и начинает либо его активно продвигать, либо топит за некую "идею". В некоторых холивароопасных обсуждениях от таких юзеров не протолкнуться... Хочешь понять взгляды комментатора, а у него и взглядов нет - три, четыре коммента и всё...

    Интересно было бы посмотреть - это моя паранойя или закономерность. Мозг - забавная зверюшка. После того как он что-то заметил, он охотнее видит подтверждения, чем опровержения.


    1. urticazoku Автор
      09.10.2021 19:28

      Нет, пользователей не анализировала.


    1. lain8dono
      09.10.2021 20:45
      +2

      Не паранойя. Видел таких неоднократно. Чуть ли не каждый автор сильно заминусованного комментария такой, если мы говорим о некоторых специфических темах.


    1. savostin
      09.10.2021 22:10
      +1

      Имхо эта тенденция из-за того, что раньше, если не согласен с автором, поставил минус статье и "высказался". А теперь для минуса требуется опубликованный материал, который есть далеко не у всех. Приходится писать "гневный комментарий", чтобы высказаться.


  1. KGeist
    09.10.2021 19:34
    +3

    Интересна статистика по корпоративным блогам, где большая часть контента - переводы. Есть один топовый блог, где все переводы, которые я изучил - Google Translate с небольшой корректурой (при этом зачастую корректор делает ещё хуже, т.к. не знает матчасти). Стало интересно, насколько плоха ситуация в целом. Причём также заметил, что часто тематика статей просто берётся с Hacker News с задержкой в пару дней.


    1. alexshy
      09.10.2021 21:27
      +3

      Ситуация очень плоха. Именно в целом. И это одна из причин, почему русский веб становится неинтересен даже русскоязычным, и почему в нем вынужденно топчутся те, кто не может себе позволить ресурсы на иностранных языках. Естественно, по причине их незнания.

      К сожалению, в России это бОльшая часть населения. Так, например, среди европейских стран хуже россиян знают английский только в двух странах - Азербайджане и Турции.

      Правда, это две самостоятельные проблемы, но они очень даже между собой связаны.


      1. Norgorn
        10.10.2021 15:53
        +2

        А какие есть англоязычные альтернативы Хабру? Здесь всё ещё часто встречается довольно высокий уровень дискуссии, при этом посты не только хвалят, но и по делу критикуют. Немного искал, но не находил мест с похожей атмосферой - на Реддите, вроде, тухло (может,  в темах по ии всякому и математике не так,  но по программированию и "просто техническому" мне так показалось), HackerRank норм, но неудобный, Medium сильно слабее.

        В других форматах есть что почитать, но в своём формате Хабр кажется на голову выше всех (может, просто кажется)


        1. alexshy
          10.10.2021 16:34
          -3

          А Вы не думали, почему? (Подсказка: примерино потому же, почему ресурсы вроде Avito никому нигде, кроме как в России не нужны. И снова тот же вопрос: почему?) Никогда не задавали его себе?


          1. atomlib
            11.10.2021 02:22

            Что такое Craigslist? Что такое Gumtree? Что такое eBay?


            1. alexshy
              11.10.2021 12:35

              Речь немного не об этом. А о том, что много ли Вы знаете россиян, кто пользуется Крейглистом? eBay'ем? и наоборот, тех, кто в Америке (Англии, Японии, Зеландии и далее по миру) пользует Avito? а еще о том, что иностранцы почему-то упорно не хотят покупать товары у Wildberries или KupiVIP, или, скажем, на Озон-зон-зоне...


              1. atomlib
                11.10.2021 12:53

                А россияне в упор не покупают на «Амазоне», потому что он в России не присутствует.


                1. alexshy
                  11.10.2021 13:38

                  А-а, ну, да, значит, это не я покупал там в свое время книги целыми полками.


                  1. atomlib
                    11.10.2021 14:51

                    И платили пересыльщику или за доставку «Федэкса».


        1. KGeist
          10.10.2021 20:39

          >А какие есть англоязычные альтернативы Хабру

          Hacker News. Читаю и его, и Хабр - заметил, что большая часть статей на Хабре (новости и переводы) это то, что на Hacker News обсуждали неделю назад. Правда, там формат другой - обычно просто ссылки на сторонние ресурсы, но самое интересное для меня именно дискуссии.

          >в своём формате Хабр кажется на голову выше всех

          >Здесь всё ещё часто встречается довольно высокий уровень дискусси

          По моему впечатлению, если сравнивать Hacker News и Хабр, то на первом уровень дискуссии намного выше. Неконструктивный мусор/балаган сливают намного быстрее и жёсче. Более того, в комментариях легко можно встретить и пообщаться с каким-нибудь CEO Гитхаба и другими известными людьми


  1. A_Degteryov
    09.10.2021 19:48

    На многих графиках в конце наблюдается резкий обрыв вниз. Такое может быть вызвано неправильным учётом неполного месяца/года. Или действительно есть такая тенденция?


    1. alan008
      10.10.2021 08:55

      Скорее всего кусок октября 2021 посчитали просто как отдельныц месяц


  1. third112
    09.10.2021 19:54

    ИМХО есть еще 3 интересных показателя (и парные к ним): общее число минусов 1) за статьи; 2) за комменты; 3) в карму. Парные — общее число плюсов.


  1. EddyLan
    09.10.2021 21:07
    +1

    Ссылки на ноут случайно нет? )
    Спасибо!


  1. alan008
    10.10.2021 08:57
    +1

    Зачем в облаке тегов Java слово Java встречается аж 3 раза, причем визуально даже регистр одинаковый


    1. tyomitch
      10.10.2021 09:58

      Может, кто-то писал её с кириллической А?

      А то, чем чёрт не шутит, и с кириллической Ј


      1. alan008
        10.10.2021 10:18
        +1

        Еще забавно в облаках тегов найти теги "никто не", "не читает" и "читает теги" :-) Уши алгоритма торчат — брались сочетания по 2 слова


      1. Mingun
        10.10.2021 13:58

        Все проще — тег "java" и "java java". Даже по цвету видно


        1. tyomitch
          10.10.2021 14:43

          Но ведь постов с тегом "java java" на хабре нет ни одного


          1. Mingun
            10.10.2021 16:21
            +1

            Ну значит пунктик к качеству анализа.


      1. GospodinKolhoznik
        11.10.2021 01:49

        И с римской цифрой V вместо латинской буквы V.