Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github. Датасет на Яндекс.Диске. UPD: по поводу расчета рейтинга — я тоже ошиблась при расчете. Тут в обсуждении OsipovRoman пишет, что отличия небольшие.

Результаты обработки данных


Анализ хабов


Распределение количества хабов, в которых размещена статья:


Самые большие хабы по количеству статей:


Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):


Граф связей не делала, т.к. не собирала список хабов отдельно.

Количество статей в зависимости от времени


В подписи к картинкам упомянут только Хабрахабр, но подразумеваем и Geektimes тоже.

Количество постов за месяц:


За год:


В хабе «Математика»:



Хаб «Космонавтика»:



Хаб «Хабрахабр»:



Количество изображений (видео), используемых в постах в зависимости от времени










И в отдельных хабах:







Облака ключевых слов и отдельных хабов


Вот тут функция WordCloud какое значение ни передавай атрибуту WordOrientation (Random,{-Pi/4,Pi/4}) рисовала все по-умолчанию:



Хаб «Математика»:


Хаб «Программирование»:


Хаб «Java»:


Хаб «Open source»:


Хаб «Машинное обучение»:


Сайты, на которые ссылаются в статьях



Убираем Хабрахабр как источник ссылок:


В хабе «Математика» (без Хабрахабра как источника ссылок):


Хаб «Разработка под iOS»:


Хаб ".NET":


Коды, которые приводят в статьях


Без SomeCode (если не указан язык программирования):


В хабе «Алгоритмы»:


В хабе «Программирование»:


В хабе «Настройка Linux»:


В хабе «Машинное обучение»:


Частота встречаемости слов








В хабе «Разработка под iOS»


В хабе «Разработка под Android»:


Частота употребления названий операционных систем в хабе «Open source»:


И на Хабрахабре/Geektimes:


Рейтинг и числа просмотров постов, а также вероятность достижения их определенных значений






Средний рейтинг поста на Хабрахабре/Geektimes равен 25.6067, а среднее количество просмотров 13487.2.

Математическое ожидание: {25.6067, 13487.2}
Среднеквадратическое отклонение: {35.9361, 28783.9}

Вероятность, того, что пост наберет определенный рейтинг:


Вероятность, того, что пост наберет определенное число просмотров:


Зависимость рейтинга и числа просмотров поста от времени публикации


















Зависимость рейтинга поста от его объема





Средний объем поста на Хабрахабре/Geektimes равен 5199 символов.

Вероятность того, что пост с объемом не превышающим заданное количество символов наберет рейтинг не менее заданного:


Кстати по поводу частот слов. До использования Wolfram в Jupyter Notebook с помощью библиотек pymorphy2, nltk построила облака слов по годам, но для меньшего количества статей. Брала 50 самых часто встречающихся слов в статье (исключив стоп-слова), а затем объединяла словари по всем статьям за определенный год. Облака построены в Tagul. КДПВ — это облако слов для 2006 года. Для 2016-го:


Посты с максимальным количеством


Изображений: "Обзор почтовых клиентов под Android, или как я почтовик выбирал"
Комментариев: "Как раздавать инвайты на Google+"
Рейтингом: "Делаем приватный монитор из старого LCD монитора"
Количеством тегов: "Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году"
Просмотрами: "Взломать Wi-Fi за… 3 секунды"
Количеством видео: "DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС"
Количеством ссылок: "Лженаука и аферисты. Фальшивые научные журналы"
Текста: "Создаем клон Flappy Bird — Zombie Bird"
Поделиться с друзьями
-->

Комментарии (27)


  1. OS2
    05.02.2017 23:44
    +12

    Ужас какой.


  1. vadim_ig
    06.02.2017 00:01
    +5

    Очень много результатов, но мало предварительной обработки данных, в результате получаем отдельный анализ для «c++» и «си++», «java8» и «java 8» и т.п. В общем количество в радости, качество грустит.


  1. alan008
    06.02.2017 00:36
    +11

    Начало вроде интересное, но когда пошла детализация, остался лишь один вопрос — "зачем?!"


  1. markhor
    06.02.2017 01:59
    +2

    Предлагаю выложить датасет на data.world — GitHub для датасаентистов. В качестве бонуса получится на лету делать запросы любому пользователю.


    1. urticazoku
      06.02.2017 13:18
      +1

      К сожалению, не удалось загрузить файл — пишет слишком большой размер. (1,6 Gb)


  1. DaneSoul
    06.02.2017 05:07
    +3

    Может я что-то не понимаю, но разве у заминусованной статьи рейтинг не отрицателен?
    Если отрицателен, то почему это не отражено в графиках и таблице?

    В частности в таблице «Вероятность, того, что пост наберет определенный рейтинг» для рейтинга 1 указано вероятность 1 (то есть 100%), получается рейтинг 1 минимально возможный?


    1. Shultc
      06.02.2017 13:56

      Тоже обратил на это внимание… Подумал, что наверное проверялось «Какая вероятность, что рейтинг будет ниже». Тогда всё сходится.


  1. sorrowmoon
    06.02.2017 07:47
    +6

    Обычно такие «анализы» ценны выводом и результатами анализа.

    А тут просто «сырые данные» вывалены потоком, печалька.


  1. delvin-fil
    06.02.2017 07:58
    +2

    Хабр…
    Пять лет назад никто не пытался провести анализ «кармадрочерства», ибо былии статьи и были пользователи с «инвайтом»! Не было ro плавно перерастающего в "отхабреный" и, извините, СРАЧЕЙ!
    Теперь мы будем руководствоваться статистикой и «жамкать» на популярные темы?
    Жаль…

    ЗЫ: предчувствую свою карму в минус пятьсот:)


    1. MAXH0
      06.02.2017 08:45

      Хабр мертв, как мертва хабрадемократия — анархия IT гиков. Нынешний Хабр это просто коммерческий проект выпущенный под брендом того Хабра. Печально, но такова жизнь…

      И знаете, меня это радует. Если что то мертво, то что то должно родиться.


      1. delvin-fil
        06.02.2017 08:50

        Хабр-кз, Сохабр? Что именно?


        1. Armleo
          06.02.2017 10:30

          OpenHabr или librehabr.
          Опенсорс, с инвайтами и представителями второй по древности професии.


    1. http3
      06.02.2017 11:46
      +1

      ro получили возможность писать только в 2016 году вроде ж.

      Кармадрочерство?

      Я бы сказал, что кармадрочерство, у тех, кто срет в карму.
      Мне плевать, куда ущербные ту карму заминусуют. Просто, если срешь в карму, то хотя бы аргументируй.

      Раньше на хабре были более здравомыслящие комментаторы. (Или это я стал умнее?)
      А сейчас все по шаблонам. Инакомыслие подавляется.


      1. delvin-fil
        06.02.2017 14:52

        Раньше на хабре были более здравомыслящие комментаторы. (Или это я стал умнее?)

        Все мы становимся немножко старше.
        … каждый день:)


  1. dmitriylyalyuev
    06.02.2017 10:26
    -4

    Операционные системы:


    • windows
    • linux
    • ios

    IOS? Вы серьезно? Может все же MacOS?


  1. Pashkevich
    06.02.2017 10:39
    +3

    Сделайте еще один анализ:
    Сколько статей опубликовано в Блогах компаний, а сколько пользователями.


    1. urticazoku
      06.02.2017 14:00

      В блогах: 38067, пользователями: 227630. Это с учетом того, что одна и та же статья м.б. в разных хабах.


      1. Pashkevich
        06.02.2017 14:12

        Ок.
        Еще один тонкий момент.
        Блоги были введены в каком-то недавнем году (т.е. не с самого начала образования Хабра).
        Можно ли сделать отсечку по кол-ву постов с того времени.
        Допустим Блоги были введены в 2012 году (условно).
        Вот какое кол-во постов с 2012 года от пользователей и в Блогах компаний?


        1. urticazoku
          06.02.2017 17:01

          Если с 12 года включительно: блоги — 31413, пользователи — 153933.


  1. j0ez
    06.02.2017 10:46

    В блоке ".NET" раздела «Сайты, на которые ссылаются в статьях» nuget.org встречается дважды :\


  1. ittakir
    06.02.2017 10:55

    Самая большая проблема Хабра и Geektimes — система кармы. Тебе могут наставить минусов, что приведет к возможности комментирования раз в день. То есть из дискуссии ты практически выпадаешь.
    Причем, ставят минусы откровенно зря. Высказали альтернативное мнение, не совпадающее с твоим — получай минус, гад.
    Причем, дело даже не в политическом троллинге, рекламе и т.п. Можно просто рассказать свой реальный опыт и нахватать минусов.
    Читая комментарии, складывается ощущение, что тут много зашореных обидчивых инфантилов. В свои 20 ничего не добились, кроме доступа к редактированию кармы, и теперь тешут самолюбие.


    1. DaylightIsBurning
      06.02.2017 12:53
      +1

      Читая комментарии, складывается ощущение, что тут много зашореных обидчивых инфантилов.

      Читая комментарии подобные Вашему, складывается впечатление, что их оставляют неспособные корректно выражаться на публике д'Артаньяны с необъятным самолюбием. Высказываешься на острую тему — будь осторожен, тщательно аргументируй и не нахватаешь минусов в карму! Пишешь о своём опыте — будь осторожен с обобщениями. Я не сторонник такой системы кармы как на хабре и сам её не минусую почти (может раз или два за всё время) и система StackExchange мне больше нравится, но то, что люди не понимают, почему их минусуют меня искренне удивляет.


      1. ittakir
        06.02.2017 14:14

        Почему-то на других форумах, такие д`Артаньяны никому не мешают. Только если человек совсем с катушек слетает и начинает слать нах, то его банят.
        Обычно человек может спокойно донести свое, пусть и неправильное, мнение. Я бы понял, если бы комментирующие поголовно были бы заслуженными экспертами во всех вопросах. Но 80% комментирующих — такие дАртаньяны и есть. Просто много кто бережет свою карму, высказывает только социально-ожидаемые ответы.

        Мое мнение: хватит уже играть в элитарный клуб. Выкиньте эту карму, будьте проще, и народ к вам потянется.


        1. DaylightIsBurning
          06.02.2017 15:32

          Почему-то на других форумах, такие д`Артаньяны никому не мешают.
          Мешают, с ними не всегда борются, но борются, к примеру, на StackExchange.
          Обычно человек может спокойно донести свое, пусть и неправильное, мнение.
          Может, согласен, но очень часто люди ленятся качественно излагать, а иногда намеренно провоцируют («авторский стиль»). По этой причине на некоторых ресурсах людей всячески стараются стимулировать писать меньше, но лучше.
          Но 80% комментирующих — такие дАртаньяны и есть.
          Люди почти не бывают черными или белыми. Некоторые люди иногда излагают с позиции д'Артаньяна время от времени. Не хочу давать количественную оценку, сколько таких постов, но для меня, чтение д'Артаньяновских постов — это пустая трата времени. Я понимаю, что без прочтения таких пустых постов не добраться и до ценных, но предпочитаю, что бы мне приходилось тратить на это как можно меньше времени.


    1. Aingis
      06.02.2017 15:03
      +1

      Проблема в том, что карма — оторванная от чего-либо сущность и функция случайных заходов в профиль, но которая почему-то влияет на ограничения пользователей. Самый большой абсурд — то, что карма совершенно оторвана от оценок за публикации, которые и являются целью ресурса. Если вам понравилась статья, надо нажать отдельно плюс за статью, и отдельно — в карму, чего конечно никто не делает (наблюдается только статистическая погрешность).


      Раньше карма играла роль самомодерации, но сейчас это бесполезная функция. У Хабра есть своя модерация, и только она может отправить в то же r/o.


      Не менее абсурдно существования клона кармы — рейтинга, который подсчитывается примерно так, как и должна по идее подсчитываться карма за исключением затухания со временем.


      Я писал ещё Шухарту много лет назад, что систему надо менять, причём многие моменты из того, что я писал, за это время были учтены, но главное ТМ (читай: Денискин) менять боятся.


    1. Labunsky
      06.02.2017 16:25

      1. Пишешь комментарии как хочется
      2. Сливаешь себе карму
      3. Пишешь хорошую статью — поднимаешь карму
      4. См. п. 1

      И статей вне блогов на хабре станет больше, и мнение выражать можно свободно — идеальная схема


  1. Aivendil
    06.02.2017 12:15
    +1

    Странно, почему из ссылок убрали habrahabr, но оставили habrastorage. Логичнее было бы убрать и то и другое.