Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github. Датасет на Яндекс.Диске. UPD: по поводу расчета рейтинга — я тоже ошиблась при расчете. Тут в обсуждении OsipovRoman пишет, что отличия небольшие.
Результаты обработки данных
Анализ хабов
Распределение количества хабов, в которых размещена статья:
Самые большие хабы по количеству статей:
Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):
Граф связей не делала, т.к. не собирала список хабов отдельно.
Количество статей в зависимости от времени
В подписи к картинкам упомянут только Хабрахабр, но подразумеваем и Geektimes тоже.
Количество постов за месяц:
За год:
В хабе «Математика»:
Хаб «Космонавтика»:
Хаб «Хабрахабр»:
Количество изображений (видео), используемых в постах в зависимости от времени
И в отдельных хабах:
Облака ключевых слов и отдельных хабов
Вот тут функция WordCloud какое значение ни передавай атрибуту WordOrientation (Random,{-Pi/4,Pi/4}) рисовала все по-умолчанию:
Хаб «Математика»:
Хаб «Программирование»:
Хаб «Java»:
Хаб «Open source»:
Хаб «Машинное обучение»:
Сайты, на которые ссылаются в статьях
Убираем Хабрахабр как источник ссылок:
В хабе «Математика» (без Хабрахабра как источника ссылок):
Хаб «Разработка под iOS»:
Хаб ".NET":
Коды, которые приводят в статьях
Без SomeCode (если не указан язык программирования):
В хабе «Алгоритмы»:
В хабе «Программирование»:
В хабе «Настройка Linux»:
В хабе «Машинное обучение»:
Частота встречаемости слов
В хабе «Разработка под iOS»
В хабе «Разработка под Android»:
Частота употребления названий операционных систем в хабе «Open source»:
И на Хабрахабре/Geektimes:
Рейтинг и числа просмотров постов, а также вероятность достижения их определенных значений
Средний рейтинг поста на Хабрахабре/Geektimes равен 25.6067, а среднее количество просмотров 13487.2.
Математическое ожидание: {25.6067, 13487.2}
Среднеквадратическое отклонение: {35.9361, 28783.9}
Вероятность, того, что пост наберет определенный рейтинг:
Вероятность, того, что пост наберет определенное число просмотров:
Зависимость рейтинга и числа просмотров поста от времени публикации
Зависимость рейтинга поста от его объема
Средний объем поста на Хабрахабре/Geektimes равен 5199 символов.
Вероятность того, что пост с объемом не превышающим заданное количество символов наберет рейтинг не менее заданного:
Кстати по поводу частот слов. До использования Wolfram в Jupyter Notebook с помощью библиотек pymorphy2, nltk построила облака слов по годам, но для меньшего количества статей. Брала 50 самых часто встречающихся слов в статье (исключив стоп-слова), а затем объединяла словари по всем статьям за определенный год. Облака построены в Tagul. КДПВ — это облако слов для 2006 года. Для 2016-го:
Посты с максимальным количеством
Изображений: "Обзор почтовых клиентов под Android, или как я почтовик выбирал"
Комментариев: "Как раздавать инвайты на Google+"
Рейтингом: "Делаем приватный монитор из старого LCD монитора"
Количеством тегов: "Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году"
Просмотрами: "Взломать Wi-Fi за… 3 секунды"
Количеством видео: "DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС"
Количеством ссылок: "Лженаука и аферисты. Фальшивые научные журналы"
Текста: "Создаем клон Flappy Bird — Zombie Bird"
Комментарии (27)
vadim_ig
06.02.2017 00:01+5Очень много результатов, но мало предварительной обработки данных, в результате получаем отдельный анализ для «c++» и «си++», «java8» и «java 8» и т.п. В общем количество в радости, качество грустит.
alan008
06.02.2017 00:36+11Начало вроде интересное, но когда пошла детализация, остался лишь один вопрос — "зачем?!"
markhor
06.02.2017 01:59+2Предлагаю выложить датасет на data.world — GitHub для датасаентистов. В качестве бонуса получится на лету делать запросы любому пользователю.
urticazoku
06.02.2017 13:18+1К сожалению, не удалось загрузить файл — пишет слишком большой размер. (1,6 Gb)
DaneSoul
06.02.2017 05:07+3Может я что-то не понимаю, но разве у заминусованной статьи рейтинг не отрицателен?
Если отрицателен, то почему это не отражено в графиках и таблице?
В частности в таблице «Вероятность, того, что пост наберет определенный рейтинг» для рейтинга 1 указано вероятность 1 (то есть 100%), получается рейтинг 1 минимально возможный?Shultc
06.02.2017 13:56Тоже обратил на это внимание… Подумал, что наверное проверялось «Какая вероятность, что рейтинг будет ниже». Тогда всё сходится.
sorrowmoon
06.02.2017 07:47+6Обычно такие «анализы» ценны выводом и результатами анализа.
А тут просто «сырые данные» вывалены потоком, печалька.
delvin-fil
06.02.2017 07:58+2Хабр…
Пять лет назад никто не пытался провести анализ «кармадрочерства», ибо былии статьи и были пользователи с «инвайтом»! Не было ro плавно перерастающего в "отхабреный" и, извините,СРАЧЕЙ!
Теперь мы будем руководствоваться статистикой и «жамкать» на популярные темы?
Жаль…
ЗЫ: предчувствую свою карму в минус пятьсот:)MAXH0
06.02.2017 08:45Хабр мертв, как мертва хабрадемократия — анархия IT гиков. Нынешний Хабр это просто коммерческий проект выпущенный под брендом того Хабра. Печально, но такова жизнь…
И знаете, меня это радует. Если что то мертво, то что то должно родиться.delvin-fil
06.02.2017 08:50Хабр-кз, Сохабр? Что именно?
Armleo
06.02.2017 10:30OpenHabr или librehabr.
Опенсорс, с инвайтами и представителями второй по древности професии.
http3
06.02.2017 11:46+1ro получили возможность писать только в 2016 году вроде ж.
Кармадрочерство?
Я бы сказал, что кармадрочерство, у тех, кто срет в карму.
Мне плевать, куда ущербные ту карму заминусуют. Просто, если срешь в карму, то хотя бы аргументируй.
Раньше на хабре были более здравомыслящие комментаторы. (Или это я стал умнее?)
А сейчас все по шаблонам. Инакомыслие подавляется.delvin-fil
06.02.2017 14:52Раньше на хабре были более здравомыслящие комментаторы. (Или это я стал умнее?)
Все мы становимся немножко старше.
… каждый день:)
dmitriylyalyuev
06.02.2017 10:26-4Операционные системы:
- windows
- linux
- ios
IOS? Вы серьезно? Может все же MacOS?
Pashkevich
06.02.2017 10:39+3Сделайте еще один анализ:
Сколько статей опубликовано в Блогах компаний, а сколько пользователями.urticazoku
06.02.2017 14:00В блогах: 38067, пользователями: 227630. Это с учетом того, что одна и та же статья м.б. в разных хабах.
Pashkevich
06.02.2017 14:12Ок.
Еще один тонкий момент.
Блоги были введены в каком-то недавнем году (т.е. не с самого начала образования Хабра).
Можно ли сделать отсечку по кол-ву постов с того времени.
Допустим Блоги были введены в 2012 году (условно).
Вот какое кол-во постов с 2012 года от пользователей и в Блогах компаний?
j0ez
06.02.2017 10:46В блоке ".NET" раздела «Сайты, на которые ссылаются в статьях» nuget.org встречается дважды :\
ittakir
06.02.2017 10:55Самая большая проблема Хабра и Geektimes — система кармы. Тебе могут наставить минусов, что приведет к возможности комментирования раз в день. То есть из дискуссии ты практически выпадаешь.
Причем, ставят минусы откровенно зря. Высказали альтернативное мнение, не совпадающее с твоим — получай минус, гад.
Причем, дело даже не в политическом троллинге, рекламе и т.п. Можно просто рассказать свой реальный опыт и нахватать минусов.
Читая комментарии, складывается ощущение, что тут много зашореных обидчивых инфантилов. В свои 20 ничего не добились, кроме доступа к редактированию кармы, и теперь тешут самолюбие.DaylightIsBurning
06.02.2017 12:53+1Читая комментарии, складывается ощущение, что тут много зашореных обидчивых инфантилов.
Читая комментарии подобные Вашему, складывается впечатление, что их оставляют неспособные корректно выражаться на публике д'Артаньяны с необъятным самолюбием. Высказываешься на острую тему — будь осторожен, тщательно аргументируй и не нахватаешь минусов в карму! Пишешь о своём опыте — будь осторожен с обобщениями. Я не сторонник такой системы кармы как на хабре и сам её не минусую почти (может раз или два за всё время) и система StackExchange мне больше нравится, но то, что люди не понимают, почему их минусуют меня искренне удивляет.ittakir
06.02.2017 14:14Почему-то на других форумах, такие д`Артаньяны никому не мешают. Только если человек совсем с катушек слетает и начинает слать нах, то его банят.
Обычно человек может спокойно донести свое, пусть и неправильное, мнение. Я бы понял, если бы комментирующие поголовно были бы заслуженными экспертами во всех вопросах. Но 80% комментирующих — такие дАртаньяны и есть. Просто много кто бережет свою карму, высказывает только социально-ожидаемые ответы.
Мое мнение: хватит уже играть в элитарный клуб. Выкиньте эту карму, будьте проще, и народ к вам потянется.DaylightIsBurning
06.02.2017 15:32Почему-то на других форумах, такие д`Артаньяны никому не мешают.
Мешают, с ними не всегда борются, но борются, к примеру, на StackExchange.
Обычно человек может спокойно донести свое, пусть и неправильное, мнение.
Может, согласен, но очень часто люди ленятся качественно излагать, а иногда намеренно провоцируют («авторский стиль»). По этой причине на некоторых ресурсах людей всячески стараются стимулировать писать меньше, но лучше.
Но 80% комментирующих — такие дАртаньяны и есть.
Люди почти не бывают черными или белыми. Некоторые люди иногда излагают с позиции д'Артаньяна время от времени. Не хочу давать количественную оценку, сколько таких постов, но для меня, чтение д'Артаньяновских постов — это пустая трата времени. Я понимаю, что без прочтения таких пустых постов не добраться и до ценных, но предпочитаю, что бы мне приходилось тратить на это как можно меньше времени.
Aingis
06.02.2017 15:03+1Проблема в том, что карма — оторванная от чего-либо сущность и функция случайных заходов в профиль, но которая почему-то влияет на ограничения пользователей. Самый большой абсурд — то, что карма совершенно оторвана от оценок за публикации, которые и являются целью ресурса. Если вам понравилась статья, надо нажать отдельно плюс за статью, и отдельно — в карму, чего конечно никто не делает (наблюдается только статистическая погрешность).
Раньше карма играла роль самомодерации, но сейчас это бесполезная функция. У Хабра есть своя модерация, и только она может отправить в то же r/o.
Не менее абсурдно существования клона кармы — рейтинга, который подсчитывается примерно так, как и должна по идее подсчитываться карма за исключением затухания со временем.
Я писал ещё Шухарту много лет назад, что систему надо менять, причём многие моменты из того, что я писал, за это время были учтены, но главное ТМ (читай: Денискин) менять боятся.
Labunsky
06.02.2017 16:25- Пишешь комментарии как хочется
- Сливаешь себе карму
- Пишешь хорошую статью — поднимаешь карму
- См. п. 1
И статей вне блогов на хабре станет больше, и мнение выражать можно свободно — идеальная схема
Aivendil
06.02.2017 12:15+1Странно, почему из ссылок убрали habrahabr, но оставили habrastorage. Логичнее было бы убрать и то и другое.
OS2
Ужас какой.