![](https://habrastorage.org/files/b52/da5/359/b52da53597c1466da00afeab9d751c05.png)
Сначала была идея собрать частотный словарь слов Хабрахабр и Geektimes, но потом нашла прекрасное: Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (перед просмотром данной статьи рекомендую пройти по ссылке), увидела разницу в результатах и решила сделать подобное для статей с Хабрахабр и Geektimes. В обзор не попали статьи с подкастами и нестандартным оформлением (habrahabr.ru/article). Получился анализ 170000 статей. Все изображения кликабельны. Код Wolfram Notebook на github. Датасет на Яндекс.Диске. UPD: по поводу расчета рейтинга — я тоже ошиблась при расчете. Тут в обсуждении OsipovRoman пишет, что отличия небольшие.
Результаты обработки данных
Анализ хабов
Распределение количества хабов, в которых размещена статья:
![](https://habrastorage.org/files/8e6/675/aa0/8e6675aa035a40c98a1e9effec9253fd.png)
Самые большие хабы по количеству статей:
![](https://habrastorage.org/files/dbb/c4c/9a6/dbbc4c9a61a84390950b0c883463e4eb.png)
Если рассмотреть только уникальные статьи (относящиеся только к одному хабу):
![](https://habrastorage.org/files/412/7b0/8ef/4127b08ef51f4e32860f20aef4ec27ab.png)
Граф связей не делала, т.к. не собирала список хабов отдельно.
Количество статей в зависимости от времени
В подписи к картинкам упомянут только Хабрахабр, но подразумеваем и Geektimes тоже.
Количество постов за месяц:
![](https://habrastorage.org/files/23d/4fa/ac9/23d4faac96a941af8016114c90f75a6e.png)
За год:
![](https://habrastorage.org/files/a2d/5fa/d3f/a2d5fad3f81a4aa0a6553984f7080a96.png)
В хабе «Математика»:
![](https://habrastorage.org/files/f89/711/946/f89711946d474ce7b1e4c22af9ef0811.png)
![](https://habrastorage.org/files/3b5/a61/264/3b5a61264a584fda914b25edceaba61f.png)
Хаб «Космонавтика»:
![](https://habrastorage.org/files/170/afb/be5/170afbbe50b04a6293ca87537becb29a.png)
![](https://habrastorage.org/files/44c/4a3/d96/44c4a3d9643b4c8ab7d749ff250cff79.png)
Хаб «Хабрахабр»:
![](https://habrastorage.org/files/128/d35/9ad/128d359adc004fee9bf721f0ed1d874f.png)
![](https://habrastorage.org/files/8c1/fc7/ddd/8c1fc7ddde854bc491f1e1cec40ddbf1.png)
Количество изображений (видео), используемых в постах в зависимости от времени
![](https://habrastorage.org/files/903/ebb/a71/903ebba7125d43ba879d86a23b13bcc6.png)
![](https://habrastorage.org/files/3e2/bf9/8d6/3e2bf98d6c4242df99791a24c287a3c3.png)
![](https://habrastorage.org/files/2a3/7e1/2ea/2a37e12eaed04e42bb5232fb0b97a86a.png)
![](https://habrastorage.org/files/a3b/43d/4e0/a3b43d4e089646f4b3928f476edea205.png)
![](https://habrastorage.org/getpro/habr/post_images/d98/cda/0c6/d98cda0c6c1b2d0716a9b1d704e8586f.png)
![](https://habrastorage.org/files/892/7bf/c33/8927bfc3391249638fade48ddf13708b.png)
![](https://habrastorage.org/files/771/912/f62/771912f626a74e548e092afc063a55d4.png)
![](https://habrastorage.org/files/5c3/9de/ee6/5c39deee610d42b290c25b11e5b35262.png)
И в отдельных хабах:
![](https://habrastorage.org/files/b2c/953/c8a/b2c953c8a6b74acdb02d9a9cbe996e06.png)
![](https://habrastorage.org/files/68c/9f2/623/68c9f2623904465b94f6bd5626ab439f.png)
![](https://habrastorage.org/files/f8c/7c3/fb6/f8c7c3fb60104bf8996100490d80263d.png)
![](https://habrastorage.org/files/5a9/138/16d/5a913816d4644e1e83301309747a2687.png)
![](https://habrastorage.org/files/1f5/917/603/1f5917603ff04b16a68ed189b99e585a.png)
![](https://habrastorage.org/files/301/ace/b21/301aceb21b4c49a794c8b4b24c964ea6.png)
Облака ключевых слов и отдельных хабов
Вот тут функция WordCloud какое значение ни передавай атрибуту WordOrientation (Random,{-Pi/4,Pi/4}) рисовала все по-умолчанию:
![](https://habrastorage.org/files/74e/fb6/428/74efb642832a40f8b2b79a541899de67.png)
![](https://habrastorage.org/files/8e7/538/33a/8e753833a04544dc9a6400367da70a51.png)
Хаб «Математика»:
![](https://habrastorage.org/files/037/b7e/e1b/037b7ee1b9cf4772989cd7063b9b4feb.png)
Хаб «Программирование»:
![](https://habrastorage.org/files/963/dbe/e0d/963dbee0d6f74afcba43b0d095c27f24.png)
Хаб «Java»:
![](https://habrastorage.org/files/b49/8da/810/b498da810a4d4754b7b752111e7b7eb5.png)
Хаб «Open source»:
![](https://habrastorage.org/files/caf/90e/83a/caf90e83ad3645d3ace85773b55d35bb.png)
Хаб «Машинное обучение»:
![](https://habrastorage.org/files/822/079/438/822079438a2e40c08a45ddef69f2b3b2.png)
Сайты, на которые ссылаются в статьях
![](https://habrastorage.org/files/53c/7ab/67a/53c7ab67a6d44afea8d9a19f2e47fbb1.png)
Убираем Хабрахабр как источник ссылок:
![](https://habrastorage.org/files/2b0/e67/04f/2b0e6704f1a242b3a5dfd25a52cb0144.png)
В хабе «Математика» (без Хабрахабра как источника ссылок):
![](https://habrastorage.org/files/d03/761/7f2/d037617f24a84fe9ab5f0cf506150740.png)
Хаб «Разработка под iOS»:
![](https://habrastorage.org/files/a20/212/fa1/a20212fa1499460f9c39198c07825c21.png)
Хаб ".NET":
![](https://habrastorage.org/files/a10/611/153/a1061115386c45a7a6fd01cb5c8144eb.png)
Коды, которые приводят в статьях
Без SomeCode (если не указан язык программирования):
![](https://habrastorage.org/files/628/22f/2b7/62822f2b7df84a4cb1d4e42884b80e79.png)
В хабе «Алгоритмы»:
![](https://habrastorage.org/files/aeb/3ef/d20/aeb3efd20d8f4c2bb582bb1c1972320a.png)
В хабе «Программирование»:
![](https://habrastorage.org/files/d52/208/a76/d52208a7657d46e0a5605ce55b0851fa.png)
В хабе «Настройка Linux»:
![](https://habrastorage.org/files/4e2/01d/bcb/4e201dbcb9a94693917b9502523470f0.png)
В хабе «Машинное обучение»:
![](https://habrastorage.org/files/296/6b9/536/2966b9536d1d4423852456af1cebf2d2.png)
Частота встречаемости слов
![](https://habrastorage.org/files/ea1/e0e/fa6/ea1e0efa675d45baa190947e60e81e08.png)
![](https://habrastorage.org/files/637/72f/245/63772f24540c4e9c8467c4c06e7b20b7.png)
![](https://habrastorage.org/files/1e3/3df/e20/1e33dfe209fd45c0b593c1652d4fd8b9.png)
![](https://habrastorage.org/files/4c7/ddb/b7c/4c7ddbb7c764473b916f281a928b8c6c.png)
![](https://habrastorage.org/files/1d9/88c/ae7/1d988cae7950445d93b1fe5f9b1334ad.png)
![](https://habrastorage.org/files/646/8e7/4a9/6468e74a97ff4703a212211ede932ab4.png)
В хабе «Разработка под iOS»
![](https://habrastorage.org/files/8be/ce1/209/8bece1209f784efdbec387ce97af5e23.png)
В хабе «Разработка под Android»:
![](https://habrastorage.org/files/9f4/0e3/37d/9f40e337d395449ca9bcf4dc40a671c1.png)
Частота употребления названий операционных систем в хабе «Open source»:
![](https://habrastorage.org/files/206/ce1/b82/206ce1b82cb84831812e883f98d39308.png)
И на Хабрахабре/Geektimes:
![](https://habrastorage.org/files/b2e/4dc/45f/b2e4dc45f4c3499da90eed5c2f1d9078.png)
Рейтинг и числа просмотров постов, а также вероятность достижения их определенных значений
![](https://habrastorage.org/files/47f/6cc/7ec/47f6cc7ec383402fb2f5439fa4362aab.png)
![](https://habrastorage.org/files/c72/2df/685/c722df685e4f4d009145a529b3f519f3.png)
![](https://habrastorage.org/files/ecd/bad/d06/ecdbadd0672c4bce8f5722cbe36c041a.png)
![](https://habrastorage.org/files/9a8/19f/657/9a819f6574744c7fa09a2130764df395.png)
Средний рейтинг поста на Хабрахабре/Geektimes равен 25.6067, а среднее количество просмотров 13487.2.
Математическое ожидание: {25.6067, 13487.2}
Среднеквадратическое отклонение: {35.9361, 28783.9}
Вероятность, того, что пост наберет определенный рейтинг:
![](https://habrastorage.org/files/b56/83c/175/b5683c175fab439aa231fc714bffcadb.png)
Вероятность, того, что пост наберет определенное число просмотров:
![](https://habrastorage.org/files/2d3/a47/0f9/2d3a470f98da4b8aae958ffd9fa83b15.png)
Зависимость рейтинга и числа просмотров поста от времени публикации
![](https://habrastorage.org/files/8db/1fe/fbb/8db1fefbb22a4da3a89155dec49f45db.png)
![](https://habrastorage.org/files/b51/d80/6d7/b51d806d76d44cb4a73f08aee5383f52.png)
![](https://habrastorage.org/files/41f/7d9/692/41f7d96922be4ec68293b9a2ae22482c.png)
![](https://habrastorage.org/files/5f3/0e5/b2e/5f30e5b2e48044a4beeb4c561f6ae305.png)
![](https://habrastorage.org/files/b54/4b2/b3f/b544b2b3f0a648f49ae5b18791ed240d.png)
![](https://habrastorage.org/files/d52/37a/67a/d5237a67a0954f929d3262c843ebb6a7.png)
![](https://habrastorage.org/files/190/0c6/4d8/1900c64d81c44b7a84dacc4ae3c0ec79.png)
![](https://habrastorage.org/files/b3a/7c6/e9c/b3a7c6e9c00f4a6d82256bf335811988.png)
![](https://habrastorage.org/files/a87/a8b/06a/a87a8b06a8dd4c67a5a0cc744af7886e.png)
![](https://habrastorage.org/files/97e/c00/0be/97ec000be4de4264a26ff685d0f6b3a5.png)
![](https://habrastorage.org/files/471/b53/7d3/471b537d3e554d56901de51453b773f7.png)
![](https://habrastorage.org/files/636/f25/8e1/636f258e161245048fe7ace4db376862.png)
![](https://habrastorage.org/files/aea/97d/4bc/aea97d4bcece452c8b549888454787b7.png)
![](https://habrastorage.org/files/63c/f95/7c0/63cf957c0d3c4537b852b94914dd1720.png)
![](https://habrastorage.org/files/76f/795/768/76f79576886340d0949cb1306aace669.png)
![](https://habrastorage.org/files/961/87c/971/96187c971a934c49b3894de07c3db722.png)
Зависимость рейтинга поста от его объема
![](https://habrastorage.org/files/3d4/e42/e17/3d4e42e1789447bbb81c9bb2fb0577c2.png)
![](https://habrastorage.org/files/718/c32/a8c/718c32a8c08e4d6397e602f6375a20b6.png)
![](https://habrastorage.org/files/f51/f55/75f/f51f5575fed64c44baafb2506ee60b37.png)
![](https://habrastorage.org/files/b85/695/aa5/b85695aa526d4016ba2a70eef32f7efd.png)
Средний объем поста на Хабрахабре/Geektimes равен 5199 символов.
Вероятность того, что пост с объемом не превышающим заданное количество символов наберет рейтинг не менее заданного:
![](https://habrastorage.org/files/be1/ecb/5d3/be1ecb5d3e5b4ddea4ff8dd427539944.png)
Кстати по поводу частот слов. До использования Wolfram в Jupyter Notebook с помощью библиотек pymorphy2, nltk построила облака слов по годам, но для меньшего количества статей. Брала 50 самых часто встречающихся слов в статье (исключив стоп-слова), а затем объединяла словари по всем статьям за определенный год. Облака построены в Tagul. КДПВ — это облако слов для 2006 года. Для 2016-го:
![](https://habrastorage.org/files/4de/0a7/71e/4de0a771eba94e6caf6ec575131fc9b3.png)
Посты с максимальным количеством
Изображений: "Обзор почтовых клиентов под Android, или как я почтовик выбирал"
Комментариев: "Как раздавать инвайты на Google+"
Рейтингом: "Делаем приватный монитор из старого LCD монитора"
Количеством тегов: "Информационно-технологические средства практического выживания социальных сообществ в условиях отключения Интернета в 2014 году"
Просмотрами: "Взломать Wi-Fi за… 3 секунды"
Количеством видео: "DUMP-2016: видео всех докладов в одном посте. Бесплатно. Без СМС"
Количеством ссылок: "Лженаука и аферисты. Фальшивые научные журналы"
Текста: "Создаем клон Flappy Bird — Zombie Bird"
Комментарии (27)
vadim_ig
06.02.2017 00:01+5Очень много результатов, но мало предварительной обработки данных, в результате получаем отдельный анализ для «c++» и «си++», «java8» и «java 8» и т.п. В общем количество в радости, качество грустит.
alan008
06.02.2017 00:36+11Начало вроде интересное, но когда пошла детализация, остался лишь один вопрос — "зачем?!"
markhor
06.02.2017 01:59+2Предлагаю выложить датасет на data.world — GitHub для датасаентистов. В качестве бонуса получится на лету делать запросы любому пользователю.
urticazoku
06.02.2017 13:18+1К сожалению, не удалось загрузить файл — пишет слишком большой размер. (1,6 Gb)
DaneSoul
06.02.2017 05:07+3Может я что-то не понимаю, но разве у заминусованной статьи рейтинг не отрицателен?
Если отрицателен, то почему это не отражено в графиках и таблице?
В частности в таблице «Вероятность, того, что пост наберет определенный рейтинг» для рейтинга 1 указано вероятность 1 (то есть 100%), получается рейтинг 1 минимально возможный?Shultc
06.02.2017 13:56Тоже обратил на это внимание… Подумал, что наверное проверялось «Какая вероятность, что рейтинг будет ниже». Тогда всё сходится.
sorrowmoon
06.02.2017 07:47+6Обычно такие «анализы» ценны выводом и результатами анализа.
А тут просто «сырые данные» вывалены потоком, печалька.
delvin-fil
06.02.2017 07:58+2Хабр…
Пять лет назад никто не пытался провести анализ «кармадрочерства», ибо былии статьи и были пользователи с «инвайтом»! Не было ro плавно перерастающего в "отхабреный" и, извините,СРАЧЕЙ!
Теперь мы будем руководствоваться статистикой и «жамкать» на популярные темы?
Жаль…
ЗЫ: предчувствую свою карму в минус пятьсот:)MAXH0
06.02.2017 08:45Хабр мертв, как мертва хабрадемократия — анархия IT гиков. Нынешний Хабр это просто коммерческий проект выпущенный под брендом того Хабра. Печально, но такова жизнь…
И знаете, меня это радует. Если что то мертво, то что то должно родиться.delvin-fil
06.02.2017 08:50Хабр-кз, Сохабр? Что именно?
Armleo
06.02.2017 10:30OpenHabr или librehabr.
Опенсорс, с инвайтами и представителями второй по древности професии.
http3
06.02.2017 11:46+1ro получили возможность писать только в 2016 году вроде ж.
Кармадрочерство?
Я бы сказал, что кармадрочерство, у тех, кто срет в карму.
Мне плевать, куда ущербные ту карму заминусуют. Просто, если срешь в карму, то хотя бы аргументируй.
Раньше на хабре были более здравомыслящие комментаторы. (Или это я стал умнее?)
А сейчас все по шаблонам. Инакомыслие подавляется.delvin-fil
06.02.2017 14:52Раньше на хабре были более здравомыслящие комментаторы. (Или это я стал умнее?)
Все мы становимся немножко старше.
… каждый день:)
dmitriylyalyuev
06.02.2017 10:26-4Операционные системы:
- windows
- linux
- ios
IOS? Вы серьезно? Может все же MacOS?
Pashkevich
06.02.2017 10:39+3Сделайте еще один анализ:
Сколько статей опубликовано в Блогах компаний, а сколько пользователями.urticazoku
06.02.2017 14:00В блогах: 38067, пользователями: 227630. Это с учетом того, что одна и та же статья м.б. в разных хабах.
Pashkevich
06.02.2017 14:12Ок.
Еще один тонкий момент.
Блоги были введены в каком-то недавнем году (т.е. не с самого начала образования Хабра).
Можно ли сделать отсечку по кол-ву постов с того времени.
Допустим Блоги были введены в 2012 году (условно).
Вот какое кол-во постов с 2012 года от пользователей и в Блогах компаний?
j0ez
06.02.2017 10:46В блоке ".NET" раздела «Сайты, на которые ссылаются в статьях» nuget.org встречается дважды :\
ittakir
06.02.2017 10:55Самая большая проблема Хабра и Geektimes — система кармы. Тебе могут наставить минусов, что приведет к возможности комментирования раз в день. То есть из дискуссии ты практически выпадаешь.
Причем, ставят минусы откровенно зря. Высказали альтернативное мнение, не совпадающее с твоим — получай минус, гад.
Причем, дело даже не в политическом троллинге, рекламе и т.п. Можно просто рассказать свой реальный опыт и нахватать минусов.
Читая комментарии, складывается ощущение, что тут много зашореных обидчивых инфантилов. В свои 20 ничего не добились, кроме доступа к редактированию кармы, и теперь тешут самолюбие.DaylightIsBurning
06.02.2017 12:53+1Читая комментарии, складывается ощущение, что тут много зашореных обидчивых инфантилов.
Читая комментарии подобные Вашему, складывается впечатление, что их оставляют неспособные корректно выражаться на публике д'Артаньяны с необъятным самолюбием. Высказываешься на острую тему — будь осторожен, тщательно аргументируй и не нахватаешь минусов в карму! Пишешь о своём опыте — будь осторожен с обобщениями. Я не сторонник такой системы кармы как на хабре и сам её не минусую почти (может раз или два за всё время) и система StackExchange мне больше нравится, но то, что люди не понимают, почему их минусуют меня искренне удивляет.ittakir
06.02.2017 14:14Почему-то на других форумах, такие д`Артаньяны никому не мешают. Только если человек совсем с катушек слетает и начинает слать нах, то его банят.
Обычно человек может спокойно донести свое, пусть и неправильное, мнение. Я бы понял, если бы комментирующие поголовно были бы заслуженными экспертами во всех вопросах. Но 80% комментирующих — такие дАртаньяны и есть. Просто много кто бережет свою карму, высказывает только социально-ожидаемые ответы.
Мое мнение: хватит уже играть в элитарный клуб. Выкиньте эту карму, будьте проще, и народ к вам потянется.DaylightIsBurning
06.02.2017 15:32Почему-то на других форумах, такие д`Артаньяны никому не мешают.
Мешают, с ними не всегда борются, но борются, к примеру, на StackExchange.
Обычно человек может спокойно донести свое, пусть и неправильное, мнение.
Может, согласен, но очень часто люди ленятся качественно излагать, а иногда намеренно провоцируют («авторский стиль»). По этой причине на некоторых ресурсах людей всячески стараются стимулировать писать меньше, но лучше.
Но 80% комментирующих — такие дАртаньяны и есть.
Люди почти не бывают черными или белыми. Некоторые люди иногда излагают с позиции д'Артаньяна время от времени. Не хочу давать количественную оценку, сколько таких постов, но для меня, чтение д'Артаньяновских постов — это пустая трата времени. Я понимаю, что без прочтения таких пустых постов не добраться и до ценных, но предпочитаю, что бы мне приходилось тратить на это как можно меньше времени.
Aingis
06.02.2017 15:03+1Проблема в том, что карма — оторванная от чего-либо сущность и функция случайных заходов в профиль, но которая почему-то влияет на ограничения пользователей. Самый большой абсурд — то, что карма совершенно оторвана от оценок за публикации, которые и являются целью ресурса. Если вам понравилась статья, надо нажать отдельно плюс за статью, и отдельно — в карму, чего конечно никто не делает (наблюдается только статистическая погрешность).
Раньше карма играла роль самомодерации, но сейчас это бесполезная функция. У Хабра есть своя модерация, и только она может отправить в то же r/o.
Не менее абсурдно существования клона кармы — рейтинга, который подсчитывается примерно так, как и должна по идее подсчитываться карма за исключением затухания со временем.
Я писал ещё Шухарту много лет назад, что систему надо менять, причём многие моменты из того, что я писал, за это время были учтены, но главное ТМ (читай: Денискин) менять боятся.
Labunsky
06.02.2017 16:25- Пишешь комментарии как хочется
- Сливаешь себе карму
- Пишешь хорошую статью — поднимаешь карму
- См. п. 1
И статей вне блогов на хабре станет больше, и мнение выражать можно свободно — идеальная схема
Aivendil
06.02.2017 12:15+1Странно, почему из ссылок убрали habrahabr, но оставили habrastorage. Логичнее было бы убрать и то и другое.
OS2
Ужас какой.