Дисклеймер номер один: 18+. В этой статье присутствует ненормативная лексика, так как некоторые гости Юрия не стесняются в выражениях. Мы не хотим никого задеть или оскорбить чьи-то чувства, присутствие мата объясняется лишь объектом нашего исследования. 

Выход практически каждого ролика на канале «вДудь» считается событием, а некоторые из этих релизов даже сопровождаются скандалами из-за неосторожных высказываний его гостей.

Сегодня при помощи статистических подходов и алгоритмов ML мы будем анализировать прямую речь. В качестве данных используем интервью, которые журналист Юрий Дудь (признан иностранным агентом на территории РФ) берет для своего YouTube-канала. Посмотрим с помощью Python, о чем таком интересном говорили в интервью на канале «вДудь».

Сбор данных

Дисклеймер номер два (если вы не обратили внимание на первый): осторожно, в статье присутствует мат!

C помощью YouTube API мы получили список всех видео с канала Юрия Дудя, а также их метаинформацию. О том, как это сделать, вы можете узнать, например, из статьи нашего блога.

Если вы уже слышали знаменитое “Юрий будет дуть, дуть будет Юрий”, то наверняка знаете, что на этом канале есть документальные фильмы, а также интервью, в которых участвуют сразу несколько гостей. Нас заинтересовали только те выпуски, в которых преимущественно говорит только один гость. Поэтому нам пришлось провести фильтрацию всех видео вручную.

Для дальнейшего анализа нам необходимо было получить длительности роликов. Это мы сделали с помощью GET-запросов к YouTube API. Результаты приходили в специфическом формате (для примера: “PT1H49M35S”), поэтому их нам пришлось распарсить и перевести в секунды.

Итак, мы получили датафрейм, состоящий из 122 записей:

На основе метаинформации по лайкам, комментариям и просмотрам мы построили следующий Bubble Chart (P.S. Интерактивный график доступен в нашем блоге Left Join):

Так как наша цель – проанализировать речь в интервью, нам необходимо было получить текстовые составляющие роликов. В этом нам помог API-интерфейс youtube_transcript_api, который скачивает субтитры из видео на YouTube. Для каких-то роликов субтитры были прописаны вручную, но для большинства они были сгенерированы автоматически. К сожалению, для 10 видео субтитров не оказалось: беседы с L'one, Шнуром, Ресторатором, Амираном, Ильичом, Ильей Найшуллером, Соболевым, Иваном Дорном, Навальным, Noize MC. Причину их отсутствия мы, к сожалению, понять не смогли.


А гости кто?

Спектр рода деятельности гостей канала «вДудь» достаточно обширен, поэтому было решено пополнить исходные данные информацией о том, чем же в основном занимается приглашенный участник каждого интервью. К сожалению, ролики не сопровождаются четкими метками профессиональной принадлежности гостя, поэтому мы прописали эту информацию сами. На момент выгрузки данных последним видео на канале был разговор с комиком Дмитрием Романовым. 

Если с идентификацией профессии каждого гостя мы не ошиблись, то вот такое распределение в итоге получается:

Обработка текста

Анализ текстовой информации сложен в той степени, в какой сложен язык, на котором написан текст. Подробно о подготовке текста к анализу мы рассказывали в материале «Python и тексты нового альбома Земфиры». Тут была проведена идентичная работа. 

Как и раньше, для решения аналитической задачи мы решили использовать такой подход как лемматизация, т.е. приведение слова к его словарной форме. Проведя лемматизацию текстовых данных по правилам русского языка, мы получим существительные в именительном падеже единственного числа (кошками - кошка), прилагательные в именительном падеже мужского рода (пушистая - пушистый), а глаголы в инфинитиве (бежит - бежать). В этом проекте мы опять воспользовались библиотекой Pymorphy, представляющую собой морфологический анализатор. 

Помимо приведения к словарной форме нам потребовалось убрать из текстов часто встречающиеся слова, которые не несут ценности для анализа. Это было необходимо, потому что так называемые стоп-слова могут повлиять на работу используемой модели машинного обучения. Список таких слов мы взяли из пакета ntlk.corpus, а после расширили его, изучив тексты интервью. Конечно, мы также убрали все знаки пунктуации.

Анализ словарного запаса

После обработки текста мы посчитали для каждого интервью количество всех слов, а также абсолютное и относительное количество уникальных слов. Конечно, полученные значения неидеальны, так как, во-первых, для большинства интервью были получены автоматически сгенерированные субтитры, которые являются неточными, а во-вторых, тексты были очищены от лишней информации.

Сперва мы решили наглядно представить основной массив лексики, которая звучит в интервью. После группировки интервью по роду деятельности гостя нам удалось это сделать и в этом нам помогла библиотека wordcloud. У нас получились такие облака слов:

Лейтмотивом всех интервью Юрия являются обсуждение России (политики, социальной жизни и других особенностей), уровня заработка гостей, а также непосредственно профессиональной деятельности гостя (это особенно заметно у представителей индустрии кинопроизводства).

Далее мы решили построить боксплот для количества слов для каждого рода деятельности (профессии, которые были представлены единственным гостем, мы не стали учитывать):

Наиболее разговорчивыми гостями оказались блогеры. По медиане, они наговорили больше всего слов. Чуть поодаль от них журналисты и комики, а вот самыми немногословными оказались рэперы.

Что касается количества уникальных слов, то тут ситуация аналогичная. И рэперы опять в аутсайдерах…

Если говорить об отношении уникальных слов к общему количеству, то тут можно увидеть совершенно иную картину. Теперь впереди оказываются, рэперы, музыканты и бизнесмены. Предыдущие же лидеры, наоборот, становятся самыми последними. 

Конечно, стоит отметить, что такие сравнения могут быть несправедливыми, так как длительность интервью у каждого гостя Дудя разная, а потому кто-то просто мог успеть наговорить больше слов, чем остальные. Наглядно в этом можно убедиться, взглянув на распределение длительности интервью по роду деятельности (для построения использовался тот же пул гостей, что и для боксплотов выше):

К тому же, разные роды деятельности представляет разное количество человек, это тоже могло сказаться на результатах.

Далее мы составили список слов, появление которых в интервью было бы интересно отследить, и посмотрели как часто они упоминаются для каждого рода деятельности. Также мы решили учесть дисбаланс среди представителей разных профессиональных категорий и разделили полученные частоты на соответствующее количество гостей. Получилось следующее:

Первое место по упоминаниям очевидно занимает Россия. Что касается Запада, то про США гости говорили в 2,5 раза меньше. Что касается лидера РФ, то про него речь заходила достаточно часто. Его оппонент, Алексей Навальный, в этой словесной “баталии” потерпел поражение. Интересно, что политики далеко не в топе по упоминаниям Путина. Впереди оказался экономист Сергей Гуриев, после него ведущий Александр Гордон, а тройку замкнули журналисты. 

Глагол “любить” чаще использовали люди, имеющие отношение к искусству, творчеству и гуманитарным наукам – кинокритик Антон Долин, мультипликатор Олег Куваев, историк Тамара Эйдельман, актеры, рэперы, художник Федор Павлов-Андреевич, комики, музыканты, режиссеры. Про страхи (если судить по глаголу “бояться”) гости говорили реже, чем о любви. В топ вошли историк Эйдельман, дизайнер Артемий Лебедев, кинокритик Долин и политики. Может быть в этом кроется ответ на вопрос, почему же политики не так охотно произносили имя президента России. 

Что касается денег, то о них говорили все. Ну, за исключением человека науки, астрофизика Константина Батыгина. С церковью же имеем совершенно обратную ситуацию. О ней по большей части говорили только писатели и художник Павлов-Андреевич.

Анализ мата

Далее мы решили проанализировать то, как часто гости Юрия Дудя ругались матом. С помощью регулярных выражений мы составили словарь матерных слов со всех интервью. После этого, для каждого ролика было подсчитано суммарное количество вхождений элементов составленного словаря.

Мы построили диаграммы, отражающие топ-10 любителей нецензурно выражаться по количеству “запрещенных” слов в минуту. 

Как видим, рэперы и музыканты почти полностью захватили топ. Помимо них очень часто ругались такие гости как блогер Данила Поперечный и комики Иван Усович и Алексей Щербаков. Первое место в рейтинге с большим отрывом от остальных держит Morgenstern (признан иностранным агентом на территории РФ), а вот Олег Тиньков в своем последнем интервью матерился не так много, чтобы попасть в Топ-10.

Зато, как искрометно!

После персонального анализа мы решили узнать, насколько насыщена нецензурными словами речь представителей разных профессиональных групп. Нулевые показатели при этом были опущены.

Ожидаемо, что больше всех матерились рэперы. На втором месте оказались блогеры (по большей части за счет Поперечного). За ними следует Артемий Лебедев, единственный дизайнер в нашей выборке, благодаря разнообразия речи которого, представители этой профессии и попали в топ-3 этого распределения. Кстати, если вы еще не знакомы с нашим анализом телеграм-канала Лебедева, то скорее читайте! Несмотря на то что генератор постов Артемия Лебедева сейчас выключен, исследование его телеграм-канала все равно заслуживает вашего внимания.

Ограничения анализа

Стоит отметить, что в нашем небольшом исследовании есть два недостатка: 

  1. Как уже говорилось ранее, мы не смогли отделить слова гостей Дудя от речи Юрия, который и сам зачастую не брезгует использовать нецензурные выражения. Однако, задача интервьюера – подстроиться под стиль речи гостя, поэтому, скорее всего, результаты бы не сильно изменились. 

  2. В автосгенерированных субтитрах нам встретилось некое подобие цензуры - некоторые слова были заменены на ‘[ __ ]’. Тут можно выделить несколько интересных моментов:

    • действительно некоторые матерные слова были зацензурены (по большей части слово “б***ь”); 

    • остальные матерные слова остались нетронутыми; 

    • под чистку попали некоторые другие грубые слова, при этом не являющиеся матерными (“мудак”, “гавно”). 

Продемонстрируем наглядно на примере следующего диалога:

Дудь: Почему твои треки такое гавно?

Гнойный: Мои треки ох**тельные, Юра, просто ты любишь гавно.

Такие замены встречались в субтитрах роликов с людьми, которые не употребляли нецензурные выражения в своей речи (по крайней мере на протяжении интервью). Однозначное решение, что же делать с ‘[ __ ]’, мы не смогли принять, поэтому для некоторых гостей какая-то часть матерных слов была, увы, не подсчитана.

Работа с Word2vec

После статистического анализа интервью мы перешли к определению их контекста. Для этого мы, как и раньше, воспользовались моделью Word2vec. Она основана на нейронной сети и позволяет представлять слова в виде векторов с учетом семантической составляющей. Косинусная мера семантически схожих слов будет стремиться к 1, а у двух слов, не имеющих ничего общего по смыслу, она близка к 0. Модель можно обучать самостоятельно на подготовленном корпусе текстов, но мы решили взять готовую - от RusVectores.  Для ее использования нам понадобилась библиотека gensim

Мы рассчитали векторы-представления для каждой профессиональной группы. Наверное, можно ожидать, что режиссёры обсуждали кино и все, что с ним связано, а музыканты - музыку. Поэтому для каждого рода деятельности мы получили список слов, описывающих тематику текстов соответствующих роликов. Также мы раскрасили ячейки в зависимости от того, насколько каждое полученное слово было близко к текстам соответствующей категории гостей.

Можно сказать, что в целом каждая профессиональная категория описывается вполне соответствующими терминами. Конечно, некоторые слова могут показаться спорными. К примеру, на первом месте для рэперов стоит слово “джазовый”, хотя ни с 1 представителем хип-хоп течения речь о джазе не заходила. Тем не менее модель посчитала, что это слово достаточно близко к общему смыслу интервью людей, относящихся к этой категории (видимо, за счет непосредственного отношения рэперов к музыке). 

P.S. Мистическое число 25.000000

Как мы уже говорили, среди скачанных субтитров некоторые были написаны вручную. Интересно, что все они начинаются с числа 25.000000, причем оно нигде не озвучивается.

Что же это за мистическое число? Если уйти в конспирологию, то можно вспомнить про 25-й кадр. К сожалению, нам об этом ничего неизвестно, мы просто оставим вам это как пищу для размышлений…

Комментарии (49)


  1. Belking
    02.06.2022 11:15
    +19

    А разделение "музыкантов и рэперов" это что то в духе на "людей и женщин"?


    1. bugkon
      02.06.2022 11:23
      +33

      Курица не птица, рэпер не музыкант.


      1. Belking
        02.06.2022 11:53
        -22

        Нойз МС (полагаю, что был отнесен к рэперам, хотя это самый настоящий панк) и Каста, например, сделали для русской музыки достаточно, чтобы отмыть от коричневой субстанции, которой её покрыли всякие КиШ, Арии и прочий говнорок (не оскорбление, а термин, между прочим - надо только подождать смены пары поколений, когда его наконец зафиксируют в учебниках), так что не надо на рэперов бочку гнать.

        Моргенштерны же - это как Ксении Собчак и Ольги Бузовы для миллениалов, а не музыканты и рэперы.

        P.S.: бочку на русский рок не гоню - есть немало замечательных музыкантов, таких как Ногу Свело, Агата Кристи и Глеб Самойлов (но не Вадим). Только на говнорок.


        1. lev_seliverstov
          02.06.2022 12:52
          +4

          Не согласен насчёт КиШ, всё же возрастная и целевая аудитории несколько разные.


          1. Belking
            02.06.2022 12:57
            -10

            Ну, бардовская песня живет сама по себе в своем уютном кружке за городом, никому не мешая. А говнорокеры они вот - перед ногами, стоит только отойти в кусты, случайно можно попасть на туловище с покрашенными зеленкой волосами. Ещё они буквально пытаются переписывать историю (одна только вера в то, что Вишез был лидером Секс Пистолз чего стоит, особенно в исполнении Тараканов, где имидж был полностью украден под Лайдона, а называет себя Сидом), ставить себя в один ряд с нормальными исполнителями и обсуждать их из своей ямы. Даже у эмо больше музыкальной и культурной составляющей, чем у этих.

            upd: Ой... а вы оказывается полностью комментарий переписали...


        1. DocJester
          03.06.2022 08:06
          +1

          Вы же знаете, что музыку преимущественно писал Вадим Самойлов, правда? :)


          1. Belking
            03.06.2022 08:43

            Не особо, если честно (беглый гугл подсказывает, что правда, по крайней мере касающаяся лучших годов их творчества, посередине). Знаю только, что сольные альбомы Глеба - сильные и вызывают желание переслушивать, а записанный Вадимом с его молодым человеком Асламбеком Дудаевым (Сид и Нэнси в реалиях РФ) довольно печален (за исключением пары песен, где он откровенно косит под Глеба).

            upd: но вообще да, Глеб Самойлов & The Matrix, когда они исполняют Агату Кристи, это тоже крайне печальное зрелище, выручает только то, что на бис они как раз сольники и перепевают.


            1. DocJester
              03.06.2022 09:04
              +1

              Продолжая разговоры про музыку: а какой, собственно, «коричневой субстанцией» покрыли музыку профессиональные музыканты из группы «Ария»? Мне действительно интересно.
              Я понимаю, что музыку Вы оцениваете исключительно на уровне «нравится-не нравится», но давайте все же попробуем перейти в русло конструктивного диалога.


              1. Belking
                03.06.2022 09:21

                Ну начнем с того, что Ария в детстве мне нравилась. И даже Катарсис (которые я бы даже назвал получше экземляром, избавленной от кипеловской слащавости). Почему? Наверное потому, что "рифовая" музыка была в новинку - ощущаешь себя как сёрфингист на волне. Но увы, познакомившись с более качественными образцами "завываний под рифовую музыку" стали не интересны отечественные аналоги (а по мере знакомства с музыкой в целом отношение к этому жанру и вовсе исчезло), оказавшиеся в лучшем случае пародией, а в случае с Кипеловым - ещё и откровенно "опопсёнными" пародиями. И ещё, их главный минус - это пожалуй то, что у тех, что у других, переход между песнями не замечаешь, если услышал одну песню, то не услышав других не теряешь ничего, всё по одному шаблону, отчего я с трудом назвать могу лишь пару песен этих групп, хотя этот "этап" у меня в жизни был довольно продолжительным. Но это, наверное, минус практически всего жанра - я сейчас с ходу даже те группы, на которые перешел с отечественных не назову (в отличие от более раннего этапа жизни с полным отсутствием музыкального вкуса и гангста рэпом).


                1. DocJester
                  03.06.2022 09:36
                  +1

                  Мне абсолютно безразлична история Вашей жизни.
                  Вы делаете некоторое публичное заявление — оскорбительное и основанное на некотором личном мнении — и я прошу Вас прокомментировать и развернуть его.
                  Еще раз: какой, собственно, «коричневой субстанцией» покрыли музыку профессиональные музыканты из группы «Ария»?
                  Я понимаю, что Вы искренне, судя по всему, считаете, что есть два мнения: Ваше и неправильное, но давайте все же попробуем вести конструктивный диалог с фактами.

                  ещё и откровенно «опопсёнными» пародиями

                  Прошу прощения, а в это заключается? Мне действительно любопытно, что Вы имеете ввиду под «опопсенными» и почему употребляете это в исключительно негативном ключе? В поп-музыке нет ничего дурного, как и в том, чтобы писать популярную музыку, а не что-то нишевое.


                  1. Belking
                    03.06.2022 09:42

                    В таком случае, мне абсолютно безразличны Ваши ожидания по поводу моего ответа. Особенно на фоне декларируемого показательного любопытства - Вы не хотите понять, что я Вам пишу в ответ, хотя на все вопросы я ответил. Стоило, наверное, про Кипелова выразиться более конкретно - не "опопсевшие", а "эстрадные", но если бы у Вас действительно был интерес к диалогу, Вы бы это итак поняли, а не писали бы про то, что "делать популярную музыку это хорошо".


                    1. DocJester
                      03.06.2022 10:01
                      +1

                      Возвращаясь к многострадальному Кипелову: Вас действительно удивляет, что профессиональный (не в значении «Человек, который зарабатывает себе этим на жизнь», а в значении «Человек, получивший образование») музыкант поет «эстрадно»? Позвольте Вас удивить: вокал в принципе делится на «эстрадный» и «академический».)

                      Но, да, допустим, Вы — типичный «трушный» фанат, который за всех хорошее и против всего плохого. Тогда вопрос: если «Ария» — пародия на западные группы, то почему «Каста» — не пародия на западные же рэп-объединения? :)
                      И что такого сделали для русской музыки Нойз и Каста, чего не сделали Крупнов и Кровосток?


                      1. Belking
                        03.06.2022 11:03

                        >> 1 абзац

                        Ну серьезно, Вы от меня требуете четкого, а не бытового значения терминов, а сами вынуждены их уточнять. У меня использованное определение эстрады означает музыка для заработка без желания быть записанным в века. Означает беспросветный застой и отсутствие развития в жанре (посмотрите на уже упомянутого мной Лайдона - человек не только панк сделал, но и дал ему дальнейшее развитие). Означает бездушие в конце концов - закрытость от происходящего вокруг и нежелание давать этому отражение в своем творчестве.

                        >> Тогда вопрос: если «Ария» — пародия на западные группы, то почему «Каста» — не пародия на западные же рэп-объединения?

                        Я устал повторяться - потому что про Арию забываешь, стоит познакомиться с западной металл-сценой (собственно я фанатов Арии знаю только два типа - те, кому металл не интересен в принципе, и те, у кого остались какие то ностальгические воспоминания), а Касту можно органично добавлять в плейлисты с Сайпресс Хиллом.

                        >> И что такого сделали для русской музыки Нойз и Каста, чего не сделали Крупнов и Кровосток?

                        Потому что я не всех хороших деятелей знаю, а из тех кого знаю перечислять всех было бы странно - были выбраны на мой взгляд лучшие представители. Кстати, Нойз - отличный пример хорошей попсы, заставляющий переосмыслить панк как нишевую музыку. Ну и плюс, что Нойз, что Каста смогли врасти в культуру и встретить их можно в самых приятно неожиданных местах.

                        >> типичный «трушный» фанат, который за всех хорошее и против всего плохого

                        Вот фанатом меня точно не назвать. Против объективизации музыки профессионализмом, против фанатской униформы и прочих атрибутов фанатских движений и межфанатских холи варов.

                        P.S.: как же хорошо, что я по поводу Би-2 ещё не высказался....хотя и были бы они не к месту, они ж австралийцы, так что это не совсем русский говнорок.


    1. valiotti Автор
      02.06.2022 11:39
      +2

      да, что-то такое :) хотелось по рэперам отдельно получить информацию, так как они выделялись среди остальных музыкантов


    1. gazzz
      02.06.2022 17:15
      +1

      сначала тоже удивился такому разделению, пока не долистал до облакослов, и сразу стало понятно почему такое разделение.


  1. yevkad
    02.06.2022 11:17
    +1

    Интересно. А кто этот аутлаер у рэперов в числе уникальных слов и длительности интервью, случайно не проверяли?


    1. valiotti Автор
      02.06.2022 12:27
      +4

      Моргенштерн в обоих случаях


  1. markoni
    02.06.2022 11:33
    -12

    А что, у Дудя в гостях был кто-то из музыкантов? Ну, в нормальном понимани и слова "музыкант". Кинчев, разве что.


    1. bugkon
      02.06.2022 11:42
      +4

      В "нормальном понимании" музыкант исполняет музыку на инструменте. Кинчев скорее певец.


      1. markoni
        02.06.2022 12:20

        Да, я некорректно выразился. Но посыл, думаю, был понятен :)


    1. timurkar
      02.06.2022 11:52
      +9

      Шевчук был как минимум


    1. Belking
      02.06.2022 12:22
      +1

      >> Кинчев, разве что

      Таким "в нормальном понимании слова музыкантам" Макс Покровский сочинил, на мой взгляд, идеальную песню:

      https://www.youtube.com/watch?v=91NhLC0S9P8


      1. bugkon
        02.06.2022 13:10
        -5

        Кинчев про себя Дудю сам сказал, что православный, с его точки зрения, не может быть против власти, ибо вся власть от бога. Хотя бы имеет убеждения и их придерживается.


        1. Belking
          02.06.2022 13:17
          +6

          Ага, а лидер группы Пилот не может быть за свободу, потому что пионер, что, правда, не мешает ему самому придумывать опиум для народа (эзотерику). Также и тут - не мешало же ему до 14 года высказываться против власти его православие («Хотим мы, чтобы нами управляли жулики? Хотим, чтобы эти выборы были не сфальсифицированы, а переделаны и стали честными?» ), а потом резко, сразу после того, как *удалено по требованию здравого смысла, чтобы не уехать на 15шку*, переобулся. Интересно, почему?


      1. markoni
        02.06.2022 16:45
        -5

        А это что за чепушило? Даже посмотрел. Офигеть. Думаю, с кем сравнить - с гопниками типа Kiss? Не, Kiss были гораздо круче.
        Это чудо даже в ноты не попадает, в чем идеал? Хотя, вы наверное и Цоя с Макаревичем считаете музыкантами/исполнителями. Вам - можно.


        1. Belking
          03.06.2022 06:12

          Вы либо обиделись на Моргенштерна, либо Дима Билан.

          >> Цоя с Макаревичем

          Макаревич - однозначно. Цой - из-за пары песен не могу прямо назвать его по-ховански. Выбор объектов "не музыкантов" говорит о Вас достаточно, Дмитрий :)


          1. markoni
            03.06.2022 10:42

            Понимаете, музыкальный кругозор должен быть. И если он есть, то слушать жалкую пародию на Боба Дилана - Гребенщикова - просто противно. Макаревич, у которого реально качественных полторы песни, и те не его? Хм... Ну а про Монгенштернов, Биланов, и прочий шлак я даже и не говорю.


            1. Belking
              03.06.2022 11:41

              Понимаю. У меня вон сверху диалог происходит на этот счет. Просто для "своего" в любом случае порог "хорошести" ниже, особенно учитывая насколько слабо развитой была у нас музыкой. Макаревич выбрал непростое направление, но смог создать в нём несколько хороших "наших" песен, может и проседающих по качеству; Гребенщиков и сейчас пытается. А вот Ногу Свело! - блин, ну на мой взгляд за последние 3 года после возвращения на сцену у них прям хиты не ниже уровня их лучших песен старых лет, и это все тот же откровенный панк.


  1. angry_paimon
    02.06.2022 12:05
    -2

    Всегда приятно видеть Славу в статье, пусть даже вскользь) А вы точно Дудя анализировали? просто удивился, что в массивах слов не Путин в каждом блоке. Серьёзно, это же Юра, там только Путина и обсуждают.


    1. bugkon
      02.06.2022 12:55
      +1

      Да, только Путин и самоудовлетворение.


  1. bugkon
    02.06.2022 13:22
    +12

    Как написать статью про анализ данных и получить срач про русскую музыку в комментариях.


    1. Belking
      02.06.2022 13:48

      Самый лучший мой слив кармы за все время комментирования на хабре с +4 в минус, я считаю. И не жалею :)


      1. Plesser
        02.06.2022 13:56
        +1

        Это ты еще Крым не обсуждал, вот где карма уходит в минус )))


        1. Belking
          02.06.2022 14:13

          Ну да, тут сказ о том, что пока кто-то взрослеет и вспоминает каким дураком был по молодости, большинство эту дурость вспоминают как лучшее время жизни. Также и с Крымом видимо - все вспоминают как хорошо было в СССР, в садик отвели, покормили, сон час дали....


          1. Plesser
            02.06.2022 14:39

            Да если бы, обсуждали как банки работают в Крыму и я имел "дурость" написать что карточки Visa и MasterCard там прекрасно работают. Этим я открыл портал в персональный ад :)


  1. dimsan1
    02.06.2022 14:30
    -11

    Интересно, зачем анализировать статьи этого деграданта? Что, никого посерьёзнее не нашлось?


    1. valiotti Автор
      02.06.2022 14:30
      +6

      статьи?


    1. ducemollari
      02.06.2022 14:53
      -7

      Наверное, вас за слово статьи минусят. =) Нет, до статей он не дорос. И не доболтался пока тоже.


  1. gionet
    02.06.2022 14:32
    +3

    Отличное интересное исследование получилось кстати, можно много что почерпнуть из подобного графического представления ...


  1. CrazyElf
    02.06.2022 14:43
    +2

    А вот хорошо было бы ещё биграммы из двух слов попробовать добавить к одиночным словам. Бывает, что некоторые биграммы добавляют интересной информации в исследование текстов.


    1. valiotti Автор
      02.06.2022 15:10
      +2

      Да, это отличная идея!


  1. Redy
    02.06.2022 15:11
    +5

    Подозреваю, что 25.000000 - это просто частота кадров, для которой синхронизированы субтитры. Вероятно программа для создания субтитров добавляет такой тег.


  1. drno-reg
    02.06.2022 16:32

    у продюсеров самые короткие интервью потому что они заняты больше всех остальных им некогда, это писателям в кайф внимание где они могут блеснуть своим словарным запасом) лично для меня важна метрика сколько уникальных слов было произнесено во время интервью - если их мало, то его можно смотреть со скоростью 1.25 например, кстати отзовитесь кто смотрит видеоконтент на скоростях отличных от 1 и почему?


    1. SnakeSolid
      02.06.2022 19:08

      Смотрю на x3-х4 в зависимости от спикера, потому что вместо часа просмотр займет 15-20 минут.


    1. a1mir
      03.06.2022 09:19

      Смотрю на 1.5 минимум, иногда даже 2 не хватает.

      Очень медленный поток информации по сравнению с текстом


  1. yevkad
    02.06.2022 17:13

    Еще удивило что у Батыгина 8 матерных слов насчиталось)


    1. Saladin
      02.06.2022 17:54

      Это был выпуск с пояснениями от Коняева, а он известный матрещиник, как по мне, это материал не красит.


      1. yevkad
        02.06.2022 18:31

        Да точно, про вставки с Коняевым забыл. Ну вот так он ненароком помог астрофизикам "перематерить" бизнесменов и продюсеров: )


  1. flegmat
    02.06.2022 17:16
    +3

    Дисклеймеры #1 и #2 сразили наповал. :-)

    Вспомнился анекдот про программиста:

    - Чего это у тебя два безусловных Jump подряд стоят? - Ну а вдруг первый не сработает...