Всем привет! Это небольшой пост (с большим количеством картинок) о визуализации и анализе комментариев на ютубе. Предыдущие посты: 1, 2.
В этот раз мы поговорим о комментариях, которые отличаются от большинства других комментариев и представлены в виде отдельных регионов. Обычно они ассоциируются с поведением ботов, но это может быть и другое автономное сообщество комментаторов. Что они из себя представляют и как их находить на ютубе? Давайте выясним.
Если вкратце воспроизвести нашу исследовательскую гипотезу, то взаимодействие комментаторов проявляется в устойчивых и воспроизводимых формах. Мы называем их паттернами.
Различие и многообразие паттернов проще всего продемонстрировать на пространственно-геометрическом расположении комментариев относительно друг друга. Для этого воспользуемся визуализацией комментариев к этому каналу:
На визуализации отчетливо выделяются по крайней мере две категории паттернов — внутренние и внешние.
Внутренние паттерны относятся к комментариям, которые связаны с большинством других комментариев. Наличие внутренних паттернов говорит о формировании постоянной аудитории комментаторов. Подробнее о типах внутренних паттернов мы поговорим в следующий раз, так как эта тема требует детального исследования. А сейчас обратимся к исследованию внешних паттернов.
Внешние комментарии слабо связаны с большинством других комментариев. В то же время некоторые внешние паттерны могут демонстрировать сильное взаимодействие локализованной группы комментариев (кластеризацию), но оно проявляется только к определенной малой общности, а с большинством комментариев эта группа связана слабо. Поэтому мы вводим дополнительные понятия внешних паттернов со слабыми и сильными связями.
В качественном исследовании внешние комментаторы представлены аудиторией, которая демонстрирует узкую специализацию действий. Эти действия принято ассоциировать с поведением ботов и других представителей «искусственной аудитории» (призоловов и так далее). Их отличие от «естественных» комментаторов — в направленных на определенную цель коллективных действиях.
А теперь рассмотрим некоторые типы внешних комментариев на примере комментаторов ютуб-каналов.
Для исследования внешних комментаторов и свойственных им паттернов взаимодействия, тип которых мы определили как «Боты» и «Призоловы», мы рассмотрим комментарии канала 1.
В северной части визуализации заметен красный «хвост» комментариев.
Для анализа взяты комментарии роликов 201, 349, 375, 424, 433, 464.
В основном это однотипные комментарии к роликам про товары одного из производителей игрушек.
Ролик 201:
Ролик 349:
Ролик 375:
Ролик 424:
Ролик 433:
Ролик 464:
В первом приближении такой тип комментирования очень похож на поведение ботов: однотипные высказывания в позитивной тональности, однотипное построение предложений с незначительной перестановкой их частей. Впрочем, если допустить, что комментаторы — это взрослые люди, которые ностальгируют по игрушкам из девяностых и пишут в похожем стиле, то оценка комментариев может измениться, то есть для окончательной оценки нужно провести полноценный количественный и качественный контент-анализ.
Для сравнения тональности комментариев были взяты комментарии к ролику 377 из центра облака внутренних комментариев:
Тональность и стилистика комментариев заметно отличается от представленных выше. Тип комментаторов совершенно другой, впрочем, тоже обладающий общей тональностью и стилистикой. По крайней мере, можно говорить о существовании двух типов комментаторов на канале. Они сегментированы и слабо взаимодействуют друг с другом, одних много, а других мало.
Следующий сегмент расположен в серой зоне на юго-востоке:
Рассмотрены ролики: 36, 436, 472, 511. Все ролики связаны с конкурсами от одного из производителей игрушек.
Ролик 511:
Ролик 436:
Ролик 36:
Ролик 472:
Из содержания скриншотов можно сделать вывод, что это сегментированная аудитория комментаторов, и она главным образом ориентирована на участие в конкурсе. Для ее идентификации мы использовали распространенное в SMM определение «призоловы».
Рассмотрим коментарии к роликам канала 2:
Нас интересует изолированный (изумрудный) регион комментаторов на северо-западе. Для анализа выбраны комментарии к шести роликам.
Ролик 4:
Ролик 21:
Ролик 90:
Ролик 100:
Ролик 113:
Ролик 180:
Тональность и стилистика комментариев однообразны. В целом к комментариям подходят выводы из предыдущего примера с паттерном «Боты» (канал 1).
Для сравнения выбран контрольный ролик 163:
Несмотря на схожую с предыдущими роликами тему (борьба с избыточным весом), тональность и стилистика комментариев гораздо разнообразнее.
Исходя из содержания скриншотов можно предположить, что основная цель сегментированной группы комментариев — продвижение роликов на определенную тему (борьба с избыточным весом).
Рассмотрим канал 3, ролик которого атакован спам-ботами:
Ролик 542:
Комментарии однообразны и преследуют одну цель — рекламу веб-сайтов.
Естественно, далеко не все сегментированные группы комментариев являются результатом атаки ботов. В качестве примера рассмотрим комментарии к ролику канала 4:
Из содержания скриншота и описания к ролику ясно, что мы имеем дело с уникальными англоязычными комментаторами на русскоязычном канале, так как данный ролик представляет собой оригинальный контент, рассчитанный на англоязычную аудиторию.
В целом анализ внешних регионов визуализации комментариев показал, что им соответствуют изолированные аудитории, заметно отличающиеся от основной части комментаторов ютуб-каналов. Естественно, в каждом выделенном случае необходимо детальное исследование содержания комментариев. Тем не менее, тот факт, что работая с большими данными, мы практически сразу можем выделить регионы, потенциально населенные ботами и другими искусственными группами комментаторов, предоставляет возможность использования этого подхода в ранжировании и оценке ютуб-каналов.
В этот раз мы поговорим о комментариях, которые отличаются от большинства других комментариев и представлены в виде отдельных регионов. Обычно они ассоциируются с поведением ботов, но это может быть и другое автономное сообщество комментаторов. Что они из себя представляют и как их находить на ютубе? Давайте выясним.
Об исследовательской гипотезе: внешние и внутренние комментарии
Если вкратце воспроизвести нашу исследовательскую гипотезу, то взаимодействие комментаторов проявляется в устойчивых и воспроизводимых формах. Мы называем их паттернами.
Различие и многообразие паттернов проще всего продемонстрировать на пространственно-геометрическом расположении комментариев относительно друг друга. Для этого воспользуемся визуализацией комментариев к этому каналу:
На визуализации отчетливо выделяются по крайней мере две категории паттернов — внутренние и внешние.
Внутренние паттерны относятся к комментариям, которые связаны с большинством других комментариев. Наличие внутренних паттернов говорит о формировании постоянной аудитории комментаторов. Подробнее о типах внутренних паттернов мы поговорим в следующий раз, так как эта тема требует детального исследования. А сейчас обратимся к исследованию внешних паттернов.
Внешние комментарии слабо связаны с большинством других комментариев. В то же время некоторые внешние паттерны могут демонстрировать сильное взаимодействие локализованной группы комментариев (кластеризацию), но оно проявляется только к определенной малой общности, а с большинством комментариев эта группа связана слабо. Поэтому мы вводим дополнительные понятия внешних паттернов со слабыми и сильными связями.
В качественном исследовании внешние комментаторы представлены аудиторией, которая демонстрирует узкую специализацию действий. Эти действия принято ассоциировать с поведением ботов и других представителей «искусственной аудитории» (призоловов и так далее). Их отличие от «естественных» комментаторов — в направленных на определенную цель коллективных действиях.
А теперь рассмотрим некоторые типы внешних комментариев на примере комментаторов ютуб-каналов.
Паттерны «Боты» и «Призоловы»
Для исследования внешних комментаторов и свойственных им паттернов взаимодействия, тип которых мы определили как «Боты» и «Призоловы», мы рассмотрим комментарии канала 1.
В северной части визуализации заметен красный «хвост» комментариев.
Для анализа взяты комментарии роликов 201, 349, 375, 424, 433, 464.
В основном это однотипные комментарии к роликам про товары одного из производителей игрушек.
Ролик 201:
Скриншот
Ролик 349:
Скриншот
Ролик 375:
Скриншот
Ролик 424:
Скриншот
Ролик 433:
Скриншот
Ролик 464:
Скриншот
В первом приближении такой тип комментирования очень похож на поведение ботов: однотипные высказывания в позитивной тональности, однотипное построение предложений с незначительной перестановкой их частей. Впрочем, если допустить, что комментаторы — это взрослые люди, которые ностальгируют по игрушкам из девяностых и пишут в похожем стиле, то оценка комментариев может измениться, то есть для окончательной оценки нужно провести полноценный количественный и качественный контент-анализ.
Для сравнения тональности комментариев были взяты комментарии к ролику 377 из центра облака внутренних комментариев:
Скриншот
Тональность и стилистика комментариев заметно отличается от представленных выше. Тип комментаторов совершенно другой, впрочем, тоже обладающий общей тональностью и стилистикой. По крайней мере, можно говорить о существовании двух типов комментаторов на канале. Они сегментированы и слабо взаимодействуют друг с другом, одних много, а других мало.
Следующий сегмент расположен в серой зоне на юго-востоке:
Рассмотрены ролики: 36, 436, 472, 511. Все ролики связаны с конкурсами от одного из производителей игрушек.
Ролик 511:
Скриншот
Ролик 436:
Скриншот
Ролик 36:
Скриншот
Ролик 472:
Скриншот
Из содержания скриншотов можно сделать вывод, что это сегментированная аудитория комментаторов, и она главным образом ориентирована на участие в конкурсе. Для ее идентификации мы использовали распространенное в SMM определение «призоловы».
Рассмотрим коментарии к роликам канала 2:
Нас интересует изолированный (изумрудный) регион комментаторов на северо-западе. Для анализа выбраны комментарии к шести роликам.
Ролик 4:
Скриншот
Ролик 21:
Скриншот
Ролик 90:
Скриншот
Ролик 100:
Скриншот
Ролик 113:
Скриншот
Ролик 180:
Скриншот
Тональность и стилистика комментариев однообразны. В целом к комментариям подходят выводы из предыдущего примера с паттерном «Боты» (канал 1).
Для сравнения выбран контрольный ролик 163:
Скриншот
Несмотря на схожую с предыдущими роликами тему (борьба с избыточным весом), тональность и стилистика комментариев гораздо разнообразнее.
Исходя из содержания скриншотов можно предположить, что основная цель сегментированной группы комментариев — продвижение роликов на определенную тему (борьба с избыточным весом).
Рассмотрим канал 3, ролик которого атакован спам-ботами:
Ролик 542:
Скриншот
Комментарии однообразны и преследуют одну цель — рекламу веб-сайтов.
Паттерн «Иностранцы»
Естественно, далеко не все сегментированные группы комментариев являются результатом атаки ботов. В качестве примера рассмотрим комментарии к ролику канала 4:
Скриншот
Из содержания скриншота и описания к ролику ясно, что мы имеем дело с уникальными англоязычными комментаторами на русскоязычном канале, так как данный ролик представляет собой оригинальный контент, рассчитанный на англоязычную аудиторию.
Суммируем данные
В целом анализ внешних регионов визуализации комментариев показал, что им соответствуют изолированные аудитории, заметно отличающиеся от основной части комментаторов ютуб-каналов. Естественно, в каждом выделенном случае необходимо детальное исследование содержания комментариев. Тем не менее, тот факт, что работая с большими данными, мы практически сразу можем выделить регионы, потенциально населенные ботами и другими искусственными группами комментаторов, предоставляет возможность использования этого подхода в ранжировании и оценке ютуб-каналов.
rekzi
Что означают цвет вершин и сами вершины? Длина ребер в чем измеряется? Что за данные то использовали (тональность, ссылки, длина, дата...)? Что за алгоритм по отрисовке графа? Почему пучками скопления, а не окружностями? Есть гарантии, что в гуще не потеряются группы? Как исключить случайность? Я не понял как находить ботов по вашей статье.
visualcomments Автор
Добавил в шапку поста ссылку на предыдущие посты, где есть общая информация об алгоритме, параметрах, отвечающих за цвет вершин и так далее. Вот ссылка на статью от разработчиков.
Если суммировать, то длина ребер зависит от связей вершины с другими вершинами. Чем меньше связей, тем больше длина. Соответственно, комментарии условных «ботов», которые прицельно комментируют только конкретные ролики, можно увидеть по их удаленности от условного центра (облака комментариев) и высокой связности друг с другом (кластеризации).
То есть визуализация комментариев — это навигационная система, которая указывает, где есть большая вероятность найти ботов. К сожалению, всё это пока неточно и сводится к эмпирико-описательной работе. Но мы работаем над этим.
Что касается данных, то мы используем открытые данные о комментариях на ютуб-каналах, добытые с помощью скрепера. Плюс проводим качественный контент-анализ содержания комментариев (пока делаем вручную).