Всем привет! Это небольшой пост (с большим количеством картинок) о визуализации и анализе комментариев на ютубе. Предыдущие посты: 1, 2.

В этот раз мы поговорим о комментариях, которые отличаются от большинства других комментариев и представлены в виде отдельных регионов. Обычно они ассоциируются с поведением ботов, но это может быть и другое автономное сообщество комментаторов. Что они из себя представляют и как их находить на ютубе? Давайте выясним.

Об исследовательской гипотезе: внешние и внутренние комментарии


Если вкратце воспроизвести нашу исследовательскую гипотезу, то взаимодействие комментаторов проявляется в устойчивых и воспроизводимых формах. Мы называем их паттернами.

Различие и многообразие паттернов проще всего продемонстрировать на пространственно-геометрическом расположении комментариев относительно друг друга. Для этого воспользуемся визуализацией комментариев к этому каналу:



На визуализации отчетливо выделяются по крайней мере две категории паттернов — внутренние и внешние.

Внутренние паттерны относятся к комментариям, которые связаны с большинством других комментариев. Наличие внутренних паттернов говорит о формировании постоянной аудитории комментаторов. Подробнее о типах внутренних паттернов мы поговорим в следующий раз, так как эта тема требует детального исследования. А сейчас обратимся к исследованию внешних паттернов.

Внешние комментарии слабо связаны с большинством других комментариев. В то же время некоторые внешние паттерны могут демонстрировать сильное взаимодействие локализованной группы комментариев (кластеризацию), но оно проявляется только к определенной малой общности, а с большинством комментариев эта группа связана слабо. Поэтому мы вводим дополнительные понятия внешних паттернов со слабыми и сильными связями.

В качественном исследовании внешние комментаторы представлены аудиторией, которая демонстрирует узкую специализацию действий. Эти действия принято ассоциировать с поведением ботов и других представителей «искусственной аудитории» (призоловов и так далее). Их отличие от «естественных» комментаторов — в направленных на определенную цель коллективных действиях.

А теперь рассмотрим некоторые типы внешних комментариев на примере комментаторов ютуб-каналов.

Паттерны «Боты» и «Призоловы»


Для исследования внешних комментаторов и свойственных им паттернов взаимодействия, тип которых мы определили как «Боты» и «Призоловы», мы рассмотрим комментарии канала 1.



В северной части визуализации заметен красный «хвост» комментариев.



Для анализа взяты комментарии роликов 201, 349, 375, 424, 433, 464.



В основном это однотипные комментарии к роликам про товары одного из производителей игрушек.

Ролик 201:

Скриншот


Ролик 349:

Скриншот


Ролик 375:

Скриншот


Ролик 424:

Скриншот


Ролик 433:

Скриншот


Ролик 464:

Скриншот


В первом приближении такой тип комментирования очень похож на поведение ботов: однотипные высказывания в позитивной тональности, однотипное построение предложений с незначительной перестановкой их частей. Впрочем, если допустить, что комментаторы — это взрослые люди, которые ностальгируют по игрушкам из девяностых и пишут в похожем стиле, то оценка комментариев может измениться, то есть для окончательной оценки нужно провести полноценный количественный и качественный контент-анализ.

Для сравнения тональности комментариев были взяты комментарии к ролику 377 из центра облака внутренних комментариев:



Скриншот


Тональность и стилистика комментариев заметно отличается от представленных выше. Тип комментаторов совершенно другой, впрочем, тоже обладающий общей тональностью и стилистикой. По крайней мере, можно говорить о существовании двух типов комментаторов на канале. Они сегментированы и слабо взаимодействуют друг с другом, одних много, а других мало.

Следующий сегмент расположен в серой зоне на юго-востоке:


Рассмотрены ролики: 36, 436, 472, 511. Все ролики связаны с конкурсами от одного из производителей игрушек.



Ролик 511:

Скриншот



Ролик 436:

Скриншот


Ролик 36:

Скриншот


Ролик 472:

Скриншот


Из содержания скриншотов можно сделать вывод, что это сегментированная аудитория комментаторов, и она главным образом ориентирована на участие в конкурсе. Для ее идентификации мы использовали распространенное в SMM определение «призоловы».

Рассмотрим коментарии к роликам канала 2:



Нас интересует изолированный (изумрудный) регион комментаторов на северо-западе. Для анализа выбраны комментарии к шести роликам.


Ролик 4:

Скриншот


Ролик 21:

Скриншот


Ролик 90:

Скриншот


Ролик 100:

Скриншот


Ролик 113:

Скриншот


Ролик 180:

Скриншот


Тональность и стилистика комментариев однообразны. В целом к комментариям подходят выводы из предыдущего примера с паттерном «Боты» (канал 1).

Для сравнения выбран контрольный ролик 163:



Скриншот


Несмотря на схожую с предыдущими роликами тему (борьба с избыточным весом), тональность и стилистика комментариев гораздо разнообразнее.

Исходя из содержания скриншотов можно предположить, что основная цель сегментированной группы комментариев — продвижение роликов на определенную тему (борьба с избыточным весом).

Рассмотрим канал 3, ролик которого атакован спам-ботами:



Ролик 542:

Скриншот


Комментарии однообразны и преследуют одну цель — рекламу веб-сайтов.

Паттерн «Иностранцы»


Естественно, далеко не все сегментированные группы комментариев являются результатом атаки ботов. В качестве примера рассмотрим комментарии к ролику канала 4:


Скриншот


Из содержания скриншота и описания к ролику ясно, что мы имеем дело с уникальными англоязычными комментаторами на русскоязычном канале, так как данный ролик представляет собой оригинальный контент, рассчитанный на англоязычную аудиторию.

Суммируем данные


В целом анализ внешних регионов визуализации комментариев показал, что им соответствуют изолированные аудитории, заметно отличающиеся от основной части комментаторов ютуб-каналов. Естественно, в каждом выделенном случае необходимо детальное исследование содержания комментариев. Тем не менее, тот факт, что работая с большими данными, мы практически сразу можем выделить регионы, потенциально населенные ботами и другими искусственными группами комментаторов, предоставляет возможность использования этого подхода в ранжировании и оценке ютуб-каналов.

Комментарии (2)


  1. rekzi
    30.08.2018 07:02

    Что означают цвет вершин и сами вершины? Длина ребер в чем измеряется? Что за данные то использовали (тональность, ссылки, длина, дата...)? Что за алгоритм по отрисовке графа? Почему пучками скопления, а не окружностями? Есть гарантии, что в гуще не потеряются группы? Как исключить случайность? Я не понял как находить ботов по вашей статье.


    1. visualcomments Автор
      30.08.2018 07:41

      Добавил в шапку поста ссылку на предыдущие посты, где есть общая информация об алгоритме, параметрах, отвечающих за цвет вершин и так далее. Вот ссылка на статью от разработчиков.
      Если суммировать, то длина ребер зависит от связей вершины с другими вершинами. Чем меньше связей, тем больше длина. Соответственно, комментарии условных «ботов», которые прицельно комментируют только конкретные ролики, можно увидеть по их удаленности от условного центра (облака комментариев) и высокой связности друг с другом (кластеризации).
      То есть визуализация комментариев — это навигационная система, которая указывает, где есть большая вероятность найти ботов. К сожалению, всё это пока неточно и сводится к эмпирико-описательной работе. Но мы работаем над этим.
      Что касается данных, то мы используем открытые данные о комментариях на ютуб-каналах, добытые с помощью скрепера. Плюс проводим качественный контент-анализ содержания комментариев (пока делаем вручную).