Исследователи применяли анализ тональности для совершенно разных русскоязычных текстов: постов из соцсетей, отзывов, новостных статей и книг. Как следствие, результаты их исследований тоже были совершенно разными и крайне интересными. Например, кто бы мог подумать, что тексты с положительной тональностью делают обучение иностранному языку более интересным, но менее эффективным? В этой серии статей мы рассмотрим, как и для каких целей применялись подходы анализа тональности для русскоязычных текстов, каких результатов удалось достичь, какие проблемы возникали, а также немного поговорим о перспективных направлениях.
В отличие от предыдущих работ я сосредоточился на прикладном применении, а не на самих подходах и их качестве классификации. В первой статье мы обсудили, что такое «анализ тональности», какой он бывает и как его за последние 8 лет применяли для анализа русскоязычных текстов. В этой части мы детально рассмотрим каждое из 32 основных исследований, которые мне удалось найти. В третьей и заключительной части (будет на следующей неделе) поговорим об общих сложностях, с которыми сталкивались исследователи, а также о перспективных направлениях на будущее.
NB: Статья писалась для научного журнала, поэтому будет много ссылок на источники.
Во многих исследованиях использовались данные из российских соцсетей и агрегирующих платформ. Ниже приведено краткое описание самых популярных российских и зарубежных ресурсов и статистика их использования.
- ВКонтакте доступна более чем на 90 языках, но преимущественно используется русскоговорящими. Согласно отчёту Deloitte [98], это самый популярный российский сайт, которым пользуется до 70 % населения страны. ВКонтакте активно использует молодёжь в возрасте 16—24 года, а среди более старшей аудитории значимость ВКонтакте снижается.
- YouTube занимает второе место по популярности в России, им пользуется до 62 % населения. Его активно использует молодёжь в возрасте 16—24 года, а доли более старших возрастных групп варьируются в диапазоне 58—64 %.
- Twitter входит в десятку самых популярных в России сайтов [98], его использует до 5 % населения. Распределение возрастных групп пользователей в диапазоне 25—65 лет почти равномерное, пик приходится на группу 55—64 года.
- LiveJournal тоже входит в десятку самых популярных в России сайтов, его использует до 3 % населения. Он больше востребован среди пользователей в возрасте 35—44 года, а также у более старших поколений.
- Medialogia — российская компания, разрабатывающая автоматизированные системы для мониторинга и анализа в реальном времени СМИ и соцсетей. В сутки она автоматически обрабатывает 500 тыс. сообщений в СМИ и 100 млн сообщений в соцсетях. Система собирает данные из 52 000 источников в СМИ и из 900 млн аккаунтов в соцсетях.
- IQBuzz — сервис мониторинга, обрабатывающий информацию из более чем 10 000 источников в СМИ, из Facebook, Twitter, ВКонтакта, Моего Мира, Instagram, 4sq, LiveJournal, LiveInternet, Google, YouTube, RuTube и прочих. Система умеет автоматически определять позитивные и негативные сообщения, дедуплицировать и выполнять сложный поиск по накопленной базе данных.
Ниже я опишу найденные исследования, полученные в них результаты и сделанные авторами выводы, которые могут не совпадать с моей позицией.
1. UGC в соцсетях
Многие соцсети превратились в современные инструменты социального вовлечения [53]. Генерируемые пользователями данные являются важным и доступным источником общественного мнения, или хотя бы его отражением, поэтому он может дополнять или подменять собой опросы общественного мнения [54]. Генерируемые пользователями данные были исследованы по трём критериям:
- Отношение к разным темам.
- Индексы социального настроения.
- Особенности пользовательского взаимодействия с данными, выражающими разные настроения.
1.1. Отношение к разным темам
Самыми частыми темами в исследовании русскоязычных текстов стали проблемы межэтнических отношений и миграции, а также Украинский кризис. Значительное внимание было уделено и анализу социальной напряжённости, а также другим темам.
1.1.1 Этнические группы и мигранты
Проблемы межэтнических отношений и миграции, а также связанные с ними темы, были глубоко исследованы с помощью хорошо проработанных социологических методов. Тем не менее, быстрое развитие интернета и обработки естественного языка позволило провести исследования по относительно новому подходу. Соцсети позволяют открыто участвовать в конфликте как отдельным людям, так и группам. В интернете суждения о проблемах миграции и этнических групп могут распространяться гораздо быстрее и охватывать гораздо более широкую аудиторию, чем до эпохи интернета [54]. Более академические исследования доказали, что негативное онлайн-содержимое влияет на офлайновые межэтнические конфликты [99] и преступления на почве ненависти [100]. Таким образом, по мере развития интернет-технологий растёт важность анализа проблем межэтнических отношений и миграции на основе онлайн-содержимого.
Исследование, проведённое Бодруновой и коллегами, было посвящено отношению русскоязычного онлайн-сообщества к мигрантам в публичном дискурсе [81]. Авторы собрали 363 579 постов ведущих российских блогеров в период с 4 февраля по 19 мая 2013 года. Применив стратегию, описанную в [59], [101], исследователи с помощью латентного размещения Дирихле (Latent Dirichlet Allocation [102]) выявили релевантные дискуссии. Затем вручную разметили некоторые обсуждения и классы тональности. Далее обучили модель биноминальной логистической регрессии (Binomial Logistic Regression [32]) для ряда задач классификации текста, в том числе для классификации эмоций. Согласно результатам, негативно воспринимались все мигранты, и больше всего прибывшие с Северного Кавказа по сравнению с выходцами из Центральной Азии и американцами. Позитивного отношения не выявлено ни к европейцам, ни к американцам. При этом европейцы, американцы и кавказцы воспринимались как агрессоры, а не жертвы. Выходцы из Центральной Азии описывались как чужие с негативной коннотацией. В целом, европейцы не воспринимались чужими или партнёрами, американцы воспринимались опасными, а евреи — совершенно неопасными. Авторы исследования утверждают, что постсоветское ментальное разделение населения не полностью совпадает с текущими географическими границами, из-за которых ранее близкие группы уже воспринимаются как раздельные нации со своими политическими повестками. Одним из главных недостатков этой работы является отсутствие оценки качества описания данных и спецификации метрик классификации.
Коллектив под руководством Кольцовой [82] с помощью адаптированных методов из предыдущих работ ([103], [104]) оценил общий объём относящихся к межэтническим отношениям дискуссий на сайтах русскоязычных соцсетей. Для создания первичного корпуса из 2 660 222 текстов авторы разработали сложный список этнонимов и биграмм, охватывающий 97 этнических групп на постсоветской территории. Затем с помощью ручной разметки создали обучающий набор данных из 7 181 текста, каждый из которых аннотировался тремя специалистами по нескольким критериям, включая наличие межгрупповых конфликтов, положительные межгрупповые контакты и общую негативную или позитивную тональность. Для классификации эмоций авторы обучили на размеченном наборе данных модель логистической регрессии [32] и добились F1=0,75 для позитивной тональности и F1=0,68 для негативной. Авторы выяснили, что внимание к этническим группам сильно варьируется между разными группами и регионами. На основе этого исследования коллектив под руководством Кольцовой улучшил качество полученных результатов и увеличил количество предрассудков, которые можно найти в следующей работе [83]. Для начала авторы увеличили набор данных для ручной обработки с 7 181 до 14 998 уникальных текстов. Затем тексты были размечены как минимум тремя независимыми специалистами. Далее авторы научили модель логистической регрессии делить тексты на три категории (позитивное, нейтральное и негативное отношение) с помощью лучших гиперпараметров, взятых из предыдущего исследования. Это помогло значительно улучшить метрики классификации. Средние значения для настроений составили: P=0,67, R=0,55 и F1=0,58.
Нагорный в своей работе [84] исследовал тему структуры этнических дискуссий в русскоязычных соцсетях. На основе списка из более чем 4000 слов, относящихся к этническим дискуссиям, автор собрал из ВКонтакта и IQBuzz 2 659 849 текстов за период с января 2014-го по декабрь 2016-го. Далее автор воспользовался ISLDA [26] — модификацией алгоритма LDA, разработанной в Лаборатории интернет-исследований ВШЭ. Для вычисления класса тональности Нагорный применил SentiStrength [22] с русскоязычным словарём эмоций LINIS Crowd [26]. Для каждой темы был вычислен индекс полярности как сумма произведений вероятности этой темы в тексте на значение соответствующей эмоции, делённое на общую значимость темы. Проанализировав тематический профиль этнических дискуссий, полученный с помощью LDA, Нагорный выявил наиболее негативные и важные темы. Выяснилось, что основная часть дискуссий относилась к русско-украинским отношениям в связи с недавним конфликтом между странами. В результате трудно было отделить межэтнические темы от политических, поскольку конфликт повлиял на полярность дискуссий в интернете. Наиболее негативные обсуждения связаны с узбекской национальностью и турецко-армянскими отношениями в контексте геноцида армян. Однако у этого исследования есть недостатки. Во-первых, непонятно, как именно собирались данные. Хотя IQBuzz заявляет, что отслеживает все упоминания в интернете, проверить это без полного доступа к сообщениям ВКонтакте невозможно. Во-вторых, метрики классификации не измерялись на больших наборах текстов, поэтому трудно проверить качество классифицированных эмоций.
Исследователи Бородкина и Сибирев из Санкт-Петербургского университета изучили дискуссии в русскоязычном Twitter, относящиеся к проблемам международной миграции, а также к различным проблемам, связанным с миграцией [55]. Авторы использовали 13 200 сообщений, опубликованных с ноября 2017-го по февраль 2018-го. Эти данные были собраны по теме «миграция» и связанным ключевым словам. Затем авторы с помощью коэффициента Охаи измерили сходство тэгов и по принципу Парето убрали из графа сети незначительные, слабые связи. Для анализа тональности обучили классификатор на основе модели опорных векторов [33]. А для определения связей между характеристиками (например, эмоциями, особенностями содержимого) использовались соответствующие методы анализа. Выяснилось, что среди русских, живущих в разных странах, весьма схожее отношение к мигрантам. Значительная доля пользователей выражает негативное отношение к мигрантам других национальностей. Основные обсуждаемые темы: риски для культуры и безопасности, связанные с терроризмом и нелегальной миграцией, права человека в целом, нарушение прав иммигрантов в России в социальной и экономической сферах. У этого исследования есть несколько небольших недостатков. Подход к анализу тональности описан кратко, без подробностей стадии предварительной обработки, гиперпараметров модели и финального качества классификации с помощью обученной модели. Кроме того, базовый API Twitter предоставляет лишь частичный доступ ко всем сообщениям, так что репрезентативность проанализированных данных под вопросом.
Таким образом, в контексте исследования проблем миграции и межэтнических отношений исследователи по большей части изучали сгенерированные пользователями данные из социальных сетей, применяя комбинации методов тематического моделирования и анализа тональности. Концепция этнической принадлежности хорошо исследована в академической литературе, но с точки зрения вычислительной лингвистики определение национальности в пользовательских текстах сводится к задаче определения этнических маркеров, использованных авторами этих текстов [54]. Поэтому для выявления релевантных текстов исследователи часто создают списки маркеров этнического статуса и ищут тексты, содержащие такие маркеры. Однако извлечение репрезентативных данных — задача трудная, потому что не все платформы дают полный доступ ко всей своей информации. Затем обычно анализируются настроения на уровне документов или аспектов. Поскольку негативные выражения могут содержать личную информацию, а также оскорбительные или разжигающие ненависть высказывания, такие данные могут подвергаться цензуре в соответствии с правилами соцсетей и требованиями законодательства. В Уголовном кодексе Российской Федерации есть нормативная база, регулирующая публичные призывы к радикальным действиям, что должно повлиять на объем сильных негативных высказываний как в онлайновых, так и в оффлайновых дискуссиях. Все эти особенности нужно явно описать в разделе, посвящённому ограничениям.
1.1.2. Украинский кризис
Отношения между Россией и Украиной стали напряжёнными после революции в 2014-м, последующего входа Крыма в состав РФ и вооружённого конфликта на территории Донецкой и Луганской областей. Поскольку многие соцсети превратились в современные инструменты социального вовлечения [53], был проведён ряд исследований в сфере вычислительной лингвистики, авторы которых попытались изучить возможность использования онлайнового дискурса для анализа высказанных мнений и характеристик участников дискурса. Согласно проведённой в 2001-м переписи населения Украины, 67,5 % её жителей считают родным языком украинский, а 29,6 % — русский. Поэтому в дополнение к украинскому или вместо него исследователи обычно анализировали русскоязычные тексты.
Группа исследователей под руководством Дувановой изучила влияние Украинского вооружённого конфликта на онлайновые социальные связи между всеми украинскими областями [85]. В качестве источника авторы использовали ВКонтакте, так как это самая популярная соцсеть в Украине. Сначала на основе ключевых слов они определили список релевантных сообществ — 14 777. Затем на основе этого списка было собрано 19 430 445 публикаций и 62 193 711 комментариев с помощью ПО для мониторинга соцсетей, представленного в работе Семёнова и Вейялайнен [105], а также Семёнова и соавторов [106]. Для классификации текстов на позитивные и негативные авторы применили подход на основе правил со словарём из 8863 позитивных и 24 299 негативных слов на русском и украинском языке. Выяснилось, что дискуссии в Украине стали более поляризованы в связи с военными действиями, например, в восточных областях страны выросло количество негативных и позитивных высказываний. Однако в других частях Украины военные действия не оказали заметного эффекта на интенсивность выражения эмоций. Таким образом, военные действия вызвали сильную эмоциональную реакцию в стране, но во внутренних коммуникациях между регионами не было отмечено неизбежного увеличения социальной сплоченности. Однако авторы не сообщили подробностей о предварительной обработке и обучении модели, а также о метриках классификации.
В работе коллектива под руководством Волковой [86] изучались выражения во ВКонтакте общественного мнения в ходе российско-украинского кризиса. На основе списка ключевых слов авторы собрали из ВКонтакта набор из 5 970 247 публикаций, появившихся в период с сентября 2014-го по март 2015-го. Для целенаправленного прогнозирования мнений исследователи применили систему классификации POLYARNIK [107] на основе морфологических и синтаксических правил, эмоциональной лексики и моделей обучения с учителем [108]. Для классификации эмоций авторы собрали набор независимых дискуссий в Twitter, связанных с кризисом. С помощью подходов, описанных в работах [109] и [110], авторы реализовали автоматическую разметку текстов по шести базовым эмоциям Экмана [111]. Затем они вручную перепроверили автоматическое аннотирование с помощью носителей русского и украинского языка. В результате получился набор из 5717 Twitter-сообщений с выражением злости, удовольствия, страха, печали, отвращения и удивления, а также 3947 сообщений, не выражающих эмоций. Финальная классификация эмоций, выраженных в текстах, осуществлялась в два этапа. Сначала тексты классифицировали как эмоциональные и безэмоциональные. Затем с помощью модели логистической регрессии [32] эмоциональные тексты разделялись по шести классам на основе стилистики, лексики и бинарных униграмм. Взвешенная F1-мера модели эмоциональной классификации достигла 58 %. Согласно полученным результатам, доля позитивных мнений в отношении Евромайдана была в Украине выше, чем в России. Для сравнения, доля позитивных высказываний в отношении Путина и Крыма была выше в России, чем в Украине. Кроме того, некоторые результаты противоречат распространённым заблуждениям, тиражируемым в СМИ. Например, в России были публикации, авторы которых положительно высказывались в пользу США и против Путина, а в Украине были публикации, выражавшие поддержку Путину, а не Евромайдану. Основным недостатком исследования является то, что авторы применили POLYARNIK для анализа тональности без оценки качества классификации текстов по выбранной теме. Более того, авторы применили обученную на Twitter-сообщениях модель для распознавания эмоций в сообщениях из ВКонтакта, у которых иные лингвистические характеристики, как минимум, средняя длина текста. Также возникает много вопросов к качеству аннотирования единственным асессором, поскольку невозможно измерить метрики межэкспертного соглашения.
Взяв за основу российско-украинский конфликт 2014-го, Румшиский и соавторы проанализировали динамику отражения политического конфликта в соцсетях [87]. В отличие от исследования Волковой [86], при создании корпуса текстов для анализа исследователи не полагались на зашумлённые данные о местоположении авторов. Вместо этого они ориентировались на самоидентификацию пользовательских групп, связанных с кризисом. Проанализировав данные ВКонтакте, исследователи вручную выбрали 51 антимайданную группу с 1 942 918 уникальными пользователями, и 47 промайданных групп с 2 445 661 пользователем. Затем выделили все публикации на стенах этих групп, добавили публикации со стен активных пользователей и тех, кто поставил этим публикациям лайки. В коллекцию добавлялись только те публикации, в которых встречалось хотя бы одно ключевое слово из заранее определённого списка. Для прогнозирования тональности русскоязычных текстов исследователи применяли улучшенную версию библиотеки SentiMental, представляющую собой систему анализа тональности на основе словаря. Результаты исследования подтвердили, что рост интенсивности конфликта сопровождается негативными высказываниями. В ходе анализа исследовалась связь между доминирующей тональностью и мерой случайного блуждания дискуссии (random walk controversy measure). По мере роста количества диспутов одновременно растёт стандартное отклонение общей тональности, выражаемой противоположными группами, а также мера случайного блуждания дискуссии. Главный недостаток исследования заключается в том, что его авторы не предоставили никаких подробностей о предварительной обработке и обучении.
Заезьев предложил изучать процесс политической мобилизации с помощью анализа содержимого соцсетей [88]. За основу была взята Украинская революция 2013-2014 годов. Автор сосредоточился на первом этапе протестов, с 21 февраля 2013 по 22 февраля 2014. Он проанализировал публикации в самых популярных соцсетях Украины: ВКонтакте и Facebook. Заезьев определил набор релевантных ключевых слов на основе общих рекомендаций Годбоула [112], а затем с помощью IQBuzz собрал больше 124 000 сообщений. Применив алгоритмы распознавания тональности IQBuzz, исследователь классифицировал тексты по категориям: негативные, нейтральные, позитивные и смешанные. Предположив, что сторонники Евромайдана будут выражать позитивное отношение к этому событию, авторы убрали из коллекции все непозитивные сообщения. Затем отфильтровали коллекцию по заранее определённому списку ключевых слов, оставив 4255 сообщений. Анализ этих данных выявил, что в самую первую ночь протестов социальные сети использовались преимущественно как инструмент политической мобилизации, а позднее — как инструмент медийного освещения. Главный недостаток исследования в том, что в нём не описаны метрики классификации тональности, поэтому трудно проверить точность результатов.
Исследователь Токарев из Московского государственного института международных отношений изучил дискурс в среде основных украинских блогеров относительно территории и населения Донбасса в период с 2009 по 2018 годы [56]. Автор проанализировал семантику, частоту и эмоциональность обсуждений в украинском сегменте Facebook. Исследование состояло из нескольких этапов. Сначала были определены лидеры мнений и скачаны их публикации с 1 января 2009 по 15 февраля 2018. Затем на основе заранее определённых ключевых слов из дискурса авторы определили публикации, посвящённые Донбассу. На следующем этапе был создан словарь эмоций, который в дальнейшем применялся для дифференцирования дискуссий по степени их эмоциональности. С помощью добровольцев был собран словарь из 566 слов-маркеров для территории и населения. Каждое слово было представлено на русском и украинском. Затем команда из 69 асессоров аннотировала словарь по пяти классам: позитивные, нейтрально-позитивные, нейтральные, нейтрально-негативные и негативные. Наконец, была оценена степень выражения эмоций и динамика дискуссий. Был проанализирован корпус из 1 069 687 публикаций 376 основных блогеров на семи языках. Выяснилось, что начало дискуссий по поводу территории и населения Донбасса началось на рубеже 2013-2014 годов. До этого частота упоминания этой области была почти нулевой. Выражалось значительное негативное отношение к населению, а негативное обсуждение территории практически отсутствовало. Превалировала нейтральная тональность. Количество позитивных и негативных обсуждений территории было гораздо меньше по сравнению с обсуждениями населения. Это позволяет сделать вывод о высокой степени неопределённости среди основных блогеров в отношении территории, а также о низкой вероятности перехода дискурса из нейтральной в позитивную тональность. Недостатки у этого исследования такие же, как у работы Заезьева [88], отсутствует описание метрик классификации.
Таким образом, в ходе исследования Украинского кризиса исследователи использовали информацию не только о тональности, но и о местопребывании авторов публикаций, чтобы изучить территориальную привязку пользователей. Для определения релевантных текстов собирался список слов-маркеров, относящихся к конфликту, и искались тексты, содержащие эти маркеры. При анализе этнических групп или проблем, связанных с миграцией возникают сложности в извлечении репрезентативных данных и исчерпывающем описании сопутствующих ограничений.
1.1.3. Социальная напряжённость
Процессы, наблюдаемые в современном российском обществе, формируют потребность в помещении социальных конфликтов в конкретные рамки [113]. Учитывая широкое распространение социальных сетей, несущих выгоду и риски для гражданского общества [114], анализу онлайн-содержимого следует уделять должное и надлежащее внимание, в том числе для выявления социальной напряженности. Можно измерять социальную онлайн-напряжённость с помощью индексов и метрик, а затем использовать эту информацию для отслеживания всплесков напряжённости, что представляет собой некую форму «опережающего управления» (anticipatory governance) [115].
Коллектив под руководством Донченко проанализировал комментарии ВКонтакте по социально-острым темам за период с января по июнь 2017 [89]. Исследователи составили список популярных тем, связанных с проблемами социальной напряжённости, и по нему собрали через API ВКонтакта релевантные пользовательские публикации. Затем тексты предварительно обработали: выделили основу слов (стемминг), убрали пунктуацию, заменили стандартные аббревиатуры и сленговые слова на соответствующие нормальные слова. Для категоризации по темам авторы обучили модель опорных векторов (SVM) [33] с векторизацией TF-IDF [116]. Остросоциальные темы: безработица, коррупция и рост цен на потребительские товары. Также с помощью SVM-модели классифицировали полярность тональности. Выяснилось, что протестные настроения обычно концентрируются в центрах густонаселённых регионов. Один из главных недостатков работы заключается в отсутствии оценки качества аннотирования данных и отсутствии спецификации метрик классификации тональности. Кольцова и Нагорный выяснили, какие темы относят к социальным проблемам, проанализировав комментарии читателей региональных российских СМИ [57]. Авторы собрали набор из 33 887 новостей и 258 107 комментариев с сайтов омских СМИ (Город55, БК55, НГС Омск и Омск-Информ) за период с сентября 2013 по сентябрь 2014. Чтобы определить темы, к которым относятся новостные тексты, авторы воспользовались Gensim-реализацией [117] алгоритма латентного размещения Дирихле [102] с метрикой, разработанной авторами Arun, Suresh, Madhavan и Murthy [118]. Для классификации тональности комментариев авторы использовали SentiStrength [22] с лексикой PolSentiLex. Кольцова и Нагорный обнаружили, что такие темы, как развлечения, культура, спорт и праздники чаще всего вызывают позитивные эмоции, а большинство негативных эмоций связаны с преступностью и катастрофами. Исследователи вычислили индекс важности и полярности каждой темы. Фундаментальной проблемой использования SentiStrength в этом исследовании является то, что авторы не описали метрики классификации данных по выбранной теме, поэтому трудно проверить точность результатов.
Таким образом, для идентификации остросоциальных тем авторы применяли два подхода. В первом случае данные фильтруются на основе списка ключевых слов, а во втором применяется неконтролируемая кластеризация всех данных с последующим определением остросоциальных тем. При использовании данных из соцсетей авторы столкнулись с теми же трудностями извлечения репрезентативных данных. Однако это не актуально при анализе данных с новостных сайтов, потому что на них обычно нет ограничений по доступу к опубликованной информации. Поскольку дискурс по остросоциальным темам может сопровождаться жёсткими высказываниями, последние могут подвергаться цензуре в соответствии с пользовательскими соглашениями и законодательством.
1.1.4. Прочие темы
Ряд исследований был посвящён темам из других сфер. Исследователь Рулёва изучала реакцию в русскоязычных пользователей Twitter и YouTube на взрыв метеора над Челябинском в феврале 2013 [58]. За последние 100 лет это было крупнейшее небесное тело, вошедшее в атмосферу Земли. Вполне ожидаемо, что это событие спровоцировало эмоциональные дискуссии в традиционных СМИ и на онлайн-платформах. Исследователь собрал по хэштегу «метеорит» 495 Twitter-сообщений, опубликованных с 15 по 20 февраля 2013, а также не указанное количество видео на YouTube. Был сделан акцент на сравнительный анализ содержимого с обеих площадок в контексте различий между первичным и вторичным разговорными жанрами [119]. Тем не менее, в текстах была также дана определенная интерпретация чувств и эмоций.
Рулёва обнаружила, что содержимое YouTube предоставляет больше полезных данных для исследования тональности по сравнению с Twitter. Автор опиралась на жанровый анализ и смесь лингвистического и семиотического анализа. То есть она анализировала сам текст и то, как он представлен. Автор полагает, что пользователи YouTube и Twitter часто принадлежат к разным социальным группам, поэтому могут иметь разные паттерны выражения эмоций. Хотя исследование в целом опосредованно связано с эмоциональными аспектами текста, Рулёва была одной из первых, кто исследовал различия между разными видами русскоязычной информации. Однако отсутствует подробное описание метода сравнения тональности и процедуры сбора данных в YouTube. Для поиска данных в Twitter применялась базовая фильтрация, при которой игнорировалась огромная часть сообщений, в которых отсутствовал хэштег «метеорит». Более того, без использования Historical API поисковый инструмент Twitter даёт лишь частичный доступ ко всем сообщениям в открытом доступе.
Кириленко и Степченкова провели сравнительное исследование русскоязычного и англоязычного дискурса в Twitter об Олимпиаде 2014 в Сочи [90]. Через API Twitter было собрано больше 400 000 сообщений за полугодовой период, охватывающий Олимпийские игры [120], а затем подвергли кластерному анализу и анализу тональности в отношении состязаний. Авторы оценивали подходы Deeply Moving [121], Pattern и SentiStrength [22] на размеченном вручную наборе из 600 англоязычных и 3000 русскоязычных Twitter-сообщений. Несмотря на усиление выражения позитивного отношения к Олимпиаде в течение игры, это улучшение было значимо только для сообщений россиян. Впрочем, авторы не предоставили метрики классификации для оцениваемых моделей, а также не описали этап предварительной обработки.
Коллектив под руководством Спайсера изучил волну массовых протестов в связи с выборами в Думу и на пост президента РФ в период 2011-2012 [91]. Исследователи проанализировали релевантные русскоязычные сообщения в Twitter с 17 марта 2011 по 12 марта 2012, собранные через Twitter Streaming API. Данные выбирались по списку ключевых слов. Было собрано 690 297 русскоязычных сообщений, относящихся к политике. Для определения сторонников и противников Путина авторы использовали комбинацию списка ключевых слов и SentiStrength [22], а затем классифицировали 1000 самых активных пользователей по среднему баллу тональности их сообщений и по принадлежности к одной из сторон. Сравнив ручные аннотации 100 пользователей с обеих сторон с автоматической классификацией, исследователи обнаружили, что около 70 % участников были классифицированы корректно. В конце авторы применили метод качественного исследования [122] и вручную закодировали ключевые извлечённые n-граммы. Один из главных выводов заключается в том, что дискурс в Twitter вначале активно поддерживался оппозицией, а позднее мобилизация оппозиции значительно снизилась и выросла поддержка Путина. Однако у этого исследования несколько недостатков. Во-первых, непонятна репрезентативность образцов данных, потому что Twitter Streaming API предоставляет только частичный доступ ко всем публикациям. Во-вторых, метрики классификации не измерялись на целевой коллекции текстов, поэтому трудно проверить качество классификации тональности.
Ненко и Петрова провели сравнительный анализ распределения эмоций в Санкт-Петербурге на основе пользовательских комментариев о городских объектах в Google Places и данных из открытой ГИС-системы Imprecity [92]. Набор данных содержал 1800 маркеров эмоций из Imprecity и 2450 комментариев с привязкой к месту из Google Places. Два ассессора разметили комментарии на шесть эмоций и обработали с помощью наивного байесовского классификатора [123]. На основе результатов анализа тональности и набора данных из Imprecity авторы создали тепловую карту негативных и позитивных эмоций в Санкт-Петербурге. Общей тенденцией является концентрация позитивных и негативных эмоций в историческом центре на юге города, на западной оконечности Васильевского острова и в центре Петроградского острова. Однако авторы не описали методику предварительной обработки и метрики классификации.
Таким образом, изучая отношение к различным событиям или местам, исследователи столкнулись с теми же трудностями при поиске репрезентативных данных и исчерпывающем описании ограничений. Кроме того, основным недостатком большинства исследований было отсутствие оценки модели анализа настроений в текстах по выбранным темам, поэтому сложно проверить качество классификации.
1.2. Индекс социальных настроений
При измерении уровня счастья и удовлетворения жизнью, например, с помощью индекса субъективного благополучия (SubjectiveWell-Being (SWB)) [124], современные психологические подходы опираются на самооценочные шкалы. У таких подходов есть недостатки. Например, ограниченное количество интервью, высокая стоимость опроса респондентов и зависимость от памяти участников затрудняет представление статуса респондентов в реальном времени [125]—[127]. В качестве альтернативы исследователи попытались измерять различные индексы социальных настроений с помощью анализа тональности информации, потому что в генерируемых пользователями данных в соцсетях выражается широкий диапазон мнений [2], [127]—[133].
В своей работе [93] Панченко вычислил индекс настроений в русскоязычном Facebook в виде среднего уровня эмоций в массиве текстов. Было проанализировано 573 000 000 анонимизированных публикаций и комментариев за период с 5 августа 2006 по 13 ноября 2013, предоставленных для исследования ООО «Дигсолаб». Авторы профильтровали весь набор русскоязычных текстов с помощью модуля langid.py [134]. Индекс социальных настроений вычислялся с помощью подхода на основе словаря [135], [136], аналогичного подходу Додда [129]. Автор разработал свой словарь эмоций из 1511 терминов, размеченный двумя специалистами на позитивные и негативные классы. Для оценки качества классификации Панченко применил словарный подход к набору данных ROMIP 2012 [15]. Автор утверждает, что на наборе рецензий на фильмы добился значения макроусреднённого F1-балла до 0,383 и точности до 0,465. Для измерения тональности автор предложил четыре индекса: индекс тональности слов (Word Sentiment Index), индекс эмоциональности слов (Word Emotion Index), индекс тональности текста (Text Sentiment Index) и индекс эмоциональности текста (Text Emotion Index). Первые два оперируют тональностью слов, а вторые два — тональностью текста. Согласно результатам анализа, позитивное содержимое превалирует над негативным. Максимальные значения индексов совпадают с государственными праздниками, а минимальные значения — с памятными днями и национальными трагедиями. В целом, пользователи выражают позитивные настроения в 3,8 раза больше негативных. В публикациях люди используют меньше эмоциональных слов, а в комментариях больше. Самое важное ограничение связано с тем, что автор проверил качество классификации на рецензиях фильмов и применил его к текстам общей тематики, поэтому трудно проверить точность результата. Кроме того, не описан внутренний процесс сбора данных компанией «Дигсолаб», и поэтому возникают вопросы о репрезентативности.
Коллектив под руководством Щекотина предложил новый метод субъективной оценки благополучия, который основан на данных ВКонтакте об активности пользователей [68]. Взяв модель индикаторов качества жизни, разработанную Гавриловой [137], авторы выбрали часть индикаторов для мониторинга в своём исследовании. Ориентируясь на географическую и социально-экономическую репрезентативность, они выбрали 43 российских региона из 85. Затем в выбранных регионах определили три крупнейших города и выбрали по 10 сообществ ВКонтакте, объединяющих жителей этих городов — городские сообщества. Затем с помощью коллекции данных из соцсетей и аналитической платформы Университетского Консорциума исследователей больших данных, разработанной в Томском Государственном Университете, авторы извлекли опубликованную этими сообществами информацию за период с 1 января по 31 декабря 2018. После этого убрали нерелевантные данные — рекламные публикации и тексты, не связанные с темой исследования (вакансии, спорт, культурные события). Отфильтровывание нерелевантных данных проводилось в два этапа: ручной анализ 60 000 сообщений и автоматическая чистка, при которой алгоритм обучался на вычищенных вручную сообщениях. После этого осталось около 1 700 000 публикаций. В ходе чистки публикации вручную аннотировались по 19 темам и трём классам тональности (позитивная, негативная и нейтральная). В ходе предварительной обработки были удалены редкие слова и символы, не относящиеся к русскому и латинскому алфавиту, а все остальные слова были сведены к своим основам (стемминг). Затем было обучено несколько алгоритмов машинного обучения. Лучшее качество классификации показал алгоритм градиентного бустинга из LightGBM [138] — до 68 % при классификации категорий и 79 % при классификации тональности. Для вычисления индекса субъективного благополучия [124], [139] по каждому региону авторы предложили метод, основанный на индикаторах онлайн-активности. Результаты исследования показали, что в выбранных регионах активнее всего в позитивном ключе обсуждаются темы развития региональной инфраструктуры. Наименьшая позитивная деятельность связана с оценкой общего эмоционального состояния и свободы СМИ. Активнее всего в негативном ключе обсуждается тема безопасности, то есть оценка действий силовиков и других государственных организаций, связанных с обеспечением безопасности в регионе. Наименьшие негативные индикаторы онлайн-активности также характерны для общего эмоционального состояния и свободы СМИ. Кроме того, авторы составили исчерпывающий список ограничений, в том числе репрезентативность образцов данных, аудиторию анализируемых соцсетей и потенциальное влияние ботов.
Однако при подготовке обучающего набора данных авторы не описали распределение классов тональности. Если наборы данных не были сбалансированы, тогда качество классификации рекомендуется измерять с помощью более сложных метрик, например, точности (Precision), отклика модели (Recall) и F-меры.
1.3. Поведение пользователей
Содержимое соцсетей может быть ценным источником информации не только об отношении к разным темам, но и о поведенческих паттернах пользователей при взаимодействии с этим содержимым.
Светлов и Платонов определили влияние тональности на получение обратной связи от аудитории [69]. В качестве источника данных были взяты 46 293 публикации и 2 197 063 комментария из наиболее популярных аккаунтов российских политиков ВКонтакте за период с января 2017 по апрель 2019. Исследователи обучили BiGRU[140] на наборах данных RuTweetCorp [141] и RuSentiment [142], получив соответственно макро-усреднённую F1 = 0,91 and F1 = 0,77. На основе результатов анализа тональности авторы определили несколько паттернов реакции. Публикации классифицировались как позитивные, если у них было больше просмотров и лайков от пользователей. Публикации с большим количеством репостов и комментариев классифицировались как негативные. Однако вызывает много вопросов использование обучающих данных из одной сферы и применение обученных на них моделей в другой сфере. RuTweetCorp — это коллекция коротких публикаций из Twitter, а RuSentiment — коллекция общетематических публикаций из ВКонтакта, при этом обсуждаемое исследование посвящено политике. Хорошим выходом в этой ситуации будет ручное аннотирование небольшого набора текстов целевой тематики и тестирование на нём обученной модели.
2. Отзывы на продукты и сервисы
В эпоху интернета отзывы на продукты и сервисы стали мощным инструментом выражения социального подтверждения, который подталкивает людей покупать товары в разных интернет-магазинах [143]. Отзывы могут быть ценным источником информации не только для покупателей и продавцов, но и для исследователей. В этой главе литературные источники разделены по анализируемым темам: характеристики покупателей, характеристики продуктов и сервисов, характеристики торговцев.
2.1. Характеристики рецензентов
Исследовательская группа из Санкт-Петербургского университета проанализировала темы и тональность рецензий на 989 компаний-работодателей, действующих в 12 наукоёмких российских отраслях [70]. В качестве основного источника данных исследователи взяли один из крупнейших российских порталов с обзорами работодателей Отруде. После фильтрации и удаления лишних данных получился набор из 6145 отзывов. Предварительная обработка проходила в несколько этапов: лемматизация с помощью MyStem, удаление пунктуации и стоп-слов. Авторы автоматически классифицировали тексты по двум категориям на основе рейтинга рецензий: набравшие хотя бы три звезды считались позитивными, остальные — негативными. Затем исследователи проанализировали тональность с помощью латентного размещения Дирихле [102] — или тематического моделирования, — и не указанной модели классификации. Коллектив под руководством Соколова выяснил, что на удовлетворение от работы влияет шесть основных факторов: порядок и график работы, условия труда, суть работы, зарплата, развитие карьеры, психологический климат, межличностные отношения с коллегами. Два последних фактора — ментальная среда и межличностные отношения — чаще всего обсуждаются людьми в сети при обсуждении удовлетворения от работы. Поэтому авторы предположили, что когда человек решает уволиться, он склонен мириться с экономическими факторами (например, с перспективами развития карьеры и увеличения зарплаты), а не с социоэмоциональными (например, с плохой сутью работы, плохими отношениями с коллегами). Ключевой проблемой исследования является корректность использования анализа тональности. Все обзоры на сайте «Отруде» содержат авторскую оценку, поэтому с формальной точки зрения для оценки этих рецензий не нужна классификация тональности. Ещё один недостаток заключается в том, что авторы не описали свой подход к анализу и результаты классификации тональности на тестовом наборе данных.
2.2. Характеристики продуктов и сервисов
Коллектив под руководством Селиверстова на основе данных с портала Автострада оценил отношение к состоянию дорог в Северо-Западном Федеральном округе РФ [71]. Для обучения авторы использовали RuTweetCorp [141], самый большой автоматически аннотированный набор текстов с небольшой ручной фильтрацией, собранный в русскоязычном Twitter. Ради целей классификации была взята регуляризованная (regularised) линейная модель со стохастическим градиентным спуском и модель Bag of Words с векторизацией TF-IDF. После обучения модель продемонстрировала точность двоичной классификации на уровне 72 %. Проанализировав обзоры за период с 1 марта 2009 по 1 ноября 2018, авторы обнаружили, что протяжённость всех позитивно оцениваемых дорог составил 9874 км (75 % общей протяжённости), а протяжённость негативно оцениваемых — 3385 км (25 %). Однако у этого исследования есть ряд недостатков. Во-первых, авторы не описывают процесс предварительной обработки, что критически важно при обучении на RuTweetCorp. Дело в том, что этот набор изначально проектировался для создания лексикона эмоций, а не для прямой классификации тональности. Набор собирался автоматически в соответствии с определённой стратегией [144], то есть каждый текст ассоциирован с каким-то классом эмоций в зависимости от содержащихся в нём эмотиконов. Так что даже простой подход на основе правил может показать выдающиеся результаты. Например, если модель классифицирует текст как позитивный из-за наличия в нём символа ( или как негативный из-за отсутствия этого символа, то при двоичной классификации мы получим F1 = 97,39 %. Для решения задач автоматического анализа тональности авторы набора данных рекомендуют удалять эмотиконы в ходе предварительной обработки. Согласно работе [145], в этом случае можно с помощью метода опорных векторов [33] достичь макро-усреднённого балла F1 = 75,95 %. Так что без знания процесса предварительной обработки трудно оценить корректность исследования. Во-вторых, возникает много вопросов по поводу эффективности использования данных из одной сферы для обучения в другой сфере. В этом случае можно было бы вручную аннотировать небольшой набор данных по интересующей теме (пользовательские обзоры с транспортного портала) и протестировать на нём обученную модель. В-третьих, RuTweetCorp состоит из трёх классов, но авторы не учитывали в своём исследовании нейтральный класс. Позитивные и негативные сообщения были выложены на официальном сайте RuTweetCorp, а нейтральные — на отдельном сайте. Я предполагаю, что именно поэтому в некоторых исследованиях [146]—[150] использовались только позитивные и негативные сообщения для двоичной классификации. Можно предположить, что нейтральный класс может изменить общее распределение негативных и позитивных обзоров дорог. Наконец, в большинстве обзоров с Автострады есть авторские рейтинги, так что с формальной точки зрения для оценки этих рецензий не нужна классификация тональности. В этом случае было бы интересно сравнить оценки на основе рейтингов из обзоров и метки классификации тональности.
2.3 Характеристики продавцов
Ли и Чен из Университета Аризоны разработали фреймворк машинного обучения для определения качества продаваемых товаров на основе отзывов покупателей [72]. Этот фреймворк состоит из трёх основных модулей: быстро увеличивающаяся выборка (snowball sampling) с помощью ключевых слов и релевантных пользователей, классификация тем на основе максимальной энтропии, а также анализ тональности с помощью глубокого обучения. Одной из отличительных особенностей последнего модуля является то, что он сначала с помощью Google Translate переводит русский текст в английский, и только потом классифицирует тональность с помощью рекурсивной нейронной тензорной сети с представлением слов в виде банка синтаксических деревьев [121]. Предложенный фреймворк был протестирован на русскоязычном форуме, посвященном мошенничеству с банковскими картами. В результате были выявлены основные продавцы вредоносного ПО и похитители данных банковских карт. С помощью более подробного анализа авторы выяснили, что у торговцев картами рейтинг обычно ниже, чем у торговцев ПО. Авторы считают, причина в том, что качество ПО определить легче, чем качество похищенных данных. Авторы упомянули, что классификатор тональности был обучен на онлайн-обзорах, что подходит для интересовавшей их темы, однако они не описали подробностей использования набора данных и метрик качества классификации. Перевод на другой язык может существенно изменить смысл или тональность текста, поэтому без тестирования на русскоязычных текстах практически невозможно оценить качество анализа.
3. Новости из СМИ
Обзоры и содержимое соцсетей, генерируемые пользователями, обычно представляют собой субъективные тексты, потому что авторы свободно выражают свои мнения. Однако с анализом новостей ситуация иная. Новостные агентства стараются избегать суждений и откровенной пристрастности, стараются избавиться от сомнений и двусмысленности. В основе их философии лежит объективность, или хотя бы широко приемлемая нейтральность [73]. Потому журналисты часто воздерживаются от использования негативной или позитивной лексики, однако прибегают к иным способам выражения своего мнения [74]. Например, журналисты могут подчеркнуть одни факты и опустить другие, вставить утверждения в сложную структуру дискурса, указать подходящую под их точку зрения цитату. Широкий интерес людей к новостям был подмечен ещё столетия назад [151], [152]. Новости используются как источник данных для анализа тональности в разных сферах. Например, для оценки тональности самих новостей [153], [154], для прогнозирования биржевых цен [155], [156], результатов выборов [157], [158], цен на товары в интернет магазинах [159] и будущего поведения покупателей [154]. Что касается русскоязычных новостей, то я определил две категории исследований: оценка тональности новостей и экономическое и деловое прогнозирование.
3.1. Содержимое новостей
Беляков посвятил несколько статей [94], [95] анализу тональности новостных сообщений с сайта российского МИД. Автор использовал статьи из раздела «Новости», опубликованные с 1 по 28 февраля 2015. Единицы текста были отнесены к следующим категориям:
- Украинский вопрос;
- Сотрудничество России и Китая;
- Отношения между Россией и Украиной;
- Конфликт в Сирии;
- Сотрудничество с Туркменистаном;
- Отношения между Россией и Грецией;
- Санкции против России;
- Дипломатия сегодня.
Автор создал базовый классификатор на основе правил, который суммирует полярность эмоциональных слов в тексте и прогнозирует финальный бинарный класс. Дополнительно был составлен словарь из 300 позитивных и 300 негативных основ слов. Согласно результатам анализа, позитивный окрас имели категории «Сотрудничество России и Китая», «Сотрудничество с Туркменистаном», «Отношения между Россией и Грецией», а также «Дипломатия сегодня». Негативный окрас имели категории «Украинский вопрос», «Отношения между Россией и Украиной» и «Санкции против России». Важно то, что в исследовании рассматривалось только содержимое статей, написанных журналистами, то есть это выражение официальной позиции МИД по определённым темам. В будущем можно добавить реакцию читателей и комментарии к новостным статьям, опубликованные на сайте. С точки зрения анализа тональности, главный недостаток исследования Белякова заключается в отсутствии оценки модели. Не зная метрик качества на тестовых данных, мы не можем оценить работу модели, а значит и качество результатов анализа.
Исследовательская группа из РАН изучала отношение к технологиям и инновациям, упоминаемым в СМИ [96]. С помощью Exactus Expert [160] авторы выбрали из 16 источников больше 240 000 статей, посвящённых инновациям и технологиям, опубликованных с 2005 по 2015. Затем на основе выбранных вручную ключевых слов категоризировали статьи по 11 технологическим трендам из «Списка критически важных технологий РФ». Далее авторы выбрали 120 статей и вручную аннотировали каждый объект тональности, упомянутый в статье, как позитивный или негативный. На основе обучающего набора из 346 аннотированных пар исследователи создали словарь эмоций и разработали алгоритм классификации на основе правил. Выяснилось, что, в целом, СМИ склонны писать о технологиях в нейтральном ключе, что может объясняться согласованностью стиля новостных сообщений. Сравнительно низкая доля негативных упоминаний об ИТ и биотехнологиях и их общее позитивное освещение в статьях говорит о том, что общество не беспокоится о потенциальных негативных последствиях этих технологий. В то же время, доля негативных отзывов о военных технологиях выше, чем по другим направлениям. Однако авторы не описывают метрики классификации в разработанном алгоритме. Более того, как уже упоминалось, эти статьи писали журналисты, которые могли выражать не только общественную, но и официальную точку зрения. Для оценки отношения общественности к разным темам необходимо дополнительно исследовать реакцию людей на новостные статьи.
Казун и Казун [75] проанализировали освещение в российских СМИ деятельность Трампа в ходе и после выборов. Авторы использовали базу данных Integrum для сетевого анализа и базу данных Медиалогии для анализа тональности дискуссий. Для исследования были взяты три временных интервала: за месяц до выборов, через месяц после и через 7 месяцев после. С помощью подхода Медиалогии тексты разделили на три класса: позитивные, негативные и нейтральные. Выяснилось, что освещение в СМИ деятельности Трампа до выборов было более негативным, чем позитивным. Однако в некоторые месяцы освещение кампании Клинтон было ещё более позитивным, чем освещение Трампа, хотя за четыре месяца до выборов связанные с Клинтон статьи были, в основном, критическими. Один из недостатков исследования заключается в том, что авторы не описали качество классификации данных по интересующей теме, поэтому сложно проверить точность результатов.
Подобные исследования были посвящены анализу новостей, связанных с политикой и правительством. В отличие от содержимого соцсетей, трудностей с доступом к старым данным не было, потому что СМИ обычно не препятствуют этому. Однако авторы некоторых исследований новостей пытались определить общественное мнение по конкретным темам, которые, по моему мнению, требуют дальнейшей проработки. СМИ, конечно, можно считать отражением общественного мнения, однако в некоторых случаях политика издательства может влиять на подачу, так что новости не всегда отражают мнение общества.
3.2. Экономические и бизнес прогнозы
Яковлева предложила вычислять высокочастотный индикатор экономической активности в России на основе новостных статей в сочетании с анализом тональности текстов [76]. В ходе исследования было создано два компонента: первый призван отразить количество тем, а второй — идентифицировать тональность новостей. Предварительная обработка состояла из нескольких этапов: стемминг с помощью MyStem, удаление пунктуации, стоп-слов и ненужных пробелов. В качестве модели классификации тональности Яковлева взяла алгоритм опорных векторов [33] и обучила его на вручную аннотированных данных, содержавших 3438 позитивных и негативных новостных статей. Точность на тестовом наборе составила 64 %. Автор упомянул, что если модель определяла тональность текста с вероятностью менее 60 %, то тональность считалась нейтральной и текст исключался из анализа. Все темы, полученные с помощью первого компонента, были объединены с информацией о тональности из второй модели. На основе этих объединённых данных была разработана регрессионная модель для прогнозирования индексов деловой активности (Purchasing Managers' Indexes (PMI)). Тестовые данные охватывали период с февраля 2017 по август 2018. Модель продемонстрировала относительно хорошие возможности прогнозирования, точно аппроксимируя актуальный индекс для нового периода. Результаты исследования показывают, что модель может тщательно отслеживать экономические показатели, помогая быстрее реагировать на текущую финансовую ситуацию и оперативно принимать решения. Однако у этого исследования есть ряд недостатков. Во-первых, непонятно, какие вероятности использовались, потому что базовая реализация метода опорных векторов не предоставляет оценок вероятности напрямую. Более того, не описана методика выбора пороговых значений. Во-вторых, обучающие данные Яковлевой были аннотированы только одним специалистом, что не соответствует общепринятой практике [142], [161], [162]. Наконец, автор опубликовала графическое представление спрогнозированного сравнения и актуальные значения индекса деловой активности, но не упомянула ни одну метрику качества регрессии.
4. Книги
За последние 60 лет анализ научной литературы прошел большой путь, начиная от ручного подсчета цитат и анализа частоты слов и заканчивая современными методами автоматического глубокого анализа текста [163]. Одной из актуальных тем в этой сфере является анализ тональности учебных материалов.
4.1. Содержимое книг
Исследовательская группа Соловьёва изучила тональность учебников по обществознанию и истории, которые используются в российской младшей и средней школе [77]. Для этого исследования на основе 14 русскоязычных учебников под редакцией Боголюбова и Никитина был составлен Академический корпус русского языка. Предварительная обработка включала в себя токенизацию предложений, токенизацию слов и разметку частей речи с помощью TreeTagger [164]. С помощью русскоязычного словаря RuSentiLex [25] авторы вычислили частоту эмоциональных слов в каждом документе и измерили их удельное количество на 1000 слов в документе. Проанализировав корпус, авторы выяснили, что дискурс в учебниках истории для старших классов, а также в учебниках обществознания для средних старших классов, написанных Никитиным, в основном представлена негативная тональность: используются негативно поляризованные слова и представлены негативные примеры. А учебники, написанные Боголюбовым, имеют в целом позитивную тональность. Тем не менее, существенным источником ненадежности является точность и релевантность извлеченных из корпуса эмоциональных слов, поскольку RuSentiLex изначально создавался для других тем. Кроме того, RuSentiLex обеспечивает единое контекстнонезависимое представление эмоциональной полярности, независимо от того, в каком месте предложения встречается слово и независимо от его возможных значений. Поэтому такой подход не позволяет понять разные значения слов на основе контекста предложения.
4.2. Образовательный процесс
Колмогорова провела эксперимент по обучению русскому языку для китайских студентов [78]. Она измерила зависимость между тональностью образовательных текстов, субъективной оценкой иностранными студентами привлекательности и эффективности учебного курса, а также фактической успешностью обучения на таких текстах. Для анализа тональности автор применила классификатор эмоций на основе машинного обучения, разработанный в Лаборатории прикладной лингвистики и когнитивных исследований Сибирского Федерального Университета. Модель анализа тональности классифицировала тексты на 9 классов с макро-усреднённым F1-баллом 50 %. Восемь классов соответствуют базовым эмоциям L?ovheim [165], а последний — это эмоционально нейтральные тексты. Для обучающего набора тексты выбирались в открытой группе ''Подслушано'' ВКонтакте. 231 носитель русского языка разметили тексты, субъективно оценивая степень выражения любых эмоций, при этом каждому тексту присваивалась лишь одна эмоция. Все тексты были размечены как минимум тремя асессорами. Если двое или трое асессоров присваивали тексту один и тот же класс, тогда эта эмоция закреплялась за текстом. В противном случае текст удалялся из обучающего набора для этого класса. Колмогорова использовала тексты, для которых ведущими эмоциями были удовольствие/радость и печаль/тоска. Эксперимент проводился с участием 30 студентов из Китая, которых разделили на три равные группы. Каждая группа изучала и экзаменовалась по теме «Пунктуация». Одна группа училась на радостных текстах, вторая на грустных, третья на нейтральных. После завершения экспериментального обучения и экзаменов студенты заполнили анкету, в которой отметили степень общей заинтересованности в курсе и его эффективности, а также степень своей удовлетворённости процессом обучения. Проанализировав анкеты и результаты экзаменов, Колмогорова выяснила, что тональность учебных текстом сильно влияет на субъективную оценку образовательного процесса и его объективную эффективность. В среднем, на грустных текстах студенты делали меньше ошибок, чем на радостных и нейтральных, но работа с ними приносила меньше всего удовлетворения. Наибольший интерес вызвала работа с радостными текстами, но при этом эффективность обучения была ниже. Значительным источником неопределённости в данном исследовании является метод, который использовался для классификации эмоциональной полярности текстов. Модель обучалась на текстах из одной сферы, а применялась к текстам из другой без дополнительной проверки качества классификации. Автор не описала никаких подробностей относительно модели классификации, а также не дала больше информации о предварительной обработке и процессе обучения.
Таким образом, основная сложность в анализе учебников заключается в отсутствии словарей эмоциональной лексики и обучающих наборов по этой теме. Когда исследователи анализировали тексты на уровне слов с использованием словарей эмоциональной лексики, обычно для каждого слова бралось одно контекстнонезависимое представление эмоциональной полярности, вне зависимости от местоположения слова в предложении и вне зависимости от других его возможных значений. Более того, для анализа текстов на уровне документов становится сложно ассоциировать тексты с классами эмоций, потому что тексты в учебниках длинные, и на протяжении одного текста могут выражаться разные эмоции.
5. Смешанные источники данных
Для охвата более широкого спектра материалов, в некоторых исследованиях применяются тексты из разных источников. Например, если авторы используют новости и содержимое соцсетей, то они могут не только оценить полярность освещения определённых событий новостными агентствами и государственными организациями, но также могут оценить отношение людей к разным обсуждаемым темам.
В работе, опубликованной в Berkman Center for Internet & Society [97], Этлинг исследовал тональность обсуждений украинских протестов времён Евромайдана в различных русскоязычных и англоязычных онлайновых и традиционных СМИ, а также социальных сетей. В исследовании использовалось ПО Crimson Hexagon [166], в основе которого лежит методика анализа, разработанная Хопкинсом и Кингом [167]. Тексты классифицировались на четыре класса с точки зрения отношения к протестам: позитивные, нейтральные, негативные и не относящиеся. Источником данных стали русскоязычные и англоязычные публикации в Twitter, Facebook, в блогах, форумах и на новостных сайтах за период с 21 ноября 2013 по 26 февраля 2014. Из-за ограничений Crimson Hexagon тексты на украинском языке не рассматривались. Выяснилось, что русскоязычные источники и пользователи выражали больше поддержки протестам, чем ожидалось. Англоязычные тексты в США и Великобритании были более негативными, чем ожидалось, исходя из идеологической поддержки западных правительств. В то же время, содержимое соцсетей в Великобритании, США и Украине было более позитивным по сравнению с традиционными СМИ этих стран. Главный недостаток исследования связан с моделью классификации тональности. Во-первых, она обучалась на минимальном количестве данных, то есть примерно на 120-140 размеченных публикациях. Во-вторых, обучающие данные были аннотированы только одним асессором, что противоречит лучшим методикам [142], [161], [162]. Не проверялась надёжность и качество классификации, что противоречит основным принципам создания моделей машинного обучения с учителем [168]. Более того, не предоставлен полный список проанализированных источников, поэтому трудно валидность надёжность их выбора. Более того, не рассматривались тексты на украинском языке, тем самым исключая широкий спектр мнений.
Казун проанализировало интенсивность и тональность освещения в СМИ и соцсетях деятельности Алексея Навального на основе данных за 2014-2016 [80]. С помощью Медиалогии автор получил больше 145 000 новостных статей о Навальном из российских газет, с сайтов и трёх крупнейших федеральных ТВ-каналов. Для анализа тональности Казун использовал алгоритмы, разработанные в Медиалогии (классификация на позитивные, негативные или нейтральные классы), предварительно проверив их на двухстах размеченных вручную статьях. Выяснилось, что традиционные СМИ склонны игнорировать Навального за исключением случайных публикаций документов или новостных историй, чтобы очернить российскую оппозицию в целом или Навального лично. В блогах Навальный освещался в целом более позитивно, чем в других медиа. Однако дискуссии в этих статья было преимущественно критическими. Также авторы описали особенности каждого вида медиа, прояснив характерные стратегии публикации и паттерны тональности. Несмотря на общую негативность, новостное освещение деятельности Навального год от года становится позитивнее. Причины этой тенденции — снижение количества критических статей и увеличение количества позитивных статей. Как и во всех обнаруженных примерах использования алгоритмов анализа тональности Медиалогии, авторы не описывают метрики классификации для целевой темы.
В своём исследовании [79] Брантли проанализировал украинскую революцию 2013-2014 на основе содержимого Twitter, Facebook, YouTube, блогов, форумов и новостных сайтов. С помощью платформы Crimson Hexagon он собрал коллекцию из 2 809 476 текстов на русском, украинском и английском языке. Рассматривались только тексты, которые были опубликованы из Украины в период с 21 ноября 2013 по 1 марта 2014. Два асессора, свободно владеющих всеми тремя языками, аннотировали обучающий набор данных для алгоритма BrightView, входящего в состав Crimson Hexagon и представляющего собой алгоритм непараметрического анализа данных, описанного в [166]. Тексты были разделены на три категории: позитивные, нейтральные и негативные. Тестирование на Crimson Hexagon показало совпадение с ручной классификацией в 92 %. Вместе с собранными данными автор использовал информацию из наборов данных Tone Dataset Global Knowledge Graph и Events Dataset and Global Events Language [169]. Выяснилось, что в Украине наблюдались ярко выраженные расхождения между политическими объединениями и предпочтениями, связанные с лингвистическими характеристиками. Это дополнительно подтверждается прошлыми результатами голосования, когда украиноязычные спикеры традиционно выражали больше поддержки оппозиции. Сравнив напрямую вовлечённость в сети и вне её, Брантли пришёл к выводу, что социальные сети значительно повлияли на физическое развитие протестов, то есть привели к увеличению количества протестующих на улицах.
Главный недостаток использования источников разных видов заключается в том, что помимо широкого спектра выраженных мнений авторы сталкиваются со сложностями и ограничениями, характерными для тех или иных видов источников. Они могут быть связаны с доступом к репрезентативными данным, исчерпывающим описанием ограничений, отсутствием обучающих данных для выбранной темы. В некоторых исследованиях анализ тональности и агрегирование индексов эмоций выполнялось на основе широкого спектра текстов без дифференцирования по видам источников. Например, при агрегировании эмоций авторы считали равными единицами и публикации из соцсетей и новостные статьи. Возможно, в подобных случаях более логично использовать более сложные модели, применяющие веса, чтобы корректнее анализировать тексты из разных видов источников.
6. Далее
Через пару дней выйдет заключительная часть, в которой поговорим об общих сложностях, с которыми сталкивались исследователи, а также о перспективных направлениях на будущее. Если есть желание прочесть всю статью сразу и на английском, вам сюда.
7. Источники
Полный список источников можно найти здесь.
iHun
Отличный обзор, спасибо!
К теме следующей статьи — на мой взгляд основная сложность в установлении тональности текстов практически любой тематики, которая сложнее отзывов на товары и фильмы — это низкая степень согласия кодировщиков между со собой. В статье Measuring the Reliability of Hate Speech Annotations показано, что альфа-Криппендорфа в ответе на вопрос содержит ли текст язык вражды, не превышает 0.29 при минимальном рекомендуемом значении в 0.66.
Для более-менее сносной классификации таких текстов необходимо 1) выделять разные аспекты тональности, 2) делать синтаксический парсинг (для русского языка подойдёт SyntaxNet, например) и определять тональность на уровне субъектов и объектов в отдельных предложениях (или нескольких предложений).