Эмоции являются ключевым аспектом социальных взаимодействий, который влияет на поведение людей и формирует межличностные отношения. Это особенно характерно для языка: всего несколькими словами мы можем выразить большое количество очень тонких и сложных эмоций. Вот почему на протяжении долгого времени в научном сообществе стоит цель научить машины понимать контекст и эмоции, что, в свою очередь, позволит создавать множество приложений, таких как чат-боты, обладающие эмпатией, модели определения токсичного поведения в интернете и улучшенные системы поддержки клиентов.


В последнее десятилетие сообщество NLP-исследователей сделало доступным несколько наборов данных для классификации эмоций на основе языковых данных. Большая часть из них были созданы вручную и включают в себя тексты определенной предметной области (например, новостные заголовки, субтитры фильмов и даже сказки), однако в основном имеют достаточно скромный размер или сосредоточены всего на 6 базовых эмоциях (гнев, удивление, отвращение, радость, страх и печаль), предложенных в 1992 году. Хотя эти наборы данных позволили начать первые исследования в области классификации эмоций, они также подсветили необходимость создания более объемного набора данных, содержащего более детализированный перечень эмоций, которые можно было бы применить в более широком кругу потенциальных приложений.


В статье «GoEmotions: A Dataset of Fine-Grained Emotions» авторы описывают набор данных GoEmotions, состоящий из 58 тысяч комментариев Reddit, извлеченных из популярных англоязычных сабреддитов, и размеченный вручную на 27 категорий эмоций. Авторы разработали таксономию GoEmotions как крупнейший на сегодняшний день полностью размеченный набор детализированных данных об эмоциях на английском языке, учитывая его потенциальную применимость как в психологии, так и в науке о данных. В отличие от шести основных эмоций, которые включают только одну положительную эмоцию (радость), представленная таксономия включает 12 положительных, 11 отрицательных, 4 неоднозначных категорий эмоций и 1 «нейтральную», что делает такой набор подходящим для широкого круга задач понимания разговора, требующих тонкого различения эмоций.


Авторы публикуют набор данных GoEmotions вместе с подробным руководством, в котором демонстрируется процесс обучения архитектуры нейронной модели (доступной в TensorFlow Model Garden) с помощью GoEmotions и ее применения для задачи предложения эмодзи на основе разговорного текста. В карточке модели GoEmotions авторы исследуют дополнительные возможности использования моделей, созданных с помощью GoEmotions, а также делятся соображениями и ограничениями по использованию данных.



Этот текст выражает несколько эмоций сразу, включая нетерпение, одобрение и благодарность.



Этот текст выражает облегчение — сложную эмоцию, передающую как положительную, так и негативную тональность.



Этот текст выражает сожаление — сложную эмоцию, которая часто встречается в речи, однако не выделяется простыми моделями определения эмоций.


Создание набора данных


Целью авторов было построение большого набора данных, ориентированного на разговорную коммуникацию, в которой эмоции занимают важнейшее место. Поскольку платформа Reddit предлагает большой объем общедоступных данных, включающих прямые диалоги пользователей, она является ценным ресурсом для анализа эмоций. Поэтому авторы построили GoEmotions с использованием комментариев на Reddit с 2005 года (запуск платформы) и до января 2019 года, взятых из сабреддитов с по меньшей мере 10 тысячами комментариев, включая удаленные и неанглоязычные комментарии.


Чтобы сделать возможным построение репрезентативных моделей определения эмоций, авторы предприняли меры по курированию данных, позволившие гарантировать, что в наборе данных нет чрезмерно общих и специфичных для эмоций языковых предубеждений. Это особенно важно, поскольку Reddit имеет известную демографическую предвзятость, ориентированную на молодых пользователей-мужчин, что не отражает глобальное разнообразие населения. Также тексты на платформе имеют склонность к содержанию токсичных и оскорбительных высказываний. Для того, чтобы решить эти проблемы, авторы выявили вредоносные комментарии, используя заранее определенные термины, относящиеся к оскорбительному/взрослому и вульгарному содержанию, а также для обозначения идентичности и религии, использованные для фильтрации и маскирования данных. Также данные были отфильтрованы с целью снизить количество ненормативной лексики, ограничить длину текста и сбалансировать представленные эмоции и настроения. Чтобы избежать чрезмерного представления популярных сабреддитов и гарантировать, что комментарии также отражают менее активные, данные были сбалансированы между сообществами сабреддитов.


Авторы также разработали таксономию эмоций, стремясь выполнить три цели: (1) максимально охватить эмоции, выраженные в данных платформы Reddit; (2) максимально охватить типы эмоциональных выражений; и (3) ограничить общее количество эмоций и их частичное совпадение. Такая таксономия позволяет на основе данных тонко различать эмоции, а также устранять потенциальную нехватку данных для некоторых эмоций.


Процесс создания таксономии включал итеративное определение и уточнение категорий меток эмоций. На этапах разметки данных авторы рассмотрели в общей сложности 56 категорий эмоций. В этой выборке они определили и удалили эмоции, которые редко выбирались разметчиками, имели низкую межэкспертную согласованность из-за сходства с другими эмоциями или которые было трудно обнаружить по тексту. Также были добавлены эмоции, которые часто предлагались разметчиками и были хорошо представлены в данных. Наконец, были доработаны названия категорий эмоций, чтобы повысить их интерпретируемость, что привело к высокой согласованности между экспертами, при этом в 94% примеров по крайней мере два эксперта согласились по меньшей мере с одной меткой эмоции.


Опубликованный набор данных GoEmotions включает в себя таксономию, представленную ниже, и был полностью собран в ходе последнего раунда разметки данных, в котором стандарты таксономии и ранжирования были предварительно определены и зафиксированы.



Таксономия GoEmotion: насчитывает 28 эмоций, включая «нейтральную».


Анализ данных и результаты


Эмоции не распределяются равномерно в наборе данных GoEmotions. Важно отметить, что высокое количество положительных эмоций усиливает мотивацию авторов к более разнообразной таксономии эмоций, чем та, которую предлагают шесть классических эмоций.



Чтобы убедиться, что данный таксономический выбор соответствует базовым данным, авторы провели анализ основных сохраненных компонентов (Principal Preserved Component Analysis, PPCA), метод, используемый для сравнения двух наборов данных путем извлечения линейных комбинаций эмоциональных суждений, которые демонстрируют наибольшую совместную изменчивость между двумя группами разметчиков. Таким образом, это помогает раскрыть те аспекты эмоций, которые имеют высокую согласованность между разметчиками. PPCA использовался ранее для понимания основных измерений распознавания эмоций в видео и речи, и авторы используют его в данной работе, чтобы понять основные измерения эмоций в тексте.


Было обнаружено, что каждый компонент значим (со значениями p <1,5e-6 для всех измерений), что указывает на то, что каждая эмоция захватывает уникальную часть данных. Это достаточно нетривиальный результат, поскольку в предыдущей работе по распознаванию эмоций в речи только 12 из 30 измерений эмоций были признаны значимыми.


Авторы исследуют кластеризацию определенных эмоций на основе корреляции между суждениями разметчиков. При таком подходе две эмоции будут группироваться вместе, когда они часто выбираются совместно. Было обнаружено, что эмоции, связанные с точки зрения их настроений (отрицательные, положительные и неоднозначные), группируются вместе, несмотря на отсутствие заранее определенного понятия настроения в предложенной таксономии. Это указывает на качество и последовательность разметки. Например, если один разметчик выбрал «волнение» в качестве метки для данного комментария, более вероятно, что другой разметчик выберет связанное с ним чувство, такое как «радость», а не, скажем, «страх». Возможно, несколько удивительным покажется то, что все неоднозначные эмоции сгруппировались вместе, и, более того, расположились более тесно к положительным эмоциям.



Точно так же эмоции, которые связаны с точки зрения их интенсивности, такие как радость и возбуждение, нервозность и страх, печаль и горе, раздражение и гнев, оказываются тесно взаимосвязаны.



В статье авторов представлен дополнительный анализ и моделирование экспериментов с использованием GoEmotions.


Дальнейшие исследования: альтернативы ручной разметке


Хотя GoEmotions предлагает большой набор размеченных вручную данных об эмоциях, существуют дополнительные наборы данных, которые используют эвристику для автоматической разметки. Доминирующая эвристика использует связанные с эмоциями теги Twitter в качестве категорий эмоций, что позволяет без больших затрат создавать большие наборы данных. Но этот подход ограничен по нескольким причинам: язык, используемый в Twitter, явно отличается от языка многих других предметных областей, что ограничивает применимость данных; теги создаются человеком, и при использовании в том виде, в котором они представлены в Twitter, склонны к дублированию, перекрытию и другим таксономическим несоответствиям. Таким образом, специфика этого подхода к текстам из Twitter ограничивает возможность его использования с другими языковыми корпусами.


Авторы предлагают альтернативную и более доступную эвристику, в которой эмодзи, встроенные в пользовательский диалог, служат обозначением для категорий эмоций. Этот подход может быть применен к любым языковым корпусам, в том числе многим разговорным, содержащим достаточное количество эмодзи. Поскольку эмодзи более стандартизированы и менее редки, чем теги Twitter, в них меньше несоответствий.


Стоит отметить, что оба предложенных подхода — использование тегов Twitter и использование эмодзи — направлены не на понимание эмоций, а на варианты их разговорного выражения. Например, в беседе ниже ???? означает благодарность, ???? выражает праздничное настроение, а ???? является буквальной заменой слова «подарок». Точно так же, хотя многие эмодзи и связаны с выражениями, обозначающими эмоции, последние настолько тонкие и многогранные, что во многих случаях ни один эмодзи не может по-настоящему передать всю сложность эмоции. Более того, эмодзи улавливают различные выражения помимо эмоций. По этим причинам они рассматриваются авторами как выражения, а не сами эмоции.



Такой тип данных может быть полезен для создания выразительных диалоговых ассистентов или предложения контекстных смайликов и является особенно интересной областью будущих исследований.


Заключение


GoEmotions представляет собой большой набор данных с ручной разметкой для детализированного предсказания эмоций. Проведенный анализ демонстрирует надежность разметки и высокий охват эмоций, выраженных в комментариях Reddit. Авторы выражают надежду, что GoEmotions станет ценным ресурсом для исследователей эмоций на основе языковых данных и позволит практикам создавать творческие приложения, учитывающие широкий спектр эмоций пользователей.


Авторы


Комментарии (0)