В эпоху чат-ботов и голосовых помощников ИИ всё чаще становится собеседником человека. Но чтобы стать по-настоящему полезным в коммуникации, он должен не только понимать слова — но и улавливать эмоции, интонации, паузы и даже жесты. Именно это и пытается решить задача Emotion Recognition in Conversations (ERC).

В недавней работе A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations исследователи предложили архитектуру, которая объединяет мультимодальные сигналы (текст, аудио, видео) в единую модель, способную «читать между строк» в прямом смысле. Рассказываем, как это устроено и почему это важно.

Что такое ERC и зачем оно нужно

Emotion Recognition in Conversations (ERC) — это задача анализа диалогов с целью определения эмоционального состояния участников. В отличие от классификации эмоций в одиночных высказываниях, ERC даёт возможность учитывать следующие факторы: 

  • Контекст диалога (предыдущие фразы и их эмоциональный фон);

  • Социальные роли участников (кто говорит, кто слушает, кто конфликтует);

  • Мультимодальные сигналы — голос, текст, мимика, жесты.

Для человека это интуитивно. Например, фраза «Да, всё нормально» может звучать совершенно по-разному в зависимости от интонации и невербальных сигналов. Большинство моделей игнорируют эти нюансы, анализируя только текст. В новой архитектуре это исправлено.

Существующие решения сталкивались с тремя ключевыми вызовами: 

1. Ограниченная интеграция модальностей 

Многие модели просто складывают признаки из разных источников (например, текстовые эмбеддинги и аудио-фичи), теряя нюансы взаимодействий. Такой подход аналогичен тому, как если бы вы читали книгу, слушали её озвучку и смотрели фильм по мотивам одновременно, но не пытаясь связать элементы между собой. 

2. Статические веса модальностей 

Вес каждой модальности (например, насколько важен голос по сравнению с текстом) часто задавался вручную или обучался на тренировочном наборе данных. Это не учитывает, что в разных ситуациях приоритеты меняются: 

  • В шутке доминирует интонация, 

  • В конфликте — лексика, 

  • В смущении — невербальные сигналы (паузы, взгляды). 

3. Недостаток обобщающей способности 

Модели переобучались на конкретных датасетах (например, только на актерских диалогах), теряя эффективность в реальных сценариях, где эмоции выражены более сдержанно и не соответствуют театральным шаблонам. 

Авторы SDT решили не просто объединить модальности, а создать систему, которая адаптивно реагирует на контекст и учится на собственных предсказаниях. Их подход можно сравнить с тем, как человек анализирует эмоции в разговоре: сначала он выделяет ключевые сигналы (например, слова, голос, жесты), затем оценивает их значимость в текущей ситуации, а потом «прокручивает» диалог в голове, чтобы уточнить свою интерпретацию. 

Что предложили авторы SDT

Модель SDT (Self-Distilled Transformer) решает три задачи:

1. Интеграция модальностей через трансформеры 

Модель использует два типа трансформеров: 

  • Интра-модальные: анализируют зависимости внутри каждой модальности (например, как слова в предложении связаны друг с другом). 

  • Интер-модальные: учатся находить связи между разными модальностями (как тон голоса коррелирует с текстом). 

Пример: это похоже на то, как человек одновременно слушает слова, следит за интонацией и замечает, как собеседник нервно постукивает пальцами. 

2. Гейтовая фузия (Gated Fusion)

Чтобы гибко учитывать значимость модальностей, используется иерархическая гейтовая система:

  • Первый уровень: взвешивание модальностей в рамках одной реплики;

  • Второй уровень: учёт временного контекста в диалоге.

Пример: если интонация явно саркастичная, модель снижает значимость аудио и усиливает анализ текста и контекста.

Как работает гейтовая фузия? 

Гейт (gate) — это механизм, который вычисляет веса модальностей на основе текущего состояния модели. Формула: 

g = σ(W * [h_text, h_audio, h_video] + b) 

σ — сигмоидная функция
W и b — обучаемые параметры
h_text, h_audio, h_video — эмбеддинги модальностей
Веса g затем используются для взвешивания вклада каждой модальности в финальный вектор. 

3. Самообучение через дистилляцию (Self-Distillation) 

Этот этап — ключ к обобщающей способности модели. 

  • Модель обучается не только на «жёстких» метках (например, «гнев»), но и на «мягких» — вероятностях эмоций, предсказанных самой собой. 

  • Это похоже на то, как студент, решая задачу, сначала делает черновик (мягкий ответ), а потом уточняет его (жёсткий ответ). 

Результат: модель лучше справляется с неоднозначными случаями, где эмоция выражена слабо или противоречива. 

Как работает дистилляция? 

  • На первом этапе модель обучается на размеченных данных. 

  • На втором этапе она предсказывает вероятности эмоций для тренировочного набора («мягкие» метки). 

  • Затем модель дообучается на тех же данных, но с целевой функцией, которая штрафует за расхождение с «мягкими» метками. 

  • Это снижает переобучение и улучшает обобщение. 

Эти элементы в совокупности позволяют модели не просто «суммировать» данные, а строить сложные ассоциации между модальностями, адаптируясь к особенностям диалога. 

Авторы проверили свою модель на двух популярных датасетах: 

  • IEMOCAP: Разговоры актёров с размеченными эмоциями (гнев, радость, грусть и др.). 

  • MELD: Диалоги из сериала Friends с шестью эмоциональными классами. 

Детали экспериментов: 

  • Метрики: точность (Accuracy) и F1-мера (особенно важна для несбалансированных выборок). 

  • Базовые модели: для сравнения использовались SOTA-решения на момент публикации, включая MOSEUM и CMN. 

  • Гиперпараметры: обучение проводилось с оптимизатором AdamW, скоростью обучения 3e-5, batch_size=16. 

Результаты

Модель 

Accuracy (IEMOCAP) 

F1 (MELD) 

SOTA (prev) 

72.1% 

68.4% 

SDT (proposed) 

75.8% 

71.2% 

Рост на 3-4% может показаться небольшим, но в задачах распознавания эмоций это значительный шаг вперёд. 

Ограничения и открытые вопросы 

  1. Вычислительная сложность: трансформеры требуют ресурсов. Авторы не уточнили, насколько модель масштабируема для реального времени.

  2. Зависимость от качества данных: если в видео плохое освещение или в аудио шум, эффективность падает. 

  3. Культурные различия: модель обучалась на западных датасетах. Будет ли она работать с эмоциональными выражениями людей других культур? 

Предложения для будущих исследований

  • Адаптация к другим языкам: проверка модели на китайском, японском или арабском корпусах. 

  • Интеграция биометрии: добавление данных с носимых устройств (пульс, потоотделение) для повышения точности. 

  • Уменьшение вычислительной нагрузки: использование методов вроде pruning или quantization для оптимизации модели под мобильные устройства. 

Где это может применяться? 

  1. Виртуальные ассистенты: чат-боты, которые «чувствуют», когда пользователь раздражён. 

  2. Психотерапия: анализ эмоций пациентов в сессиях онлайн-терапии. 

  3. Маркетинг: оценка реакции аудитории на рекламу через видеозаписи. 

  4. Образование: обнаружение стресса у студентов во время онлайн-экзаменов. 

Вывод. Шаг к эмпатичному ИИ

Статья демонстрирует, что мультимодальность — необходимость для создания «эмоционально умного» ИИ. Методы вроде гейтовой фузии и дистилляции открывают дорогу к моделям, которые не просто распознают эмоции, но понимают их контекст. Однако путь к настоящей эмпатии еще долгий: нужно решить проблемы масштабируемости, культурной адаптации и надежности в шумных условиях. 

А пока остается один вопрос: если ИИ научится чувствовать эмоции, сможет ли он научить нас им? 


Статью подготовил Быков Никита, магистрант AI Talent Hub.

Комментарии (0)