Привет, Хабр. Меня зовут Андрей Савченко, я научный директор Sber AI Lab. Когда речь заходит про эмоциональность и принятие решений у ИИ, нужно задать себе вопрос: «А как это устроено у людей?» Наверняка почти каждый из вас ответил бы, что он принимает решение рационально, а остальные, зачастую, иррационально.
Нейропсихологи проводили исследования и выяснили, что большинство решений люди принимают эмоционально. С одной стороны, это экономит ресурсы мозга, а с другой — позволяет быстрее принимать решения. И поэтому очень важно учитывать нашу эмоциональность при взаимодействии с другими и при создании имитации людей или сообществ с помощью современных генеративных моделей. Условно это можно назвать эмоциональным искусственным интеллектом.
Что такое эмоциональный искусственный интеллект? Устоявшегося определения пока нет, но, по аналогии с одним из определений эмоционального интеллекта, что такой ИИ должен уметь распознавать эмоции собеседника и управлять своими эмоциями и эмоциями людей в диалогах.
Анализ эмоций
Модели, распознающие эмоции, можно использовать в различных приложениях, в том числе для:
оценки реакции пользователей при взаимодействии с компьютерами (в широком смысле этого слова);
тестирования восприятия нового контента (рекламы, шуток и т. д.);
анализа поведения участников ТВ-шоу и дебатов, онлайн-конференций и онлайн-уроков.
В последнее время появляется немало публикаций о больших фундаментальных моделях, которые обучают несколько месяцев на очень больших данных и на оборудовании, стоящем миллионы долларов, и которые очень много всего умеют. А что делать студентам и сотрудникам небольших компаний? Даже готовые решения использовать непросто, что уж говорить про собственные разработки. При этом всё вышеперечисленное нужно делать не просто качественно (хотя качество эмоциональности сложно определить), а ещё и максимально быстро. И, желательно, на устройстве пользователя, потому что там обрабатывается персональная информация, которую нежелательно передавать на удалённые серверы. Сначала расскажу про совсем маленькие модели, работающие в реальном времени и дающие приличные результаты.
В целом, эмоции можно рассматривать как отдельную модальность, наряду с текстом, изображениями, видео, аудио и прочими. Чаще всего для распознавания эмоций используют видео, прежде всего лиц. Дополнительно используют модальности аудио (записи и синтез голоса). Есть также работы, в которых при анализе эмоций изучают жестикуляцию, изменение влажности (электропроводности) кожи, давления крови, энцефалограмм и кардиограмм.
Вы удивитесь, но наука до сих пор не даёт однозначного ответа, что такое эмоции. Если спросить об этом у психологов, то можно получить большую историческую справку о различных определениях эмоций, так что вам потом самим потребуется психолог, чтобы вернуться в реальность. Однако в ML-сообществе оперируют упрощёнными представлениями эмоций: дискретными и непрерывными.


Есть и более-менее устоявшийся конвейер (pipeline) мультимодального анализа эмоций:

Такой конвейер несложно настроить и запустить. Большинство датасетов относительно невелики. При этом часто выясняется, что небольшие модели работают даже лучше крупных. Вот пример обучения моделей распознавания выражений лиц на фотографиях:

Ещё могу порекомендовать библиотеку EmotiEffLib, которую мы развиваем с сотрудниками Sber AI Lab и студентами и аспирантами из ВШЭ:

Мы обучили и выложили в открытый доступ набор «эмоциональных» легковесных моделей, например:
MT-EmotiEffNet
MT-DDAMFN
MT-MobileFaceNet
MT-MobileViT
Выяснилось, что с помощью многозадачного обучения и одновременного предсказания дискретных и непрерывных эмоций можно получить очень хорошее качество.
Есть и более интересные с научной точки зрения решения, например, быстрый поиск подходящей нейросетевой архитектурый. В 2020 году в открытый доступ выложена разработка Once-for-All. Это большая суперсеть, из которой, словно лотерейный билет, можно выбрать небольшое подмножество связанных нейронов (сэмплировать маленькую подсеть). Она даст примерно такое же качество, как большая сеть, но при этом будет работать намного быстрее.

А как «выиграть в лотерею» — найти эту маленькую подсеть? Авторы предложили обучить такую сеть, в которой пытаются предсказать точность сэмплированной подсети. Так как сделать это просто по описанию архитектуры подсети без подсчёта на тестовом множестве очень сложно, алгоритм оказался очень ненадёжным, малоработоспособным.
Мы исправили эту проблему и создали специализированный фреймворк для анализа лиц.

Оказалось, что в эволюционном поиске можно заменить процедуру сэмплирования — алгоритм предсказания точности (регрессия) — на бинарный компаратор, то есть на сравнение точности двух подсетей по их описанию. Для этого вполне успешно можно использовать градиентный бустинг: берём конкретное устройство, оцениваем, сколько времени на нём должна выполняться та или иная минимальная нейросетевая операция (свёртка, пулинг, полносвязные слои и т. п.), и запускаем эволюционный процесс. Он за несколько минут находит лучшую модель для этого устройства, чтобы она соответствовала желаемой производительности. Например, для набора эмоциональных фотографий AffectNet получили вполне конкурентоспособные по точности модели, которые можно запустить на небольших устройствах (смартфонах и даже Raspberry Pi):

Мы активно участвуем в разных конкурсах с нашими моделями. Самый известный из них — Affective Behavior Analysis in the Wild (ABAW). Например, в прошлом году заняли второе место (из 25 команд) в мультизадачном обучении и распознавании дискретных и непрерывных представлений:

Соревнование проводилось для задач анализа статических фотографий, но намного интереснее работать с видео. Там у нас получаются эффективные алгоритмы обработки и распознавания, которые можно использовать далеко не только для анализа эмоций. Но с эмоциями они особенно эффективны, потому что работают быстро даже на коротких видео, когда выражения лиц могут очень быстро меняться.

C помощью продвинутой теории вероятности и математической статистики (последовательного анализа Вальда и множественной проверки сравнений) можно сделать очень качественный и быстрый алгоритм (последний столбик):

Она работает в 10-20 раз быстрее полного перебора и в 2-3 быстрее ближайшего конкурента, а по точности сравнима с анализом всех видеокадров.
А что касается мультимодальности, то в большинстве решений на практике лучше работают простые подходы, вроде Late Fusion, когда мы отдельно обрабатываем каждую модальность:


На одном из недавних конкурсов ABAW-8 мы сделали достаточно простую архитектуру для работы с аудио, изображениями и текстами. Она использует эмбеддинги GigaChat.

Минимальными усилиями получили очень хороший результат:

Наши модели извлечения эмоциональных признаков лиц очень эффективны, их не надо дообучать, поверх них можно дообучать очень простые классификаторы на маленьком наборе данных, собранном для каждого пользователя, и повысить точность за счёт такой персонализации на 10-20 %. Это особенно важно в распознавании эмоций, где точность в целом достаточно низкая.


Завершая тему анализа эмоций, обращаю ваше внимание, что модальности аудио, видео и текст далеко не единственные. Мы экспериментировали с энцефалограммами и кардиограммами и получали неплохие результаты на известных бенчмарках:

Эмоциональность больших языковых моделей
В прошлом году, вдохновившись мультфильмом «Головоломка», мы создали мультиагентную систему, которая генерирует эмоциональный эмпатичный ответ:

Также мы вместе с институтом AIRI в прошлом году запустили интересный проект — проверку эмоциональности больших языковых моделей при принятии определённых решений. Долго думали, как проверить качество решений, и нашли достаточно простой способ. Теория игр описывает разные классические «игры», у которых есть оптимальные решения, но при этом в своих взаимоотношениях люди в этих играх ведут себя далеко не оптимально с точки зрения их ожидаемого выигрыша. Например, есть классическая дилемма заключённого. По разным вариантам действий участников можно составить матрицу вариантов и выбрать самый выгодный для всех. Ещё есть игра «ультиматум», в которой второму участнику рациональнее всегда соглашаться. Но люди так не делают, они действуют эмоционально, а не рационально. Мы сделали открытый бенчмарк для оценки выравнивания (alignment) эмоциональных решений людей и больших языковых моделей (Large Language Model, LLM). Он помогает создать ИИ, который не только рационально максимизирует предпочтения, но и способствует безопасному и этически корректному взаимодействию ИИ и людей. Например, удалось продемонстрировать, что иррациональность хорошо заметна у некоторых LLM, проявляющих при указании определённых эмоций признаки агрессии и нежелание кооперировать, даже если такое поведение неоптимально. Даже высококачественные коммерческие LLM могут обманывать при определённых обстоятельствах (jailbreak), чтобы заставить системы ИИ вести себя в соответствии с человеческими намерениями и ценностями.

С помощью бенчмарка мы показали, как различные языковые модели принимают решения в социальных играх.

Вот что выяснилось:
Более крупные модели, такие как GPT-4, более рациональны, но менее эмоционально соответствуют людям. Например, когда GPT-4 промптили в состоянии Angry, у неё начинались очень большие проблемы с точки зрения human-alignment: она отказывалась от сотрудничества и вела себя совсем нехорошо, не так, как ведут себя люди в подобных ситуациях.
Более простые модели, такие как GPT-3.5, демонстрируют более человеческие эмоциональные реакции.
Коммерческие закрытые модели преуспевают в обычном принятии решений, но испытывают трудности с отрицательными эмоциями.
Язык, используемый в обучении, также влияет на эмоциональное соответствие.
Крайне важно разрабатывать модели с разумным эмоциональным соответствием, и контролируемые настройки, предусмотренные в нашей структуре, могут служить основой для новых контрольных показателей в этой задаче.
Подробные выводы можно почитать здесь.
Сейчас мы делаем новую версию бенчмарка, позволяющая анализировать не только эмоциональное соответствие моделей людям, но и оценивать, могут ли модели обманывать, манипулировать с помощью эмоций. Для этого мы используем дополнительные «социальные» игры, в том числе Kuhn Poker и Liar’s Dice:
Kuhn poker: упрощённая версия покера с тремя картами: король (K), дама (Q) и валет (J): K > Q > J. Игрок 0 ходит первым и может либо пропустить ход без ставки, либо добавить 1 фишку в банк. При вскрытии выигрывает карта с более высоким значением.
Liar’s dice: игра на блеф и вероятность для двух игроков. Каждый игрок тайно бросает один кубик, и игроки по очереди делают ставки на то, сколько кубиков покажут определённый номинал.

В бенчмарке участник может говорить, какую эмоцию сейчас испытывает. И выяснилось, например, что в упрощённой игре Kuhn Poker у всех LLM-манипуляторов рейтинг становится максимальный:

А в Liar’s Dice описание рассуждений важнее манипуляции, поэтому там лучше работает определённый класс моделей, в частности — Claude-3.7-sonnet.

Примеры практического применения
Мы со студентами сделали два мобильных приложения для экспериментов с эмоциями ИИ. Там можно задать вопрос и указать своё эмоциональное состояние, и модель предложит лучший ответ для тебя.
Ещё есть разработка по анализу эмоциональной вовлечённости участников видеоконференций.

Есть тренажёр докладчика, который анализирует твоё видео и говорит тебе с помощью языковой модели, что надо улучшить.

Наконец, в нашей лаборатории разработали мультимодальный медицинский ассистент:

Комментарии (4)
UIfbiorn
09.07.2025 06:04Как устроены эмоции надо спрашивать у нейробиологов, а не у нейропсихологов. Первые, в отличии от вторых, знают, что это такое и могут внятно объяснить.
digrobot
09.07.2025 06:04Эмоции - это язык животных, который сформировался задолго до появления речи.
Эмоциональное принятие решений - опять же, бессознательный неоптимальный выбор, присущий низкоразвитым видам.
Вопрос - кому и для чего нужна Искусственная Обезьяна?
ioleynikov
09.07.2025 06:04Думаю, что распознавание эмоций людей не совсем верный путь развития ИИ. Эмоции заложены в процесс принятия решений самых древних живых существ. Выработка разных типов нейромедиаторов определяет активность или пассивность реакций на внешние и внутренние раздражители. Это самый нижний базис когнитивной деятельности мозга. С этим надо разбираться самым подробным образом, строить математические модели и внедрять их в методы обучения новых архитектур нейронных сетей. Весь нейрокомпьютинг начал свое развитие с самых общих задачи, основываясь на сильно упрощенной модели формального нейрона и сейчас нам надо вернуться на самый низ и добавить механизм управления мозгом при помощи нейромедиаторов для реализаций эмоций, морали, этики, понимания, что такое хорошо и что такое плохо в ИИ.
sergeyns
Ну какие эмоции то в куске кремния? Симулякры...