Данная статья была подготовлена на основе презентации моей курсовой работы по компьютерному зрению. Ее цель - это краткий обзор аспектов машинного обучения в контексте задачи распознавания эмоций. То есть, в данной стать мы не будем излишне углубляться в детали, но при этом затронем практически все проблемы, которые так или иначе связаны с одной задачей: построение модели для распознавания эмоций.

Статья будет состоять из 3 частей:

  1. Введение
    Описание и постановка задачи распознавания эмоций.

  2. Три кита качества
    Данные;
    Архитектура;
    Гиперпараметры.

  3. Запуск модели
    Разбор моего ноутбука с работой по шагам.

Каждая из частей будет более практическая чем предыдущая и постепенно перейдет от общей теории к реальному коду. Если у вас возникнут какие-либо вопросы или замечания, то пожалуйста изложите их в комментариях.
Приятного чтения!

Что такое эмоции и для чего они нужны?

Эмоция - это психический процесс, отражающий субъективное оценочное отношение к существующим или возможным ситуациям и объективному миру.

Смотрит статью на Хабре...
Смотрит статью на Хабре...

Простыми словами эмоции это чувства, которые мы испытываем и так или иначе выражаем в ответ на объекты и ситуации (в том числе гипотетические).

Эмоции могут проявляться по-разному: с помощью мимики, жестикуляций, движения частей тела, вербально, а так же внутренне, побуждая те или иные мысли и воспоминания.

Открытое проявление эмоций это эволюционно выработанная черта, необходимая социальным видам. Субъекты, порою невольно, сообщают информацию о своем состоянии другим, что помогает им лучше понимать друг друга.

Зачем нужно определять эмоции?

Если для людей определение эмоций не просто важнейший навык коммуникации, а скорее даже жизненная необходимость, то зачем учить этому машины?

Реакция на товар
Реакция на товар

1. Рекламные агентства и продуктовые сервисы хотят знать, что вы чувствуйте, когда видите их товар;

2. Приложениям и сайтам, оснащенным рекомендательными системами, важно знать вашу реакцию на контент;

3. Детектор эмоций может быть полезен как одна из частей полиграфа;

4. Некоторые приложения-собеседники могут получать обратную связь, считывая эмоции.

Постановка задачи распознавания

Задача распознавания эмоций - это сложная задача в которой разделение на классы носят формальный характер, а также существует своя специфика: эмоции бывают слабо различимы, трудно определяемы по одному кадру, а при их классификации важен контекст.

Эталоном для определения эмоций является FACS (facial action coding system) - система кодирования лицевых движений американского психолога Пола Экмана. В ней движения головы, глаз и мышц лица задаются специальными кодами.

! Важно понять, что большинство баз данных не работают в рамках академических методов и не соответствуют эталону. Разметка большинства датасетов не производится профессионалами, а разделение на классы может быть спорным.

Какие методы систематизации эмоций существуют?

Удивление
Удивление

Дискретный

Здесь эмоции делятся всего на несколько базовых классов. Все данные распределяются между ними.
У этого метода есть множество недостатков, таких как: отсутствие переходных классов, градации силы эмоции, частый классовый перекос в базах данных, так как одни состояния удается запечатлеть чаще чем другие.

Valence and arousal
Valence and arousal

Непрерывный

Например, модель Рассела раскладывает эмоциональное состояние по 2 осям: валентность - окрас эмоции и возбуждение - сила с которой она проявляется.
В рамках такой модели ненависть-раздражение-гнев-аффект или удовлетворенность-счастье-радость-восторг будут градациями одних и тех же состояний отличающихся своей силой.

Реализация данных концепций также требуют различных подходов: классификации и регрессии соответственно.

Проблемы связанные с распознаванием

Не всегда получается распознать, что чувствует человек из-за следующих факторов:

Чувства Гарольда
Чувства Гарольда

* Скрытые эмоции - покерфэйс;

* Слабо выраженные эмоции - это характерно для людей с определенными типами личности;

* Плохо интерпретируемые эмоции - как на изображении;

* Двойные эмоции - ностальгия (грусть об ушедшем счастье) или азарт (игривая агрессия).

Кроме того, важно знать цель распознавания. Что для нас важнее важнее, определить нейкий паттерн морщин на лице человека, который формально можно причислить к некой категории, или же его внутреннее состояние? А ведь это совсем не одно и тоже!
Иногда эта дилемма проявляется особенно ярко.

Ужас? Гнев? Радость!
Ужас? Гнев? Радость!

Очень часто, чтобы правильно классифицировать эмоции нужен контекст и наблюдение в динамике. А значит эмоции лучше всего определять по последовательности связанных кадров, где видны не только ключевые точки лица, но и их изменения на протяжении некого периода времени. Это связано с тем, что эмоции не являются чем-то статичным, как рост или размер обуви. Для их полноценного выражения требуется некий временной лаг.

Три кита качества

Целью создания и обучения любой модели является высокая точность предсказаний на новых данных. Как этого достичь в контексте нашей задачи?

Глобально можно выделись три основных фактора:

  1. Качество данных - размер, разнообразие, точность передачи;

  2. Архитектура нейросети - актуальность, глубина, регуляризация и прочее;

  3. Гиперпараметры - скорость обучения, методы измерения качества/потерь, оптимизатор и т.д.

Каждый из них одинаково важен при построении модели и не может быть скомпенсирован другими. Например, глубина сети или ее технологичность не могут устранить проблему некачественных данных. Хорошо подобранные параметры, слои аугментации, регуляризация и т.д. могут лишь улучшить то, что уже есть, но не исправить. Поэтому так важно уделить внимание всем этим факторам!

Для подробного рассмотрения каждого из них будет посвящена отдельная глава.

Конец первой части.

Комментарии (4)


  1. digtatordigtatorov
    26.06.2024 15:18
    +3

    Походу частей будет Овер много. Зачем так много и так понятной информации? Почему нельзя сразу перейти к разработке кода? Может лучше уделить внимание деталям? Подходом в программном решении? Что необычного? Что нового? Мне лично интересно читать как инженер мысли столкнулся с проблемой и пытается ее решить. Для чего плодить демагогию? Вопросов много, а ответов не надо, надо качественные статьи делать.

    Слишком коротко…


  1. KuzMax13 Автор
    26.06.2024 15:18
    +3

    1. Частей будет только 3 - это явно написано в статье.

    2. То что понятно вам, не всегда понятно другим. Здесь рассматривается принципиальные моменты, что мы считаем эмоцией и что классифицируем. Прежде чем что-то решать сначала нужно поставить задачу.

    3. Если ваши личные предпочтения противоречат статье, то зачем же так себя пытать? :) Ведь если есть вопросы к смыслу/качеству, то можно просто не читать или написать свою.

    4. На счет демагогии... Некоторые вещи могут быть понятными только на первый взгляд. Небо синее - это знают все. А почему именно оно синее - это знают лишь единицы. Я лишь хотел написать понятно, с самого начала и для тех, кто только вникает в тему. Поэтому уровень сложности стоит "простой".


  1. YAROSLAVBOGDANOV
    26.06.2024 15:18

    Интересный аспект систем компьютерного зрения, который может стать важным в том числе в клинической психологии и психиатрии, для дополнительной диагностики психических и поведенческих расстройств аффективной сферы. Хотелось бы добиться прикладного характера исследований в этой области.


  1. YAROSLAVBOGDANOV
    26.06.2024 15:18

    Многие хотят знать, что мы чувствуем, а лучше - что мы думаем. Специалистам в области психического здоровья это очень важно. К примеру для того, чтобы оценивать риск общественно опасного поведения или суицидного риска у лиц с психически и расстройствами. И здесь системы компьютерного зрения могут стать той чуткой собакой, которая сделает стойку, когда человек ещё ничего не видит и не слышит.