Мы в лаборатории Fusion Brain уже много лет работаем на созданием мультимодальных моделей, способных работать с как можно большим числом данных разного типа. Не так давно, например, мы релизнули мультимодальную LLM OmniFusion 1.1, способную поддерживать визуальный диалог и отвечать на вопросы по картинкам, причём с поддержкой русского языка — и рассказали об этом на Хабре.
Мы также любим придумывать соревнования по этой теме. Так, команда Fusion Brain уже четвертый год готовит трек соревнования в рамках осенней конференции AIJ. Обычно это было соревнование, направленное на разработку мультимодальной модели для картинок и текста, а в прошлом году мы добавили аудио.
В этом году мы решили пойти дальше и сместить фокус на анализ видео и аудио во взаимодействии с человеком. Назвали соответствующе — Emotional Fusion Brain 4.0. Ниже — подробности и детали соревнования.
В этом году наш трек Emotional Fusion Brain Challenge 4.0 на AI Journey Contest сделал шаг по направлению развития эмоционального искусственного интеллекта AI‑ассистента. Участникам предстоит разработать универсальную мультимодальную модель для понимания видеозаписей социальных взаимодействий людей, таким образом улучшив визуальное восприятие внешних эмоциональных проявлений и поведения людей.
Модели участника должна уметь работать с тремя модальностями на входе: видео, аудио и текст. Каждой видеозаписи будет сопутствовать ряд вопросов на английском языке по ходу развития сюжета и по событиям, происходящим на записи. Ответы на вопросы, генерируемые мультимодальной моделью, будут определять, насколько успешно она справилась с пониманием содержания и степенью детализации этого понимания.
Для того чтобы оценить способности разработанной модели с разных точек зрения, мы собрали тестовый датасет, который покрывает три основные задачи:
Video QA — задача, в которой требуется четко и однозначно ответить на вопросы по видеозаписи. Модель должна извлечь важную визуальную информацию из набора кадров, создать на её основе полносвязный сюжет и связать его со знаниями о мире, чтобы правильно интерпретировать поведение и эмоции людей.
Video‑Audio QA — это усложнение стандартной задачи ответа на вопросов по видео с использованием аудио‑модальности в качестве важного источника информации. Чтобы полноценно понимать человека, мультимодальная модель должна уметь анализировать тон, высоту и силу вашего голоса, поскольку именно в них содержится ключ к нашему эмоциональному состоянию.
Video Captioning — задача, которая направлена на базовое понимание моделью искусственного интеллекта визуального повествования на видеозаписи. Мы ждем, что модель сможет качественно определить важные детали и свойства предметов на протяжении всего видеоряда.
В обеих задачах Question Answering (QA) мы предоставляем модели варианты ответа на заданный вопрос и ожидаем в качестве результата номер предпочитаемого варианта. А в задаче Captioning финальный ответ должен быть представлен в качестве текста.
Решением является JSON‑файл определённого формата, формирующийся в результате работы решения участника. На его основе будут рассчитаны две метрики.
Качество ответов на вопросы (QA‑задачи) предлагается оценивать с помощью классификационной метрики Accuracy (доля правильных ответов), которая основывается на внутренней оценке уверенности модели в вариантах ответа на вопрос по видеозаписи. А в роли метрики для оценки генерации ответов модели на задаче детального описания видео (Captioning) предлагается использовать общеизвестную метрику METEOR. Итоговая оценка мультимодальной модели (I, Интегральная метрика) будет сформирована путем агрегации значений метрик качества по всем типам задач.
Победителей будут определять на основе приватного лидерборда, сформированного по результатам интегральной метрики I (чем больше значение I, тем выше рейтинг участника на лидерборде).
В рамках соревнования также вводится две дополнительных номинации для топ-10 команд на приватном лидерборде:
В качестве первой дополнительной номинации предлагается применить разработанную мультимодальную модель к видеозаписям ролевой игры. На основе предоставленных видеозаписей из игры модель должна будет ответить на вопросы по процессу самой игры, определить роли участников и оценить правдоподобность тезисов, озвучиваемых и демонстрируемых игроками. Чем больше будет правильных ответов у модели, тем выше её позиция в рейтинге по первой дополнительной номинации.
Вторая дополнительная номинация стала уже традиционной — «Самое быстрое решение». В рамках этой номинации разработанные модели будут оценены по метрике наименьшего времени инференса, где наименьшее значение соответствует более оптимальному и быстрому решению.
Присоединиться к AI Journey Contest 2024 можно как самостоятельно, так и в составе команды — главное условие, чтобы все участники были старше 18 лет.
Познакомиться с заданиями можно уже сегодня, а решения нужно загрузить на платформу DS Works до 28 октября 2024 года.
В этом году победители этого соревнования разделят призовой фонд — 2,5 млн рублей. Информация об организаторе и полные правила конкурса — на сайте.
Желаем удачи!