Дипфейк (deep fake) — это реалистичная манипуляция аудио-, фото- и видеоматериалами с помощью искусственного интеллекта для достижения максимального сходства с реальными изображениями и звуковыми дорожками. Само название «deep fake» объединяет в себе «глубокое обучение» (deep learning) и «подделку» (fake).

Выбор темы хакатона не случаен. Помимо того, что технология производства дипфейков (Generative Artificial Intelligence) названа агентством Gartner стратегическим трендом 2022 года, мы также наблюдаем постоянный рост случаев мошенничества и пропаганды с помощью сгенерированных аудио, видео и текстов. Для успешного противодействия таким технологиям важно понимать, как такой генеративный контент создаётся. 

За время хакатона командам необходимо было сгенерировать 10 аудиозаписей по 10 предоставленным текстам и далее презентовать решение жюри.

Хакатон проходил в очном формате в техно-коворкинге университета. Для участников был предусмотрен призовой фонд 110 тысяч рублей от РТУ МИРЭА. Победители также получили возможность пройти стажировку в  «Наносемантике». 

Для решения поставленной задачи студенческим командам был предоставлен набор данных (датасет) из 2 часов аудиозаписей с голосом американского президента Джо Байдена, программный код с предобученной нейронной сетью для синтеза речи и вычислительные мощности (сервер с видеокартой). Для более глубокого погружения участников в тему специалисты «Наносемантики» также провели 2 обучающих мастер-класса: «Современные методики генерации голосовых дипфейков и синтеза речи» и «Ключевые особенности распознавания голосовых дипфейков».

Перед хакатоном специалисты Наносемантики самостоятельно синтезировали Байдена:

А вот для сравнения неповторимый оригинал.

И ещё: ссылка на youtube.

Всего в соревнование вступило 46 студентов в составе 17 команд, до финала дошло 5 команд.

В состав жюри вошли: С.А. Кудж (ректор РТУ МИРЭА), А.А. Бакаев (директор Института кибербезопасности и цифровых технологий), Станислав Ашманов (генеральный директор «Наносемантики»), Павел Сухачёв, Антон Дробышев и Григорий Шершуков (ведущие специалисты и руководители отделов «Наносемантики»).

Результаты проектов оценивались судьями по следующим критериям:

  • Соответствие представленного результата поставленной задаче.

  • Реалистичность и качество звучания полученных аудиозаписей.

  • Презентация решения.

  • Креативный подход к решению задачи.

Итоги были подведены 24 апреля 2022 года после итоговых презентаций команд. 

Единогласным решением жюри победа была присуждена команде «Лирохвост» из РТУ МИРЭА. Команда показала лучший результат по клонированию голоса, а также добавила разработку генерации текста рэп-композиций на основе технологий gpt2. Помимо денежного приза в 50 тысяч рублей победители получили возможность пройти стажировку в «Наносемантике». 

Пример синтезированного аудио команды-победителя:

Второе место получила команда GENERAL. Ребята добавили в своё решение технологию синтеза голоса под видео (движение рта и губ) и получили денежный приз в 30 тысяч рублей.

Третье место и денежный приз в 30 тысяч рублей разделили три команды: Thunder Forward, Crazy Cats, Neural_Ducks. Их финальные проекты не были доработаны до конца, но в течение хакатона командам удалось опробовать несколько интересных технологических решений и креативно подойти к разработке.

Хакатон удался: тема дипфейков в последнее время стала особенно актуальной и вызвала большой интерес у студенческой аудитории. Участники проявили упорство и стремление к победе несмотря на то, что сама задача была достаточно сложной для неподготовленных команд, а времени на обучение моделей было критически мало (2 дня). 

По мотивам проведённого хакатона студенты сняли небольшой видеоролик.

Комментарии (1)


  1. webhamster
    25.05.2022 17:07
    -2

    был предоставлен набор данных (датасет) из 2 часов аудиозаписей с голосом американского президента Джо Байдена

    РТУ МИРЭА

    В РТУ МИРЭА так много носителей английского языка, что именно на нем нужно было проводить соревнования? Серьезно, в чем смысл генерить английскую речь для оценки русскоговорящей аудиторией? 95% тупо не услышат обертонов и других особенностей речи, которые могут указывать на дипфейковость.