Команда исследователей Disney из Direct-to-Consumer&International Organization (DTCI) создала платформу машинного обучения, чтобы помочь автоматизировать цифровое архивирование мультипликации. Архив студии включает почти столетнюю историю анимации, и для поиска определенных персонажей, сцен или объектов нужно выполнить большую работу. Новая система поможет изменить способы поиска и обнаружения потокового контента.
Платформа CG (Content Genome, Геном контента) создана для наполнения графов знаний метаданными контента. Она работает примерно так же, как поиск Google, если, к примеру, нужно найти информацию о Стиве Джобсе.
Приложения на ИИ смогут использовать эти данные для улучшения функций поиска, обнаружения и персонализации. Они будут помогать аниматорам находить конкретные кадры в архиве Disney.
Проект стартовал в 2016 году после нескольких лет исследований. Группа создала то, что она описывает как «первый конвейер автоматической маркировки».
«Маркировка контента является важным компонентом использования контролируемого обучения в DTCI», — отмечают разработчики.
Конвейер использовал существующее программное обеспечение для распознавания лиц, которое команда DTCI затем применила к своему каталогу фильмов и телешоу. Модуль смог успешно обнаруживать и распознавать человеческие лица по экранным действиям. Затем команда смогла также обучить систему определять конкретные места. Но распознать лицо человека по видео в реальном времени — это совсем не то, что научить ИИ определять анимированные лица. «Нам нужно было что-то, что может выучить абстрактную концепцию «лица», и с традиционным машинным обучением добиться этого было бы очень сложно. Благодаря глубокому обучению мы смогли этого достичь», — говорит команда.
Исследователи пытались применить модель распознавания лиц в реальном времени к анимированному контенту. Оказывается, что методы машинного обучения, такие как HOG + SVM, хорошо работают при выборе изменений цвета, яркости и текстуры, но они смогли выделить анимированные лица, только если они были прорисованы в человеческих пропорциях. После этого исследователи обратились к методам глубокого обучения.
Тут они столкнулись с новой проблемой, которая заключалась в том, что наборы данных для глубокого обучения носят массивный характер. Поэтому команда использовала необходимые ей образцы для точной настройки архитектуры обнаружения объектов Faster RCNN, которая уже была обучена обнаружению анимированных лиц с использованием другого набора данных, отличного от Disney. По сути, команда взяла за основу уже обученную архитектуру и адаптировала ее к своему контенту.
После незначительной корректировки набора данных исследователи объединили свой анимированный детектор распознавания лиц с другими алгоритмами, такими как трекеры ограничивающего прямоугольника, чтобы сократить время обработки и повысить эффективность.
Процесс маркировки не полностью автоматизирован, люди могут контролировать результаты, полученные системой, в зависимости от того, как эти данные используются.
Эта технология может оказаться полезной и для потребителей. Механизмы рекомендаций и обнаружения могут сделать поиск конкретного эпизода или персонажа более точным и эффективным.
См. также:
Haarolean
Теперь страйки на ютубах будут точнее :)