Примеры видеороликов из тестового набора

Российская компания NtechLab заняла второе место на конкурсе нейросетей ActEV: Activities in Extended Video среди алгоритмов, способных распознавать действия на видео. В конкурсе принимали участие 39 алгоритмов, в финальном этапе ActEV-PC Independent Evaluation остались семь участников.

Такие системы могут широко применяться в коммерческих системах. Например, это позволяет автоматизировать поиск неправильно припаркованных автомобилей, оставленных предметов, а также курящих в неположенных местах граждан — и оперативно оповещать об этих действиях полицию. Система автоматического распознавания действий для правоохранительных органов особенно эффективна в сочетании с обширной системой видеонаблюдения, которая работает в связке с системой распознавания лиц.

Первое место на конкурсе и приз $25 тыс. получила команда Пекинского университета почты и телекоммуникаций. Второе место — NtechLab ($15 тыс.), третье — Городской университет Гонконга и JD AI Research ($10 тыс.). Презентация систем победителей состоится 17 июня 2019 года на семинаре ActivityNet Workshop в рамках конференции CVPR 2019.

Конечно, для компании NtechLab стоимостью около $20?50 млн (это экспертная оценка стоимости сравнимой компании-конкурента «Вокорд», активы которой недавно приобрела китайская Huawei) денежный приз за второе место в размере $15 тыс. не кажется слишком значительным, но зато это престижно. Конкурсы Национального института стандартов и технологий США ставят задачей выявлять самые прогрессивные технологии, в том числе в области машинного зрения.

В конкурсе ActEV: Activities in Extended Video нейросетевые алгоритмы должны были определить, что происходит в кадре, и отправить оповещение о нужном событии (примеры видеороликов из тестового набора). В рамках конкурса программа должна была детектировать 18 типов действий (разговор по телефону, набор текстового сообщения, выход из транспортного средства, перемещение тяжёлого объекта и др.). Однако список событий, которые можно распознавать, принципиально не ограничен.

«На вход нейросети подаётся необработанное видео, и в её задачу входит обозначение того момента, когда интересующее действие началось и когда оно закончилось, — объяснил основатель компании NtechLab Артём Кухаренко. — Мы подобрали такую архитектуру свёрточной нейросети, которая подходила бы для обучения на последовательности кадров. Теперь мы можем, немного изменив алгоритм, заточить его на поиск любого интересующего нас действия».

По словам Кухаренко, сеть способна обучаться и на 20 фрагментах, но для максимальной точности распознавания требуется порядка тысячи примеров нужного видео. Фрагменты для обучения отбирают специалисты «группы разметчиков». Дальше эти видео подаются на вход нейронной сети, задаётся нужная архитектура и правила обучения. Если нейросеть демонстрирует хорошие показатели детектирования, она встраивается в продуктовое решение, к которому подключаются камеры. Как только алгоритм срабатывает, она посылает сигнал чрез внешний интерфейс.

Очевидно, что такие системы машинного зрения очень полезны для наблюдения за действиями людей в разных ситуациях, особенно в охранных системах: «Видеоаналитика на основе распознавания действий будет полезна с точки зрения безопасности — камера оповестит правоохранителей о начинающихся конфликтных ситуациях, о людях, оставляющих предметы или курящих в общественных местах», — сказал генеральный директор NtechLab Александр Минин.

Разработчики говорят, что систему машинного зрения можно использовать, например, в медучреждениях для контроля за соблюдением правил ухода за пациентами или в качестве составной части комплекса «умного города».

NtechLab уже ведёт переговоры по внедрению системы машинного зрения с промышленными и энергетическими предприятиями, а также с нефтегазовыми компаниями. Коммерческий продукт на базе нейросети для распознавания действий выйдет в ближайшее время: «Буквально через несколько месяцев мы представим обновление нашего решения FindFace Security, позволяющее распознавать не только лица, но и силуэты людей. Распознавание действий выведет решение на принципиально новый уровень: оно даст возможность использовать любую камеру, даже с самым низким разрешением, и обнаруживать действия тех людей, лица которых не видны. Необходимость использования биометрических данных даже в безличной форме уходит в прошлое», — сказал Александр Минин.

Компания NTechLab хорошо известна массовой аудитории по программе FindFace, которую использовали для деанонимизации пассажиров питерского метро и российских порноактрис.

Комментарии (4)


  1. oracle_and_delphi
    07.06.2019 14:25

    Теперь видеокамеры смогут автоматически определять смотрел ли человек на цветы:

    Если не хватает поводов обвинить человека, надо их придумать. Если внушить человеку, что смотреть на весенние цветы – преступление и он нам поверит, а потом взглянет на них, мы сможем делать с ним что хотим. Он не будет защищаться.

    Айн Рэнд, из книги «Атлант расправил плечи», 1957


    Например, парни посмотревшие на девушку — будут автоматически получать вызов в суд с обвинением в домогательстве по принципу неизбежности наказания.


    1. Juster
      08.06.2019 10:57

      А когда-то и электричества боялись и автомобилей. Это просто страх перед новым.


    1. epishman
      08.06.2019 12:27

      Главное, детектировать направление взгляда, и мыслепреступление раскрыто :)


  1. UnrealQW
    08.06.2019 18:05
    +1

    Аж гордость распирает за эту… кипрскую компанию: synapsenet.ru/searchorganization/organization/1157746622109-ooo-nteh-lab
    www.rusprofile.ru/foreign/60962