Команда исследователей из компании Microsoft и Классического университета Центрального Китая опубликовала исходный код алгоритма отслеживания объектов, работающего на основе машинного обучения. Исследователи надеются, что алгоритм будет полезен для обеспечения безопасности а также для отслеживания распространения заболеваний.
Алгоритм, который получил название Fair Multi-Object Tracking (FairMOT), по утверждению разработчиков, превосходит существующие модели отслеживания и идентификации объектов на видео.
Как объясняет команда, большинство современных алгоритмов такого рода работают в два этапа. На первом этапе используется модель обнаружения, которая определяет местонахождение объектов, представляющих интерес. На втором этапе работает модель поиска ассоциации, которая распознаёт индивидуальные черты объекта и присваивает им якоря. FairMOT, реализованный на основе сверточной нейросети (DCNv2, Deformable Convolutional Network), работает без привязки якорей, вместо этого используя механизм повторной идентификации. Параллельно вторая ветвь алгоритма выявляет индивидуальные черты объекта, которые используются для установки их идентичности. Это позволяет добиться заметного повышения скорости отслеживания объектов.
«В последние годы был достигнут значительный прогресс в обнаружении и повторной идентификации объектов. Тем не менее, мало внимания было уделено выполнению двух задач в одной сети для повышения скорости отслеживания. Первоначальные попытки на этом пути закончились ухудшением результатов, главным образом потому, что ветвь повторной идентификации не изучена надлежащим образом, — указывают исследователи в статье, посвящённой FairMOT. — Мы считаем, что использование якорей при обнаружении объектов является основной причиной ухудшения результатов. В частности, множество якорей, которые присваиваются разным частям объекта, могут привести к неоднозначным результатам в процессе обучения сети».
В ходе обучения модели FairMOT исследователи воспользовалась шестью общедоступными наборами данных для обнаружения и поиска людей — ETH, CityPerson, CalTech, MOT17, CUHK-SYSU и PRW. После обучения модель протестировали на подборках видео, предоставленных проектом MOT Challenge, который специализируется на проверке алгоритмов отслеживания объектов. Тесты показали, что FairMOT показывает лучшие результаты по сравнению с двумя похожими моделями, — TrackRCNN и JDE — которые одновременно обнаруживают и идентифицируют объекты.
Новый алгоритм при проверке на видеопотоках с частотой 30 кадров в секунду показал скорость отслеживания объектов, сравнимую со скоростью воспроизведения самого видео. Такая производительность, отмечают исследователи, позволит идентифицировать объекты без промедления.
Код метода опубликован на GitHub. В дополнение к исходному коду FairMOT исследовательская группа предоставила несколько предварительно обученных моделей, которые можно использовать на живой трансляции или записанном видео.
Как указывают авторы алгоритма, они рассчитывают, что его повсеместное внедрение будет полезно во множестве отраслей — от от ухода за пожилыми людьми и обеспечения безопасности до вероятного отслеживания распространения инфекционных заболеваний.
DesertFlow
Отслеживание объектов (Object Tracking) в последнее время очень активно развивается. Почти каждый день выходят по одной-две статьи на эту тему. Просто оставлю ссылку на работы с исходниками и предобученными нейросетями (на данный момент ~104 шт): https://paperswithcode.com/task/object-tracking.
Ну а для тех кто хочет узнавать о последних новинках, в том числе без исходников, работы по Object Tracking'у в большинстве своем публикуются среди остальных по компьютерному зрению на https://arxiv.org/list/cs.cv/recent