Привет, Хабр!
Оценить выступление спортсмена – задача, которая с каждым годом не становится проще. Увеличиваются скорости, усложняются программы, появляются новые элементы и их связки. Сравните хотя бы выступления фигуристов или гимнастов в Лондоне, Рио, Ванкувере или Сочи и программы, за которые их предшественники получали золото полвека назад. Разницу ощутит даже тот, кто не следит за спортом.
А судьи кто? Пусть и прекрасно разбирающиеся в своей сфере, но все же обычные люди, которые устают, отвлекаются, моргают, поддаются эмоциям. Результат – спорные решения, после которых болельщики готовы отправить всю судейскую коллегию «на мыло».
Раз человек не идеален, то почему бы не компенсировать слабые стороны последними достижениями науки и техники. Очередной dead heat у финиша навел Эдварда Мейбриджа на мысль, что вовремя сделанная фотография пересекающих черту скакунов избавит от горячих споров и не менее горячих их последствий, когда ставки столь высоки. К практике перешли быстро и впервые фотофиниш во время скачек был использован уже в конце XIX века. Первый видеоповтор отметит в этом году 65-летний юбилей. В теннисе еще с 1970-х годов используется electronic line judge – компьютеризированная система, которая определяет куда приземлился мяч.
Такие системы эффективны, когда к победе ведет определенное действие (пересечь финиш первым, забить мяч в ворота, прыгнуть выше соперников и т. д.), но почти бесполезны, когда лучшего определяют, например, по технике выполнения элементов, их количеству и последовательности в программе. Здесь нужно что-то посложнее простого Instant Replay. Компания Fujitsu в качестве решения видит технологию 3D-сенсоров, которая позволяет в реальном времени сканировать, оцифровывать и оценивать движения атлетов. Подробнее о принципе ее работы под катом.
В мае 2016 года Fujitsu и Японская ассоциация гимнастики (Japan Gymnastics Association, JGA) заключили соглашение о совместных исследованиях для создания системы поддержки судей с использованием технологии трехмерного сканирования и распознавания. JGA со своей стороны предоставила Fujitsu практические знания судей, данные о спортсменах, а также среду для тестирования, Fujitsu же разработала прототип системы поддержки судей с использованием 3D-сенсоров.
Вы, наверное, скажете зачем изобретать велосипед. Есть хорошо известная технология motion capture, которую давно и успешно используют в киноиндустрии и геймдеве. Почему не применить ее? Ответ довольно прост. Десятки датчиков размером чуть меньше шарика от пинг-понга ощутимо мешают во время тренировок, не говоря уже о том, чтобы в них выпустить спортсменов на татами или игровое поле соревноваться за медали. Пытались, но применение такой технологии обычно ограничивалось лабораторными условиями. Конечно, собранные данные можно было использовать для оптимизации тренировок или предотвращения травм, но хоть немного облегчить жизнь судейскому жюри так и не удалось.
Больше пользы для судейства принесло развитие Интернета вещей и внедрение IoT-датчиков. Спрятанные в экипировке, в некоторых видах, например в стрельбе из лука или тхэквондо, они вполне успешно помогают определить кто из участников был лучше. В стрельбе из лука датчик определяет положение стрелы в мишени, в тхэквондо – позволяет оценить удары, которые пришлись по щиткам и шлему. Хотя идея далеко не нова, вспомним теннис, но с развитием IoT появляется все больше возможностей применять датчики в различных дисциплинах.
Правда, создать действительно универсальную систему для поддержки судей IoT-датчики не помогут. Во-первых, для каждого вида спорта придется подбирать свой тип датчика, во-вторых, датчики во многих случаях необходимо размещать непосредственно на спортсменах. В-третьих, они не помогут в реальном времени создать 3D-модель движения спортсмена, а значит не смогут быть применены в тех видах спорта, где оцениваются движения, техника и сложность элементов.
Выбор гимнастики в качестве отправной точки не случаен. Во-первых, гимнастика отличается наибольшим разнообразием движений, которые совершают спортсмены. Это позволит в перспективе собрать большое количество данных, создать на их основе базу движений с высокой степенью универсальности и использовать ее в других видах спорта.
Вторая причина более прозаична. Гимнастика популярный и хорошо развитый вид спорта в Японии. Также на фоне «старения» населения Японии (к 2035 году на долю пожилых людей будет приходиться почти треть от всего населения страны), правительство активно поддерживает инициативы, направленные на развитие спорта и здравоохранения. В итоге Fujitsu относительно легко получила всестороннюю поддержку и экспертную помощь от специалистов Японской ассоциации гимнастики и Международной федерации гимнастики, а также от других заинтересованных организаций.
Чтобы избавить от маркеров и датчиков, которые приходилось закреплять непосредственно на спортсменах, Fujitsu решила использовать глубинные изображения (то есть такие изображения, где в каждом пикселе хранится расстояние до объекта в этой точке, а не цвет) для анализа. Для выполнения трехмерного сканирования движений человека система использует трехмерные лазерные сенсоры, считывающие глубинные изображения, которые представляют собой контуры поверхности тела. После к полученным изображениям применяется технология распознавания скелета, чтобы определить положения суставов. Как раз это и позволяет точно рассчитать углы, связанные с положением локтей, коленей, позвоночника и т. д., и детально проанализировать движения тела на основе временного изменения значений этих углов. То есть судьи могут, опираясь на модель, полученную системой, определить была ли, например, спина гимнаста прямой во время выполнения элементов и принять решение о начислении штрафа.
Точная съемка быстрых движений спортсмена требует высокой частоты смены кадров и такого метода сбора глубинных изображений, который мог бы захватить все движения в высоком разрешении и на большом расстоянии. По этой причине стандартные камеры глубины сразу отпали. Несмотря на то, что такая камера получает информацию о глубине с высокой скоростью и с высоким разрешением, делать это она способна лишь с небольшого расстояния – не более 5 метров. Что сильно ограничивает их применения на площадках соревнований.
С лазерными сенсорами на основе технологии LIDAR (Light Detection and Ranging – обнаружение и определение дальности с помощью света) ситуация лучше. Они могут получать глубинные изображения объекта с расстояния до 15 метров, но скорость сканирования и качество изображений здесь зависит от конфигурации системы сканирования на проекционной стороне и оптической системы на стороне обнаружения. Например, в системе с вращающимся многоугольным зеркалом после каждой строки сканирования система должна ждать поворота зеркала в определенное положение, чтобы начать следующий процесс сканирования, что сильно снижает скорость.
Применение зеркал на базе микроэлектромеханических систем (МЭМС) позволяет значительно повысить скорость сканирования, но и тут потребовалось «доработать напильником». Для того, чтобы использовать систему сканирования на основе лазерных сенсоров и МЭМС-зеркал в спорте, требуется более чем в десять раз увеличить число точек сканирования по сравнению с существующей технологией LIDAR, а значит необходимо увеличить скорость сканирования МЭМС-зеркал. Иначе не удастся получать изображения в высоком разрешении.
Поэтому потребовалось уменьшить размер МЭМС-зеркала с помощью увеличительной линзы для углового сканирования (scanning angle magnifying lens). Если проецирование и обнаружение света выполняется коаксиальным образом, уменьшение размера МЭМС-зеркала, которое также используется для обнаружения, предотвратит отражение всего света от цели, тем самым уменьшив количество света на фотоприемнике. Чтобы обеспечить достаточное количество обнаруживаемого света, Fujitsu была использована оптическая система с разделенными блоками проекции и обнаружения.
На рисунке ниже показана конфигурация трехмерного лазерного сенсора, разработанного Fujitsu Laboratories, который оснащен оптической разделенной системой проекции/обнаружения с использованием МЭМС-зеркала.
Для измерения расстояния до цели в этой системе используется метод времени пролета (Time of Flight, ToF), который измеряет время от проецирования лазерного импульса до определения его отражения. Отметив время, необходимое для проецирования лазерного импульса, отражения от цели и обнаружения на блоке обнаружения как ?T и скорость света как c (приблизительно 300 000 км/с), можно задать расстояние d до цели с помощью следующего уравнения:
d=(c??T)/2
Но на этом сложности не закончились. Во-первых, было важно обеспечить относительную свободу позиционирования сенсоров, так как не всегда получается выставить их на определенном и неизменном расстоянии от объектов, ведь все площадки для соревнований разные. К примеру, сенсор получил глубинное изображение объекта в высоком разрешении, когда он находился на близком расстоянии. Но если объект переместится дальше от сенсора, то разрешение изображений упадет, при условии, что угол обзора останется тем же. Чтобы этого избежать в систему добавили управление углом обзора.
Также надо было «отсечь» лишний свет, который попадает на систему (солнечный свет, прожектора, вспышки фотокамер и пр.). Для этого была разработана технология мультисегментного обнаружения света, благодаря которой система сканирования синхронизируется с сигналами управления МЭМС-зеркала для того, чтобы выборочно включить только тот фотоприемник, который получает наибольшее количество отраженного от объекта света, при этом отключив все остальные, на которые влияет окружающий свет.
Наконец, была добавлена синхронизация между несколькими блоками 3D-лазерных сенсоров, чтобы избежать слепых зон.
Итак, задача получения глубинных изображений движений спортсменов в высоком качестве и с высокой скоростью была решена. Дело осталось за малым – проанализировать их.
Технология распознавания скелета позволяет извлечь из глубинных изображений от 3D-сенсоров данные о положениях различных суставов человеческого тела. В таких видах спорта как спортивная и художественная гимнастика, фигурное катание, прыжки в воду и т. д. 3D-информация о положении суставов, их углов должна быть предельно точной, поскольку от этого зависит количество баллов, которое в итоге и определит победителя.
На следующем рисунке представлен принцип работы технологии, обеспечивающей высокую скорость и точность распознавания скелета. На подготовительном этапе систему уже обучили определять, где находятся суставы на изображении и создавать на их основе 3D-макет положения тела, но она также учится в процессе на новых данных, которые получает.
На этапе обучения создаются модели прогнозирования, которые выводят предполагаемые значения координат суставов, используя глубинные изображения. Для этого создавались глубинные изображения с помощью компьютерной графики из ранее полученных движений с координатами суставов для подготовки учебного набора для машинного обучения.
В итоге на этапе распознавания на многоточечные глубинные изображения, полученные с нескольких лазерных 3D-сенсоров, накладывается модель прогнозирования, созданная на этапе обучения, чтобы получить трехмерные координаты суставов (то есть распознать скелет). На этом этапе полученные координаты суставов используются в качестве исходных значений для нанесения человеческой модели на облако точек, соответствующее глубинным изображениям, полученным с каждого сенсора. Этот процесс называется «подгонкой». Чтобы координаты облака точек как можно ближе соответствовали координатам поверхности человеческой модели, используемой для подгонки, определяется «степень совпадения» (правдоподобность), а затем идет поиск координат с максимальной правдоподобностью, который позволит определить окончательные трехмерные координаты сустава.
При распознавании скелета с использованием машинного обучения точность, как правило, низкая, так как положения суставов определяются на основе модели прогнозирования. Тем не менее, этот последующий процесс подгонки повышает точность, сопоставляя положения суставов с фактическими измеренными значениями в соответствии с облаками точек от нескольких трехмерных лазерных датчиков. В это время точность измеренных значений в распознавании скелета на основе машинного обучения определяет диапазон подгонки и, следовательно, влияет на точность конечных результатов распознавания скелета и время обработки. Чтобы повысить точность распознавания скелета на основе машинного обучения, подготавливаются несколько моделей прогнозирования, которые объединяют такие положения тела, как передняя часть (front), стойка на руках (handstand) и задняя часть (rear), и применяется метод, который выбирает оптимальную модель прогнозирования путем определения положения тела перед распознаванием скелета. По сравнению с методом консолидации всех движений в единой модели прогнозирования, этот метод значительно повышает точность распознавания, ограничивая движения, которые должны быть изучены в модели прогнозирования.
Это изображение показывает результаты распознавания скелета на основе машинного обучения с использованием нескольких датчиков в соревнованиях на гимнастическом коне. При выполнении кругов на коне используется модель прогнозирования, соответствующая переднему положению, а для соскока используется модель прогнозирования, соответствующая стойке на руках. Эти результаты показывают, что переключение между моделями прогнозирования для разных типов положения тела позволяет с высокой точностью распознавать скелет даже для сложных движений, типичных для гимнастики.
Первая тестовая демонстрация системы была проведена в октябре 2016 на конгрессе Международной федерации гимнастики, после чего начались работы по реальному внедрению технологии. В октябре 2017 года на 47-м чемпионате мира по спортивной гимнастике в Монреале был проведен первый проверочный эксперимент с использованием фактических данных соревнований.
На Чемпионате мира по спортивной гимнастике в Штутгарте в 2019 году система Fujitsu была официально признана в качестве вспомогательного инструмента для оценки трудности выступлений в 4 видах: гимнастический конь, кольца, опорный прыжок (мужчины и женщины).
Стоит сказать, что использование системы 3D-сенсоров Fujitsu не ограничивается только помощью судьям. Потенциальных сценариев применения множество.
Следя за выступлениями гимнастов, система учится распознавать самые разнообразные и сложные движения. Поэтому в скором времени можно будет адаптировать ее применение для других видов спорта, необходимо только определить подходящую модель прогнозирования для каждой конкретной дисциплины. Это не только поможет судьям быстрее принимать решения, что благотворно скажется на количестве выступлений в телетрансляциях (меньше совещаний жюри – больше времени перед камерами для спортсменов), но также поможет зрителям лучше понимать происходящее на площадке. Обработанные изображения со сканеров превосходно подходят для визуализации отдельных моментов выступления (выполнение сложных элементов, ошибки).
Видео о работе системы и сценариях ее применения
3D-модели, полученные в результате сканирования, спортсмены и тренеры могут использовать для улучшения техники, оптимизации тренировок и предотвращения травм. Также подобная система открывает новые возможности для удаленных тренировок и консультаций, поскольку модели из системы позволяют намного лучше понять технику спортсмена, чем обычные видеозаписи. При этом движения человека здесь представлены в цифровом формате, а значит эти данные можно использовать для исследований.
Этот сценарий использования становится особо актуальным в текущий период. Сейчас передвижение людей даже между городами, а уж тем более между странами ограничены, спортсменам, тем не менее, необходима практика и грамотные консультации тренеров и других специалистов, чтобы не терять форму в ожидании того, когда спортивная жизнь вновь войдет в привычное русло.
Можно также отказаться от фолиантов «правил судейства» пестрящих статичными иллюстрациями и пространными текстовыми пояснениями того, как гимнасту надо исполнить упражнение. Будущее за приложениями, а на основе данных и моделей, полученных от 3D-сенсоров, получится прекрасное приложение для судей со сводом правил, динамическими подробными изображениями правильной техники выполнения, которое допускает минимум разночтений или двойных толкований.
Наконец, полученную систему 3D-сканирования и распознавания собираются использовать для реабилитации пациентов. Она помогает визуализировать восстановление подвижности суставов и правильно скорректировать лечение. Интересно, что данная технология изначально выросла из разработок Fujitsu Laboratories для реабилитации в медицинских учреждениях. Действительно, история циклична.
Полезные ссылки
3D Sensing Technology for Real-Time Quantification of Athletes' Movements
ICT-based Judging Support System for Artistic Gymnastics and Intended New World Created Through 3D Sensing Technology
«A step towards the future» with the first official use of Fujitsu technology to support judging at the 2019 Artistic Gymnastics World Championships
Оценить выступление спортсмена – задача, которая с каждым годом не становится проще. Увеличиваются скорости, усложняются программы, появляются новые элементы и их связки. Сравните хотя бы выступления фигуристов или гимнастов в Лондоне, Рио, Ванкувере или Сочи и программы, за которые их предшественники получали золото полвека назад. Разницу ощутит даже тот, кто не следит за спортом.
А судьи кто? Пусть и прекрасно разбирающиеся в своей сфере, но все же обычные люди, которые устают, отвлекаются, моргают, поддаются эмоциям. Результат – спорные решения, после которых болельщики готовы отправить всю судейскую коллегию «на мыло».
Раз человек не идеален, то почему бы не компенсировать слабые стороны последними достижениями науки и техники. Очередной dead heat у финиша навел Эдварда Мейбриджа на мысль, что вовремя сделанная фотография пересекающих черту скакунов избавит от горячих споров и не менее горячих их последствий, когда ставки столь высоки. К практике перешли быстро и впервые фотофиниш во время скачек был использован уже в конце XIX века. Первый видеоповтор отметит в этом году 65-летний юбилей. В теннисе еще с 1970-х годов используется electronic line judge – компьютеризированная система, которая определяет куда приземлился мяч.
Такие системы эффективны, когда к победе ведет определенное действие (пересечь финиш первым, забить мяч в ворота, прыгнуть выше соперников и т. д.), но почти бесполезны, когда лучшего определяют, например, по технике выполнения элементов, их количеству и последовательности в программе. Здесь нужно что-то посложнее простого Instant Replay. Компания Fujitsu в качестве решения видит технологию 3D-сенсоров, которая позволяет в реальном времени сканировать, оцифровывать и оценивать движения атлетов. Подробнее о принципе ее работы под катом.
В мае 2016 года Fujitsu и Японская ассоциация гимнастики (Japan Gymnastics Association, JGA) заключили соглашение о совместных исследованиях для создания системы поддержки судей с использованием технологии трехмерного сканирования и распознавания. JGA со своей стороны предоставила Fujitsu практические знания судей, данные о спортсменах, а также среду для тестирования, Fujitsu же разработала прототип системы поддержки судей с использованием 3D-сенсоров.
Вы, наверное, скажете зачем изобретать велосипед. Есть хорошо известная технология motion capture, которую давно и успешно используют в киноиндустрии и геймдеве. Почему не применить ее? Ответ довольно прост. Десятки датчиков размером чуть меньше шарика от пинг-понга ощутимо мешают во время тренировок, не говоря уже о том, чтобы в них выпустить спортсменов на татами или игровое поле соревноваться за медали. Пытались, но применение такой технологии обычно ограничивалось лабораторными условиями. Конечно, собранные данные можно было использовать для оптимизации тренировок или предотвращения травм, но хоть немного облегчить жизнь судейскому жюри так и не удалось.
Больше пользы для судейства принесло развитие Интернета вещей и внедрение IoT-датчиков. Спрятанные в экипировке, в некоторых видах, например в стрельбе из лука или тхэквондо, они вполне успешно помогают определить кто из участников был лучше. В стрельбе из лука датчик определяет положение стрелы в мишени, в тхэквондо – позволяет оценить удары, которые пришлись по щиткам и шлему. Хотя идея далеко не нова, вспомним теннис, но с развитием IoT появляется все больше возможностей применять датчики в различных дисциплинах.
Правда, создать действительно универсальную систему для поддержки судей IoT-датчики не помогут. Во-первых, для каждого вида спорта придется подбирать свой тип датчика, во-вторых, датчики во многих случаях необходимо размещать непосредственно на спортсменах. В-третьих, они не помогут в реальном времени создать 3D-модель движения спортсмена, а значит не смогут быть применены в тех видах спорта, где оцениваются движения, техника и сложность элементов.
Выбор гимнастики в качестве отправной точки не случаен. Во-первых, гимнастика отличается наибольшим разнообразием движений, которые совершают спортсмены. Это позволит в перспективе собрать большое количество данных, создать на их основе базу движений с высокой степенью универсальности и использовать ее в других видах спорта.
Вторая причина более прозаична. Гимнастика популярный и хорошо развитый вид спорта в Японии. Также на фоне «старения» населения Японии (к 2035 году на долю пожилых людей будет приходиться почти треть от всего населения страны), правительство активно поддерживает инициативы, направленные на развитие спорта и здравоохранения. В итоге Fujitsu относительно легко получила всестороннюю поддержку и экспертную помощь от специалистов Японской ассоциации гимнастики и Международной федерации гимнастики, а также от других заинтересованных организаций.
3D-сенсоры
Чтобы избавить от маркеров и датчиков, которые приходилось закреплять непосредственно на спортсменах, Fujitsu решила использовать глубинные изображения (то есть такие изображения, где в каждом пикселе хранится расстояние до объекта в этой точке, а не цвет) для анализа. Для выполнения трехмерного сканирования движений человека система использует трехмерные лазерные сенсоры, считывающие глубинные изображения, которые представляют собой контуры поверхности тела. После к полученным изображениям применяется технология распознавания скелета, чтобы определить положения суставов. Как раз это и позволяет точно рассчитать углы, связанные с положением локтей, коленей, позвоночника и т. д., и детально проанализировать движения тела на основе временного изменения значений этих углов. То есть судьи могут, опираясь на модель, полученную системой, определить была ли, например, спина гимнаста прямой во время выполнения элементов и принять решение о начислении штрафа.
Точная съемка быстрых движений спортсмена требует высокой частоты смены кадров и такого метода сбора глубинных изображений, который мог бы захватить все движения в высоком разрешении и на большом расстоянии. По этой причине стандартные камеры глубины сразу отпали. Несмотря на то, что такая камера получает информацию о глубине с высокой скоростью и с высоким разрешением, делать это она способна лишь с небольшого расстояния – не более 5 метров. Что сильно ограничивает их применения на площадках соревнований.
С лазерными сенсорами на основе технологии LIDAR (Light Detection and Ranging – обнаружение и определение дальности с помощью света) ситуация лучше. Они могут получать глубинные изображения объекта с расстояния до 15 метров, но скорость сканирования и качество изображений здесь зависит от конфигурации системы сканирования на проекционной стороне и оптической системы на стороне обнаружения. Например, в системе с вращающимся многоугольным зеркалом после каждой строки сканирования система должна ждать поворота зеркала в определенное положение, чтобы начать следующий процесс сканирования, что сильно снижает скорость.
Применение зеркал на базе микроэлектромеханических систем (МЭМС) позволяет значительно повысить скорость сканирования, но и тут потребовалось «доработать напильником». Для того, чтобы использовать систему сканирования на основе лазерных сенсоров и МЭМС-зеркал в спорте, требуется более чем в десять раз увеличить число точек сканирования по сравнению с существующей технологией LIDAR, а значит необходимо увеличить скорость сканирования МЭМС-зеркал. Иначе не удастся получать изображения в высоком разрешении.
Поэтому потребовалось уменьшить размер МЭМС-зеркала с помощью увеличительной линзы для углового сканирования (scanning angle magnifying lens). Если проецирование и обнаружение света выполняется коаксиальным образом, уменьшение размера МЭМС-зеркала, которое также используется для обнаружения, предотвратит отражение всего света от цели, тем самым уменьшив количество света на фотоприемнике. Чтобы обеспечить достаточное количество обнаруживаемого света, Fujitsu была использована оптическая система с разделенными блоками проекции и обнаружения.
На рисунке ниже показана конфигурация трехмерного лазерного сенсора, разработанного Fujitsu Laboratories, который оснащен оптической разделенной системой проекции/обнаружения с использованием МЭМС-зеркала.
Для измерения расстояния до цели в этой системе используется метод времени пролета (Time of Flight, ToF), который измеряет время от проецирования лазерного импульса до определения его отражения. Отметив время, необходимое для проецирования лазерного импульса, отражения от цели и обнаружения на блоке обнаружения как ?T и скорость света как c (приблизительно 300 000 км/с), можно задать расстояние d до цели с помощью следующего уравнения:
d=(c??T)/2
Но на этом сложности не закончились. Во-первых, было важно обеспечить относительную свободу позиционирования сенсоров, так как не всегда получается выставить их на определенном и неизменном расстоянии от объектов, ведь все площадки для соревнований разные. К примеру, сенсор получил глубинное изображение объекта в высоком разрешении, когда он находился на близком расстоянии. Но если объект переместится дальше от сенсора, то разрешение изображений упадет, при условии, что угол обзора останется тем же. Чтобы этого избежать в систему добавили управление углом обзора.
Также надо было «отсечь» лишний свет, который попадает на систему (солнечный свет, прожектора, вспышки фотокамер и пр.). Для этого была разработана технология мультисегментного обнаружения света, благодаря которой система сканирования синхронизируется с сигналами управления МЭМС-зеркала для того, чтобы выборочно включить только тот фотоприемник, который получает наибольшее количество отраженного от объекта света, при этом отключив все остальные, на которые влияет окружающий свет.
Наконец, была добавлена синхронизация между несколькими блоками 3D-лазерных сенсоров, чтобы избежать слепых зон.
Итак, задача получения глубинных изображений движений спортсменов в высоком качестве и с высокой скоростью была решена. Дело осталось за малым – проанализировать их.
Технология распознавания скелета
Технология распознавания скелета позволяет извлечь из глубинных изображений от 3D-сенсоров данные о положениях различных суставов человеческого тела. В таких видах спорта как спортивная и художественная гимнастика, фигурное катание, прыжки в воду и т. д. 3D-информация о положении суставов, их углов должна быть предельно точной, поскольку от этого зависит количество баллов, которое в итоге и определит победителя.
На следующем рисунке представлен принцип работы технологии, обеспечивающей высокую скорость и точность распознавания скелета. На подготовительном этапе систему уже обучили определять, где находятся суставы на изображении и создавать на их основе 3D-макет положения тела, но она также учится в процессе на новых данных, которые получает.
На этапе обучения создаются модели прогнозирования, которые выводят предполагаемые значения координат суставов, используя глубинные изображения. Для этого создавались глубинные изображения с помощью компьютерной графики из ранее полученных движений с координатами суставов для подготовки учебного набора для машинного обучения.
В итоге на этапе распознавания на многоточечные глубинные изображения, полученные с нескольких лазерных 3D-сенсоров, накладывается модель прогнозирования, созданная на этапе обучения, чтобы получить трехмерные координаты суставов (то есть распознать скелет). На этом этапе полученные координаты суставов используются в качестве исходных значений для нанесения человеческой модели на облако точек, соответствующее глубинным изображениям, полученным с каждого сенсора. Этот процесс называется «подгонкой». Чтобы координаты облака точек как можно ближе соответствовали координатам поверхности человеческой модели, используемой для подгонки, определяется «степень совпадения» (правдоподобность), а затем идет поиск координат с максимальной правдоподобностью, который позволит определить окончательные трехмерные координаты сустава.
При распознавании скелета с использованием машинного обучения точность, как правило, низкая, так как положения суставов определяются на основе модели прогнозирования. Тем не менее, этот последующий процесс подгонки повышает точность, сопоставляя положения суставов с фактическими измеренными значениями в соответствии с облаками точек от нескольких трехмерных лазерных датчиков. В это время точность измеренных значений в распознавании скелета на основе машинного обучения определяет диапазон подгонки и, следовательно, влияет на точность конечных результатов распознавания скелета и время обработки. Чтобы повысить точность распознавания скелета на основе машинного обучения, подготавливаются несколько моделей прогнозирования, которые объединяют такие положения тела, как передняя часть (front), стойка на руках (handstand) и задняя часть (rear), и применяется метод, который выбирает оптимальную модель прогнозирования путем определения положения тела перед распознаванием скелета. По сравнению с методом консолидации всех движений в единой модели прогнозирования, этот метод значительно повышает точность распознавания, ограничивая движения, которые должны быть изучены в модели прогнозирования.
Это изображение показывает результаты распознавания скелета на основе машинного обучения с использованием нескольких датчиков в соревнованиях на гимнастическом коне. При выполнении кругов на коне используется модель прогнозирования, соответствующая переднему положению, а для соскока используется модель прогнозирования, соответствующая стойке на руках. Эти результаты показывают, что переключение между моделями прогнозирования для разных типов положения тела позволяет с высокой точностью распознавать скелет даже для сложных движений, типичных для гимнастики.
Внедрение и применение
Первая тестовая демонстрация системы была проведена в октябре 2016 на конгрессе Международной федерации гимнастики, после чего начались работы по реальному внедрению технологии. В октябре 2017 года на 47-м чемпионате мира по спортивной гимнастике в Монреале был проведен первый проверочный эксперимент с использованием фактических данных соревнований.
На Чемпионате мира по спортивной гимнастике в Штутгарте в 2019 году система Fujitsu была официально признана в качестве вспомогательного инструмента для оценки трудности выступлений в 4 видах: гимнастический конь, кольца, опорный прыжок (мужчины и женщины).
Стоит сказать, что использование системы 3D-сенсоров Fujitsu не ограничивается только помощью судьям. Потенциальных сценариев применения множество.
Следя за выступлениями гимнастов, система учится распознавать самые разнообразные и сложные движения. Поэтому в скором времени можно будет адаптировать ее применение для других видов спорта, необходимо только определить подходящую модель прогнозирования для каждой конкретной дисциплины. Это не только поможет судьям быстрее принимать решения, что благотворно скажется на количестве выступлений в телетрансляциях (меньше совещаний жюри – больше времени перед камерами для спортсменов), но также поможет зрителям лучше понимать происходящее на площадке. Обработанные изображения со сканеров превосходно подходят для визуализации отдельных моментов выступления (выполнение сложных элементов, ошибки).
Видео о работе системы и сценариях ее применения
3D-модели, полученные в результате сканирования, спортсмены и тренеры могут использовать для улучшения техники, оптимизации тренировок и предотвращения травм. Также подобная система открывает новые возможности для удаленных тренировок и консультаций, поскольку модели из системы позволяют намного лучше понять технику спортсмена, чем обычные видеозаписи. При этом движения человека здесь представлены в цифровом формате, а значит эти данные можно использовать для исследований.
Этот сценарий использования становится особо актуальным в текущий период. Сейчас передвижение людей даже между городами, а уж тем более между странами ограничены, спортсменам, тем не менее, необходима практика и грамотные консультации тренеров и других специалистов, чтобы не терять форму в ожидании того, когда спортивная жизнь вновь войдет в привычное русло.
Можно также отказаться от фолиантов «правил судейства» пестрящих статичными иллюстрациями и пространными текстовыми пояснениями того, как гимнасту надо исполнить упражнение. Будущее за приложениями, а на основе данных и моделей, полученных от 3D-сенсоров, получится прекрасное приложение для судей со сводом правил, динамическими подробными изображениями правильной техники выполнения, которое допускает минимум разночтений или двойных толкований.
Наконец, полученную систему 3D-сканирования и распознавания собираются использовать для реабилитации пациентов. Она помогает визуализировать восстановление подвижности суставов и правильно скорректировать лечение. Интересно, что данная технология изначально выросла из разработок Fujitsu Laboratories для реабилитации в медицинских учреждениях. Действительно, история циклична.
Полезные ссылки
3D Sensing Technology for Real-Time Quantification of Athletes' Movements
ICT-based Judging Support System for Artistic Gymnastics and Intended New World Created Through 3D Sensing Technology
«A step towards the future» with the first official use of Fujitsu technology to support judging at the 2019 Artistic Gymnastics World Championships
Tachyon
Интересная система, здорово что применяют её. Но это похоже на попытку ''оцифровать'' красоту. В том смысле что есть конечно некий набор правил и измерений в гимнастике, да и в любом другом, совокупность которых больше чем они по отдельности. Как к примеру судить отклонение в градус в той же стойке на кольцах, у разных спортсменов, если у одного благодаря фигуре тела это не бросается в глаза, а у другого явно заметно. Или же наоборот, из-за разности в прокачанности разных мышц, у дного идеальная с точки зрения геометрии костей стойка выглядит не такой идеальной, как у того кто нарушил пару градусов, но так сложен, что этого визуально не заметно.
AlekseyTaraev Автор
Поэтому система и предназначена именно для помощи судьям в спорных ситуациях, а не для того, чтобы решать за них. Можно воспринимать в данном случае всю систему, как максимально прокачанный вариант видеоповтора, где изображение поступает не с одного или двух-трех ракурсов, а создается точная 3D-модель движений спортсмена, которую можно повертеть, приблизить, отдалить, ускорить/замедлить воспроизведение и т. д.