В NYU Tandon разработан способ сократить трафик для объёмного видео в 7 раз — без потери качества
Новая технология, разработанная в NYU Tandon School of Engineering, способна коренным образом изменить опыт пользователей в среде виртуальной и дополненной реальности. Метод позволяет напрямую предсказывать, что будет видно пользователю в 3D-сцене — без необходимости передавать весь объём данных. Это даёт экономию трафика до семикратной по сравнению с традиционными подходами.
Результаты были представлены 1 апреля 2025 года на 16-й конференции ACM по мультимедийным системами уже находят применение в рамках проекта по обучению танцу с использованием 3D-видео — при поддержке Национального научного фонда США (NSF).
Как это работает: система "смотрит глазами пользователя"
Как объясняет профессор Йонг Лю (Yong Liu) из департамента электротехники и вычислительной техники NYU Tandon, «традиционные стриминговые технологии передают весь кадр целиком. Наша система работает иначе — она передаёт только то, что реально попадает в поле зрения пользователя. Как будто камера следует за глазами».
В классических AR/VR-сценариях — особенно в облачном видео, где каждый кадр представляет собой облако из миллиона точек — нагрузка на канал достигает 120 Мбит/с. Это делает технологию малопригодной для массового применения.
Новый метод устраняет промежуточный этап прогнозирования взгляда и сразу определяет, какие объекты будут видимы в ближайшем будущем. Это снижает ошибку предсказания и увеличивает точность.
Архитектура: графы, трансформеры и RNN
Сцена делится на "ячейки", каждая из которых рассматривается как узел в графе. Используется графовая нейросеть на трансформерах для оценки пространственных связей и рекуррентная нейросеть для учёта временной динамики.
Что особенно важно — система умеет предсказывать, что будет видно через 2–5 секунд, тогда как большинство существующих решений ограничены долями секунды. Это особенно ценно для предзаписанных VR-экспириенсов и онлайн-обучения.
В два раза точнее и в реальном времени
Согласно исследованию, метод уменьшает ошибку предсказания на 50% по сравнению с предыдущими подходами. Производительность при этом сохраняется на уровне более 30 кадров в секунду, даже при обработке более 1 миллиона точек на кадр.
Для конечных пользователей это означает:
более отзывчивый VR/AR-контент
меньшее потребление трафика
отсутствие зависимости от высокоскоростного интернета
Применение: танец в 3D на обычных устройствах
Разработка применяется в проекте NYU Tandon и NSF, направленном на 3D-преподавание танца. Облачное видео позволяет обучаться с любого устройства, включая обычные ноутбуки и планшеты, без необходимости в мощном соединении.
«Мы наблюдаем, как AR/VR переходит из области нишевых решений в повседневные задачи — от образования до развлечений. А пропускная способность всегда была сдерживающим фактором. Эта работа устраняет это ограничение», — подчёркивает Йонг Лю.
Кто стоит за проектом
Авторы исследования:
Chen Li и Tongyu Zong — аспиранты NYU Tandon (кафедра электротехники)
Yueyu Hu — аспирант кафедры электротехники и электроники
Yao Wang — профессор NYU Tandon, работающий в ECE, биомедицинском отделе, центре CATT и лаборатории NYU WIRELESS
Проект получил поддержку по гранту NSF №2312839. Исходный код опубликован в открытом доступе для дальнейшего развития технологии.