Конференция VideoTech появилась, когда в пандемию мы переносили свои мероприятия в онлайн и захотели разобраться, как делать это лучше всего. Поначалу сама она и была сугубо онлайн-мероприятием. Но затем добавилась офлайн-часть, и в этот раз она впервые продлится целых два дня. Так что все, кто соберется в Москве, смогут наобщаться вволю. А кто не готов приехать лично, сможет даже доклады офлайн-части посмотреть удалённо.
А что именно будут за доклады в этот раз? Программа готова, и представляем её Хабру. Для удобства она разбита на тематические блоки, но это деление отчасти условное: зачастую одному докладу подходят сразу несколько тем.
Содержание
Кейноуты
Аналитика
WebRTC
Задержка
Качество видео
Кодеки
Компьютерное зрение
ML
Плееры
WebTransport
Достоверность контента
Кейноуты
Оба офлайн-дня будут начинаться с «открывающего» доклада, где не уходят в узкую тему, а смотрят на «большую картину»:
Последние кадры реальности, или История видео будущего
Александр Тоболь
IT-предприниматель
Поговорим об истории видео: начнем с 90-х и первых попыток стриминга, а закончим в будущем.
Проанализируем развитие видеоиндустрии, технологий стриминга, архитектуры высоконагруженных сервисов. Посмотрим, какие технологии стали определяющими, какие захватили рынок, а какие — ушли. Ну и, конечно, взглянем на тренды: займемся блиц-трендвотчингом и предскажем следующие возможные инновации в области видео и технологий.
Cколько стоит сделать видеоплатформу, и зачем это (не)нужно делать
Иван Карев
Okko
Вместе с Иваном порассуждаем о том, почему пара десятков компаний делают примерно одно и то же, тратя массу времени и денег. Попробуем понять, к чему мы все идем и как сделать этот путь короче.
Аналитика
Методы ускорения инференса нейронных сетей на примере видеоналитики
Александр Шалимов
Инвентос
Александр осветит актуальные вопросы применения и оптимизации нейронных сетей в реальных условиях. На примере задачи обработки видео с камер дорожного наблюдения и обнаружения транспортных средств продемонстрирует, как методы оптимизации могут значительно улучшить производительность нейронных сетей, применяемых в видеоаналитике.
Как мы анализируем проблемы пользователей в видеоплатформе Яндекса
Дмитрий Виноградов
Yandex Infrastructure
Дмитрий расскажет о том, что в видеоплатформе может пойти не так и почему.
На примере видеоплатформы Яндекса рассмотрим, к чему должен быть готов бэкенд, перед тем, как начать собирать и анализировать данные ваших пользователей. Подумаем, какую именно информацию полезно собирать из разных компонент видеоплатформы.
Спикер покажет, как в Yandex Infrastructure анализируют сессии пользователей и какой инструмент для этого используют. Также поговорим об альтернативных инструментах для реализации подобного функционала.
WebRTC
Управляем заторами в канале при раздаче видео с сервера видеоконференции
Михаил Доильницын
VK
Алексей Доильницын
VK
При раздаче живого видео с сервера видеоконференции SFU главной целью является обеспечение высокого качества видео на стороне клиента — плавное воспроизведение и четкость картинки. При этом критически важным элементом является грамотное управление заторами (Server side Bandwidth Estimation) в мобильной сети.
Спикеры расскажут, как сделать управление быстрым и плавным, используя в качестве обратной связи расширение TCC, как определять состояние канала и его пропускную способность. Поделятся успешным опытом внедрения этого подхода для высоконагруженного серверного приложения VK Звонки.
Real-time стриминг IP-камер в разных форматах средствами open source
Алексей Хить
Алексей поделится своим опытом создания open source-приложения для стриминга камер в режиме реального времени – go2rtc. Проекту всего год, но его уже скачали более 200 тысяч раз из Docker Hub и более 150 тысяч раз из релизов GitHub. А ряд open source-проектов встроили его в качестве основного стримингового «ядра».
Задержка
Ultra-Low Latency Streaming. В погоне за совершенной доставкой видео
Кирилл Черников
VK Play
Рассмотрим вопросы доставки видео в условиях ультранизкой задержки. Немного поговорим об архитектуре и принципах построения приложений управления в режиме реального времени на примере облачного гейминга.
Поговорим о том, что подразумевается под совершенной доставкой видео, что мешает реализации такой доставки и какие механизмы и принципы используются.
Детально обсудим метрики, которые используют в проекте VK Play Cloud, а также подробно разберем два улучшения механизмов доставки видео, протестированные в 2023 году. Проанализируем полученные результаты и их влияние на видение того, что такое совершенная доставка видео в условиях ультранизкой задержки.
Ускорение первого кадра в сценарии просмотрового окна (техническое и визуальное) со стороны продукта
Павел Соколов
Okko
Николай Животворев
Okko
Спикеры расскажут, какие шаги предпринять на стороне продукта для того, чтобы ускорить сценарий: от пользовательского действия — клик по карточке видео, переход по ссылке в браузере — до первого кадра видео. Узнаем, как технически уменьшить время и улучшить восприятие скорости за счет UI.
Фокус на шагах, которые можно выполнить в продукте. Доклад про веб, но большая часть актуальна и для натива (в вебе больше специфичных для платформы проблем). Также будет часть про ABR, оптимизации внутри движка.
Timed Metadata in Live Streaming: проблемы и возможности
Сергей Очкасов
Атмосфера
При разработке приложений с использованием видео с низкой задержкой (0,5–2 с.) может возникнуть необходимость в синхронном отображении в UI событий, происходящих на съемочной площадке. Почему это важно, и почему это может быть непростой задачей?
На примере комплексной системы доставки видео, разработанной в Атмосфере, спикер покажет суть проблемы и пример ее решения. Расскажет об устройстве части кодирования видео, немного о CDN в части передачи видео и о том, как они используют для этого SRT. Дойдем до воспроизведения видео у конечного клиента.
В качестве бонуса Сергей продемонстрирует интересные функции для анализа и мониторинга, полученные в ходе работы, а также поделится инсайдами.
Качество видео
Как мы в VK Звонках измеряем качество видео
Алексей Шпагин
VK
Возможно ли численно измерить качество видео? Да! И в VK Звонках знают как.
Спикер коснется особенностей передачи видео в видеозвонках и расскажет об инструментах команды для измерения качества видео – в том числе с применением эмуляции неблагоприятных сетевых условий. А также представит примеры видео и результаты замеров качества с помощью методик VK Звонков.
Дмитрий Пискунов
KION
В онлайн-кинотеатре KION команда спикера столкнулась с проблемой, что клиенты не смотрели видео в максимально доступном качестве. Они провели исследование, и выявили, что профили видео выбраны не оптимально. С помощью математической модели они оптимизировали набор профилей и внедрили их. Повторный анализ показал улучшение примерно на 20%.
В докладе спикер поделится своим опытом, как они решили эту проблему и расскажет, как оцифровать качество видео и измерить его, а также какая есть связь между продуктовыми метриками и качеством видео в онлайн-кинотеатре.
Целевая аудитория доклада: технические вертикали, продуктовые вертикали онлайн-кинотеатров и стриминговых сервисов.
QoE-метрика в видеоплеере Яндекса
Василий Коровин
Yandex Infrastructure
История единой метрики качества работы видеоплеера. Что это такое и зачем?
QoE — это не единая метрика, а, скорее, название всего, что отвечает на вопрос, насколько пользователи удовлетворены сервисом. Например, в Huawei качество видео измеряют метрикой U-vMOS, а для оценки качества сетевых игр провайдеры используют G-метрику.
В момент появления видеоплеера, не имея толковых логов работы, Василий с командой пытались «копать» в сторону своей QoE-метрики. Первой попыткой была простая доля успешных ответов CDN. А с каждым улучшением логирования пробовали новые подходы. Таким эволюционным путем они подошли к новому подходу, в котором сформулировали свои требования к QoE-метрике: простота, понятность, отзывчивость в отношении изменений.
Команда выбрала 6 параметров, которые легко считываются, влияют на качество видеосмотрения и важны с точки зрения пользователя. Кроме того, на параметры можно влиять и проверять на них гипотезы А/В-тестированием.
Эти параметры — наличие фатальных ошибок, продолжительность старта видео, количество и длительность прерываний во время просмотра, качество видео в сравнении с экраном.
Каждому параметру задали границы, в пределах которых можно считать сессию хорошей, средней или плохой. По худшему параметру дают итоговую оценку сессии и «завязываются» на метрику распределения хороших/средних/плохих сессий.
Кодеки
Видеокодек с межкадровым декодированием и быстрым покадровым кодированием
Евгений Беляев
Университет ИТМО
Евгений представит способ сжатия видео на основе compressive sensing. В этом подходе для каждого кадра по отдельности (интра-режим) берется малое (по сравнению с исходным количеством пикселей) число псевдослучайных измерений, которые квантуются и энтропийно кодируются. Способ взятия измерений предлагается выбрать таким образом, чтобы он мог быть реализован без делений и умножений, что позволяет получить кодер с очень низкой сложностью. Задача декодера – восстановление исходной видеопоследовательности из принятых измерений с учетом межкадровой схожести.
AVS3, Enabling the Efficient Video Delivery for UHD Broadcasting and Streaming
Jianhua Zheng
Peking University
AVS3, Enabling the Efficient Video Delivery for UHD Broadcasting and Streaming
(https://vtconf.com/talks/18a0492ed7c847b5b98dabba4ae602e2/?utm_source=social&utm_medium=tg&utm_campaign=post&utm_term=speakers&utm_content=Zheng)
Цзяньхуа Чжэн (Jianhua Zheng) 18 лет занимается стандартизацией видеокодирования. Он был сопредседателем видеогруппы AVS, а сейчас — научный сотрудник Пекинского университета и возглавляет группу по международной коммуникации и продвижению AVS.
На VideoTech 2023 он расскажет о семействе стандартов кодирования видео AVS. Поговорим о ключевых инструментах и особенностях двух профилей AVS3, сравним их с другими современными кодеками. Посмотрим на результаты тестов, которые показывают уменьшение битрейта примерно на 40% по сравнению с HEVC.
Выступление будет на английском языке.
Как экономить битрейт без вреда для пользователей
Константин Торопин
Яндекс
Константин расскажет про способ оптимизации видео, который применяется в Кинопоиске, и как с его помощью удалось значительно снизить битрейт. Обсудим его эффективность. Узнаем, как в команде пришли к такому конкретному методу и как они смотрят на его развитие.
Computer vision
Какие бывают дипфейки лица и как их детектировать
Александр Паркин
VisionLabs
Доклад будет состоять из двух частей.
Первая – обзорная: о том, что такое дипфейки, какие бывают подзадачи в контексте замены лица, какие бывают алгоритмы создания.
Вторая часть потребует начального опыта в компьютерном зрении: подробнее изучим несколько методов детекции замены лица или любого другого изменения. Поговорим как про архитектуры сетей, так и про генерацию синтетических данных для этой задачи.
Лидар — основной сенсор системы технического зрения беспилотных автомобилей
Георгий Никандров
Яндекс Беспилотные Технологии
Георгий расскажет о лидаре – лазерном сканере, который отправляет миллионы импульсов за секунду в различных направлениях вокруг себя. Определяя время между излучением импульса и его возвращением после отражения, устройство, зная скорость света, определяет дальность до окружающих объектов. В результате получаются так называемые облака точек, из которых строятся 3D-карты высокого разрешения. Эти данные используются для обучения нейронных сетей, чтобы строить оптимальные траектории движения автомобилей и роботов, а также для непосредственного обнаружения препятствий в режиме онлайн.
Валерий Ильин
Яндекс
Доклад о роботе Spectro, которого разрабатывает робототехническое направление Яндекс Маркета, а также о системе сканирования робота.
Спикер представит общий алгоритм системы сканирования. Особое внимание уделит используемым на роботе камерам. Так как платформа динамическая, команде пришлось использовать Global Shutter-камеры и синхронизировать их — как программно во время первой итерации, так и аппаратно во второй ревизии робота. Работа алгоритма предусматривает собой некий highload, так как обработка ведется сразу с нескольких камер в режиме real time.
Также Валерий опишет использование open source: плюсы, минусы и на какие грабли напоролись. Затронет и performace алгоритма — узнаем, как его команда ловила баланс между онлайн-обработкой на устройстве и офлайн постфактум в облаке
Безопасность систем ИИ: атаки, защиты, тренды
Евгений Ильюшин
Viasat Tech
Технологии искусственного интеллекта, которые получили импульс в развитии в последние годы благодаря появлению значительного количества данных и вычислительных ресурсов, в свою очередь очень сильно повлияли на многие области человеческой жизни. В частности, технологии ИИ сыграли ключевую роль в создании новых методов обработки изображений, звука, видеопоследовательностей, текста и данных других модальности.
Такое повсеместное проникновение ИИ в современные информационные системы привело к появлению новых угроз и поверхностей атак, которые прежде не рассматривались при разработке систем. Сейчас безопасность систем ИИ — это один из главных технологических вызовов для индустрии. Евгений обсудит предметную область, таксономии атак и защит, а также современные тренды и особенности регулирования в данной области.
Олег Пилипенко
Viasat Tech
Василий Костюмов
Viasat Tech
Спикеры расскажут про систему автоматического отсмотра контента, которую разработали в Viasat Tech. Цель системы — искать моменты, которые необходимо скрывать от пользователей в связи с требованиями Роскомнадзора. Данная система способна распознавать сцены с курением, распитием алкогольных напитков, сцены эротического характера и другие.
В основе системы лежат модели искусственного интеллекта, которые решают задачи классификации, детекции объектов. Требования к контенту постоянно меняются, и необходимо регулярно пересматривать контент на отсутствие определенных сцен, чтобы соответствовать новым правилам.
Однако традиционные методы обучения моделей искусственного интеллекта имеют определенные недостатки, в том числе связанные с неустойчивостью получаемых моделей даже при незначительном изменении распределения входных данных.
Так как система является критически важной, у человека должна быть возможность ее интерпретировать. В связи с этим полученные модели исследовали на устойчивость к отклонениям входных данных и на интерпретируемость. Также при разработке решения использовали методы робастного обучения для повышения устойчивости и измерили метрики интерпретируемости для моделей.
Видеоаналитика на тысячах камер. Как сохранять маржинальность и не скупить весь дата-центр?
Данил Зитцер
Ivideon
Услугами облачного видеонаблюдения пользуются более 250 000 клиентов Ivideon по всему миру. Часто клиенты покупают видеоаналитику сразу на сотни каналов. Как с точки зрения утилизации ресурсов «железа» эффективно организовать пайплайн машинного зрения по обработке видеопотоков? А если клиент хочет аналитику в реальном времени? Как действовать, когда от клиента к клиенту нужно менять целевой девайс (CPU / GPU) для инференса моделей?
Постоянно сталкиваясь с такими вызовами, Данил с командой разработали свою легковесную Python-библиотеку по эффективной организации инференса видеоаналитики для обработки множества видеопотоков. Ее основное предназначение — отойти от технических деталей и заострить внимание на flow трансформации кадров в бизнес-события.
Будет интересно практикующим инженерам, учитывая, что библиотека имеет открытый исходный код.
ML / AI
MiVOLO: State-of-the-Art визуальный трансформер для распознавания пола и возраста по фотографии
Максим Купрашевич
SberDevices
Максим расскажет о том, как его команда создавала новую трансформерную модель для распознавания одновременно пола и возраста, которая взяла первое место во всех основных бенчмарках. Даже в тех, чьи тренировочные данные никогда не видела.
ML-обработка медиапотоков в браузере на примере видеоконференций SberJazz
Роман Лебедев
SberDevices
Дмитрий Балиев
SberDevices
Спикеры расскажут, как внедряли в SberJazz обработку видео и аудио на примере технологии замены фона. Узнаем про захват и работу с видео/аудио в веб-браузере, интеграцию высокопроизводительных модулей (WASM, ML-рантаймов), обучение и оптимизацию ML-моделей для работы на клиенте.
Дмитрий и Роман покажут, как можно собрать свой пайплайн обработки медиа для вашего продукта. Подробно обсудим, почему они разработали свой внутренний движок для запуска ML-моделей и обработки на GPU с использованием WebGL.
Перевод прямых трансляций в Яндекс Браузере
Арсентий Мельников
Яндекс
Перевод прямых трансляций — достаточно сложная задача. Необходимо уметь быстро проводить многоэтапный процесс перевода аудио, начиная с распознавания речи и заканчивая синтезом фраз на другом языке.
В докладе спикер расскажет о том, как устроен пайплайн перевода трансляций, откуда берутся задержки при переводе, а также о том, что пришлось поменять, чтобы сделать возможным перевод любых YouTube-трансляций в Яндекс Браузере.
Отдельное внимание будет уделено недавно вышедшей в open source технологии YDB Topics.
Александр Гордеев
SberDevices
Cосредоточимся на решении задачи поиска интересных моментов на видео, которые способны привлечь внимание и заинтересовать широкую аудиторию.
Рассмотрим и применим следующие технологии:
Сверточные нейронные сети (CNN) для обработки визуальной и звуковой информации видеофайлов.
Механизмы трансформеров (Transformers) для агрегации контекста.
FFmpeg для работы с мультимедийными данными.
Будет интересно специалистам и исследователям, работающим в области машинного обучения и обработки мультимедийных данных.
Современные методы и проблемы генерации изображений и видео по текстовому описанию
Андрей Иванюта
Huawei
Владимир Корвяков
Huawei
Обсудим современные методы и проблемы в области генерации изображений и видеоданных. В первой части доклада поговорим о генерации изображений, а во второй — о генерации видео.
Рассмотрим общие концепции и подходы, теоретические основы, современные методы и тренды в генерации изображений и видео.
Будем рассматривать проблемы и сложности, а также пути решения. В частности, спикеры приведут оценки требуемых вычислительных мощностей и расскажут о способах их сокращения. Также поделятся собственным опытом в данной области и результатами, которых удалось достичь.
Направить все ресурсы в Поток Моментов
Александр Коншин
Иви
Как часто вы залипаете в соцсетях вместо того, чтобы выбрать и посмотреть хороший фильм?
Команда спикера решила обернуть клиповое мышление во благо, предоставив пользователям новый способ выбрать, что посмотреть.
Александр расскажет, как они подготовили тысячи лучших цепляющих Моментов из каталога, чтобы сделать процесс выбора легким и приятным. А также про незаменимость редакторов и помощь со стороны Computer Vision, благодаря которой они сэкономили миллионы денег и тонны сил. И, конечно, пройдется по таймлайну проекта, углубится в технически детали бэкенда и разработки быстрой Ленты в клиентских приложениях.
Движки распознавания речи ВКонтакте
Али Сафиуллин
VK/ВКонтакте
Али расскажет о движках распознавания речи ВКонтакте. Рассмотрим особенности онлайн- и офлайн-движков: какие архитектуры нейронных сетей используют в команде, как обучают и адаптируют их под продукты. Узнаем, какие дополнительные трюки можно использовать и какие модули добавить, чтобы улучшить качество работы движка распознавания речи.
Плееры
Ваш плеер работает неправильно
Константин Петряев
Yandex Infrastructure
Разработчики привыкли обеспечивать себя качественной технологической инфраструктурой. Производительным железом, скоростным интернет-подключением с низкой задержкой. И очень часто мы забываем, что у пользователя всё может сильно отличаться от нашей радужной картины.
Вместе с Константином на примере hls.js рассмотрим, почему плеер почти всегда нам врет. Узнаем, как это «вранье» сказывается на пользовательском опыте, какие могут быть пути решения проблемы, при чем тут математические модели и почему важно их правильно применять. А также рассмотрим конкретный путь «лечения» проблемы.
Свой плеер для DASH: вошли и вышли, приключение на 20 минут
Ольга Попова
Yandex Infrastructure
В докладе Ольга расскажет:
– о двух самых популярных библиотеках для воспроизведения DASH-потоков в web;
– почему ранее использовали библиотеку shaka-player, но в итоге решили отказаться от нее;
– зачем Яндексу собственный движок для воспроизведения видео;
– что они заложили в свой велосипед;
– почему процесс создания движка занял два года.
Автоматное программирование и его применение в видеостриминге
Александр Усков
Александр расскажет о подходе в проектировании программных систем, который использует в своей основе математический аппарат, известный как конечные автоматы.
Рассмотрим теоретические и практические аспекты построения управляющих систем при помощи конечных автоматов на языке TypeScript – на примере web-плеера more.tv с использованием классического инструментария React+Redux.
Что прячется за рекламой в видео: опыт работы со спецификациями VAST и VPAID
Валерия Васильева
Doubletapp
Реклама — неотъемлемая часть бизнеса. Ее хотят интегрировать многие, но мало кто знает, как с ней работать.
В Doubletapp разработали кастомный видеоплеер с возможностью проигрывания рекламы. Валерия поделится этим опытом: расскажет, с какими проблемами команда столкнулась и как их решали, как выбирали технологии и почему остановились на IMA SDK. На реальных примерах познакомимся с особенностями работы с VAST- и VPAID-спецификациями.
Доклад будет полезен разработчикам, которые работают с видео и хотят встроить в него рекламу, а также тем, кто уже работал с рекламой, но хочет узнать о ней больше.
Глаз на сферу натяну: воспроизведение сферического видео в браузере
Виталий Школенко
ВКонтакте
Панорамное видео — особый формат записи, который позволяет во время просмотра менять угол зрения и видеть всю сцену вокруг. В докладе разберем, как в целом работает просмотр панорамного видео, какие есть решения для браузера, изучим их и напишем свое.
Придется погрузиться в математику, WebGL и шейдеры. В результате получим знания, достаточные для реализации своего плеера, и хороший задел для дальнейшей работы с 3D.
WebTransport
Максим Шарабайко
Максим расскажет о работе, которая ведется в группе Media over QUIC (MoQ) в рамках IETF, а также о целях и идеях еще одного протокола передачи медиаданных. Поговорим о стеке смежных технологий, а именно: QUIC, WebTransport, WebRTC, RTP, HLS, MPEG-DASH и почему этого все еще мало.
Достоверность контента
Как обеспечить достоверность медиаконтента и не облажаться
Дмитрий Стародубцев
Tourmaline Core
Ольга Кузьмичева
Tourmaline Core
В ходе доклада поговорим о том, в какой форме стандарт C2PA предлагает создавать данные. Узнаем, какие библиотеки и тулчейны для обеспечения достоверности медиаконтента сейчас существуют и где они применяются. Порассуждаем, как все-таки можно «взломать» систему, обеспечивающую достоверность контента, и как от этого можно защититься. Также спикеры поделятся опытом общения с Adobe.
Заключение
Доклады будут лишь частью происходящего. Дискуссионные зоны со спикерами, общение участников, стенды компаний-партнёров, активности и выступления от них — поскольку в этот раз офлайн продлится целых два дня, тут явно будет чем заняться.
Но тут хабрапостом уже на распишешь, тут можно только прийти и лично поучаствовать в этом общении. Так что приходите (а кто не может — участвуйте удалённо)! Все подробности и билеты — на сайте VideoTech.