![image](https://habrastorage.org/getpro/habr/post_images/c3d/4c2/f64/c3d4c2f649dcda37209f54317806041b.png)
В Google AI продемонстрировали работу нейросети, которая переводит веб-сайты в видео. URL2Video, конвейер для автоматического преобразования в короткое видео, выполняет перевод с учетом временных и визуальных ограничений владельца контента.
Инструмент извлекает ресурсы (текст, изображения или видео) и их стили дизайна (включая шрифты, цвета, графические макеты и иерархию) из источников HTML и преобразует их в последовательность снимков на исходной странице. Затем пользователь задает параметры размеров и продолжительности ролика, и инструмент преобразует извлеченные материалы в видео.
![image](https://habrastorage.org/webt/a2/le/xe/a2lexe80r72ayz6ftvh9v6n642g.png)
Конвейер URL2Video определяет временное и визуальное представление каждого ресурса на основе набора эвристик, полученных в ходе интервью с дизайнерами. Эвристические методы, разработанные ими, охватывают общие стили редактирования видео, включая иерархию контента, ограничение объема информации в кадре и его продолжительности, обеспечение согласованного цвета и стиля для брендинга и многое другое.
Считывая URL-адрес веб-страницы, URL2Video извлекает информацию объектной модели документа (DOM) и мультимедийные материалы. Инструмент идентифицирует такие визуально различимые элементы как заголовок, изображение продукта, подробные описания и кнопки с призывом к действию, и захватывает подробные спецификации дизайна (теги HTML, стили CSS и отображаемые местоположения) для каждого. Затем он ранжирует группы ресурсов, присваивая каждой из них приоритет.
![image](https://habrastorage.org/webt/dx/io/f3/dxiof34pzwax6ijos0shtlzjqgo.png)
URL2Video автоматически ограничивает продолжительность каждого визуального элемента, чтобы зрители могли воспринимать контент. Таким образом, короткое видео выделяет наиболее важную информацию вверху страницы.
Интерфейс исследовательского прототипа позволяет пользователю просматривать атрибуты дизайна в каждом видеоролике, извлеченном из исходной страницы, переупорядочивать материалы, изменять дизайн, например цвета и шрифты, а также настраивать ограничения для создания нового видео.
Здесь демонстрируется работа URL2Video, который преобразует страницу с несколькими короткими видеоклипами в 12-секундное выходное видео:
Исследователи работают над тем, чтобы внедрить звуковую дорожку и закадровый голос при создании видео.
См. также:
Jogger
Да кому это надо, и так этими видео всё засрали. Вот если бы они сделали нейросеть, которая преобразует видео в веб-страницу — это было бы круто. Скармливаешь ей очередной видосик «как правильно паять полипропиленовые трубы» и получаешь краткую текстовую инструкцию с информативными иллюстрациями и без всего ненужного трёпа. Я джва года жду такую нейросеть!
maxim_ge
Хорошо задумано. Тоже буду ждать.
mithdradates
Согласен. Особенно с учетом того, что большая часть этих видосиков — бесполезная вода и видео длиной в 10-12 минут, можно было бы прочитать за 2-3 минуты в текстовом виде.
vedenin1980
Тут основная проблема — легальная, а не техническая. За видео авторы получают как-никакие деньги за рекламу, ютуб — тоже, соотвественно просто взять и утащить текст и скриншоты — нельзя. Да и гугл проталкивает ютуб в результатах поиска.
Kanut79
В чём проблема предлагать созданный текст для скачивания/просмотра прямо на youtube и платить авторам и за просмотры/скачивания текста?
vedenin1980
Тем что этим может заниматься только гугл, которому вряд ли это интересно (деньги за рекламу видео все равно они получат, а реклама в текстовом контексте приносит вроде меньше, чем видео ролики). Какой им смысл своих же пользователей переводить на текстовый формат, если видео приносит больше?
Kanut79
Ну вообще то куча людей не потребляют «технический контент» на youtube именно потому что формат видео им в этом случае не удобен. Как минимум я так поступаю. А вот если бы была возможность получить информацию из видео в виде текста, то я бы наверняка заходил туда чаще. Даже если бы в текст тоже пихали рекламу.
vedenin1980
Она есть, у ютуба есть «Посмотреть расшифровку видео» где показываются субтитры с разбивкой по времени. Достаточно туда прикрутить фото скриншотов из видео и проверку их качества и сервис готов. Даже никаких нейросетей не нужно.
00:00 всем привет сегодня я вам покажу один
00:02 необычный браслетик который легко можно
00:04 сплести из веревочек на пальцах смотрите
00:07 какое интересное у него плетение
00:09 используя комбинируя нитки разных цветов
00:12 вы можете получить необычное сочетание
00:14 это красиво и необычно а главное такой
00:17 браслетик легко сделать
00:29 чтобы научиться плести такой браслетик
00:31 вам потребуется контрастная пряжа
00:33 достаточно толстенькая вот такая как у
00:36 меня нужно отрезать 5 веревочек
Kanut79
Если вас такой уровень устраивает, то пожалуйста. Меня нет.
vedenin1980
Ну в начале у любого сервиса уровень фиговый это нормально, потом подкрутят. Но именно нейросеть, которая не просто умные скриншоты делала и произнесенный текст/субтитры улучшала, а прямо сама описывала, что происходит на видео — думаю до появления сильного ИИ ждать не стоит.
Thoth777
Рекламная интеграция тоже будет включена в веб страницу, если автор ролика будет рекламировать что-то голосом
vedenin1980
Речь о том, что ютубу и гуглу такой сервис реализовывать вряд ли интересенно — реклама с видео роликов даст скорее всего больше чем реклама в тексте, а договариваться с каждым автором очень сложно.
atri1
Нейросеть которая делает субтитры к видео и переводит на множество языков уже давно существует и даже работает на Ютубе в автоматическом режиме.
Качество такого "перевода" невероятно низко. Человек с минимальными знаниями языка сделает с сотни раз лучший перевод и оригинальные субтитры.
Сейчас в стиме 99.999% "инди" игр делают перевод через "гугл переводчика" что есть та самая нейросеть, и результат все видят-абсолютно неиграбельный бред без смысла, даже меню всегда криво переведено.
Поэтому вывод — то что ты хочешь делают люди за деньги, как минимум делая субтитры к видео, и желание "за бесплатно" получить качественные субтитры ведет, как пример, к кривущим переводам в видео-играх и в субтитрах на ютубе.
П.С. и я не "шучу" на ютубе множество создателей контента где нужно иметь "встроенные субтитры" пользуются услугами людей делающих эти субтитры, качество "автоматических программ" преобразующих речь в текст невероятно низко и смысл даже в минутных видео всегда теряется.