Дата-сайнтисты в «Инфосистемы Джет» делают масштабные крутые проекты, которые помогают крупным компаниям получать прибыль. Сегодня мы решили обсудить, какие проекты интересно было бы сделать при наличии свободных ресурсов. Просто for fun или в благих целях.
Дорого и жутко. Предсказание поведения человека
Алексей, специалист по машинному обучению «Инфосистемы Джет»:
Мне кажется интересным провести такое исследование: имея данные, которыми располагает социальная сеть (геолокация, переписки, персональная новостная лента), построить модель, предсказывающую следующий день человека.
Речь не о договоренностях с другими людьми, а именно о решениях, которые он примет в течение дня. Как будет проводить досуг, где будет есть, кому напишет.
Любопытно посмотреть, насколько точно социальная сеть может предсказать поведение пользователя. Похоже на сюжет из «Черного зеркала», но вполне осуществимо, разве что страшно затратно.
Надежда, специалист по машинному обучению «Инфосистемы Джет»:
Безусловно, машинное обучение — это та область, которая сейчас находится не просто на пике своего развития, а которую просто стыдно не развивать. В огромном количестве стран на уровне правительств поддерживаются инициативы по внедрению машинного обучения в самые разнообразные сферы жизни. Меня безумно вдохновляет эта возможность использования науки для существенного изменения мира вокруг.
+ в карму. Тестирование лекарств и косметики
Мне бы очень хотелось поучаствовать в проекте по снижению объемов тестирования косметики, лекарственных препаратов и бытовой химии на животных. Я понимаю, что это очень сложный вопрос, требующий, как участия большого количества узких специалистов, так и вовлеченности чиновников для изменения законодательства, причем, видимо, на мировом уровне. Поэтому, если мы говорим о наличии у меня неограниченного количества ресурсов, я, пожалуй, выберу это.
Мне кажется, что при наличии большой открытой базы уже проведенных экспериментов для машинного обучения это вполне посильная задача. И, насколько мне известно, подобные исследования уже проводятся. Например, в 2018 году вышла публикация со ссылкой на статью в Toxicological Sciences с описанием построенной модели и результатов ее тестирования. Кроме того, законодательства многих стран сейчас также изменяются в сторону поддержки cruelty-free.
Эко-фрэндли. Борьба с перепроизводством
Если же говорить о чем-то чуть более реальном, мне кажется интересной идея по созданию моделей предсказания спроса потребителей на те или иные товары для снижения объемов их производства. Весь мир в курсе просто чудовищной ситуации, связанной с избыточным производством одежды (вот небольшое видео для вдохновения, а вот лишь одна из многочисленных статей).
Fast-fashion приводит к тому, что огромное количество одежды утилизируется, так и не будучи реализованным. Причем в этой ситуации ущерб наносится как природе, так и бизнесу, который сперва тратит деньги на производство ненужной одежды, ее транспортировку, размещение в магазинах и на складах, а потом — на ее утилизацию. Если честно, детально не изучала вопрос, но очень хочется верить, что подобные проекты в каком-то виде реализуются.
Привет Гарри Поттеру. Ожившие фото
Антон, специалист по машинному обучению «Инфосистемы Джет»:
У меня пожелание, очень схожее с идеей формирования видеоклипов по текстовому описанию. Я бы разработал нейросеть, которая бы позволяла оживлять произвольные картины или фотографии, как волшебные фото в мире «Гарри Поттера», которые как бы живут своей собственной жизнью. Конечно, сейчас время повышенного интереса именно к таким вещам, но эта задача выглядит реализуемой уже сейчас при наличии свободного времени и достаточного количества вычислительных ресурсов.
Кино без актеров. Анимация лиц персонажей
Артур, специалист по машинному обучению «Инфосистемы Джет»:
В последнее время начали активно использовать нейросети для озвучки персонажей в компьютерных играх. Пока это всё на уровне любительских модификаций, но уже сейчас результаты поражают проработкой голоса и интонаций. В дальнейшем это может серьезно удешевить стоимость разработки, так как не нужно будет привлекать дорогостоящих актеров для этих целей. Для небольших студий это может стать серьезным подспорьем в создании крутых проектов, что может значительно усилить конкуренцию в индустрии.
Я бы поработал над развитием этой идеи — генерацией лицевой анимации персонажей для синхронизации с голосом. Это также пригодилось бы при переводе на разные языки — сейчас переводчикам нужно тщательно подстраивать текст под движения губ персонажей, чтобы речь выглядела естественно. Генерация лицевой анимации под готовый текст могла бы снять такое ограничение.
И наконец — цифровой двойник человека!
Ярослав, руководитель группы машинного обучения «Инфосистемы Джет»:
Если бы у меня были неограниченные ресурсы (данные, время, деньги, сотрудники и мощности), я бы хотел сделать следующее.
Моя идея вдохновлена одной из серий «Черного Зеркала» (сериал от Netflix), в которой была возможность воссоздать «цифровую» копию, двойника любого человека, даже того, которого уже нет.
Героиня сериала загрузила историю переписки с ушедшим из жизни близким человеком, и специальный алгоритм воссоздал его личность — некую виртуальную копию, с которой можно было общаться по видеосвязи и в мессенджерах. Насколько это звучит страшно и безумно, настолько это гениально и захватывающе!
Представьте, что можно сделать алгоритм, в который можно «загрузить» фотографии, переписки, видеозаписи с человеком, и который сможет «воссоздать» характер, личность и визуальный образ человека. Чем больше будет данных о человеке (история его покупок, школьный дневник и так далее), тем более точная будет получаться копия.
По сути мы можем сделать целого цифрового двойника человека, применений у которого может быть масса. Помимо очевидного применения из Netflix, которое упоминается выше, можно получить копию своего любимого человека и проверить — понравится ли ему подарок на день рождения. Или представьте: сделать домашнюю копию своего самого непутевого клиента и понять, чего же он хочет, или сделать своего цифрового босса и попробовать разные сценарии с требованиями повысить себе зарплату. А может, мужчины смогут сделать копию любимой женщины и таки понять, что они делают не так? (но ладно, это уже совсем волшебство :)
Можно сделать «писателя», которого нет в живых, и заставить его дописать так и не вышедший роман. Ужас, мурашки по коже.
С точки зрения реализации уже сейчас существуют и претворены в жизнь (!) многие составляющие:
можно «оживить» фото — вот пример;
можно научиться повторять стиль написания текстов «машиной» (например, Шекспир);
с существующими возможностями для анализа семантики текста вроде модели GPT-3 можно отлично научиться понимать смысл переписок.
Осталось собрать эти разные модальности проявления личности, ее цифровые следы, и сделать тот самый алгоритм. Так что ждем :)
А какой дата-сайнс проект вы бы хотели сделать? Делитесь в комментариях!
Комментарии (5)
Alexey2005
16.12.2021 20:17Главная проблема всех этих нейросетей заключается в том, что они нормально работают только для одного языка — английского. Кому не повезло родиться англоязычным, оказываются за бортом прогресса, и похоже, что дальше разрыв будет только нарастать.
Даже для такого распространённого языка как русский синтез голоса, синтез текста, генерация изображений по тексту либо не представлены вовсе, либо представлены крайне слабо, а имеющиеся сети (вроде sberGPT) обучены на низкокачественных датасетах и выглядят блекло по сравнению с англоязычными аналогами даже двух-трёхлетней давности.
Для ещё менее распространённых языков всё совсем печально.
Tim_bsc
Идея с перепроизводством очень крутая. Я тоже часто задумаюсь над применением машинного обучения для решения экологических проблем и изменения климата
JetHabr Автор
Спасибо :) Расскажете, что придумали?
zoldaten
Решение простое — ГОСПЛАН называется. Датасет собран в СССР.