В этой заметке авторы MIT Technology Review рассматривают четыре тренда, за которыми стоит следить в наступившем году.
В прошлом году мы поступили несколько безрассудно. В индустрии, где ничто не стоит на месте, мы попробовали предсказать будущее. Мы делали четыре большие ставки на 2023 год:
Следующий большой шаг в развитии чат-ботов будет связан с мультимодальностью (мы оказались правы: самые мощные большие языковые модели — GPT-4 от OpenAI и Gemini от Google DeepMind — работают с текстом, изображениями и аудио).
Политики разработают новые жесткие правила (мы оказались правы: в октябре вышел указ Байдена, а в декабре был окончательно согласован закон Европейского союза об искусственном интеллекте).
Крупнейшие технологические компании почувствуют давление со стороны опенсорс-стартапов (наполовину верно: бум опенсорса продолжается, но компании, занимающиеся разработкой искусственного интеллекта, такие как OpenAI и Google DeepMind, по-прежнему в центре внимания).
Искусственный интеллект навсегда изменит отрасль фармацевтики (слишком рано говорить: революция искусственного интеллекта в разработке лекарств идет полным ходом, но до появления первых препаратов, разработанных с использованием искусственного интеллекта, еще несколько лет).
Теперь мы делаем это снова.
Мы решили проигнорировать очевидное. Мы знаем, что большие языковые модели будут продолжать доминировать. Регуляторы будут становиться все смелее. Проблемы искусственного интеллекта — от предвзятости (bias) до авторских прав и думерства — будут определять повестку дня для исследователей, законодателей и общественности не только в 2024 году, но и на долгие годы вперед.
Вместо этого мы выбрали несколько более конкретных тенденций. (В 2025 году узнаем, удалось ли нам угадать)
1. Индивидуальные чат-боты
Всем по чат-боту! В 2024 году технологические компании, вложившие значительные средства в генеративный искусственный интеллект, будут вынуждены доказывать, что они могут зарабатывать на своих продуктах. Для этого гиганты ИИ Google и OpenAI делают большую ставку на на продукты для более узкой ниши: обе компании разрабатывают удобные платформы, позволяющие людям настраивать мощные языковые модели и создавать собственные мини чат-боты, которые отвечают их специфическим потребностям — и для этого не требуется никаких навыков кодирования. Обе компании запустили веб-инструменты, позволяющие любому желающему стать разработчиком приложений для генеративного искусственного интеллекта.
В 2024 году генеративный искусственный интеллект может стать по-настоящему полезным для обычных людей, профессионально не связанных с технологиями. И скорее всего еще больше людей будут экспериментировать с миллионом маленьких моделей искусственного интеллекта. Современные ИИ-модели, такие как GPT-4 и Gemini, являются мультимодальными, то есть они могут обрабатывать не только текст, но и изображения и даже видео. Эта новая возможность может привести к появлению целого ряда новых приложений. Например, риелтор может загрузить текст из предыдущих объявлений, настроить мощную модель на генерацию аналогичного текста одним нажатием кнопки, загрузить видео и фотографии новых объявлений и просто попросить настроенный искусственный интеллект сгенерировать описание объекта.
Но, конечно, успех этого плана зависит от того, насколько надежно будут работать эти модели. Языковые модели часто ошибаются, а генеративные подвержены предвзятости. Кроме того, их легко взломать, особенно если разрешить им просматривать веб-страницы. Технологические компании пока не решили ни одну из этих проблем. Когда новизна пройдет, им придется предложить своим клиентам способы решения этих проблем.
2. Второй волной генеративного искусственного интеллекта станет видео
Удивительно, как быстро фантастика становится реальностью. Первые генеративные модели для создания фотореалистичных изображений появились в 2022 году и вскоре стали обыденностью. Такие инструменты, как DALL-E от OpenAI, Stable Diffusion от Stability AI и Firefly от Adobe, наводнили интернет потрясающими изображениями всего — от Папы Римского в Balenciaga до произведений искусства, получивших награды. Но не все так радужно: на каждого мопса, размахивающего помпонами, найдется еще один поддельный фэнтези-арт или проявление сексистских сексуальных стереотипов.
Новый рубеж — генерация видео по текстовому описанию. Мы ожидаем, что оно возьмет всё, что было хорошего, плохого или уродливого в превращении текста в изображение, и увеличит это многократно.
Год назад мы впервые увидели, на что способны генеративные модели, когда они были научены сшивать несколько статических изображений в клипы длиной в несколько секунд. Результаты получились искаженными и рваными. Но технология быстро совершенствовалась.
Runway — стартап, создающий генеративные видеомодели (и компания, которая стала одним из создателей Stable Diffusion), выпускает новые версии своих инструментов каждые несколько месяцев. Последняя модель под названием Gen-2 по-прежнему генерирует видео длиной всего в несколько секунд, но их качество поражает. Лучшие ролики недалеко ушли от того, что выпускает Pixar.
Компания Runway организовала ежегодный ИИ-инофестиваль, на котором демонстрируются экспериментальные фильмы, снятые с помощью различных инструментов искусственного интеллекта. В этом году призовой фонд фестиваля составляет 60 000 долларов, а 10 лучших фильмов будут показаны в Нью-Йорке и Лос-Анджелесе.
Неудивительно, что на это обратили внимание ведущие студии. Гиганты киноиндустрии, включая Paramount и Disney, сейчас изучают возможности использования генеративного искусственного интеллекта на всех этапах производства. Технология используется для синхронизации выступлений актеров с многочисленными дублированиями на иностранных языках. А также для создания новых спецэффектов. В 2023 году в фильме «Индиана Джонс и колесо судьбы» (“Indiana Jones and the Dial of Destiny”) будет использоваться дипфейк молодого Харрисона Форда. И это только начало.
Также технологии дипфейков набирают обороты в сферах маркетинга и обучения. Например, британская компания Synthesia создает инструменты, которые могут превратить «одноразовое» выступление актера в бесконечный поток дипфейк-аватаров, декламирующих любой скрипт, который им будет задан одним нажатием кнопки. По данным компании, эту технологию сейчас используют 44% компаний из списка Fortune 100.
Способность делать так много, имея так мало, вызывает серьезные вопросы у актеров. Из-за озабоченности по поводу использования и злоупотребления студиями искусственного интеллекта в прошлом году прошла забастовка SAG-AFTRA. Но истинное влияние технологии становится очевидным только сейчас. «Ремесло кинематографа в корне меняется», — говорит Соуки Мехдауи, независимый режиссер и соучредитель консалтинговой компании Bell & Whistle, специализирующейся на креативных технологиях.
3. Объем дезинформации на выборах, генерируемой искусственным интеллектом, будет расти
Если судить по последним выборам, дезинформация и фальсификации, генерируемые искусственным интеллектом, станут огромной проблемой, когда в 2024 году на избирательные участки придет рекордное количество людей. Мы уже видим, как политики используют эти инструменты. В Аргентине два кандидата в президенты создали сгенерированные искусственным интеллектом изображения и видеоролики своих оппонентов с целью их дискредитации. В Словакии во время выборов в стране распространились дипфейки с изображением лидера либеральной проевропейской партии, угрожающего поднять цены на пиво и шутящего о детской порнографии. А в США Дональд Трамп поддержал группу, которая использует искусственный интеллект для создания мемов с расистскими и сексистскими сюжетами.
Трудно сказать, насколько эти примеры повлияли на исход выборов, но их распространение — тревожная тенденция. Распознать, что в сети реально, а что нет, станет сложнее, чем когда-либо. В политическом климате, который и без того накален и поляризован, это может иметь серьезные последствия.
Всего несколько лет назад для создания дипфейков требовались сильные технические навыки, но генеративный искусственный интеллект сделал это до глупости простым и доступным, а результаты выглядят все более реалистично. Даже авторитетные источники могут быть обмануты таким контентом. Например, изображения, сгенерированные искусственным интеллектом с помощью пользователей, якобы изображающие израильско-палестинский кризис, заполнили рынки стоковых изображений, такие как Adobe.
Наступающий год станет решающим для тех, кто борется с распространением такого контента. Методы отслеживания и борьбы с таким контентом пока находятся на ранней стадии разработки. Водяные знаки, такие как SynthID от Google DeepMind, все еще остаются в основном добровольными и не совсем надежными. А социальные медиа-платформы, как известно, медленно отсеивают дезинформацию. Приготовьтесь к масштабному эксперименту в реальном времени по уничтожению фейковых новостей, сгенерированных искусственным интеллектом.
4. Многозадачные роботы
Вдохновленные некоторыми из ключевых техник, стоящих за нынешним бумом генеративного искусственного интеллекта, робототехники начинают создавать более универсальных роботов, способных выполнять широкий спектр задач.
За последние несколько лет в области искусственного интеллекта произошел отход от использования множества небольших моделей, каждая из которых обучена выполнять различные задачи — распознавать изображения, рисовать их, создавать подписи к ним — в сторону единых монолитных моделей, обученных выполнять все эти и другие задачи. Показав OpenAI GPT-3 несколько дополнительных примеров (это называется тонкой настройкой), исследователи могут обучить ее решать задачи по написанию кода, писать сценарии фильмов, сдавать экзамены по биологии в средней школе и так далее. Мультимодальные модели, такие как GPT-4 и Gemini от Google DeepMind, могут решать как визуальные задачи, так и лингвистические.
Тот же подход может работать и с роботами, поэтому не нужно будет обучать одного переворачивать блины, а другого — открывать двери: универсальная модель может дать роботам способность к многозадачности. В 2023 году появилось несколько примеров работы в этой области.
В июне DeepMind выпустила Robocat (обновление прошлогоднего Gato), который на основе проб и ошибок генерирует собственные данные, чтобы научиться управлять множеством различных рук робота (а не одной конкретной рукой, что более типично).
В октябре компания в сотрудничестве с 33 университетскими лабораториями выпустила еще одну модель для роботов общего назначения под названием RT-X и новый большой набор обучающих данных общего назначения. Другие ведущие исследовательские группы, такие как RAIL (Robotic Artificial Intelligence and Learning) из Калифорнийского университета в Беркли, рассматривают подобные технологии.
Проблема заключается в недостатке данных. Генеративный искусственный интеллект опирается на набор данных из текста и изображений размером с интернет. Для сравнения, у роботов очень мало хороших источников данных, которые помогли бы им научиться выполнять многие промышленные или бытовые задачи, которые мы хотим от них получить.
Леррел Пинто из Нью-Йоркского университета возглавляет группу, занимающуюся этой проблемой. Он совместно с коллегами разрабатывает методы, которые позволят роботам обучаться методом проб и ошибок, создавая собственные обучающие данные на ходу. В рамках еще более скромного проекта Пинто набрал добровольцев для сбора видеоданных вокруг их домов с помощью камеры iPhone, установленной на мусоросборнике. В последние пару лет крупные компании также начали выпускать большие наборы данных для обучения роботов, например Ego4D от Meta.
Этот подход уже показывает себя в беспилотных автомобилях. Такие стартапы, как Wayve, Waabi и Ghost, являются пионерами новой волны ИИ для автономного управления, который использует одну большую модель для управления транспортным средством, вместо нескольких маленьких моделей для управления конкретными задачами вождения. Это позволило небольшим компаниям догнать таких гигантов, как Cruise и Waymo. Сейчас Wayve тестирует свои беспилотные автомобили на узких и оживленных улицах Лондона. Роботы повсюду получат аналогичный толчок к развитию.
В заключение приглашаем на открытый урок «Product Lead и его команда. Коучинг vs менторинг», на котором разберем эти разные подходы к работе с командой. Записаться можно по ссылке.
Комментарии (3)
Hk_3dva
17.01.2024 07:49Статья, сама по себе не плоха, но хотелось бы узнать и о том какие нейросети потерпели неудачу. Поскольку в 2023 текстовые и видео нейросети были в тренде мне кажется естественным их рост и улучшение в дальнейшем.
Pitcentr0
ИИ ИИ ИИ