Один из первых победителей в войне генеративных ИИ был на грани краха, но затем поставил всё на карту, продемонстрировав звёздное возвращение. Сможет ли Stability AI победить конкурентов?
Леди Гага, вероятно, и не думала, что переворот, связанный с ИИ, случится в её оранжерее. Но с другой стороны, она же именно там устраивала вечеринку совместно с Шоном Паркером, миллиардером, основателем Napster и первым президентом Facebook.
Это было в феврале 2024 года, и певица пригласила гостей в своё поместье стоимостью 22,5 миллиона долларов на берегу океана в Малибу, чтобы отметить запуск некоммерческой организации, выпускающей средства по уходу за кожей. Одним из попечителей организации был её бойфренд, основной работой которого было руководство фондом Parker Foundation. В освещённом свечами помещении, рядом с окнами от пола до потолка, выходящими на Тихий океан, люди Паркера смешались с гостями Гаги, закусывая фокаччей и жареным морским окунем под музыку струнного квартета (конечно же, лауреата Grammy).
Прём Аккараджу, один из близких друзей и деловых партнёров Паркера, прибыл в сшитом на заказ костюме, с идеально уложенными густыми волосами. Эти два человека знали друг друга с тех пор, как Паркер работал в Facebook, а Аккараджу — в музыкальной индустрии. На протяжении многих лет они безуспешно пытались запустить совместную платформу для потокового просмотра фильмов, а ещё приобрели известную компанию по созданию визуальных эффектов, что оказалось гораздо более успешным проектом. В последнее время они обсуждали возможность создания стартапа в сфере искусственного интеллекта.
В тот вечер у Гаги Аккараджу сидел рядом с инвестором Stability AI, компании, которая в 2022 году запустила чрезвычайно популярный генератор изображений на основе текстового описания Stable Diffusion. Несмотря на ранний успех, Stability «находилась на грани краха», вспоминает инвестор. «До конца оставались считанные дни». Он сказал Аккараджу: «Вы должны взять Stability и превратить её в модель ИИ, подходящую для Голливуда».
А Голливуд действительно нуждался в новом подходе. С 2022 года количество фильмов и телешоу, снятых в США, сократилось примерно на 40% из-за растущих производственных затрат внутри страны, конкуренции со стороны зарубежных производителей и затянувшихся трудовых конфликтов по всему миру. ИИ обещал вернуть прежние показатели за счёт ускорения производства и сокращения затрат: пусть компьютеры автоматизируют рутинную работу по переводу диалогов, добавлению визуальных эффектов кадр за кадром и удалению микрофонов из миллионов дублей. Может быть, однажды они даже смогут писать сценарии и играть! Два крупнейших профсоюза индустрии объявили забастовку, в частности, чтобы получить гарантии, что генеративный ИИ не заменит рабочие места членов профсоюза в ближайшем будущем. Но все крупные студии и стриминговые сервисы спешат разработать свою стратегию в области ИИ, а множество стартапов — Luma, Runway, Asteria — работают над инструментами для их продвижения.
Аккараджу увидел новую возможность. Stability AI обладала необходимой технологией. Ей просто нужно было навести голливудский лоск. Насколько он мог судить, была только одна проблема. Разве у компании уже не было генерального директора?
Когда Эмад Мостак, бывший менеджер хедж-фонда, основал Stability в 2020 году, миссией компании было «создание систем, которые приносят реальные изменения» в решении самых сложных проблем общества. К 2022 году система, которую, по мнению Мостака, необходимо было создать, представляла собой облачный суперкомпьютер, достаточно мощный для запуска генеративной модели искусственного интеллекта. OpenAI набирала популярность благодаря своим моделям с закрытым исходным кодом, и Мостак хотел создать альтернативу с открытым исходным кодом — «как Linux по сравнению с Windows», по его словам. Он предложил идею суперкомпьютера группе академических исследователей, работающих над системой с открытым исходным кодом, в которой можно было генерировать изображения посредством ввода текстовых команд. Исследователи не собирались отказываться. В августе того же года они запустили Stable Diffusion в партнёрстве с компанией Мостака.
Генератор изображений на основе текста стал настоящим хитом, и привлёк 10 миллионов пользователей за два месяца. «Он был довольно близок к передовым технологиям», — говорит Маниш Агравала, профессор информатики Стэнфордского университета. Открытость была ключевым фактором успеха модели. «Она позволила исследователям существенно расширить модель, доработать её, и подтолкнула всё сообщество к созданию усовершенствований и дополнений», — говорит Агравала. К октябрю 2022 года в Stability AI работало всего 77 сотрудников, но благодаря тысячам людей в более широком сообществе Stable Diffusion компания могла конкурировать с более крупными соперниками. Мостак привлёк 101 миллион долларов в рамках раунда начального финансирования от венчурных компаний и хедж-фондов, включая Coatue и Lightspeed (по его словам, последний миллион он привлёк просто на удачу). Компания стала «единорогом».

Сотрудники того периода описывают Мостака как визионера. Он красноречиво говорил о необходимости демократизации доступа к искусственному интеллекту. Мостак говорил сотрудникам, что в недалёком будущем компания решит сложные биомедицинские проблемы и создаст восьмой сезон «Игры престолов». «Это был невероятно весёлый и хаотичный стартап, который занимался всякими вещами, некоторые из которых оказывались успешными», — рассказывает мне бывший высокопоставленный сотрудник. (Как и другие, с которыми я разговаривал, этот сотрудник попросил сохранить анонимность, чтобы свободно говорить о Мостаке и компании).
Мостак был в восторге от успеха. Но он также был перегружен работой. «Я был новичком в этом деле, — говорит он. — С моим синдромом Аспергера и СДВГ я был в полной растерянности, типа: „Что происходит?“» Мостак говорит быстро, его тон деловой: «В области исследований мы сделали действительно хорошие вещи. Но в другой области я оказался не настолько хорош, а именно в управлении». Два бывших сотрудника компании сообщили мне, что, по их мнению, Мостак не задумывался о создании продукта, который можно было бы продавать. «Он просто хотел создавать модели», — сказал один из них.
Успех компании привлёк к ней повышенное внимание. В январе 2023 года Getty Images подала иск против Stability AI в Верховный суд Лондона за то, что компания якобы обучала свои модели на 12 миллионах фотографий, являющихся её собственностью. Несколько недель спустя компания подала аналогичный иск в США. В иске, поданном в США, Getty обвинила AI-компанию в «наглом воровстве и безбилетном проезде».
Затем, в июне 2023 года, Forbes опубликовал сенсационную статью, в которой утверждалось, что Мостак преувеличил свои заслуги и ввёл в заблуждение инвесторов в презентационных материалах. В статье также утверждалось, что Мостак получил только степень бакалавра в Оксфорде, а не степень магистра. (Мостак утверждает, что он получил и то, и другое, но путаница возникла из-за канцелярской ошибки с его стороны). Более того, по имеющимся данным, Stability задолжала миллионы долларов Amazon Web Services, которая предоставляла вычислительные мощности для её модели. Хотя Мостак говорил о партнёрстве, представитель Stability признал Forbes, что на самом деле это было обычное соглашение об оказании облачных услуг со стандартной скидкой.
Мостак имел ответы на все эти вопросы, но инвесторы всё равно потеряли доверие. Через четыре месяца после выхода статьи венчурные инвесторы из Coatue и Lightspeed покинули совет директоров, дав понять, что больше не верят в этот бизнес. К концу года компанию покинули также руководитель отдела исследований, главный операционный директор, главный юрисконсульт и руководитель отдела кадров. За ними последовали многие из ведущих исследователей Stability. Под давлением инвесторов Мостак наконец покинул компанию 22 марта 2024 года — всего через несколько недель после вечеринки в оранжерее Леди Гаги.
Аккараджу и Паркер не теряли времени и взяли Stability под свой контроль, назначив Аккараджу генеральным директором, а Паркера — председателем совета директоров. Они так и не поговорили с Мостаком, хотя бывший генеральный директор утверждает, что он связывался с ними, чтобы предложить свою помощь.
Пара приступила к попытке переделать Stability AI под современные реалии. Вскоре после того, как они взяли на себя управление, конкуренция стала ещё более жёсткой. В сентябре того же года другой стартап, Runway, подписал первый крупный контракт в индустрии искусственного интеллекта с киностудией. Runway получила доступ к проприетарному каталогу фильмов Lionsgate в качестве обучающих данных и разработала инструменты для студии. «Время, необходимое для реализации идеи, значительно сокращается, — говорит Кристобаль Валенсуэла, генеральный директор Runway. — За пару минут можно сделать то, что раньше занимало пару недель». По его прогнозам, в ближайшие годы «команды из двух, трёх, четырёх человек будут выполнять работу, для которой раньше требовались целые армии и сотни миллионов долларов».
Сделка с Lionsgate ускорила внедрение искусственного интеллекта в Голливуде. «Могу сказать, что сравнивая то, что я увидел в прошлом году, когда приехал в Лос-Анджелес, и сегодняшнюю историю, видишь кардинальные различия», — говорит Амит Джайн, генеральный директор Luma, ещё одного конкурента Stability. «В прошлом году все говорили: „Давайте создадим прототип, давайте проверим концепцию“ — они откладывали неизбежное. В этом году тон совсем другой».
Moonvalley, компания из области ИИ, основанная бывшими исследователями Google DeepMind (и материнская компания Asteria, киностудии по искусственному интеллекту, соучредителем которой является актриса Наташа Лионн), недавно сообщила журналу Time, что более десятка крупных голливудских студий тестируют её новейшую модель, что свидетельствует об открытости к этой технологии, если не о полном её принятии.
«На самом деле, мы с Шоном пришли и задали направление, обеспечили лидерство и действительно воспользовались волшебной тройкой: таймингом, командой и технологиями», — говорит Аккараджу.
Я нахожусь не у него на лекции, а в его особняке стоимостью 20 миллионов долларов недалеко от Беверли-Хиллз, на безупречном белом диване с обивкой, откуда открывается вид на ухоженный сад. Аккараджу в хорошей физической форме, с блестящей белой улыбкой и рубашкой с пуговицами, подчёркивающей его бицепсы. Его взгляд силён так же, как его рукопожатие.
Аккараджу говорит, что в начале своей карьеры он решил, что Stability больше не будет конкурировать с OpenAI и Google в создании передовых моделей. Вместо этого компания будет создавать приложения, основанные на этих моделях, что избавит компанию от огромных затрат на вычисления. Аккараджу заключил новую сделку с поставщиками облачных вычислений Stability AI, списав огромный долг компании. Когда его спросили о подробностях того, как это произошло, Аккараджу через своего представителя отказался отвечать. Инвесторы, такие как Coatue, снова начали приходить к нему на поклон.
В то время как Мостак рисовал картину, в которой ИИ решает самые сложные проблемы мира, Аккараджу, если говорить без прикрас, создаёт компанию, предоставляющую программное обеспечение как услугу для Голливуда. По его словам, цель не в том, чтобы создавать фильмы, а в том, чтобы использовать ИИ для усовершенствования инструментов, которые уже используют кинематографисты. «Я действительно считаю, что наше отличие заключается в том, что в центре внимания находится создатель, — говорит Аккараджу. — Я не знаю ни одной другой компании, занимающейся ИИ, в совете директоров которой был бы Джеймс Кэмерон».
Да, ирония судьбы очевидна: человек, который когда-то, будучи «больным и без гроша в кармане» в Риме, увидел кошмарный сон о машинах-убийцах и превратил его в фильм «Терминатор» — так сказать, создатель Skynet — входит в совет директоров компании, занимающейся искусственным интеллектом. Однако вдвойне удивительно то, что Кэмерон входит в совет директоров компании, которой руководят Паркер и Аккараджу. Ведь десять лет назад Кэмерон помогал Голливуду вести борьбу против них. Ему не понравилась идея их стриминговой платформы Screening Room, которая позволяла людям смотреть новые фильмы дома за 50 долларов в день их выхода в прокат. Говорят, Кэмерон заявил публике на CinemaCon, что он «привержен кинотеатральному опыту». В последующие годы ни одна из крупных студий публично не объявляла о сделках с Screening Room, и в 2020 году компания сменила название на SR Labs.

В том же году Аккараджу и Паркер приобрели Weta Digital, студию визуальных эффектов, стоящую за такими блокбастерами, как «Властелин колец», «Игра престолов» и фильмы Кэмерона серии «Аватар». Weta разработала виртуальные камеры, которые позволяли Кэмерону видеть в видоискателе рендеринг искусственной среды в реальном времени, как будто он снимал на месте в вымышленном мире Пандоры.
Однажды вечером Кэмерон, Аккараджу и Паркер встретились за ужином, чтобы обсудить, как технологии меняют киноиндустрию. «Текила лилась рекой, — вспоминает Кэмерон. — Зародилась дружба». Любое напряжение, которое существовало из-за Screening Room, исчезло. («Я никогда не говорил с ним об этом, — говорит Аккараджу. — Он всё понимал, и я всё понимал. Это было очень забавно»).
Итак, Кэмерон входит в совет директоров, но является ли он «создателем, находящимся в центре», как сказал Аккараджу? Когда я разговаривал с Паркером, он подчеркнул важность использования моделей с открытым исходным кодом и говорил о «уважении к создателям и уважении к интеллектуальной собственности». Он добавил: «Это может прозвучать несколько странно, учитывая мою прошлую связь с Napster и ранними социальными сетями. Но это урок, который я усвоил».
В июне компания одержала важную победу, когда Getty отказалась от своих претензий о нарушении авторских прав в рамках более широкого судебного процесса, который приближался к завершению в Великобритании. Судебный процесс в США продолжается. Аккараджу сказал, что компания «получает данные из общедоступных и лицензионных наборов данных для обучения и настройки», и что при «создании решений для клиента» она «выполняет настройку с использованием набора данных, предоставленного клиентом». Когда я спросил Аккараджу, использует ли компания для обучения исключительно бесплатные или лицензионные данные, он ответил: «Ну, это, конечно, большая часть того, что мы используем».
Даже те, кто оптимистично настроен по поводу ИИ, признают, что в большинстве случаев эта технология ещё не готова для большого экрана. Генераторы изображений на основе текстов могут работать для маркетинговых агентств, но им часто не хватает качества, необходимого для художественного фильма. «Я работал над одним фильмом для Netflix и пытался использовать один кадр», — говорит кинорежиссёр, пожелавший остаться анонимным, не желая публично обсуждать использование ИИ. По словам кинорежиссёра, снятый с помощью ИИ материал был «отклонён» контролем качества, поскольку не соответствовал разрешению 4K.
Кроме того, существует проблема согласованности. Кинематографисты должны иметь возможность вносить мелкие изменения в сцену, но это невозможно с большинством доступных на рынке генераторов изображений и видео. Введите один и тот же запрос в чат-бот 10 раз, и вы, скорее всего, получите 10 разных результатов. «Это совершенно не подходит для рабочего процесса VFX, — говорит Кэмерон. — Нам нужно более высокое разрешение, нам нужна более высокая повторяемость. Нам нужна управляемость на уровнях, которых пока ещё нет».
Это не помешало кинематографистам экспериментировать. Почти все, с кем я разговаривал для этой статьи, сказали, что ИИ уже является ключевой частью процесса «превизуализации», когда сцены планируются перед съёмкой. Этот процесс может породить новые проблемы с эффективностью. «Неэффективность старой системы заключалась в информационном разрыве между тем, что я вижу, и тем, как оно должно быть в моём представлении, — говорит Луиза Хуанг, соучредитель Toonstar, технологически продвинутой анимационной компании. — С ИИ неэффективность становится такой: „Вот одна версия, вот другая версия, вот ещё одна версия“».
Одним из первых в Голливуде, кто признался в использовании генеративного ИИ в финальном кадре, стал Джон Эрвин, режиссёр и продюсер библейской эпопеи Amazon «Дом Давида». Он заинтересовался этой технологией во время съёмок первого сезона сериала в Греции. «Я заметил, что мой художник-постановщик мог визуализировать идеи практически в режиме реального времени, — говорит он. — Я спросил: „Расскажи мне, как именно ты это делаешь. Что ты используешь, волшебник?“» — вспоминает он.
Эрвин сам начал экспериментировать с этими инструментами. «Я почувствовал, что могу напрямую воплощать свои фантазии», — говорит он. В конце концов, он подготовил презентацию для Amazon, в которой рассказал, как хочет использовать генеративный ИИ в своём производстве. Компания поддержала его.
«Мы снимаем всё, что можем, в реальности — для этого по-прежнему требуются сотни людей, — рассказывает Эрвин. — Но мы можем сделать это примерно за треть бюджета некоторых более крупных шоу того же жанра и в два раза быстрее». По его словам, сцена с горящим лесом в «Доме Давида» была бы слишком дорогой для реализации с помощью практических эффектов, поэтому зрители увидели то, что создал ИИ.
Эрвин говорит, что он вёл переговоры с командой Stability, но «не смог успешно использовать их инструменты в крупном сериале». Этот комментарий отражает тему, которую я обнаружил в своих репортажах: хотя я смог найти ряд кинематографистов, которые признались, что игрались с генераторами текста в изображение от Stability, никто из них не использовал эти инструменты профессионально — по крайней мере, пока.
Табу на признание студиями своего использования ИИ, похоже, ослабевает. В июле соуправляющий директор Netflix Тед Сарандос сообщил инвесторам, что компания впервые разрешила использовать «окончательные кадры, созданные с помощью ИИ» в одном из своих оригинальных сериалов. Он сказал, что это решение ускорило производство в десять раз и значительно сократило расходы. «Мы по-прежнему убеждены, что ИИ представляет собой невероятную возможность помочь создателям делать фильмы и сериалы не только дешевле, но и лучше», — сказал он.
Ханно Бассе, технический директор Stability, показывает мне изображение своего заднего двора в Лос-Анджелесе: травяной газон, окружённый высокими живыми изгородями, розовые кусты, окружающие эркер, и дерево в дальнем левом углу. Внезапно 2D-изображение превращается в 3D. Генеративная модель ИИ заполнила пробелы, оценив глубину (насколько далеко живая изгородь от розового куста, дерево от окна) и другие недостающие элементы, чтобы сделать сцену более реалистичной. Бассе может воспроизводить движения камеры, выбирая из раскрывающегося меню: увеличение или уменьшение, панорамирование вверх или вниз, спираль.
«Вместо того, чтобы тратить часы, дни или недели на создание виртуальной среды и репетицию съёмок, идея здесь заключается в том, что вы можете просто взять одно изображение и сгенерировать концепцию», — говорит Бассе.
Роб Легато, главный архитектор конвейера Stability, выглядит довольным. Легато, опытный специалист по визуальным эффектам, работавший над фильмами «Волк с Уолл-стрит» и «Аватар», присоединился к компании в марте. Накануне съёмок фильма он работал до 2 часов ночи и прибыл на эту встречу в качестве руководителя компании и бета-тестера.
Единственная проблема, по словам Легато, — это выпадающее меню. «Вероятно, их лучше объединить и сделать ползунок», — говорит он.
Предложения Stability AI всё ещё находятся на ранней стадии развития. Даже Легато признаёт, что версия виртуальной камеры, которую мы рассматриваем, ещё далека от того, чтобы её могли использовать профессионалы. «К сожалению, моя работа заключается в том, чтобы сразу же высказывать критические замечания», — говорит он.
Разговор переходит к ротоскопированию. Легато объясняет, что этот процесс, при котором художник кадрирует сцену кадр за кадром, раньше занимал сотни часов и был прерогативой начинающих аниматоров. Теперь ИИ может автоматически выделять часть изображения и добавлять визуальные эффекты. «Вам бы не хотелось, чтобы ваш ребёнок занимался ротоскопированием», — говорит он мне.
Этот комментарий должен звучать оптимистично, но он вызывает страх по поводу того, как ИИ повлияет на Голливуд. А именно, что эта технология приведёт к массовой потере рабочих мест.
«Я слышу, как художники из компаний, занимающихся визуальными эффектами, говорят: „Эй, я не хочу, чтобы меня заменили“. Конечно, вы не хотите, чтобы вас заменили! — говорит Кэмерон. — Если вы потеряете работу, то это будет из-за сокращения объёма работы, а не из-за того, что вас вытеснят модели искусственного интеллекта». Аккараджу и Паркер разделяют мнение, что по мере удешевления производства фильмов будет сниматься больше фильмов, а общее число рабочих мест будет расти.
Когда его спрашивают об этом, Аккараджу прибегает к расширенной метафоре. «Каждый крупный переход или технологическое изобретение сначала всегда встречается с опасением, затем с принятием, а потом становится чем-то очевидным», — говорит он. «Когда в 80-х годах появились банкоматы, все кассиры были в ярости. Они говорили: „Это наша работа. Мы выдаём наличные, принимаем вклады, а теперь вы заставляете эту машину делать это“. С тех пор количество рабочих мест для кассиров стало больше, чем когда-либо, а их средняя заработная плата выше, даже с поправкой на инфляцию».
Независимо от того, спасёт ли Stability AI переворот, начавшийся в теплице Леди Гаги, революция искусственного интеллекта уже наступила и уже преобразует Голливуд. Это рушащееся здание, этот горящий лес, эта толпа людей, которую вы видите, когда смотрите сериал или сидите в кинотеатре? Всё это мог создать один человек с клавиатурой. Дело в том, что эту историю о банковских кассирах часто используют технооптимисты, в том числе инвестор Stability AI Эрик Шмидт. Но они не упоминают, что число банковских кассиров достигло пика примерно в 2015 году. С тех пор оно снижается.