Венчурный фонд «Sequoia Capital», 85 млрд $ активов. Год назад мы предположили, что генеративный искусственный интеллект вскоре затронет все технологические сферы. Но никто из нас не ожидал, что это будет так скоро.
Ученые, историки и экономисты уже давно ломают голову, как ускорить развитие в сфере инноваций. И вот с помощью генеративного ИИ мы достигли современного чуда, сравнить которое можно только с покорением космоса.
Этот момент мы ждали десятилетиями. Вот уже шестьдесят лет закон Мура дает нам вычислительную мощность для обработки экcафлопсных (1018) объемов данных. Сорок лет мы собирали в Интернете (процесс был ускорен COVID) обучающие данные стоимостью триллионы токенов. Два десятилетия мобильных и облачных вычислений подарили каждому человеку карманный суперкомпьютер. Другими словами, уже накопилось достаточного технологических инноваций для создания необходимых условий для того, чтобы генеративный ИИ смог взлететь.
Расцвет ChatGPT стал той искрой, которая зажгла фитиль, высвободив множество таких чудес, которых мы не видели уже много лет — возможно, с первых дней существования Интернета. Волнение и трепет чувствовались в сообществе Cerebral Valley, где исследователи искусственного интеллекта достигли статуса рок‑звезд, а хакеры каждые выходные изобретали новых автономных агентов и чат‑ботов для общения. Исследователи ИИ превратились из «гаражных разработчиков» в подразделения специального назначения, командующие вычислительными мощностями на миллиарды долларов. Печатный станок ИИ статей arXiv стал настолько плодовитым, что исследователи в шутку призвали приостановить выпуск новых публикаций, чтобы они могли наверстать упущенное.
Но восторг от ИИ вскоре перешел в истерию. Внезапно оказалось, что ИИ может отодвинуть на второй план любую компанию. Наши почтовые ящики заполнились недифференцированными предложениями для «AI Salesforce», «AI Adobe» и «AI TikTok». Начался раунд подъема первоначальных инвестиций для готовых продуктов стоимостью 100 миллионов долларов. Мы оказались вовлечены в нездоровый ажиотаж по сбору средств, в битвы за таланты и закупки графических процессоров.
И, конечно же, начали появляться первые сложности. Художники, писатели и певцы поставили под сомнение законность интеллектуальной собственности, созданной машиной. Дебаты по поводу этики, регулирования и угрозы от надвигающегося сверхразума поглотили Вашингтон. И, пожалуй, самое тревожное, в Кремниевой долине начали распространяться слухи о том, что генеративный искусственный интеллект на самом деле бесполезен. Новые продукты не соответствовали ожиданиям, о чем свидетельствовало стремительное уменьшение количества пользователей. Спрос конечных пользователей на многие приложения начал неуклонно снижаться. Инновационное программное обеспечение оказалось просто мыльным пузырем?
Волны разочарования этим летом по поводу ИИ заставили его критиков радостно потирать руки, напоминая о первых днях Интернета, когда в 1998 году один известный экономист заявил: «К 2005 году станет ясно, что влияние Интернета на экономику было не больше, чем влияние факсимильного аппарата».
Но не заблуждайтесь — несмотря на шум, истерию, атмосферу неопределенности и недовольства, генеративный ИИ уже успешно стартовал на рынке. Он уже опередил SaaS с доходом более 1 миллиарда долларов только от стартапов (рынку SaaS потребовались годы, а не месяцы, чтобы достичь такого же масштаба). Некоторые приложения стали именами нарицательными: ChatGPT стало самым быстрорастущим приложением, особенно востребованным на рынке среди студентов и разработчиков; Midjourney стал нашей коллективной творческой музой и, как сообщалось, достиг сотен миллионов долларов дохода с командой всего из одиннадцати человек; а Character популяризировал развлечения и общение с использованием ИИ и создал потребительское «социальное» приложение, о котором мы мечтали больше всего — пользователи тратили в приложении в среднем два часа в день.
Тем не менее, эти ранние признаки успеха не меняют реальности, заключающейся в том, что у многих компаний, занимающихся ИИ, продукт просто не соотвествует рынку или у него нет устойчивого конкурентного преимущества, а общая активность экосистемы ИИ нестабильна.
Теперь, когда страсти немного улеглись, мы подумали, что настал подходящий момент, чтобы сбавить обороты и поразмышлять о генеративном искусственном интеллекте — где мы находимся сегодня и куда, возможно, направляемся.
Приближаемся ко второму акту
Первый год существования генеративного ИИ — «Акт первый» — начался с выхода технологии на рынок. Мы открыли для себя новый инструмент и выпустили волну новых приложений, которые представляли собой легкие демонстрации крутых инновационных технологий.
Теперь мы считаем, что на рынке начинается Акт второй, где основные действия разворачиваются на стороне клиента. Второй акт нацелен на окончательное решение проблем пользователя. Новые приложения отличаются по своей природе от первых приложений, появившихся на рынке. Они, как правило, используют базовые модели как часть более комплексного подхода, а не все решение целиком. Они внедряют новые интерфейсы редактирования, делая рабочие процессы более понятными, а выходные данные — более качественными. Они часто являются мультимодальными.
Рынок уже начинает переходить от Первого акта ко Второму. Примеры компаний, которые переходят ко Второму акту — Harvey, которая создает индивидуальные LLM для элитных юридических фирм; Glean, которая сканирует и индексирует наши рабочие пространства, чтобы максимально эффективно применять генеративный ИИ на работе; и Character и Ava, которые создают цифровых компаньонов.
Карта рынка
Ниже приведена наша обновленная карта рынка генеративного искусственного интеллекта.
В отличие от прошлогодней, мы решили упорядочить эту карту по вариантам использования, а не по модульности модели. Это отражает два важных направления на рынке: эволюцию генеративного ИИ от технологического инструмента к реальным вариантам его применения, а также все более мультимодальный характер приложений на основе генеративного ИИ.
Кроме того, мы включили новый стек разработчиков LLM, который отражает поставщиков вычислительной техники и инструментария, к которым обращаются компании при создании приложений на основе генеративного ИИ.
Возвращаясь к нашим исследованиям
В нашем оригинальном исследовании излагался тезис о возможностях рынка генеративного искусственного интеллекта и гипотеза о том, как будет этот развиваться рынок. В чем мы заблуждались?
Если кратко, то ошибки были следующими:
Все произошло быстро. В прошлом году мы предполагали, что пройдет почти десять лет, прежде чем у нас появится генерация кода на уровне стажеров, видео голливудского качества или речь, неотличимая от человеческой. Но беглое прослушивание голосов Eleven Labs в ТикТоке или на кинофестивале ИИ Runway дает понять, что уже будущее наступило. Даже 3D‑модели, игры и музыка слишком быстро развиаются.
Узкое место сейчас находится на стороне поставщиков. Мы не ожидали, что спрос конечных пользователей превысит возможности поставщиков графических процессоров. Узким местом на пути роста многих компаний быстро стал не потребительский спрос, а доступ к новейшим графическим процессорам от Nvidia. Долгое ожидание стало нормой, и появилась простая бизнес‑модель: заплатите абонентскую плату, чтобы не стоять в очереди и получить доступ ко всему самому лучшему.
Вертикального разделения еще не случилось. Мы по‑прежнему считаем, что произойдет разделение между компаниями «прикладного уровня» и поставщиками базовых моделей: поставщики будут специализироваться на масштабировании и исследованиях, а компании прикладного уровня — на продуктах и пользовательском интерфейсе. В реальности такого разделения пока нет. Фактически, наиболее успешные приложения, ориентированные на пользователя, были вертикально интегрированы.
Жесткая конкурентная среда и оперативность реагирования действующего руководства. В прошлом году основная конкурентная борьба развернулась в нескольких категориях (в частности, создание изображений и копирайтинг), но в целом рынок был пуст. Сегодня во многих сферах больше конкуренции, чем возможностей. Быстрота реакции действующих компаний — от Google Duet и Bard до Adobe Firefly — и готовность сотрудников, наконец, «рискнуть» — усилили дух соперничества. Даже на уровне базовой модели мы видим, что клиенты настраивают свою инфраструктуру таким образом, чтобы она не зависела от разных поставщиков.
Преимущество заключается в количестве клиентов, а не данных. Мы предположили, что лучшие компании с генеративным ИИ смогут создать устойчивое конкурентное преимущество с помощью маховика данных: больше использования → больше данных → лучшая модель → больше использования. Хотя это все еще отчасти верно, особенно в областях с очень специализированными и труднодоступными данными, конкурентные преимущества тут пока еще шаткие: данные, которые генерируют компании‑разработчики приложений, не создают уникальный продукт, и следующие поколения базовых моделей вполне могут уничтожить любые базы данных, которые генерируют стартапы. Поэтому, рабочие процессы и пользовательские сети, по‑видимому, создают более надежные конкурентные преимуществ.
Однако, кое в чем мы были правы:
Генеративный ИИ — это нечто особенное. Внезапно каждый разработчик начал работать над приложением для ИИ, и каждый корпоративный покупатель потребовал его. Рынок даже сохранил это прозвище «генеративный ИИ». На рынок хлынули таланты, а также доллары венчурного капитала. Генеративный искусственный интеллект даже стал феноменом поп‑культуры в вирусных видеороликах, таких как «Harry Potter Balenciaga» или песня‑имитация Дрейка «Heart on My Sleeve» от Ghostwriter, которая стала хитом.
Появились первые приложения‑монстры. Было зафиксировано, что ChatGPT быстрее других приложений достиг 100 млн уникальных пользователей — и сделал это органически всего за 6 недель. Для сравнения, Нельзяграмму на это потребовалось 2,5 года, WhatsApp — 3,5 года, а YouTube и Facebook — 4 года. Но ChatGPT — это не изолированное явление. Глубина вовлеченности в Character ИИ (среднее время сеанса составляет 2 часа), преимущества Github Copilot в плане производительности (на 55% эффективнее) и монетизация Midjourney (доход в сотни миллионов долларов) — все это говорит о том, что появилась первая группа приложений‑монстров.
Разработчики — это ключ к успеху. Одним из основных выводов компаний‑разработчиков, таких как Stripe или Unity, было то, что доступ к ИИ открывает такие возможности, которые нам даже и не снились. За последние несколько месяцев нам представили все — от сообществ по созданию музыки до ИИ‑брачных агенств и ИИ‑ассистентов из службы поддержки клиентов.
Форм‑фактор постоянно меняется. Первые версии приложений искусственного интеллекта в основном представляли собой автозаполнение и первые наброски, но сейчас эти факторы усложняются. Внедрение в Midjourney функции панорамного изображения и зумирования является хорошей иллюстрацией того, насколько обогатился пользовательский опыт применения генеративного ИИ. Повсеместно форм‑факторы эволюционируют от индивидуальной производительности к производительности на системном уровне и от «человек в цикле» к разветвленным системам, ориентированным на выполнение конкретной задачи.
Авторское право, этика и экзистенциальный страх. По этим темам разгорелись бурные дебаты. Художники, писатели и музыканты раскололись на два лагеря: некоторые справедливо возмущены тем, что другие получают прибыль от производных их работ, а некоторые принимают новую реальность искусственного интеллекта (на ум приходит предложение Граймса о распределении прибыли и оптимизм Джеймса Бакхауса по поводу того, чтобы стать частью творческого генома). Ни один стартап не хочет быть Napster или Limewire для будущего Spotify (Джейсон Бемиг). Правила непрозрачны: Япония заявила, что контент, используемый для обучения ИИ, не имеет прав интеллектуальной собственности, в то время как Европа предложила жесткое регулирование.
Где же мы находимся сейчас? Недостаток ценности генеративного ИИ
Генеративный ИИ не испытывает недостатка в вариантах использования или потребительском спросе. Пользователи жаждут примениить ИИ, который упростит их работу и улучшит их рабочие продукты, вот почему они массово обращаются к приложениям (несмотря на отсутствие их естественного распространения).
Но есть ли тут место людям? Не совсем. На приведенной ниже диаграмме сравнивается прирост сотрудников в компаниях‑разработчиков мобильных приложений на базе ИИ за 1 месяц в сравнении с ключевыми игроками рынка.
Вовлеченность пользователей также невелика. Самый высокий показатель у крупных компаний DAU/MAU составляет 60–65%; а у WhatsApp — 85%. Напротив, у приложений с генеративным ИИ медиана составляет 14% (за заметным исключением категории «Character» и «ИИ компаньон»). Это означает, что пользователи пока не недооценивают продукты на основе генеративного ИИ и используют их нерегулярно.
Короче говоря, самая большая проблема генеративного ИИ заключается не в поиске способов его применения, спроса или распространения, а в доказательстве его ценности. Как пишет наш коллега Дэвид Кхан, «вопрос стоимостью 200 миллиардов долларов заключается в следующем: для чего вы собираетесь использовать всю эту инфраструктуру? Как это изменит жизни людей?» Путь к построению устойчивого бизнеса потребует решения проблемы удержания клиентов и формирования достаточной ценности для потребителя, чтобы сохранять и преумножать количество ежедневных активных пользователей.
Давайте не будем отчаиваться. Генеративный ИИ все еще находится в «нежном подростковом возрасте». Есть проблески надежды, и когда продукция не оправдывает ожиданий, ее сбои часто оказываются понятными, повторяемыми и исправимыми. Наш продукт нам же и помогает.
Акт второй: Общий план действий
Основатели приступают к кропотливой работе по быстрому проектированию, тонкой настройке и кураторству над ИИ, чтобы сделать свои продукты с искусственным интеллектом «хорошими». Кирпичик за кирпичиком они превращают яркие демонстрации в полноценный продукт. А тем временем базовые модели продолжают наполняться исследованиями и инновациями.
Общий план действий разрабатывается по мере того, как компании находят путь к созданию устойчивой ценности. Теперь у нас есть совместные методы, позволяющие сделать модели полезными, а также новые парадигмы пользовательского интерфейса, которые будут определять второй акт в пьесе про генеративный ИИ.
Стек разработки модели:
Новые методы рассуждения, такие как цепочка рассуждений, древовидное мышление и рефлексия, улучшают способность моделей выполнять более насыщенные и сложные задачи, сокращая разрыв между ожиданиями клиентов и возможностями моделей. Разработчики используют такие фреймворки, как Langchain, для запуска и отладки более сложных многоцепочечных последовательностей.
Методы обучения передаче данных, такие как обучение с обратной связью и тонкая настройка, становятся все более доступными, особенно с недавним появлением тонкой настройки для GPT-3.5 и Llama-2, что означает, что компании могут адаптировать базовые модели к своим задачам и улучшать их на основе отзывов пользователей. Разработчики загружают модели с открытым исходным кодом из Hugging Face и настраивают их для достижения качественных результатов.
Генерация, дополненная результатами поиска (RAG), привносит контекст о компании или пользователе, уменьшая галлюцинации ИИ и повышая правдивость и полезность его ответов. Векторные базы данных от таких компаний, как Pinecone, стали основой инфраструктуры RAG.
Новые инструменты разработчика и фреймворки приложений предоставляют компаниям многоразовые строительные блоки для создания более продвинутых приложений ИИ и помогают разработчикам оценивать, улучшать и контролировать производительность моделей ИИ в процессе генерации, включая инструменты LLMOps, такие как Langsmith и Weights & Biases
Инфраструктурные компании, ориентированные на искусственный интеллект, такие как Coreweave, Lambda Labs, Foundry, Replicate и Modal испоьзуют общедоступные облака и предоставляют то, в чем больше всего нуждаются компании, занимающиеся ИИ: множество графических процессоров по разумной цене, доступных по запросу и хорошо масштабируемых, с понятным опытом разработки PaaS.
Вместе эти методы должны устранить разрыв между ожиданиями и реальностью, поскольку лежащие в их основе базовые модели улучшаются. Но сделать эти модели крутыми — это только полдела. Также развивается руководство по созданию пользовательского опыта, основанного на генеративном искусственном интеллекте:
Новый облик продуктов:
Порождающие интерфейсы. Текстовый диалоговый интерфейс пользователя — это интерфейс по умолчанию поверх LLM. Постепенно в арсенал входят новые форм‑факторы, от генерирующих пользовательских интерфейсов типа Perplexity до новых модальностей, таких как голоса, звучащие по‑человечески с интонациями и акцентом.
Новые возможности редактирования: от второго пилота до режима режиссера. По мере того как мы переходим от «нулевого кадра» к «спроси и отрегулируй», компании, работающие с генеративным ИИ, изобретают новый набор ручек и переключателей, которые сильно отличаются от традиционных рабочих процессов редактирования. Новые возможности панорамирования Midjourney и режиссерский режим Runway создают уникальные возможности редактирования, похожие на работу с камерой. Eleven Labs позволяет манипулировать голосами с помощью подсказок.
Усложняющиеся системы. Приложения с генеративным ИИ все чаще становятся не просто автозаполнением или первыми набросками для проверки человеком; теперь они автономно решают проблемы, имеют доступ к внешним инструментам, а также комплексного решают различные задачи от нашего имени. Мы неуклонно продвигаемся от 0 к 5 уровню автономии.
Общесистемная оптимизация. Вместо того чтобы встраиваться в рабочий процесс отдельного пользователя и повышать его эффективность, некоторые компании напрямую решают проблему общесистемной оптимизации. Можете ли вы выделить часть обращений или запросов в службу поддержки и автономно решить их, тем самым сделав всю систему более эффективной?
Мысли напоследок
По мере того как мы приближаемся к парадоксу границы и по мере того, как новизна трансформеров и диффузионных моделей угасает, природа рынка генеративного искусственного интеллекта будет меняться. Шумиха и показуха уступают место реальной ценности и целостному восприятию продукта.
В Sequoia мы по‑прежнему твердо верим в генеративный ИИ. Необходимые условия для того, чтобы этот рынок взлетел, накапливались на протяжении десятилетий, и наконец, этот рынок прямо перед нами. Появление уникальных приложений и огромный спрос конечных пользователей укрепили нашу уверенность.
Однако стоит вспомнить закон Амары — явление, заключающееся в том, что мы склонны переоценивать эффект технологии в краткосрочной перспективе и недооценивать эффект в долгосрочной. Мы проявляем терпение и рассудительность при принятии наших инвестиционных решений, уделяя пристальное внимание тому, как производители решают проблему ценности. Общий план действий, который компании используют для расширения границ в области производительности моделей и опыта работы с продуктами, вселяют в нас оптимизм в отношении второго акта развития генеративного ИИ.
keydach555
Пока можно сказать одно - все находится в шатком равновесии. Текущие минусы ИИ (галлюцинации, неспособность объяснения, отсутствие базовой картины мира и здравого смысла, неспособность к логическим рассуждениям) - делают его красивой игрушкой без возможности полноценного применения. Если эти моменты будут решены - изменится абсолютно все, если нет - все останется как есть. И как оно повернется пока не знает никто, следующий год-два станут решающими
huaw
Прям как у 80% населения :)
"Исследование: большинство россиян (>80%) не понимают или плохо понимают прочитанный текст
Судя по всему, большинство россиян не понимают или слабо понимают прочитанное, причём даже простые, а не какие-то научные тексты.
В журнале «Научный результат. Социология и управление», №1, 2023, приводятся данные социологов: «По результатам проекта «Общественное мнение», реализованном в 1969- 1974 гг. под руководством известного российского социолога Б.А.Грушина, оказалось, что «в 7 случаях из 10 предъявленные читателям газетные тексты интерпретировались ими неадекватно цели сообщения; адекватно понять смысловые особенности предложенного им газетного текста сумели только 14% респондентов». Т.е. в советское время 70% людей не понимали смысла прочитанного в газетах.
В новое время проводились аналогичные эксперименты. Но задачу респондентам упростили. Им давали читать не газеты, а сказки, или любимые произведения, которые они (вроде бы) должны ещё и хорошо понимать. Результаты были такими: «В 2010 г. адекватное понимание мотивационно-целевой направленности любимой в детстве сказки и понравившегося произведения (по собственному выбору) обнаружили 26% респондентов; частично адекватное понимание – 49%; неадекватное – 25%. В 2013 г. адекватное понимание при интерпретировании произведения, повлиявшего на мировидение (по собственному выбору), обнаружили 17% респондентов; частично адекватное – 45%; неадекватное – 37%»."