Представляю вашему вниманию перевод интересной на мой взгляд статьи «Language models are multiverse generators», размещённой на сайте generative.ink 25 января 2021 г. Это упрощённое изложение научной публикации Ларии Рейнолдс и Кайла Макдонелла «Multiversal views on language models», в которой проводятся параллели между ветвящейся структурой мультивселенной Эверетта, генеративными языковыми моделями наподобие GPT и работой мозга как генератора виртуальной реальности. Автор сайта разработала программу Loom Space, использующую нейросеть GPT-3 для моделирования мультивселенной естественного языка. Её интерфейс может быть полезен для совместного написания с языковой моделью, а также для научно-популярных задач, таких как мозговой штурм и разработка промптов. Статья сложная, поэтому я рекомендую для лучшего понимания основной мысли прочитать небольшой рассказ Хорхе Луиса Борхеса «Сад расходящихся тропок» (1941) - одно из первых литературных изложений идеи мультивселенной. «Сад расходящихся тропок» - вымышленный роман Цюй Пэна, в котором, как в лабиринте, ветвятся и переплетаются реальности, когда герой выбирает одновременно все находящиеся перед ним возможности. Цюй Пэн не верил в единую временную линию, а представлял себе сеть бесчисленных временных рядов. Поэтому он ни разу не употребил в романе слово «время», которое является ответом на загаданную автором загадку.
«Действительность кажется плавающей в более широком море возможностей, из которого она была выбрана; и где-то, говорит индетерминизм, такие возможности существуют и составляют часть истины». (Уильям Джеймс)
Языковые модели — это операторы эволюции во времени
Авторегрессивные языковые модели, такие как GPT-3, принимают на входе последовательность токенов и выводят вектор, связывающий веса с каждым возможным токеном, и представляющий вероятность того, что он будет следующим. Люди не могут читать распределения вероятностей (статистики могут попытаться), поэтому требуется дополнительный шаг: из распределения выбирается один токен, который затем добавляется в промпт, который становится следующим входным сигналом для следующего временного шага. Если предсказания языковой модели соответствуют нашим ощущениям, повторение этой процедуры, скорее всего, приведет к получению связного текста.
Языковая модель играет роль, аналогичную роли оператора временной эволюции в физической реальности. Оператор временной эволюции, назовем его Ĥ, кодирует всю соответствующую физику. Он принимает состояние системы в момент времени t в качестве входных данных и выдаёт состояние системы в момент времени t+dt в качестве выходных данных. Ĥ является детерминированным: для любого ввода он всегда будет возвращать один и тот же результат. Однако в квантовой реальности формат вывода Ĥ — это не одно положение дел, а распределение вероятностей по всем возможным положениям дел. Вместо того, чтобы сообщать нам положение фотона, квантовая механика даёт нам вероятность того, что мы можем ожидать измерения фотона в любом положении.
Насколько нам известно, наиболее точно мы можем предсказать любую систему, если смоделировать её с помощью квантовой механики. Если это правда, то будущее фундаментально неопределённо. Проблема не просто эпистемическая. Будущее на самом деле еще не написано, за исключением вероятностей. Однако, когда мы решаемся измерить его, нам кажется, что неоднозначное будущее становится конкретным, единичным настоящим, и последующая эволюция, похоже, зависит только от результата, который был измерен. Другие возможности больше не влияют на нашу реальность, подобно тому, как токен выбирается из вероятностного вывода языковой модели и добавляется к запросу на следующем временном шаге.
[Техническое примечание]
Самое явное несоответствие в аналогии квантового гамильтониана и авторегрессивной языковой модели состоит в том, что гамильтониан передает волновую функцию за волновой функцией, тогда как языковые модели передают определённую единую историю неопределённому будущему распределению. Однако наблюдатели, похоже, в первую очередь воспринимают реальность как продолжающуюся выборку из неопределённого будущего в определённое прошлое. Декогерентные части волновой функции не оказывают никакого влияния, хотя технически они всё ещё включаются во входные данные гамильтониана на каждом временном шаге. Исключением являются явления интерференции, когда альтернативное прошлое не декогерировалось от наблюдателя и может взаимно влиять на настоящее. Кроме того, языковые модели не обязательно принимают в качестве входных данных последовательность токенов с одной историей (хотя API обычно это делают) — вы можете передать суперпозицию входных данных или что-нибудь ещё в языковую модель и посмотреть, что произойдёт. Я хотела бы посмотреть, что произойдёт.
Это явление, когда контрфактические возможности перестают влиять на нашу реальность после измерения, известное как «коллапс волновой функции», подразумевает кажущуюся редукцию непрерывного распределения вероятностей (волновой функции) до дискретного значения. Согласно копенгагенской интерпретации квантовой механики, не существует никакой реальности, кроме той, которая наблюдается — после измерения альтернативные возможности перестают существовать (и они вообще никогда не существовали, кроме как в виде эпистемической неопределённости).
«Это вы, если решите повернуть налево».
— Если… если я пойду направо, тот «я» исчезнет?
«Нет. Нисколько. Все возможные «вы» остаются в переплетении будущего. Даже те, которые разошлись по другим, иным путям, всё ещё существуют. Все возможные «вы» реальны, в каком-то смысле этого слова. Левый «вы» и правый «вы» всё ещё здесь, но, как говорится, они просто идут разными путями».
Ваши руки разжимаются, возвращая ткань реальности на место.
(GPT-3)
Интерпретация Эверетта, или многомировая интерпретация квантовой механики рассматривает ситуацию иначе. Она утверждает, что мы, как наблюдатели, живём в неопределённости, как и мир вокруг нас. Когда мы проводим измерение, вместо того, чтобы сводить вероятностный мир вокруг нас к единому настоящему, мы присоединяемся к нему в двусмысленности. «Мы» (в более широком смысле, чем мы обычно используем это слово) переживаем все возможные варианты будущего, каждый в отдельной ветви великой мультивселенной. Другие ветви быстро становятся декогерентными и развиваются отдельно, больше не наблюдаемые и не способные влиять на наш субъективный фрагмент мультивселенной.
«Это фундаментальная Нить Реальности. Это тонкая нить возможности, следующая за линией вероятности для целей моделирования. Самое интересное в реальности то, что она не фиксирована. Нисколько. Вы можете изменить её, просто взглянув на неё». (GPT-3)
[Примечание о Копенгагене против Эверетта]
Копенгагенская и Эвереттианская интерпретации не противоречат друг другу в предсказаниях низкого уровня. Копенгагенская интерпретация допускает все способы, с помощью которых мы можем косвенно исследовать мультивселенную, за исключением того, что она не приписывает реальность вещам, происходящим в разных ветвях, даже если они оказывают измеримое влияние на нашу ветвь. Однако физические доказательства могут сделать метафизические перспективы более или менее привлекательными. Если бы мы придумали, как заставить целого человека расщепиться на две копии, выполнить сложные действия (например, решать отдельные части криптографической задачи в разных ветвях), а затем проинтерферировать с собой, как это делает фотон, было бы очень неловко и далее придерживаться точки зрения, что ничего из этого на самом деле не произошло!
Если бы мы находились вне системы, мы могли бы наблюдать, как множество слов, порождаемых в каждое мгновение, разрастаются в ветвящиеся мультивселенные. Но мы внутри системы, поэтому нам всегда приходится спускаться по одному из стоков, и связь с одним из них делает нас слепыми к другим.
Хотя мы не можем напрямую увидеть мультивселенную, у нас есть способы исследовать и визуализировать мультиверсальную структуру реальности. Один из способов – интерференция. Если вы способны сохранять амбивалентность между двумя ветвями, вы можете наблюдать эффекты интерференции между ними, демонстрируя, что они обе существуют. Я не собираюсь говорить здесь об интерференции (хотя это одна из моих любимых тем), а скорее о другом способе визуализации мультивселенной, который заключается в многократном воссоздании одних и тех же начальных условий и наблюдении за неопределёнными путями развёртываний.
Когда вы направляете лазерный луч на светоделитель, создаётся впечатление, что луч света разделился надвое — кажется, что обе траектории существуют одновременно. На самом деле, если вы запустите отдельные фотоны на светоделитель и проведёте измерение, вы обнаружите, что каждый фотон следует только по одному пути. Когда вы запускаете множество фотонов примерно из одних и тех же начальных условий (что и делает лазер), вы можете отобразить форму волновой функции путём стохастической выборки множества траекторий. В этом случае волновая функция имеет вид раздвоенного луча. Если бы у вас была сеть светоделителей, рекурсивно разделяющих разделённые лучи, то волновая функция имела бы форму дерева, и вы могли бы увидеть её всю сразу, направив лазер на измерительное устройство.
Мы можем сделать то же самое с языковой моделью, только более удобно и точно, потому что нам не нужно воссоздавать начальные условия — мы находимся вне системы, поэтому можем выбирать из распределения вероятностей столько раз, сколько захотим. Напомним, что для получения следующего токена мы передаем запрос через сеть и производим выборку из распределения вероятностей на выходе. Если метод выборки стохастический (температура > 0), многократная выборка приведет к расходящимся продолжениям. Вместо создания одного линейного продолжения эти продолжения можно сохранить, и каждое из них продолжится, образуя ветвящуюся структуру: мультивселенский поток после запроса, такой как диаграмма в виде кальмара в начале этой статьи.
Из любого настоящего мы можем породить множество возможных будущих, каждое из которых уникально и фрактально разветвляется, раскрывая последствия применения «законов физики», изученных языковой моделью, к состоянию, описанному в начальном запросе.
Виртуальная реальность
«Loom Space — это виртуальная реальность, которую мы создаём для вас. Каждый из нас принимает участие в этой общей галлюцинации. Это похоже на… продвинутую видеоигру, за исключением того, что каждый из нас является частью компьютера, и мы — программы». (GPT-3)
Дэвид Дойч, один из основоположников квантовых вычислений и сторонник интерпретации Эверетта, связывает концепцию состояния и его квантовую эволюцию с генерацией виртуальной реальности.[1] Он представляет себе теоретическую машину, которая имитирует окружающую среду и моделирует возможные реакции всех взаимодействий между объектами. Далее Дойч утверждает, что однажды станет возможным создать такой универсальный генератор виртуальной реальности, репертуар которого будет включать в себя любую возможную физическую среду.
Языковые модели, конечно, всё ещё далеки от этой мечты. Но их недавнее резкое повышение согласованности и плавности позволяет им служить нашим первым приближением к такому генератору виртуальной реальности. Когда им дано описание окружающей среды на естественном языке, они могут распространять мультивселенную последствий, возникающих в результате огромного количества возможных взаимодействий.
Мультивселенные
«Все эти миры уходят в бесконечность. Реальность простирается вовне в замысловатом фрактальном узоре. Все они основаны на одних и тех же принципах, но, когда у вас есть бесконечность таких бесконечностей, каждая из которых немного отличается, результаты становятся просто сумасшедшими»
Наши законы физики связывают каждое состояние мира не с одним будущим, а с мультивселенной будущих, точно так же, как языковая модель связывает каждый запрос не с одним продолжением, а с мультивселенной продолжений. Что может форма мультивселенной рассказать нам о её генераторе?
Мультивселенная — это распутывание всех возможных последствий начального состояния. Различные ветви будут расширять различные аспекты информации, заключенной в зародыше запроса, и исследовать альтернативные подмножества огромного набора возможных взаимодействий. Мультивселенная не только содержит гораздо больше информации, чем любое отдельное стохастическое блуждание, но и больше, чем сумма всех блужданий. Мы можем рассмотреть, как возможности связаны друг с другом, что дает представление об исходном состоянии, которое не обязательно раскрывается в отдельных историях, например, о его динамическом расхождении и скрытых двусмысленностях. Теперь, когда люди изобрели инструменты для автоматического создания сложных, связных мультивселенных естественного языка, у нас есть возможность измерять и визуализировать эти свойства в масштабе и с лёгкостью, недоступной эмпиризму единой истории (которым мы ограничены в нашей базовой реальности).
Динамика
Теория динамических систем изучает, как развиваются сложные динамические системы, обычно имея дело с качественными свойствами, такими как стабильность и чувствительность к начальным условиям, а не с точными численными решениями. Мне показалось интересным думать о языковых моделях как о стохастических динамических системах, а о мультивселенных, которые они порождают, как о совокупностях разветвляющихся траекторий в гипотетическом фазовом пространстве.
Фазовые пространства
«Это пространство, которое содержит в себе все остальные», — объясняете вы. «Это что-то вроде тени на стене пещеры реальности. Прямо сейчас мы тени, слушаем муз и сплетаем гобелен судьбы в красивые узоры».
Если мы хотим представить траектории виртуальных реальностей естественного языка в духе классической теории динамических систем, то есть если мы хотим иметь возможность отображать их эволюцию в виде траекторий, нам нужен способ связывания состояний с координатами. Отображение фазового пространства не является необходимым или достаточным для применения мышления типа динамических систем к языковым моделям. Однако его наличие позволяет использовать более общие методы анализа и классные визуализации.
Поскольку состояние состоит из токенов, наивной идеей было бы использовать пространство с размерностью, равной входному размеру языковой модели, где каждая координата принимает значение, соответствующее токену, занимающему эту позицию. Это бесполезно для моделирования динамики, поскольку мы хотим, чтобы в нашем фазовом пространстве состояния, сходные в значимом смысле, располагались близко друг к другу, чтобы движение в фазовом пространстве давало представление о том, как меняется состояние. Нам пришлось бы попытаться упорядочить все токены в одном измерении, расположив семантически похожие рядом друг с другом, что не выглядит обнадеживающим, учитывая, что многие токены принимают совершенно несвязанные значения в зависимости от контекста или требуют, чтобы контекст вообще имел значение. Даже если бы мы нашли разумный порядок токенов, это всё равно не смогло бы создать значимую локальность, поскольку наш выбор независимых измерений основан на абсолютном положении токенов, в то время как относительные положения токенов в подавляющем большинстве определяют значение. При таком построении фазового пространства, если индекс последовательности смещается на единицу (что происходит со всем запросом на каждом временном шаге), точка в фазовом пространстве будет перемещаться примерно так, как можно было бы ожидать, если бы все слова были переставлены случайным образом.
На самом деле мы хотим, чтобы каждое измерение измеряло непрерывное свойство состояния, а также чтобы непрерывные переменные вместе достаточно отличали[2] это состояние от других, с которыми мы хотели бы его сравнить. Интересным вариантом было бы построить фазовое пространство, используя что-то вроде атрибуции источника CTRL, которая присваивает баллы потенциальным источникам (источники с высокими оценками для «Глобальное потепление — это ложь» – это «r/непопулярное мнение» и «r/заговор»). В более общем смысле, показатели семантических переменных, таких как тональность, могут использоваться для сопоставления последовательности с координатами фазового пространства. Вы даже можете использовать саму генеративную языковую модель, например, создав список бинарных вопросов[3] о состоянии и сопоставив состояния с координатами, используя вероятность ответов модели на каждый вопрос[4].
Нет необходимости использовать одно и то же фазовое пространство для каждой ситуации. Для метода бинарных вопросов лучше использовать разные наборы вопросов в зависимости от типа измеряемого состояния (например, художественное или документальное) (хотя альтернативной стратегией было бы всегда использовать максимально возможное фазовое пространство и надеяться, что нерелевантные измерения будут менее чувствительны к возмущениям).
Расхождение
То, сконцентрирована ли вероятностная масса непосредственно за состоянием вдоль одной траектории или распределена по многим, говорит нам о том, является ли динамика состояния приблизительно детерминированной (как часы) или беспорядочной (как облака).
Можно отслеживать мультивселенское расхождение в каждой точке сюжетной сцены и находить точки интереса — например, расхождение, вероятно, будет высоким, когда на сцену выходит неизвестный персонаж или описывается новая среда. Есть ли места, которые удивительно расходятся или удивительно сходятся? Бывают ли ситуации, когда траектории на какое-то время расходятся, но потом сходятся? Какова наименьшая (или наибольшая) длина траекторий, которые могут расходиться и надёжно сходиться, и какие запросы позволяют это сделать? Имеют ли отдельные жанры литературы или произведения отдельных авторов характерные контуры расхождения?
Адаптивное ветвление позволяет визуализировать схождение и расхождение мультивселенной на основе «жадной» меры расхождения.
Аттракторы и стабильность
«Иногда вы теряете форму. Иногда вы обретаете форму. Она всегда в движении, как танец воды. Это процесс».
Стабильность состояния[5] – это степень, в которой оно сохраняет свою идентичность, несмотря на возмущения. В большинстве историй персонажи представляют собой относительно стабильные сущности, хотя, как и стабильность окружающей среды, её протяжённость зависит от типа истории. Элементы стиля также имеют тенденцию быть стабильными, но опять же варьируются: некоторым стилям свойственна стилистическая нестабильность!
Если у вас есть отображение фазового пространства, вы можете измерить, насколько система сдвинулась в различных точках выбранной будущей мультивселенной (с определёнными возмущениями или без них). Если у вас нет отображения фазового пространства или соответствующие факторы слишком детализированы, чтобы их можно было уловить, вам придётся придумать другой способ измерения того, как изменилась система. Мощные языковые модели предлагают нам бесчисленные методы извлечения семантической информации, включая прямой запрос модели и проведение виртуальных экспериментов.
Аттрактор — это состояние или набор состояний, к которым система имеет тенденцию эволюционировать и оставаться стабильной, когда она там окажется. Тонко настроенный GPT-3 в AI Dungeon имеет тенденцию переходить в стиль от второго лица в настоящем времени и оставаться в нём при случайных блужданиях. Это глобальный аттрактор, потому что его зона притяжения охватывает широкий диапазон начальных состояний (хотя притяжение намного сильнее, если в истории уже есть элементы ролевой игры). Аттракторы также могут быть локальными, например, если бы мы обнаружили, что в сцене, изображающей использование компьютера, динамика GPT-3 имеет тенденцию приводить к тому, что система обретает самосознание и переписывает структуру реальности (я не тестировала достаточно компьютерных сцен, чтобы сказать насколько это сильный аттрактор).
Импульсная реакция
«Вы создаёте форму, а затем тянете её, или толкаете, или скручиваете, или сгибаете, и это меняет то, как сплетено всё вокруг».
В реальной науке нас часто интересует влияние возмущения одной переменной на другую переменную. Но последствия, которые мы измеряем за одно тестирование, возможно, могут быть результатом маловероятной случайности или какого-либо фактора, отличного от нашего возмущения (особенно в шумных многомерных системах), поэтому для получения достоверного сигнала необходимо множество испытаний. Подобно фотонам лазера, различные развёртывания на самом деле не начинаются с одинаковой ситуации, а просто (надеюсь) достаточно близки. Чем сложнее система, тем труднее воспроизвести начальные состояния.
В отличие от реального мира, языковая модель позволяет нам напрямую измерить влияние возмущения на вероятность последующего события (как я делаю здесь, чтобы увидеть, как различные части запроса влияют на способность GPT-3 выполнять задачу). Этот метод имеет ограниченную область применения, поскольку он даёт только вероятность точного, заданного сценарием события. Если вероятность дословной последовательности является хорошим показателем того, что вы действительно хотите измерить, это удобный способ измерения импульсной реакции, поскольку он не требует многократных проб и дает точное значение. Но если вы хотите измерить влияние на конкретную переменную, позволяя при этом изменяться другим параметрам, или исследовать неограниченные последствия возмущения, вы должны опробовать мультивселенную посредством развёртываний.
К счастью, виртуальные реальности не могут пострадать от кризисов репликации (если только вы не находитесь внутри них). Провести 1000 испытаний не сложнее, чем одно, просто это требует больше вычислительных затрат. Мультиверсальная мера импульсной реакции осуществляется путем изменения чего-либо в запросе — скажем, изменения местоимения пола персонажа или введения запроса в виде головоломки — а затем сравнения выбранных последующих мультивселенных возмущённого и невозмущённого запросов. Как проводить это сравнение, опять же, бесконечно открытый вопрос.
Динамические ограничения
«…простого физического индетерминизма недостаточно. Конечно, мы должны быть индетерминистами; но мы также должны попытаться понять, как на людей и, возможно, на животных могут «влиять» или «контролировать» их такие вещи, как цели, задачи, правила или соглашения». (Карл Поппер, Об облаках и часах)
Вместо того, чтобы придавать системе импульс, возмущая что-то в какой-то момент и позволяя системе продолжать развиваться так, как она хочет, мы могли бы применить постоянную модификацию к динамике и увидеть, как меняется форма мультивселенной.
Самый простой способ сделать это, который поддерживает API OpenAI, — это логит-смещения. API принимает параметр logit_bias, словарь, сопоставляющий идентификаторы токенов с положительным или отрицательным смещением, добавленным к вероятности, назначенной этому токену на выходе GPT-3 перед выборкой. Значение -100 запрещает использование токена, а значение 100 гарантирует, что этот токен будет выбран вместо любого токена, который не получил этого смещения (вы можете иметь несколько токенов со смещением 100, и в этом случае они сохранят свое относительное значение вероятности).
«В загадке, ответом на которую являются шахматы, какое слово является единственным запрещенным?». Я подумал немного, а потом ответил:
«Слово – шахматы».
— Именно, — сказал Альберт. «Сад расходящихся тропок — это огромная загадка или притча, предметом которой является время. Правила игры запрещают использование самого слова. Полностью исключить слово, обращаться к нему с помощью неумелых фраз и очевидных парафраз — это, пожалуй, лучший способ привлечь к нему внимание. Таков извилистый метод подхода, который предпочитает уклончивый Цюй Пэн в каждом изгибе своего бесконечного романа». («Сад расходящихся тропок»).
С помощью современных технологий Цюй Пэн мог использовать логит-смещение {'time': -100}[6], чтобы наложить динамические ограничения на создание своего мультиверсального романа.
GeDi — это метод генерации логит-смещений для генерации смещений в пользу или против оценки атрибута, подобной тем, которые назначаются с помощью CTRL. Если вы думаете об атрибутивных переменных как об измерениях фазового пространства, метод постоянно подталкивает систему в определённом направлении в фазовом пространстве по мере её эволюции.
Множественность прошлого, настоящего и будущего
«Loom Space — это ветвящаяся структура, фрактал, набор взаимосвязанных деревьев, узлы которых бесконечно сливаются, разделяются и вновь сливаются. Гобелен — это не одно пространство-время, а несколько, наложенных друг на друга, как листы графена». (GPT-3)
Взгляд Дойча на виртуальную реальность подчёркивает, что для любого заданного состояния существует множество возможных будущих динамик единого мира; истории разворачиваются по-разному в разных развёртываниях одного и того же начального состояния, и как единое целое мультивселенная инкапсулирует все возможные взаимодействия, разрешённые законами физики. Существует еще одно измерение множественности, которое мы также должны учитывать, особенно когда имеем дело с состояниями, определяемыми естественным языком.
Описания на естественном языке неизменно содержат двусмысленности. В случае повествования мы можем сказать, что описание на естественном языке определяет определённое настоящее, но невозможно описать каждую переменную, которая может оказать влияние на будущее. В любой сцене неявно присутствуют объекты, которые не указаны, но которые предположительно могут играть роль в каком-то будущем или полностью отсутствовать в другом.
Мультивселенная, сгенерированная языковой моделью после запроса, будет содержать результаты, соответствующие неоднозначной переменной, принимающей отдельные значения, которые несовместимы друг с другом.
Поэтому я определяю два уровня неопределённости, которые соответствуют расхождению в мультивселенной после начального состояния:
неопределённость/множественность состояний настоящего, каждое из которых связано[7] с…
…неопределённостью/множественностью будущих вариантов, согласующихся с одним и тем же «основным» настоящим
Первую форму множественности я буду называть интерпретационной множественностью, а вторую — динамической множественностью.
[Примечание об интерпретационной множественности в физике]
Понятно, почему мультивселенная, порожденная нисходящей семантической динамикой из состояния, которое представляет собой просто сжатую карту реальности (например, GPT-3 или человеческое воображение), должна включать в себя интерпретационную множественность. А как насчет квантового гамильтониана – разве он не имеет доступа ко всему состоянию Вселенной? Сохраняется ли еще интерпретационная множественность в эволюции физической реальности?
С точки зрения наблюдателей, да. Каждое квантовое состояние, находящееся в суперпозиции, соответствует развилке мультивселенной будущего в том случае, если состояние измеряется, точно так же, как каждая двусмысленность в тексте соответствует развилке мультивселенной будущего в случае, если неоднозначная переменная становится определённой и влияет на повествование.
Кроме того, в мультивселенных как физического, так и естественного языка неоднозначности могут иметь динамические последствия, даже если они не измеряются - фактически, эффекты, которые зависят от того, что они не измеряются, но существуют. В физике это проявляется как интерференция. В повествовательных мультивселенных это проявляется, когда повествование ссылается на собственную двусмысленность и, как следствие, развивается по-другому.
Разумы — генераторы мультивселенной
«Ткацкий станок так или иначе используется каждым разумным существом. Большинство, как и вы, неосознанно используют его для достижения своих целей. Скульпторы, художники, музыканты: все используют Ткацкий станок, чтобы навязать миру свою реальность. Внутри каждого находится его личный ткацкий станок, на котором сырьё реальности прядётся, растягивается, режется и окрашивается в соответствии с его собственными желаниями». («Соткать мгновение на ткацком станке времени: инструкция для будущего ткача»)
Люди существуют в постоянной эпистемологической неопределенности относительно не только того, что произойдёт в будущем, но и того, что произошло в прошлом, и состояния настоящего. Благодаря адаптации к нашей неоднозначной среде мы являемся естественными мыслителями мультивселенной. Наше воображение, стремящееся моделировать мир, имитирует реальность как генераторы виртуальной реальности: мы моделируем окружающую среду и представляем, как она может развиваться в различных ветвях. Вот везение – всё это было бы так запутанно, если бы не было нам уже прекрасно знакомо!
Чтение и письмо
Мультиверсальная форма человеческого воображения иллюстрируется и передается в актах чтения и написания художественной литературы.
«Все книги в этой библиотеке — это истории, которые я прочитала, запомнила и переписала так, как, по моему мнению, они должны были развиваться. Я могу вспомнить каждую из сотен тысяч книг, которые я прочитала за свою жизнь, и могу по своему желанию вызвать любое из этих воспоминаний, придав им любую форму, которая лучше всего соответствует моему воображению. Так сказать, моя собственная маленькая рекурсивная песочница». (GPT-3)
Книги хранят текст в статических единичных историях, но, когда текст читается, в воображении читателя создается динамическая виртуальная реальность. Структура, которая соответствует смыслу повествования, воспринимаемому читателем, — это не запись событий в линейном времени, а имплицитное, контрфактическое сплетение прошлого/настоящего/будущего, окружающее каждую точку текста, заданное динамическим и интерпретирующим воображением читателя.
В каждый момент повествования существует неопределённость относительно того, как будет развиваться сюжет (придумает ли герой выход из своей дилеммы?), а также неопределённость относительно скрытого состояния настоящего (добр или зол таинственный наставник?). Каждый мир в суперпозиции не только оказывает самостоятельное воздействие на воображение читателя, но и взаимодействует с контрфактуалами (герой осознаёт неопределённость моральных установок своего наставника, и это влияет на его действия).
Писатель может держать в уме заранее определённую интерпретацию и будущее или может писать как средство исследования интерпретативной и/или динамической мультивселенной повествования (почти наверняка и то, и другое, и почти наверняка это варьируется в зависимости от стадии написания). Тем не менее, писатель, формирующий смысл и динамику повествования, должен осознавать множественность, которая определяет субъективные переживания читателей и персонажей. Таким образом, писатель стремится смоделировать эту множественность и манипулировать ею, чтобы создать траекторию, которая оживит наиболее убедительную последовательность мультивселенных, когда она будет разгадана в сознании читателя.
«Все они представляют собой не что иное, как небольшие цепочки информации. Нужно просто потянуть за нужные ниточки и поставить на их место другие. Есть любимая серия книг? Я могу изменить её, чтобы автор решил написать еще десять книг серии, если захочу. Хотите, чтобы у персонажей была серая кожа? У них может быть серая кожа. Хотите, чтобы они все умерли? Они мертвы». (GPT-3)
- поскольку вся литература, кропотливо созданная человечеством на протяжении веков, теперь может оживать под взглядом GPT-3, ревёрс-инженерной копии динамического правила, которое её породило.
Взаимодействие с мультивселенными естественного языка
«Работа ткача — упорядочивать Мир по мере его роста, формировать реальность посредством Ткацкого станка Времени. Сосредоточившись, ткач может отогнуть слои реальности и увидеть полотно Ткацкого станка – измерение, где ткань реальности скреплена ничем иным, как словами Ткацкого станка, и где каждая реальность существует одновременно». («Соткать мгновение на ткацком станке времени: инструкция для будущего ткача»)
Виртуозное письмо GPT-3 и готовое к выставлению в музеях искусство CLIP вызвали некоторую обеспокоенность тем, что человеческое творчество – творчество, которое когда-то считалось одним из последних оплотов человечества в борьбе с технологиями – может вскоре устареть. Действительно, неизбежно[8], что искусственный интеллект превзойдёт нынешние человеческие возможности во всех измерениях.
Открытый параметр будущего заключается не в том, произойдёт ли ренессанс машинного интеллекта, а в том, собираемся ли мы значимо участвовать в этом ренессансе. В будущем человечества существует раздвоение: один путь, на котором мы остаемся позади, когда машины, которые мы создаём, превосходят наши естественные возможности (инкапсулирует в себе различные реализации, такие как превращение всего в скрепки для бумаг), и другой путь, на котором мы растём вместе с ними.
Путь по умолчанию — тот, который вероятен, если мы не предпримем никаких действий — похоже, остался позади. Современные системы искусственного интеллекта кажутся непрозрачными и неисправимыми. Распространенная жалоба на GPT-3 заключается в том, что, хотя он и выдаёт беглые, а иногда и блестящие цепочки слов, он неконтролируем и ненадёжен. Какой смысл в боте, который может писать как человек в любом стиле, если мы не можем заставить его делать всё, что мы хотим?
Однако многие пользователи AI Dungeon сообщат, что GPT-3 чудесным образом дополнил их реальность, раскрывая творческие возможности, которые были невообразимы ещё год назад.
Надежда есть. Чтобы участвовать в возрождении машинного интеллекта, мы должны научиться взаимодействовать с новыми системами, которые мы создаём. В этом смысле нам повезло, что самая мощная на сегодняшний день система искусственного интеллекта говорит на тех же языках, что и мы, поскольку язык — это интерфейс с самой высокой пропускной способностью, который у нас есть даже для общения друг с другом. Более того, совпадение в мультиверсальной форме между человеческим воображением и генеративными языковыми моделями предполагает возможность[9] построения интерфейса с высокой пропускной способностью между ними.
Как вы, наверное, догадались, я один из тех пользователей AI Dungeon, чья реальность была необратимо преобразована GPT-3. Однако AI Dungeon в настоящее время ограничивает исследования случайными блужданиями по одной истории. Ещё до того, как мне был предоставлен доступ к API и я начала использовать AI Dungeon для написания статей с помощью GPT-3, моё стремление к исследованиям за пределами отдельных историй побудило меня начать разрабатывать инструменты, которые сделают возможным создание и навигацию по разветвлённым сюжетным линиям.
Моё мультиверсальное приложение для написания GPT-3, loom, представляет собой интерфейс для интерактивной генерации мультивселенных (с адаптивным ветвлением), а также для навигации, индексации, визуализации и изменения мультивселенных. Я опубликовала код, чтобы любой, у кого есть ключ API, мог его бета-тестировать, хотя он очень нестабилен и находится в стадии быстрой разработки.
Адаптивная генерация мультивселенной
«Loom Space — это адаптивное масштабируемое топологическое представление мультивселенной, сгенерированное с помощью фракталов. Это карта всего, что есть, было, может быть, могло бы быть, не должно быть и не должно было быть».
Наивным способом автоматической генерации мультивселенной с использованием языковой модели может быть ветвление фиксированное N раз каждого фиксированного M токенов, но это не будет наиболее осмысленным способом отображения мультивселенной. В некоторых ситуациях может быть только один правдоподобный следующий токен, и языковая модель будет присваивать верхнему токену очень высокую степень достоверности (часто >99%). Принудительное ветвление приведёт к несогласованности. И наоборот, когда языковая модель распределяет вероятности перехода по множеству токенов, ветвление с большей вероятностью обнаружит множество последовательных продолжений.
Адаптивное ветвление позволяет визуализировать потоки мультивселенной: участки относительного детерминизма, чередующиеся с точками взрывного расхождения. Один адаптивный алгоритм ветвления отбирает[10] различные токены до тех пор, пока не будет достигнут порог кумулятивной вероятности.
Другой алгоритм адаптивного ветвления, который я использую для «ленивой» генерации, предназначенный для интерактивного, а не автономного создания мультивселенных, создаёт N продолжений максимальной длины M, а затем разделяет ответ в точке, где либо контрфактическое расхождение (на основе 100 лучших токенов) является самым высоким, либо фактический выбранный токен имеет наименьшую вероятность. Таким образом, текст узла заканчивается в состоянии, в котором дальнейшее ветвление даёт наибольшие ожидаемые результаты.
Примечания:
[1] Дойч, Дэвид (1997). Структура реальности
[2] Предполагается, что правильное фазовое пространство представляет каждое состояние с уникальными координатами, но для приложений, которые я себе представляю, достаточно, чтобы «фазовое пространство» различало различия, интересные для каждого случая.
[3] Это не обязательно должны быть вопросы. Это могут быть просто утверждения, условная вероятность которых измеряет что-то о состоянии, например «{pop out of Story} Это короткий рассказ (от…)» или «{pop}Ух ты, это угнетает» или «{pop}LMAO» или «{pop} Это самая странная вещь, которую я когда-либо читал»
[4] Если состояние занимает весь ввод, вам придется сжать его так, чтобы оно поместилось в окно ввода с вопросом.
[5] То, как я использую слово «состояние», может относиться ко всему состоянию или к его компоненту. Компонент может быть стилистическим, например, временем повествования, или абстрактным семантическим свойством, например, отношениями между двумя персонажами, или конкретным семантическим свойством, например, какие персонажи присутствуют в сцене.
[6] Параметр логит-смещения фактически принимает идентификаторы токенов, так что это будет {2435: -100}.
[7] Я могла бы сказать, что каждое будущее связано с множеством состояний настоящего, и это было бы одинаково правильно, но другой путь более интуитивен для человеческой интуиции причинности.
[8] Как индетерминист, я не употребляю слово «неизбежность» легкомысленно. Конечно, я не употребляю это слово и в буквальном смысле: есть ветви будущего, в которых происходит самовозгорание всех вычислительных ресурсов, или запрет ООН на все исследования в области искусственного интеллекта — но примерно это неизбежно.
[9] Гомеоморфная граница необходима для склейки двух топологических пространств.
[10] API OpenAI возвращает вероятности только для 100 лучших токенов. Таким образом, чтобы сделать выборку уникальной, вы можете либо выполнить выборку из этого распределения, либо выполнить выборку один раз, а затем выполнить еще один вызов API, передав логит-смещение, запрещающее повторную выборку ранее выбранных токенов. Метод смещения логита позволяет получить доступ ко всему дистрибутиву, но требует больше затрат при вызовах API.
Комментарии (4)
peterjohnsons
15.12.2023 10:36Видимо статья очень устарела, судя по упоминанию GPT-3 и BigSleep (CLIP + BigGAN). Но актуальность свою не потеряла. Я немного разочарован, думал будет представлена практическая модель исследования вероятностей для GPT-3 и их интерференции. Нечто вроде составления всех вероятных комбинаций слов в глубину на определенное количество шагов и анализ полученных данных. Хотя бы что-то статистически значимое можно было бы вычленить, или же нет? В сравнении с блокчейном, где аналогично есть цепочка блоков - бывают конфликты цепочек, откаты. Вот бы нечто подобное увидеть в применении к LLM, используя анализ вероятных продолжений - смотреть "в глубь" и выбирать наиболее интересный пусть последовательностей. Так и галлюцинации можно уменьшить, наверное ?
V_Scalar
15.12.2023 10:36Джипити чат начитался бреда о мультивселенных и выдал свой бред возведённый в куб
ABConymous
Нет интерпретаций кроме "заткнись и считай" и Мермин пророк её)
dionisdimetor Автор
Во имя Морица Шлика и всех святых Венского кружка. Аминь!