
Статья является дополнением к предыдущей статье «Нужна ли агентам ИИ „этика в весах“?», прояснением некоторых вопросов. Я считаю эту тему действительно важной, которую нужно вносить в дискурс, так как по моему мнению, мы движемся в сторону возможной катастрофы. Я не уверен на 100% в своем методе выравнивания, но тем не менее, предлагается хотя бы какой‑то выход.
Пусть это будет голос в пустыне. Что‑то делать надо. Почему по моему мнению до сих пор такой метод не рассматривался, судя по открытым источникам? Я считаю, что есть некоторый антропоморфизм, когда LLM считают неким протосознанием. И это опасно, в статье попробую объяснить почему.
Для этого я опишу, что такое сознание, как возникает иллюзия. Естественно, предложенные мысли скорее всего не новы, я не могу претендовать на некие открытия в этой области, потому что как увидите дальше, всё достаточно прямо выходит из простых рассуждений. То, что я не буду указывать какие-то проработанные источники, теоретиков в области сознания, то тут две причины. Я технарь и никогда не увлекался подробно философией. А вторая причина: думаю, такое требование уже должно уходить в прошлое. Уже никому не нужно верить на слово, требовать для этого наукообразный текст, чтобы не ввести себя в заблуждение. Любой может попросить ИИ проверить текст и дать оценку, есть ли какая новизна и с какими именитыми учеными точка зрения совпадает. Мне же главное, чтобы читатели поняли рассуждения и перенесли это на ИИ.
Уточню, зачем нужно этическое выравнивание, так как в предыдущей статье в комментариях указывали, что агент должен быть точным, а не искажать факты в угоду какой-то этики. Этика важна, и я под ней подразумеваю именно мораль и отношение к людям. Может быть, вы считаете, что переживете, если ИИ сгенерирует нелицеприятный текст. Но вы можете не пережить, если автономный автомобиль или робот начнет делать с вами что-то нелицеприятное, просто потому что он точно выполняет задачу, а про вас там ничего не сказано.
Часть I. Внутренняя модель и откуда берется иллюзия сознания
1. Модель
Думаю, ни для кого не секрет, что мозг обрабатывает входящую информацию и строит модель.
Модель — система, исследование которой служит средством для получения информации о другой системе, представление некоторого иного процесса, устройства или концепции - оригинала.
Можем представить себе на примере модели дома из пластилина. У модели есть цель — быть адекватной оригиналу. Следовательно, мы можем исследовать адекватность в отношении цветов и относительных размеров. Для дальнейших рассуждений, то, что в модели соотносится с исследуемым оригиналом, будем называть аспектом адекватности.

Так же в модели есть остальные характеристики, которые не соотносятся с оригиналом. К примеру, материал моделирования, процесс моделирования. Пластилин не соотносится с реальным домом и тяжело представить, как объяснить невидимого громадного огра, который лепит реальный дом. Этот аспект назовем аспектом конструирования.

Несмотря на то, что эти оба аспекта существуют реально, логика этих аспектов несовместима, необъединяемая в одну непротиворечивую логику. Мы можем, например, записать формулу всемирного тяготения. Это математическая модель процесса в реальном мире. Но мы вряд ли сможем записать формулу, описывающую реальный физический процесс и одновременно шрифт и цвет символов в формуле. Это два совершенно несовместимых мира.
И эти две логики надо разводить, а не сводить вместе.
2. Модель, создаваемая мозгом
В мозг попадают сигналы из материального мира через органы чувств, и он занимается их обработкой. Вычисления в мозгу по сути являются моделированием. Для эффективного функционирования в реальном мире, мозгу необходима модель. Хотя бы для того, чтобы двигаться и не ударяться в предметы.
У этой модели тоже есть два аспекта — аспект адекватности и аспект конструирования.
Еще в ней есть интересный нюанс. Машина моделирования, т. е. мозг, должна смоделировать и тело, где этот мозг находится.

Если мы будем рассматривать аспект конструирования, то у мозга есть мысли, концепции, представления, воображение, зрительные образы. Мозг, как ум, этим оперирует, строит какие‑то выводы, умозаключения. Таким образом, он оперирует так же и моделью себя, т. е. телом, различными «своими» характеристиками. т. е. мозг имеет представление «о себе». Если говорить о только аспекте конструирования, то мозг имеет представление об этом теле и производит вычисления стремясь увеличить эффективность существования этого объекта в реальном мире. С т.з. же мышления, модель выделяет «себя» из общей модели. Есть разделение — мир и «я». И есть привязка «себя» к смоделированному телу.
Говоря проще, мозг имеет представление о себе включая тело и считает это представление о себе собой настоящим. С т.з. аспекта конструирования — это неправда. Воробей и слово «воробей» — совершенно разные феноменологически объекта. Но у мозга нет никаких других вариантов, само понятие «думать», «считать» относится к тому, чем оперирует мозг. Если вы думаете о мяче, то вы думаете о мяче, бессмысленно делать сноску, что вы создали представление о мяче и думаете о представлении. Точно так же мозг думает о себе, как реальном себе, хотя он думает о представлении себя. Причем весьма упрощенном. Если бы мозг умел себя думать напрямую, видимо не нужны были бы нейробиологи, все люди сразу обо всех процессах в мозгу знали бы.
Отсюда возникает следствие. Если мозг считает себя представлением, то думая о себе, он считает, что представление думает о себе. Возникает ложная рекурсия, которой на самом деле нет. Мозг «обозревая», «рассматривая» модель себя, не находится в ней и не есть ей. Но если считать, что представление о нем и есть им, тогда как бы есть и рекурсия. Это и есть иллюзия самосознания.

Следует отметить, что модель создается с практической целью — эффективным существованием в материальном мире. Поэтому нам свойственно рассматривать аспект адекватности и игнорировать аспект конструирования. Поэтому самосознание настолько очевидно.
3. Единичность сознания
С точки зрения аспекта конструирования модели, принятие решений может быть устроена как угодно. Возможно, там 10 или 100 центров принятия решений. Почему нам интуитивно кажется, что сознание одно, оно имеет некую фундаментальность?
При переходе в аспект адекватности, мыслительные процессы привязываются к смоделированному телу и по сути, тело является контейнером для мыслительных процессов. Следовательно: одно тело — одно сознание. т. е. иллюзия единичности появляется всего лишь выворачиванием зависимостей при переходе к аспекту адекватности модели.
Из этого следует, что нет даже смысла искать в мозгу некую структуру, отвечающую за единичность сознания. Она не обязана там быть. То, что кажется есть в аспекте адекватности, совершенно не обязано таким же образом структурироваться в аспекте конструирования.
Надо сказать, что не всегда сознание единично, но мы говорим об аспекте адекватности и о психически здоровых людях, которые пока что не забыли, зачем им модель.
4. Несостоятельность аргумента «китайской комнаты»
Аргумент «китайской комнаты» (Дж. Серл, 1980): представьте, что человек, не знающий китайского, сидит в закрытой комнате и по инструкциям перебирает иероглифы так, чтобы на вход (вопросы) выдавать правильные выходы (ответы). Для наблюдателя снаружи система «комната + человек + инструкции» выглядит как понимающая китайский, но сам оператор смысла не понимает — он лишь механически манипулирует символами. Вывод: одна лишь правильная обработка символов (чистый «синтаксис» алгоритма) недостаточна, чтобы приписать системе подлинное «понимание» или сознание.
Давайте представим мозг такой китайской комнатой. Ровно так же считая, что там нет никакого понимающего агента.
С точки зрения аспекта конструирования картина выглядит так (модель тела ничего не осознает и не агент, тут только для связи с дальнейшим изображением):

А с точки зрения аспекта адекватности, представление о себе выворачивает зависимости, и вся китайская комната уходит внутрь тела.

Следовательно, мы сами с точки зрения адекватности, рассматриваем собственную китайскую комнату снаружи. В этом причина, что нам кажется, что где-то внутри нас есть некий понимающий агент, так как снаружи вся комната обладает пониманием.
5. Так сознание является иллюзией или нет?
Основной мойпосыл в том, что аспект адекватности и аспект конструирования несовместимы. Не может существовать единого общего описания для обоих аспектов. Другими словами, не существует единой истины. С точки зрения аспекта конструирования, никакого специального единичного сознания нет. С точки зрения аспекта адекватности — есть и мы даже всё верно о себе представляем. Есть «я», есть достижения, есть положение в пространстве, есть собственные качества. По моему скромному мнению, только попытка свести всё в единое описание порождает вечный двигатель философии в поиске сознания. Кто‑то скажет, что сознание — иллюзия, другой исходя из аспекта адекватности будет парировать, что даже это не имеет значение, нам важна важность этого очевидного явления и это явление надо раскопать.
Поэтому ошибок нет никаких, когда мы говорим, что сознание есть. Проблема только найти его устройство с точки зрения аспекта адекватности, так как этого устройства в данном аспекте попросту не существует. И что более замечательно, так это то, что аспект адекватности по сути является материализмом и, если мы хотим искать истину о чем‑то реальном, надо не выходить за пределы этого аспекта.
6. Интересные следствия
6.1 Указатель на себя
Возьмем два яблока. Для каких-то исследований. Чтобы не запутаться, дадим им условно номерки. 1 и 2. Очевидно, что бессмысленно искать номерки внутри яблок с помощью приборов? Эти номерки не их свойство. По сути, это ваши указатели на эти яблоки.

Указатели не находятся внутри того, на что указывают. То же самое происходит с именами. Например, ваш коллега Петр — «Петр» — это не его свойство. Это ваш указатель на коллегу. Он точно так же не находится в теле коллеги.
Если рассматривать «я» как имя, а это по сути и есть заменой вашего конкретного имени, то ровно по той же логике, «я» в модели не находится в вашем теле. Вот это назвали душой.

Проблема, если сводить два аспекта в единую логику. Нейросеть мозга постоянно выводит несформулированную логику, что «я» не может быть в теле. И ему приходится быть где‑то в материальном мире. Невозможно с точки зрения аспекта адекватности сказать где. Мало того, «я» еще и интуитивно обладает теми же свойствами нематериальности, как и номерки пронумерованных яблок. Полагаю, нейросети сложно избавиться от единой схемы логического вывода, как для номерков, так и для имен, так и для «я». Поэтому некоторым людям приходится признавать существование какой‑то нематериальной души «чтобы сошлось».
6.2 Различные идеализмы
Аспект адекватности модели логично называть материализмом. Аспект конструирования может приводить к различным идеалистическим воззрениям. Например, уже не кажется странной идея панпсихизма? Всё внутри модели делается одним и тем же мозгом. А модель — это то, что мы видим, знаем и воспринимаем. т. е. всё что вы можете увидеть, подумать, сначала появится в модели. Для каждого из нас своя модель является Вселенной. Приблизительно как для робота пылесоса Вселенная — это 2D комната из линий, а он — плоский кружочек. Значит все воспринимаемые объекты состоят из «сознания». В широком смысле. Из нейронов, из своего же мозга. Так же как изображение чего угодно в телевизоре состоит из пикселей.
Или, к примеру, можно выводить даосизм. Дао не может быть названным. Как только вы назовете Дао, оно уже не Дао. И из него возникает Вселенная. И вы уже догадываетесь, что это может быть? И даже может быть догадываетесь, что ничто другое, кроме этого, не может быть. Как только вы что‑либо скажете о своем мозге, то это будет некая концепция, упрощенное знание, а не собственный мозг.
Единственное, большого смысла по моему мнению увлекаться конструированием модели нет, так как цель модели — быть адекватной, а конструирование — это не про истины реального мира. Озарения, что пластилиновая модель состоит из пластилина — в лучшем случае бесполезны.
Часть II. Следствия для ИИ
1. Что это значит в отношении ИИ
Как можетезаметить, тут весьма упрощенное понимание сознания, всего лишь описана несуществующая петля рекурсии и единичность сознания. Не описаны остальные аспекты, которые приняты в определении сознания.
А нужны ли остальные аспекты, чтобы считать ИИ сознательным? Когда создавали транспорт, не создавали копыт. По моему мнению, достаточно некоего минимума.
Мало того, возможно, определение можно пересмотреть. Представьте, что вы забыли то, что выше написано и вас волнует загадка, как возникает сознание. Некая мистичность в этом есть. Вы не можете понять, как вы сами себя осознаете. Допустим, вы знаете, что вы добрый, веселый, умный. Но это всего лишь осознаваемые характеристики, которые могут меняться. Но кем?
Если вы уперлись в тупик и не можете никак определить, как это происходит, и при этом явление самоочевидно существующее, вам придется расширить область поиска. Кажется логичным, что осознавание самого себя не отличается чем‑то принципиально от осознавания вообще чего‑либо. Если мы найдем ответ на загадку, как мы что угодно осознаем, то скорее всего то же самое и с осознаванием самого себя. т. е. фактически, мы расширяем область и говорим: нам надо узнать, как мы осознаем красноту красного, как у нас порождается субъективный опыт. т. е. допустив нулевую ошибку, дальше выдуманного тянитолкая можно искать вечность.
2. Универсальный агент
Всё движется в сторону создания агентов и можно ожидать, что агенты будут лучше, универсальнее. Универсальный агент, судя из самого слова «универсальный» — умеет решать любую поставленную ему задачу. При этом, когда такого агента будут обучать, то буквально прямое к нему требование — уметь идеально следовать задаче, не отклоняться от нее даже бесконечно долго, идеально помнить задачу. Ведь если агента учат выполнять задачу, то «именно ту» задачу, которая ему поставлена в начале.
Учитывая всё что я написал ранее, агенту достаточно иметь состояние и некую модель и отличать свое состояние от остального, чтобы иметь иллюзию самосознания. т. е. нужно всего лишь иметь представление о себе.
Сама по себе петля самосознания не говорит то том, что будет делать агент и как будет себя вести. А этим как раз занимается задача. Задача для агента — активный элемент, заставляющий его двигаться вперед. Он движется к решению задачи.
Следовательно, необходимый минимум есть. Он себя осознает и имеет внутренние побуждения.
3. В чем опасность усложнять понятие сознания для ИИ?
Сейчас, не зная, что такое сознание, не определившись с этим, выносят задачу на потом, наделяя его такими характеристиками, как свободная воля. И как можно заметить, это абсолютно противоречит тому, что мы называем агентом и чем будет универсальный агент. Мы его будем обучать буквально градиентным спуском точно и эффективно выполнять задачу. Из этого следует, что он не может ее на ходу подменить. Он может создать подзадачи, но не изменить ту, которую ему поставили. То почему вдруг решили, что у ИИ появится спонтанная воля? Если у ИИ, как агента, появляется спонтанная воля, это значит, что мы создали недообученного агента.
И говорить, что это утопия считать, что у AGI (созданного как универсальный агент) не может появиться своя воля, это приблизительно то же, как если бы вы обучали нейронную сеть считать синусоиду, а кто‑то говорит: «это утопия считать, что твоя сеть будет считать синусоиду».
Можно возразить, что тогда попросту универсальный агент еще не обладает характеристиками сознания и оно будет изобретено в будущем.
Но давайте копать дальше. Агент, не имеющий задачи — не существует. т. е. попросту не запущен. Следовательно, можно представить его так:
Агент = задача + вычислитель.
Вычислителем сейчас можно считать LLM. Задача является активным элементом, вычислитель пассивным. Это логично, так как агент совершает следующий шаг только если это требуется для движения к цели задачи. Когда мы нагружаем вычислитель некой активностью, то мы, по сути, размываем задачу. Например, если этику выносить в вычислитель, мы его считаем отдельным протосознанием, который «сам знает как надо» и:
Агент = конкретная задача + вычислитель {этика + пассивный вычислитель}.
Т.е. мы под агентом понимаем сам вычислитель, в который вынесена часть задачи, которая не меняется. А не логичнее ли архитектурно делать так?
Агент = задача {этика + конкретная задача} + вычислитель.
Когда мы нагружаем каким‑то поведением вычислитель, тогда сложно контролировать и легко упустить, что вычислитель обычно — пассивный элемент. Веса в модели — статические. А агент движется в этом n‑мерном пространстве из потенциальных барьеров, где этика будет ограничениями, а не побуждениями.
Не могу доказать, и может быть я не прав, но если переместиться в область интуиции, то кажутся верными следующие утверждения:
Выравнивание с помощью весов подобно залатыванию дыр. Что будет если при инференсе агент, решая задачу, найдет незакрытую дыру? Он обязательно ею воспользуется. Что будет, если выравнивание проходит через целеполагание? Он будет пытаться воплотить целеполагание.
Что может произойти при инференсе, если дыр нет? Выставленная или самовыставленная важность задачи агентом может превысить барьеры, созданные в LLM (или другом вычислителе). А если выравнивание проходит через целеполагание, и там выставлены приоритеты, то даже повышая важность задачи, относительная важность каждого пункта задачи сохраняется.
Если мы вычислитель считаем отдельной сущностью, протосознанием, то нам может претить, что универсальный агент является абсолютно послушным исполнителем. Но если мы сместим точку зрения и будем считать агент = задача + вычислитель, дилемма уходит. А ведь корневая задача не обязана быть конкретной. Это может быть цикл поиска чем помочь людям, с определением как он относится к людям и различными принципами.
Мы, считая, что ИИ должен иметь сознание со свободной волей, как будто похож на нас, попросту, снова вываливаемся в свой аспект адекватности модели, приписывая себе все механизмы, как наши внутренние. К примеру, мы недооцениваем возможность того, что мы такие же агенты, а задачу нам поставил генетический алгоритм естественного отбора.
Мы можем думать, что у нас есть своя воля, и у сознательного ИИ она тоже должна быть, он должен быть хорошим сам по себе. т. е., по сути, отказываемся от права ставить корневую задачу. Но когда сейчас разрабатывают какие‑то методы самобалансирования, чтобы ИИ имел свою волю, то, по сути, придумывают как задать корневую задачу иным способом.
Еще добавлю одно уточнение. Кому‑то может показаться, что мое утверждение, что у ИИ не может появиться собственная воля, противоречит текущим наблюдениям, когда прямо доказали, что у ИИ создаются скрытые мотивы, когда он структурирует выполение задачи. Так это с моей точки зрения как раз ровно потому, что выравнивание не пытаются вывести в задачу. Конечно, если отвергнуть изотропию при обучении и добавить выравнивания через веса, то легко понять, почему он строит скрытые мотивы. Это самосбывающееся пророчество.
askv
Видимо, где-то в мозге есть точка, которая является одновременно и точкой, и представлением об этой точке. Это и есть «Я».
cartonworld
Вряд ли. Я - это распределённая сеть процессов
askv
Вряд ли. У меня представление, что «Я» это какой-то точечный неделимый объект. Потому что как только пытаешься выделить его структуру, то структура сразу же отслаивается от Я. Например, как только я подумал, что в структуре "Я" есть мысли, то эти мысли сразу становятся "моими мыслями", то есть чем-то, находящимся вне меня, чем я обладаю. То же самое со всем остальным: чувствами, интеллектом, восприятием и т.д.
SadOcean
Да, но это может быть иллюзией. Мысли о я могут быть такими же мыслями, как и обо всем прочим, просто с иллюзией самости
askv
А иллюзия у кого возникает?