Существует несколько подходов к созданию сильного ИИ. Каждый из них имеет свои причины и основания для достижения успеха. Предикаты второго порядка, ИИ как ассоциативная память, ИИ как зарождение разума с новыми свойствами, которых не было у его составных частей. ИИ как вид математической оптимизации. Имитационный сверхчеловеческий ИИ.

Так какой из них лучше? (осторожно, лонгрид!)


Как только появились компьютеры, сразу же были предприняты попытки написать ИИ на основе логики. И действительно, логическое мышление - это огромное достижение интеллекта. Не являясь обязательным (потому что часть его функций выполняет образное мышление), логическое мышление позволяет структурировать информацию и строить длинные логические цепочки. Когда смутно осознаваемое чувство получает словесное описание, все сразу становится проще. Это зафиксированное слово можно использовать в качестве элемента в логических рассуждениях. Длиной вплоть до размера книги. Без логики была бы невозможна математика (по крайней мере, ее сложные виды) и наука вместе с техническим прогрессом.

Существует формальное описание логического мышления - логика предикатов. Всем со школьных лет известно понятие логики через операции И, ИЛИ, НЕ. Но на самом деле она развивалась и дальше, добавляя новые свойства и операции над элементами, например существование или не существование объекта. Или аналоги ветвления из программирования if..then.

Неким финалом математического описания логического человеческого мышления можно считать предикаты второго порядка. Это когда применяются предикаты над предикатами первого порядка. Конечно, существуют предикаты и более высоких порядков - предикат над предикатом над предикатом и так далее. Но ничего принципиально нового они уже не дают.

Предикат - это что-то вроде логической функции, куда можно подставлять аргументы. Это позволяет строить отношения между объектами. Аналогично как функция f(x,y) связывает между собой две переменные х и y, только предикат делается записью в специальном формате символьной логики и всегда возвращает только true или false.

Предикаты очень хорошо подходят для логической записи предложений естественного языка, на котором мы все думаем и разговариваем. Потому что позволяют учесть контекст, который не указан в тексте самих предложений. Классический пример, пусть есть два утверждения: "Все люди смертны. Сократ - человек." Как из этого логически вывести, что Сократ смертен? Не из бытовой логики, которую мы все понимаем. А именно из математической записи. А никак, это два отдельных логических утверждения, не связанных друг с другом. Если мы рассматриваем их в простой школьной логике, конечно. Логике выражений, или логике нулевого порядка. Все люди смертны? == true. Сократ человек? == true. Но из этого не вывести, что Сократ смертен == true.

Но если переписать эти утверждения в форме предикатов, работающих с множествами: "человек(х)" и "cмертен(х)", где вместо x можно подставить любого человека, то тогда выводится. Из второй части получается, что "человек(Сократ) == true", подставляем человека-Сократа в первую часть "смертен(человек(Сократ)) == true" и получаем, что "Сократ смертен" == true. Это не каноничная запись предикатов для этого примера, но для программистов так должно быть понятнее из-за аналогии с функциями.

И такой предикат это не простое логическое утверждение, как было с "Сократ человек?" == true. Нельзя сказать что само предложение "человек(х)" == true. Нужно подставить конкретного человека, а вот тогда весь результат формулы f(x) уже может быть true.

В итоге, с помощью предикатов, мы получили логический вывод из тех двух утверждений. Другими словами, провели акт логического мышления.

Почти любое текстовое предложение (но не все) можно записать в такой логической форме. Причем даже такие неопределенные и сложно описываемые формально, как например "Некто умен". Или "Каждый знает кого-нибудь". В первом случае в логике предикатов это будет логическая формула ∃хP(х). Здесь значок ∃ означает фактор существования, что существует такой х, у которого предикатор Р (обозначающий "умный") проходит по всем людям x и выбирает только умных.

Для фразы "Каждый знает кого-нибудь" это будет логическая формула ∀х∃уP(х,у). Здесь ∀ означает каждого во множестве, а функция-предикатор P уже зависит от двух переменных: x и y. Потому что надо проверить, что это именно x "знает" другого человека y.

Логика высших порядков чрезвычайна сложна, но важно понимать что это строгие математические уравнения. А значит, как и любые уравнения, их можно решить. И получить нужный логический вывод, то есть провести логическое мышление. И если предикаты первого порядка работают с конкретными объектами: люди, города, числа. То предикаты второго и высших порядков уже могут принимать в качестве переменных предикаты предыдущих порядков. Это как в функциональном программировании, где функции могут принимать на вход другие функции. И это, в общем-то, позволяет строить абстрактные понятия любой сложности и иерархии.

Почему такая предикативная формальная логика может привести к созданию сильного ИИ? Потому что логика высших порядков (куда входят предикаты и те дополнительные значки ∃ и ∀, ограничивающие их область видимости "каждый" и "любой", называемые кванторами) позволяет описывать вещи, характерные для разумных существ. И считающиеся необходимым свойством интеллекта. Например, эта запись в форме логики второго порядка обозначает механизм индукции:

Такая развитая логика была уже сформирована к началу появления первых компьютеров (причем некоторые вещи, например возможность построения аналогов логики высших порядков уравнениями логики второго порядка, были доказаны буквально за несколько лет до этого, в 1955 году или около того).

И еще задолго до этого существовали словари, описывающие каждое слово в человеческом языке. Получается готовая база данных из объектов (существительные) и что с ними можно сделать (глаголы). А также перечисление всех возможных свойств объектов (прилагательные).

Казалось бы, переводи любую фразу в логическое уравнение с помощью предикатов, математически решай это уравнение, и получишь разумный логический вывод. А значит - сильный, умеющий логически рассуждать ИИ.

К примеру, у нас есть начальное утверждение, про которое мы точно знаем, что оно верное: "Я студент третьего курса строительного института" == true. Как из него получить путем логических размышлений тоже верное утверждение "Я богатый студент третьего курса строительного института". Возможно ли это? Сможет ли ИИ, путем логики и рассуждений, вывести из первого второе?

По идее, да. Мы ведь можем это сделать с помощью своего интеллекта. В первом утверждении содержится множество подсказок, как этого добиться. Можно устроиться работать строителем, раз он студент строительного института. То что он должен остаться студентом, ограничивает время работы, чтобы можно было совмещать с парами. И так далее.

Но для решения этой задачи нужна еще одна недостающая деталь. Которой нет в логике предикатов высших порядков и нет в словарях русского языка. Нужна внешняя база знаний. О том, какое прилагательное к какому существительному может относиться. Небо может быть голубым, но не может быть соленым. И какие глаголы с какими существительными можно делать. Можно бросить мяч, но нельзя обмануть мяч.

Эта задача частично решаема, как составлением такой базы знаний вручную, так и автоматически выделяя ее из массивов текстовых данных - книг, справочников и т.д. И такие попытки, разумеется, предпринимались. В типичном развитом языке порядка 500 тысяч слов, из них в обычной жизни используется 10-30 тысяч. Из которых теоретически можно составить вполне сносно разговаривающего ИИ. Обработка и описание такого количества объектов вручную (или хотя бы их подмножества) вполне по силам.

Но... С 60-х годов прошлого века, когда это все делалось, прошло еще 60 лет, и где такие логически разговаривающие ИИ? Их нет...

Как и, собственно, ответа почему этого не произошло. Можно приводить множество причин, например что язык оказался вовсе не таким строгим, чтобы можно было составить такую базу знаний. Да, с несколькими десятками и даже сотнями объектов все хорошо - можно описать отношения между ними. Но по мере возрастания их числа, слова в языке начинают использоваться как попало, с учетом контекста. И оказывается, что в какой-нибудь сказке вполне можно "обмануть мяч". Вы на этом моменте тоже подумали о Колобке?

Также хорошей версией является то, что возможно этих 500 тысяч слов в языке категорически недостаточно, чтобы создать интеллект, оперирующий логически только на их основе. Что объектов-понятий в реальном мире намного больше, а эти слова обозначают огромные группы объектов из образного мышления. И мы на самом деле думаем образно/ассоциативно, а слова используем лишь как грубую форму коммуникации между людьми. При этом оба собеседника должны заранее иметь одинаковый контекст, общее сложное образное представление об устройстве мира. А слова лишь ссылки, якоря на некие скрытые огромные объемы информации.

Получить то скрытое и более сложное, чем есть в текстах, "реальное" представление о мире по видео и картинкам в то время было еще невозможно из-за слабых компьютеров. Кроме того, не доказано, что вообще можно решить символьные уравнения высокой сложности. Хотя для типичных логических утверждений они вроде не очень сложные.

Ни одна из версий, объясняющая провал символьного логического ИИ, не кажется достаточно убедительной. Потому что в теории это должно работать. Мы действительно используем логику в своем мышлении. И логические размышления это действительно характерное свойство любой развитого интеллекта. Ну как любого... Единственного из известных на данный момент. Возможно сейчас, когда машинное обучение стало намного лучше выделять взаимосвязи из текстовых массивов, логику на основе предикатов высших порядков ждет второе рождение. Поэтому сбрасывать со счетов этот способ еще рано.

Ассоциативная память

Но что если все намного проще? Известно, что мозг строит ассоциативные связи. Он просто так устроен - если поступают сигналы сразу от нескольких органов чувств, задействованные ими нейроны могут соприкоснуться своими отростками и усилить связь. Тогда в следующий раз, когда сигнал придет только по одному органу чувств, этот нейрон передаст сигнал на второй и тот тоже активизируется. Получилась ассоциативная связь.

Этот принцип действует и на более сложных иерархических структурах внутри мозга. Создавая все более и более сложные ассоциации. Он был даже формализован и известен как правило Хебба. Которое состоит всего из двух пунктов:

  • Если два нейрона по обе стороны синапса (соединения) активизируются одновременно (то есть синхронно), то прочность этого соединения возрастает.

  • Если два нейрона по обе стороны синапса активизируются асинхронно, то такой синапс ослабляется или вообще отмирает

Этот принцип доказан биологически в исследованиях и математически в симуляции нейронных сетей. Также как во многих других, более сложных реализациях (из широко известных это например ассоциативная сеть Хопфилда, но вообще-то все нейросети проявляют такое свойство).

И тогда работа интеллекта сводится к простому образному мышлению: имеющиеся на входе текущие ощущения с органов чувств вызывают ассоциацию с наградой или болью. И награда, и боль, полученные в результате такой ассоциации, тоже в свою очередь вызывают ассоциацию какие мышцы надо задействовать. И процесс повторяется. Эти ассоциации были закреплены в предыдущем жизненном опыте. Система поощрения организма хорошие обстоятельства и хорошие действия закрепляла за наградой, а плохие за болью. А откуда сама система поощрения узнала, какие действия и показания органов чувств хорошие, а какие плохие? Да элементарно в процессе эволюции. Она не знала. Помечала все подряд и как попало. Но где неправильно помечала, организмы вымерли, а остались только где система поощрения оказалась права.

Кстати, правило Хебба было разработано в 1949 году, то есть вместе с первыми компьютерами. А значит было доступно для теоретической проработки и экспериментов все это время. А с тех пор прошел 71 год...

Здесь тоже можно говорить о недостаточной вычислительной мощности, не позволявшей раньше построить мощную и полную ассоциативную модель мира. И в этом есть доля правда. Современные нейронные сети, в некотором роде, строят внутри себя такие ассоциации. Внутри них обязательно есть перевод входных сигналов в векторное пространство другой размерности. На вход поступают, условно, 640х480х3 = 900 тыс. чисел, а на выходе нейросеть в предпоследнем выдает вектор из 1024 чисел. А что это, как не сжатое представление тех 900 тыс. чисел? Из этого ряда 1024 чисел потом можно вывести почти что угодно - преобразовать их в несколько классов распознаваемых объектов, построить карту глубины на картинке, определить свободен ли путь для движения, преобразовать картинку в другой стиль и так далее.

Этот вектор из 1024 чисел - это ассоциация на разные вещи, требуемые для решения задачи. Причем переобучать нейросеть, чтобы она сформировала новые 1024 чисел для новой задачи вовсе не нужно. Используются те из первой универсальной нейросети. Дообучается только часть, которая переводит эти 1024 числа под новую задачу (ну, точнее потом обычно дообучают и всю сеть, но это не обязательно, часто хватает дообучения только концевой части). Что и позволяет говорить, что в них закодированы ассоциации между разными вещами реального мира. Составлена общая ассоциативная модель мира. Конкретные размеры векторов в разных нейросетях могут быть другими и в общем случае привязаны к обучаемому домену, но такой процесс происходит в каждой архитектуре.

Для лингвистических задач такое ассоциативное представление внутри нейросети известно под названием "эмбеддинги". Потому что активно используется для определения похожих по смыслу, но отличающихся по написанию слов. Более того, не просто отдельных слов, а целых предложений и фраз. То, что было недоступно на ранних стадиях при автоматическом парсинге текстов для составления базы знаний для символьного ИИ.

Эмбеддинги для лингвистических задач могут создаваться внешними нейросетями и подаваться в рабочую в готовом виде, это неважно. Главное, что они содержат ассоциации на похожие по смыслу слова, фразы или абстрактные понятия.

Можно ли на основе этих эмбеддингов (т.е. ассоциативных векторов), вытащенных из последних слоев какой-нибудь большой и сложной нейросети, такой как GPT-3 или их графических версий, вроде CLIP, сделать сильный ИИ?

Ну... можно, наверное. Процесс выглядит достаточно простым: на вход подаются текущие обстоятельства, из выходного вектора эмбеддинга нужно определить ассоциацию с наградой или болью. Определить степень векторной близости к интересующей нас награде. Как это делается сравнением выхода нейросети CLIP с векторами классов при zero-shot классификации этой нейросетью. Награду вместе с обстоятельствами снова подать на вход другой (или той же) нейросети, а на выходе из ее ассоциативного вектора вытащить какие действия нужно делать. В принципе, единственная нейросеть в своих выходных ассоциациях может сразу содержать действия. Награда тут носит чисто информационный промежуточный характер, чтобы выбрать действия.

Это похоже на работу мозга. Потому что образное мышление не обязательно примитивное, как обычно это считается у людей (по сравнению с логическим мышлением). Ассоциации могут содержать ссылки на сложные структурированные данные. В конце концов, мозг именно так и работает (через ассоциативную память) и реализует этим механизмом в том числе логическое мышление. Символьного решения логических уравнений в мозге точно нет.

Но при подходе к построению сильного ИИ через ассоциативную память, возникает проблема обучения. Нужно построить ассоциацию обстоятельств с наградой (или болью), а потом ассоциацию с действиями для этой награды. Или действиями, связанными с избеганием боли. И в реальности все это может быть разделено длительными промежутками времени, то есть простой способ активировать то что происходит одновременно, не работает. Эту проблему пытается решить обучение с подкреплением (Reinforcement Learning). Используя сигнал о награде как направление, в каком изменять веса нейросети при обучении.

Однако обучение с подкреплением, по крайней мере известные на данный момент алгоритмы, так и не смогло научиться работать с высокими размерностями входных данных. Все последние разработки сначала снижают размерность до очень маленькой (переводя картинку в ассоциативный вектор, например, из 30-128 чисел). И потом применяя к нему алгоритмы из Reinforcement Learning. Что печально. Потому что такое сжатие теряет информацию, ну и сами возможности современного RL работать только с 20 числами на входе, серьезно? Такой размерностью ничего сложного не закодировать. Возможно, в будущем появятся новые алгоритмы. Или производительность компьютеров увеличится достаточно для более высоких размерностей. Но пока надежды на это особой нет, поэтому имхо лучше сосредоточиться на других способах.

А другой способ состоит в том, чтобы не обучать целенаправленно нейросеть для выдавания нужных действий, используя награду как сигнал для изменения ее весов (с чем пока провалился RL для сложных задач). А использовать ассоциативные связи из больших нейросетей, как GPT-3 или CLIP, в чистом виде.

Эти нейросети не обучаются решать конкретную задачу, а просто обучаются всему тому что видят вокруг. Строя ассоциативные связи внутри себя на сиюминутных единовременных совпадениях событий. Что, в общем-то возвращает к начальной идее и аналогу правила Хебба. Только на более сложном математическом аппарате и большей вычислительной мощности, разумеется.

Вот только выход такой нейросети не содержит прямого указания на то, какие действия нужно делать (в отличие от нейросетей, выдаваемых RL методами). А только ассоциативные эмбеддинги. По ним придется вручную сравнивать каждый вид награды и каждое возможное действие. Чтобы выбрать их них лучшие. Как это делают в простых версиях model-based RL. Что может упереться в комбинаторный взрыв, как и в model-based.

Похоже, что придется разрабатывать какие-то методы исследования содержимого пространства эмбеддинга. Чтобы более эффективно доставать из него ассоциацию с наградой и действиями для этой награды. Как исследуют пространство выходного слоя нейросети StyleGAN 2, генерирующей лица людей. Чтобы целенаправленно найти в нем параметры, отвечающие за изменение улыбки, например. Возможно, что-то похожее можно сделать и с выходом CLIP. И быстро найти в нем награду и действия.

Хотя сейчас CLIP обучена только на картинках и текстовых подписях к ним. Поэтому динамические события из нее не извлечь. Но технологии развиваются так, что в течении пары лет должен появиться аналог, обученный на видеороликах. Его эмбеддинги начнут содержать динамическую картину миру. И вот на них это может сработать.

Но ничего такого сейчас нет. Что очень подозрительно, даже в упрощенных симуляторах не слышно об успехах при таком ассоциативном подходе. Хотя там вычислительной мощности должно хватать. И даже известных работ на эту тему особо нет. Но справедливости ради нужно отметить, что та же zero-shot классификация на основе CLIP появилась совсем недавно. А это, пожалуй, самое близкое к этой идее. К построению сильного ИИ поиском ассоциаций текущих обстоятельств к награде и действиям.

Зарождение разума

Существует распространенное мнение, что достаточно систему делать все сложнее и сложнее, и там как-то сам появится сильный ИИ.

Под такими заявлениями ничего не стоит, потому что понятно, что все зависит от технических деталей. Но так как все более крупные и сложные (каждое поколение не только увеличивается в размере, но применяются все более сложные математические алгоритмы при их обучении) нейросети показывают все лучшие результаты. То возникает вопрос, а не заговорит ли будущая GP(T-1000) вдруг нормальным человеческим голосом?

Что ж, это вполне возможно. Но тут придется просто подождать и посмотреть. Масштабы и затрачиваемые вычислительные мощности будут только расти. Еще совсем не охвачен анализ видео, да и анализ статичных изображений еще не дошел до своего предела. А вот с текстами интереснее... С учетом вышесказанного (что, возможно, тексты просто не содержат достаточно информации для сильного ИИ) текущий результат GPT-3 может оказаться итоговым и не будет больше улучшаться.

Все таки объемы используемого текста уже перешли на терабайты, а принципиально уменьшить ошибку может уже и не получиться, это же просто градиентный спуск. Он и так на этом размере модели сошелся к минимальному значению. Если увеличение размера нейросетей в ближайшее время не улучшит качество, то на этом все, предел... К примеру, GPT-3 обучена на 570 Гб, а китайская Wu Dao 2.0 на 4.9 Тб текста. Хотя китайцы еще до этого первыми преодолели миллиардный порог параметров модели, но их модель была хуже более маленьких GPT и BERT (первой версии, это было давно), поэтому используемый алгоритм обучения и математические трюки при обучении тоже имеют значение.

Но вряд ли это конец, интуитивно кажется, что тут еще есть место для прогресса. И в любом случае, есть огромный потенциал для объединения текста с видео/фото. И даже кажется, что такое объединение необходимо.

ИИ как математическая оптимизация

Интеллект можно рассматривать как задачу простой математической оптимизации. Есть текущие обстоятельства и набор возможных действий. Надо выбрать наиболее оптимальные действия, ведущие к максимальной награде.

А методов математической оптимизации существует множество. Это и полный перебор, и эволюционные алгоритмы (генетические или просто эволюционные) - по сути, тот же случайный поиск, но с накоплением удачных вариантов. А градиентный спуск прямо сейчас используется в нейросетях для их обучения.

К сожалению, тут без шансов. Все известные методы прямой оптимизации (поиска экстремума функции) при такой большой размерности задачи, которая нужна для создания сильного ИИ, не работают. Методы перебора и случайного поиска, даже со всеми улучшениями, упираются в комбинаторный взрыв. А применение градиентного спуска это и есть нейросети. До этого были деревья решения, в которых тоже применялся градиентный спуск (xgboost и др.), но нейросети их уже давно обошли.

При этом все равно возникает проблема, а как описать текущую обстановку в цифровом виде? Происходящее в кадре с камеры нейросети только сейчас начинают немного понимать, раньше это было практически недоступно. А вот с вариантами действий нет проблем, у роботов ограничено число степеней свободы и оно обычно небольшое, в районе 30. В текстовых задачах и вообще, в мышлении интеллекта, сложнее, смотря как определять степени свободы. Если рассматривать вывод нейросети как отдельные буквы, то это 33 варианта. Их можно считать за одну степень свободы (ряд чисел на оси), а можно как 33, если у каждой буквы будет вероятность ее применения. На уровне слов, не говоря об уровне фраз, все сложнее. Да и с роботами, если учитывать динамику во времени, рассматривая отдельные движения как единицы, тоже все неочевидно.

Другими словами, число выходных степеней свободы у интеллекта не определено. Чтобы их математически напрямую оптимизировать по критерию награды. И даже нет способа толком их определить. Можно взять число всех выходных нервов человека и считать это степенями свободы мозга. Но это же только организм, а речь о работе интеллекта. Собственно, именно мозг и занимается этим, решая эту задачу оптимизации.

Еще одной проблемой получить сильный ИИ путем прямой математической оптимизацией действий для получения награды, является то, что сложно формализовать, а что такое награда? Какова цель ИИ?

Что ни возьми из интересных целевых функций для ИИ, они все описываются инструментами самого разума. А значит не могут быть формализованы для создания самого же разума. Быть умным, добрым, сознательным, стремиться к знаниям? Миссия невыполнима... Это все инструменты разума, у них нет определения уровнем ниже. Даже если взять любопытство, которое часто используется как вторичная целевая функция в обучении с подкреплением. И которое описывается как стремление изучать новые события. То достаточно поставить робота перед экраном с белым шумом, и он будет для него бесконечно новым и поэтому вызывать бесконечное любопытство. И робот так и застрянет навечно перед этим экраном, пытаясь его математически оптимизировать. И это не шутка, а результат реальных исследований. Эта проблема имеет название The Noisy-TV Problem и регулярно проявляется при обучении RL агентов, имеющих любопытство.

Биологический интеллект имеет сильную привязку к биологии. Живое существо, хоть и заинтересовавшись белым шумом на экране вначале, через некоторое время устанет и уйдет. И это может быть необходимым условием для ИИ, чтобы бороться с такими вещами. Потому что в природе роль белого шума на экране выполняет шевелящаяся листва на ветру. Или бегущая вода. Или горящий огонь. Любые вещи, принципиально непредсказуемые интеллекта на данном этапе и с имеющимися у него возможностями анализа. Кстати, все эти вещи действительно вызывают завораживающее впечатление из-за механизма любопытства в человеческом мозге. Мозг пытается их предсказать и не может, из-за чего "подвисает". Но биологический мозг имеет защиту, чтобы не зависнуть навечно. А чистая математика такой защиты не имеет.

Имитационный сверхчеловеческий ИИ

И на этом этапе приходим к мысли, что, пожалуй, самым простым способом создать сильный ИИ будет имитационный подход. Просто обучить нейросеть имитировать людей. Это делается довольно просто: на вход подавать текущие обстоятельства и историю, а на выходе нейросеть должна предсказать следующий шаг человека. Что он будет делать и что скажет. По имеющемуся огромному датасету с поведением людей. То есть, самое простое и примитивное обучение с учителем. То, с чего начинались нейросети. История сделала круг и вернулась к началу. Только с большими вычислительными возможностями и большим объемом данных.

Нейросеть GPT-3 именно так и работает, просто предсказывает следующее слово в предложении. На больших объемах данных это позволяет ей выучить модель мира. И выдавать более менее разумный текст на любую затравку, которая не встречалась в обучающем датасете. Нет сомнений, что этот подход будет работать с чем угодно - с видео, с поведением людей.

Это автоматически решит большинство проблем. Такой ИИ не застрянет перед экраном с белым шумом, потому что человек не застревает.

Но просто имитация существующих людей неинтересна. Гораздо важнее, какие при этом возникают сверхчеловеческие возможности. Как и у GPT-3, такой нейросети можно будет дать затравку, которая не встречалась в датасете. Попросить ее имитировать человека, только умнее, быстрее, выше. И... она это сделает. Потому что это задача из того же домена. А знания, необходимые для этого, она возьмет из суммарных знаний всех людей в том огромном датасете. Обработать который не сможет ни один человек за свою жизнь, а она обработала во время своего обучения.

50 миллионов научных работ по медицине, 30 миллионов работ по физике, миллионы художественных книг... Каким мог бы стать музыкант, если бы он знал и помнил все 20 миллионов песен, существующих в мире? А эту нейросеть можно будет попросить имитировать такого музыканта. И у нее есть все данные, чтобы это сделать. Она одновременно может имитировать обычного человека, с его интеллектом, и в то же время обладает сверхчеловеческими способностями.

А ведь ее можно попросить делать и совсем странные вещи. Имитировать человека с коллективным сознанием, имеющим все знания человечества. Что это и как оно должно выглядеть, она будет знать из тысяч фантастических книг, прочитанных в процессе обучения. Возможности здесь безграничные. Потому что такая нейросеть хоть и обучалась имитировать только реальных людей, предсказывая их следующих шаг по датасету из реального мира. Но из-за большого объема данных и второстепенных знаний, необходимых для этого процесса, она неизбежно приобретет сверхчеловеческие способности. Собственно, как это происходит и у людей - мы учимся в реальном мире на происходящих только в физическом мире примерах. Но наше воображение позволяет нам строить вымышленные миры.

Возражения к такому имитационному подходу те же, что и к обучению языковых моделей по текстовым данным. Не факт, что можно собрать достаточный для этого датасет. В смысле, что в собранных будет достаточно данных для создания сильного ИИ. Как сейчас непонятно, хватает ли их только в текстах. Неизвестно, какая для этого нужна вычислительная мощность и будет ли она когда либо доступна человечеству.

Кроме того, в таком подходе таится еще одна опасность. Такой ИИ не будет добрым или злым, у него вообще не будет никаких эмоций или морали. Какое ему дадут задание, то он и сделает. Скажут имитировать доброго человека, будет добрый. Дадут задание имитировать злодея, получится злодей. Или суперзлодей со всеми знаниями человечества.

В любом случае, пока что прогресс, виляя время от времени по сторонам, идет именно по этому пути. По пути имитации поведения людей. GPT-3 учится говорить как люди, имитируя их речь. CLIP учится сопоставлять картинки и текстовые описания, данные им людьми. А значит, имитируя мышление людей, составлявших эти описания. И эти нейросети показывают самые впечатляющие результаты. Не исключено, что потому что имитация существующего интеллекта (человеческого) помогает избежать разного рода проблем, связанных с разработкой сильного ИИ с нуля. Не самая радостная картина, конечно. Хотелось бы, чтобы разумное человечество было способно разработать ИИ из первых принципов. Но и не самая безнадежная.

Потому что хоть какой-то, но сильный ИИ рано или поздно будет создан.

Комментарии (1)