Профессор в Институте Санта-Фе и автор работы «Искусственный интеллект: руководство для мыслящих людей» Мелани Митчелл делится соображениями о способности искусственного интеллекта к пониманию. За подробностями приглашаем под кат, пока начинается наш курс по ML и DL.


Помните суперкомпьютер IBM Watson, победителя телешоу Jeopardy!?!

В анонсе 2010 года говорилось: «Watson понимает естественный язык со всей его неоднозначностью и сложностью».

Но, когда Watson потерпел грандиозную неудачу, пытаясь «с помощью ИИ совершить революцию в медицине», стало очевидно: внешние лингвистические возможности не дают настоящего понимания человеческого языка.

Понимание естественного языка давно стало главной целью исследований ИИ. Сначала учёные пытались вручную запрограммировать всё необходимое, чтобы машина понимала новостные сообщения, художественную литературу и всё, что могут написать люди.

Такой подход, как показал Watson, бесполезен — записать все факты, правила и предположения, необходимые для понимания текста, невозможно. Совсем недавно появился новый подход: не закладывать в машины знания, а давать им самим учиться понимать язык, поглощая огромное количество написанного текста и предсказывая слова.

В результате получается то, что учёные называют языковой моделью. Основанные на больших нейронных сетях типа GPT-3 от OpenAI такие модели могут генерировать прозупоэзию!), удивительно похожую на человеческую, и даже делать сложные лингвистические умозаключения.

Но превзошла ли GPT-3, обученная на текстах с тысяч сайтов, книг и энциклопедий, Watson с его внешними лингвистическими возможностями? Действительно ли она понимает и даже рассуждает на генерируемом ею языке?

Это тема серьёзных разногласий в сообществе исследователей ИИ. Раньше такие дискуссии были прерогативой философов, но в последнее десятилетие ИИ вырвался из академического пузыря в реальный мир. И его непонимание этого мира может иметь реальные, а подчас разрушительные последствия.

В одном исследовании обнаружено, что компьютер IBM Watson предлагает «много примеров небезопасных и неправильных рекомендаций по лечению». В другом исследовании показывалось, что система машинного перевода Google допускала существенные ошибки при переводе медицинских инструкций для неанглоязычных пациентов.

Как определить на практике, может ли машина понимать? В 1950 году пионер вычислительной науки Алан Тьюринг попытался ответить на этот вопрос с помощью своей знаменитой «имитационной игры», которая теперь называется тестом Тьюринга: судья-человек на основе только беседы, не видя, кто перед ним, пытается определить, с машиной он говорит или с человеком. Если судья не смог определить, кто человек, то, как утверждал Тьюринг, мы должны считать, что машина мыслит, а значит — понимает.

Но Тьюринг не учёл, что машины могут вводить людей в заблуждение. Даже простые чат-боты 1960-х годов, такие как психотерапевт Элиза Джозефа Вайценбаума, убеждали людей, что они разговаривают с понимающим существом, даже когда люди знали, что их собеседник — машина.

В работе 2012 года учёные Эктор Левеск, Эрнест Дэвис и Леора Моргенштерн предложили более объективный тест — схему Винограда.

Этот тест принят в языковом сообществе ИИ как один из способов оценить понимание машин (возможно, лучший способ, хотя, как мы увидим, неидеальный). Схема Винограда, названная так в честь исследователя языка Терри Винограда, состоит из пары предложений, которые отличаются ровно одним словом. За каждым из предложений следует вопрос. Вот два примера:

Предложение 1. Я наливал воду из бутылки в чашку, пока она не наполнилась.

Вопрос. Что наполнилось, бутылка или чашка?

Предложение 2. Я наливал воду из бутылки в чашку, пока она не стала пустой.

Вопрос. Стала пустой бутылка или чашка?

Предложение 1. Дядя Джо ещё может обыграть его в теннис, хотя он на 30 лет старше.

Вопрос. Кто старше, Джо или дядя Джо?

Предложение 2. Дядя Джо ещё может обыграть его в теннис, хотя он на 30 лет моложе.

Вопрос. Кто моложе, Джо или дядя Джо?

Каждая пара предложений отличается на одно слово, которое влияет на то, к чему или кому относится местоимение. Чтобы ответить правильно, требуется здравый смысл. Именно он и проверяется схемами Винограда, при этом снижается уязвимость теста Тьюринга в виде человеческого фактора (судей) или уловок чат-ботов.

Было даже разработано несколько сотен схем, которые, по задумке их авторов, не должны позволять машине использовать поиск Google (или что-то подобное), чтобы правильно отвечать на вопросы.

Эти схемы участвовали в конкурсе 2016 года, в котором победившая программа правильно ответила лишь на 58 % вопросов — результат едва ли лучше, чем если бы машина угадывала. Орен Этциони, ведущий исследователь ИИ, язвительно заметил:

«Когда ИИ не может определить, к чему в предложении относится «он» или «она», трудно поверить, что он захватит мир».

Но появились большие языковые модели нейронных сетей, и способность программ ИИ правильно отвечать на вопросы схемы Винограда быстро возросла. В работе OpenAI 2020 года сообщалось, что GPT-3 был точен почти в 90 % предложений контрольного набора схем Винограда. Другие языковые модели показали ещё лучшие результаты после обучения конкретно этим задачам. На момент написания этой статьи языковые модели нейронных сетей достигли точности около 97 % в определённом наборе схем Винограда, которые являются частью конкурса SuperGLUE на понимание языка ИИ. Это примерно равно точности человека. Значит, языковые модели нейронных сетей достигли уровня понимания, сопоставимого с человеческим?

Необязательно. Несмотря на все усилия создателей этих схем Винограда, на самом деле уйти от использования Google не удалось. В этих задачах, как и во многих других современных тестах на понимание языка искусственным интеллектом, иногда разрешены приёмы, позволяющие нейронным сетям показывать хорошие результаты и без этого понимания.

Возьмём предложения «Спорткар обогнал почтовый грузовик, потому что он ехал быстрее» и «Спорткар обогнал почтовый грузовик, потому что он ехал медленнее». Языковая модель, обученная на огромном количестве предложений, усвоит корреляцию между «спорткаром» и «быстрым», а также между «почтовым грузовиком» и «медленным». Поэтому она сможет правильно ответить, основываясь только на этих корреляциях, а не опираясь на какое-то понимание. Оказывается, многие схемы Винограда в конкурсе SuperGLUE допускают статистические корреляции такого рода.

Группа учёных из Института искусственного интеллекта Аллена не отказалась от схем Винограда, а попыталась решить кое-какие проблемы. В 2019 году они создали ещё больший набор схем Винограда WinoGrande: вместо нескольких сотен примеров он содержит целых 44 000 предложений.

Чтобы получить такое количество примеров, учёные обратились к популярной платформе краудсорсинговой работы Amazon Mechanical Turk. Каждого участника (человека) попросили написать несколько пар предложений, но с ограничениями, чтобы в наборе были разные темы, хотя теперь предложения в каждой паре могли отличаться более чем на одно слово.

Затем учёные попробовали исключить предложения, в которых могли использоваться статистические ухищрения, применив относительно простой метод ИИ к каждому предложению и отбросив всё самое легкое. Как и ожидалось, остались предложения, гораздо более сложные для машин, чем первоначальный набор схем Винограда.

У людей результаты были по-прежнему очень высокие, а вот у языковых моделей нейронных сетей, имевших в первоначальном наборе сходные с человеческими результаты, в наборе WinoGrande они стали намного ниже. В этой новой задаче схемы Винограда применялись в качестве теста на наличие здравого смысла — притом предложения тщательно проверялись, чтобы машины не пользовались Google.

Но нас ждал ещё один сюрприз. За почти два года, прошедшие с момента публикации набора WinoGrande, языковые модели нейронных сетей стали ещё больше. И чем больше они становились, тем лучше справлялись с этой новой задачей.

На момент написания этой статьи лучшие современные программы, обученные на терабайтах текста, а затем ещё и на тысячах примеров WinoGrande, близки к 90 % точности (у людей около 94%). Такое увеличение почти полностью обусловлено размером языковых моделей нейронной сети и данных для их обучения.

Достигли ли наконец эти всё увеличивающиеся сети уровня понимания, сопоставимого с человеческим? Маловероятно. В результатах WinoGrande есть важные нюансы. Например, предложения написаны участниками Amazon Mechanical Turk, поэтому качество и последовательность написания довольно неравномерны.

Кроме того, «простой» метод ИИ для отсеивания предложений, допускающих использование машиной поиска Google, вероятно, был слишком простым, чтобы определить все возможные статистические ухищрения, доступные огромной нейронной сети: он применялся только к отдельным предложениям, поэтому часть оставшихся в итоге потеряли своего «двойника».

Одно из дальнейших исследований показало, что языковые модели нейронных сетей, протестированные только на предложениях-двойниках — которые должны давать правильные ответы в обоих случаях — гораздо менее точны, чем люди. То есть достигнутый ранее результат в 90% не такой значительный, каким казался.

Какие же уроки можно извлечь из саги Винограда? Главный урок — по результатам систем ИИ в той или иной задаче часто трудно определить, действительно ли они понимают язык или другие обрабатываемые ими данные. Теперь мы знаем, что нейронные сети часто используют статистические ухищрения — вместо того, чтобы продемонстрировать реальный уровень понимания, сопоставимый с человеческим — для получения высоких результатов в схемах Винограда, а также многих популярных тестах «общего понимания языка».

Суть проблемы, на мой взгляд, в том, что для понимания языка требуется понимание мира. Машина же ограничена рамками языка и не может достичь такого понимания. Подумайте, что нужно для понимания предложения «Спорткар обогнал почтовый грузовик, потому что он ехал медленнее». Нужно знать, что такое спорткары и почтовые грузовики, что автомобили могут обгонять друг друга и что (на ещё более обобщённом уровне) транспортные средства — это объекты, которые существуют и взаимодействуют, что ими управляют люди со своими собственными целями.

Все эти знания мы, люди, считаем само собой разумеющимся, но они вряд ли будут в явном виде записаны в тексте для обучения языковой модели или встроены в машины. Лингвисты утверждают: люди используют врожденные, внеязыковые базовые знания о пространстве, времени и многих других существенных свойствах мира, чтобы изучать и понимать язык.

Если мы хотим, чтобы машины точно так же овладели человеческим языком, сначала нужно наделить их владением принципами, которыми люди обладают с рождения. Чтобы оценить способность машин к пониманию, следует начать с оценки понимания ими этих принципов, которые можно было бы назвать «детской метафизикой».

Обучение и оценка машин для развития у них интеллекта на уровне младенца может показаться гигантским шагом назад по сравнению с потрясающими достижениями систем ИИ типа Watson и GPT-3. Но если цель — истинное и достоверное понимание, то это может быть единственный путь, чтобы получить машины, которые могут по-настоящему понимать, что означает «он» или «она» в предложении и всего, что влечёт за собой понимание этого.

Продолжить изучение ИИ вы сможете на наших курсах:

Узнайте подробности акции.

Другие профессии и курсы

Комментарии (5)


  1. OlegZH
    23.12.2021 23:00
    +2

    Тут напрашивается цитата из статьи "Биология познания" У. Матурана:

    Чтобы понять, как естественные языки возникли в процессе эволюции, надо выявить такую их фундаментальную биологическую функцию, которая в ходе естественного отбора могла бы их породить. До сих пор такое понимание было невозможно, потому что язык считали денотативной символической системой, предназначенной для передачи информации. Однако если бы биологическая функция языка состояла в передаче информации, то для того, чтобы он мог возникнуть в процессе эволюции, необходимо было бы предварительное существование функции денотации, из которой и могла бы развиться символическая система передачи информации. Но именно функцию денотации и требуется объяснить в первую очередь с точки зрения ее происхождения в процессе эволюции. Напротив, если признать, что язык коннотативен, а не денотативен, и что функция его состоит в том, чтобы ориентировать ориентируемого в его собственной когнитивной области, а не в том, чтобы указывать ему на независимые от него сущности, то очевидно, что усвоенные ориентирующие взаимодействия воплощают в себе функцию неязыкового происхождения, которая в условиях естественного отбора взаимодействий, способных применяться рекурсивно, может порождать в процессе эволюции систему ко-оперативных консенсуальных взаимодействий между организмами, то есть естественнный язык.


  1. AlexeyALV
    23.12.2021 23:16
    +2

    Вот эта статья действительно про ИИ. А не описание нейросетей под заголовком ИИ.


  1. abutorin
    23.12.2021 23:30

    На мой взгляд самая главная мысль в статье это:

    Суть проблемы, на мой взгляд, в том, что для понимания языка требуется
    понимание мира. Машина же ограничена рамками языка и не может достичь
    такого понимания. Подумайте, что нужно для понимания предложения
    «Спорткар обогнал почтовый грузовик, потому что он ехал медленнее».
    Нужно знать, что такое спорткары и почтовые грузовики, что автомобили
    могут обгонять друг друга и что (на ещё более обобщённом уровне)
    транспортные средства — это объекты, которые существуют и
    взаимодействуют, что ими управляют люди со своими собственными целями.

    Полностью согласен с автором. Большинство текущих сетей обучено на конкретные действия по ограниченной обучающей выборке.

    Все истории про "обман" сетей нацеленных на распознование образов тому подтверждение. Ведь сеть обученная только на картинках, может только найти закономерность между цветами пикселей. А человек для понимания что расопложено на картинке как минимум строит у себя в голове трехмерное представление объекта и уже с учетом этого "понимает" что на изображении.

    Получается если мы хотим получить ИИ соизмеримый с человеком, обязательно нужно пробовать сделать "общий" ИИ. И этот общий ИИ это не объединение узконаправленных сетей.


  1. amazed
    24.12.2021 00:48
    +1

    Нейронные сети, обученные языку - это на самом деле просто мозг по сложности меньше таракньего, пытающийся апроксимировать и имитировать осмысленную речь. На первый взгляд может показаться что он что-то понимает, но на самом деле понимает он не больше таракана.

    Для того, чтобы получить понимание речи нам для начала нужен интеллектуальный агент, который сможет апроксимировать реальный мир (а не речь). Потом когда этот агент сможет принимать исходя из своей модели (апроксимации) эффективные решения в реальном мире не хуже высших животных, можно сделать следующий шаг - обучить его реагировать на символы, перенаправляя свое внимание на обозначаемые символами сущности. Потом это каким-то образом эта способность клисталлизуется в настоящую речь.

    На этом пути есть две загадки.

    Во-первых, это алгоритм обучения, способный сформировать подобного агента. В результате должна быть получена обученная сеть, способная по текущей ситуации предсказывать варианты будущего и выбирать оптимальную (по некой низменной заданной извне целевой функци) стартегию действий. Если для каждой текущей ситуации стратегия будет эффективной, можно сказать что сеть "понимает" что происходит. При этом в охватываемой моделированием области могут быть как неживые предметы, так и другие агенты, вклчюая людей. Преполагается, что именно пытаясь предсказывать поведение людей (и манипулировать им) агент может сравняться с ними по интеллекту.

    Во-вторых, загадочным является возникновение такой тесно связанной с речью вещи как логика. Можно упрощенно представить, что агент расладывает весь мир в некое подобие ряда Фурье, дающее ему возможность предсказывать поведение мира в контексте целевой функции на любой момент в целом (низкие гармоники) и детально (высокие гармоники).

    Это предсказание - вероятностное. Но в какой-то момент эта апроксимация может скатываться к выводам, которые агент знает совершенно точно. Хуже того, логика может быть абстрактной и вообще не относиться к объектам реального мира.

    Здесь все гораздо интереснее чем в первом вопросе про алгоритм обучения. Здесь целый мир загадочных явлений в нейронной сети, который сформировался при эволюции мозга человека за какие-то пол миллиона лет или меньше. Но начинать с этого бессмысленно. Сначала нужно победить первую часть.


  1. Pavel_Zak
    24.12.2021 02:57
    +2

    "Профессор в Институте Санта-Фе и автор работы «Искусственный интеллект: руководство для мыслящих людей» Мелани Митчелл делится соображениями о способности искусственного интеллекта к пониманию"

    ......

    На мой взгляд - нет, какой бы изощренной ни была программа, Ватсон это или нашумевшая GPT-3, она НЕ ПОНИМАЕТ. Тут все, как с нейросетями: успех объясняется все более быстрой обработкой все большего количества данных - у такого подхода есть ограничения. Точно так же и с пониманием. Да, GPT-3 творит, на первый взгляд, чудеса, но если присмотреться - это все брутфорс и статистические выкладки по угадыванию последующих слов в словосочетаниях. Но связи слова, как "лингвистической модели Объекта" с самим Реальным Объектом и связей РО с прочими РО - нету. Так что все эти супер-пупер программы - это все та же "Китайская комната" на стероидах.