Пока боты неспособны беседовать так, как люди. Но исследователи ИИ из Facebook уже активно проникают в эту область; это может серьёзно повлиять на мессенджеры компании, и не только




В 2015 году чатботы были очень популярной темой. Одним из наиболее раскрученных был M от Facebook, который, по задумкам компании, должен был стать гибким ботом общего назначения, способным на очень многое – заказ товаров, доставку подарков, резервирование столиков в ресторане и планирование путешествий. Однако шумиха оказалась слишком громкой для полученного результата. Когда Facebook проверила своего М на 2500 человек из области залива Сан-Франциско, программа не справилась с большинством порученных ей задач.

После первого всплеска энтузиазма в сторону М и других чатботов (директор Microsoft Сатья Наделла вообще заявил, что «чатботы – это новые приложения») последовала волна разочарований. Чатботы плохо чатились, и тяготели в сторону роботов. Всё оттого, что их учили беседовать на очень узкие темы и выполнять весьма конкретные задачи. Они не были способны поддерживать естественный разговор с людьми, выдавать ответы на основе понимания слов и их смысла. Они могли лишь выдавать общие реплики.

Ещё до выхода М в стадию бета-тестирования Facebook сократил свои грандиозные планы на этого бота, хотя частично технология работы с естественным языком попала в менее амбициозные чатботы мессенджера Facebook Messenger, способные на выполнение простых одиночных заданий типа принять заказ на еду или выдать ответ из списка вопросов и ответов. Такие компании, как American Express и 1-800-FLOWERS до сих пор используют подобных простейших чатботов для ответа на вопросы пользователей к поддержке, принятия простых заказов и выдачи информации о балансе личного счёта. Многие всё же переключат вас на человека, если вы зададите вопрос вне их ограниченной компетенции.

Однако группа исследования ИИ из Facebook уже ушла вперёд от таких проектов, как простые чатботы. «В последние три-четыре года мы говорим о том, что не собираемся идти по пути изучения диалогов, ориентированных на достижение определённой цели – это слишком сложная задача со слишком высокими ставками», — сказал мне исследователь естественного языка из Facebook Антуан Борде. Если чатбот для путешествий «зарезервирует не тот самолёт, не тот рейс, это будет очень большая ошибка с точки зрения денег, поездки и т.п.», говорит он.

Вместо того, чтобы фокусироваться на механике определённых задач, говорит Борде, Facebook делает шаг назад, к более глубокой задаче – обучить виртуальных агентов общаться, как люди. Если чатботы смогут лучше понимать и разговаривать с людьми, то, по задумке компании, они в итоге смогут стать лучшими ассистентами, которые смогут помогать людям выполнять практические задачи, типа резервирования всё тех же билетов.

Facebook активно вкладывается в эти разработки, нанимая лучших специалистов по ИИ естественного языка. Компании нравится указывать на то, что в отличие от других технологических гигантов, она делает результаты исследований в области ИИ доступными в онлайне для всего исследовательского сообщества, надеясь, что это поможет другим людям, создающим ИИ нового поколения. Но эти исследования, конечно же, попадут и в их собственные продукты.

Естественной областью применения этих наработок кажутся мессенджеры – как Messenger и WhatsApp (Facebook до сих пор не понимает, как монетизировать последний). Цукерберг рассказывает об идеях компании сконцентрироваться на приватном общении, поэтому в Messenger и WhatsApp придётся добавлять новые функции, чтобы не уступить первенство другим подобным платформам, в частности, WeChat, Telegram и Apple iMessage.

Создание алгоритма, способного поддерживать свободную беседу с человеком, стало ключевой целью технологических компаний. Amazon, Google и Microsoft присоединяются к Facebook в своих ставках на возможности человеческого общения – и не только через текстовые мессенджеры, но и при помощи голосовых ассистентов, и другими способами. Благодаря последним исследованиям путь к созданию компьютера, действительно способного на общение, внезапно стал чётче – однако медаль за первое место всё ещё ждёт своего победителя.

Иначе говоря, исследование естественного языка в компании Facebook выходит далеко за рамки простого воскрешения М или улучшения чатботов в Messenger. Оно связано с будущим всей компании.

Представляем нейросеть


Создать цифрового агента, способного вести правдоподобный разговор с человеком – вероятно, самая сложная из всех задач области обработки естественного языка. Машина должна выучить словарь, полный слов, с их примерами использования и нюансами, а потом использовать их в живом общении с непредсказуемым человеком.

Только за последние несколько лет сообщество ИИ естественного языка начало делать большие шаги к созданию бота общего характера. В частности это произошло благодаря прорывам в области нейросетей – алгоритмов машинного обучения, распознающих закономерности через анализ огромного количества данных.

Большую часть истории ИИ люди присматривали за программой, пока та следует процессу машинного обучения. В технологии под названием «обучение с учителем» человек медленно тренирует нейросеть, давая правильные ответы на задачи, а потом подстраивая алгоритм так, чтобы он доходил до того же решения.

Обучение с учителем работает хорошо при наличии большого количества скрупулёзно размеченных данных – это могут быть, например, фотографии кошек, собак или других объектов. Однако такой подход часто не работает в мире чатботов. Тяжело найти большое количество (тысячи часов) размеченных бесед человека с человеком, а создать такой объём данных одной компании встанет очень дорого.

Поскольку научить чатботов разговаривать старыми методами сложно, исследователи ищут альтернативы обучению с учителем, чтобы нейросети могли обучаться на основе данных самостоятельно, без вмешательства человека.

Один из способов снять необходимость в обучающих данных – обучать машину здравому смыслу на базовом уровне. Если компьютер сможет понимать окружающий мир – к примеру, относительный размер объектов, то, как их используют люди, определённые понятия о воздействии на них законов физики – он, вероятно, сможет сузить многообразие вариантов, оставив только реально возможные.

Люди делают это естественным образом. К примеру, допустим, вы ведёте машину рядом с крутым обрывом, и внезапно видите на дороге большой валун. Вам нужно избежать столкновения с ним. Но выбирая варианты действий, вы вряд ли решите резко повернуть по направлению к обрыву. Вам известно, что машина упадёт на камни из-за гравитации.


Ян Лекун

«Большая часть обучения человека связана с наблюдением за окружающим миром», — говорит вице-президент и главный специалист по ИИ в Facebook Ян Лекун, легенда в области ИИ, работающий над самыми сложными проблемами с 1980-х. «Мы узнаём множество вещей от родителей и других людей, но и просто из взаимодействия с миром, пытаясь сделать что-либо, терпя неудачу и корректируя своё поведение».

ИИ, обучаемый по такой технологии под названием «обучение без учителя», работает сходным образом. К примеру, робомобиль собирает данные о мире через множество датчиков и камер, как ребёнок, изучающий мир при помощи пяти органов чувств. При таком подходе учёные обеспечивают машину большим объёмом тренировочных данных. Они не просят её выдать правильный ответ и не подталкивают к определённой цели. Они просят её только обработать данные и научиться на их основе, найти закономерности, построить взаимоотношения между разнообразными точками в данных.

Во многих случаях необходимые данные сложно найти. Однако есть такая область ИИ, в которой нейросеть может многое узнать о мире без всяких датчиков: обработка естественного языка. Исследователи могут использовать огромные количества существующих текстов, чтобы помочь алгоритмам понять человеческий мир, что является необходимой частью задачи понимания языка.

Допустим, нейросеть получила для обдумывания такие фразы:
Приз не влез в чемодан, потому что он слишком большой.

Приз не влез в чемодан, потому что он слишком маленький.


Чтобы понять, что в каждом из предложений слово «он» относится к разным объектам, модели нужно понимать свойства объектов реального мира и их взаимоотношения. «В тексте, на котором их тренируют, содержится достаточно структуры, чтобы понять, что если у вас есть один объект, вмещающийся в другой, то один из них может не вместиться в другой, если будет слишком большим», — говорит Лекун.

Эта техника может стать ключом к новому поколению более полезных и общительных чатботов Facebook.

Познакомьтесь: BERT и RoBERTa


Текущие прорывы в обучении без учителя для систем обработки естественного языка начались в Google в 2018-м. Исследователи компании создали модель глубокого обучения BERT (представления трансформеров с двунаправленным кодированием), и выдали ей неразмеченный текст 11038 книг и 2,5 млрд слов из англоязычной Википедии. Исследователи случайным образом удаляли определённые слова из текстов, и поставили модели задачу вставить пропущенное.

Проанализировав весь текст, нейросеть нашла закономерности из слов и предложений, часто появляющихся в одном и том же контексте, что помогло ей понять базовые взаимоотношения между словами. Поскольку слова являются представлением объектов или концепций реального мира, модель выучила не просто лингвистические взаимоотношения между словами: она начала понимать, как объекты связаны друг с другом.

BERT была не первой моделью, использовавшей обучение без учителя для понимания человеческого языка. Но она стала первой, выучившей значение слова в его контексте.

«Я бы сказал, что этот проект находится в двойке-тройке прорывных в области обработки естественного языка, — сказал Цзяньфэн Гао, управляющий исследованиями в Deep Learning Group, одной из лабораторий Microsoft Research. „Люди используют эту модель как базовый уровень для создания всех остальных моделей обработки естественного языка“. Пока что исследовательскую работу по BERT процитировали в других работах уже более 1000 раз – другие исследователи ведут разработки на её основе.

Среди них и Лекун со своей командой. Они создали собственную версию этой модели, провели оптимизацию, расширили количество обучающих данных и время обучения. После миллиардов вычислений, нейросеть от Facebook под названием RoBERTa показала гораздо лучшие результаты по сравнению с Google. Она показала уровень точности в 88,5%, а BERT – только 80,5%.

BERT и RoBERTa представляют радикально новый подход к обучению компьютеров общению. „В процессе работы система должна обозначать значение встреченных ею слов, структуру предложений, контекст, — говорит Лекун. – В итоге она как будто узнаёт смысл языка, что довольно странно, поскольку она ничего не знает о физической реальности мира. У неё нет зрения, у неё нет слуха, у неё нет ничего“. Всё, что ей известно – это язык; буквы, слова и предложения.

Приближаясь к реальному разговору


Лекун говорит, что модель естественного языка, обученная при помощи BERT или RoBERTa, не разовьёт сколь-нибудь значимого здравого смысла – его будет достаточно только для того, чтобы выдавать ответы в чате, основанные на обширной базе обобщённых знаний. Это лишь самое начало процесса обучения алгоритма говорить, как человек.

Исследователи естественного языка в Facebook тоже пытаются надстроить больше деталей общения на основе RoBERTa. Начали они с изучения разговоров людей с чатботами, чтобы понять, когда разговор может стать скучным или поломаться. Их открытия помогают находить способы так обучать бот, чтобы он мог избегать наиболее распространённых ошибок в разговоре.

К примеру, чатботы часто противоречат себе, поскольку не помнят, что говорили ранее. Чатбот может заявить, что обожает смотреть повторы сериала Knight Rider, а потом заявить, что ему не нравится это шоу. Чатботы, создающие собственные ответы (а не извлекающие реплики из обучающих данных) часто отвечают на вопросы размыто, чтобы не делать ошибок. Они часто кажутся безэмоциональными, поэтому общаться с ними не так интересно.

Чатботы также должны уметь использовать знания, чтобы с ними было интересно говорить. Бот, способный использовать широкий спектр информации, с большей вероятностью сможет поддерживать долгие диалоги с людьми. Однако существующие чатботы обучаются при помощи знаний из единственной области, соответствующей той задаче, которая поставлена боту. Это становится проблемой, когда человек начинает говорить что-то о темах, выходящих за пределы компетенции бота. Спросите бота для заказа пиццы о чём-либо кроме пиццы, и разговор быстро увянет.

Чтобы справиться с этим, исследователи из Facebook работают над тем, чтобы обучить модели обработки естественного языка извлекать данные из множества областей знаний, и естественным образом встраивать эту информацию в разговор. Будущие исследования сконцентрируются на обучении ботов тому, как и когда переводить разговор от общих вещей к определённой задаче.

Одна из крупнейших проблем разработки чатбота – как сделать так, чтобы они обучались и далее, после того, как их запустят в работу. Смысл слов со временем может меняться, новые термины и жаргонизмы могут становиться культурно важными. В то же время чатбот не должен быть слишком внушаемым – бот Tay от Microsoft слишком быстро обучился слишком многому на онлайн-разговорах и за 24 часа превратился в грубого расиста. Facebook обучает экспериментальных чатботов учиться на примерах хороших разговоров и анализировать язык собеседника-человека, чтобы понять, не сказал ли бот чего-то скучного или тупого.

Сложно предсказать, когда именно прорывы Facebook в лаборатории помогут создать чатботов, которые смогут вести разговоры, хоть немного похожие на человеческие. Возможно, пройдёт не так уж и много времени перед тем, как вы сами сможете оценить эти результаты. „Мы считаем, что очень близко подобрались к тому, чтобы создать бота, способного разговаривать с людьми так, чтобы те видели в этом ценность“, — сказал мне исследователь из Facebook Джейсон Уэстон.

Комментарии (6)


  1. drWhy
    10.10.2019 10:09

    "— Открой дверь модульного отсека, Хэл.
    — Извини, Дэйв. Боюсь, что я не смогу этого сделать."

    HAL 9000


  1. Polunochnik
    10.10.2019 10:49

    это будет борьюа алгоритмов подбора подходящих скриптов


  1. martin__marlen
    10.10.2019 17:53

    Человек учится социально общаться, испытывая страх, удовольствие, раздражение, стремление к конкуренции, любопытство и так далее. Все дети, кроме аутистов, общаются эмоционально.
    Без симуляции эмоций научить ИИ общаться в гуманистическом ключе невозможно. Грубо говоря, у ИИ должен быть заданы начальные условия, которые потом в процессе обучения формируют Характер.

    С точки зрения технологии: Нужно внедрять язык эмоциональной разметки, позволяющий читать текст как актеру. Есть туча кино и радиоспектаклей, которые позволят разметить тексты. Причем это как раз легче всего сделает комп, потому что распознавать эмоции по голосу научить легче, чем понимать смысл. Т, е сначала пишется прога (или обучается нейросеть), которая по анализу эмоций в голосе актера, читающего текст и диалоги, размечает текст, по которому потом обучается ИИ.


    1. LuckyOok
      10.10.2019 23:42

      Это что же, придётся ещё и тексты ёфицировать?


  1. Palich239
    10.10.2019 20:56

    Да ну нахрен. Я после первой же пары лекции/практики охреневаю говорить, а тут, видите ли, интерфейс!


  1. LuckyOok
    10.10.2019 22:57

    Ещё одно дорогостоящее и бесполезное «не нужно». Более перспективен и гораздо более прост в изготовлении интерфейс метапарсера, который, в силу особенностей конструкции, просто лишён всех недостатков интерфейса взаимодействия с ботом через разговор. И обладает бесконечно большим количеством достоинств. Как то: дешевизна расширения функционала и однозначность интерпретации ввода.