Когнитивная система IBM Watson совершенствуется. Специалисты корпорации существенно обновили «модуль распознавания эмоций», обеспечив системе возможность распознавания эмоционального состояния человека. На основе данных анализа система может отвечать человеку соответственно, зная, что он чувствует.
Сейчас добавлены сразу три API (пока бета-версии): Tone Analyzer, Emotion Analysis и Visual Recognition. Обновлен сервис Text to Speech (TTS) с получением новых возможностей по эмоциям, а также открыт доступ к API речевого модуля Expressive TTS. Все это существенно расширяет границы взаимодействия человека и машины, причем машину обучили сопереживать эмоциям человека, добавив эмпатию.
«Мы продолжаем совершенствовать возможности платформы IBM Watson, обеспечивая сообществу разработчиков возможность создания динамических приложений и сервисов на основе искусственного интеллекта», — говорит Дэвид Кенни (David Kenny), руководитель IBM Watson. «Мы также упрощаем платформу, делая более понятным и рациональным процесс создания, обучения и внедрения наработок на основе IBM Watson», — добавляет он.
IBM внедряет новые инструменты и совершенствует интерфейс Watson для работы с SDK Node, Java, Python, а также недавно представленные iOS Swift и Unity, входящие в портфолио Watson. Разработчики получили в свое распоряжение Application Starter Kits, что позволяет девелоперам ускорить разработку приложений и сервисов на основе Watson. Все API доступны в IBM Watson Developer Cloud платформы Bluemix.
Tone Analyzer, Emotion Analysis и Visual Recognition
IBM Watson Tone Analyzer помогает задать общий тон текстового общения. Это одна из последних надстроек для Watson Developer Cloud API и SDK, которая доступна в среде Bluemix.
Эмоциональная окраска. Эмоции людей, описанные в литературе и знакомые нам с детства, включают злость, страх, ожидание, удивление, радость, грусть, доверие и другие. Разработчики сервиса создали модель для оценки эмоций в тексте. Tone Analyzer разделяет все эмоции на три категории: положительные эмоции, отрицательные и гнев. Положительные эмоции включают радость, оптимизм, вдохновение, счастье, удовлетворенность. Негативные — страх, отвращение, отрицание, унижение, вину, отчаяние. Гнев — это разновидность негативных эмоций с такими составляющими, как агрессия, ярость, фрустрация, раздражение, враждебность.
Социальная составляющая. Здесь также идет разделение по трем типам: открытость, выражение согласия, честность (добросовестность). Открытость — это готовность человека к новому опыту; выражение согласия — тенденция находить компромисс и сотрудничество; честность, добросовестность — стремление действовать соответствующим образом.
Стиль изложения. И здесь есть три категории: аналитика, уверенность и осторожность. Аналитический стиль изложения показывает стремление автора сообщения к анализу, осмыслению сути вещей. Уверенность отражает степень уверенности человека в чем-то. И осторожность — стремление к постепенному развитию событий.
Emotion Analysis был добавлен корпорацией IBM в пакет API AlchemyLanguage. Здесь используется глубокая обработка и анализ языка для того, чтобы помочь разработчику лучше понять эмоции других людей. Разработчики теперь могут идентифицировать позитивные и негативные эмоции, а так-же выделать более широкий ряд эмоций, включая радость, грусть, страх, отвращение и злость. Все это может использоваться, например, для анализа отзывов пользователей, постов в социальных сетях и обычных комментариев. Компании могут быстро определить отношение покупателей к своей продукции, оценив соотношение позитивных и негативных обзоров. Соответственно, можно выделить основные эмоции пользователей и реагировать, изменяя товар или услугу.
Visual Recognition обеспечивает возможность распознавать и классифицировать изображения. Перед использованием технологии в какой-либо сфере Visual Recognition можно предоставить «обучающий материал», на основе которого модуль и будет распознавать изображения в дальнейшем.
Аналоги есть и у других компаний, но есть и существенные отличия. Здесь основная цель IBM — дать разработчикам инструмент, который можно использовать для различных задач и обучать его на собственном материале, создавая кастомизированный классификатор изображений. К примеру, ритейлер может научить Visual Recognition распознавать одежду своего производства на картинках в социальных сетях, анализируя размер своей аудитории.
Expressive Text to Speech
Работа над этой технологией велась более 12 лет. Сейчас она стала доступной для всех в виде Watson TTS API. Когнитивная система распознает речь в степени, которая была недоступна машинам ранее. Сюда входит «понимание» компьютером тона, контекста и эмоциональной окраски речи. На основе такого анализа компьютер может отвечать соответствующим образом.
Ранее компьютеры в подобных ситуациях действовали на основе предопределенного набора слов. Появление одного или нескольких слов из «контрольного набора» вызывало срабатывание одного из алгоритмов, и компьютер «отвечал». Теперь система “анализа на основе текста” не только анализирует отдельные слова, но и определяет эмоциональную направленность речи, ее тон и смысловую составляющую. На основе Watson TTS API разработчики могут создавать собственные приложения и сервисы, упрощая и улучшая принцип взаимодействия человека и компьютера.
На данный момент платформа IBM Watson насчитывает уже несколько десятков различных сервисов, доступных на IBM Watson Developer Cloud платформы Bluemix. Сообщество когнитивной системы включает более 80000 разработчиков, студентов, предпринимателей, инженеров и технологов.