Исследователи из Microsoft создали систему искусственного интеллекта, способную генерировать подписи к изображениям, которые во многих случаях оказываются более точными, чем описания, сделанные людьми. Этот прорыв стал важной вехой в стремлении Microsoft сделать свои продукты и услуги инклюзивными и доступными для всех пользователей.
«Описание изображений — одна из основных функций компьютерного зрения, которая делает возможной работу широкого спектра сервисов», — сказал Сюэдун Хуан (Xuedong Huang), технический сотрудник Microsoft и главный технический директор Azure AI Cognitive Services в Редмонде (штат Вашингтон).
Новая модель теперь доступна потребителям через Computer Vision в Azure Cognitive Services, которое является частью Azure AI, и позволяет разработчикам использовать эту возможность для улучшения доступности своих сервисов. Она также включается в приложение Seeing AI и в конце этого года начнет работать в Microsoft Word и Outlook для Windows и Mac, а также в PowerPoint для Windows, Mac и в веб-версии.
Автоматическое описание помогает пользователям получить доступ к важному содержимому любого изображения, будь то фотография, возвращенная в результатах поиска, или иллюстрация для презентации.
«Использование подписей, описывающих содержимое изображений (так называемый альтернативный или замещающий текст), на веб-страницах и в документах особенно важно для незрячихили слабовидящих людей», – отметил Сакиб Шейх (Saqib Shaikh), менеджер по программному обеспечению в группе платформ AI Microsoft в Редмонде.
Например, его команда использует улучшенную функцию описания изображений в приложении для незрячих и плохо видящих людей Seeing AI, которое распознает то, что снимает камера, и рассказывает об этом. Приложение использует генерируемые подписи, чтобы описывать фотографии, в том числе в социальных сетях.
«В идеале всем следует добавлять альтернативный текст для всех изображений в документах, в Интернете, в социальных сетях, так как это позволяет незрячим людям получить доступ к содержимому и принять участие в разговоре. Но, увы, люди этого не делают, — говорит Шейх. —Однако есть несколько приложений, которые используют функцию описания изображений, чтобы добавлять альтернативный текст, когда он отсутствует».
Лижуань Ван, главный менеджер по исследованиям лаборатории Microsoft в Редмонде, руководила исследовательской группой, которая добилась результата, сравнимого с человеческим, и превзошла его. Фото: Dan DeLong.
Описание новых объектов
«Описание изображений — одна из основных задач компьютерного зрения, которая требует наличия системы искусственного интеллекта, позволяющей понять и описать основное содержание или действие, представленное в изображении», – объяснила Лижуань Ван (Lijuan Wang), главный менеджер по исследованиям лаборатории Microsoft в Редмонде.
«Нужно понять, что происходит, выяснить, каковы отношения между объектами и действиями, а затем обобщить и описать все это в предложении на понятном человеку языке», — сказала она.
Ван руководила исследовательской группой, которая в эталонном тестировании nocaps (novel object captioning at scale, масштабное описание новых объектов) добилась результата, сравнимого с человеческим, и превзошла его. Это тестирование позволяет оценить, насколько хорошо системы ИИ генерируют описания изображенных объектов, не входящих в набор данных, на основе которого обучалась модель.
Обычно системы описания изображений обучаются на наборах данных, которые содержат изображения, сопровождаемые текстовым описанием этих изображений, то есть на наборах подписанных изображений.
«Тест nocaps показывает, насколько хорошо система способна описать новые объекты, не встречающиеся в учебных данных», — говорит Ван.
Чтобы решить эту задачу, команда Microsoft предварительно обучила большую модель ИИ на обширном наборе данных, содержащем изображения со словесными тегами, каждый из которых был сопоставлен с определенным объектом на изображении.
Наборы изображений со словесными тегами вместо полных подписей создавать эффективнее, это позволило команде Ван ввести в свою модель много данных. Благодаря такому подходу модель получила то, что команда называет визуальным словарем.
Как объяснил Хуан, подход к предварительному обучению с использованием визуального словаря похож на подготовку детей к чтению: сначала используется книжка с картинками, в которой отдельные слова ассоциируются с изображениями, например, под фотографией яблока написано «яблоко», а под фотографией кошки — слово «кошка».
«Такая предварительная подготовка с помощью визуального словаря, по сути, представляет собой начальное образование, необходимое для обучения системы. Так мы пытаемся наработать своеобразную моторную память», — сказал Хуан.
Модель, прошедшая предварительное обучение, затем дорабатывается с помощью набора данных, включающего подписанные изображения. На этом этапе обучения модель учится составлять предложения. Если появляется изображение, содержащее новые объекты, система ИИ использует визуальный словарь для создания точных описаний.
«Для работы с новыми объектами при тестировании система объединяет то, чему научилась во время предварительного обучения и во время последующей доработки», — говорит Ван.
Согласно результатам исследования, при оценке на тестах nocaps система ИИ создавала более содержательные и точные описания, чем это делали люди для тех же изображений.
Ускоренный переход в рабочее окружение
Кроме всего прочего, новая система описания изображений в два раза лучше, чем модель, используемая в продуктах и службах Microsoft с 2015 года, согласно сравнению с другим отраслевым эталоном.
Учитывая преимущества, которые получат все пользователи продуктов и услуг Microsoft от этого улучшения, Хуан ускорил интеграцию новой модели в раочую среду Azure.
«Мы берем эту прорывную технологию ИИ на Azure в качестве платформы для обслуживания более широкого круга клиентов, — сказал он. — И это прорыв не только в исследованиях. Время, которое потребовалось, чтобы включить этот прорыв в рабочее окружение Azure, тоже стало прорывом».
Хуан добавил, что достижение результатов, сравнимых с человеческими, продолжает тенденцию, уже сложившуюся в когнитивных интеллектуальных системах Microsoft.
«За последние пять лет мы достигли сопоставимых с человеческими результатов в пяти крупных областях: в распознавании речи, в машинном переводе, в ответах на вопросы, в машинном чтении и понимании текста, а в 2020 году, несмотря на COVID-19, в описании изображений», — сказал Хуан.
По теме
- Посетите сайт Azure Cognitive Services чтобы узнать больше про компьютерное зрение (Computer Vision)
- Читайте статью Историческое достижение — исследователи Microsoft достигли уровня человеческих возможностей при автоматическом распознавании речи
Сравните результаты описания изображений, которые давала система раньше и сейчас с помощью ИИ
Фото из библиотеки Getty Images. Предыдущее описание: Крупный план человека, готовящего хот-дог на разделочной доске. Новое описание: Человек делает хлеб.
Фото из библиотеки Getty Images. Предыдущее описание: Человек сидит на закате. Новое описание: Костер на пляже.
Фото из библиотеки Getty Images. Предыдущее описание: Мужчина в голубой рубашке. Новое описание: Несколько человек в хирургических масках.
Фото из библиотеки Getty Images. Предыдущее описание: мужчина на скейтборде взлетает верх по стене. Новое описание: бейсболист ловит мяч.