В нашем блоге мы рассказывали о том, как рестораны автоматизируют свою работу с помощью специальных систем (например, Jowi), заботятся о комфорте посетителей с помощью правильного света и звука, а также используют различные методы для повышения среднего чека и размера чаевых.

Кроме того, мы уделяли внимание и технологическим трендам ресторанной отрасли. Недавно издание Wired опубликовало историю бывшего инженера Google Фрэнсес Хауген (Frances Haugen), которая сейчас занимается развитием технологий поиска ресторанов в онлайн-сервисе Yelp. Мы представляем вашему вниманию основные моменты этого материала.

Фрэнсес Хауген (Frances Haugen) принадлежала к первой волне пользователей Google в 1996 году. Ее мать, работающая преподавателем в Университете Айовы, познакомила ее с этой поисковой системой, которая на тот момент была еще проектом Стэнфордского университета. Хауген была потрясена созданием Ларри Пейджа и Сергея Брина. «Меня поражает сама идея того, что можно заглянуть в такое огромное множество данных», – говорит она.

С тех пор Хауген стала одержима изучением технологии поиска. После колледжа она устроилась в Google и проработала там несколько лет, сначала на должности инженера, а затем product-менеджера. Теперь она работает в Yelp. Вам может показаться, что этот разрастающийся сервис обзоров не является поисковой компанией, однако в действительности именно поиск лежит в основе деятельности Yelp. Ведь вам нужен не просто рейтинг лучших ресторанов неподалеку от вас – вам нужен ресторан, в котором подают кронатсы или ресторан с хорошим видом. Возможно вы ищете заведение, куда можно прийти с питомцем, или место для празднования дня рождения – а может все эти условия сразу.

Но написанные пользователями обзоры и отзывы о каком-либо заведении могут не содержать необходимых деталей. Большая часть полезной информации, вероятно, кроется в загруженных ими миллионах фотографий. Так, например, изображение собаки, которая лакомится кронатсом, украшенным праздничными свечами, на фоне Манхэттенского горизонта даст вам понять, что ресторан соответствует вашим требованиям. Однако существуют и другие, менее тривиальные примеры, доказывающие необходимость такой технологии.

«Жена моего соседа прикована к инвалидному креслу», – говорит Хауген. «Поэтому ему приходилось просматривать сотни фотографий, чтобы выяснить, оборудовано ли заведение инфраструктурой для гостей с ограниченными возможностями».

Если бы компьютеры Yelp могли распознавать инвалидные кресла на фотографиях, сервис мог бы сделать более обоснованное предложение, выбрав самые удобные варианты. Однако, поисковым технологиям Yelp еще далеко до такого уровня. Сложнее всего научить компьютеры распознавать, что именно изображено на фотографиях. Но Хауген и её команда начали закладывать основы системы распознавания изображений, способной в корне изменить технологию поиска.

В поисках лучшего


Прежде всего, первый проект Yelp по распознаванию образов основан не на поиске, а на подборе лучших фотографий, снятых в различных заведениях. Каждый раз, заходя на Yelp, вы видите несколько изображений в верхней части страницы, и именно эти изображения формируют ваше впечатление о компании в целом. Хауген и ее команда работают над созданием системы автоматического отбора лучших фотографий, чтобы при просмотре сайта вы видели самые лучшие предложения.

«Мы пытаемся выяснить, каким образом можно отобрать лучшие фотографии, которые заставят пользователей рискнуть», – говорит она. «Найти такое фото, которое убедит вас пойти к новому парикмахеру, выбрать место для проведения свадьбы или ресторан, где можно отметить день рождения друга».

Это значит, что Yelp должен научиться отличать фотографию аппетитного стейка от размытого «пьяного» селфи. Казалось бы, проще всего брать за основу подписи под изображениями, но зачастую пользователи пишут просто что-то вроде «потрясающе», а то и вовсе не подписывают фотографии.

Yelp мог бы пойти по другому пути и полагаться на оценки фотографий, поставленные пользователями. Но в таком случае три лучшие фотографии в рейтинге не всегда будут отличаться разнообразием. Когда вы заходите на страницу ресторана Jim Bob's, вам, вероятно, не захочется смотреть три фотографии стейка, даже если эти фотографии очень хорошего качества. Вам интересно будет увидеть необычные фирменные блюда или механического быка перед входом. Если только Yelp не собирается нанимать людей, которые будут просматривать и сортировать фотографии, необходимо научить компьютеры распознавать, что же конкретно изображено на этих фотографиях.

Глубокое обучение


Безусловно, с этой проблемой столкнулась не только компания Yelp. Google и Facebook – не говоря уж о правоохранительных органах и агентствах по шпионажу – в течение многих лет работают над технологией распознавания лиц. Стартап под названием Orbital Insight занимался отслеживанием количества запасов нефти и незаконной вырубки лесов, анализируя фотографии, снятые из космоса. В прошлом году компания Google приобрела туристический стартап Jetpac, который специализируется на разработке путеводителей и карт. У Jetpac, как и у Yelp, возникла идея анализировать изображения, чтобы определить, в какие бары и рестораны, скажем, разрешен вход с собаками. Практически все эти проекты связаны с искусственным интеллектом, а вернее с его направлением, так называемым «глубоким обучением». Глубокое обучение – это вид машинного обучения, основанного на симуляции работы человеческого мозга.

За последние годы значительно возрос интерес крупных технологических компаний к глубокому обучению. Google и Facebook наняли ведущих специалистов в этой области, а также приобрели несколько стартапов, чтобы продолжить внутриорганизационные исследования. Компания Microsoft тем временем обратилась к машинному обучению для создания сервиса синхронного перевода Skype Translate. Но поскольку технологические гиганты не обладают монополией на искусственный интеллект, такие компании, как Yelp, тоже могут использовать результаты исследований в своих интересах.

Чтобы запустить эту систему, команда разработчиков Yelp использовала библиотеку с открытым кодом Caffe для создания нейронной сети – программного обеспечения, представляющего собой аналог связей между нейронами человеческого мозга – взяв за основу работу ведущих специалистов в области глубокого обучения. Но само по себе программное обеспечение не может выполнить такой объем работы. Чтобы распознать какой-либо объект – будь то кот, или кекс, или автомобиль – необходим алгоритм, составленный человеком. С этой целью, компания Yelp наняла людей, которые будут просматривать сайт Crowdflower и помогут распределить по категориям большое количество фотографий.

Изначально усилия по машинному обучению были направлены на распределение фотографий из ресторанов по четырем категориям: еда, меню, внешний вид ресторана и интерьер. Но Хауген надеется, что все данные, полученные в ходе этого процесса, пригодятся при разработке функционала Yelp. Между тем, она пытается выяснить, какие фотографии набирают большее количество просмотров. Людям нравится линейность, например, когда на снимке изображены три чашки кофе в ряд. Улыбки всегда привлекают внимание, как и синий цвет. Но чаще всего люди просматривают фотографии, сделанные под низким углом. «Если вы хотите сделать снимок вашего ужина, – поясняет Хауген, – вам следует опустить камеру до уровня стола».

Комментарии (0)