Ежедневно Google Maps строят полезные маршруты, выдают информацию о пробках и о коммерческих организациях для миллионов людей. Чтобы нашим пользователям было удобнее, эта информация должна в реальном времени отражать постоянно изменяющийся мир. Автомобили Street View ежедневно собирают миллионы изображений, и вручную невозможно проанализировать более 80 миллиардов изображений высокого разрешения, собранных на сегодня, чтобы найти новую или обновлённую информацию, пригодную для размещения на Google Maps. Одна из целей команды Ground Truth – автоматическое извлечение информации из изображений с географической привязкой для улучшения Google Maps.

В работе "Извлечение структурированной информации из базы изображений Street View с использованием attention-алгоритмов" мы описали наш подход к точному автоматическому распознаванию названий улиц на очень сложных фотографиях Street View из разных стран при помощи глубинной нейросети. Наш алгоритм показал точность в 84,2% на сложном наборе данных French Street Name Signs (FSNS), и серьёзно опередил предыдущих лидеров в этой области. Что важно, наша система легко масштабируется на извлечение других типов информации из фотографий Street View, и сейчас помогает нам автоматически распознавать вывески коммерческих предприятий. И мы с удовольствием объявляем о том, что эта модель выложена в общий доступ!

image
Пример успешно распознанного системой названия улицы. Один и тот же знак может быть представлен несколькими фотографиями, до 4-х шт.

Распознавание текста в естественной среде – сложная задача для компьютерного зрения и машинного обучения. Традиционные системы распознавания символов (OCR) занимаются извлечением текста с отсканированных документов, а текст, полученный с фотографий улиц, распознавать сложнее из-за визуальных артефактов – искажения, загораживания, размытия, сложного фона или разных точек обзора. Наши попытки решения этих исследовательских задач начались в 2008 году, когда мы использовали нейросети для размытия лиц и автомобильных номеров для защиты приватности наших пользователей. После этого исследования мы поняли, что обладая достаточно большим количеством помеченных данных, мы можем использовать машинное обучение не только для защиты приватности пользователей, но и для добавления свежей информации в Google Maps.

В 2014 году команда Ground Truth опубликовала передовой метод распознавания номеров домов из набора данных Street View House Numbers (SVHN), который был выполнен тогдашним студентом, а ныне – сотрудником Google, Яном Гудфелло. Эта работа представляла не только академический интерес, но была критичной для улучшения точности Google Maps. Сегодня местоположение примерно трети адресов по всему миру улучшено благодаря этой системе. В некоторых странах, например, Бразилии, этот алгоритм уточнил местоположение более 90% адресов на Google Maps, что чрезвычайно сильно повысило удобство использования наших карт.

Следующим логичным шагом был перенос этих техник на названия улиц. Для решения этой задачи мы создали и выпустили набор данных French Street Name Signs (FSNS), большой набор с более чем миллионом названий улиц. Набор FSNS стал результатом многолетней работы, нацеленным на предоставление всем желающим возможности улучшить их OCR-модели на сложном и реальном наборе данных. FSNS гораздо больше и более сложный, чем SVHN, поскольку точное распознавание названий улиц требует комбинирования информации с нескольких разных изображений.

image
Примеры сложных для распознавания знаков, которые наша система успешно распознала при помощи комбинации разных изображений. Случайный шум используется в случаях, когда для одного знака нет четырёх различных фотографий.

Вооружившись этим набором, стажёр Google Вожна Збигнев всё лето 2016 года разрабатывал модель глубинного обучения для автоматической разметки изображений Street View. Одна из интересных и полезных особенностей новой модели – возможность нормализации текста по нашим стандартам для названий, а также игнорирование лишнего текста, полученного с изображений.

image
Пример нормализации текста по бразильским данным. “AV.” Превращается в “Avenida”, а “Pres.” в “Presidente”

image
В этом примере модель не тушуется, встретив сразу два знака, правильно превращает “Av” в “Avenue” и правильно игнорирует число “1600”.

Новая система в сочетании с извлекающей номера домов позволяет нам создавать новые адреса напрямую с фотографий в тех местах, где ранее не было известного нам названия улицы или адреса. Теперь каждый раз, когда автомобиль Street View едет по новой дороге, наша система способна анализировать десятки тысяч полученных машиной изображений, извлекать названия улиц и номера домов и правильно наносить на карту новые адреса.

Но автоматического создания адресов недостаточно – мы хотим ещё обеспечивать прокладку маршрута до коммерческих организаций по их названию. В 2015 году мы опубликовали работу "Крупномасштабное распознавание коммерческих организаций с фотографий Street View", в котором был предложен метод точного распознавания вывесок коммерческих заведений. Однако после того, как витрина организации обнаружена, необходимо ещё точно извлечь её название – модель должна разобраться в том, где на фото указано название, а где – не имеющий к нему отношения текст. Мы называем эту извлечённую информацию «структурированным текстом». И это не просто текст, а текст, объединённый с его семантическим значением.

Используя различные тренировочные данные, мы можем заставить нашу модель, читавшую название улиц, извлекать названия коммерческих заведений с фасадов зданий. В этом случае мы могли извлечь название и проверить, известно ли нам об этом заведении по информации с Google Maps. Это позволяет нам составлять более точные и актуальные списки коммерческих организаций.

image
Система правильно распознала название магазина как ‘Zelina Pneus’, несмотря на отсутствие информации о расположении магазина. Она также правильно проигнорировала названия брендов шин, продающихся в магазине.

Применение этих крупных моделей на 80 млрд изображений Street View требует серьёзной вычислительной мощности. Поэтому команда Ground Truth самой первой получила доступ к Tensor Processing Unit, о выходе которого было объявлено в этом году, для кардинального уменьшения вычислительных затрат.

Люди полагаются на точность Google Maps и на их возможность помогать людям. Мы поддерживаем Google Maps в актуальном состоянии, имея дело с постоянно меняющимися городскими ландшафтами. Дороги и коммерческие заведения представляют для нас технические трудности, которые мы ещё не смогли на 100% преодолеть. Задача Ground Truth – находиться на передовой прогресса в машинном обучении и создавать более удобный продукт для более чем миллиарда пользователей Google Maps.
Поделиться с друзьями
-->

Комментарии (10)


  1. lash05
    21.05.2017 17:07
    -1

    извлекать названия коммерческих заведений с фасадов зданий
    с фасадами и заборами гуглу надо аккуратнее, чтобы краснеть не пришлось.


  1. DjOnline
    22.05.2017 01:00
    +4

    Ерунда это всё. Если малый бизнес не может сам себя добавить на Google Maps — нахер нужен такой бизнес, скорее всего там через полгода уже будет другой, а в Street View обновится только через несколько лет, обычно не менее 5.
    В России же карты Google дичь полнейшая, был ещё глючный медленный Map Maker так и тот зарезали. В Москве в районе Новокосино-2 на карте до сих пор видны одноэтажные дома и улица, которых нет уже более 4х лет. Рядом в НК-1 нет домов, в котором уже 2 года живут люди. И мне как пользователю абсолютно насрать почему его там нет, кто их там не добавил, гугл, люди, роботы или инопланетяне, но я не вижу прогресса, вижу карты, обросшие засохшим говном.


    1. Protos
      22.05.2017 04:16

      В России просто мало гугловских модераторов, все силами местных map makerов, и да проект закрыт, теперь даже оставив отзыв об ошибке а карте ты ничего не изменишь, никто отзывы не смотрит. Возьмём любой миллионник в США, у них там и 3D снимки натянуты на здания и деревья, и нет неправильных названий организаций


      1. Rumlin
        22.05.2017 12:50

        Когда появились 3D города в Google Earth, то попалось объяснение откуда столько моделей взялось. Якобы в крупных городах США в архитектурном отделе мэрии в неком софте есть 3D город. При перестройке, сносе, реконструкции владелец вместе с документацией должен предоставить 3D модель здания. Его помещают «на место», смотрят как он влияет на «ландшафт» города, на соседние здания (вид, световой день) и либо разрешают либо нет этот проект.


        1. DjOnline
          22.05.2017 21:59
          +1

          Там автоматически строят 3D модель города стереокамерой с лидаром, пролетая над ним, поэтому там есть даже деревья и строительные краны. То что раньше было в Nokia Here или как оно там раньше называлось.


      1. Aguinore
        22.05.2017 14:55

        Яндексовских тоже мало? В моем родном областном центре по 5 лет не обновляют панорамы улиц.


        1. Protos
          22.05.2017 15:08

          Я их не юзал никогда, по моей деревне первые появились дороги, номера домов, снимки пользователей, более детальные снимки со спутника, тропинки, просеки именно на гуглокартах


        1. DjOnline
          22.05.2017 21:58
          +1

          С яндексом проблем нет, там через народные карты можно править основной слой карт. Поэтому если что-то не так, можешь быстро сам изменить. И это реальный прогресс, в большинстве мест которые я вижу Я.карты по детализации теперь не уступают OSM и Wikimapia, а иногда даже и превосходят OSM, где до сих пор остался высокий порог входа.
          А панорамы да, никто не обещал обновлять чаще чем в 5 лет.


  1. BMS
    22.05.2017 14:55
    +1

    Интересно, а reCaptcha используется гуглом для распознавания улиц, вывесок? Ведь там частенько пробегают такие изображения. Думаю, игнорировать такое обучение систем распознавания он не будет.


    1. SLY_G
      22.05.2017 14:55

      Так это их проект и есть. Именно так и распознают.