На следующей неделе в Барселоне состоится крупнейшее событие в мире мобильной индустрии — международная выставка Mobile World Congress 2017 (с 27 февраля по 2 марта 2017 г.). Команда Smart Engines покажет новые разработки по распознаванию и обработке видеопотока на мобильных устройствах: распознавание ID различных стран, детекция голограмм и динамическое панорамирование документов.
Мы подготовили небольшой обзор новых технологий (+ видео), которые покажем в Барселоне. Добро пожаловать под кат!
1. Распознавание ID различных стран на мобильных устройствах
В настоящее время в мире распознавание идентификационных документов в мобильных приложениях зачастую ограничивается извлечением данных специальной машиночитаемой зоной (MRZ), присутствующей на некоторых типах документов. При этом на многих типах ID и паспортах этой зоны нет, и таких документов в мире сотни.
В связи с этим мы занялись задачей разработки расширяемого решения, которое позволяет распознавать, помимо извлечения данных MRZ, всю релевантную человекочитаемую текстовую информацию, а также искать фотографии и подписи на широком классе документов.
В Smart IDReader реализована сверхбыстрая идентификация типа документа до распознавания, субпиксельная локализация информационных (текстовых и графических) элементов, а также распознавание текста сверхлегкими искусственными нейронными сетями (ИНС).
Как мы знаем, при распознавании непосредственно на мобильном телефоне вопросы быстродействия и энергоэффективности — ключевые, и привычный подход “сначала распознаем все, а потом осмыслим текст” не приводит к приемлемому результату. Знание типа документа позволяет резко сократить вычислительную сложность, но проблема в том, что число этих типов в нашем случае исчисляется сотнями. Поэтому ключевым требованием к классификатору типа документа является его сублинейная сложность по числу типов документов.
Высокая производительность наших ИНС обеспечивается как за счет глубокой технической оптимизации вычислений на низком уровне под каждую вычислительную платформу, так и использованием передовых технологий обобщающего обучения и аугментации данных с использованием моделирования искажений.
Мы построили уникальную технологию “one-shot augmentation”, позволяющую создавать высокоточные ИНС на основе небольшого количества экземпляров реальных данных.
Кроме российских документов (Паспорт, СНИЛС, Водительские удостоверения, СТС) сейчас поддерживаются документы США (Паспорт), Великобритании (Водительские удостоверения, Паспорт), Германии (Паспорт, ID карты, Водительские удостоверения), Австрии (ID карты, Водительские удостоверения), Испании (ID карты), Филиппин (Паспорт), Малайзии (Удостоверения личности MyKad), Казахстана (Удостоверения личности), Японии (Водительские удостоверения, Карточка медицинского страхования), Китая (Паспорт), а также любые документы с машиночитаемой зоной (MRZ) и банковские карты (кредитные и дебетовые). Список документов расширяется.
Демо программу Smart IDReader можно скачать в App store и Google play.
2. Детекция голограмм в видеопотоке на мобильных устройствах
Человек легко отличит подлинник документа с голограммой от его ксерокопии, просто покачивая документ перед собой. До последнего времени на рынке не было продукта, способного провести эту проверку автоматически. Это связано с тем, что без технологии установления соответствия в видеопотоке с субпиксельной точностью, чрезвычайно трудно отличить голограмму от движения статичной пестрой картинки.
Нам удалось достигнуть требуемых показателей геометрической точности, а также решить другую задачу — устойчиво отличать изменения освещенности от переливов голограммы. Теория для таких задач известна давно и называется цветовой константностью, но она требует уже откалиброванного прибора, что невозможно в случае использования мобильных телефонов конечным пользователем.
На видео демонстрируется детекция голограммы на загранпаспорте РФ.
3. Динамическое прореживание и панорамирование документов в видеопотоке (видеосканирование)
Ситуация динамического панорамирования условно плоской подстилающей поверхности часто возникает при аэрофотосъемке. При этом скорость смещения изображения в кадре не обязана быть постоянной. Особенно значительные колебания скорости возникают при съемке с коптеров. Технология динамического прореживания заключается в удалении или усреднении кадров с малым пространственным смещением. В результате порождается видеопоток с меньшим объемом, выровненной наблюдаемой скоростью и пониженным уровнем шума на участках, где было возможно усреднение. Параллельно возможно построение единого изображения-панорамы. Данная задача представляется наиболее актуальной при съемке с ограничениями на объем накопителей и ширину канала связи.
На видео демонстрируется использование такого видеосканирования для получения качественного изображения чека нестандартного размера.
Ждем вас на нашем стенде на MWC 2017 ( Hall 7 Stand 7G84 ) и с удовольствием расскажем потом как это было!
Комментарии (13)
Alexufo
22.02.2017 15:17А как же чтение из чипа документов если у телефона есть NFC? Там цветная фотография.
SmartEngines
22.02.2017 15:27Для расшифровки данных чипа необходимо считать или ввести руками данные содержащиеся в машиночитаемой строке (MRZ) или в зоне визуального контроля (VIZ), иначе было бы возможно дистанционно считать персональные данные. Кроме того, документов с чипом не так уж и много, например, в паспорте РФ и правах их нет.
Alexufo
22.02.2017 15:31Это верно. Просто если есть OCR то обычно есть поддержка чтения фотографии. У вас нет такой функции?
Цветные фотки нужны из за виз, чб не принимают, имею ввиду загранники.SmartEngines
22.02.2017 15:35Мы распознаем документы и в зонах визуального контроля выделяем фото, если оно есть, функцию чтения чипа документов по NFC для телефонов на Android добавим после MWC, после распознавания это уже техническая работа.
Alexufo
22.02.2017 15:47Судя по всему работает быстрее AbbyyPassport Reader который у нас в облаке. Если чтение с NFC появится и сохранения фотки (многие авиакомпании требуют не только цветное фото но и скан паспорта, которые посылаются по их требованиям типа архив с папками имена пассажиров, а внутри скан фото и т.п ) то будет резон задуматься о смене подхода к оформлению через ваш софт.
SmartEngines
22.02.2017 16:17Опция сохранения изображения паспорта и фото из VIZ есть сейчас. Чтение чипа будет только для Android, для iPhone только когда откроют работу с NFC.
Tatooine
22.02.2017 16:17Попробовал — работает хорошо… но для потребителя пока бесполезно ибо данные не сохраняются…
SmartEngines
22.02.2017 16:18Программа создана для демонстрации возможностей, для всех наших продуктов мы предоставляем SDK для интеграции в приложения заказчика.
IliaSafonov
Исправьте, пожалуйста: голограмма, панорама.
Выглядит интересно, но есть вопрос. Для чего эти технологии могут быть интересны обычным пользователям, а не спецслужбам?
SmartEngines
Например, панорамирование позволяет снимать длинные чеки из магазина и получать качественное изображение, которое потом нормально распознается, а голограммы нужны в системах самообслуживания банков и других финтехов, что позволит им проверять подлинность документов на мобильных устройствах.
PS ошибки поправили, спасибо!