Привет!
Мы, компания Smart Engines, являемся экспертами в сфере распознавания. За время нашего существования мы опубликовали на Хабр более сотни статей, в которых рассказали о наших технологиях и научных достижениях. Теперь мы решили познакомить вас поближе с нашей командой и показать, что скрывается за дверьми офиса Smart Engines.
Когда появилась первая OCR? Чем российская школа компьютерного зрения отличается от американской? С какой скоростью мы распознаем на "Эльбрусе"? Исчезнут ли когда-нибудь бумажные документы? На эти и другие вопросы в интервью блогеру imaxai ответили генеральный директор Smart Engines к.т.н. Владимир Арлазаров, директор по науке, член-корреспондент РАН, профессор, д.т.н. Владимир Львович Арлазаров
Содержание:
00:00 Старт
01:18 О Smart Engines и распознавание
10:14 В применении на сгенерированных семплах
19:32 С чего все началось в СССР
36:21 Российские процессоры и операционные системы
43:46 Основательно про процессор Эльбрус и тесты
1:01:11 Про подходы в США и в России, искусственный интеллект и т.д.
1:21:14 Про электронный документооборот
А для тех, кто все-таки предпочитает читать, а не смотреть, мы собрали наиболее интересные поинты из видео.
С чего началось распознавание в СССР?
Владимир Львович Арлазаров, директор по науке Smart Engines, член-корреспондент РАН, профессор, д.т.н., завотделением ФИЦ ИУ РАН, рассказал про первые советские системы распознавания:
"Распознаванием текста занимались еще в 60-е годы, но тогда это были игрушки, потому что именно вводить тексты никто не умел. Тексты вводились руками.
И только в конце 80-х годов у нас появились сканеры, которые могли с большой скоростью ввести в машину изображения с любым количеством текста. Сначала они работали медленно, потом стали быстрее. Тогда же встала задача: хорошо, мы можем загрузить тексты в ЭВМ в виде картинок. Но нужны они нам не в виде картинок, а в виде текста в текстовом редакторе.В самом конце 80-х появился первый социальный заказ, и распознавание тогда стало действительно востребованным. Мы договорились с издательством художественной литературы, которая занималась переизданием классики, что мы сделаем для них распознавание, при помощи которого оно сможет оцифровывать старые книжки. Это была очень симпатичная работа, потому что при советской власти было не так много гарнитур и можно было делать распознавание, которое не все на свете распознает, а только определенные гарнитуры.
В 1989 году мы сделали первые программы, которые уже распознавали текст. То есть можно было засунуть в сканер страницу, отсканировать ее и тут же распознать. Причем делать это можно было в любых количествах.
Большое количество ребят, которые у меня работали, уехали в США и, к сожалению, безвозвратно. Они основали небольшую компанию “Cognitive Technologies, Inc.”. Там они сделали программу для распознавания английских текстов, а мы здесь – для распознавания русских текстов. И это была уже умная программа, которая никаких шрифтов не знала и распознавала все подряд.
А поскольку русская земля талантами не скудеет, то через несколько лет у меня образовался новый коллектив из студентов МГУ, МФТИ и МИСИС. Снова сформировалась очень хорошая команда, с которой мы уже здесь работали. И мы основали компанию “Cognitive Technologies", которой я руководил 15 лет, вплоть до 2009 года.
Эта компания занималась только OCR. Наша система распознавала уже и русский, и латинский, и другие шрифты. И мы раскрутились до невероятных размеров. Во многом нам помогла компания ABBYY, с которой мы тогда соревновались.
Мы раскрутили это дело до того, что когда в 1994 году на какой-то выставке провели опрос “Какие вы считаете программы самыми важными”, то OCR занял второе место после операционных систем. OCR опередил и базы данных, и производственные системы. И когда распознавание текстов стало задачей обыденной, то мы переключились на распознавание форм.
Распознавание форм – это абсолютно другая стезя, потому что когда вы распознаете текст, то распознаете символы или строчки символов. А когда распознаете документы, то вы должны понять, что это за документ, из чего он состоит, какие у него есть поля. И то, что вы хотите распознать, нужно распознать не как гладкий текст, а как фрагмент какой-то базы данных. Даже если вы возьмете обыкновенную платежку, то там два десятка полей. Каждое из них надо найти, потом из каждого извлечь информацию, а потом каждое переместить. Проблемы OCR-вские стали совсем другие, потому что там тексты всегда имеют разные гарнитуры и разные кегли.Новый этап наступил, когда появились смартфоны и стало понятно, что те же самые задачи нужно решать уже не с помощью сканеров. Их количество постоянно уменьшается и сходит на нет".
Почему мы выбираем студентов?
"Мы собираем и воспитываем коллектив сами. В основном это студенты, которые впоследствии вырастают в классных программистов и классных ученых, становятся кандидатами и докторами наук. Если посмотреть на наш сегодняшний состав, то половина сотрудников – студенты. Конечно, впоследствии они расходятся, но даже если мы за один год взяли десять студентов и двое из них остались, то через 10 лет это воспитанный тобой коллектив из 20 человек.
Раскрываются они по-разному: кто-то быстрее, кто-то медленнее. Бывает, что человек расцветает прямо на глазах и к концу обучения в университете он уже классный программист. Бывает, что у нас люди расцветают через 5-6-7 лет. Это нормально, они ничем не хуже, но просто им нужно чуть больше времени.
Дальше идет уже административная работа, потому что их надо удержать. Нужно платить им деньги, нужно поддерживать их энтузиазм. Если человек пришел к нам на практику, то это совсем не значит, что через пять минут он поверил в то, что мы такая великая команда. Он должен здесь пожить, понять, что некоторые вещи лучше нас в мире не знает никто, а вот после этого он становится нашим.
Мое убеждение – человек должен верить в то, что делает. Если он не верит, то он и делает плохо. Конечно, профессионализм никто не отменял, мы и сами учим профессионализму. Но именно с точки зрения психологии человек должен в то, что он делает, верить, и эту веру необходимо поддерживать. Востребованность со стороны рынка – это для гендиректора, может быть, для меня, может быть, для членов совета директоров.А студентам нужно верить в то, что они занимаются великим делом. Важно, чтобы они понимали, что мы находимся на переднем крае науки и техники, – это первое. И второе: они должны видеть, что все, что они делают, отправляется не в ящик. Наши системы стоят в аэропортах, в банках, крупнейших телефонных компаниях. Если вы придете купить билет на поезд дальнего следования в кассу, то будете пользоваться нашей системой. И когда человек видит, что он это сделал и это работает, то это его же вдохновляет.
Поэтому мы очень много внимания уделяем тому, чтобы то, что мы делаем, работало на отечественном оборудовании. У нас есть убежденность, что, живя здесь, мы будем делать те вещи, которые на нашем оборудовании будут работать",
– говорит Владимир Львович Арлазаров.
Как нам помогает государство?
"Здесь я могу сказать однозначно: государство нам помогает. То, что сделало государство в течение последних лет, спасло IT-отрасль. Это и обнуление налога на прибыль, и введенные Михаилом Мишустиным льготы. Это очень важно, так как основная часть затрат компании – это зарплаты. И поэтому любая экономия на зарплатных налогах помогает нам реинвестировать больше денег в продукты.
Это и грантовая система, фонд Ивана Бортника и РФРИТ, которые действительно выделяют деньги для того, чтобы создавать новые и прорывные разработки. Многие компании, в том числе наша, пользуется этим пакетом льгот.
Эти фонды работают таким образом, чтобы мы приносили пользу государству, не передавая ему интеллектуальную собственность, а продавая продукт. То есть мы берем на себя обязательства на определенный объем продаж нашего продукта, созданного с помощью государственных денег, и дополнительно софинансируем. То есть если мы взяли у государства миллион рублей, то мы вложили еще полмиллиона своих и обязались продать на несколько миллионов в будущем. Если не продадим – придется вернуть”,
– говорит к.т.н. Владимир Арлазаров, генеральный директор Smart Engines.
Чем отличается американский подход от российского?
Владимир Арлазаров:
"В России существует не одна, а десяток или два десятка научных школ, всерьез занимающихся компьютерным зрением. В мире их еще больше.
Если говорить про американскую и китайскую, то их главная парадигма – раньше во всяком случае была, а сейчас она, к счастью, меняется – для обеспечения должной производительности просто купите еще немножко Nvidia. Вопрос в том, а не много ли у вас коэффициентов в нейронных сетях? То есть там основным направлением считается экстенсивный рост сложности нейросетевых методов для решения все более сложных задач и достижения новых качеств.
Наша школа – еще с советских времен – использует совершенно другое. Мы по мере возможностей используем интенсивный подход, то есть когда мы придумываем максимально эффективное решение тех или иных задач, а не пытаемся создать еще одну красивую архитектуру".
Есть ли будущее у российских процессоров?
"Это очень здорово, что в Российской Федерации есть две школы разработки микропроцессоров – “Комдив” и “Эльбрус”. Ведь купить дизайн процессора можно тем или иным способом, а создать школу, которая воспроизводит себя и развивает, может создавать новое – это стоит бесконечных денег. Ценность школы огромная для науки и для всего.
И те, и другие процессоры активно применяются. А дальше это вопрос бизнеса, как он будет их использовать. Для обычного пользователя по большому счету никакой разницы",
– говорит Владимир Арлазаров.
Что ждет системы распознавания в будущем?
Владимир Львович Арлазаров:
"OCR как задача решена, потому что если вы возьмете любую страницу и засунете ее в сканер – десяток программ в мире распознают ее без ошибок или с 1-2 ошибками. А вот распознавание документов – задача далеко не решенная, потому что пока мы делаем только первые шаги и все еще только впереди.
Раньше меня все уверяли, что это все чепуха и скоро все документы будут только электронными, а распознавание документов будет ненужным. Но бумажных документов, напротив, становится только больше и никакого спада интереса к распознаванию бумажных материалов нет и в ближайшее время не предвидится.
Хотя, казалось бы, все документы в компьютере, но технологии работы таковы, что все равно нужна бумага. И не только в России, но и в мире все верят бумаге. Во всех важных случаях документы бумажные и их надо распознавать. Даже если документ есть в компьютере, то его надо распознать и сверить.Эти программы нужны компаниям уже сегодня, просто некоторые из них об этом пока не знают. Это свойственно абсолютно любой новой технологии: если ты предлагаешь новую технологию, то обязательно проходит время, прежде чем общество, компании, бизнес, государство осознают, что это нужно. Потому что априори никому ничего не нужно. Вообще никому ничего.
Нужно время, пока все осознают, что распознавание документов – это непременный элемент любой промышленной и организационной бюрократии”.
Благодарим за прочтение и просмотр видео!
Комментарии (4)
MikhailZakharov
07.06.2023 16:24Я сторонник того, чтобы чаще использовать "извлечение данных" вместо распознавания. Так как сам OCR это шаг в цепочке. Ввод - классификация - распознавание (ocr) - проверка - экспорт. Интересно, что комментарий выше о трудозатратах на ввод типов документов. Это как раз то что относится к классификации, проверке и экспорту.
vagon333
Благодарю за ретро и общий обзор OCR. Приятно было окунуться в ранние 90ые. :)
Посмотрел сайты SmartEngines.com и .ru, но не нашел интересующую меня тематику - банковские документы. Классификация и извлечение данных.
Конкретно, интересует уровень затрат на добавление типов документов.
У ABBYY есть FlexiCapture. Хороший продукт, но трудоемкий.
А что есть у Smart Engines?
Где можно ознакомиться?
SmartEngines Автор
Добрый день! Благодарим вас за интерес к разработкам Smart Engines.
Если вы хотите почитать про распознавание платежек, счетов, KYC-анкет, согласий и доверенностей, то вам сюда: https://smartengines.ru/raspoznavanie-dokumentov-i-schetov/
Информация о процессе распознавания анкет и форм опросников находится по этой ссылке: https://smartengines.ru/raspoznavanie-form-i-anket/
О том, как в банковской сфере применяется полнотекстовое распознавание, читайте здесь: https://smartengines.ru/raspoznavanie-teksta-ocr/
Подробности процесса сканирования документов на смартфоне смотрите тут:https://smartengines.ru/skanirovanie-dokumentov-na-smartfone/
Всю информацию о нашей интеллектуальной системе анализа и распознавания документов Smart Document Engine, а также о том, как она применяется для распознавания первичных и учетных документов, вы найдете на отдельной странице продукта: https://smartengines.ru/intelligent-document-recognition/
Если у вас остались вопросы, просим связаться с нами через форму на сайте Smart Engines: https://smartengines.ru/contacts/
vagon333
Спасибо за ответ и массу информации.
По трудозатратам на добавление документа или процессу добавления ответ не нашел.
За поиском ответа, по приведенной выше ссылке https://smartengines.ru/raspoznavanie-dokumentov-i-schetov/ просмотрел список поддерживаемых документов США. Я в курсе что вы позиционируетесь на Российский рынок.
14 типов - недостаточно для использования, если только нет удобной среды для расширения типов.
В моих процессах (банковское кредитование) 600+ типов (стандарт MISMO) и список растет.
Писать вам через форму не вижу смысла - когда решение есть, его не заменяют массой не относящихся к вопросу линков. Но, спасибо за красивый риторический прием (обходной ответ). :)