Привет меня зовут Игорь, в свободное от основной профессии время я интересуюсь машинным обучением и занимаюсь разработкой OCR для мобильных устройств.
Современные решения OCR насколько мне известно в большинстве случаев состоят из двух компонентов, детектирование текста и последующее распознавание.
Для обучения требуется много качественно размеченных данных, и в случае с детектированием текста это настоящая проблема, найти в открытом доступе большой качественный датасет очень сложно.
Для решения проблемы я написал собственную программу для разметки данных.
Работа в программе должна быть предельно проста и эффективна, увеличение и уменьшение изображения, перетаскивание, создание и удаление объектов, разметка происходит только с помощью мышки.
![](https://habrastorage.org/getpro/habr/upload_files/05b/1ba/e46/05b1bae461c41721938178d3d7b041b0.jpg)
На каком то этапе разметки я натренировал в keras сетку DBNet, законвертил её в TensorFlow Lite, и дело пошло в разы быстрей, в полуавтоматическом режиме, теперь приходилось больше корректировать.
В течении нескольких месяцев в свободное время я собирал и размечал изображения.
В итоге удалось собрать и разметить 32 925 изображений содержащих преимущественно латинский и русский текст, а так же немного на китайском.
![](https://habrastorage.org/getpro/habr/upload_files/0f1/3c1/a8f/0f13c1a8f62133812c9f1343a73dffb1.jpg)
Используя данный датасет я натренировал в Keras выше указанную DBNet сеть на основе ResNet50V2, результат детектирования после месячной тренировки на одной GeForce RTX 2060 Ghost 12GB выглядит следующим образом.
![](https://habrastorage.org/getpro/habr/upload_files/099/3a2/f5c/0993a2f5c3e0aabe0c901cee4f517102.jpg)
Похоже пора переходить ко второму этапу, распознавание текста.
А для тех кто не хочет собирать данные, вы можете использовать мой датасет
Успехов в машинном обучении!
Mike_666
Открытые датасеты в наше время не менее, а местами и более важны чем открытый исходный код.
Спасибо вам!