Бангладеш – государство в юго-восточной Азии, занимает восьмое место в мире по численности населения (Россия, по данным Википедии, сейчас на 9 месте), граничит с Индией и Бирмой. Подавляющее большинство бангладешцев – сельские жители (135 миллионов из 160), и условия их жизни, мягко говоря, далеки от идеальных. Не во всех домохозяйствах есть доступ к питьевой воде, санитарные условия оставляют желать лучшего.

Сегодняшний наш материал о том, как при помощи нашего ABBYY FlexiCapture министерство здравоохранения Бангладеш обработало результаты медицинской переписи — такая перепись нужна, чтобы принимать правильные стратегические решения в области здравоохранения.


160-миллионное население Бангладеш живёт на площади всего 147 тысяч квадратных километров, то есть плотность населения очень высока. Сравните, на какой площади живём мы, а на какой – бангладешцы (а численность населения плюс-минус одинаковая).



Бангладешцы в последнее время добились значительных успехов в области здравоохранения. Всемирная организация здравоохранения сообщает о выдающемся прогрессе этой страны во многих критически важных областях – в стране уменьшилась смертность новорожденных детей и детей младше пяти лет, увеличилась продолжительность жизни, стали более доступными прививки и более успешной борьба с туберкулёзом.



Генеральное управление по услугам здравоохранения (ГУУЗ) Министерства здравоохранения и семейного благополучия Бангладеш с 1961г. проводит регулярный опрос населения, чтобы собрать данные о состоянии здоровья сельских жителей страны – наиболее распространенных хронических заболеваниях, смертности и её причинах, а также о бытовых и экономических условиях жизни. Эти данные необходимы для принятия правильных стратегических решений в области здравоохранения – на их основе разрабатывают те или иные программы медицинской поддержки, но собирать их дорого и сложно.

Саму перепись Министерство здравоохранения Башгладеш проводит самостоятельно. В учреждении есть целый штат служащих (они называются community health workers), которые регулярно посещают сельские домохозяйства, чтобы понять, как там дела и не нужна ли помощь – всего на службе их около 23 тысяч. Именно они занимались сбором данных и заполнением анкет.

Анкеты всегда обрабатывались вручную. На перенос данных в электронную систему уходило целых два года – шутка ли, обработать 30 миллионов страниц. Учитывая важность собираемой информации, это было слишком долго. В 2011 году Бюро статистики Бангладеш изучило опыт проведения подобных опросов и переписей всему миру и решило автоматизировать обработку анкет при помощи технологии интеллектуального распознавания символов – intelligent character recognition (ICR).

Очень коротко – чем отличается ICR от OCR (optical character recognition).
OCR – распознавание печатных символов. ICR – в данном случае: распознавание символов, написанных от руки печатными буквами (иногда пишут «рукопечатных» символов).

Итак, правительством Бангладеш был объявлен тендер на обработку анкет медицинской переписи, который выиграл наш партнёр – компания Devnet – с нашим решением ABBYY FlexiCapture. Но задолго до того, как был выбран победитель, организаторы тендера при помощи компаний, которые участвовали в тендере, разработали анкету, которую могла бы прочитать машина.



Анкета двуязычная. Большая часть подписей к полям и чек-боксам сделана на бенгальском – официальном языке Республики Бангладеш (местные называют его «бангла»). В Бангладеш, конечно, преподают английский в школах, но не все его знают, поэтому анкету не стали делать целиком на английском – пожалели переписчиков. Подписи к основным элементам формы продублированы на английском – чтобы наша техподдержка могла сориентироваться и понять, о чём речь, если при обработке данных возникнут трудности.

Бенгальский – язык специфический и довольно сложный – мы пока не распознаём, поэтому все поля, которые предстояло распознавать (пустые клеточки), переписчики должны были заполнять на английском языке.

Наверняка читателям интересно, какую информацию, собственно, предстояло собирать. Нам тоже стало интересно, и мы попросили партнёра перевести анкету для этой статьи.



Первый вопрос – коды регионов, районов и домохозяйств – это основной идентификатор анкеты. Если все жители дома не помещались на одном листе, именно этот код помогает при обработке анкеты «собрать» все листы вместе, чтобы никто не потерялся.

Во втором вопросе респондентов просили указать источник питьевой воды – и здесь выяснилось много тонкостей. Оказалось, что грунтовые воды в Бангладеш (а также в некоторых соседних регионах) часто заражены мышьяком – и это большая проблема. Существует целая программа, в рамках которой воду в скважинах исследуют на содержание мышьяка, а скважины потом маркируют. Зелёным – безопасные (Tube well green), красным – опасные (Tube well red), некоторые скважины исследовать не успели (либо жители, которым они принадлежат, отказались от исследований) – это третий вариант ответа. Подробнее о проекте с маркировкой можно прочитать в книге Arsenic Exposure and Health Effects, которая частично доступна в сети.

В третьем вопросе спрашивали тип уборной, в четвертом – экономическую ситуацию в семье.

Начиная с шестого вопроса, переписчики должны были перечислить всех жителей домохозяйства, указать, нет ли у них хронических заболеваний. Если в доме кто-то умер с момента проведения прошлой переписи – его также нужно было вписать в анкету вместе с датой и причиной смерти.

Когда анкета была разработана, наши партнёры сделали инструкцию для переписчиков, в которой было краткое объяснение – что такое «машиночитаемая форма» – и правила, по которым нужно такую форму заполнять. Например – писать чёрной или темно-синей ручкой, использовать заглавные английские буквы, не выходить за пределы клеточки, оставлять пустую клетку после каждого слова – а также примеры правильного и неправильного заполнения. Вот такие.




Кроме инструкции, переписчики проходили специальные тренинги, и весь процесс их работы (начиная с тренингов и заканчивая предоставлением заполненных анкет) занял около 10 месяцев. Несмотря на тщательный инструктаж, ошибок при заполнении было довольно много. В среднем около 10% текста выходило за пределы клеток, часто переписчики в ответ на вопрос, где возможен только один ответ, отмечали больше одного чек-бокса, часто встречался почерк, который трудно было разобрать. Вдобавок тендер на выбор партнёра для обработки анкет затянулся (мы знаем, это часто бывает с тендерами), а собранные анкеты хранились в плохих условиях, и часть из них были подпорчены водой и плохим обращением. Всё это усложняло обработку анкет.

Схема обработки анкет выглядит так:



Сначала анкеты сканируют. Для этого использовались 10 сканеров Kodak i1420 и Kodak i3400. Пропускная способность модели i3400 – 50 страниц в минуту, 15 тысяч страниц в день, модели i1420 – 45 страниц в минуту, 13 тысяч страниц в день.





Дотошный читатель наверняка обратил внимание, что фон анкеты, рамки и некоторая пояснительная информация сделаны красным цветом, и удивился – как же так, бедная страна, столько краски. Конечно, красный цвет здесь неспроста. Можно настроить сканер таким образом, что цвет на этапе сканирования будет удаляться (drop-out colors). После сканирования с формы исчезнут все элементы, за исключением реперов (чёрных квадратов по углам) и заполненных полей.



Это нужно для улучшения качества распознавания. Например, если переписчик при заполнении анкеты не только «вылез» за пределы клетки, но ещё и часть буквы или цифры попала на красный текст (например, на название строки), программе будет сложно распознать символ. Если красный цвет убрать, эта проблема будет решена. Раньше такую операцию можно было проделать только при помощи сканера, в последних выпусках FlexiCapture при необходимости можно убирать цветной фон на программном уровне.

Когда сканирование завершено, FlexiCapture обрабатывает отсканированные изображения (убирает мусор, исправляет искажения) и распознаёт данные в форме.

Анкеты в системе объединяются в «пакеты». Пакет – это несколько переписных листов, относящихся к одному адресу. На один лист помещалось 12 человек, но в Бангладеш живут кучно, и во многих домах было больше 12 жителей – тогда переписчик брал новый лист. Итак, представьте ситуацию, когда работник центра сканирования несет пачку документов к сканеру и вдруг роняет её. Обратно с пола документы собираются не в том порядке, что был вначале и, ясное дело, сканируются, как попало. Заказчик переписи считал, что в подобном случае верификатор будет не настолько компетентен, чтобы правильно вручную собрать в системе все листы, относящиеся к одному дому. Поэтому система собирала пакет автоматически, используя закодированный адрес (который, как мы помним, был главным идентификатором переписного листа) и имя переписчика.

Поскольку программа может ошибиться, все данные нужно верифицировать – человек должен глазами сравнить распознанные символы с изображением на скане. Было организовано два больших центра верификации, в которых в две смены работали 120 человек. Выглядело это так:



Данные из чек-боксов не верифицировались – информация проверялась с помощью правил – например, в каких-то вопросах мог быть только один ответ и т.п.

Для верификации данных из остальных полей в помощь людям были разработаны скрипты, которые определяли ошибки в некоторых полях. Например, номер телефона мог содержать только 11 символов; были определенные правила при использовании кодов родственных связей, номеров домов, кодов региона и т.п. Если были ошибки, программа ставила «флажок», чтобы оператор обратил внимание на это место. Дальше оператор должен был решить, можно ли исправить эту ошибку путем сравнения распознанных данных с отсканированным изображением листа. Если, например, у переписчика плохо писала ручка, и система не распознала какой-то символ, ошибку исправляли. Если исправить не получалось, ошибке присваивали статус критической.

При верификации оператор может просматривать весь лист целиком, а может – только отдельное поле (а другой оператор – другое поле). Как правило, второй способ эффективнее, его и использовали в проекте. После верификации данные выгружались в базу – MS SQL enterprise 2012. В систему был интегрирован англо-бенгальский словарь имён – с его помощью все имена экспортировались сразу на бенгальском языке.

Вот, собственно, и вся история про перепись в Бангладеш. В заключение, как водится, немного статистики: в среднем в день операторы обрабатывали чуть больше 100 тысяч страниц, и 30 миллионов страниц было обработано примерно за 9 месяцев.

Светлана Лузгина
Служба корпоративных коммуникаций при поддержке ABBYY 3A (три А = Азия, Африка, Латинская Америка).
Поделиться с друзьями
-->

Комментарии (21)


  1. Vanger13
    11.10.2016 02:27

    Извините, но как так получилось — публиковать статью почти в полночь в корпоративном блоге? :) Заставили?)


    1. ABBYYTeam
      11.10.2016 07:22

      Свёрстано всё днём, не переживайте :)


  1. babylon
    11.10.2016 02:56

    Такие статьи надо в соседнем Geektimes пушить. Азу.


  1. Barafu
    11.10.2016 12:34
    -1

    Какое чудило проектировало эту анкету? Половина на английском, половина на местном. У второго блока вопросы переведены на английский, ответы на местном. Зачем? Чтобы заполнять эту анкету, надо понимать её на двух языках.
    Пункт "религия" вообще классный. На самом первом скане буквы в кружочках вообще не видны. Я так понимаю, они бледно-бледно серые? В тёмных хижинах бедняков их вообще не разглядеть, сотрудник заполняет по памяти. Кто-то неправильно запомнил — и получается радикальная ошибка в данных по участку.
    Банальные вещи написаны на английском, в то время как сложные — на местном. Там английский знают лучше местного что-ли?


    1. luciana
      11.10.2016 13:09
      +2

      Форма была сделана так, чтобы её понимали участники переписи, сами переписчики, и софт который распознаёт только английский текст.

      Для нашего софта при обработке фиксированной формы достаточно «ключевых» слов на английском, чтобы правильно определить секцию с ответами, а варианты подписанные под чекмарками, нужны только во время заполнения анкеты.

      В Бангладеш, как в бывшей британской колонии, многие официальные документы дублируются на английском. Также английский используется в гос. учреждениях: https://en.wikipedia.org/wiki/English_in_Bangladesh и преподаётся в школах. Так что простые фразы понятны всем местным. Более сложные конструкции написаны на бангла – чтобы точно никто не запутался.

      Буквы-подсказки в чекмарках бледно-розового цвета и исчезают после сканирования с color drop-out. Кроме пункта религии таким же образом сделаны поля дат (DD/MM/YY). Шифровка для религии простая (M- muslim, H – hindu, B- buddist, C- Christian, O- other) https://en.wikipedia.org/wiki/Religion_in_Bangladesh,
      а переписчики обязательно проходят инструктаж/обучение по заполнению анкет.


      1. Barafu
        11.10.2016 13:35

        Я о том и написал, может быть непонятно. Я не увидел "дублирования". Часть анкеты на одном языке, а другая часть — на другом. Это не дублирование, это каша. Для заполнения надо не "один из двух" языков, а оба. Обучение переписчиков — это, в принципе, необходимый костыль. Без него не обойтись, потому что слишком много вариантов. Но не стоит на него рассчитывать. Люди регулярно ошибаются даже в инструкциях типа "увидел лампочку — нажал кнопку", а уж какие там поля куда… Вот почему буквы, обозначающие религию, было не написать чёрными рядом с кружочком? Там дофига места. То же самое про тип сортира — почему его было не перевести на английский? Там тоже есть место под мелкий шрифт.
        Софту вообще должно быть по диоду, на каком языке написаны статичные надписи в анкете. Софт реагирует по геометрическому расположению полей.


        1. Barafu
          11.10.2016 13:50

          Ну или вот ещё. В статье пример заполнения имени "Мухаммед Абдур Рахман Иван". Мне сразу очевидно то, что когда переписчик будет это заполнять, ему надо заранее писать имя на отдельную бумажку и считать буквы. Иначе он поймёт, что "Иван" не влезает только тогда, когда начнёт писать "Рахман". А тогда уже поздно, и сократит переписчик именно "Рахман Иван", что, как я понял, типа фамилии и не должно сокращаться.
          Если же вместо этого разбить поле ФИО на 2 — "Имя" и "что там у них", то количество букв, которое надо продумать, уменьшится. И переписчик сразу поймёт, надо ли сокращать имя или влезет всё.
          Если думаете, что это просто, то вот прмер из жизни. У меня в паспорте написано: "выдан отд. в г. Бобруйске ОУФМС России по г. Козельску Мусохранской обл." Ни в одну анкету это не влезает, и я до сих пор не знаю, как это правильно сократить. Что в этой строке важное, а что можно догадаться.


        1. babylon
          11.10.2016 13:51

          Софту должен быть «по диоду» даже заляпанный слитный рукописный текст. Мы в 2016 году. Израильтяне программно разворачивают свернутый древний объемный свиток, не касаясь его руками. А тут плоская таблица с печатными буквами.


          1. Alexufo
            11.10.2016 16:39
            +2

            Никакого отношения чтение свитков из Геркуланума ускорителем частиц к распознаванию не имеет.


            1. babylon
              11.10.2016 19:49

              Не имеет если качество сканирования не влияет на качество распознавания. В статье шла речь и о реперах. Я вот и думаю сколько реперов при сканировании томографом.


              1. Alexufo
                11.10.2016 20:20
                +1

                Так реперы создаются для машиночитаемой зоны изначально. В случае со свитками распознавания нет в принципе не говоря уже о размеченной заранее зоне..


                1. babylon
                  11.10.2016 22:45
                  -1

                  Alexufo не читайте статьи 5 летней давности.


  1. OLEG4120
    11.10.2016 15:59
    +4

    Мы автоматизировали с помощью ABBYY FlexiCapture 10 (с помощью него проходила перепись) поток внешних направление на лабораторные анализы (областное мед учреждение). С помощью автоматизации удалось увеличить поток в 2-3 раза. Причем, сделали это без особой поддержки ABBYY ибо очень дорого.
    Вещь хорошая, но мед регистраторы в начале приняли идею в штыки, но теперь довольны.


  1. mngr
    11.10.2016 15:59
    -1

    Неужели не дешевле и надежнее было сделать опрос на google forms, чтобы анкетеры заполняли их прямо на смартфоне? В Бангладеш 99% 2g-покрытие и 10 млн смартфонов, не вижу никаких проблем с этим. Не понимаю, зачем в 2016-м году делать масштабные опросы на бумаге, а потом распознавать их.


    1. luciana
      11.10.2016 16:03
      +1

      Перепись проходила в 2011 году — в статье это упомянуто.
      Ещё в некоторых странах по законодательству нужно хранить материалы переписей и любые другие документы с государственных проектов в бумажном виде (у любого электронного документа должен быть бумажный оригинал). Мы не знаем точно, но, возможно, в Бангладеш так же.


      1. mngr
        11.10.2016 16:14

        Тогда непонятно, зачем вы тут рассказываете про результаты пятилетней давности.


        1. luciana
          11.10.2016 16:30

          Судя по рейтингу поста, статья многим интересна. Если вам она показалась бесполезной — что ж, видимо, вы не наш читатель просто.


  1. Wayfarer15
    11.10.2016 19:29
    +2

    На последней фотографии увидел (и то не уверен) только одну девушку. В Бангладеш какие-то особенности для работы девушек в ИТ, в частности в монотонной обработке анкет? В соседней Индии девушки в ИТ секторе представлены очень даже широко на всех позициях.


    1. luciana
      12.10.2016 11:35
      +2

      Вот что мне рассказали в команде, которая делала проект:

      «Гендерный вопрос что в Индии, что в Бангладеш, стоит очень остро (начиная с доступности образования, заканчивая личной безопасностью) — общества более патриархальные и традиционные, чем у нас. Религия тоже накладывает свои особенности.

      >>В соседней Индии девушки в ИТ секторе представлены очень даже широко на всех позициях.

      Далеко не на всех позициях и не во всех компаниях. В основном, в международных «гигантах» типа TCS, Wipro и филиалах иностранных компаний — там есть квоты на % девушек в коллективе. По своему опыту могу сказать, что в Индии на бизнес-встречах крайне редко присутствовали девушки, обычно они заняты в секторе BPO эникейщицами, секретарями или в административном персонале. И это в международных компаниях, а в SMB сегменте в ИТ практически нет девушек».

      В общем, думаем, что на фото нет девушек именно из-за этих особенностей.


      1. ikashnitsky
        17.10.2016 14:36

        Если не секрет, то интересно, сколько платили верификаторам?


        1. luciana
          17.10.2016 18:44

          Боюсь, эту информацию партнёр нам не раскроет, сорри…