Помните историю с утечкой паспортных данных у 500 млн клиентов сети отелей Marriott? Данные могли оказаться у злоумышленников, и гостиничная группа даже обещала оплатить пострадавшим постояльцам расходы на смену паспортов. Подобных случаев происходит немало. Понятно, почему: на сегодняшний день более 50% компаний хранит больше половины своих документов в виде сканов, скриншотов, PDF. Еще три года назад таких документов в организациях было не более трети. По данным нового исследования «СёрчИнформ», 51% компаний отметили, что количество документов в формате изображений увеличилось.

В последнее время чаще всего утечкам в виде изображений подвергаются юридически значимые документы, например, договоры. На втором месте в «группе риска» — финансовые документы: бухгалтерские балансы, отчеты о прибылях и убытках и так далее. Потеря таких данных не только грозит репутационными рисками для компании, но и может привести к срыву сделок. Чтобы уберечь важные данные от посторонних и злоумышленников, в информационные системы компаний устанавливают DLP – системы предотвращения утечек информации.

Мы уже рассказывали на Хабре о том, как работает «СёрчИнформ Контур информационной безопасности» (КИБ) и модуль OCR на базе технологического продукта ABBYY FineReader Engine. Теперь вместе с сотрудниками отдела внедрения продуктов «СёрчИнформ» мы собрали четыре истории об утечках разных видов данных через корпоративные и личные почтовые ящики. И разобрались в том, как их выявить с помощью DLP-системы с модулем OCR.



В одной туристической компании сотрудник пересылал на личную почту файлы в графическом формате. С помощью технологий ABBYY удалось установить, что вложения были сканами паспортов, а это грубое нарушение работы с документами, удостоверяющими личность. К тому же это было серьезным нарушением политики безопасности данной туркомпании.

Как именно выяснилось, что графические файлы были сканами паспортов? С помощью встроенных OCR-технологий DLP-система распознала текст на скане, проанализировала его и определила, что в документе есть номер паспорта. Есть и другие характеристики, которые свойственны только паспортам, например, наличие в документе фразы типа «Паспорт выдан», «Код подразделения» и др. Более того, для распознавания ряда документов, в том числе паспорта, DLP-система использует классификатор ABBYY. Он уточняет работу OCR-технологий, и это в итоге повышает точность результата.

Специалисты ИБ-службы начали расследовать инцидент и узнали, что конфиденциальные файлы передавались из-под учетной записи дизайнера компании, с его компьютера. У всех документов были похожие названия – «Сканы», «Сканы_new», «Сканы_1»:



Запись с монитора рабочей станции дизайнера в режиме отдельных снимков экрана, которые делает модуль DLP-системы MonitorController, показала, что дизайнер работал в Photoshop со сканами паспортов. Он вырезал из них фотографии и потом вставлял вместо них новые:



Проанализировав все действия дизайнера, служба безопасности установила, что сотрудник подделывал сканы документов. Фальшивки высокого качества могли использоваться для регистрации в интернет-сервисах, когда злоумышленник не хочет «светить» свою настоящую личность. Автоматическим системам проверки было бы сложно определить подлинность информации на таких изображениях.

Таким образом, технологии помогли отследить ситуацию с утечкой данных и подделкой сканов паспортов. Благодаря этому компания исключила риск навредить своей репутации.



В компании по производству нефтехимии хранились заполненные от руки анкеты с данными сотрудников. DLP-система зафиксировала факт отправки этих анкет за пределы организации: сработала политика безопасности по пересылке персональных данных.



DLP-система подала сигнал, благодаря тому что встроенный в нее модуль OCR умеет работать с рукописным текстом и распознавать его с точностью свыше 88%. Это делается с помощью структурного классификатора. Подробнее о технологиях интеллектуального распознавания символов ABBYY – intelligent character recognition (ICR) – мы уже рассказывали на Хабре.

Наличие персональных данных в анкетах стало сигналом для проверки инцидента. Обнаружилось, что анкеты содержали еще и телефоны, а также подробную информацию о состоянии здоровья сотрудников. Если данные утекают, то это кому-нибудь нужно. Например, они могут быть интересны тем, кто рекламирует медицинские услуги и занимается социальной инженерией.

Сканы анкет легко могли оказаться в публичном доступе и это привело бы к непоправимым последствиям. Эти данные могли извлечь злоумышленники и тем самым нанести вред не только сотрудникам, но и репутации всей компании. В этом случае сотрудник, чья анкета оказалась в чужих руках, мог пожаловаться в трудовую инспекцию, Роскомнадзор или рассказать об истории в социальных сетях.

Сложность этого кейса в том, что далеко не все технологии могут распознать рукописный текст, но модуль OCR ABBYY такое умеет. Приведем пример. Ниже анкета, заполненная от руки:


И результат распознавания такой анкеты:





Модуль распознавания текста ABBYY помог раскрыть схему промышленного шпионажа. Один из наемных топ-менеджеров компании, который переехал в Россию из-за рубежа, со своей личной почты пересылал бывшим коллегам графические файлы. DLP-система обнаружила этот факт.

Благодаря модулю OCR, DLP-система извлекла текст с фотографий и выяснила, что сотрудник отправлял вовне фото технической документации к актуальным разработкам компании. Затем DLP проанализировала тексты по алгоритму «поиск похожих». Он способен определять тексты, близкие по содержанию или даже смыслу к эталону.

Сложность была в том, что конфиденциальные документы были на языке одной из стран СНГ. Но и DLP-система, и OCR-модуль могут работать с этим языком. Модуль OCR распознает документы на 210 языках (в формате печатного текста) и 126 языках (в формате рукописного) — например, языки с алфавитами на основе латиницы, кириллицы, греческих и армянских символов и многие другие. Можно работать даже с документами на смешанных языках, если, например, там используются слова на языке СНГ и названия на английском.

Причем вся техническая документация содержит много таблиц, чертежей, графиков и диаграмм. Зачастую надо понять, что в них написано, так как эта информация может играть существенную роль. Модуль OCR хорошо распознает таблицы и другие сложные структуры в документах. Благодаря этому он может извлечь всю информацию из графиков, например, чтобы понять, актуальные ли данные или уже устаревшие.

DLP-система просигнализировала об утечке технической документации сотрудникам ИБ-службы, они проанализировали инцидент и подтвердили, что сигнал не ложный и фото действительно было сделано с конфиденциальных документов. В результате началась проверка рабочей переписки этого руководителя. Специалисты ИБ обнаружили, что он сливал своим приятелям за границей ценные данные, которыми могли воспользоваться (спойлер: и воспользовались) конкуренты из другого государства. Например, в его письмах был неформальный разговор с хвастовством о том, как «его друзья освоят рынок первыми и обойдут всех», в том числе и компанию, в которой топ-менеджер работал на тот момент.

Но на этом история не заканчивается. Служба безопасности продолжила расследовать этот случай, используя возможности DLP-системы. Программа помогла обнаружить переписку с заказчиками. Выяснилось, что топ-менеджер открыл свое юрлицо и выдавал его за авторизованный сервисный центр «родной» компании. Он забирал у работодателя часть заказов на ремонт, но при этом использовал не новые, а списанные запчасти. Это привело к жалобам клиентов на основную компанию и потере репутации. Во-первых, компания утратила конкурентное преимущество, а во-вторых, недополучила прибыль, так как заказы уходили налево.



Руководитель инженерного отдела крупной компании оформил больничный. Этот факт не привлек бы внимания, если бы ранее в DLP-системе не сработала политика безопасности, которая фиксирует пересылку авиабилетов.



Дело в том, что ранее на почту сотруднику пришло письмо с графическим вложением в формате PDF. Благодаря модулю OCR текст на PDF был распознан,



и аналитический модуль DLP по фразовому поиску уточнил, что вложенный файл – авиабилет. Это было сделано по набору фраз, который характерен только для электронных билетов, например, «время вылета», «код бронирования», «рейс», «электронный билет» и т.п. В итоге оказалось, что даты перелета совпадали по времени с больничным.

А дальнейшее расследование показало, что руководитель инженерного отдела направлялся в другой город на собеседование, что подтвердила и его дальнейшая переписка с HR конкурентов, которую служба безопасности нашла и проанализировала. Таким образом DLP-система помогла руководству компании поставить ситуацию на особый контроль и подготовиться к увольнению сотрудника. Удалось пресечь потенциальную утечку важных данных конкурентам и сохранить непрерывность рабочего процесса на предприятии.


Как вы видите, кейсы разные, но во всех случаях документы поддаются распознаванию и анализу. Если у вас есть примеры необычных утечек документов в виде изображений или фотографией, делитесь ими в комментариях. Мы поможем разобрать эти ситуации.