В последнее время чаще всего утечкам в виде изображений подвергаются юридически значимые документы, например, договоры. На втором месте в «группе риска» — финансовые документы: бухгалтерские балансы, отчеты о прибылях и убытках и так далее. Потеря таких данных не только грозит репутационными рисками для компании, но и может привести к срыву сделок. Чтобы уберечь важные данные от посторонних и злоумышленников, в информационные системы компаний устанавливают DLP – системы предотвращения утечек информации.
Мы уже рассказывали на Хабре о том, как работает «СёрчИнформ Контур информационной безопасности» (КИБ) и модуль OCR на базе технологического продукта ABBYY FineReader Engine. Теперь вместе с сотрудниками отдела внедрения продуктов «СёрчИнформ» мы собрали четыре истории об утечках разных видов данных через корпоративные и личные почтовые ящики. И разобрались в том, как их выявить с помощью DLP-системы с модулем OCR.
В одной туристической компании сотрудник пересылал на личную почту файлы в графическом формате. С помощью технологий ABBYY удалось установить, что вложения были сканами паспортов, а это грубое нарушение работы с документами, удостоверяющими личность. К тому же это было серьезным нарушением политики безопасности данной туркомпании.
Как именно выяснилось, что графические файлы были сканами паспортов? С помощью встроенных OCR-технологий DLP-система распознала текст на скане, проанализировала его и определила, что в документе есть номер паспорта. Есть и другие характеристики, которые свойственны только паспортам, например, наличие в документе фразы типа «Паспорт выдан», «Код подразделения» и др. Более того, для распознавания ряда документов, в том числе паспорта, DLP-система использует классификатор ABBYY. Он уточняет работу OCR-технологий, и это в итоге повышает точность результата.
Специалисты ИБ-службы начали расследовать инцидент и узнали, что конфиденциальные файлы передавались из-под учетной записи дизайнера компании, с его компьютера. У всех документов были похожие названия – «Сканы», «Сканы_new», «Сканы_1»:
Запись с монитора рабочей станции дизайнера в режиме отдельных снимков экрана, которые делает модуль DLP-системы MonitorController, показала, что дизайнер работал в Photoshop со сканами паспортов. Он вырезал из них фотографии и потом вставлял вместо них новые:
Проанализировав все действия дизайнера, служба безопасности установила, что сотрудник подделывал сканы документов. Фальшивки высокого качества могли использоваться для регистрации в интернет-сервисах, когда злоумышленник не хочет «светить» свою настоящую личность. Автоматическим системам проверки было бы сложно определить подлинность информации на таких изображениях.
Таким образом, технологии помогли отследить ситуацию с утечкой данных и подделкой сканов паспортов. Благодаря этому компания исключила риск навредить своей репутации.
В компании по производству нефтехимии хранились заполненные от руки анкеты с данными сотрудников. DLP-система зафиксировала факт отправки этих анкет за пределы организации: сработала политика безопасности по пересылке персональных данных.
DLP-система подала сигнал, благодаря тому что встроенный в нее модуль OCR умеет работать с рукописным текстом и распознавать его с точностью свыше 88%. Это делается с помощью структурного классификатора. Подробнее о технологиях интеллектуального распознавания символов ABBYY – intelligent character recognition (ICR) – мы уже рассказывали на Хабре.
Наличие персональных данных в анкетах стало сигналом для проверки инцидента. Обнаружилось, что анкеты содержали еще и телефоны, а также подробную информацию о состоянии здоровья сотрудников. Если данные утекают, то это кому-нибудь нужно. Например, они могут быть интересны тем, кто рекламирует медицинские услуги и занимается социальной инженерией.
Сканы анкет легко могли оказаться в публичном доступе и это привело бы к непоправимым последствиям. Эти данные могли извлечь злоумышленники и тем самым нанести вред не только сотрудникам, но и репутации всей компании. В этом случае сотрудник, чья анкета оказалась в чужих руках, мог пожаловаться в трудовую инспекцию, Роскомнадзор или рассказать об истории в социальных сетях.
Сложность этого кейса в том, что далеко не все технологии могут распознать рукописный текст, но модуль OCR ABBYY такое умеет. Приведем пример. Ниже анкета, заполненная от руки:
И результат распознавания такой анкеты:
Модуль распознавания текста ABBYY помог раскрыть схему промышленного шпионажа. Один из наемных топ-менеджеров компании, который переехал в Россию из-за рубежа, со своей личной почты пересылал бывшим коллегам графические файлы. DLP-система обнаружила этот факт.
Благодаря модулю OCR, DLP-система извлекла текст с фотографий и выяснила, что сотрудник отправлял вовне фото технической документации к актуальным разработкам компании. Затем DLP проанализировала тексты по алгоритму «поиск похожих». Он способен определять тексты, близкие по содержанию или даже смыслу к эталону.
Сложность была в том, что конфиденциальные документы были на языке одной из стран СНГ. Но и DLP-система, и OCR-модуль могут работать с этим языком. Модуль OCR распознает документы на 210 языках (в формате печатного текста) и 126 языках (в формате рукописного) — например, языки с алфавитами на основе латиницы, кириллицы, греческих и армянских символов и многие другие. Можно работать даже с документами на смешанных языках, если, например, там используются слова на языке СНГ и названия на английском.
Причем вся техническая документация содержит много таблиц, чертежей, графиков и диаграмм. Зачастую надо понять, что в них написано, так как эта информация может играть существенную роль. Модуль OCR хорошо распознает таблицы и другие сложные структуры в документах. Благодаря этому он может извлечь всю информацию из графиков, например, чтобы понять, актуальные ли данные или уже устаревшие.
DLP-система просигнализировала об утечке технической документации сотрудникам ИБ-службы, они проанализировали инцидент и подтвердили, что сигнал не ложный и фото действительно было сделано с конфиденциальных документов. В результате началась проверка рабочей переписки этого руководителя. Специалисты ИБ обнаружили, что он сливал своим приятелям за границей ценные данные, которыми могли воспользоваться (спойлер: и воспользовались) конкуренты из другого государства. Например, в его письмах был неформальный разговор с хвастовством о том, как «его друзья освоят рынок первыми и обойдут всех», в том числе и компанию, в которой топ-менеджер работал на тот момент.
Но на этом история не заканчивается. Служба безопасности продолжила расследовать этот случай, используя возможности DLP-системы. Программа помогла обнаружить переписку с заказчиками. Выяснилось, что топ-менеджер открыл свое юрлицо и выдавал его за авторизованный сервисный центр «родной» компании. Он забирал у работодателя часть заказов на ремонт, но при этом использовал не новые, а списанные запчасти. Это привело к жалобам клиентов на основную компанию и потере репутации. Во-первых, компания утратила конкурентное преимущество, а во-вторых, недополучила прибыль, так как заказы уходили налево.
Руководитель инженерного отдела крупной компании оформил больничный. Этот факт не привлек бы внимания, если бы ранее в DLP-системе не сработала политика безопасности, которая фиксирует пересылку авиабилетов.
Дело в том, что ранее на почту сотруднику пришло письмо с графическим вложением в формате PDF. Благодаря модулю OCR текст на PDF был распознан,
и аналитический модуль DLP по фразовому поиску уточнил, что вложенный файл – авиабилет. Это было сделано по набору фраз, который характерен только для электронных билетов, например, «время вылета», «код бронирования», «рейс», «электронный билет» и т.п. В итоге оказалось, что даты перелета совпадали по времени с больничным.
А дальнейшее расследование показало, что руководитель инженерного отдела направлялся в другой город на собеседование, что подтвердила и его дальнейшая переписка с HR конкурентов, которую служба безопасности нашла и проанализировала. Таким образом DLP-система помогла руководству компании поставить ситуацию на особый контроль и подготовиться к увольнению сотрудника. Удалось пресечь потенциальную утечку важных данных конкурентам и сохранить непрерывность рабочего процесса на предприятии.
Как вы видите, кейсы разные, но во всех случаях документы поддаются распознаванию и анализу. Если у вас есть примеры необычных утечек документов в виде изображений или фотографией, делитесь ими в комментариях. Мы поможем разобрать эти ситуации.
staticmain
Почти во всех кейсах вижу «со своей личной почты».
Вы сканируете личную почту всех сотрудников?
Т.е. еще и личную переписку тоже читают?
balamutang
Читают рабочую, но на нее может прийти письмо с личной почты, верно?
staticmain
Если так, то нужно быть последним идиотом, чтобы пересылать с рабочей почты на личную конфиденциальные документы.
rzerda
Этого совершенно не требуется. Очень мало людей действительно знают, что и как может быть перехвачено, а что — нет. Ещё меньше — что из этого действительно перехватывается работодателем. И параноиков, которые строго разделяют работу и дом, не так много (ну то есть таких, которые имеют полный комплект отдельного рабочего оборудования и соответствующим образом его изолируют от домашнего комплекта или наоборот).
balamutang
Врядли DLP будут внедрять для удаленных сотрудников, а при работе из офиса разделять домашний и рабочий комп достаточно легко — домашний не дадут пронести в офис, а офисный — вынести домой :)
Muzzy0
balamutang
Если вам дают выносить ноутбук, то скорее всего у вас нет доступа к защищаемой информации. Ну или ваша контора далека от того чтоб защищать чувствительную информацию либо ее нет вообще, такое тоже бывает, без контекста сложно судить.
У нас вот тоже маркетолог с служебным ноутбуком домой ходит, но ее презентации на харде ноута вовсе не секретные, наоборот публике массово демонстрируются.
Muzzy0
Защищает, есть.
Не надо делать поспешных выводов.
rzerda
С таким же успехом можно внедрить DLP только для компьютеров, IP-адрес которых не делится на семь. Да и с компьютерами не так просто — всё больше людей, у которых нет домашнего компьютера вообще, только смартфоны, а хочется ведь иногда посмотреть сериал на рабочем ноутбуке с экраном побольше, или распечатать те же билеты (скажем, в театр) на принтере на работе. На частных смартфонах ради удобства появляются рабочие мессенджеры и почтовые аккаунты.
Есть банки и прочие финансы, в которых физически разделены сети «рабочие» и «с доступом в интернет», и из дома там работать невозможно. Но их, опять же, не так много, и остальной «обычный» бизнес даже штатного ИТ-безопасника может не иметь.
balamutang
Ну так их и ловят. Сфоткать на смартфон может сообразить не каждый
Markscheider
balamutang
Ну звучит круто конечно, а по факту камер не напасешься, чтоб на каждого сотрудника направить, не говоря о том чтоб купить и внедрить такую систему с распознаванием фотографов.
В общем верится слабо, проще смартфоны изымать на входе.
Markscheider
Если не ошибаюсь, в том решении использовались "вебки" рабочих станций. И, вроде бы, речь шла о банке, где денег на инфобезопасность жалеть не принято.
balamutang
Там где умеют в инфобезопасность — там и фотографировать с экрана нечего, в инфосистемах звездочками частично закрыты телефоны, фамилии и прочая чувствительная инфа и стоит алярм — сколько раз в день можно открыть чувствительную информацию — зачем человеку листать ПД 200 человек если он больше 50 не сможет принять?
А там где денег не жалеют — там может и ставят вебкамеры на каждый комп, не это точно не про банки, там как раз умеют и инфобезопасность и деньги считать.
Сдается мне это какая-то маркетинговая лапша, узнает ли эта система человека в свитере с гоупро на фоне кресла? А если смартфон будет в чехле-медвежонке? совсем не факт.
Зачем ловить постфактум если можно просто не давать доступ, предоставляя для работы только необходимый объем информации