Объемы, разнообразие, а главное, ценность информации продолжают расти. Особенно выделяются неструктурированные данные, которые не имеют четкой организации, структуры или формата. Этим они отличаются от структурированных данных, которые обычно хранятся в базах данных и подчиняются строгим схемам и форматам, таким как таблицы, поля и столбцы.

Неструктурированные данные могут представлять собой текст, изображения, аудио- и видеозаписи, электронные письма и множество других форм. Это огромный массив ценной информации, но управление, анализ и обеспечение его безопасности вызывают сложности.

В этой статье я рассмотрю значимость неструктурированных данных, опасности, которые они могут нести для компании, а также расскажем о том, что нужно делать, чтобы обеспечить их безопасность.

Неструктурированные данные могут быть богатым источником ценной информации, но некорректное обращение с ними может повлечь серьезные угрозы для безопасности информации и в конечном счете для всей организации.

Типы и форматы неструктурированных данных

По оценкам компании Gartner, неструктурированные данные составляют от 80 до 90% всех корпоративных данных. Кроме того, объем неструктурированных данных увеличивается в три раза быстрее, чем структурированных.

Изначально неструктурированные данные можно разделить на две большие категории: создаваемые человеком и создаваемые машинами.

Данные, создаваемые человеком: текстовые документы, электронные письма, сообщения в социальных сетях, изображения, видеоролики и многое другое.

  • Текстовые документы содержат письменный контент и могут включать в себя такие элементы, как текст, таблицы и изображения. Представлены файлами формата TXT, DOC/DOCX, PDF, HTML.

  • Электронные письма содержат неструктурированные текстовые данные и различные файловые вложения: изображения, документы или таблицы. Представлены файлами хранения сообщений Microsoft Outlook и Exchange MSG, EML и PST.

  • Изображения хранят визуальную информацию. Для их анализа и извлечения данных требуются специализированные методики обработки. Это могут быть файлы формата JPEG, PNG, TIFF, GIF.

  • Аудиофайлы содержат звуковую информацию, для извлечения которой требуются методики обработки аудио. Представлены файлами с расширением MP3, WAV, OGG, FLAC и т. д.

  • Видеофайлы обычно содержат визуальную и звуковую информацию, и для их анализа требуется совместное использование методик обработки изображений и аудио. Наиболее популярные форматы: MP4, MKV, MOV, AVI.

  • Посты в соцсетях, а также сообщения из мессенджеров содержат тексты, изображения и другой мультимедийный контент, не имеющий заранее заданной структуры.

Данные, создаваемые машинами: этот тип данных формируется автоматически устройствами, приложениями и сенсорами. К ним относятся журналы событий, данные GPS, результаты работы устройств из интернета вещей (IoT) и другая телеметрическая информация.

  • Файлы журналов, генерируемые различными системами или приложениями, содержат информацию о показателях системы, безопасности и поведении пользователей.

  • Показания датчиков, встроенных в носимые, промышленные и другие IoT-устройства, например, данные об изменении температуры или координаты GPS.

Сложность управления неструктурированными данными и их обработки

Сложность обработки и управления неструктурированными данными обусловлена несколькими ключевыми факторами. Первым является разнообразие форматов и типов данных, которые были описаны выше. Каждый из этих форматов требует отдельного подхода к обработке и анализу.

Второй аспект — отсутствие стандартизации и четкой организации и структуры в данных. Это значительно затрудняет автоматическую обработку.

Еще одна сложность связана с большими объемами неструктурированных данных, а также высокой скоростью их поступления и накопления. Обработка и анализ таких объемов информации требуют значительных вычислительных ресурсов и специализированных инструментов.

Кроме того, неструктурированные данные подвержены высокой изменчивости, поскольку зачастую они генерируются в реальном времени. Это создает необходимость в постоянной адаптации систем и процессов обработки данных.

И, наконец, неструктурированные данные могут содержать конфиденциальную информацию, что увеличивает риски безопасности и требует дополнительных мер по защите от несанкционированного доступа.

В чем заключается опасность неструктурированных данных?

Перечисленные сложности и разнообразие неструктурированных данных приводят к появлению рисков. Так, например, сетевые хранилища в одной из крупных отечественных компаний, которая производит реагенты для лабораторной диагностики, со временем превратились в большую «файловую помойку». Такое случается довольно часто и не вызывает особого беспокойства, но компания провела аудит. В результате, помимо множества файлов-дубликатов в хранилищах, были найдены гигабайты личных неструктурированных данных сотрудников, которыми никто не пользовался. К чему это могло привести?

Рост затрат

Из-за хранения большого количества дубликатов и просто неактуальных файлов потребность в свободном месте в хранилище постоянно росла, что требовало закупки нового оборудования.

Для обработки и хранения больших объемов неструктурированных данных необходимы мощные ресурсы, что увеличивает операционные издержки и создает нагрузку на IT-инфраструктуру компании.

Негативное влияние на бизнес-процессы

Неструктурированные данные оказывают негативное влияние на бизнес-процессы компании. Они могут приводить к разнообразным проблемам, например, к задержкам в принятии решений и увеличению затрат на поиск нужных данных.

Неструктурированные данные могут снизить эффективность бизнес-процессов, так как они могут быть неполными, неточными или устаревшими. Это может привести к ошибкам в принятии решений и потере конкурентных преимуществ.

Повышение вероятности утечек конфиденциальной информации

Неструктурированные данные могут содержать личные сведения о клиентах, финансовые отчеты, бизнес-планы, интеллектуальную собственность и другую чувствительную информацию. Причем полный перечень заранее не известен. Утечка такой информации может привести репутационным и экономическим потерям, штрафам со стороны регуляторов.

Угроза безопасности информации

Неструктурированные данные также могут представлять угрозу для информационной безопасности всей организации. Злоумышленники могут использовать неструктурированные данные в качестве точек проникновения в систему компании. Они могут внедрить вредоносное ПО в файлы или письма, чтобы получить доступ к сети.

Также электронные письма могут содержать информацию, которую злоумышленники используют для социальной инженерии (фишинга), чтобы обмануть сотрудников и получить доступ к конфиденциальной информации.

Важно помнить, что сотрудники компании могут неосторожно обращаться с неструктурированными данными, что повышает риск человеческих ошибок. Так даже без злого умысла сотрудник может нанести ущерб компании, став причиной взлома и утечки данных.

Как повысить киберустойчивость компании в отношении неструктурированных данных?

Неструктурированные данные представляют собой ценный ресурс, но при этом их наличие становится серьезным вызовом для ИБ-отдела компании. Эти данные разнообразны по форматам и типам, что делает их анализ и управление сложной задачей. Более того, неструктурированные данные могут содержать конфиденциальную информацию, что увеличивает риски для безопасности организации. Правильное управление неструктурированными данными не только повышает киберустойчивость, но и позволяет более эффективно работать с имеющимися объемами информации, снижая издержки и улучшая бизнес-процессы.

Если компания стремится к созданию устойчивой и безопасной информационной среды, необходимо проверить соблюдаются ли основные правила и принципы работы с неструктурированными данными:

  • регулярно проводится аудит всех информационных ресурсов компании;

  • проводится классификация данных для выявления чувствительной и критически важной информации;

  • осуществляется мониторинг прав доступа пользователей к данным и действий с этими данными;

  • используется ПО для автоматизации вышеназванных процессов.

Чтобы избежать ошибок в процессах, обеспечивающих эффективную работу с неструктурированными данными, необходимо использовать специализированные автоматизированные решения – системы класса DCAP (Data-Centric Audit and Protection).

В центре концепции DCAP – данные, и это главная «фишка» решений этого класса. Решения этого класса появились в ответ на ситуации, когда из-за бурного роста объемов неструктурированных данных среди «файлового многообразия» в свободном доступе оказывается конфиденциальная информация: файлы с персональными данными, папки с коммерческой тайной и прочие важные для компании документы или их дубликаты.

DCAP-cистемы собирают информацию из служб каталогов (например, Active Directory), сканируют жесткие диски устройств, подключенных к сети, обращаются к облачным хранилищам и другим источникам.

При помощи полученной информации о пользователях DCAP-системы формируют наглядную матрицу доступа к информационным ресурсам компании. Таким образом, они предоставляют возможность постоянно отслеживать кто, когда и каким образом обращается к неструктурированным данным. Благодаря этой функциональности DCAP-системы помогают выявлять подозрительную активность и обеспечивают защиту неструктурированных корпоративных данных.

Конечно, это не панацея. DCAP-системы помогают навести порядок внутри информационного периметра, но для полноценной защиты данных необходим комплексный подход и использование других систем для защиты данных, например DLP.

Накопление неструктурированных данных во многом продолжает оставаться нерешенной, дискуссионной проблемой. Некоторые острые вопросы и актуальные подходы к защите неструктурированных данных будут обсуждаться на конференции «Защита данных: сохранить всё», которая состоится 23 октября в Москве.

Ее участники подсветят нюансы зашиты данных на всем жизненном цикле, расскажут об изменениях в требованиях регуляторов и поделятся успешными кейсами. Лично я приму участие в секции о расследовании инцидентов, связанных с утечками. Вместе с экспертами отрасли Лукой Сафоновым (Weblock, Киберполигон), Павлом Покровским (Skillbox), Антоном Грунтовым (Eqvanta), Семеном Рогачевым (Бастион) обсудим самое свежее и неоднозначное.

Для представителей промышленности, транспорта, ритейла, финансовых и госорганизаций участие бесплатное, а для остальных есть промокод на 15%-скидку — «datasec-15».

Комментарии (4)


  1. igor_suhorukov
    05.10.2023 14:10

    Да что ж такое... Это слабоструктурированные данные!!! У них есть некоторая структура, метаданные. Если только это не стихи Хармса в электронных письмах.


    1. vagon333
      05.10.2023 14:10
      -1

      ... Это слабоструктурированные данные!!!

      Спорное утверждение:
      1. кстати, похоже путаются понятия "данные" и "документы".
      2. метаданные, это не слабоструктурированные данные. В моем понимании - это описание данных, к данным отношение имеют слабое.

      Если про документы, то слабоструктурированные, это когда у вас есть схема, но она может не соблюдаться и данные расположены где угодно.
      Например, контракт: "стороны" должны быть, но где в документе - четко не определено.

      Кстати, тема статьи довольно актуальна и интересна определенным специалистам.
      В банковской индустрии (больная тема) сталкиваемся часто и не только во внутренних документах, но и во внешних публикациях, когда нарушаются правила и законы, но отловить сложно из-за "свободного" текста.


    1. Shaman_RSHU
      05.10.2023 14:10

      Для того, чтобы продать DAG (почему-то в тексте данная технология не упомянута) / DCAP изделие назовут как угодно, даже неструктурированными данными. И даже убедят в этом покупателя :)


  1. kaichou
    05.10.2023 14:10

    А вот идеологи datalake учат, что не надо структурировать данные. Это наоборот хорошо, что они неструктурированные