
Shadow Data — данные, которые существуют вне поля зрения ИБ и compliance-команд.
Хорошая новость в том, что такие теневые данные легко найти даже в очень крупной облачной инфраструктуре. В этой статье разберем, как сделать все без ручного перебора и буквально за час найти и геолоцировать данные.
Подробнее о Shadow Data
В On-premise-инфраструктуре теневые данные обычно ограничены корпоративной сетью. Но в облаке все сложнее, и они прячутся в местах, которые не сразу приходят на ум:
самопроизвольные бэкапы: экспорт базы из CRM или SaaS-сервиса в сторонний сервис на случай сбоя — и файл остается там навсегда,
тестовые и dev-среды: для реалистичности разработчики часто используют продакшен-данные, но после завершения задачи иногда забывают удалить копию,
забытые бакеты и временные файлы: результаты миграции, архивы проектов, shared-папки с доступом по ссылке — все это продолжает жить в облаке, даже когда в нем давно нет нужды.
Находим Shadow Data за 1 час
Здесь достаточно действовать по инструкции.
Шаг 1. Сбор облачного периметра
Первым делом нужно понять, какие облачные среды вообще использует компания. Это могут быть международные платформы (AWS, Azure, Google Cloud), российские облака (VK Cloud, СберОблако, Yandex Cloud), а также гибридные или мультиоблачные конфигурации.
Нужно собрать все аккаунты, проекты, бакеты, базы данных и shared-директории. Даже те, что созданы временно или для теста. На этом этапе важно не упустить ни один уголок инфраструктуры.
Шаг 2. Автоматическое сканирование на наличие ПДн
Для поиска персональных данных используются специализированные инструменты — CSPM (Cloud Security Posture Management) и DSPM (Data Security Posture Management), а также кастомные скрипты с элементами машинного обучения или правилами на основе шаблонов.
Вот какие решения можно использовать для поиска:
международные — Wiz, Palo Alto Prisma Cloud,
российские — Kaspersky Endpoint Security Cloud («Лаборатория Касперского»), Solar Dozor («Ростелеком»), КИБ СерчИнформ («СерчИнформ»),
open-source инструменты (для небольших инфраструктур) — TruffleHog (поиск секретов и ПДн в репозиториях) или OpenDLP (сканирование данных в облачных сервисах).
Сканирование ищет данные по нескольким признакам:
регулярные выражения,
структура файлов: таблицы с колонками по атрибутам,
метаданные и контекст, например, файл с именем clients_backup_2024.xlsx в папке dev.
В результате вы получаете карту всех объектов, содержащих персональные данные, с указанием типа и уровня риска.
Шаг 3. Определение геолокации данных
После вычисления ПНд нужно понять, где они хранятся физически.
Для AWS, Azure, GCP — регион проверяется через API или консоль (например, us-east-1 или eu-central-1).
Для российских облаков все проще: данные по умолчанию размещаются на территории РФ, и это легко подтвердить — достаточно скриншота с указанием зоны доступности или ответа на запрос через CLI/API.

Скриншот из панели VK Cloud
Главное — убедиться, что ни один объект с ПДн не находится за пределами России.
Типичные ошибки, лучшие практики и реальные кейсы
После завершения «охоты» важно не повторять одни и те же ошибки:
Продовые данные в DEV/TEST. Разработчики клонируют базу клиентов для тестов и забывают удалить.
Временные бэкапы в зарубежных регионах. Если вы на всякий случай выгрузили архив в AWS S3 с регионом по умолчанию (us-east-1) и забыли — этого достаточно для штрафа.
Общий доступ по ссылке. CSV с клиентами в облаке с правами доступен по ссылке — это нарушение и конфиденциальности, и нередко локализации.
Отсутствие единой карты данных. ПДн хранятся в десятках мест, но нет общего реестра. ИБ не видит тестовые бакеты, разработчики — архивы аналитиков, а compliance — вообще ничего. Shadow Data появляется просто потому, что их никто не отслеживает.
Как избежать ошибок
Включите непрерывное сканирование. Используйте DSPM-инструменты для автоматического обнаружения и классификации ПДн — не только в продакшене, но и в тестовых средах.
Запретите создание ресурсов вне РФ. Настройте политики на уровне облака (SCP, org-policy), чтобы никто не мог случайно создать бакет в Европе или США.
Маскируйте данные для тестов. Генерируйте синтетические данные или применяйте анонимизацию. Реальные ПДн в DEV — это всегда риск.
Готовьте отчет по кнопке. Настройте экспорт в PDF/HTML — это сэкономит время.
Не прекращайте охоту
Shadow Data не исчезнет после одной проверки, поэтому «охота» на теневые данные должна стать рутиной, как обновление патчей или ревизия прав доступа. Чтобы такая гигиена была эффективной, ее нужно интегрировать в общую систему управления информационной безопасностью.
Вот три ключевые практики:
Внедрите автоматический мониторинг и оповещение. Настройте регулярное сканирование (ежедневно, еженедельно) с помощью DSPM- или DLP-инструментов. При обнаружении новых копий ПДн система должна автоматически генерировать алерт — не в почту, а в единый канал SOC.
Интегрируйте результаты сканирования в SIEM. Все события, связанные с обнаружением, перемещением или несанкционированным доступом к ПДн, должны поступать в SIEM как структурированные логи. Это позволяет коррелировать их с другими инцидентами — например, с необычной активностью пользователя или подозрительным сетевым трафиком.
Автоматизируйте реагирование через SOC и playbooks. Обнаружение Shadow Data должно триггерить заранее подготовленные сценарии реагирования (playbooks): уведомление владельца данных, блокировка доступа, создание задачи в системе управления инцидентами. В передовых SOC такие правила даже оформляются как код (Detection as Code), что обеспечивает версионность, тестирование и масштабируемость.
Когда процессы выстроены, а инструменты настроены, вы получаете постоянную видимость того, где находятся ваши персональные данные, кто к ним обращается и как они используются.
В конечном счете соблюдение требования о локализации ПДн — это не бюрократическая формальность и не головная боль compliance-отдела. Это часть кибергигиены, как резервное копирование или управление уязвимостями. Как любую гигиену, ее можно и нужно сделать предсказуемой, автоматизированной и скучной. Потому что в безопасности самое надежное решение — то, которое работает без сюрпризов.