Введение

Корпоративный сектор всё активнее внедряет решения на базе больших языковых моделей (LLM) — от генерации документов до поддержки пользователей и автоматизации внутренней аналитики. Однако вместе с ростом эффективности растут и риски, особенно когда речь идёт о передаче персональных данных. Для российских компаний эти риски связаны не только с киберугрозами, но и с прямыми нарушениями Федерального закона №152-ФЗ «О персональных данных». Одним из ключевых способов защиты информации в таких сценариях становится маскирование данных — то есть скрытие или замена персональных данных в сообщениях, обрабатываемых LLM.

Почему LLM представляет угрозу для персональных данных

Большие языковые модели (такие как GPT, LLaMA, Claude) работают по принципу предсказания следующего слова на основе контекста. Чтобы модель могла быть полезной, в неё нужно передавать текстовые данные, зачастую содержащие:

  • ФИО клиентов и сотрудников

  • адреса электронной почты и телефоны

  • номера паспортов и ИНН

  • адреса проживания и сведения о здоровье

  • банковские и платёжные данные

Если такие данные случайно попадут в внешний LLM, особенно в облачный сервис, компания рискует:

  • утечкой конфиденциальной информации, если LLM будет использовать данные для обучения;

  • штрафами от Роскомнадзора за нарушение законодательства;

  • репутационными потерями из-за возможной огласки инцидента.

Что говорит 152-ФЗ

Федеральный закон №152-ФЗ обязывает оператора персональных данных:

  • получать согласие на обработку;

  • ограничивать доступ к данным;

  • обеспечивать безопасность при передаче данных третьим лицам;

  • обезличивать данные, если они передаются на внешние ресурсы.

Передача необезличенных данных в облачные LLM-сервисы без явного согласия — прямое нарушение закона, даже если речь идёт о техническом эксперименте или интеграции с API.

Маскирование данных как решение

Маскирование — это процесс автоматической подмены персональных данных в тексте перед его отправкой в LLM. Это может быть реализовано на основе:

  • регулярных выражений (для email, ИНН, паспортов и т.д.)

  • NER-моделей (Named Entity Recognition), обученных находить имена, адреса, даты и прочие сущности;

  • LLM, дообученных на задачи маскировки (когда одна модель фильтрует данные перед тем, как они попадут в другую).

Пример:

Вход: "Иван Петров, паспорт 1234 ℞567890, проживает по адресу г. Москва, ул. Ленина, д. 1"
Выход после маскировки: "[NAME], паспорт [DOC_ID], проживает по адресу [ADDRESS]"

Таким образом, модель получает необходимый контекст, но не узнаёт настоящих персональных данных.

Инструмент BitDive как часть решения

Для компаний, стремящихся внедрять LLM безопасно, существует готовое решение — BitDive. Этот продукт позволяет:

  • создавать универсального клиента для общения с любой LLM (в том числе GPT, Claude, Mistral и локальными моделями);

  • интегрировать маскирование и де-маскирование на этапе передачи и получения сообщений;

  • вести журнал всех обращений к LLM и отслеживать потенциальные утечки;

  • подключать внутренние MCP-серверы (Model Control Proxy) для маршрутизации запросов к нужной модели и управления политиками доступа;

  • централизованно управлять всеми взаимодействиями LLM в корпоративной сети, включая разграничение прав доступа, фильтрацию данных и аудит.

Таким образом, BitDive выступает не просто как средство интеграции LLM, но как полноценный уровень безопасности и контроля в корпоративной архитектуре, необходимый для соответствия требованиям 152-ФЗ.

Реализация в корпоративной сети

Маскирование должно быть встроено в инфраструктуру взаимодействия с LLM. Вот возможная архитектура:

  1. Прокси-сервис, через который проходят все запросы к LLM (в том числе через API).

  2. Блок фильтрации и маскировки, выполняющий обработку текста до отправки и восстановления результата после ответа.

  3. Логи и контроль доступа, чтобы отслеживать, какие данные были отправлены и какие сотрудники ими пользовались.

  4. Возможность обратной де-маскировки, если это необходимо внутри защищённой инфраструктуры.

Практика: чем рискует бизнес

Кейсы:

  • Банк передал в GPT полную переписку с клиентами, включая номера договоров и телефоны — штраф от Роскомнадзора и запрос на удаление данных от клиента.

  • HR-служба использовала LLM для анализа резюме — без маскировки были отправлены персональные данные кандидатов, включая паспортные данные.

  • Страховая компания обучила внутреннюю модель на письмах пользователей, забыв удалить поле "Полис №" — в результате в выдаче появлялись реальные номера.

Возможные последствия:

Нарушение

Штраф по 152-ФЗ

Отсутствие согласия

до 75 000 рублей

Неразрешённая передача 3-й стороне

до 50 000 рублей

Утечка из-за технической ошибки

до 500 000 рублей и предписание

Повторное нарушение

до 1 000 000 рублей и блокировка

График 1: Рост внедрения LLM и инцидентов с ПД

График 1
График 1

График 2: Размеры штрафов за различные нарушения

График 2
График 2

Заключение

Интеграция LLM в бизнес-процессы — это технологический скачок, но он требует осознанного подхода к безопасности данных. Маскирование персональной информации должно стать стандартной практикой для любого взаимодействия с языковыми моделями — как в облаке, так и внутри корпоративной среды. Решения вроде BitDive, поддерживающие маскирование, аудит и MCP-инфраструктуру, становятся важнейшим элементом современной цифровой безопасности. Это не просто вопрос соблюдения закона, но и доверия клиентов, защиты репутации и устойчивости бизнеса в цифровую эпоху.

Комментарии (0)