Ваши секреты внутри LLM. Куда уходят промпты и чего стоит опасаться? / forpes.ru

Главная
Ваши секреты внутри LLM. Куда уходят промпты и чего стоит опасаться?

Ваши секреты внутри LLM. Куда уходят промпты и чего стоит опасаться?

25.05.2026 07:00

daniilgorbenko 17 13000 Источник

Каждый раз, когда Вы отправляете часть своего кода в Cursor, Claude Code или скидываете свой отчет для анализа в Gemini или Qwen, где-то в мире грустит один юрист по информационной безопасности. Нейросети — это магия (ну или статистическая закономерность), а кто-то из нас хотя бы раз открывал юридические документы, которые размещены на любимых нами ресурсах?

Давайте немного покопаемся в документах крупнейших игроков: OpenAI, Google, Qwen, DeepSeek и, конечно же, в российском GigaChat. И посмотрим, а кто же кроме нас может иметь доступ к нашей информации?

Зачем кому-то наши данные?

Для большинства компаний наши данные — это не просто тысячи строк кода (который им и не нужен) и не просто отчеты (который никто даже не откроет). Наши данные — это топливо для будущего улучшения моделей. Почти все компании прямо заявляют

[ChatGPT] As noted above, we may use Content you provide us to improve our Services, for example to train the models that power ChatGPT. Read our instructions⁠(opens in a new window) on how you can opt out of our use of your Content to train our models.

[Google] Google использует эти данные, как описано в нашей Политике конфиденциальности, в следующих целях: «Предоставление наших сервисов. Поддержка и улучшение наших сервисов....». Это также относится к моделям генеративного ИИ и другим технологиям машинного обучения, которые используются в наших сервисах.

Это значит, что любой Ваш уникальный алгоритм или важная информация из отчета может стать частью весов модели. И теоретически — эти данные могут всплыть в ответе ваших конкурентов или злоумышленников, если сервисы недостаточно позаботятся об обезличивании данных при обучении!

Большой брат и живые люди

Думаете, Вашу переписку видит только ИИ? Как бы не так… Например, Google (Gemini) прямо предупреждает:

[Google] Некоторые чаты проверяются специалистами компании Google и ее поставщиков услуг. Это делается, чтобы улучшать модели Gemini, другие модели генеративного ИИ

[Qwen] We may collect, use, process and/or disclose your personal data for the purposes set out in the table below... To provide customer support and troubleshooting, and to respond to your inquiries, requests, feedback, and suggestions.

Аналогичные предупреждения есть и в документах у Anthropic (Claude) и OpenAI (ChatGPT). Данные компании оставляют за собой право ручной модерации в случае срабатывания фильтров безопасности. Если вы без раздумий скармливаете ИИ приватные документы (например, финансовые отчеты компаний, внутренние переписки) или документы, содержащие личные данные (например, данные карт, паспорта), будьте готовы к тому, что их может увидеть модератор из далекой от Вас Индии или Вьетнама (а дальше может случиться так, что эти данные окажутся на черном рынке или попросту будут использованы случайными людьми)

География данных: куда улетают переписки?

Один из важных рисков для компаний, связанных с комплаенсом и законом, напрямую связан с местом, где хранятся данные:

США (OpenAI, Anthropic, Google): Данные попадают под юрисдикцию США (включая Cloud Act). Это означает доступ спецслужб по запросу и обработку данных на серверах по всему миру;
Китай (DeepSeek, Qwen): Ваши промпты физически уходят в КНР. В документах DeepSeek указано: «Ваша информация может передаваться... в Китайскую Народную Республику». Особенности местного законодательства дают государству практически неограниченный доступ к данным техгигантов;
Россия (GigaChat): Здесь всё по 152-ФЗ. Данные в РФ, но доступ правоохранительных органов по запросу гарантирован.

Кошмар регулятора: почему государства «боятся» сервисов ИИ?

До генеративного искусственного интеллекта у государств был понятный и отработанный механизм контроля информации. Если в сети появился «нежелательный» контент, то механизм модерации работал линейно:

Регулятор (в лице РКН в РФ или службы кибербезопастности в КНР) направлял запрос поисковой системе или соцсети
Ссылка удалялась из выдачи или блокировалась по IP/URL
Доступ для граждан определенной геолокации прекращался

Но с LLM моделями эта схема ломается. Модель не «выдает ссылку» на сайт — она генерирует текст здесь и сейчас, исходя из миллиардов своих внутренних весов

Проблема точечного бана

Нельзя просто так «забанить» информации внутри нейросети ни для жителей определенного региона, ни для всех пользователей сразу. Обученная модель — это монолит, который если знает о каком-то факте, то будет его выдавать как есть. Конечно, сейчас делают обвязки вокруг LLM моделей с помощью моделей-фильтров, однако это всё не только удорожает и усложняет продукты, но и по своей природе является тем, что можно обойти при помощи промпт-инжиниринга

Идеологическая прошивка

Государства осознают, что LLM — это не просто инструмент, а транслятор культурных и политических ценностей той страны, где она была обучена. Именно поэтому мы видим такую гонку за «суверенными» моделями

География обработки данных

Ваши переписки с сервисами по большей части хранятся на серверах тех стран, где эти сервисы представлены юридически и физически. Таким образом для стран повышаются риски, связанные с утечкой важных данных из диалогов с ИИ сервисами к сторонним государствам

С точки зрения государства такие модели означают потерю контроля над качеством (с точки зрения регулятора) контента, который попадает в массы. Если раньше можно было блокировать поисковую выдачу, то теперь нужно блокировать целые сервисы (как это делают некоторые государства с блокировкой ChatGPT). А именно отсутствие прозрачного и линейного контроля над информацией делает Ваши переписки с ИИ еще более желанной целью для модерации государством

Ну а как мы можем прочитать из юридических документов компаний, то почти каждая организация прямо заявляет, что Ваши данные могут переданы соответствующим органам власти для анализа и обработки. Поэтому все ваши переписки может увидеть не только сотрудник сервиса или фрилансер Индус, но и сотрудник правоохранительных органов

[Сбер] 8.5. Не является нарушением режима конфиденциальности предоставление Сторонами информации по запросу уполномоченных государственных органов в соответствии с законодательством Российской Федерации.

Как не «слить» информацию: правила гигиены

На сегодняшний день практически невозможно на 100% запретить сотрудникам не использовать ИИ, так как это повышает скорость и качество работы, а как следствие, бизнес с этого получает выгоду. Поэтому для сотрудников необходимо внедрять культуру использования ИИ моделей:

Включать «Training Off». В OpenAI и Anthropic — это важная настройка, которая позваоляет отключить ипользование ваших переписок с ИИ для дальнейшего обучения;
Ручная анонимизация
- Заменяйте имена сотрудников/личностей на -> Сотрудник_1, Менеджер, Доктор, Сотрудник отдела продаж;
- Названия брендов/проектов на -> Проект_Х, Бренд_Альфа;
- Цифры в отчетах -> меняйте их пропорционально или заменяйте на [ДАННЫЕ_О_ВЫРУЧКЕ].
Временные чаты (Temporary Chat)
- В ChatGPT есть режим «Temporary Chat». История не сохраняется, обучение отключено по умолчанию. Идеально для разовых быстрых вопросов.
Не храните открыто ключи доступов. При работе с Cursor, Claude Code или другими агентами необходимо ограничивать доступ агентов к файлам, где у вас лежат ключи (будь то env файлы или просто json-конфиги), через настройки самого агента
Если у вас в руках данные клиентов, финансовая тайна или гостайна
- Локальные модели — самый надежный путь. Используйте инструменты вроде Ollama, LM Studio или AnythingLLM. Вы скачиваете модель (например, Llama 3, Mistral или Qwen — открытые версии) на свой сервер или мощный ноутбук. Данные вообще не покидают ваш компьютер. Нет интернета — нет утечки
- Облачные изолированные инстансы (Enterprise PaaS).

Итог

На сегодняшний день стоит опасаться не «восстания машин», а потери контроля над данными! Каждая компания борется за клиентов, каждый человек борется за приватность, а бесконтрольное использование LLM может привести к тому, что вся наша приватность однажды станет доступна огромному числу людей вокруг нас

Относитесь к любому облачному чат-боту как к выступлению перед сотнями тысяч зрителей. Если вы не хотите, чтобы однажды кто-то использовал Ваши труды и наработки против Вас, то лучше стараться прибегать к простейшим правилам защиты своих личных и корпоративных данных!

Комментарии (17)

SergeyCs
25.05.2026 07:09
#30014776
Волков бояться в лес не ходить. Намного больше шансов, что кто-то из сотрудников сольёт вас конкурентам, чем ИИ. Да и вообще ценная для других информация есть максимум 0.01% пользователей ИИ.
1. achekalin
  25.05.2026 07:09
  #30014958
  «Волков бояться» — плохой аргумент для ИБ. Тут надо смотреть не только на вероятность, но и на ущерб, и на цену защиты. А то получаем «вероятность 1/2: утечёт или нет».
  
  Да, сотрудник может слить данные конкурентам. Я даже видел компанию, где ключи от серверной были у охраны и у (!) уборщицы (причём да, в серверной был порядок и не было пыли; а охрана — потому что в случае пожара кто проследит за пожарными?): сотрудники шутили, что вместо взлома за миллион денег куда дешевле будет заплатить уборщице, чтобы она ночью пришла и выдернула диски из серверов и хранилок.
  
  Но из этого не следует, что внешний LLM‑контур можно игнорировать. Это просто ещё один канал передачи данных наружу: логи, хранение, подрядчики, юрисдикция, посредники, непонятный объём контекста.
  
  И «ценная информация есть у 0.01% пользователей» — слабый тезис. Ценность — это не только секретная формула. Хосты, домены, версии ПО, куски логов, топология, клиенты, фрагменты кода и тикетов — всё это вполне полезный материал. Модель такое выделит из текста легко.
  
  Поэтому вопрос не в панике и не в запрете ИИ, а в призыве «мыть руки перед едой (а не когда уже в инфекционку после немытого помидора повезли)»: думать, что можно отправлять наружу, что надо маскировать, а что вообще не должно уходить во внешнюю модель.
  1. SergeyCs
    25.05.2026 07:09
    #30015004
    Вы не на собеседовании, не надо так преукрашивать важность специалиста ИБ. Вообще ничего плохого не случится если ИИ узнает версию ПО, домены, хосты и логи.
    
    Если только запросы не из компании OpenAI в DeepSeek или наоборот.
    
    В нашей компании специалисты ИБ очень мешали работать, мы даже думали, что их специально подослали.
    
    Если им надо будет они легко это получат от любого сотрудника компании который уже очень много от себя написал.
    
    achekalin
    25.05.2026 07:09
    #30015046
    Прямо отлично Вас понимаю.
    
    Но из того, что плохая ИБ мешает, не следует, что рисков нет. Версии ПО, домены, хосты и логи сами по себе могут быть не страшны. Вопрос в сочетаниях. Один лог — мусор. Много логов плюс версии, внутренние имена, ошибки, куски конфигов, тикеты и фрагменты кода — уже карта инфраструктуры.
    
    И да, часть этого можно получить от сотрудников. Но это не аргумент за то, чтобы добавлять ещё один неконтролируемый канал. По такой логике можно и production‑логи в публичный pastebin выкладывать: «если надо, всё равно достанут».
    
    Думать об этом имеет смысл не потому, что завтра точно взломают, а потому что подумать стоит дёшево и уменьшает площадь утечки.
    
    Ну и да, никогда не знаешь, кому ты понадобишься. Помните, книга есть такая, «Яйцо кукушки» Клиффорда Столла. Полностью «The Cuckoo's Egg: Tracking a Spy Through the Maze of Computer Espionage“
    
    SergeyCs
    25.05.2026 07:09
    #30015062
    Правильно я вас понимаю, вы считаете что данные какой-либо компании из РФ, например. Могут быть интересны компании OpenaAI например?
    
    daniilgorbenko Автор
    25.05.2026 07:09
    #30015110
    Более чем интересны. А если учесть, что OpenAI спокойно могут передавать данные государственным органам, то это хороший и почти легальный способ следить за тем, что просиходит в чужой стране. И на фоне внутренних колебаний вставлять свои 5 копеек
    
    Зная, что происходит в Сбере, Газпроме, Роснефти и т.д. - можно легко предсказать куда надавить и какие новые санкции ввести. И даже не надо для этого никакие тайны красть, сотрудники сами загрузят отчет и попросят "сделать красиво для начальства". А там уже дело за малым, возьми данные, быстро проанализиуй и придумай, как это использовать во вред
    
    achekalin
    25.05.2026 07:09
    #30015650
    Вот да, не то чтобы закошмариить, но...
    
    в США есть механизмы вроде FISA Section 702, где возможна принудительная помощь американских провайдеров при сборе внешней разведывательной информации по иностранным целям за пределами США. Причём, это не "по желанию", а, как у нас с РКН и фильтрацией, "кто не все, того накажем" и многими проблемами. И миллиардными компаниям явно защищать данные клиента за $20 (да, да, знаю, что "$20 - это $20!", но тут масштаб немного другой) резона нет.
    
    у Китая своё: Закон о национальной разведке прямо говорит, что организации и граждане должны поддерживать, помогать и сотрудничать с разведывательной работой, а разведорганы могут запрашивать необходимую поддержку. Например, DeepSeek в privacy policy прямо пишет, что собирает и обрабатывает user input, может использовать данные для улучшения и тренировки технологии, хранит данные в КНР, а также может раскрывать данные по юридическим требованиям, регуляторам и госорганам. У Alibaba Cloud Model Studio, наоборот, в FAQ заявлено, что данные клиентов не используются для обучения моделей, передаваемые данные шифруются, а сервис доступен в разных регионах, включая Singapore, US, Beijing, Hong Kong и Germany.
    
    Как говорится, "подумайте, и мы подумаем!" )

gerbert_MX
25.05.2026 07:09
#30014834
чет однобокая статья

факты в том что уже было достаточно судебных разбирательств в америке когда сам openai сливал данные чата полиции просто потому что

сколько он реально сливал (ведь до суда я думаю не все дошло) и сколько ноунейм-индусов имеют доступ к вашим чатам вот это действительно хороший вопрос безопасности

а за проекты и "воровство" - скорее сама компания что предоставляет АИ будет собирать общие "метрики идей" что бы отслеживать что люди "обсуждают создавать". отдельные чаты человека в этом плане никому нафиг не упали ведь те кто имеют доступ к вашему чату, имеют еше и в миллионам других и даже если ваш чат выделяется из серой массы (нет)то все равно вчитываться в него будет разве что новичок на этой работе, а вынести что-то из этого и вовсе 0%

achekalin
25.05.2026 07:09
#30014890
Тут бы мух от котлет отделить. Ну и да, сначала решить, с каким именно провайдером вы работаете, чтобы потом понимать, на чьи обещания вы вообще юридически полагаетесь.

Мысль изначально верная: данные отправляются вовне. Такое и до LLM требовало внимания. Просто раньше это были почта, SaaS, тикеты, облачные хранилища, подрядчики и удалённые админы, а теперь к этому добавились модели, агенты, коннекторы и IDE-помощники.

Ок, отправили мы данные в облачную модель — что дальше, какие риски?

Во-первых, данные могут пойти на улучшение модели, если это не отключено условиями тарифа или настройками. Во-вторых, они могут остаться в логах, бэкапах и внутренних системах провайдера. В-третьих, их иногда могут читать люди — например, если диалог попал на проверку безопасности, разбор жалобы или расследование инцидента. В-четвёртых, есть подрядчики, юрисдикция провайдера и законные запросы госорганов, о которых клиент может вообще ничего не узнать.

И тут важно не говорить «у всех одинаково». Не одинаково. У OpenAI для Business, Enterprise и API по умолчанию заявлено, что пользовательские входы и выходы не используются для обучения моделей, если организация сама явно не включила такой режим. У Anthropic для коммерческих продуктов и API похожая логика: по умолчанию не используют входы и выходы для обучения, но если отправить feedback, может сохраниться весь связанный диалог. У Google тоже разные режимы: consumer Gemini — одна история, Workspace с корпоративными условиями — другая. У DeepSeek — уже другая юрисдикция и другая политика обработки данных. То есть вопрос не «ChatGPT или не ChatGPT», а конкретно: какой сервис, какой тариф, какой договор, какая настройка, какой retention и кто является стороной договора.

Отдельный риск — посредники. Если я иду напрямую в ChatGPT, Claude или Gemini, то хотя бы примерно понятно, с кем у меня отношения: вот провайдер, вот его условия, вот его настройки. А если я иду через агрегатор вроде OpenRouter, AIHubMix, proxy-сервисы, «дешёвые ключи», появляется второй слой. Посредник может честно обещать одно, но сам запрос он дальше отдаёт конечному исполнителю. И договор между посредником и этим исполнителем — уже отдельная история, которую обычный пользователь чаще всего не видит.

Это особенно заметно на недорогих open-weight моделях. Условный небольшой Qwen, Llama, DeepSeek или Mixtral через агрегатор — это не всегда «одна модель в одном месте». Сегодня запрос может уйти к одному inference-провайдеру, завтра к другому, а при сбое — к третьему, если не отключены fallback-и. У OpenRouter это прямо описано: по умолчанию он может маршрутизировать запросы между провайдерами, можно выбирать конкретных провайдеров, отключать fallback-и, запрещать провайдеров с хранением данных и включать Zero Data Retention. Но если этого не сделать, экономия на токенах легко превращается в схему «мы даже примерно не знаем, у кого в итоге оказался наш prompt».

Причём «не обучаем на ваших данных» и «ничего не храним» — это разные обещания. Провайдер может не обучать модель на ваших запросах, но всё равно хранить их для abuse‑monitoring, биллинга, отладки, расследования инцидентов или по юридическим причинам. И вот «их» юрилические причины хранить (а как долго — нам никто не скажет) «им» куда ближе, чем требования «нашей» ИБ.

И это мы пока говорим о случаях, когда в модель сознательно отправляется, скажем, кусок исходников — пусть даже не всегда удачно выбранный, но хотя бы примерно понятный кусок.

А есть ещё менее прозрачный процесс: коннекторы, MCP, IDE-агенты и прочие «помощники». Человек думает, что отправил модели кусок кода, а на деле агент может видеть репозиторий, историю git, локальные файлы, тикеты, документацию, скриншоты, логи — и часто даже то, что вообще не собирались показывать. Поэтому простое правило «не вставляйте пароли в ChatGPT» уже слабовато.

Нужно делить данные по классам. Публичное и неважное можно отправлять в обычные сервисы, но лучше с отключённым обучением. Рабочие внутренние данные — только через корпоративный тариф, API или свой шлюз, где понятны правила хранения, логи, доступы и ответственность. Клиентские данные, персональные данные, финансы, NDA и production-логи — только после очистки, обезличивания или через отдельный защищённый контур. Ключи, токены, приватные сертификаты, сырые дампы и критичные инциденты лучше вообще не отдавать внешней модели.

Для coding-agent нужны отдельные ограничения: песочница, доступ только к нужным файлам, запрет на чтение .env, ключей и секретов, отдельный пользователь без production-доступа, запрет лишнего сетевого доступа, список разрешённых команд, логирование действий и ручное подтверждение опасных операций.

И локальная модель тоже не решает всё автоматически. Если вокруг неё стоят облачные плагины, внешние MCP-серверы, телеметрия, общий векторный поиск и неочищенные логи, то это уже не совсем «локальная» схема.

Нормальная политика должна звучать не как «ИИ запрещён», а как: какие данные, в какие модели, через какой канал, с каким хранением, аудитом и ответственным владельцем можно отправлять. Без этого любой ChatGPT, Claude, Gemini, Cursor, OpenRouter или локальный агент превращается в неучтённый канал передачи данных наружу.

P.S. Отдельный практичный слой защиты — локальная псевдонимизация перед отправкой в модель. Реальные хосты, домены, IP, логины, имена клиентов, внутренние URL и названия проектов заменяются локальным фильтром на условные host-01, customer-03, service-a, internal-domain.test. Таблица соответствий остаётся у нас, наружу уезжает только обезличенный текст. Главное — делать замену стабильной внутри одной задачи, чтобы модель не потеряла связи между логами и конфигами. Это не абсолютная защита: по структуре инцидента, версиям, путям и редким ошибкам всё равно можно раскрыть контекст. Но как дополнительный слой перед облачной моделью — вполне разумно.
1. alexandr93
  25.05.2026 07:09
  #30019782
  Вот про историю гит правильно. Потому что даже можно почистить репозитории от sensitive данных, но их можно увидеть в истории гита. И вроде есть разные скрипты, которые от определённых файлов вычищают всю историю гита, но тогда старые комиты могут перестать собираться потому что какие-то важные данные могли быть не вынесены в env файлы поэтому нужно какие-то нужные для запуска файлы нужэно грохнуть целиком, и эффект может быть сопоставим с полным удалением всей истории гита.
  
  Добавляем то, что проблемы могут быть из-за багов сами агентов. С тем же клодом такой прикол был: https://habr.com/en/companies/ddosguard/news/1018916/, на плагин Continue был заведен баг на то, что он отправляет телеметрию, хотя в настройках было выставлено не отправлять. И если селф хостед можно как-то контролировать, то с проприетарным софтом это всё черный ящик, который по сути может делать что угодно и пользователь не имеет представления о том, что происходит.

achekalin
25.05.2026 07:09
#30015568
Те, кто отправляют содержимое репозитория в модель — репоэксфильтраторы.

Те, кто изучают поведение репоэксфильтраторов — репоэксфильтратологи.

Те, кто читают репоэксфильтратологов перед подключением IDE-агента, — превентивные репоэксфильтратологоконсультанты.

Те, кто ненавидят превентивных репоэксфильтратологоконсультантов и говорят «он же просто посмотрит структуру проекта» — репоэксфильтратологоконсультантофобы.

Те, кто доказывают репоэксфильтратологофобам, что в контекст улетели .env, миграции, тестовые дампы и config.old — контекстоэксфильтратологоаналитики.

Те, кто после контекстоэксфильтратологоаналитиков срочно пишут .aiignore, но забывают про историю git — квазиконтекстосанитизаторы.

Те, кто проверяют квазиконтекстосанитизаторов через локальный шлюз, аудит, псевдонимизацию и список реально отправленных файлов — антиэксфильтратоаудитологи.

Те, кто выдают себя за антиэксфильтратоаудитологов, но запускают агента от пользователя с доступом к production и фразой «он просто посмотрит структуру проекта» — квазиантиэксфильтратоаудитологоагентозапускаторы.

P.S. Так выпьем, чтобы нас не называли такими зверскими словами!
1. cruiseranonymous
  25.05.2026 07:09
  #30017098
  немцы и финны буквально могут что-то такое всерьёз применить
  1. achekalin
    25.05.2026 07:09
    #30017988
    Hauptpromptüberwachungsmandantensicherheitszonentrennungsundpublicclouddatenexfiltrationsabwehrkommandobeauftragter

Shalundrive
25.05.2026 07:09
#30015652
Эта статья типичный инфоповодный fast food контент, громкий заголовок, нагнетание паранойи (индусы-модераторы увидят ваш паспорт), пара банальных советов из официального FAQ и плашка, Блог компании такой-то, для прогрева трафика и сбора просмотров.

Для тех, кто реально сидит в продакшене, проектирует архитектуру систем или пишет RTL, этот уровень аналитики выглядит как инструкция по безопасности для детского сада. Никакой конкретики по реальным векторам атак (вроде indirect prompt injection в контекстных агентах), никакого понимания enterprise-контрактов, просто пересказ пользовательского соглашения своими словами с умным видом.

Поверхностный хайп, не более.

spiteman
25.05.2026 07:09
#30016144
Если я использую LLM, то мои промпты никуда не уходят. Поэтому название статьи неверное.

makarovpro
25.05.2026 07:09
#30016418
Если в человеке есть что-то уникальное и выдающиеся то навряд ли он пользуется этими заурядными AI. И точно он уже с детства "под колпаком". И навряд ли среднестатистический человек можете выдать какие-то уникальные идеи, но он может спровоцировать себя какими-то острыми вопросами и темами!

egranty
25.05.2026 07:09
#30018156
А что только про LLM? Google Translate тоже сливает данные ФБР, Христо Грозев спалил это в последнем расследовании https://youtu.be/A9m0FnFg9M0?t=1000