Привет, Хабр! Меня зовут Александр, я лидер команды DevSup (это как DevOps, только с функцией поддержки больших клиентов которым Saas не подходит) в IT-компании ПравоТех.
 Мы создаем решения (например, case.one для ведения дел и doc.one для документооборота), чтобы юристы, менеджеры и все кто рядом с юриспруденцией могли работать быстрее, умнее и спокойнее. Наша миссия – «Помогаем людям получать удовольствие от работы».
Сейчас у нас активно внедряются ИИ-инструменты. Создаются боты для консультаций и опросов, часто обращаемся к большим моделям чтобы «обстучать» какую-то идею.
В этой статье поделюсь историей о том, как эффективно и безопасно использовать ИИ, превратив рутину в решенную задачу. 
 
Итак, представьте: вам в руки попадает договор поставки ПО. Не просто договор, а целая книжечка на 50-70 страниц А4. Нужно срочно – за 2-3 дня! – проанализировать его вдоль и поперек: проверить сроки, штрафы, бонусы, риски для вашей компании. Знакомая ситуация для менеджеров, юристов, закупщиков?

Дилемма: Выкроить время и вычитать всё дотошно, рискуя не успеть? Или пробежаться по диагонали, надеясь, что глаз «зацепит» опасную формулировку? Соблазн велик: закинуть текст в публичный ИИ-чат (типа ChatGPT или DeepSeek) и спросить: «Эй, ИИ, моя компания ООО «Рога и копыта» – найди всё, что нам невыгодно!»

Цена такого «упрощения» может быть огромной. Давайте разберемся, почему это крайне опасно:

1.  Конфиденциальность — прощай! Условия договора (а они почти всегда секретны!) отправляются владельцу ИИ-сервиса. Нарушение пункта о неразглашении – гарантировано.

2.  Данные утекают за рубеж. Серверы популярных ИИ часто расположены не в России. Ваши коммерческие тайны – уже не совсем ваши.

3.  Персональные данные под угрозой. ФИО, должности подписантов из договора – их разглашение само по себе нарушение закона.

 Казалось бы, тупик: времени мало, риски высоки, автоматизация публичными ИИ недоступна. Но именно здесь начинается история нашей коллеги – назовем ее Вера.

Вера – не программист. Ее профиль – работа с документами, а не написание кода. Но у Веры есть два супер-качества: жгучее желание работать эффективно и смелость использовать современные инструменты по-новому.

Вера не стала рисковать конфиденциальными данными. Вместо этого она пошла другим путем. Она попросила публичный ИИ написать… инструмент для защиты этих самых данных!

Ее запрос был гениален в своей простоте: «Помоги написать программу на Python, которая удаляет из текста договора ВСЮ конфиденциальную информацию: названия компаний, ФИО, реквизиты, специфичные названия продуктов и т.д., заменяя их на метки вроде [НАЗВАНИЕ_КОМПАНИИ_1] или [ФИО_ДИРЕКТОРА]».

После нескольких итераций Вера получила работающий Python-скрипт и простые инструкции, как его запустить даже под Windows. Теперь ее процесс выглядит так:

1.  Очистка: Пропускает черновик договора через свой скрипт. На выходе – обезличенный текст, где вся «чувствительная» информация заменена на нейтральные метки.

2.  Анализ: Безопасно загружает очищенный*текст в публичный ИИ-ассистент. Задает вопросы: «Найди риски для стороны [НАЗВАНИЕ_КОМПАНИИ_1] в этом договоре. Проверь сроки поставки, штрафы, объем ответственности».

3.  Заключение:На основе анализа ИИ и своей экспертизы Вера готовит качественное заключение – строго в срок и без нарушения конфиденциальности.

В чем подвиг? Вера, не будучи технарем, нашла элегантное решение сложной проблемы. Она не ждала, пока программисты освободятся (если бы они вообще были в ее отделе), не нарушила правила, а взломала процесс с помощью доступных технологий. Это уровень proactivity, которым мы в ПравоТех искренне восхищаемся!

Итог: Задача анализа договоров в сжатые сроки актуальна для тысяч специалистов. Риски разглашения конфиденциальной информации при использовании публичных ИИ – реальны и серьезны. Решение Веры – не просто «костыль», а наглядный пример будущего работы с документами: умная предварительная обработка данных + безопасное использование мощных ИИ-инструментов.

Комментарии (6)


  1. Drucocu
    26.06.2025 11:11

    Два тезиса:

    1. Если предположить, что за вашими данными охотятся владельцы публичных ИИ-ассистентов, то есть немалая вероятность, что при желании, они смогут восстановить исходный документ. Потому как что-что, а контекст ИИ умеет восстанавливать отлично. Да, вы не передали названия компаний в открытом виде, но если берём за основу предположение, что владельцам ИИ просто нужно знать факт готовящейся сделки - вы его сообщили, притом со всеми деталями. Следовательно, ваш главный вывод абсолютно неверный.

    2. Проще было использовать локальную модель.


    1. Drucocu
      26.06.2025 11:11

      Предлагаю провести эксперимент: в том же чате, где обсуждался "обезличенный" документ, спросить, о каких компаниях может идти речь.


    1. MrRitm Автор
      26.06.2025 11:11

      Мы не предполагаем, что за содержимым договоров охотятся владельцы нейросетей. Мы предполагаем, что есть определённый набор данных который не должен быть опубликован и не должен подвергаться хранению\обработке на серверах зарубежных компаний. Так же мы знаем, что данные которые передаются в чате нейросети сохраняются и используются для дообучения. И в какой момент и в каком контексте кусок договора с упоминанием физических лиц всплывёт - мы не знаем. Потому просто всё, что не должно быть опубликовано мы не публикуем

      Что касается локальных моделей - да, разработки в этом направлении ведём тоже и очень активно. Но сравните затраты:

      Вариант 1: бесплатный аккаунт -->скрипт на Python -->предварительная очистка -->анализ с тем же бесплатным аккаунтом.

      Вариант 2: кластер серверов с дорогими GPU, время специалистов по ML, время на тренировки моделей, время специалистов поддержки

      С точки зрения отдельно взятой сотрудницы которая захотела упростить себе жизнь, первый вариант выглядит интереснее и реалистичнее.


      1. Drucocu
        26.06.2025 11:11

        Потому просто всё, что не должно быть опубликовано мы не публикуем

        Кажется, вы сильно недооцениваете объём информации, который вы таки опубликовали.

        Смысла со мной спорить нет, я лишь обращаю ваше внимание на то, что вы буквально слили весь договор, за исключением имён и юридических наименований. Но учитывая, что восстанавливать контекст - это то, с чем нейросеть справляется прекрасно, смысла в ваших манипуляция практически нет. Театр безопасности, не больше.

        Считаете что всё ОК: на здоровье. В конце концов, это ваша ответственность.


      1. Drucocu
        26.06.2025 11:11

        del


  1. Dart55
    26.06.2025 11:11

    Какой принцип работы скрипта очистки, в коде скрипта есть реальные названия компаний и фамилии? О чём это я «Вера — не программист», тогда по другому. При создании скрипта в запросах к ИИ отправляли реальные названия компаний и фамилии? Результат работы скрипта проверяли на наличие конфиденциальных данных хотя бы поиском ctr+f названий и фамилий в текстовом редакторе?