Всем привет! Меня зовут Али Гаджиев, я Директор по продукту в компании Crosstech Solutions Group. Мы с моими коллегами Продакт-менеджером Дмитрием Симаком и Руководителем отдела анализа данных и машинного обучения Владимиром Коршуновым решили поднять ту тему, которую, зачастую, технари игнорируют. Мы умеем создавать классные продукты, готовы интересно их заносить функциональным заказчикам, но как только доходим до людей, которые внутри заказчиков выделяют деньги, мы оказываемся (не часто, но бывает) в тупике, слыша вопрос «А зачем мне выделять деньги на автоматизацию, если руками делать дешевле?».

Поэтому, в данной статье мы немного поговорим о функционале нашего продукта Jay Data и много о деньгах.

Итак, в современном мире, где данные являются одним из самых ценных активов компаний, обеспечение их безопасности становится приоритетной задачей. Сложный экономический климат заставляет компании уделять первоочередное внимание инициативам по сокращению затрат и тщательно проверять рентабельность инвестиций (ROI) перед тем, как они будут сделаны.

В данной статье мы рассмотрим важность применения систем маскирования баз данных для защиты конфиденциальной информации и, самое главное, подчеркнем, что инвестиции в такие системы оказываются рентабельными и приносят прибыль за счет автоматизации ранее использованного ручного труда, повышения продуктивности в жизненном цикле разработки программного обеспечения, уменьшения рисков финансовых потерь и повышения эффективность работы компании и безопасности бизнеса.

Приведенная в статье модель рентабельности инвестиций основана на примере условной финансовой организации среднего размера, внедрившей систему маскирования Jay Data от компании Crosstech Solution Group.

Чтение статьи поможет понять методику оценки рентабельности инвестиций в системы маскирования баз данных и использовать модель в соответствии с уникальными характеристиками вашей компании.

Вводные

У всех компаний есть данные, компрометация которых может сильно ударить по ее репутации и финансам.

Рассмотрим стандартный кейс: финансовая организация разрабатывает приложение для своих клиентов «мобильный банк». Для этих целей выделена команда разработки, которая реализовывает решение согласно требованиям. Но перед выпуском каждого релиза появляется потребность в наличии данных для проведения тестирования разрабатываемого решения. И тут возникают нюансы: передача продуктивной БД несет за собой большие риски ее утечек, а тестирование на синтетических данных является неэффективным и может повлечь за собой появление багов при переводе того же мобильного банка в продуктивную среду.

https://lh7-us.googleusercontent.com/zZqkkHEs_x5-Wz9QenLGVwWtFGZlX_Z7pAesBb-ZrBuj1JQ4mfAon2su0ySVHdv3RgNN9Wc1uggE59HxQsX3oMXTH9KxKNkxC7XCATQZDiYk4wInSwwbUzjj_74Zq7nEumFcpylmupReVz1wi6q-yTc

Как можно обеспечить безопасность передачи продуктивных данных за пределы «прода» и создать тестовые данные, максимально приближенные к реальным?

Для этих целей мы разработали решение, которое позволяет искать и маскировать чувствительные данные. Но в ходе его продвижения мы часто сталкиваемся с вопросом «Зачем нам покупать систему по маскированию, если мы маскируем данные вручную (самописными скриптами)?». Поэтому мы предлагаем взвесить все плюсы и минусы этих двух подходов и рассчитать выгоду от внедрения системы по маскированию данных.

Как компании маскируют данные вручную

Для начала необходимо определить все места, в которых находятся критичные данные, т.е. провести некоторый аудит баз данных. И если это делать вручную, ориентируясь на названия столбцов или бегло просматривая содержимое таблиц, то можно не только потратить на это много времени, но и с легкостью упустить места, в которых есть критичные данные, и тем самым подвергнуть их риску компрометации.

Итак, с учетом возможных рисков, мы определили (или надеемся, что определили) таблицы и столбцы, в которых хранятся чувствительные данные. Теперь необходимо реализовать скрипты для замены исходных данных на обезличенные (на SQL, Python и пр.) и применить их для каждого найденного столбца. При этом поддержка скриптов – весьма затратный процесс: необходимо вручную указывать все столбцы, подлежащие маскированию, позаботиться о пакетной обработке больших объемов данных, настроить скрипты для разных вариантов СУБД, а также периодически обновлять скрипты, потому что все изменения в структуре БД ведут и к изменению скриптов.

https://lh7-us.googleusercontent.com/G6xPbNqxJYjTPif8nR76vcv-45w__0QyPxcX1WWEebqzv_B3Xf0fw-wio6LKTSDQ8Y9PzIA696t2K4Mlr83lx0DirriHgGfvMZZOUKWc1XuLiI8NVvVuv4ZG-wBE8yEt9G6XCruRrZ_Hwo4VOOp2w5A

Данный подход уместен, когда передача продуктовых данных необходима в редких кейсах и их объем относительно небольшой.

В таком случае выгоднее закрыть потребность самописными скриптами.

Что изменится при внедрении системы по маскированию?

Процесс поиска чувствительных данных не придется выполнять вручную – система сама произведет поиск данных во всех БД, сравнит их с шаблонами, которые заведены в системе (например, ФИО, номера кредитных карт, паспортов и пр.), и предоставит отчет по данному процессу.

Не придется писать скрипты самостоятельно – в подобных системах присутствуют уже реализованные алгоритмы маскирования, которые будут автоматически присваиваться столбцам, содержащим критичные данные, и пользователю останется только произвести настройку данных алгоритмов (при необходимости) и произвести маскирование по кнопке или расписанию.

Уменьшится вероятность утечки критичных данных – автоматический поиск критичных данных позволяет снизить вероятность непреднамеренных ошибок из-за человеческого фактора и обнаружить все таблицы, подлежащие обработке, перед их передачей третьим лицам.

Автоматизация ручного труда по созданию маскированных данных

Итак, создание надежных тестовых данных является важным этапом в разработке программного обеспечения. Компании сталкиваются с необходимостью затрат времени, усилий и ресурсов на поиск и создание таких данных. Однако с использованием технологии и системы маскирования, как, например, решение Jay Data, этот процесс может быть значительно упрощен.

Система маскирования Jay Data позволяет избежать ручного поиска данных и создания маркированных данных с использованием скриптов. Это значительно сокращает время, которое ранее требовалось на эти процессы, освобождая ресурсы для других задач.

Благодаря возможности обработки больших объемов тестовых данных и поддержки растущего числа проектов и команд разработчиков, система маскирования Jay Data способна удовлетворить потребности компаний в создании качественных тестовых данных.

Но говоря о преимуществах автоматизированных методов поиска и маскирования данных, все же, нужно говорить и о финансовой составляющей.

https://lh7-us.googleusercontent.com/PnxVdjC_76AyB8Yj7n-dZ33vUIjmd_7QGsV5tuyJzeOntrgquu5Pri8qmmjK8vib5o47QXcMykNKPsdkQxhNcES1-lqE-01JvsBWR_cKHNsC9bH_QGjyAU6g30LUXlH361y-JJnIcCS9IouXEfgFzoc

Исследования Forrester и Gartner показывают, что организации могут сэкономить до 70% времени при использовании автоматизированных методов поиска и маскирования данных. Мы предлагаем использовать среднюю оценку экономии времени в 50%, что делает внедрение системы маскирования Jay Data выгодным инвестиционным решением для компаний, а ниже мы это докажем.

В таблице 1 приведена формула расчета и ожидаемое снижение затрат за счет автоматизации ручного труда по поиску и созданию маскированных данных.

A1 - Процент снижения затрат за счет автоматизации

50%

A2- Количество сотрудников задействованных для маскированных данных

5

A3 - Средняя стоимость часа одного сотрудника

1000 руб 

А4 - Количество оплачиваемых часов в год

1973

A4 * A3 * A2 * A1 = 4 932 500 руб. 

Таблица 1

Повышение продуктивности в жизненном цикле разработки

Внедрение решения Jay Data в организацию может значительно сократить время окупаемости жизненного цикла проектов разработки. Это достигается за счет ускоренного выпуска релизов приложений благодаря более быстрой подготовке данных для тестирования и повышенному качеству этих данных.

Экономия средств возможна уже при выпуске в среднем 4 релизов приложения в год и подготовке в среднем 10 маскированных баз данных для тестирования. Опыт клиентов показывает, что 25% приложений требуют значительного времени на тестирование и разработку, а также на синхронизацию данных из различных систем.

В таблице 2 представлена формула расчета и демонстрируется ожидаемое улучшение производительности и времени выхода на рынок (TTM) для всего программного обеспечения, создаваемого командой разработчиков. Внедрение системы маскирования Jay Data позволяет увеличить эффективность работы команды, сократить время на тестирование и разработку, а также повысить общее качество продукта.

B1 - Количество баз данных

10 

B2 - Количество выпущенных релизов

4

B3 - Средняя годовая стоимость выпуска релиза

 12 000 000 Руб

B4 - Процент повышения производительности

25%

B1 * B2 * B3 * B4 = 120 000 000 руб

 

Таблица 2

Сокращение затрат на хранение

Эффективное управление тестовыми данными играет ключевую роль в успешной разработке программного обеспечения. Однако, часто возникают проблемы с излишними объемами данных, занимающими ценное дисковое пространство и требующими значительных затрат. В таких случаях решение Jay Data предлагает инновационные методы маскирования и генерации данных для оптимизации процесса тестирования.

Система Jay Data позволяет разбить большие датасеты на более мелкие части, создавая при этом более разнообразные и информативные наборы тестовых данных. Это не только сокращает объем хранимой информации, но и повышает качество тестирования благодаря более репрезентативным данным.

Особенно ценно уменьшение размера хранилища при работе с обширными наборами данных, где каждый байт дискового пространства имеет значение. Использование системы Jay Data позволяет устранить избыточные данные и сохранить только необходимую информацию для тестирования, что в свою очередь приводит к существенным экономическим выгодам.

Таблица 3 представляет оценку ожидаемого снижения затрат на хранение тестовых данных и баз данных при использовании системы маскирования Jay Data. Это позволяет компаниям не только оптимизировать расходы на хранение данных, но и повысить эффективность процесса разработки и тестирования программного обеспечения. В итоге, использование решения Jay Data становится важным шагом к улучшению качества продукта и снижению издержек в разработке ПО.

С1 - Количество баз данных

 10

С2 - Стоимость хранения одной базы данных в год

 1 000 000 руб

С3 - Процент снижения затрат на инфраструктуру хранения

15%

С1 * С2 * С3 = 1 500 000 руб.

 

Таблица 3

Методика расчетов

Приведенная в статье модель рентабельности инвестиций основана на примере условной финансовой организации среднего размера, внедрившего систему маскирования Jay Data от компании Crosstech Solution Group.

Расчет ROI:

1 год

2 год

3 год

Выгоды

 18 432 500 ₽

 32 228 450 ₽

 46 042 157 ₽

Затраты

 12 632 500 ₽

 12 928 450 ₽

 13 242 157 ₽

Чистая выгода

 5 800 000 ₽

 19 300 000 ₽

 32 800 000 ₽

ROI

46%

149%

248%

Таблица 4

Формулы расчетов:

ROI за 1 год:

ROI = (Выгоды за 1 год - Затраты за 1 год) / Затраты за 1 год) * 100%

ROI = (18 432 500 - 12 632 500) / 12 632 500) * 100% = 46%

 

ROI за 2 год:

ROI = (Выгоды за 2 год - Затраты за 2 год) / Затраты за 2 год) * 100%

ROI = (32 228 450 - 12 928 450) / 12 928 450) * 100% = 149%

 

ROI за 3 год:

ROI = (Выгоды за 3 год - Затраты за 3 год) / Затраты за 3 год) * 100%

ROI = (46 042 157 - 13 242 157) / 13 242 157) * 100% = 248%

 

Таким образом, компания получит ROI в размере 46% за первый год, 149% за второй год и 248% за третий год. Это свидетельствует о высокой эффективности инвестиций и успешности проекта.

Период окупаемости в данном случае составляет 14 месяцев, что означает, что инвестиции начнут приносить прибыль уже через указанный период времени.

8. Выводы и рекомендации

Как итог, в данной статье мы подчеркнули не только эффективность автоматизированного подхода для профилирования и маскирования баз данных, но и его финансовую ценность.

Мы надеемся, что данных подход и приведенная методика расчета ROI окажутся полезными нашим коллегам при общении со скептически настроенными заказчиками.

А подробнее обсудить наше решение мы предлагаем на вебинаре 11.04 в 11.00. Зарегистрироваться на вебинар можно по ссылке yandex.ru/poll/U4U72j5EhuR1U2wQpbBz3R.

Комментарии (2)


  1. vbn22h
    05.04.2024 05:17

    Почему-то ожидал увидеть реальные расчеты на примере какого либо проекта (кажется компания именно этим и занимается).


    1. Ali_Gadzhiev
      05.04.2024 05:17

      Добрый день!
      Тут скорее описан стандартный алгоритм/шаблон, по которому компания может произвести расчеты на своих данных. Реальные цифры в конкретных проектам мы не имеем права отражать из-за NDA.