Синтетические данные – это искусственно сгенерированные наборы, имитирующие структуру и статистические закономерности реальных данных. В последние годы вокруг этой технологии возник значительный ажиотаж. Еще недавно аналитики прогнозировали, что уже к 2024 году до 60% данных, используемых для разработки ИИ, будут синтетическими [1]. Однако на практике полностью перейти на «искусственные» данные пока не удалось. Экспертные отчеты отмечают, что возможности синтетических данных сейчас несколько переоценены и что они вряд ли смогут в ближайшем будущем полностью заменить реальные данные [2]. В разных отраслях синтетические данные используются скорее точечно, а не повсеместно. Ниже мы рассмотрим ключевые причины, почему применение таких данных остается редким – от технических ограничений и бизнес-факторов до правовых барьеров.

Технические ограничения

  • Недостаточная реалистичность и точность. Одно из главных ограничений состоит в том, что синтетические данные часто не способны полностью передать сложность и нюансы реальных данных. Генеративные модели могут воспроизводить общие закономерности, но добиться настоящего реализма сложно [3]. Если модель генерации плохо откалибрована или обучена на неполных данных, синтетические данные получатся упрощенными. Такие данные могут упускать важные детали и корреляции, которые присутствуют в реальном мире. Например, было показано, что при генерации медицинских данных для прогнозирования течения болезни модель, обученная на синтетических пациентах, могла пропустить критичные паттерны прогрессирования заболевания и в результате прогноз на синтетических данных оказался неточным [3]. Таким образом, сгенерированные данные могут выглядеть правдоподобно, но не охватывать всю сложность реальных ситуаций.

  • Сложность проверки качества. Оценить, насколько хорош синтетический набор данных, не всегда просто. Даже если сгенерированные таблицы выглядят статистически похожими на исходные, нет гарантии, что модели, обученные на них, покажут адекватные результаты в реальных условиях [3]. Обычно качество синтетических данных проверяют путем сравнения с реальными выборками, но если такая выборка ограничена, определить точность затруднительно [4]. Генеративный алгоритм может не воспроизвести редкие случаи или аномалии, присутствующие в «живых» данных [3]. Поэтому компаниям приходится тратить время на тщательную проверку, проводить статистические тесты, сравнивать распределения и корреляции, проверять работу моделей на реальных данных. Это усложняет и замедляет внедрение синтетических данных.

  • Зависимость от исходной выборки. Синтетические данные по определению «учатся» на реальных. Если исходный набор данный неполный, устаревший или содержит ошибки, то и синтетическая копия унаследует эти недостатки [3]. Более того, синтетические данные отражают прошлы паттерны. Сгенерированные данные, как правило, ретроспективны, т.е. генерируются на основе уже наблюдавшихся зависимостей. Это значит, что такие данные не покажут новых трендов и внезапных изменений, которые появляются со временем. Для долгосрочных задач (например, отслеживание поведения клиентов или рыночных тенденций) использование исключительно синтетических данных проблематично и они не способны «предугадать» свежие изменения, ведь генерируются по старым шаблонам. Таким образом, синтетические данные требуют регулярного пересоздания на актуальных данных, иначе они быстро теряют пользу.

  • Репликация искажений (bias). Генерация не устраняет присущие данным искажения, а напротив, она может их закреплять. Алгоритм учится на исторической информации, которая нередко содержит искажения (например, гендерные или расовые диспропорции, свойственные исходному набору). Без специальных мер эти скрытые искажения перейдут и в синтетический набор данных. В результате модели, обученные на таком материале, будут воспроизводить те же ошибки, что и системы на реальных данных. Это особо критично в социальных и бизнес-приложениях (кредитование, найм, медицина), где недопустимо принимать решения на основе предвзятых данных. Кроме того, генеративные модели могут случайно «протянуть» в сгенерированные данные фрагменты персональной информации из обучающего набора. В литературе отмечены риски, что продвинутая генеративная модель потенциально способна непреднамеренно раскрыть частичные сведения о реальных людях. Все эти технические нюансы заставляют команды очень осторожно относиться к качеству синтетических данных, а малейшая неточность или утечка сведений подрывает доверие к технологии.

Бизнес-причины

  • Высокие затраты на создание и внедрение. Сгенерировать реалистичные данные является нетривиальной и дорогостоящей задачей. Требуются мощные вычисления, сложные алгоритмы (например, нейросети типа GAN или VAE) и участие квалифицированных специалистов по данным. Для многих компаний, особенно небольших, подобные инвестиции слишком тяжелы. Сам процесс генерации синтетического набора данных предполагает множество экспериментов и итераций, прежде чем получится удовлетворительный результат. Каждая итерация – это время и ресурсы. Кроме того, часто требуется приобретать лицензии на специализированные инструменты для генерации данных. Все эти расходы трудно оправдать, если нет явных доказательств, что синтетические данные принесут ощутимую пользу бизнесу.

  • Недостаток экспертизы. Тема синтетических данных сравнительно новая, и на рынке мало специалистов с соответствующими навыками. Для успешного проекта нужны инженеры данных, разбирающиеся в методах анонимизации, моделирования распределений, оценке статистической близости данных и пр. Таких кадров единицы, и они весьма востребованы. Внутри компаний нередко просто некому вести подобные инициативы, а действующие команды уже заняты привычными задачами с реальными данными. Обучение сотрудников или найм экспертов со стороны увеличивают бюджет и сроки проекта. В результате бизнес может отказаться от идеи синтетических данных из-за нехватки уверенности, что команда справится с реализацией на должном уровне.

  • Недоверие к качеству и ценности синтетических данных. Даже при наличии технологии руководство компаний нередко скептически относится к «искусственным» данным. На интуитивном уровне многие воспринимают их как ненастоящие и потому сомнительные для принятия решений. Существует укоренившееся мнение, что любая имитация хуже оригинала и синтетические данные априори менее надежны, чем реальные. Подобная точка зрения отражена и в аналитических исследованиях: сегодня искусственные данные считаются “вторым сортом” по сравнению с реальными, и эту репутацию еще предстоит изменить, прежде чем бизнес начнет их широко принимать [4]. Компании в оборонной сфере, фармацевтике, на финансовых рынках особенно консервативны. Из-за требований к точности и рисков они не спешат экспериментировать с синтетическими наборами. Если принятие решения акционерами или регуляторами основывается на данных, то доверять имитации без веских обоснований никто не хочет.

  • Неочевидный ROI и наличие альтернатив. С бизнес-точки зрения любое нововведение должно окупаться. В случае синтетических данных просчитать возврат инвестиций сложно. Прямая выгода проявляется косвенно, например, в ускорении разработки моделей или в избежании штрафов за нарушения конфиденциальности. Эти эффекты трудно измерить и связать именно с использованием синтетических данных. Руководство может задаться вопросом: зачем тратить средства и усилия, если у нас уже есть реальные данные? В ряде отраслей организаций действительно располагают обширными историческими базами, особенно в розничной торговле, онлайн-сервисах, телекоммуникациях. Им проще продолжать работать с тем, что есть (при необходимости обезличивая персональные сведения), чем внедрять новую методологию генерации данных. Проект по созданию синтетического набора данных конкурирует за ресурсы с другими инициативами, которые имеют более понятный бизнес-кейс. Пока у компании нет острой потребности, например, строгих ограничений на использование реальных данных, мотивация перейти на синтетические данные невелика.

Юридические и регуляторные барьеры

  • Неопределённость правового статуса. Законодательство попросту не успевает за технологией синтетических данных. На сегодняшний день отсутствуют четкие правовые рамки, регулирующие их использование. Ни в одном крупном юридическом акте (в том числе в европейском GDPR или аналогах) прямо не описано, как трактовать искусственно сгенерированные данные. Этот пробел создает для компаний зону неопределенности. Юристы вынуждены действовать на свой страх и риск, интерпретируя общие нормы о данных применительно к синтетике. Опасаясь ошибок, многие организации предпочитают не доводить эксперимент до «продакшена», пока не будет ясности в законах или официальных разъяснений от регуляторов. Ведь в случае неправомерного использования даже синтетических данных наказание может быть столь же серьезным, как за утечку или неправильную обработку реальных персональных данных.

  • Соблюдение требований конфиденциальности. Синтетические данные позиционируются как способ обойти ограничения на использование персональной информации, но на практике требования законов о защите персональных данных по-прежнему актуальны. Если для генерации используются исходные наборы, содержащие персональные данные, организация обязана соблюдать все принципы их сбора и обработки, предусмотренные законом [5]. Например, регуляторы требуют, чтобы было доказано, что полученный синтетический набор не позволяет идентифицировать конкретных людей из оригинальной выборки [6]. Обеспечить такую гарантию непросто, нужны специальные методы (например, дифференциальная «приватность») и аудиты независимых экспертов. В ряде случаев компании сами не до конца уверены, насколько «обезличенным» получился их синтетический набор. Этот фактор тормозит использование: организации боятся, что при проверке может выясниться, будто синтетические данные все еще считаются персональными и подпадают под GDPR и аналогичные законы [5]. Проще говоря, пока нет признанного стандарта анонимизации через генерацию синтетических данных, юридический риск остается.

  • Отраслевые предосторожности. В высокорегулируемых сферах – таких как финансы, здравоохранение, государственный сектор – введение любых новых подходов к данным идет медленно. Регуляторы этих отраслей обычно консервативны и требуют тщательного обоснования безопасности технологий. Синтетические данные здесь воспринимаются с осторожностью: есть опасения, что они могут скрывать в себе ошибки или приведут к непредвиденным последствиям. Например, в государственном секторе США, по данным опроса 2024 года, 32% руководителей вообще не рассматривали возможность использования синтетических данных, тогда как в среднем по индустрии доля скептиков составляла 23% [7]. Иначе говоря, госорганизации и финансовые учреждения более настороженно относятся к этой теме, опасаясь нарушить инструкции регуляторов. Также появляются новые рамочные требования, как, например, Акт об ИИ в ЕС, которые обязывают контролировать качество данных для алгоритмов, не делая поблажек на «искусственное происхождение». Если алгоритм, обученный на синтетических данных, станет частью критически значимой системы (например, принятия решений о кредите или лечении), компания все равно будет нести ответственность за его ошибки. Поэтому с юридической точки зрения переход на синтетические данные не избавляет от обязанностей по качеству, этике и безопасности, а лишь добавляет новых неизвестных, связанных с самим методом генерации. До появления четких регуляторных дорожных карт многие фирмы выбирают выжидательную позицию.

Примеры из отраслей: финансы, здравоохранение, розничная торговля

Финансы (банковское дело, трейдинг и страхование)

Финансовый сектор одним из первых проявил интерес к синтетическим данным так как здесь много конфиденциальной информации, которую сложно свободно использовать. Банки и фонды изучают возможность генерировать искусственные транзакции, профили клиентов, исторические рыночные ряды, чтобы обучать модели фрод-мониторинга или риск-менеджмента без разглашения реальных данных. Например, известно, что J.P. Morgan разрабатывал системы, сравнивающие метрики реальных и синтетических финансовых данных, пытаясь убедиться в их сопоставимости [4]. Тем не менее, широкого внедрения пока не произошло. Причинами этого являются строгие требования регуляторов и высокая планка точности данных. Финансовые организации подотчетны надзорным органам (центробанкам, комиссиям по ценным бумагам), и использование новой технологии требует от них доказать ее надежность. В Великобритании, например, специальная группа экспертов при регуляторе (FCA) изучила эту тему и выделила три ключевых препятствия: недостаточная доступность качественных исходных данных, сомнения в качестве синтетических данных и регуляторная неопределенность вокруг их использования [5]. Проще говоря, банкиры боятся, что синтетические данные либо будут слишком «грязными» для принятия решений, либо вызовут вопросы у контролирующих органов. В сегменте торгов на биржах дополнительным фактором является консерватизм и низкая толерантность к ошибкам; любые решения, влияющие на деньги клиентов, должны приниматься на максимально надежной информации. Поскольку синтетические дынные пока не завоевали полного доверия, финансовые компании применяют их ограниченно (например, для тестирования алгоритмов или внутреннего обмена данными между департаментами), но редко в ядре реальных операционных процессов.

Здравоохранение (медицина и фармацевтика)

В здравоохранении синтетические данные рассматривались как «спасение» для медицинских исследований. Потенциально с их помощью можно обмениваться информацией о пациентах, не раскрывая персональных данных, и решать проблему малых выборок (например, с редкими заболеваниями). Действительно, ряд проектов генерирует искусственные электронные медкарты и даже изображения (снимки) для обучения нейросетей. Однако в реальной клинической практике такие подходы используются редко. Во многом из-за того, что цена ошибки здесь крайне высока. Любое решение врача или алгоритма с последствиями для жизни людей должно основываться на достоверных данных. Если модель обучена на синтетическом наборе и вдруг допускает неточность, ответственность все равно несут разработчики и медучреждение. Поэтому врачи и исследователи относятся к синтетическим данным с недоверием и предпочитают проверенные источники. В научной литературе отмечается, что в клинике применение синтетических данных затруднено из-за недоверия практикующих специалистов, высоких потенциальных рисков и юридической ответственности [8]. Более того, проблемы качества данных тут особенно критичны, так как небольшие статистические искажения или пропущенные корреляции могут привести к неправильным выводам о диагностике или эффективности терапии. Специалисты пишут, что ограниченная точность и возможные искажения синтетических медицинских данных серьезно ограничивают их применимость в различных клинических задачах [8]. Добавим сюда строгие нормы конфиденциальности (например, HIPAA в США и GDPR в ЕС). Даже если данные искусственные, больницы опасаются, что кто-то сможет восстановить по ним информацию о реальных пациентах. Таким образом, в здравоохранении синтетические данные пока остаются на уровне экспериментов и пилотов. Их используют для расширения датасетов в исследованиях или для обучения студентов, но не как основу решений в лечении реальных людей.

Розничная торговля (ритейл и e-commerce)

В розничном бизнесе компаний подстегивает не столько регулирование, сколько конкуренция и объемы данных. У больших сетей и онлайн-платформ и так собираются миллионы строк транзакций, профилей пользователей, каталогов товаров. Синтетические данные здесь могли бы применяться для обогащения данных о редких сценариях (например, имитация покупательского поведения при запуске нового продукта) или для безопасного обмена данными с партнерами (joint ventures, таргетированные кампании) без раскрытия клиентской базы. Отдельные инновационные ритейлеры экспериментируют с генерацией данных для анализа оттока клиентов или персонализации рекомендаций, создают искусственные профили покупателей, чтобы модель лучше научилась предсказывать, кто уйдет, или чтобы дополнить малочисленные сегменты аудитории [9]. Однако в целом отрасль не спешит переходить на синтетические наборы. Поскольку у ритейла обычно нет острого дефицита данных, инициатива исходит скорее от служб безопасности (обезличивание) или ИТ-департаментов (тестирование систем). Массового внедрения не наблюдается. Согласно обзорам, рост использования синтетических данных в ритейле оценивается всего в ~30%, тогда как в финансах или автомобилестроении он достигает 60–70% [1]. Это указывает на сравнительно низкую заинтересованность: ритейлеры получают ощутимые выгоды от классической аналитики на больших реальных данных, и выгоды от синтетических данных пока менее очевидны. Также ритейл менее обременен регуляциями (за исключением общих законов о защите персональных данных), поэтому бизнесу проще продолжать применять реальные клиентские данные с соблюдением, например, GDPR, чем вкладываться в их замену. Наконец, скепсис в отношении качества тоже играет роль. Отделы маркетинга должны быть уверены, что искусственно сгенерированное поведение покупателей действительно репрезентативно. До тех пор синтетические данные в торговле остаются нишевым инструментом, а не мейнстримом.

Мнения экспертов и данные опросов

Экспертное сообщество неоднозначно оценивает перспективы синтетических данных. С одной стороны, ведущие аналитики отрасли весьма оптимистичны. Компания Gartner, например, заявила, что будущее искусственного интеллекта за синтетическими данными [4], указывая на огромный потенциал этой технологии в преодолении дефицита данных, ускорении разработки моделей и решении проблем защиты персональных данных. Прогнозы Gartner и похожих фирм подразумевают, что в ближайшие годы все больше предприятий начнут активно генерировать искусственные наборы данных, и синтетические данные станут ключевым ресурсом для ИИ-систем. Однако даже сторонники признают, что до реализации этого потенциала предстоит устранить ряд препятствий. В том же отчете отмечалось, что существуют реальные риски, связанные с качеством и функциональностью синтетических данных, и необходимы дополнительные средства проверки, прежде чем бизнес полностью им доверится [4]. Специалисты подчеркивают, что нужно менять отношение к синтетическим данным, но пока что многие считают их «фейковыми» и неполноценными, что тормозит их широкое принятие.

С другой стороны, независимые исследования и отраслевые организации настроены более скептически. Так, Совет по аналитике Market Research Society в 2025 году выпустил доклад, где прямо указал: маловероятно, что синтетические данные полностью заменят сбор реальных данных [2]. Эксперты MRS объясняют, что сейчас вокруг темы наблюдается типичный для новых технологий ажиотажный пузырь, а на деле имеются серьезные ограничения. Среди названных ими проблем этические и регуляторные вопросы, риск тиражирования исходных искажений, а также то, что синтетические данные всегда запаздывают относительно реальности и не отражают новых трендов [2]. По сути, совет предупреждает исследовательское сообщество не питать иллюзий и в ближайшее время традиционные методы сбора информации все равно останутся в ходу, а синтетические данные будут лишь вспомогательным инструментом.

Опросы среди бизнес-лидеров показывают, что хотя интерес к теме высок, реальное внедрение идет медленно. Согласно международному опросу Coleman Parkes (2024) для компании SAS, почти четверть руководителей (23%) в разных отраслях западных стран заявили, что вообще не готовы рассматривать использование синтетических данных [7]. В правительственном секторе в США доля скептиков еще выше – 32%. Такие цифры свидетельствуют о разрыве между теоретическими преимуществами и практической готовностью доверять этой технологии. Многие компании пока занимают выжидательную позицию, т.е. присматриваются к успешным примерам, небольшими шагами пробуют синтетические данные в непроизводственных сценариях (например, для тестирования ПО или хакатонов), но не спешат переводить на нее критически важные процессы.

В заключение, синтетические данные сегодня находятся как бы между двумя мирами. С одной стороны, перспективы и обещания: усиленная конфиденциальность, больше данных для ИИ, возможность поделиться ценными инсайтами без нарушения приватности. С другой, текущие реалии существуют технические ограничения по качеству, настороженность бизнеса и отсутствие регуляторной ясности. Опыт различных отраслей подтверждает, что универсального решения еще нет. В финансах и здравоохранении преобладают осторожность и пилотные проекты, в ритейле – низкая потребность из-за обилия реальных данных. Эксперты сходятся во мнении, что синтетическим данным нужно время, стандарты и доверие, чтобы занять прочное место. Возможно, в ближайшие годы мы увидим прогресс, будут разработаны метрики качества и защищенности личных данных и законодательные нормы, появятся успешные примеры на уровне отраслей. Тогда барьеры начнут снижаться. Но пока компании скорее рассматривают синтетические данные как интересный дополнительный инструмент, а не полноценную замену «живому» источнику информации [2]. Преодоление названных технических, бизнес и правовых препятствий является ключом к тому, чтобы эта технология вышла из экспериментальной стадии и реализовала свой потенциал в реальной эксплуатации.

[1] Industry Adoption of Synthetic Data: Case Studies and Trends
[2] Synthetic data ‘unlikely to replace’ primary data, says report
[3] The benefits and limitations of generating synthetic data
[4] Synthetic Data: Use, Purpose, Challenges, and its Future Applications
[5] Ethical and Legal Considerations of Synthetic Data Usage
[6] Report: Using Synthetic Data in Financial Services
[7] AI’s new ally: Why synthetic data matters for government AI adoption
[8] Harnessing the power of synthetic data in healthcare: innovation, application, and privacy
[9] Unleashing the potential of synthetic data in healthcare, retail, and telecommunications

Комментарии (0)