Актуальность
В эпоху данных и активной цифровизации вопросы эффективного управления данными становятся все более актуальными. От того, насколько эффективно компания управляет своими данными, зависит эффективность принятия управленческих решений, что влияет на выручку компании и чистую прибыль.
Вопросы управления данными включают задачи эффективного хранения и обработки данных (КХД, озера данных, ETL & ELT) в облаках и On-Premise, настройки интеграционных потоков (транспорт) для анализа в режиме реального времени и не только, вопросы предоставления данных во внешние системы и BI, процессы качества данных и каталогизации, безопасность данных, решения на базе расширенной аналитики и ИИ.
Александр Сулейкин, кандидат технических наук, генеральный директор и архитектор Big Data систем компании “ДЮК Технологии” дает прогноз на предстоящий год: какие технологии управления данными будут развиваться, с какими проблемами сталкивается бизнес и каких технологий не хватает для полноценного импортозамещения.
Облака, тренды и развитие ИИ
Российский облачный рынок рос двузначными темпами еще до начала исхода из России зарубежных игроков. По данным исследования Cloud.ru, за счет отказа от зарубежных IT-решений в 2022 г. рынок облачных сервисов в РФ вырос на 40% относительно предыдущего года. Сегменты IaaS/PaaS и SaaS выросли на 53% и 42% соответственно. В 2023 году объем российского рынка инфраструктурных облачных сервисов достиг 121 млрд рублей, это на 33,9% больше, чем в 2022 году.
Темпы роста снизились: рост год к году в 2022 году составил около 47%. В 2024 году завершится основная волна проектов по миграции инфраструктуры заказчиков с зарубежных облаков на российские. Это может и дальше снижать темпы роста данного сегмента.
В 2023 году цены на “облака” в России выросли в среднем на 15% из-за увеличения стоимости оборудования и софта, а также повышения спроса на облачные услуги.
По рынку больших данных в РФ прогнозируется рост до 319 млрд руб. к концу 2024 года.
Со стороны регуляторов наблюдается усиление контроля оборота данных, сбора и дальнейшей обработки данных через госсистемы.
AI постепенно становится частью инфраструктуры: задачи администрирования и мониторинга СУБД после внедрения AI существенно упрощаются. AI сможет давать прогнозы относительно пиковых нагрузок и своевременно рекомендовать и выполнять изменения в настройках СУБД. Этот тренд только начинает зарождаться. Мои ожидания здесь, что применение ИИ для управления инфраструктурой будет набирать обороты. Крупные вендоры начнут активно внедрять эти решения для повышения эффективности и уменьшения трудозатрат управления всей информационной инфраструктурой, различными СУБД, BI-системами, мониторинговыми системами и прочим.
Помимо ИИ для инфраструктуры, отмечу активное развитие и зарождение рынка ИИ для задач “умного поиска” информации в корпоративных базах знаний, ИИ для оптимизации SQL-запросов и аналитики. Мы уже наблюдаем запросы рынка на решения этого класса, и здесь видится становление рынка в последующие годы.
Также ИИ захватывает и другие ниши, такие как чат-боты, помощники разработчиков и голосовые ассистенты уже на корпоративном уровне. Развиваются целые ИИ-экосистемы, тесно связанные с “озерами” и хранилищами данных.
Помимо самих моделей, в том числе текстовых, которые развиваются стремительными темпами, мой прогноз такой: будет активно развиваться и вся обвязка, поддерживающие сервисы для работы ИИ, такие как векторные базы данных, ETL-решения к ним и коннекторы, системы управления моделями через интерфейс, параметрами, возможностью их легкого переобучения.
С точки зрения развития облаков основным драйвером роста здесь будут средние компании и малый бизнес, постепенно развиваются решения и для небольших компаний, в то время как крупные государственные компании все еще не могут рассматривать публичные облака в силу ограничений в части хранения и обработки данных на своем “железе”.
Отмечу, что использование облаков создает зависимость от облачного решения (облачный vendor lock-in). Поэтому компании опасаются выносить свои сервисы в облака, особенно когда речь о больших объемах данных. Зачастую сталкиваемся с гибридными кейсами, когда основная нагрузка (КХД, ETL) по хранения и обработке остается в контуре заказчика, а нетяжелые системы по нагрузке (Дата Каталог и подобные) выносятся в облака.
Думаю, этот гибридный тренд и дальше продолжится, однако некоторые управляемые облачные сервисы все еще не достаточно развитые, у многих провайдеров нет всех нужных заказчикам решений (управляемый BI, управляемый оркестратор, каталог и качество данных, управляемые распределенные движки).
Данные в госсекторе
12 января 2024 г. на сайте Минцифры появились методические рекомендации: до 1 января 2025 года компании госсектора обязаны полностью перейти на отечественные ОС, средства виртуализации, офисное ПО и средства защиты. Для систем управления базами данных срок перехода установлен на год позже. Отмечу, что такие меры существенно стимулируют государственные компании к активному переходу на отечественные решения в области управления данными, КХД и “озера” данных.
В виду практического отсутствия альтернатив для крупных государственных компаний наметился четкий выраженный переход на решения от Arenadata как в части классических хранилищ данных (ADB), так и в части “озер” данных на базе Apache Hadoop (ADH).
Однако из практики крупные проекты миграции хранилищ с Oracle, Vertica и Teradata или “озер” данных с Cloudera Hadoop на решения от Arenadata не проходят бесшовно, здесь отмечаю дефицит квалифицированных разработчиков обеих технологий, знающих как исходную систему, так и стек и особенности продуктов Arenadata. С учетом новизны продукта и отсутствия большого опыта у специалистов, многим приходится изучать продукты во время реализации проектов миграции.
Из проблем можно отметить большую стоимость таких проектов миграции и необходимость покупки дорогого оборудования для хранения данных.
Эксперты оценивают долю отечественного ПО в госсекторе в 75-90%. По данным Strategy Partners за сентябрь 2023 г., в сегменте операционных систем среди компаний госсектора доля использования российского ПО составляет не более 30% с прогнозом увеличения до 60% к 2026 г. В сегменте офисного программного обеспечения текущая доля отечественного ПО оценивается на уровне менее чем 20% с прогнозом увеличения до 80% к 2027 г. Решения СУБД, по оценке, будут расти на 15% в год.
В 2022 г. рынок в сегментах B2G и B2G+ на ~85% перешел с решений Oracle на продукты Postgres Pro. Высокий спрос на СУБД PostgreSQL, как ожидается, будет сохраняться до 2025 г.
Насыщение рынка управления данными
В 2022 году рынок систем управления и обработки данных оценивался в 56 млрд рублей, к 2027 году он составит 170 млрд рублей, показав рост более чем в три раза. Среднегодовой темп рост рынка в 2023–2027 годах ожидается в районе 24,9%. В 2027 году на долю российских вендоров придется около 167 млрд рублей, или 98% всего объема рынка.
В исследовании «BI-круг Громова» за 2023 год представлены более 80 систем бизнес-аналитики. Отмечается, что пик вывода на рынок новых отечественных систем с высокой долей вероятности уже позади.
Отмечается появление большого числа небольших игроков в области ETL решений, качества, BI-систем и каталогизации данных. Мой прогноз по развитию данного рынка — это консолидация бизнеса вокруг нескольких хорошо показавших себя функционально игроков и постепенное затухание остальных или их консолидация в рамках определенной ниши и ограниченного числа заказчиков.
Каталогизация данных
Уровень зрелости компаний постепенно повышается, и появляется нужда в каталогизации данных, распространении их внутри организации.
Многие крупные компании уже внедряют целые супермаркеты данных, тогда как другие пока не понимают, какую выгоду такой Каталог принесет. Практика показывает, что заказчикам непонятно, зачем инвестировать бюджеты в развитие таких решений.
Однако с ростом бизнеса, хранилищ и “озер” данных, количества потребителей данных и различных датасетов, требований к безопасности и конфиденциальности данных, роль каталога данных возрастает. Постепенно компании приходят к тому, что одного “озера” данных недостаточно для предоставления данных различным потребителям как в рамках организации, так и во вне.
Из основных трендов здесь — это постепенное развитие этого класса решений, консолидация рынка вокруг нескольких крупных игроков. Прогнозирую, что будет встраивание Дата Каталогов в крупные платформы данных вместе с различными СУБД, ETL-решениями и BI. Так, Аренадата уже интегрировала Дата Каталог в свою экосистему сервисов хранения, обработки и анализа данных.
Отмечу важные тенденции:
Фокусировка на использовании дата-каталогов в качестве облачного сервиса и использование решений с ИИ.
Использование дата-каталогов в качестве центральной точки для создания корпоративных "Data Fabric" и"Data Mesh".
Расширение функций работы с активными метаданными: поддержка стандартов, организация метаданных.
Увеличение количество поддерживаемых коннекторов до разных СУБД и других источников.
Ожидается, что продолжится тренд работы дата-каталогов в том числе как облачного сервиса и интеграция в решения технологий AI.
Импортозамещение
Отечественные решения для работы с данными конкурируют не только и уже не столько с зарубежными аналогами, сколько с электронными таблицами и файловыми хранилищами. Хотя использование open-source-софта может облегчить некоторые задачи по созданию инфраструктуры, базовые аспекты работы с данными остаются сложными для реализации. Например, заменить СУБД Oracle с Терабайтами данных — непростая задача.
По данным опроса, проведенного компанией Navicon, 80% крупных заказчиков заявили, что не планируют возвращаться к зарубежному ПО и останутся на независимых продуктах, даже если появится возможность купить лицензии на иностранные продукты. 20% опрошенных сообщили, что могут рассмотреть какие-то отдельные фрагменты западных решений, но глобально менять ИТ-ландшафт не готовы.
Крупные компании разрабатывают собственные BI-системы, заточенные под отрасль или задачу. Почти 70% российского рынка решений для сбора, аналитики и визуализации данных (BI-систем) на сегодня представлено иностранными вендорами. К 2024 году доля отечественного софта может достичь 50%.
Средний прирост BI-рынка в России с 2020 по 2022 г. составил 13%. По оценкам TAdviser, в 2022 г. объем российского рынка BI составил 45–50 млрд руб.
С точки зрения практической реализации проектов импортозамещения, как правило, все они сопровождаются большими затратами как на “железо”, так и на работы по миграции. Многие коммерческие компании не готовы инвестировать в такие проекты без понимания явной бизнес-выгоды. Другая проблема — это отсутствие квалифицированных кадров, специалистов с большим опытом внедрения нескольких технологий.
В целом, отечественные решения для работы с данными на российском рынке успешно конкурируют с зарубежными аналогами. Крупные заказчики готовы рассмотреть отдельные аспекты западных решений, но в долгосрочной перспективе рассматривают независимые российские продукты.
Развитие фабрики данных
Фабрика данных («фабрика данных» — data fabric, «сетка данных» — data mesh, «концентратор данных» — data hub) использует непрерывный анализ существующих, обнаруживаемых и выводимых активов метаданных для поддержки проектирования, развертывания и использования интегрированных и многократно используемых данных во всех средах, включая гибридные и мультиоблачные платформы.
Новое поколение технологий, позволяющих работать с “озерами” данных как с таблицами, в настоящее время представлено тремя разработками: Apache Iceberg, Apache Hudi и Databricks Delta Lake. Многие проекты создаются из потребности конкретной компании. Apache Iceberg появился из Netflix, Hudi — из Uber, а Delta Lake — из Databricks. Этот тренд на развитие фабрики данных четко прослеживается у крупных компаний в области телекома, ритейла, банков, где на данный момент более развита культура управления данными и создание продуктов, основанных на данных.
Также активно развивается быстрый SQL над Data Lake (“озерами” данных), потому что компаниям нужна оптимизация времени запросов. Банки, телеком и другие крупные игроки оперируют петабайтами данных, им требуется более производительные решения для работы с такими объемами.
Мои ожидания здесь, что компании с развитой “фабрикой данных” будут активнее развиваться внутри процессы каталогизации, управления качеством данных и совершенствование механизмов быстрого доступа к данным.
Резюме
Плюс большого развивающегося рынка — много аналитики от разных поставщиков информации: участников рынка, отраслевых ассоциаций, рейтинговых и аналитических агентств. Вместе с большим прикладным опытом в проектах внедрения систем класса Big Data & AI, все это позволяет сложить комплексную картинку и давать прогнозы по текущим проблемам, развитию и трендам.
Суммируя, озвучу основные тренды на этот год:
Большее использование облаков и развитие облачных провайдеров, развитие управляемых облачных сервисов и решений на базе ИИ для управления инфраструктурой.
Активное развитие ИИ-моделей и обвязки, чат-боты, “умный поиск” в базах знаний, голосовые помощники и ассистенты, а также ИИ-модели для помощи разработчикам, оптимизации SQL-запросов, ИИ для работы с текстом и поддерживающие инфраструктурные сервисы.
Госсектор обязан использовать исключительно решения отечественного ПО, и это будет существенным драйвером развития решений из реестра.
На рынке появляются новые небольшие игроки, предлагающие свои ETL и BI решения.
Нехватка опытных специалистов, в том числе по миграции решений, знающих несколько технологий.
Развитие быстрого SQL над “озерами” и хранилищами данных, постоянная оптимизация времени запросов.
С ростом зрелости у компаний появляется потребность в каталогизации данных и их распространении внутри организации.
Российские компании активно переходят на отечественные аналоги ПО в части СУБД, BI, ETL, Дата Каталогов и других решений.
Бурное развитие фабрики данных и подхода Delta Lake, добавление этого функционала в платформы данных.