Немного контекста.

  • Данные нужны везде — для понимания трендов и рисков, для улучшения клиентского опыта, для технической аналитики. 

  • Вместе с цифровизацией и экспоненциальным ростом объема и разнообразия данных растет потребность в надежных, масштабируемых, производительных хранилищах.

  • Чтобы самостоятельно извлекать ценность из данных и оперативно использовать их в работе, нужно построить и поддерживать соответствующую инфраструктуру. Это трудозатратный подход.

Сегодня поделимся нашим опытом, как снизить капиталовложения в оборудование с большим объемом памяти, добиться производительности и высокой отказоустойчивости при создании DataLake и корпоративного хранилища данных.

Почему недостаточно просто хранить данные

Есть множество причин хранить данные — от необходимости обеспечить непрерывность функционирования бизнеса за счет бэкапов до выполнения нормативных требований. Важный нюанс заключается в том, что во многих организациях накоплены огромные массивы информации.

Превращение сотен терабайт данных в практические знания непосредственно влияет на эффективность бизнеса. Data-driven подход позволяет быстро принимать решения, извлекая ценность из всего объема данных.

Большие данные помогают прогнозировать, сколько товара должно продаться в розничных точках, анализировать стоимости акций, строить дашборды, которые в режиме «одного окна» предоставляют разнообразные сведения из различных информационных систем.

Но для работы с нагрузками такого типа уже недостаточно классических СУБД. Чтобы эффективно справляться с обработкой «тяжелых» аналитических запросов на объемах больше 1 ТБ, используют массивно-параллельные (massive parallel processing, MPP) базы данных.

MPP-архитектура позволяет эффективно распараллеливать нагрузку при поступлении аналитических запросов, автоматически изолировать процессы разных пользователей и таким образом разграничивать ресурсы кластера.

Корпоративное хранилище данных на MPP-СУБД: для чего использовать?

Горизонтально-масштабируемые системы применяются во всех сферах бизнеса, где необходимо хранить и обрабатывать большие объемы данных.

Интересно наблюдать влияние MPP-СУБД на различные аспекты бизнес-операций. Далее разберем несколько ключевых кейсов, в которых уже бесполезно использовать традиционные СУБД.

Единое хранилище структурированных и неструктурированных данных

Крупные организации генерируют терабайты данных всех возможных типов. Со временем перечень используемых источников разнородной информации постоянно расширяется, что ведет к нескольким проблемам с интеграцией разрозненных компонентов: увеличивается время получения данных, падает их качество, растут затраты на инфраструктуру и обслуживание.

Логичное решение — создание единого быстрого хранилища, в котором все корпоративные данные будут доступны пользователям в удобном виде. Ядром такого решения становится MPP-СУБД, на которой реализуется хранилище данных. MPP-система позволяет достаточно легко подключать новые источники, проверять качество поступающих данных, хранить и обрабатывать их.

Подготовка данных для моделей машинного обучения

Рассмотрим на примере — как работают с данными в промышленной компании, где запущены цифровые двойники.

Разные информационные системы (ИС) отвечают за то, чтобы на производственной линии оказались необходимые детали, сработали станки, а датчики на каждом этапе производства определили, нет ли в продукции дефектов.

Данные о станках и продукции от ИС уходят в масштабируемое корпоративное хранилище, построенное на MPP-СУБД. Далее для их анализа используют ML-модели, которые помогают инженерам определять, какие параметры линии необходимо настроить для минимизации брака.  

Аналитика также улучшает операции по техническому обслуживанию оборудования, например, для прогнозирования срока службы станков. В целом, аналитика данных обеспечивает практически немедленную идентификацию неисправностей, что, в свою очередь, увеличивает общую надежность парка техники.

Отчеты и дашборды

Сотрудники могут затрачивать много времени, чтобы собирать из разрозненных систем данные для различной отчетности. Сотни аналитиков могут генерировать тысячи запросов, сильно нагружая ИТ-системы, предназначенные в первую очередь для оперативного учета. При этом в некоторых случаях данные обязательны и требуются регулярно — например, для подготовки операционной, управленческой, регуляторной или МСФО-отчетности

Кроме того, чтобы бизнес-юниты на всех организационных уровнях видели, как идут дела, нужно в режиме реального времени сводить данные в аналитические дашборды. В идеале нужно предоставлять пользователям в режиме «одного окна» самые разнообразные сведения, поступающие из различных информационных систем. Такая визуализация подразумевает еще и быструю реакцию на все происходящие события.

Чтобы решить обе эти задачи, нужна действительно быстрая СУБД.

Ищем эффективное решение для хранения и обработки данных

Структурированные данные можно хранить как в Data Lake, так и в Data Warehouse.

Основной задачей Data Lake является сбор большого объёма данных в сыром виде, который можно обрабатывать и анализировать впоследствии.

Data Warehouse оптимизирован для выполнения запросов и анализа. Это хранилище часто используется под отчётность и Business Intelligence (BI).

Бизнес ориентирован на универсальные решения, которые работают с данными любой структуры из разных источников, но подготовка инфраструктуры для такого хранилища — сложная задача.

В связи с рисками невозможно использовать западное проприетарное ПО, а open source требует серьезной доработки и мощной экспертизы внутри компании.  

Снизить затраты на создание инфраструктуры для корпоративного хранилища возможно с решениями российского вендора Arenadata. Сервисы Arenadata доступны в облаке MWS. Они позволят бизнесу без лишних затрат разворачивать базы данных для принятия управленческих решений на основе анализа большого объема информации, а также упростят обучение моделей искусственного интеллекта.

Arenadata DB (ADB) — аналитическая, распределенная СУБД с открытым исходным кодом. Arenadata DB предназначена для хранения и обработки информации объемом до десятков петабайт и позволяет создать корпоративное хранилище данных для финансовых отчетностей, систем клиентской аналитики и управления маркетинговыми компаниями. На основе сервиса можно построить корпоративные системы бизнес-аналитики: ADB интегрируются с любыми BI-системами, совместимыми с JDBC/ODBC. Кроме того, сервис позволяет быстро разворачивать и сворачивать зоны «песочниц» для пилотных проектов и проверки статистических гипотез, а также работать со всеми аналитическими инструментами в единой среде.

Arenadata Hadoop (ADH) — это корпоративный дистрибутив на базе Apache Hadoop. Сервис подходит для хранения и обработки больших объемов структурированных, слабоструктурированных и неструктурированных данных, создания инфраструктуры для анализа BigData, решения задач анализа данных и машинного обучения, а также непрерывного сбора и анализа различных метрик и журналов.

Arenadata QuickMarts (ADQM) — кластерная колоночная система управления базами данных. С её помощью вы можете в режиме реального времени генерировать аналитические отчеты разного плана, используя большие объемы информации, хранящейся в плоских витринах. ADQM многократно быстрее традиционных СУБД. ADB совместно с ADQM являются полноценной заменой SAP BW и на их основе можно создать BI-системы с более чем тысячей пользователей, способных обрабатывать запросы к сотням витрин.

Несмотря на то, что Arenadata разрабатывает продукты на базе проектов с открытым исходным кодом (MPP-СУБД, основанная на PostgreSQL), они существенно отличаются от «ванильных» версий. Продукты Arenadata протестированы и нативно совместимы между собой, сразу готовы к развертыванию и использованию. Они изначально разрабатывались как системы, способные работать в облаке, что позволяет легко мигрировать и быстро стартовать.

Arenadata в облаке MWS

Решения от Arenadata доступны как PaaS (platform as a service). При этом развернуть платформу хранения данных можно как на клиентских серверах, так и в публичном облаке.

Arenadata может быть интегрирована с другими облачными сервисами — например, DBaaS. Это позволяет использовать облачную базу данных в качестве источника для хранилища.

Сейчас мы работаем над развитием набора BI-инструментов для доставки данных пользователям. Это инструменты управления, которые с помощью различных отчетов и дашбордов в реальном времени обеспечивают руководителей информацией, необходимой для принятия решений. BI напрямую работает с технологиями Arenadata, обеспечивая быстрый доступ к данным СУБД.

Комментарии (7)


  1. VitaminND
    08.08.2024 10:25
    +3

    Рекламная статья с общими фразами. Жаль времени на прочтение.


    1. randall
      08.08.2024 10:25

      Готовим дальше серию материалов — если у вас есть пожелания, о чем именно хотелось бы узнать по этой теме, будем учитывать


  1. Ninil
    08.08.2024 10:25
    +3

    MPP-система позволяет достаточно легко подключать новые источники, проверять качество поступающих данных

    Прошу, прощения, но странное (я бы даже сказал, непрофессиональное) утверждение. Чем именно MPP в этом помогает? Какие ее уникальные характеристики?

    А в целом очередная рекламно-маркетинговая статья "ни о чем", написанная явно не специалистом.


    1. randall
      08.08.2024 10:25

      Спасибо за мнение. Про МРР будем говорить больше и вдумчиво в следующих материалах. Эти вопросы тоже затронем


      1. EvgenyVilkov
        08.08.2024 10:25

        Когда даже не понял смысла претензии в вопросе :)


  1. 0Bannon
    08.08.2024 10:25
    +2

    Одна вода


  1. EvgenyVilkov
    08.08.2024 10:25

    Как внезапно greenplum быстро стал adb