На протяжении десятилетий управление данными означало, по сути, сбор, хранение и периодический доступ к ним. В последние годы все изменилось, поскольку компании ищут критически важную информацию, которую можно извлечь из огромных объемов данных, генерируемых, доступных и хранящихся в различных местах, от корпоративных центров обработки до облачных и периферийных сред. В связи с этим аналитика данных - благодаря таким современным технологиям, как искусственный интеллект (AI) и машинное обучение (ML) — стала обязательной функцией, а в 2022 году ее значение возрастает еще больше. Предприятиям необходимо быстро анализировать данные — в основном неструктурированные — для поиска информации, которая будет определять бизнес-решения. Для этого им также необходимо создать современную среду данных.
Ниже приведены несколько тенденций в управлении данными, которые выйдут на первый план в 2022 году.
Озера данных становятся все более организованными, но пробел в неструктурированных данных все еще существует
Существует два подхода к анализу корпоративных данных. Первый заключается в получении данных из бизнес-приложений, таких как CRM и ERP, и их импорте в хранилище для использования в BI-инструментах. Сейчас эти хранилища данных перемещаются в облако с помощью таких технологий, как Snowflake. Этот подход хорошо понятен, поскольку данные имеют согласованную схему.
Второй подход заключается в том, чтобы взять любые необработанные данные и импортировать их непосредственно в озеро, не требуя никакой предварительной обработки. Это привлекательно, поскольку в озеро можно направить любой тип данных, и именно поэтому Amazon S3 превратилось в крупнейшее озеро данных. Проблема в том, что некоторые типы данных обрабатываются легче, чем другие. Например, файлы журналов, данные геномики, аудио-, видео-, графические файлы и т.п. не очень хорошо вписываются в хранилища данных, поскольку у них нет последовательной структуры, что затрудняет поиск по ним. Из-за этого озера данных в конечном итоге превращаются в болота: слишком сложно искать, извлекать и анализировать то, что вам нужно.
В настоящее время основным трендом, который сохранится в течение 2022 года, является появление "домов озер данных", ставших популярными благодаря DataBricks, для создания озер с полуструктурированными данными, имеющими определенную семантическую согласованность. Например, файл Excel похож на базу данных, хотя таковой не является, поэтому дома озер данных используют согласованную схему полуструктурированной информации. Хотя это работает для .csv-файлов, файлов Parquet и другой полуструктурированной информации, но все равно не решает проблему неструктурированных данных, поскольку они не имеют очевидной общей организации. Вам нужен какой-то способ индексирования и вывода общей конструкции для неструктурированных данных, чтобы их можно было оптимизировать для анализа. Оптимизация неструктурированных данных для аналитики — это большая область для инноваций, особенно учитывая, что по меньшей мере 80% всей существующей сегодня в мире информации является неструктурированной.
Гражданская наука станет влиятельным сопутствующим трендом 2022 года
Стремясь демократизировать науку о данных, поставщики облачных услуг будут разрабатывать и выпускать все больше приложений машинного обучения и других специальных инструментов, таких как рабочие процессы машинного обучения для конкретных областей. Это важная тенденция, поскольку со временем уровень знаний, необходимых для кодирования, будет снижаться. Это откроет машинное обучение для гораздо большего числа рабочих мест: некоторые из этих научных сотрудников будут работать в центральных ИТ-отделах, а кто-то — в бизнес-подразделениях. Amazon Sagemaker Canvas — это лишь один из примеров инструментов с низким уровнем кодирования/без кодирования, которые мы увидим в 2022 году. Гражданская наука только зарождается, но это определенно то, куда движется рынок, и предстоящая тенденция в области данных в 2022 году. Платформы данных и решения для их управления, обеспечивающие простоту поиска, извлечения и использования информации, подобную потребительской, будут набирать популярность.
Аналитика "правильных данных" превзойдет аналитику Больших Данных в качестве ключевого тренда 2022 года
Большие Данные становятся слишком велики и создают болота информации, которые трудно использовать. Точный поиск нужных данных на месте, независимо от того, где они были созданы, и их использование для аналитики является переломным моментом, поскольку это позволит сэкономить много времени и мануальных усилий, обеспечивая при этом более релевантный анализ. Таким образом, вместо Больших Данных новой тенденцией станет развитие так называемой аналитики "правильных данных".
Аналитика данных "на месте" будет доминировать
Некоторые прогнозисты говорят, что облачное озеро данных станет конечным местом, где будет собираться и обрабатываться информация для различных исследований. Хотя облачные озера, безусловно, начнут набирать обороты, данные накапливаются повсюду: на периферии, в облаке и локальных хранилищах. В связи с этим возникает необходимость в некоторых случаях обрабатывать и анализировать данные там, где они находятся, а не перемещать их в какое-то централизованное место, потому что так быстрее и дешевле. Как не только искать данные на периферии, но и обрабатывать большую их часть локально, еще до отправки в облако? Для более крупных и сложных проектов можно использовать облачные аналитические инструменты. В будущем все чаще будут появляться "периферийные облака", в которых вычисления происходят на границе центра обработки данных, вместо их отправки в облако.
Независимое от хранения управление данными станет важнейшим компонентом современной фабрики данных
Фабрика данных — это архитектура, обеспечивающая видимость данных и возможность их перемещения, репликации и доступа к ним через гибридные хранилища и облачные ресурсы. Благодаря аналитике в режиме, близком к реальному времени, она позволяет владельцам информации контролировать местонахождение данных в облаках и хранилищах, чтобы они находились в нужном месте в нужное время. ИТ-специалисты и руководители систем хранения будут выбирать архитектуру фабрики данных, чтобы высвободить информацию из хранилища и обеспечить управление, ориентированное непосредственно на данные, а не на хранилище. Например, вместо того чтобы хранить все медицинские изображения на одном сетевом хранилище, специалисты по хранению данных могут использовать аналитику и отзывы пользователей для сегментации этих файлов, например, копируя медицинские изображения для доступа машинного обучения в клинических исследованиях или перемещая важную информацию в неизменяемое облачное хранилище для защиты от программ-вымогателей.
Мультиоблако будет эволюционировать вместе с различными стратегиями работы с данными
Сегодня многие организации используют гибридную облачную среду, в которой основная часть данных хранится и резервируется в частных центрах обработки с использованием систем нескольких поставщиков. Поскольку объем неструктурированных (файловых) данных растет экспоненциально, облако используется в качестве вторичного или третичного уровня хранения. Бывает сложно увидеть все эти разрозненные системы, чтобы контролировать затраты, обеспечивать производительность и справляться с рисками. В результате ИТ-руководители понимают, что извлечение пользы из данных в облачных и локальных средах является сложной задачей. Мультиоблачные стратегии работают лучше всего, когда организации применяют отдельные облака для различных сценариев использования и датасетов. Однако при этом возникает другая проблема: перемещение информации обходится очень дорого, если необходимо впоследствии перенести данные из одного облака в другое. Более современная концепция заключается в том, чтобы подтягивать вычисления к данным, которые находятся в одном месте. Таким центральным местом может быть колокейшн-центр с прямыми связями к поставщикам облачных услуг. Мультиоблачность будет эволюционировать на основе различных стратегий: иногда вычисления приходят к вашим данным, или данные находятся в нескольких облаках.
Предприятия продолжают испытывать растущее давление, требующее осуществления стратегий управления данными, которые позволят им извлекать полезные сведения из информационного цунами для принятия важных бизнес-решений. Центральное место в этих усилиях займет аналитика, а также создание открытых и стандартизированных фабрик данных, которые позволят организациям взять всю эту информацию под контроль для анализа и принятия мер.
Приглашаем всех желающих на открытое занятие «Когортный анализ и сегментация». На примерах реальных компаний мы поймем, зачем и когда нужны эти виды анализа и к каким ошибкам может привести отсутствие практики их применения.
По ходу занятия вы научитесь использовать эти аналитические подходы, а также будете знать, какие самые распространенные варианты сегментов и когорт используются в продуктовой аналитике. Регистрация доступна по ссылке.
Комментарии (2)
Paranoich
05.05.2022 16:47December 22, 2021
Как вам там, в прошлом? Тут, внезапно, больше трети 2022 года прошло и мир немного изменился.
Ivan22
ничего не понятно.