За последние годы «большие данные» стали восприниматься более гибко и могут включать в себя объемы, которые ранее не рассматривались как «большие». При этом снизились затраты на хранение и обработку информации. Теперь инструменты работы с данными подобных масштабов доступны даже небольшим компаниям.
Важно помнить, что работа в этом направлении включает в себя разнообразные вызовы, связанные с ограничениями оборудования, типами источников данных, сложностью анализа. Данные нужно правильно собирать, хранить и обрабатывать, а для этого нужно выстроить правильную инфраструктуру.
Сегодня расскажем про решение, которое уменьшит неопределенность при работе с крупными данными и поможет максимально быстро построить с нуля удобную и недорогую систему для аналитических задач в вашей компании.
Когда данные становятся большими
Некоторые эксперты считают, что большие данные — это данные объема от 1 Тб, но big data не всегда связана исключительно с объемом. Речь идет о скорости поступления и обработки данных, их разнообразии.
Фактически о переходе к работе с биг датой говорят, когда классические системы, которые вы использовали, например, для создания глубоких и многогранных отчетов, уже не справляются и нужны специальные методы и технологии.
Чтобы консолидировать данные из разных систем, нужно построить масштабируемое хранилище. Трудность представляет собой выбор стека технологий под конкретные задачи.
Что строим: Data Warehouse или Data Lake
В сборе и хранении больших данных существует несколько подходов. Если компания в основном занимается структурированными данными и имеет четко определенные потребности в аналитике, метод Data Warehouse будет подходящим выбором. С другой стороны, если компания планирует работать с разнообразными, необработанными и неструктурированными данными и стремится к большей гибкости, стоит выбрать Data Lake.
Подробнее сравним принципы хранения данных.
Data Warehouse (DWH)
Компания работает со структурированными и обработанными данными, такими как записи транзакций, информация о клиентах и исторические бизнес-данные.
DWH оптимизированы для работы с бизнес-отчетностью, что делает их более подходящими для подготовки отчетов с использованием традиционных инструментов бизнес-аналитики (BI).
Используются специализированные СУБД, в которые стекаются данные определенного вида.
Data Lake
Компания работает с различными типами данных, включая структурированные и неструктурированные, такие как данные датчиков IoT, данные социальных сетей или мультимедийный контент/
Озера данных предназначены для хранения огромных объемов данных в разных форматах, что обеспечивает большую гибкость при анализе.
Данные принимаются в необработанном виде.
В некоторых случаях компании также используют комбинацию технологий DWH и Data Lake в гибридном решении Data Lakehouse, которое совмещает гибкость озер с четкой структурой DWH. Однако в этом подходе нужно надстраивать дополнительное ПО для трансформации данных и привлекать высококвалифицированных специалистов.
«Безразмерное» файловое хранилище
Как создать расширяемый и универсальный Data Lake для хранения файлов в разных форматах?
Традиционно для построения Data Lake разворачивают кластер Hadoop, но в этом подходе есть несколько ограничений:
сложно масштабировать;
при развертывании на своем железе необходимо самостоятельно поддерживать и обновлять систему;
при масштабировании добавляются новые ноды, а значит и процессорные ядра, которые вам могут быть не нужны.
Если вам требуется простой и понятный инструмент, который не требует глубокого погружения в процессы, при этом стоит меньше и легче масштабируется, обратите внимание на объектное облачное хранилище.
Компания может хранить в объектном хранилище любую информацию, а о масштабировании и железе позаботится облачный провайдер. Для Data Lake объектное хранилище особенно хорошо подходит благодаря своей «безразмерности» и простоте в управлении.
После создания такой инфраструктуры Data Lake можно в максимально короткие сроки стартовать и начать использовать данные.
Тарификация
В объектном хранилище CloudMTS тарифицируется холодное и горячее хранение.
В холодном объектном хранилище выгодно хранить файлы долго и редко к ним обращаться — например, это могут быть архивы электронных документов, файлы видеонаблюдения, бэкапы и так далее.
Горячее объектное хранилище применяется для хранения оперативной информации, доступ к которой необходим постоянно.
Важный плюс объектного хранилища — гибкая тарификация. Хранилище тарифицируется, как правило, в зависимости от общего объема данных, количества GET и PUT-запросов на запись и извлечение данных и объема исходящего трафика.
Чтобы минимизровать стоимость холодного хранения, мы в CloudMTS предлагаем его в стандартном (не геораспределенном) кластере. Сейчас для новых клиентов мы не будем учитывать GET и PUT-запросы в течение месяца. Таким образом, тарифицируется только общий объем данных и исходящий трафик.
Такая схема не требует значительных первоначальных инвестиций. Это отличная возможность запустить свой пилотный проект в облаке. Воспользоваться решением можно по ссылке.
Заключение: почему лучше строить в облаке
Любой разговор про облака — это разговор про скорость развертывания решений: легко подключать, увеличивать и уменьшать ресурсы, что невозможно с физической инфраструктурой. Необходимые ресурсы и сервисы для работы с данными можно получить в несколько кликов.
Объектное облачное хранилище легче связать с другой инфраструктурой проекта. Многие системы, которые предназначены для работы с большими данными, также умеют обращаться к данным, которые хранятся в объектном облачном хранилище.
Наконец, в таком хранилище низкая стоимость хранения, при этом компания платит только за фактически используемые ресурсы (а еще переводит CAPEX в OPEX). Облако горизонтально масштабируется, а значит не требуется вкладываться в дорогие серверные мощности.