ViPR – элемент программно-определяемого центра обработки данных
ViPR реализует для сегмента хранения данных примерно то же, что VMware сделала для сегмента серверов – создает возможность абстрагирования ресурсов, формирования пулов и внедрения автоматизации для инфраструктуры. При помощи API-интерфейсов VMware пулы хранения, созданные в EMC ViPR, представляются в VMware vSphere в виде простого массива. Кроме того, контроллер ViPR обеспечивает интеграцию с VMware vStorage API for Storage Awareness (VASA), vCOps, а также со средствами управления и оркестрации VMware SDDC, vCloud Automation Center и vCenter Operations Manager. Таким образом, в ViPR управление хранилищем может осуществляться как самостоятельным объектом, который представляется как таковой в виртуальных средах Microsoft и OpenStack, так и в рамках программно-определяемого центра обработки данных VMware.
Главной целью разработки EMC ViPR являлось упрощение и удешевление управления существующими гетерогенными инфраструктурами хранения, а также создание простой системы управления данными и доступа к данным в распределенных кластерных файловых системах, например, на базе hadoop-кластеров, а также в облачных средах.
Базовая функциональность EMC ViPR находится в свободном доступе без какой-либо оплаты и без ограничения по времени пользования. Она представлена компонентами: ViPR Controller и SolutionPack (M&R – мониторинг и отчетность). Компоненты ViPR Services, которые обеспечивают поддержку объектного, блочного и HDFS-доступа, лицензируются отдельно. Для развертывания ViPR с базовой функциональностью достаточно одной виртуальной машины VMware ESX с двумя процессорами. Для ViPR Solution Pack необходимо еще четыре виртуальных процессора.
Развернуть ViPR можно не только на оборудовании EMC, но и на серверах сторонних производителей. Платформа может использоваться как для управления инфраструктурой хранения, так и для управления данными, размещенными на hadoop-кластерах. В этом случае ViPR дополнительно разворачивается в качестве агента на отдельном узле.
EMC ViPR предназначена для облачных сред и сервис-провайдеров, а также для тех корпоративных заказчиков, которые переходят на модель «ИТ как услуга» и занимаются созданием внутреннего облака с веб-доступом. ViPR разработана на базе глобально-распределенной архитектуры, что позволяет обойтись без перемещения больших объемов данных по сети. Платформа обеспечивает горизонтальное масштабирование по мере роста количества устройств и объемов данных, исключает единую точку отказа и позволяет построить среду с полностью автономным управлением и выделением ресурсов.
Уровень управления
ПО ViPR Controller предназначено для упрощения управления инфраструктурой хранения (включая гетерогенную) как на локальном, так и глобальном уровнях. Если сравнивать ViPR Controller с классическими виртуализаторами СХД, он представляет собой решение «Out-Of-Band», поскольку не хранит внутри себя никакие данные и не пропускает через себя никакой поток информации и по сути не является ни СХД, ни виртуализатором хранения данных. ViPR Controller занимается только управлением (администрированием) пула хранения и связанными с ним сервисами. Создание пулов хранения и дальнейшее назначение их приложениям происходит через портал самообслуживания.
ViPR Controller может существенно улучшить функции автоматизации, в частности, сократив вредя администрирования, поскольку он виртуализирует базовую инфраструктуру хранения. Функции управления хранилищем, такие как выделение ресурсов и миграция, абстрагируются таким образом, чтобы различными массивами хранения можно было управлять как единым пулом ресурсов с одной консоли.
При этом к каждому пулу «привязываются» соответствующие массивы, средства защиты данных, технологические настройки и другие. Затем каждый пул соотносится с заданным сервисным уровнем обслуживания.
После создания пулов хранения они разделяются для использования приложениями. Для этого служит портал самообслуживания. В нем можно просматривать каталог сервисов хранения данных и выбирать ресурсы сервисов, наиболее подходящие для своих задач.
Для большинства традиционных инфраструктур хранения EMC ViPR будет предоставлять только уровень управления, который выполняет обнаружение хранилища, создание виртуальных пулов хранения, а также назначение этих пулов приложениям. При этом управление всем обменом данных остается на уровне массива.
ViPR Controller поддерживает все типы доступа к данным: блочный, файловый, объектный, а также доступ к hadoop-кластерам (хранение данных на базе распределенной файловой системы – HDFS) по протоколам iSCSI, NFS, REST и др. На блочном уровне ViPR умеет работать с зонированием SAN (SAN Zoning, коммутаторы Brocade и Cisco).
В новой версии ViPR Controller появилась поддержка стандартных дисков и большого числа сторонних массивов хранения благодаря встроенной поддержке или через подключаемый модуль OpenStack Cinder. Полный список встроенной поддержки включает в себя решения EMC, Hitachi Data Systems (AMS 2100, USP-V, HUS VM и VSP) и NetApp FAS (только 7-mode), а также стандартные системы хранения. При установке OpenStack Cinder ViPR поддерживает также массивы Dell, HP и IBM. Фактически, ViPR получил поддержку большинства систем хранения, имеющихся на рынке: Dell EqualLogic, HDS (HUS), HP 3PAR (StoreServ), HP Lefthand (StoreVirtual), Huawei T/Dorado, IBM DS8000, IBM Storwize Family/SVC, IBM XIV, LVM (Reference), NetApp, Nexenta, Solaris (ZFS), SolidFire, Zadara Storage и других. Единая панель в ViPR 2.0 позволяет автоматизировать и стандартизировать управление существующей инфраструктурой хранения и одновременно реализовать поддержку новой, работающей на основе политик.
Помимо этого, в новой версии добавлена поддержка стандартных дисков и сервисов управления блочными данными на основе EMC ScaleIO. ViPR Controller 2.0 стал поддерживать и конвергентные инфраструктуры на базе VCE Vblock Systems.
Была расширена поддержка массивов EMC за счет улучшенной интеграции и администрированию EMC VPLEX, EMC RecoverPoint, SRDF и Data Domain. В число новых возможностей вошло управление данными на нескольких площадках благодаря функциям пространственного масштабирования хранилища, которые обеспечивают доступ к данным, их целостность и защиту. Расширена многопользовательская функциональность для поддержки географически распределенных систем хранения, которые масштабируются до сотен клиентов в нескольких местоположениях в одном пространстве имен. Это значит, что теперь сервисы управления объектными данными ViPR могут работать с несколькими местоположениями, предлагая самые современные функции пространственной репликации и пространственного распределения для обеспечения принципиально нового уровня эффективности и производительности. Сервисы управления объектными данными ViPR предлагают дополнительные функции обеспечения соответствия требованиям различных регуляторов, а также поддержку API-интерфейса EMC Centera CAS (Content Addressable Storage). Вследствие этого пользователи EMC Centera могут по-прежнему использовать уникальные функции долговременного хранения, имеющиеся в их приложениях, на любой платформе, поддерживаемой ViPR, без изменения существующего ПО.
Поскольку ViPR Controller находится в свободном доступе, можно сказать, что ЕМС в части SRM-решений продвигается в сторону их большей открытости и доступности.
Мониторинг событий
VIPR SolutionPack (Reporting and Monitoring) включает в себя целый ряд возможностей. Так, например, доступна визуализация тенденций загрузки ресурсов хранения по сервисным уровням и по виртуальным пулам хранения (virtual storage pool – VSP) с детализацией по виртуальным массивам (virtual storage arrays – VSA). Также есть возможность визуализации тенденций использования VSA по сервисным уровням и визуализация тенденций использования ресурсов хранения по арендаторам. Помимо этого, система позволяет производить мониторинг VIPR-событий (предупреждения, ошибки и др.), а также их представление за определенный временной период.
Уровень данных
В случае традиционных рабочих нагрузок на базе файлов и блоков платформа EMC ViPR «самоустраняется» и передает базовому массиву роль уровня данных, размещенных в этой инфраструктуре. К такой модели относится большинство рабочих нагрузок приложений в центре обработки данных, и, по оценке EMC, такие нагрузки вырастут к 2016 г. примерно на 70%. Но одновременно появляются новые рабочие нагрузки приложений, которые часто работают с огромными объемами и потоками данных и обслуживают тысячи или миллионы пользователей. Это так называемые технологии «третьей платформы», которые связаны с широким распространением больших данных, мобильных систем, социальных сетей и облачных услуг, и создают в тысячи раз больше информации, чем их предшественники, требуя новых инфраструктур хранения
Особенности этих новых приложений предполагают совершенно новую архитектуру. Обязательное требование массивной масштабируемости обязывает использовать более простой подход к инфраструктуре хранения — объектное хранение данных. При этом способы доступа также меняются: традиционные протоколы (такие как NFS и iSCSI) уступают место новым, таким как HDFS, которые известны как основа базы данных Hadoop. Для поддержки этих новых архитектур в платформе EMC ViPR реализованы объектные сервисы данных.
Объектные сервисы данных ViPR обеспечивают доступ через HDFS и API-интерфейсы на базе REST, совместимые с Amazon S3 и OpenStack Swift, и благодаря этому приложения, написанные под эти API-интерфейсы, работают без каких-либо проблем. Они также поддерживают существующие массивы EMC Atmos, EMC VNX и EMC Isilon в качестве постоянного уровня, а также массивы сторонних производителей и решения на базе стандартных серверов. На данный момент в этот список входит около 20 линеек СХД.
ViPR «видит» объекты в виде файлов, что позволяет получить производительность, характерную для файлового доступа, и исключить задержки, присущие объектному хранению данных. Кроме того, сервис данных HDFS ViPR позволяет выполнять локальную аналитику в масштабе всей гетерогенной среды хранения. В результате чрезвычайно трудоемкая и ресурсоемкая задача управления гетерогенными средами хранения сама собой исчезает.
Решение облегчает переход к «третьей платформе», предоставляя возможность согласованного и полностью автоматизированного управления классическими и новыми инфраструктурами хранения, а также обеспечивает интеграцию со средствами управления и оркестрации более высокого уровня, предлагаемыми VMware, OpenStack и Microsoft, благодаря чему система хранения бесшовно интегрируется в систему рабочих процессов ЦОД и бизнес-процессов.
ViPR HDFS data service
Apache Hadoop представляет набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов, и состоит из нескольких модулей. Hadoop Distributed File System (HDFS) – распределенная файловая система, которая записывает данные на стандартные серверы, обеспечивая высокую агрегированную пропускную способность всего кластера. Hadoop YARN (Yet Another Resource Negotiator) – платформа управления ресурсами, отвечающая за управление вычислительными ресурсами в кластерах и использование их пользовательскими приложениями. Hadoop MapReduce – модель программирования для обработки данных большого объема. Экосистема Hadoop – это экосистема Apache-проектов, таких как Pig, Hive, Sqoop, Flume, Oozie, Spark, HBase, Zookeeper и т. д., которые повышают ценность проекта и улучшают его использование.
Архитектура ViPR HDFS Data Service
Главными компонентами HDFS являются NameNode и DataNode. Первый представляет собой центральный элемент HDFS, который служит в качестве сервера метаданных для файловой системы. HDFS управляется через выделенный сервер NameNode, который хостит индексы файловой системы, и вторичный NameNode, который может генерировать снимки структур памяти в, предотвращая таким образом повреждение файловой системы и снижая потери данных. В HDFS отдельные файлы разбиваются на блоки фиксированного размера. Эти блоки хранятся в кластере на одном или более узлов, ссылки на которые хранятся в DataNodes. Узлы DataNode служат для обработки запросов по чтению и записи по указанию NameNode.
Apache Hadoop YARN — эта технология управления кластером является ключевой особенностью второго поколения Hadoop и характеризуется как высокомасштабируемая распределенная операционная система для приложений, ориентированных на работу с большими данными. YARN сочетает в себе централизованный менеджер ресурсов, согласующий способ использования приложением ресурсов Hadoop-системы с агентами управления узлами (Node Manager), которые, в свою очередь, мониторят обработку операций отдельными узлами кластера. Отделение HDFS от MapReduce с помощью YARN делает Hadoop-среду более подходящей для продуктивных (транзакционных) приложений, которые не могут ждать завершения пакетных заданий.
Стоит отметить, что нативная реализация Hadoop имеет целый ряд ограничений, среди которых ограниченность пространства имен и производительность кластера, низкая надежность файловой системы, поддержка только одного протокола, высокие затраты на хранение, неэффективность обработки небольших файлов, устаревшая архитектура, а также отсутствие возможностей корпоративного уровня и мультиаренды. Остановимся подробнее на этих ограничениях.
Пространство имен файловой системы HDFS управляется одним сервером и хранится в его памяти. Его размер ограничивается объемом доступной памяти на NameNode, а производительность файловой системы, в свою очередь, ограничивается производительностью NameNode.
До версии Hadoop 2.x, NameNode был единой точкой отказа. Отказ NameNode приводил к недоступности кластера. Недавно в HDFS была добавлена опция High Availability, но она имеет ограничения: Hot Standby NameNode не может активно обрабатывать запросы, помимо этого, для поддержки STAND-BY NameNode необходимо новое оборудование.
Нативная реализация HDFS обеспечивает поддержку только одного протокола для доступа к данным. Объектный и файловые методы доступа не поддерживаются.
По умолчанию HDFS выполняет трехкратную репликацию всех блоков данных. Это приводит к удвоению затрат на хранение, что становится крайне избыточным, например, при архивировании.
HDFS является неэффективным при обработке большого объема мелких файлов, потому что метаданные для каждого файла в файловой системе должны быть сохранены в памяти одного сервера – в NameNode. Например, миллион файлов потребляет около 3 ГБ оперативной памяти.
Поскольку HDFS была спроектирована почти 10 лет назад, она была ориентирована на ненадежные потребительские магнитные жесткие диски и устаревшую сетевую инфраструктуру (1GbE). Предполагалось, что узким местом является сеть, а не диск, что уже неверно для современных инфраструктур.
Файловой системе HDFS не хватает функций корпоративного класса, таких как геораспределенность, аварийное восстановление, консистентные снимки, дедупликация, контроль параметров и т. д. Кроме того, не поддерживаются функции мультиаренды, которые могут предоставлять гарантированную изоляцию данных и производительность для множества компаний. Как результат – множество изолированных кластеров с низкой утилизацией.
Избавиться от вышеизложенных ограничений и сделать hadoop-кластера максимально приближенными к корпоративным требованиям позволяют ViPR HDFS data service, независимо от того, устанавливаются ли они на файловых серверах или/и на ECS. Это hadoop-совместимая файловая система (HCFS, Hadoop Compatible File System), которая делает возможным выполнение приложений, написанных для Hadoop 2.2, на файловых массивах и/или на ЕМС ECS (Elastic Cloud Storage) и управляемых ViPR Controller. Когда ViPR HDFS клиент устанавливается на каждый узел кластера, все запросы к узлу обрабатываются ViPR HDFS data service client (JAR), и нативные компоненты уже не используются. ViPR HDFS data service увеличивает эффективность, производительность и надежность Hadoop, при этом обеспечивая целый ряд преимуществ.
Так, ECS-устройство может легко масштабироваться до петабайтных и экзабайтных размеров. При этом архитектура ViPR data services/ECS позволяет осуществлять масштабирование по производительности и емкости хранения независимо друг от друга. ECS обеспечивает доступ в рамках одной платформы с поддержкой нескольких API-объектов, а также HDFS-доступ, что облегчает жизнь разработчикам приложений. Геораспределенная защита данных обеспечивает полную безопасность информации при сбоях на сайте и в случае каких-либо катастроф. Поскольку данные имеют высокую консистенстность, приложения могут обращаться к ним через любой сайт ECS, независимо от того, где была записана последняя информация.
Стирание кодирования обеспечивает эффективность хранения данных без ущерба для их защиты или доступа к ним. Механизм хранения ECS реализует схему стирания кодирования Reed Solomon 12/4, в которой блок разбивается на 12 фрагментов данных и 4 фрагмента кодирования. Результирующие 16 фрагментов распределяются между узлами на локальном сайте. Механизм хранения может восстановить весь блок от минимума из 12 фрагментов. Кроме того, ViPR data services/ECS адаптируется для обработки большого количества как маленьких, так и больших файлов. Используя технологию, называемую бокс-картинг (box-carting), ECS может выполнять большое количество пользовательских транзакций одновременно с очень незначительной задержкой. Это позволяет ECS поддерживать рабочие нагрузки с высокими операционными показателями. ECS также эффективен при обработке очень больших файлов. Все узлы могут одновременно обрабатывать запросы на запись одного и того же объекта, а каждый узел может писать в набор из трех дисков.
Стоит также отметить, что ViPR HDFS data service позволяют выбрать нескольких Hadoop-вендоров и объединить их для совместного использования сервисов.
Расширенные пакеты для программно-определяемых систем хранения
Существенные изменения затронули и пакеты для программно-определяемых систем хранения EMC – ViPR SRM и Service Assurance (SA) Suite. Обновленные комплексы дают максимально наглядное представление сложных сред с оборудованием разных поставщиков. Помимо поддержки широкого ряда платформ EMC и сторонних поставщиков, пакет ViPR SRM обеспечивает улучшенную интеграцию с ViPR и VPLEX, благодаря чему организации получают новые возможности распределения расходов между подразделениями для внедрения модели «ИТ как услуга» вне рамок SLA. В число усовершенствований пакета ViPR SRM также вошло расширенное управление виртуальными хранилищами из консоли ViPR. В SAS 9.3 реализована интеграция с VMware NSX, которая обеспечивает глубокую визуализацию вычислительной и сетевой инфраструктуры в физических и виртуальных средах.
Семейство продуктов ViPR реализует две основные функции – виртуализация управления ресурсами и предоставление доступа к данным для облачных инфраструктур, при этом решения, в первую очередь, нацелены на большие инфраструктуры крупных ЦОД.
Если стоит задача автоматизации процесса выделения дисковых ресурсов для виртуальных машин, а также отслеживания изменений конфигурации среды, ViPR Controller – решение, автоматизирующее работу с СХД любого производителя. Во время создания виртуальной машины в любой среде виртуализации сразу вместе с ней будут выделены необходимые диски. За выделением ресурсов и их использованием можно централизованно следить с помощью ViPR SRM, который также поддерживает решения многих производителей СХД. Продукт ViPR построен так, что управлять и мониторить можно среду любого размера, распараллелив задачу на множество виртуальных машин. Для повышения эффективности ЦОД теперь не нужно дорогого аппаратного виртуализатора, который размещается на пути обмена данных, добавляя дополнительные задержки в среду и замедляя работу приложений.
ViPR Data Services предоставляет возможность создания управляемых облачных ресурсов хранения данных любого типа (объектного, файлового, блочного) на базе обычных серверов с локальными дисками. Данное решение обладает впечатляющими показателями масштабируемости и разрабатывалось с учетом возможности предоставления облачных ресурсов хранения в аренду.
С помощью ViPR Controller данный тип хранилищ можно успешно интегрировать в ЦОД, где используются традиционные системы хранения разных производителей. Виртуализация управления создаст единый консолидированный пул распределения ресурсов из серверов с локальными дисками(DAS), СХД сетей хранения данных(SAN) и СХД сетевого подключения(NAS).
По вопросам обращаться: emc@muk.ua.
Стоит отметить, что решения EMC через группу компаний доступны теперь в Молдове, Грузии, Азербайджане и Казахстане – недавно на территории этих стран был подписан дистрибуторский контракт.
МУК-Сервис — все виды ИТ ремонта: гарантийный, не гарантийный ремонт, продажа запасных частей, контрактное обслуживание