Представленные на рынке системы хранения данных, в основной своей массе, мало чем отличаются друг от друга, ведь многие вендоры заказывают оборудование едва ли не у одних и тех же ODM-производителей. У нас же почти все свое, начиная от шасси и заканчивая контроллерами, технологиями типа RAID 2.0+ и софтом.



Под катом немного деталей про то, что такого необычного может быть в каждом из узлов системы хранения данных.

Что интересного на уровне модуля


Конструкционно все современные СХД от любого производителя выглядят одинаково: во фронтальную часть стального коробчатого шасси устанавливаются контроллеры, в тыльную — интерфейсные модули. Есть еще блоки питания и вентиляции. Казалось бы, все привычно и стандартно. Но на самом деле мы внедрили в эту парадигму много всего интересного.



Начнем с монтажа элементов системы хранения в шасси. Магнитных 3,5-дюймовых дисков в СХД становится меньше, начинают преобладать гибридные системы и all-flash. Но даже несколько дисковых накопителей с частотой вращения шпинделя до 15 тысяч оборотов в минуту создают вибрацию, которую нельзя не учитывать. У нас на этот случай выработан целый свод рекомендаций – как распределять по дисковым полкам магнитные накопители с различными параметрами.

Пусть даже на какие-то доли процентов, но на надежность это влияет. А в масштабе крупного ЦОДа доли процентов на один накопитель превращаются в ощутимые показатели отказов и сбоев. Чтобы вибрация отдельных дисков в меньшей степени передавалась через жесткую конструкцию шасси, салазки под диски мы оборудуем резиновыми или металлическими демпферами. Чтобы нейтрализовать еще один источник вибрации в СХД  – модули вентиляции – ставим двунаправленные вентиляторы, а все вращающиеся элементы изолируем от корпуса шасси.

Для шпиндельных накопителей минимальная тряска — уже проблема: головки начинают сбиваться, производительность существенно падает. SSD – другое дело, вибрации они не боятся. Но надежная фиксация компонентов по-прежнему важна. Взять процесс доставки: ящик могут уронить или небрежно швырнуть, поставить боком или вверх тормашками. Поэтому у нас все компоненты СХД закрепляются строго в трех измерениях. Это исключает возможность их смещения при транспортировке, предохраняет разъемы от выскакивания из гнезд при случайном ударе.



Когда-то давно мы начинали с разработки вычислительной техники для телеком-индустрии, где стандарты работоспособности по температуре и влажности традиционно высоки. И мы перенесли их и на другие направления: металлические детали СХД не окисляются даже при повышенной влажности – за счет применения никелирования и оцинковки.

Тепловой дизайн наших СХД разрабатывался с упором на равномерность распределения температуры по шасси – чтобы не допустить ни перегрева, ни слишком сильного охлаждения какого-либо угла дисковой полки. Иначе не избежать физической деформации – пусть даже незначительной, но все-таки нарушающей геометрию и способной привести к сокращению срока работы оборудования. Таким образом выигрываются какие-то доли процента, но на общую надежность системы это все-таки влияет.

Полупроводниковые тонкости


Важные компоненты СХД мы дублируем: если что-то выйдет из строя – всегда есть подстраховка. К примеру, модули питания у младших моделей работают по схеме 1+1, у более солидных – 2+1 и даже 3+1.



Контроллеры, которых в системе хранения как минимум два (одноконтроллерные системы мы не поставляем) тоже резервируются. В СХД 6800-й и более старших серий резервирование производится по схеме 3+1, в младших моделях – 1+1.

Зарезервирован даже модуль управления (management board), который непосредственно на работу системы не влияет, а нужен только для изменения конфигурации и мониторинга. Кроме того, любые интерфейсные платы расширения для СХД у нас продаются только парами, чтобы у клиента имелся резерв.

Все компоненты — БП, вентиляторы, контроллеры, менеджмент-модули и т.п. — оснащены микроконтроллерами, способными реагировать на определенные ситуации. Например, если вентилятор начинает сам по себе сбавлять обороты, на управляющий модуль посылается сигнал тревоги. В результате заказчик имеет полную картину состояния СХД – и может при необходимости заменить некоторые компоненты самостоятельно, не дожидаясь прибытия нашего сервисного инженера. А если политика безопасности заказчика позволяет, мы настраиваем контроллеры так, чтобы они передавали информацию о состоянии железа в нашу техподдержку.

Свои чипы лучше и понятнее


Мы – единственная компания, разрабатывающая собственные процессоры, чипы и контроллеры твердотельных накопителей для своих СХД.



Так, в некоторых моделях в качестве основного процессора системы хранения (Storage Controller Chip) мы используем не классический Intel x86, а ARM-процессор HiSilicon, нашего дочернего предприятия. Дело в том, что ARM-архитектура в СХД – для расчета тех же RAID и дедупликации – показывает себя лучше, чем стандартная х86-я.

Наша особая гордость — чипы для SSD-контроллеров. И если серверы у нас могут комплектоваться полупроводниковыми накопителями сторонних производителей (Intel, Samsung, Toshiba и др.), то в системы хранения данных мы устанавливаем только SSD собственной разработки.



Микроконтроллер модуля ввода-вывода (smart I/O чип) в системах хранения – тоже разработка HiSilicon, как и Smart Management Chip для удаленного управления хранилищами. Использование собственных микросхем помогает нам лучше понимать, что происходит в каждый момент времени с каждой ячейкой памяти. Именно это позволило нам свести к минимуму задержки при обращении к данным в тех же СХД Dorado.



Для магнитных дисков с точки зрения надежности чрезвычайно важен постоянный мониторинг. В наших СХД поддерживается система DHA (Disk Health Analyzer): диск сам непрерывно фиксирует, что с ним происходит, насколько хорошо он себя чувствует. Благодаря накоплению статистики и построению умных предиктивных моделей удается предсказать переход накопителя в критическое состояние за 2-3 месяца, а не за 5-10 дней. Диск еще «живой», данные на нем в полной безопасности – но заказчик уже готов его заменить при первых признаках возможного сбоя.

RAID 2.0+


Отказоустойчивый дизайн в СХД мы продумали и на уровне системы. Наша технология Smart Matrix представляет собой надстройку поверх PCIe – эта шина, на основе которой реализованы межконтроллерные соединения, особенно хорошо подходит для SSD.


Smart Matrix обеспечивает, в частности, 4-контроллерный full mesh в нашем СХД Ocean Store 6800 v5. Для того чтобы каждый контроллер имел доступ ко всем дискам в системе, мы разработали особый SAS-бэкэнд. Кэш, естественно, зеркалируется между всеми активными в данный момент контроллерами.



Когда происходит сбой контроллера, сервисы с него быстро переключаются на контроллер зеркала, а оставшиеся контроллеры восстанавливают взаимосвязь, чтобы зазеркалить друг друга. В то же время данные, записанные в кэш-память, имеют зеркальный резерв для обеспечения надежности системы.



Система выдерживает отказ трех контроллеров. Как показано на рисунке, при отказе элемента управления A данные кэша контроллера B будут выбирать контроллер C или D для зеркального отображения кэша. Когда выходит из строя контроллер D, контроллеры B и C делают зеркальное отображение кэша.



Система распределения данных RAID 2.0 – стандарт для наших СХД: виртуализация на уровне дисков давно пришла на смену безыскусному поблоковому копированию содержимого с одного носителя на другой. Все диски группируются в блоки, те объединяются в более крупные конгломераты двухуровневой структуры, а уже поверх ее верхнего уровня строятся логические тома, из которых составляются RAID-массивы.



Основное преимущество такого подхода – сокращенное время перестроения массива (rebuild). Кроме того, в случае выхода из строя диска перестроение производится не на стоявший все это время «под паром» (hot spare) диск, а на свободное место во всех используемых дисках. На рисунке ниже в качестве примера показаны девять жестких дисков RAID5. Когда жесткий диск 1 вышел из строя, данные CKG0 и CKG1 повреждены. Система выбирает CK для реконструкции случайным образом.



Нормальная скорость восстановления RAID составляет 30 МБ / с, поэтому для восстановления данных объемом 1 ТБ требуется 10 часов. RAID 2.0+ сокращает это время до 30 минут.

Нашим разработчикам удалось добиться равномерного распределения нагрузки между всеми шпиндельными накопителями и SSD в составе системы. Это позволяет раскрыть потенциал гибридных СХД гораздо лучше, чем привычное использование твердотельных накопителей в роли кэша.



В системах класса Dorado мы реализовали так называемся RAID-TP, массив с тройной четностью. Такая система продолжит работать при одновременном выходе из строя любых трех дисков. Это повышает надежность по сравнению с RAID 6 на два десятичных порядка, с RAID 5 — на три.



RAID-TP мы рекомендуем для особо критичных данных, тем более что благодаря RAID 2.0 и высокоскоростным flash-накопителям на производительность это особого влияния не оказывает. Просто нужно больше свободного пространства для резервирования.



Как правило, системы all-flash используют для СУБД с маленькими блоками данных и высоким IOPS. Последнее не очень хорошо для SSD: быстро исчерпывается запас прочности ячеек памяти NAND. В нашей реализации система сперва собирает в кэше накопителя сравнительно крупный блок данных, а затем целиком записывает его в ячейки. Это позволяет снизить нагрузку на диски, а также в более щадящем режиме вести «сборку мусора» и высвобождение места на SSD.

Шесть девяток




Перечисленное выше позволяет говорить об отказоустойчивости наших систем на уровне всего решения. Проверка реализуется на уровне приложения (например, СУБД Oracle), операционной системы, адаптера, СХД – и так вплоть до диска. Такой подход гарантирует, что ровно тот блок данных, который пришел на внешние порты, безо всяких повреждений и потерь будет записан на внутренние диски системы. Это подразумевает enterprise-уровень.



Для надежного хранения данных, их защиты и восстановления, а также быстрого доступа к ним мы разработали целый ряд фирменных технологий.



HyperMetro – наверное, самая интересная разработка последних полутора лет. Готовое решение на базе наших систем хранения для построения отказоустойчивого метро-кластера внедряется на уровне контроллера, никаких дополнительных шлюзов или серверов, кроме арбитра, оно не требует. Реализуется просто лицензией: две CХД Huawei плюс лицензия – и это работает.



Технология HyperSnap обеспечивает непрерывную защиту данных без потери производительности. Система поддерживает RoW. Для предотвращения потери данных на СХД в каждый конкретный момент используется множество технологий: различные снэпшоты, клоны, копии.



На основе наших СХД разработано и проверено на практике как минимум четыре решения для аварийного восстановления данных.



Еще у нас есть решение для трех дата-центров 3DC Ring DR Solution: два ЦОДа в кластере, на третий идет репликация. Можем организовать организована асинхронную репликацию или миграцию со сторонних массивов. Имеется лицензия smart virtualization, благодаря чему можно использовать тома с большинства стандартных массивов с доступом по FC: Hitachi, DELL EMC, HPE и т.д. Решение реально отработанное, аналоги на рынке встречаются, но стоят дороже. Есть примеры использования в России.

В итоге на уровне всего решения можно получить надежность шесть девяток, а на уровне локальной СХД — пять девяток. В общем, мы старались.

Автор: Владимир Свинаренко, старший менеджер по IT-решениям Huawei Enterprise в России

Комментарии (16)


  1. Insane11
    15.01.2019 22:21

    А не подскажете, аналог IBM v5030 с учётом лицензий на дедуп/сжатие/репликацию и поддержки на три года сильно дешевле получается?


  1. Schalker
    15.01.2019 22:59

    Я хоть и не очень люблю HUAWEI технику, навязанную мне в 2014 году, но справедливости ради надо сказать, что Storage HUAWEI действительно хороши.

    И EMC, и NetApp, очень далеко до HUAWEI. Отлично собраны, просты. Производительность — зашкаливает. А файловый ScaleOut от HUAWEI — недосягаем для EMC —одного.

    Чего, к сожалению, не скажешь о сетевом оборудовании


    1. F1RST
      16.01.2019 06:08

      По поводу NetApp не скажу, так как не работал, а вот в части EMC поспорил бы. Как обладатель OceanStor 9000 с нодами P36E и Isilon с нодами NL410 могу сказать, что isilon на наших задачах выигрывает по производительности. Так же при равных объемах схд isilon компактнее. В плюс huawei могу занести отсутствие ограничений на размер файла.


      1. Nahimovsky
        17.01.2019 14:56

        Как Вы сами понимаете, задачи бывают разные. По тестам результаты близкие, при этом пиковые результаты на Oceanstor выше за счет в 2 раза большей масштабируемости. По месту в стойке – зависит какими накопителями/узлами набивать.


    1. AlexanderCam
      16.01.2019 08:05

      EMC может и далеко до HUAWEI, вот только про NetApp вы конечно загнули. Как бы ни я ни весь мир с вам не согласны.


      1. Nahimovsky
        17.01.2019 14:59

        Разумеется, это Ваше право. Но, говорить за весь мир, пожалуй, не стоит…

        Если же обратиться к цифрам и фактам, то мы увидим, что у NetApp достаточно небольшая доля рынка. Полагаю, на то есть причины… При этом, согласно отчетам Gartner, Huawei c 16 года плотно обосновалась в сегменте лидеров.

        e.huawei.com/topic/gartner2016-storage-en/index.html

        Если говорить о блочном доступе, то показатели того же NetApp далеки от Huawei — spcresults.org.

        Да, в качестве небольшого файлера Netapp действительно очень крут. Это надо признать. Проблема в том, что это только примерно 10% от типовых задач для Enterprise СХД. А в качестве большого Scale-Out альтернативу Huawei и EMC будет найти достаточно проблематично.


    1. AlexanderCam
      16.01.2019 08:10

      Google:


    1. MikhailShpak
      18.01.2019 13:00

      Здравствуйте, а откуда такая информация о сетевом оборудовании?
      Напишите мне на рабочий e-mail — shpak.mikhail1@huawei.com


  1. AlexanderCam
    16.01.2019 08:12

    В статье нет технологий, которых нет у других.


    1. Nahimovsky
      17.01.2019 15:01
      +1

      Что касается уникальных технологий, то их в принципе на рынке много быть не может. Huawei, скорее, уникальна набором технологий, функциональностей и особенностей, которые способен предоставить вендор. Например, компания сама изготавливает SSD для СХД (речь именно о схемотехнике), поддерживает двойной кворум при метро-кластере. Кто-то кроме Huawei и Netapp умеет метро на файлере и блоке? А кто кроме Huawei (кстати об этом вскользь упомянуто в статье) и HDS G1000/1500 умеет Full Mesh на Back-end? Т.е. выдернули 3 контроллера из 4, а диски (никакие) не провисли.

      Описать все возможности СХД Huawei в рамках одной статьи невозможно. Так что спасибо за Ваши вопросы. Давайте обсуждать.


  1. Amazi
    16.01.2019 12:23

    Гхм. А чем революционный RAID 2.0 отличается от подобного в, например, 3PAR-е?
    Даже картинки на слайдах сделаны в стиле 3PAR-овских:)


  1. Amazi
    16.01.2019 12:24

    Вопрос: в Smart Matrix 2.0 между несколькими четвёрками контроллеров какой транспорт/протокол используется?


    1. Nahimovsky
      17.01.2019 15:03

      Smart Matrix 2.0 применим на «старших» СХД (6800 v5, 18000, Dorado) и при масштабировании дальше одного шасси представляет из себя проприетарный PCIe свич.


  1. bu4ka
    16.01.2019 14:59

    Все конечно классно, но вопрос по софту массива, все также сыро и теряет данные?


    1. Nahimovsky
      17.01.2019 15:06

      Простите, а у вас на СХД Huawei были случаи потери данных? Если да, то давайте обсуждать конкретные кейсы.

      На сегодняшний день мы можем говорить о тысячах инсталляций СХД Huawei, в том числе у крупных заказчиков. Многие из них эксплуатируются более 5 лет. Событий с потерей данных зафиксировано не было.


  1. ustas33
    17.01.2019 13:19

    Спасибо что выложили скриншоты презентаций с 3MS и вырезали «шалаши».
    Huawei тоже использует ODM сборку, можно съездить на венгерский завод FXN, и посмотреть.
    А теперь вопросы:
    — Что случилось с платами аппаратной компрессии и дедупликации?
    — Поддерживается ли VMware VVOL со всеми фичами? компрессией, дедупом и репликацией?
    — Научились предоставлять доступ через виртуальные vWWN или vMAC?
    — Реализуется ли полноценный Active Active на контроллерах? Или до сих пор надо LUN раздвигать между контроллерами руками?
    — Возможно ли обновить OceanStor V2/V3 на V5 путём замены контроллера или контроллерной полки? Поддерживается ли гарантия на такую систему? Поддерживает ли это HQ?
    — Поддерживается ли из коробки объектное хранилище? Можно ли прикрутить его к Kubernetes?

    Возможно время блочных хранилок ушло. Сейчас WD, Seagate активно продают свои object storage appliance почти по цене дисков.