Привет, Хабр! Основной критерий при выборе серверного оборудования — надёжность. Сегодня в блоге «Администратора сети» — обзор компонентов, на которые стоит обратить внимание с этой точки зрения, так как именно они позволяют серверу работать не только бесперебойно, но и беспрерывно.



Собственно, системы и компоненты, которые обеспечивают бесперебойную работу сервиса, есть и на аппаратном и на программном уровнях. Так, горячая замена компонентов позволяет производить работы с сервером, не выключая его, а следовательно, не теряя доступа к данным. Дополнительные источники питания «страхуют» друг друга: при выходе из строя одного, всю работу возьмёт на себя другой. Программное обеспечение позволяет как контролировать, производить диагностику отдельных узлов, “мониторить” состояние сервера, так и удаленно управлять им. Поговорим о каждом из пунктов подробнее и постараемся перечислить наиболее интересные, на наш взгляд, тонкости работы с этими системами.

Горячая замена




В силу специфики работы сервера (попросту говоря, он постоянно «включен»), определенные комплектующие могут напрямую сказаться на долговечности и отказоустойчивости устройства. Поэтому производители предусмотрели обеспечение оборудования резервными элементами, которые ставятся дополнительно, для обеспечения большей надежности.

  • Горячая замена блоков питания позволяет подключить, отключить или, по необходимости, переподключить (заменить) их во время работы сервера без остановки и выключения питания.
  • Горячая замена жестких дисков также не предусматривает выключения сервера. Допускается апгрейд работающего сервера в случае необходимости подобрать подходящие жесткие диски с увеличенным сроком эксплуатации и улучшенными характеристиками.

Из стандартов горячую замену поддерживают PCMCIA (PC Card), USB, FireWire, Fibre Channel, eSATA. К сожалению, полноценную горячую замену не поддерживают дисковые интерфейсы SATA и протокол IDE.

Отдельно стоит сказать об SSD, которые лишний раз «выдёргивать» на горячую замену не рекомендуется. Несмотря на то, что у жестких дисков (HDD) внутри более сложная механика, их можно в буквальном смысле «выдернуть» в силу того, что они используют механический привод и намагниченные диски. Казалось бы, SSD-диск это просто флешка, в ней нет механики, но в силу того, что в ней присутствует большое количество электронных компонентов, в результате от перепадов с электропитанием и температурой портится микросхема самой памяти. По этой же причине на очень долгое время отключать SSD диски от питания не рекомендуется в целях обеспечения надёжности сохранения ваших данных. Поэтому инженеры рекомендуют как можно реже вынимать SSD без каких-либо на то причин. Многие администраторы выбирают их по причине высокой производительности, и это хороший выбор с этой точки зрения, если сразу определить, что горячую замену в этом случае вы не планируете использовать.

Резервный блок питания


Дополнительные блоки питания при стабильной работе основного используются для перераспределения нагрузки в «спящем режиме», но, при выходе из строя основного, включаются на полную мощность и обеспечивают бесперебойную работу оборудования.

Существуют серверы с одним, двумя и более блоками питания, которые не поддерживают горячую замену. Так же существуют серверы с более чем 2 блоками питания, которые горячую замену поддерживают.

Здесь важно отметить, что резервный блок питания не убережет сервер от выхода из строя если вся система обесточилась и нет источника бесперебойного питания. Вопреки распространённому заблуждению, в этом случае второй блок питания не спасет. Как это понятно из названия, это не аккумулятор. Это точно такой же блок питания, который может продолжить работу системы незаметно для пользователей при выходе из строя блока питания — если он перегорел или случились проблемы с электронной начинкой компонента. Изначально дополнительные блоки питания работают совместно. При выходе из строя первого, второй берёт полное обеспечение на себя.

Хотя это и зависит от конфигурации, почти все серверы Dell комплектуются, как правило, двумя блоками питания. У других лидеров чаще принято, что если на сервере один процессор, то достаточно одного блока питания, а если сервер двухпроцессорный — рекомендуется сразу ставить второй блок питания для распределения питания, нагрузки на электросеть и на сам блок питания.

Блоки питания различаются по уровню надёжности. Например, уровни надёжности у HP называются Silver, Gold и Platinum, и в ноябре 2006 года компания сертифицировала часть своих блоков питания. К слову, то же самое сделала в феврале 2007 года и компания Dell. В них используются различные компоненты — резисторы, конденсаторы. Так, Platinum 80 — самые надёжные блоки питания по степени надёжности их компонентов.

Высокоэффективные дополнительные (резервные) блоки питания нового поколения HP (Flexible Slot) повышают энергоэффективность на 94% (Platinum Plus), а так же поддерживают службы HP Power Discovery.

Защита информации: рейд-контроллер


Рейд-контроллер позволяет строить массивы жестких дисков. Качественный рейд-контроллер – удовольствие не из дешевых, но зато повышает надёжность хранения информации: с его помощью строится дисковая подсистема и спасает данные в непредвиденных ситуациях.

Вся большая тройка по рейд-контроллерам очень и очень хороша. Рейд-массив удобен для хранения системных данных. Он даёт следующие преимущества:

  • Увеличение скорости работы жестких дисков, что, в свою очередь влечёт
  • увеличение скорости доступа к данным на HDD. Напомним, что, как правило диски разделяются на 10к и 15к — это обозначение приближенно к тысячам оборотов. Так вот, рейд-массив позволяет дискам работать на максимально допустимых оборотах. Для других дисков SAS, SATA или SSD этот параметр зависит от скорости самого диска.
  • увеличение объема свободного пространства — можно поставить 2-3-5 дисков и объединить их в рейд-массив.

Рейды, которые можно использовать для жестких дисков, различаются цифровым кодом: нулевой, первый, пятый, пятидесятый, шестой, шестидесятый. Их назначение обусловлено теми функциональными преимуществами, которые дают различные рейд-массивы.

Каждый модельный номер рейд-массива отвечает за определенные возможности:

0 — простое объединение дисков в 1 массив, увеличение полезного объема жестких дисков. Допускается объединение до 16 дисков с учетом актуальных возможностей железа.

1 — зеркальное отображение дисков. Допускается использование от двух дисков, как правило этот рейд-массив состоит только собственно из двух дисков.

5 — увеличение объема, а также скорости доступа, плюс перераспределение нагрузки по дискам. Также даёт нам увеличение скорости доступа к данным на этих дисках. Собрать пятый рейд можно начиная от трех дисков.

6 — более надежный рейд массив, так как имеет большую избыточность. Т.е. это тот же самый пятый рейд-массив, за исключением того, что емкость самого raid-массива уменьшается на емкость двух дисков.

Посмотрим, как можно использовать тот или иной рейд-массив на отдельных примерах:

  • Чтобы собрать надежный рейд-массив для увеличения дискового пространства и более надёжного хранения данных, с высокой скоростью доступа, можно собрать из 3х дисков по 500 Гб — терабайт полезной информации, собрав пятый рейд.
  • Чтобы система хорошо работала, можно взять 2 или 4 жестких диска небольшой емкости и использовать под операционную систему, собрав либо в 1-й либо в 10-й рейд. Таким образом получается зеркалирование: 1й диск отображается зеркально во втором.
  • На одном рейд-контроллере 16 дисков можно разбить на несколько рейд-массивов. Это также даёт зеркалирование. Если первый диск из двух в зеркальном рейде выходит из строя, мы можем заменить этот диск без потери доступа к данным.

Когда мы спросили наших инженеров, встречались ли им проблемные ситуации с добавлением рейд-массивов, они назвали два примера.
Первая, у IBM — программное обеспечение рейд-контроллеров М5014 — М5015 не предусматривает возможность форматирования жестких дисков из-под веб, т. е. выполнить эту операцию можно только из-под самого рейд-контроллера. Функционал форматирования рейд-контроллера из-под веб появляется только в контроллере М5110.

Вторая проблемная, а, вернее, связанная с увеличением расходов ситуация, тоже у IBM. При возможности подключения 16 дисков (как, например, в IBM 3650м4) проблема в контроллере 5110 заключается в том, что у него изначально два выхода порта на стандартном микроконтроллере. И оба они подключены к back-plane, рассчитанные на 8 дисков, изначально идущие в поставке. Это значит, что подключить дорогостоящий комплект не получится без дорогостоящего эспандера (распределитель), который даст возможность подключить все 16 дисков к одному контроллеру. Этот момент удорожает подобный вид апгрейда для IBM.

Рейд-контроллеры в любом случае рекомендуется устанавливать в систему сразу, чтобы предотвратить возможную потерю важных корпоративных данных. Это в первую очередь актуально для дизайнеров, разработчиков, владельцев базы данных, бухгалтеров и т.д. Поэтому инженеры рекомендуют: рейд-контроллер должен быть по умолчанию, сразу. Выбор типа рейда зависит от задач, под которые берётся сервер.

Каждый вендор выпускает различные модели контроллеров, которые поддерживают определенные номера рейдов. Чем контроллер дешевле, тем меньше функций и вариантов сборки рейдов он поддерживает. Так, наиболее недорогие рейд-контроллеры поддерживают только 1, 10 и 0 (10 = 1 + 0) рейды. На стоимости рейд-роллер можно сэкономить, если это позволяют задачи, которые должен выполнять сервер: например домен, контроллер домена, шлюз Интернет — все они вполне допускают использование недорогого рейд контроллера. А вот большие объемы хранения данных уже потребуют возможность собрать 5й рейд.

По типу расположения в системе, рейд-контроллеры жестких дисков можно разделить на два типа:

  • набортные контроллеры, которые располагаются на материнской плате
  • внешние, которые представляют из себя отдельные устройства и устанавливаются, обычно, в слоты PCE-Express на материнской плате

Наборные рейд-контроллеры
Плюсы Минусы
Более доступны по цене, в отличие от внешних Ограниченный функционал: меньший набор доступных уровней Raid-массивов, а так же функций управления и обеспечения надежности.
Не занимают слоты на материнской плате и, соответственно, место в самом сервере Сложность замены. В случае выхода из строя вам придется заменять всю материнскую плату, что, сами понимаете, не очень хорошо.
Невозможно провести масштабирование Raid-массива. когда вам будет нужно увеличить емкость системы хранения путем подключения дополнительных носителей

Внешние рейд-контроллеры
Плюсы Минусы
Надежность. Внешние рейд-контроллеры значительно надежнее набортных. Высокая стоимость
Высокая функциональность. У данного типа контроллеров есть множество функций, которые позволят увеличить производительно дисковой подсистемы, а так же уменьшить вероятность возникновения отказов.
Высокая скорость. Наличие выделенного процессора и кэш-памяти позволяет самостоятельно и быстро обслуживать рейд-массивы, а это, разумеется, повышает производительность.
Возможность масштабирования системы. Без остановки сервера возможно поставить дополнительные модули для жестких дисков или произвести их замену.
Простота замены: внешние рейд-контроллеры довольно просты в этом деле (при выходе из строя) на аналогичные, при этом не нужно производить никаких дополнительных настроек, вы просто ставите новый на место старого – и все.

Совместимость рейд-контроллеров


HP используют рейд-контроллеры Smart Array — E200, P-400, E-500 и так далее.

Dell — PERC H810, PERC H710p, Genuine Dell PowerEdge RC6/i SAS RAID Controller (R710PE) и так далее.

IBM используют Express ServeRAID M5210 SAS/SATA Controller, PCI RAID Disk Unit Controller и так далее.

На заметку: годовая вероятность отказа дискового массива RAID 5 из 3 дисков Wester Digital Caviar Blue составляет 0,05 %. Википедия

Регистровая память


Память подразделяется на буферизированную, небуферизированную, с контролем отчетности по ошибкам, регистровую. По вольтажу на 1,35V и 1,5V

Сервер поддерживает только регистровую память или ECC REG. В материнскую плату серверов различных вендоров записана информация на какие ячейки оперативной памяти должна обращаться та или иная функция.

ECC REG исправляет ошибки во время работы и предохраняет от ошибочной перезаписи.

Память ECC REG уменьшает электрическую нагрузку на контроллер, а также позволяет устанавливать больше модулей памяти в одном канале.
Следит за контролем ошибок, за корректностью отправки данных в оперативную память. Это контроль запроса на верную ячейку.

Регистровая память — это буферизированная память. Её ячейки-регистры изначально при запросе от материнской платы заполняются информацией, ECC проверяет целостность данных и ошибочные или неошибочные запросы, а также то, в правильный ли регистр был отправлен запрос. Если всё хорошо, то данные отправляются из памяти на компьютер. пользователя.

С точки зрения надежности, скорости и удобства использования, буферизованная регистровая память по скорости становится немного потупее в отличие от обычной компьютерной памяти, но зато даёт меньше сбоев благодаря проверке ошибок.

Как вариант, существует ECC UDIMM (небуферизованная). Она получается побыстрее. Используется в многопроцессорных системах, таких как Dell Р120, HP ML 310, IBM System X3250, М3, М4.

Обычно регистровая память используется в системах, требующих масштабируемости и отказоустойчивости.

Техника регистровой памяти применяется к разным поколениям памяти. Это может быть DDR DIMM, DDR2 DIMM или DDR3 DIMM.

Удаленный доступ


Здесь речь пойдёт о трех системах удаленного управления, каждая из которых используется отдельным производителем серверного оборудования:

  • iLO для HP: Integrated Lights-Out
  • iDRAC для Dell: Dell Remote Access Controller
  • IMM для IBM: Integrated Management Module

Основное назначение системы удаленного управления — получение подробной необходимой информации о состоянии оборудования, а также обеспечение управления серверами из любого местоположения, без непосредственного физического вмешательства.



? Integrated Lights-Out (iLO, HP). Компания HP использует эту систему для всех своих серверов. У этой системы графический веб-интерфейс, вы можете получить доступ к iLO из любой точки мира с использованием стандартного браузера. Она контролирует очень многое в сервере: от системы охлаждения, поскольку температурный режим — это более-менее основная функция, и заканчивая драйверами для устройств.

Распространенный совет, касающийся серверов HP: если что-то не заладилось с сервером, нужно обновить систему iLO.



? Integrated Dell Remote Access Controller (iDRAC, Dell) – это встроенный инструмент, который предназначен для выполнения большинства задач по обслуживанию и настройке сервера. С помощью iDRAC вы можете самостоятельно исправить проблемы на сервере не обращаясь непосредственно в поддержку.

В более старых версиях функции обновления и информативного доступа всё достаточно урезано и примитивно. Раньше через Internet Explorer можно было туда достучаться и проконтролировать некоторые действия с сервера, но сейчас это уже не актуально. Новые версии iDRAC и в особенности в комплектации Enterprise позволяют полностью контролировать сервер удалённо.



? Integrated Management Module (IMM, IBM) В данное время существует второе поколение этого встроенного модуля – IBM IMM2. Он также предназначен для удаленного управления и мониторинга.

Если сравнить все три системы с точки зрения удобства работы с ними, iDRAC, пожалуй, выглядит наиболее дружелюбно и организован более удобно для пользователя. В IMM и iLO также есть все удобства, но чтобы их найти приходится сначала «покопаться», хотя, пожалуй у IBM это в принципе обычно.

Диагностическая панель


Диагностическая панель позволяет увидеть проблему на небольшом мониторе сервера. Самодиагностика у серверов — весьма удобная вещь, которая может с легкостью определить причину проблем с сервером. После самодиагностики, либо на дисплее диагностической панели отображается текст ошибки (Dell), либо, если это HP, в на диагностической панели загораются соответствующие световые индикаторы. В IBM загораются индикаторы на диагностическом контроллере. «По лампочкам» можно определить, в чем проблема: неправильно поставленная оперативная память, не работающая память или вентилятор, большая температура или неработающий блок питания, проблема с жестким диском и т.д. Также на каждой салазке диска присутствует своя световая индикация, по которой можно понять, что с диском.

Диагностическая панель сервера Dell наиболее современная – она снабжена специальным ЖК-дисплеем, с помощью которого объем передаваемой информации более полный, чем при использовании панелей, которые состоят из LED-индикаторов. Такие диагностические панели встречаются у моделей IBM и HP, на них расположены LED-индикаторы и каждый из них отвечает за состояние того или иного элемента. Конечно, информация, передаваемая таким образом, достаточно ограничена.

Программы диагностики


Встроенное программное обеспечение, которое позволяет производить аппаратную диагностику и самодиагностику сервера, проводит мониторинг работы сервисов и, при необходимости, может автоматически рестартовать сервер в случае падения.

Программы диагностики также различаются по вендорам: LifeCycle (Dell), Intelligent Agend (HP). Особняком стоит DSA (IBM) — встроенная по клавише Е2 диагностика, после нажатия на которую загружается система. Она встроена непосредственно в сервер.

В системе диагностики расписаны все функции. Мы можем посмотреть, протестировать любую «железку», начиная от жестких дисков, контроллеров, блоков питания, процессоров, памяти, приводы дисков, а также получить отчет, резюмировать характеристики и состояние сервера.

Кстати, наличие этих систем — залог быстроты выкупа б\у сервера. Также, это неоспоримый плюс для любого рядового IT-специалиста, который спокойно при возникновении проблемы может продиагностировать железо и предоставить себе и начальству отчет о состоянии системы.

Комментарии (6)


  1. navion
    19.11.2015 00:08
    +1

    Б… ь, зачем я прочитал этот поток сознания? И кто те 11 человек, что поставили плюс этому «посту»?


  1. KorP
    19.11.2015 06:05
    +2

    Просто пролистав подзаголовки у меня возник вопрос: откуда на хабре взялось столько конторок, желающие просвещать народ таким умным вещам? Ну или на кого вообще эти материалы рассчитаны? Такое впечатление что хабр стал ресурсом для повышения квалификации эникейщиков средней руки...:(


    1. fingoldo
      20.11.2015 15:07

      Вопрос сам листал подзаголовки? )


      1. KorP
        20.11.2015 16:26

        Шта?


  1. phprus
    19.11.2015 07:59
    +2

    Что это было?

    > 6 — более защищенный рейд массив, так как представляет собой шифрованный вариант. Т.е. это тот же самый пятый рейд-массив, плюс шифрование.
    На мой взгляд — это самое феерическое утверждение в публикации, а на ваш?


    1. enterdv
      19.11.2015 14:29

      Это прекрасно! А я до этого момента не дочитал :(