Стоит заговорить о тестировании сервера и абсолютному большинству далеких от инфраструктуры людей представляются гигафлопсы, иногда транзакции в секунду или даже кадры в секунду. А вот нет, это вообще не про сервер в общем случае.

Итак, что такое сервер. Сервер - вычислительный комплекс, предназначенный для автономной работы без прямого взаимодействия с пользователем (и в этом отличие от десктопа).

В более узком смысле и 95-97% случаев это подразумевает стоечное (rack) исполнение для установки в 19" шкафах.

Давайте разберемся, а что же может быть важно именно для сервера:

  1. Качество исполнения корпуса и физические габариты - поместится ли сервер в стойку определенного размера (да-да, мои маленькие айтишники, стойки бывают разной глубины, например).

  2. Наличие комплекта быстрого монтажа (быстросъемные рельсы на защелках). Если в компании не 2-3 сервера, а 2-3 или тем более 20-30 тысяч серверов, то этот казалось бы смешной пункт становится довольно таки важным.

  3. Поддержка двух блоков питания с горячей заменой и резервированием 1+1. В отличие от десктопов это важно - на стойку в правильных ЦОДах подаются две независимые линии питания и БП подключаются к ним. В итоге страхуются и риск сгоревшего БП (а с горячей заменой даже сервер выключать не надо) и проблема отсутствия питания по одной линии при работах по электрике в ЦОДе.

  4. Поддержка полного удаленного управления (iLO, iDRAC, BMC etc). Вспоминаем про тысячи серверов - у вас просто нет физической возможности нанять достаточное количество админов для хотя бы раскатки ОС в нужных количествах. Не говоря уже об обслуживании и мониторинге "а что это у нас там сгорело", если ОС не загружается.

  5. Полная световая индикация компонентов. Начиная от сетевых карт и заканчивая компонентами с горячей заменой. Очень важен специальный включаемый режим подсветки (синим) для самого сервера и его компонентов с горячей заменой.
    Приходит монтажник с диском на замену - а вокруг ряды стоек с одинаковыми серверами. Заранее включенная подсветка упрощает работу и сильно снижает вероятность ошибки при замене.

Смотрите, вот уже 5 важных пунктов, а мы сервер то еще даже не включали. На самом деле есть еще куча параметров, которым сервер должен соответствовать, в зависимости от важности / специфики конкретного окружения и организации.

И только в самом конце, после прохождения всех функциональных требований, кажущихся смешными человеку, никогда не работавшему с чем-то кроме макбука и "облака", мы наконец перейдем к нагрузочному тестированию, гигафлопсам и всяким SPEC CPU.

Но и это еще не все.

  1. Доступность ЗИПа и апгрейдов. Для вендоров класса А характерны запреты на использование сторонних запчастей - и здесь ключевой вопрос состоит наличии и ценах на оригинальные запчасти. Причем в некоторых случаях разница на компоненты, например модуль памяти, в составе первоначальной поставки сервера и в виде "апгрейда" может составлять разы.

  2. Применяемые классы и стандарты компонент. Некоторые стандарты на компоненты устарели не в прошлом году, а лет 5 назад. И хотя сейчас все еще можно найти эти компоненты, но ведь сервер в среднем служит от 5 до 10 лет, и можно ли будет найти эти компоненты года через 4?

    Не говоря уже о том, что компоненты по прошлым стандартам обычно менее быстрые, но и менее емкие.

  3. Доступность к покупке / сроки поставки. Маленьким любителям макбука и облака невдомек, что нельзя просто пойти и купить тысячу серверов и два десятка СХД. А если вдруг что и оказалось на складах - так это ширпотреб в конфигурации, что нам обычно вообще не нужна.

    Маленькие любители макбуков полюбили серверные процессоры AMD, но если сервер на Intel можно было весь прошлый год купить со стандартными 6-8 недель, то на AMD срок поставки уже приближался, или даже превышал, год. Из-за отсутствия процессоров AMD в достаточном количестве.

Список можно продолжать, и мы все еще не пришли к сравнению процессорных архитектур и мегагерцев. Потому что сервер - это не процессор.

Больше новостей и заметок в малой форме в моем телеграм канале "BeerPanda. Органично Недоразвитый DevOps"

Комментарии (18)


  1. AlexNixon
    23.03.2022 12:13
    +7

    Если вы не покупаете самые поганые китайские серверы ЛяоХуньДуньДзяо или не собираете их сами из конденсаторов и валежника, то наличие всего описанного в п.п 1-5 - это само собой разумеющееся.

    п.п 41-43 (кстати, что у вас с нумерацией?) на сегодняшний день оценить вообще не представляется возможным в связи с известными событиями, происходящими в данный момент. Но даже если не брать это во внимание, то если вы хотите, чтобы ваше железо работало 5-10 лет, то вы:

    а) покупаете на первые 3 года поддержку вендора

    б) покупаете ЗИП в размере примерно 3-5% на каждый год работы после гарантийного срока от общего количества железа. Т.е, например, есть у вас N серверов, в которых, в общей сложности у вас работает 100 одинаковых жестких дисков, и вы хотите, чтобы они проработали еще года три после окончания гарантии - покупаете примерно 100*0.03*3=9 таких дисков. Можно больше, если на железе работает нечто критичное. Так же считать ЗИП по остальным компонентам

    в) желательно, размещаете это в нормальном ЦОДе, где у вас будет нормальная температура, влажность, стабильность подвода энергии и отсутствие пыли свыше разумных пределов

    г) нанимаете людей, которые смогут настроить нормальный мониторинг вашего серверного парка, своевременно заводить тикеты вендору по неисправностям (или настроить автоматическое заведение оных), и траблшутить и чинить серваки после гарантии.

    Только так, потому что, как показали текущие события, просчитать железобетонно на долгосрочную перспективу п.п 41-43 также нереально. Сегодня ЗИП в продаже есть, и СХД вам отгрузить готовы, а завтра уже нет... в связи с санкциями или еще чем-нибудь.

    Статью писал копирайтер, которому вы платите за букавы? Или как раз те самые "маленькие любители макбуков", которые вечером в пятницу в любимой пивной один раз посидели рядом со столом, где как раз обсуждали железо компетентные в этом вопросе люди? И где хоть что-то про тестирование серверов?


    1. anthtml
      23.03.2022 13:45
      +5

      Статья не про тестирование, а про пиар совоего ТГ канала.

      Все вышеперечисленные пункты 1-5 присутствуют в базовой комплектации даже самых дешевых асус/супермикро

      41-43 - вообще не о чем, это касается любой кофеварки

      Про настоящие серваки вообще ни слова


    1. rm76
      23.03.2022 14:14

      Возражу по наличию п.4 в "любом более-менее приличном сервере".

      В каких не самых поганых, но при этом не Dell/HPE/Fuji/... серверах out-of-band management (BMC, IPMI, что угодно, работающее без участия ОС) выдаст алерт по выходу из строя диска, подключенного к "внешнему" - PCI-e или Mezzanine контроллеру RAID?

      На мой взгляд, это довольно критично и входит в "полное удаленное управление". И да, требует использования vendor-specific адаптеров RAID и мидплейнов.


    1. AntonVirtual Автор
      23.03.2022 15:40
      -2

      Не так давно было бурное обсуждение тестирования импортозамещенных серверов, для которых пункты 1-5 составили непреодолимую преграду и сюрприз.

      Как скажете, OVH - нормальный ЦОД?

      41-43 после 1-5 просто потому что это же статья в соцсети, а не справочник. Пунктов много, но какой смысл их перечислять? Все, что в итоге получится - это долгое обмусоливание зачем вообще этот пункт в матрице функциональных тестов, а аффтар что так, что так ничего не понимает.

      Что в конечном итоге и было вами написано. Автор 20 лет в ойти, из которых 12 проектирует и строит ЦОДы - в том числе можно можно посмотреть и на другие мои публикации, что не вызывают бурного комментирования. По общей теории проектирования. И выступления на самых разных конференциях. А так да - наверное копирайтер за буквы.


      1. navion
        23.03.2022 17:43
        +1

        Не так давно было бурное обсуждение тестирования импортозамещенных серверов, для которых пункты 1-5 составили непреодолимую преграду и сюрприз.

        YADRO же писали в блоге про OpenBMC в своих серверах, так и не смогли допилить до рабочего состояния?


      1. AlexNixon
        24.03.2022 09:46
        +2

        "Я автор статей текстов и постов", угу.

        Открывая статью с заголовком "Тестирование серверов" ожидаешь, внезапно, увидеть информацию о тестировании серверов. Техническую информацию. Примеры. Практики. Вы же пишете как менеджер для того, чтобы дать какой-то обзор по верхам на очередном крайне важном митинге в коворкинге другим менеджерам. То же могу сказать про Ваши прошлые публикации.

        Пунктов много, но какой смысл их перечислять?

        Наверное, для того, чтобы от статьи была хотя бы какая-то польза?

        Все, что в итоге получится - это долгое обмусоливание зачем вообще этот пункт в матрице функциональных тестов

        И от этого "обмусоливания" будет сильно больше пользы, чем от написанного здесь, т.к эту статью открыл бы кто-то, кому надо протестировать сервер(ы), прочел бы статью и "обмусоливание" в каментах, и получил бы понимание, что и как ему можно сделать, а что можно и пропустить за ненадобностью.

        Как скажете, OVH - нормальный ЦОД?

        Понятия не имею. Не проводил его аудит, даже не заходил внутрь.


  1. Yura1975
    23.03.2022 12:14

    "можно ли будет найти эти компоненты года через 4?"- на "разборке" найдутся!


    1. AntonVirtual Автор
      23.03.2022 15:41
      +1

      Да, найдутся. Если надо поддерживать 2-3 сервера в ИП Пупукин, торгующем носками.
      В случае крупного корпоратива с 2-3 тыс серверов - нет, не найдется.


      1. Yura1975
        23.03.2022 18:51

        К лету уже начнем понимать на каком масштабе компании "разборка" спасает ситуаен.


  1. kamnetanker
    23.03.2022 12:20
    +2

    Годная и правильная статья. Сам имею дело с серверным оборудованием и тот же HP внезапно отказался от обновления своей удалённой консоли ИМЕННО НА МОЁМ virtual connect. В итоге, у нас стоит отдельная виндовая машина со старым firefox и ещё более старым flash player тупо для того, чтобы заходить в virtual connect


    1. 13werwolf13
      23.03.2022 13:01

      ох, ай ноу вот ю фил бро

      самое обидное что следующее поколение VC сделаны ровно на том же железе, но до вменяемой управлялки с html5 и без flash они апаются, тут нет никаких ограничений кроме нежелания вендора. в предыдущей конторе таких VC стоит немалое кол-во, менять все просто из-за этого дорого и глупо (к тому же в некоторых местах грозит даунтаймом) поэтому так же виртуалочка с семёркой, старым огнелисом и флешплеером от китайцев, и без выхода в интернеты..


  1. buloshnik
    23.03.2022 12:21
    +9

    "Потому что сервер - это не процессор"

    Спасибо, что Вы открыли людям глаза!

    Если это попытка пропиарить свой телеграм, то вероятно она, мягко говоря, неудачная. В чем смысл Вашей статьи?


    1. AntonVirtual Автор
      23.03.2022 15:43

      Не так давно было бурное обсуждение тестирования импортозамещенных серверов, в рамках которого многие универсальные эксперты были уверены, что сервер - это процессор. Не верите - откройте обсуждения, почитайте.


  1. Lirix_vladimir
    23.03.2022 13:03
    +2

    Я думал статья будет про тестирование серверов, а тут вон оно че


  1. 13werwolf13
    23.03.2022 13:04
    +4

    вообще какая-то пустая статья

    как уже заметили выше первые 5 пунктов есть в любом нормальном сервере, непонятно что там тестировать

    я открывал статью ожидая увидеть "7 лайвхаков как проверить память и диски у только что пришедшего сервера не тратя на это сутки" (а при нынешних объёмах ОЗУ это действительно длительный процесс). ну или "вот моя тулза на гитлабе которая подключается к ilo/idrac/ipmi, сама заставляет сервер загрузиться с pxe и пройти тесты и в конце выдаёт сводную таблицу по железу" но никак не "проверьте есть ли в сервере светодиоды".


  1. greenkey
    23.03.2022 13:15

    "сервер" так то имеет гораздо более широкое значение


  1. Gisburne
    24.03.2022 09:33

    Поддержу предыдущих комментаторов - статья не имеет отношения к тестированию серверов.


  1. psynix
    24.03.2022 12:46

    зачем я это прочитал, это же ни очем ...