За время своей работы я часто встречался с проблемами нехватки ресурсов корпоративных ЦОД, которые можно сформулировать, например, следующим образом: «У нас не хватает физического места для размещения оборудования», «У нас не хватает подведенной мощности» и так далее и тому подобное. Решение подобных проблем «в лоб» ведет к очевидному ответу – выключить и вывести из эксплуатации часть ИТ-оборудования, либо произвести замену оборудования на более эффективное по соотношению производительность/потребление/физические размеры.

В большинстве случаев оказывается, что ресурсов на самом деле в избытке, но используются они, мягко скажем, расточительно. Проблема заключается зачастую в банальном раздолбайстве либо развитии корпоративного ЦОДа экспансивно, так сказать по унаследованным принципам. Принимаемые решения не проверяются на предмет эффективного использования имеющихся ресурсов, в организациях нет методики их проверки и, в результате, мы получаем то, что получаем.

Если вы для себя поняли, что так дальше жить нельзя, рекомендую начать с чтения блогов таких компаний как: Крок, Билайн, Data Line. У них можно найти статьи, где они делятся своим опытом в области энергоэффективности. Их методы работают — PUE коммерческих площадок находится в пределах 1,3-1,4 (у кого-то поменьше даже) что при TIER III является отличным результатом. Однако в какой-то момент вы поймете, что у них там своя вечеринка с мегаваттами, резервами и опытным персоналом. И вам на ней не место.

Что же делать простым смертным, у которых ЦОД – это 10 стоек, 200 кВт мощности, всегда не хватает рук и времени?

В идеале, нужен простой для понимания контрольный список, который вы возьмете в руки и пойдете гулять по своей площадке, делая отметки. Желательно чтобы этот документ помогал вам, хотя бы приблизительно, оценить влияние предлагаемого метода на эффективность (у вас ведь нет опыта и best practices). Было бы неплохо, чтобы предлагаемые методы были разделены по этапам жизненного цикла. Собрались вы, например, докупать сервера и СХД, заглянули в соответствующий раздел методички, а там рекомендации по параметрам закупаемого железа.

В общем, не буду томить, есть такой документ, который называется «EU Code of Conduct on Data Centres». Сразу скажу, что я практически ни разу не встречался с людьми, которые руководствуются им в своей деятельности, что меня очень удивляет. Лежит в открытом доступе.

Итак, что это за документ, и почему он будет вам полезен:

  1. Это сборник лучших практик в области повышения эффективности дата-центров, в написании которого приняли участие эксперты из различных областей.
  2. Он хорошо структурирован по этапам жизненного цикла ЦОД, что позволит вам легко подготовиться к замене, например ИТ-оборудования.
  3. Он хорошо структурирован по подсистемам. Поэтому, если у вас есть группа эксплуатации серверов, они могут легко оценить свой вклад.
  4. Любая практика имеет оценку потенциального влияния (от 1 до 5, 1-небольшое влияние, 5- максимальное). Это позволит вам провести оценку на стадии планирования, исходя из затрат на внедрение и ожидаемой отдачи.

Предлагаю пробежаться по документу, понять, как с ним работать и рассмотреть пару примеров.
Однако сначала небольшое предупреждение. Надежность и энергоэффективность – это два параметра, которые зачастую тянут ваш ЦОД в разные стороны (не всегда, но часто). В качестве примера – повышение температуры в ЦОДе. Приводит к снижению потребления кондиционерами. Но одновременно мы наблюдаем повышение числа оборотов вентиляторов охлаждения в серверах, что приводит к повышению потребления сервером (упс…). И снижает ресурс самих вентиляторов, и когда он закончится, вентиляторы встанут, а за ними встанет и сервер по температуре. Поэтому к любому изменению нужно подходить осторожно, отслеживать его влияние на смежные системы и всегда иметь план отката на первоначальные позиции.

Итак, берем словарик, начинаем читать. Сразу идем в пункт 2.2 на странице 3, где расшифрована цветовая кодировка практик.


Зеленый — подходы, аудиты, мониторинг и т.п. Самые эффективные с точки зрения материальных вложений пункты. Большинство предполагает либо минимальные вложения (5.1.4 Установка панелей-заглушек в шкафы) либо вообще нулевые вложения за счет изменения подходов в эксплуатации (4.3.1. Аудит неиспользуемого оборудования).

Красный — внедрение нового софта. Полная ерунда, типа «смотрите чтобы процессы в фоне не висели и не нагружали ЦП». Можно смело пропускать. Хотя, если у вас сотни приложений…
Желтый – на что обращать внимание при закупке нового ИТ-оборудования.

Голубой – что нужно сделать при ближайшей реконструкции или проведении техобслуживания. Есть примеры так называемого «ретрофита», т.е. усовершенствования существующих устройств. Например, при замене батарей ИБП заменить свинцовые на Li-Ion, что позволит отказаться от системы кондиционирования и освободить часть площади. Или при обслуживании кондиционера установить устройство регулировки скорости вращения.

Белый – опциональные практики, соблюдение которых не требуется для кандидатов.
Здесь необходимо небольшое отступление. Рассматриваемая методичка была создана для операторов, желающих вступить в добровольную программу «The European Code of Conduct for Data Centres». Поэтому в документе повсеместно встречается термин «кандидат», что не должно вас смущать. В «белых» практиках содержатся хорошие рекомендации относительно подходов к эксплуатации и строительству ЦОДа.

Далее прыгаем сразу на страницу 9 к главе №3. Дальнейшее движение по документу следует осуществлять последовательно. Подсистемы описаны в порядке их влияния на энергопотребление ЦОДа (ИТ-оборудование, холод, электроснабжение, прочее).

Попробуем применить и мысленно протестировать практики разных цветов из разных подсистем.
«Зеленая», пункт 4.3.1. Влияние – 5. Рекомендуется провести аудит используемого оборудования, мест его установки и сервисов, которое оно предоставляет. Как бы смешно это не звучало, но во многих организациях я сталкивался с ситуацией, когда на вопрос «а что это за сервер?» все инженеры пожимали плечами. И это в серверных, где 30 серверов, максимум. И это не говоря про сервера, которые крутят сервис, используемый 3-мя людьми в организации. Серьезно, особенно если вы недавно пришли в компанию, посмотрите на парк серверов с этой точки зрения.

Естественным образом выглядит пункт 4.3.2. Влияние – 5. «Выведите неиспользуемое оборудование из эксплуатации и регулярно проводите аудит на предмет незагруженных устройств».

Замечательный пункт 4.3.8. Влияние – 4. «Проведите аудит на предмет требований оборудования к окружающей среде. Пометьте такое оборудования на замену или перенос». Допустим, у вас есть несколько свежих серверов, например под ERP. И несколько постарше, с жесткими требованиями по температуре — не выше 25 градусов. Стоят себе и работают, но они не позволяют вам повысить температуру в машзале. И вот однажды ERP которая крутится на свежих серверах, разрослась и требует более мощного железа. Покупается новый сервер, который заменяет парочку предыдущих. В данном случае методичка рекомендует замененный сервер не на e-bay выкладывать, а поставить на замену древних машин, которые имеют ограничения по температуре. Т.е. фактически вы производите миграцию на новое железо не одного сервиса, а нескольких с выводом из эксплуатации самого старого железа. Хотя апгрейд вы делали ради ERP. В общем, смотрите глубже и дальше.

«Зеленая» пункт 5.1.4 Установка панелей-заглушек в шкафы. А с ним 5.1.7 и 5.1.8. С минимальными затратами вы сможете серьезно уменьшить перемешивание горячего и холодного воздуха и повысить эффективность охлаждения.

Теперь перейдем в раздел, касающийся механических систем (холодоснабжение). Пункт 5.1.2. Влияние – 5. Данный пункт предлагает нам разделить потоки горячего и холодного воздуха путем применения контейнеризации холодного и горячего воздуха. Практика «голубая», т.е. ретрофит. Несмотря на то, что методичка рекомендует модернизацию производить в периоды запланированных простоев, конкретно эти работы можно провести и на работающем ЦОДе, поскольку вы затрагиваете только конструктивы шкафов. Сейчас есть решения по постройке изолирующих коридоров практически без инструментов и без сверловки. И в очередной раз напомню о взаимосвязях. Сделали контейнеризацию – пересмотрите настройки кондиционеров, наверняка можно будет, как минимум, повысить уставки температуры подаваемого воздуха. И сразу же можно сделать заметку на пункты 5.4.2.4 (Влияние – 2) и 5.5.1 (Влияние – 4) Оснастить внутренние блоки плавной регулировкой скорости вращения вентиляторов и компрессоров.

«Желтые» практики практически полностью сосредоточены в подглавах 4.1 и 4.2. Они касаются в основном закупок ИТ-оборудования. Так уж случилось, что инженерные системы имеют срок жизни не меньше 10 лет. И то, что вы имеете сейчас, вы можете только модернизировать (т.е. «голубые» практики). ИТ-оборудование меняется гораздо чаще, есть возможность применить «желтые» практики уже в следующем квартале. В качестве примера приведу следующие рекомендации. «При составлении ТЗ на закупку нового железа обращайте внимание на температурный режим эксплуатации». Таким образом, вы сможете создать себе основу для внедрения методов управления энергопотреблением без ограничений, которые создают ваши сервера, СХД и т.п. «Требуйте наличия встроенных средств мониторинга энергопотребления и температуры на воздухозаборе сервера». Это позволит вам постепенно перейти от оценки ресурсов на основании паспортных данных, к оценке на основании данных в реальном времени. Естественно, всё это потребует изменений подходов к мониторингу и отчетности, которые прописаны в главе 9.

«Красные» практики я не рассматриваю в виду моего пренебрежительного к ним отношения. Буду рад, если в комментариях кто-то сможет продемонстрировать их эффективность.

«Белые» практики являются абсолютным хардкором для корпоративного ЦОДа. Повсеместно встречаются лозунги «Даешь класс A4 ASHRAE!», «Дуй воздух прямо с улицы!», «Используешь ИБП – не мужик!». Это как раз тот случай, когда игры с энергоэффективностью снижают надежность.

Резюме:

  1. Предложенные практики достаточно просты для понимания и внедрения, не rocket science. Можете начать прямо сейчас.
  2. В самом начале обратите внимание на «зеленые» методики. Они имеют большое влияние, просты, дешевы и позволят поменять подход к планированию и эксплуатации. Что в большинстве запущенных случаев дает быстрый видимый эффект.
  3. Естественно, движение должно идти от наиболее влиятельных (5) к наименее (1).
  4. Составьте план. В результате внедрения «зеленых» методик вы получите полную картину того, что у вас есть сейчас. В том числе и понимание технологий, которые вы используете. Создайте план по модернизации для всех подсистем, которые вы используете, с указанием пунктов из методички. Проведите бюджетную оценку изменений, примените поправочные коэффициенты на основании влияния методик, и вы получите план первоочередных мероприятий.
  5. Не забывайте про связь систем и отслеживайте взаимное влияние. А для этого начните мониторить всё, до чего руки дотянутся.

И чуть не забыл про кейс из заголовка.

Компания Х обратились с просьбой просчитать бюджет расширения корпоративного ЦОДа на дополнительные площади. Им требовалось поставить 2 высоконагруженные стойки. С их слов, физического места для размещения стоек в действующем машзале не было, запасов по холоду не было, ИБП работали на 85% мощности в пике и их не хватало. Бюджет мы прикинули, получилась та самая куча денег. Пошли смотреть площадку. В процессе осмотра было выявлено следующее:

  • 1. В машзале на 40 стоек использовалась раздача воздуха через фальшпол. При этом не было системы изоляции воздуха, в шкафах нашлось множество пустых юнитов не закрытых заглушками. С холодопроизводительностью существующей системы стало более-менее понятно. Одновременно появилось решение проблемы с физическим размещением.

  • 2. Посмотрели логи ИБП и увидели, что нагрузка на ИБП растет в ночные часы. По логике, она должная снижаться, либо оставаться плюс-минус такой же. Очень похоже на создание резервных копий, обновление каких-то баз или приложений. Однако выяснилось, что обновление приложений происходит только в выходные дни, базы живут сами по себе, а резервное копирование идет в реальном времени на другую площадку вот уже как два года. В теории. На практике оказалось, что какие-то нехорошие люди не вывели из эксплуатации часть инфраструктуры, ответственной за резервирование. Там же на месте посчитали, что выключив ненужное железо получим необходимые киловатты.

  • 3. Задали вопрос: «Аудит заказывать будете, или сами всё поняли?». «Поняли-поняли», — ответили они, и пропали на продолжительное время.

    После нашей беседы, заказчик силами 2-х своих инженеров за пару недель раскидал бардак, который копился 2 года. Были заказаны и изготовлены конструкции для изоляции холодных коридоров, заглушки в шкафы. Были физически выведены из эксплуатации резервные железки, в процессе они нашли ещё несколько неиспользуемых серверов. Прибрали провода под фальшполом. В результате получили свои необходимые киловатты и юниты даже с запасом. Наши затраты составили 3 131 руб. на бензин и рабочее время. Но мы их выставлять заказчику не стали, потому что это некультурно.

А стойки свои высоконагруженные они потом так и не поставили.
Поделиться с друзьями
-->

Комментарии (12)


  1. smilyfox
    16.02.2017 13:32

    А в чем профит? Вы за идею работаете?


    1. ksopt
      16.02.2017 13:33

      Да. Идея простая — решать существующие проблемы и не придумывать несуществующие.


      1. smilyfox
        16.02.2017 18:39
        +1

        Интересная идея — взваливать на себя чужие проблемы и успешно их решать, без какого бы то ни было вознаграждения. Может быть я старомоден, но считаю, что любой труд должен быть соответствующим образом оплачен, иначе его ценность через некоторое время нивелируется вплоть до отрицательных величин. Вы заказчику еще и должны останетесь.


        1. stifff
          17.02.2017 01:25

          Армянский комсомол ?


        1. ksopt
          17.02.2017 07:02

          Вы не правильно поняли, или я не правильно объяснил. Представьте что вы пришли в магазин за штанами. Померили, посмотрели, не купили, а на выходе вам говорят — с вас 300 рублей. 250 — затраченное время продавцов на консультации и 50 — использование ресурса «примерочная». Любой труд должен быть оплачен. Будете платить? Пойдете в этот магазин ещё раз?
          Мы не делаем бесплатно работу, которую выходит за рамки предпродажной консультации (на самом деле эти рамки ещё шире). В данном случае это была именно она.
          И ещё момент — сколько в вашем бизнесе стоит привлечение и удержание одного клиента? 3000 — это смехотворная сумма даже для розницы.
          А вообще, статья не про то. Это был один из самых ярких примеров за мою практику, как правильные приоритеты (задачу решить а не бюджет освоить) и подходящие инструменты (обсуждаемая методичка) позволили решить задачу минимальными средствами.


          1. smilyfox
            17.02.2017 09:17

            В вашем случае выглядит так: покупатель приходит в магазин и хочет купить штаны, а вы ему говорите, нет, не бери, штаны сейчас не в моде. Найди другой магазин и купи себе шорты.
            А вы заменили одну задачу (которую вас просил решить заказчмк) другой (которую заказчик вынужден был решать сам) и далеко не факт что исполнители были этим фактом сильно обрадованы.


            1. ksopt
              17.02.2017 11:27

              Ну ок, вы бы продали новый ЦОД, я понял.
              Я не выполнил задачу клиента, я решил проблему. Именно в этом ценность внешнего подрядчика — иметь экспертизу и решать проблемы. Осваивать бюджет — тоже умение, но это не моя ниша.


              1. smilyfox
                18.02.2017 05:04
                -1

                А Вы напрасно обижаетесь на конструктивную критику. Спишу это на молодость, с возрастом пройдет.
                Этот диалог вообще мог и не состояться, если бы не Ваша ремарка по поводу денег и отсутствия культуры.
                Заметьте! Я про освоение бюджета еще ничего не говорил. Уточню еще раз: Вы НЕ решили проблему; мало того, что Вы подменили ее другой проблемой, так еще и вынудили заказчика решать ее своими силами. Уважаемые специалисты из компании Крок, блог которой Вы рекомендуете почитать, так никогда не делают и делать не будут (не утверждаю, что все, но, по крайней мере те, с которыми я знаком).

                И еще, нередко декларируемые заказчиком задачи разительно отличаются от истинных целей.

                А уж коли Вам так нравятся аллегории — представьте, например, что Админ заказчика целый год выбивал новое оборудование под какие-то свои важные, неотложные нужды. Но руководство было глухо к его доводам, потому что дорого и непонятно. Тут Админ подключил бухгалтерию, пообещав им миграцию тормозной ERP на новые мощные серверы. Начальство уже прогнулось под натиском тяжелой артиллерии, ведь как известно — ссориться с бухгалтерией, что плевать против ветра. Но тут появляетесь вы, the Young and the Restless, и все идет прахом. Ни новых стоек, ни скоростей, ни премий. Мечта Админа о своем виртуальном казино с блэкджеком и нехорошими женщинами разбилась о ледяной гранит вашего максимализма. Горе Админа безгранично, он топит его в вине и скоропостижно умирает от цирроза печени. Предприятие, лишившись талантливого работника, стремительно деградирует. Толпы сотрудников оказываются на улице, им теперь нечем кормить свои семьи. В отчаянии, они идут к зданию правительства и устраивают кровавый переворот. Обратится к Вам еще кто-нибудь? Нет. Не осталось живых на выжженой земле. Всюду лишь смерть, хаос и разруха.


  1. termsl
    16.02.2017 15:23

    Не культурно компенсировать свои затраты или это не затраты, а операционные расходы?


    1. ksopt
      17.02.2017 06:36

      Вроде писал для технарей, а оказалось для экономистов))) Да, конечно, списывается на статью коммерческие расходы. Это с точки зрения бухгалтерии правильно.


  1. kharlashkin
    17.02.2017 11:04

    Спасибо Вам огромное за статью, свежий взгляд на «железную» сторону организации ИТ, а так же то, как Вы поделились опытом не только с несостоявшимся Заказчиком, но и всеми нами вызывает уважение и веру в Ваш профессионализм.
    Действительно документ очень интересный и будет полезен даже тем, у кого 2 и более стоек. Взял на заметку, спасибо.
    Комментарии экономистов действительно кажутся не к месту — это же хабр. Ах да, ведь мегамозга больше нет ;)


    1. ksopt
      17.02.2017 11:28

      Пожалуйста. Будут вопросы — пишите в личку.
      Кстати, заказчик состоявшийся, даже очень. Но не в тот раз.