Год назад мировые дата-центры потребляли 2% всей генерируемой на планете электроэнергии. По прогнозам аналитиков, эта цифра вырастет до 5% к 2020 году. При этом примерно половина всей этой энергии расходуется на охлаждение. Эти затраты и призваны сократить системы ИИ.

Сегодня поговорим о последних разработках в этой области.


/ фото The National Archives (UK) CC

Проект Google


В 2016 году DeepMind и Google разработали систему искусственного интеллекта, которая мониторила отдельные компоненты ЦОД. Она давала администраторам в дата-центре рекомендации о том, как оптимизировать энергопотребление серверов. Решение позволило сократить энергозатраты на работу систем охлаждения на 40% и снизить коэффициент PUE на 15%.

По словам операторов ЦОД, подсказки машинных алгоритмов были полезны в работе, но на их обработку уходило слишком много времени. Поэтому Дэн Фюнффингер (Dan Fuenffinger), один из инженеров Google, предложил полностью передать интеллектуальным решениям управление системами кондиционирования. Это должно было разгрузить операторов дата-центра, так как тем пришлось бы проводить только тонкую настройку и контролировать весь процесс.

Последующие два года компания совершенствовала свою систему ИИ, и теперь она полноценно управляет охлаждением серверных залов. Например, машинный алгоритм «догадался», что зимой холодный воздух сильнее охлаждает воду в чиллерах, и воспользовался этим, чтобы оптимизировать расход электроэнергии. Это сократило энергозатраты еще на 30%.

В Google считают, что их разработка и ее аналоги в дальнейшем помогут владельцам ЦОД снизить расходы на системы охлаждения как минимум в два раза и снизить выбросы CO2 в атмосферу.

Как это работает


Всю систему охлаждения в дата-центре компании мониторят тысячи физических датчиков. Данные с них поступают на вход системы ИИ, развернутой в облаке. Это нейросеть из пяти скрытых слоев с 50 нейронами в каждом.

Она работает с 19 различными параметрами, среди которых числится общая нагрузка на серверы, количество работающих водяных помп, влажность воздуха на улице и даже скорость ветра. Каждые пять минут система считывает показания датчиков (это приблизительно 184 тыс. сэмплов — для обучения сети нужны были 70% из них, а оставшиеся 30% использовали для перекрёстной проверки) и использует их для оптимизации значения PUE.

Она строит список прогнозов, как то или иное изменение в системе повлияет на энергопотребление дата-центра и температуру в машинном зале. Например, изменение температуры «холодного» коридора может вызвать колебания нагрузки на чиллеры, теплообменники и помпы, что, как результат, приведет к нелинейным изменениям в производительности оборудования.

Из составленного списка выбираются наиболее эффективные действия, которые сильнее других снизят энергопотребление и не приведут к сбоям в работе ЦОД. Далее, эти инструкции направляются обратно в дата-центр, где локальная система управления еще раз проверяет, соответствуют ли они требованиям безопасности (и их реализация не приведет к непоправимым последствиям).

Поскольку на системы ИИ переложили часть ответственности за бесперебойную работу сервисов вроде Google Search, Gmail и YouTube, разработчики предусмотрели ряд защитных мер. Среди них числятся алгоритмы расчета показателя неопределенности. Для каждого из миллиардов возможных действий система ИИ проводит оценку достоверности и сразу отсеивает те из них, у которых этот показатель получился низким (то есть с высокой вероятностью сбоя).

Другим методом защиты стала двухуровневая верификация. Оптимальные действия, рассчитанные алгоритмами МО, сравниваются с набором политик безопасности, прописанным операторами ЦОД. Только если все в порядке, в работу систем кондиционирования вносятся изменения.

При этом операторы всегда готовы отключить «автоматический» режим и взять управление на себя.

Похожие разработки


Компания Google не единственная, кто разрабатывает решения на базе машинного обучения для управления системами охлаждения в ЦОД. Например, компания Litbit работает над технологией Dac для мониторинга потребляемых вычислительных ресурсов и электроэнергии.


/ фото reynermedia CC

Чтобы следить за состоянием оборудования Dac использует IoT-сенсоры. Система может «слышать» ультразвуковые частоты и «ощущать» аномальные вибрации пола. Анализируя эти данные, Dac определяет, все ли оборудование работает правильно. В случае возникновения неполадок, система оповещает администраторов, формирует тикет в техподдержку и даже самостоятельно отключает «железо» (в критической ситуации).

Похожее решение создает Nlyte Software, которая объединилась с IoT-командой IBM Watson. Их система собирает данные о температуре, влажности, потреблении электричества, загруженности оборудования в дата-центре и дает инженерам советы по оптимизации рабочих процессов. Решение работает как с облачной, так и on-premise инфраструктурой.

Внедрение систем ИИ в дата-центрах позволит выйти за рамки привычных DCIM-решений (программных продуктов для мониторинга ЦОД). Среди экспертов ИТ-индустрии есть мнение, что в скором времени большинство процессов, протекающих в ЦОД, будет автоматизировано. В результате администраторы в дата-центрах смогут сконцентрироваться на других, более важных задачах, влияющих на рост и развитие компаний.



P.S. Материалы по теме из Первого блога о корпоративном IaaS:

Комментарии (6)


  1. alexhott
    24.08.2018 10:58

    ИИ — в данном тексте означает «Измеритель и еще один Измеритель»?
    То есть у меня у мамы в деревне на стене весит котел в нем датчики теплоносителя, а в другой комнате датчик температуры воздуха. «ИИ» на основе этих датчиков управляет подачей газа, розжигом и насосом и экономит мне газ.
    А недавно был на тепловой электростанции построенной в 1983, дак там ИИ собирает информацию с десятка тысяч датчиков и управляет турбинами… вот только информацию выводит на самописцы.


    1. Hardcoin
      24.08.2018 14:45

      Котел на основе датчика увеличивает или уменьшает подачу газа. А насколько он изменяет подачу?


      Это какой-то заданный на производстве коэффициент, который вы можете подкрутить винтиком? Или это обратная связь, он постепенно увеличивает подачу до тех пор, пока датчик температуры не скажет, что достаточно? Тогда вопрос, с какой скоростью растет подача газа?


      1. alexhott
        24.08.2018 14:49

        там заложен стандартный ПИД алгоритм
        в зависимости от температур от всех датчиков и теплопотерь помещения
        рассчитывается необходимый нагрев по температуре и длительности

        в серверных ровно тот же алгоритм в итоге


        1. Hardcoin
          24.08.2018 15:47

          Полагаю, что если много датчиков и много управляемых сущностей, ПИД недостаточно. Надо не только усредненную температуру в диапазоне держать. ПИД же на вход только один параметр может получать.


          Отвечая на ваш вопрос — под ИИ тут подразумевается алгоритм, который который подстраивает коэффициенты. Именно интеллектом там не пахнет, но эта группа алгоритмов похожа на те, что отличают кошек от собак или обыгрывают людей в Го, так что слово "интеллект" к ним уже приклеилось.


      1. alexhott
        24.08.2018 14:51

        Это я к тому что называть регулятор температуры искусственным интеллектом это уже похоже от того что при существующем уровне развития ИИ другого применения ему найти не могут


    1. Wedoslaw
      25.08.2018 10:59

      ИИ — в данном тексте означает «Предсказатель последствий изменений параметров системы в текущих условиях», причем список этих возможных изменений задан заранее. А потом уже на основе предсказаний, с учетом политики безопасности выбирается лучшее действие.