На днях мы обсуждали работу интернет-провайдеров, а также говорили о проблемах с регулированием облака. Продолжим последнюю тему, но с точки зрения ИТ-инфраструктуры. Дело в том, что в мире наблюдается некоторые сложности со строительством ЦОД, а энергетическая инфраструктура не справляется с нагрузкой — блекауты в дата-центрах становятся все более разрушительными (хотя и более редкими).

Фотография: Severin Höin / Unsplash
Фотография: Severin Höin / Unsplash

Растущий аппетит

Компании возводят все более масштабные дата-центры. Например, в США в штате Аризона расположен ЦОД площадью в 35 тыс. кв. м. Однако построить огромный машинный зал — это еще полдела, далее его необходимо «прокормить». Упомянутый дата-центр вмещает тысячи компьютеров с плановой мощностью более 280+ МВт, что эквивалентно энергетическим расходам тысяч домов. И в мире осталось не так много площадок, подходящих для запуска центров обработки данных с подобными аппетитами, то есть площадок с доступным и достаточно мощным энергоснабжением.

По данным Международного энергетического агентства (МЭА), в 2021 году мировые ЦОДы уже потребляли 1% мирового электричества, и с тех пор эта цифра определенно выросла. Сегодня операторы сталкиваются с нехваткой энергии. Британская электроэнергетическая компания Aggreko опросила более 700 специалистов из компаний-операторов ЦОД. Согласно отчету, многие из них не уверены, что смогут обеспечить свои объекты электроэнергией и поддерживать их в рабочем состоянии даже в перспективе ближайших пяти лет.

Один из ярких примеров — ситуация с AWS в Европе. Из-за растущего спроса на облачные услуги и энергетических ограничений компания была вынуждена ввести лимиты на развертку GPU-узлов в ирландском дата-центре. Сильнее всего это решение затронуло высокопроизводительные вычисления и задачи, связанные с обучением ML-моделей. Высокая нагрузка на электросети в целом привела к тому, что ирландским дата-центрам приходится перераспределять нагрузку на ЦОД в Швеции и других частях ЕС.

Почему так происходит

Наиболее очевидная причина повышенной нагрузки — цифровизация практически всех сфер жизни. Она привела к экспоненциальному росту объемов данных, которые необходимо где-то хранить, и увеличению нагрузки на инфраструктуру дата-центров. По прогнозам Statista, объем генерируемых данных в 2024 году увеличится на 22,5% по сравнению с предыдущим годом и составит 140 зеттабайт.

Вторая причина — получить доступ к надежным источникам электроэнергии становится сложнее. Свободных площадок для размещения дата-центров вблизи крупных электростанций все меньше. Взлетают цены на стоимость земельных участков, удовлетворяющих запросам компаний-операторов, что также создает дополнительные проблемы при строительстве ЦОД. Согласно данным, предоставленным европейской компанией Aggreko, спрос на рынке центров обработки данных опережает предложение. Но возникают трудности, вызванные ростом цен на материалы и недостатком квалифицированных кадров. В результате строительство объектов затягивается, и возникают ошибки при запуске, которые подрывают устойчивость работы дата-центров.

Фотография: Fré Sonneveld / Unsplash
Фотография: Fré Sonneveld / Unsplash

Развитие систем искусственного интеллекта еще больше усугубляет проблемы с нехваткой электроэнергии центров обработки данных. Обучение современных ML-моделей требует колоссальных вычислительных мощностей. CPU и GPU в процессе обучения LLM могут потреблять больше тысячи мегаватт-часов. Инженер Алекс де Врис из Амстердамского свободного университета предполагает, что уже в ближайшем будущем человечество станет тратить на поддержание работы систем ИИ порядка 30 тераватт-часов ежегодно (это число сопоставимо с энергопотреблением Ирландии). Коллеги из Университета Флоренции считают, что прогноз может быть даже заниженным.

Как решают проблему

Облачные гиганты выбирают простой, но не самый дешевый способ — перекупают комплексы с достаточной для их потребностей мощностью. Так, в начале года один крупный облачный провайдер выкупил комплекс дата-центров стоимостью $650 млн. Что интересно, он возведён рядом с атомной электростанцией Susquehanna мощностью 2,5 гигаватт, расположенной на северо-востоке штата Пенсильвания.

В то же время для решения проблемы энергоэффективности операторы ЦОД применяют механизм управления спросом на электроэнергию — demand-side response (DSR). Это — схема, в рамках которой дата-центры модифицируют уровень энергопотребления, в зависимости от возможностей локальной электростанции. Так, если нагрузка на сеть резко возрастает, подключенные к ней ЦОД частично переходят на питание от генераторов и запасных батарей. В то же время операторы дата-центров могут продавать скопившиеся у них излишки электроэнергии в сеть. Например, DSR активно использует компания Microsoft в своем центре обработки данных за пределами Дублина.

Если взглянуть в будущее, то на рынке наблюдается рост интереса к новому виду атомной энергии, известному как малые модульные реакторы (SMR). SMR значительно компактнее и производят меньше энергии, по сравнению с традиционными реакторами. Однако они и более дешевые по сравнению с другими проектами в области атомной энергетики. К сожалению, модульные реакторы пока только перспективное решение, которое находится на ранних этапах реализации. По оценкам аналитиков, к такому формату энергообеспечения дата-центры придут через 10–15 лет.

Также есть мнение, что решением проблемы высокого энергопотребления дата-центров могут стать компактные и открытые модели машинного обучения. Они позволят сократить объем вычислений, а вместе с этим снизит нагрузку на дата-центры. Настройка языковых моделей под конкретные задачи также позволит удешевить их обслуживание.

Рост нагрузки на дата-центры также требует улучшения оборудования с целью повышения энергоэффективности. И чипы Arm уже находят применение в ЦОД, несмотря на то, что ранее технология компании использовалась в большей степени для смартфонов. В теории они способны снизить энергопотребление машинных залов более чем на 15%.

Ситуация с блэкаутами

Несмотря на проблемы с электроэнергией, нехваткой места под строительство ЦОД, статистика говорит, что число блэкаутов в дата-центрах снижается. Но последствия таких сбоев становятся все более разрушительными. По данным Uptime Institute, на каждом серьезном сбое операторы ЦОД теряют от 100 тыс. до 1 млн долларов. Нельзя забывать и про репутационный ущерб, оценить который не всегда представляется возможным.

Фотография: israel palacio / Unsplash
Фотография: israel palacio / Unsplash

Например, в прошлом году крупный западный оператор ЦОД столкнулся с масштабным сбоем в работе своих облачных сервисов из-за отключения электроэнергии. Блэкаут вывел из строя инфраструктуру в Западной Европе, из-за чего компании, использующие виртуальные машины и базы данных SQL, столкнулись с перебоями. Попытка переключить питание на генераторы также не увенчалась успехом, так как часть из них не запустилась.

Кроме генераторов, многие ЦОД используют литий-ионные батареи в качестве резервных источников питания. По оценкам Frost & Sullivan, в 2020 году доля таких аккумуляторов в ЦОД составляла 15%, а к 2025 году ожидается, что она вырастет до 38,5%. Однако литий-ионные батареи аккумуляторы более опасны в плане возгорания по сравнению со свинцово-кислотными. При их разрушении могут образовываться горючие газы, что делает тушение пожаров сложным. Распространение такого рода аккумуляторов может вызывать проблемы в будущем, если не принять меры предосторожности.

В целом можно сказать, что блэкауты становятся все более острой проблемой для операторов, требуя новых решений для надежного энергоснабжения, чтобы в будущем избежать серьезных сбоев в работе критически важной инфраструктуры.

Что еще почитать по теме и не только:

Комментарии (2)


  1. GapSerg
    15.06.2024 13:53

    Если "погасшение" дата центра происходит условно раз в несколько лет и стоит 0.5 М , а повышение надёжности 5 М. То выбор очевиден


  1. Sulerad
    15.06.2024 13:53

    Из статьи создаётся ощущение, что всё конец, энергии под новые ДЦ уже скоро будет не найти. Но как-будто бы проблема не нова. Та же металлургия уже давным-давно использует гигантские объёмы энергии — под такие заводы строятся электростанции, был бы источник энергии рядом. В конце-концов, построить газовую ТЭС на 250МВт вполне по силам гиперскйлерам — дорого только выйдет.

    Здесь скорее новость в том, что ДЦ внезапно (с развитием ML) начали потреблять много энергии и имеющиеся электростанции уже не готовы так просто обеспечивать их дешёвой энергией, и нужно идти к государству и инвестировать в строительство новых площадок, а это быстро не сделается.