/ фото JD Hancock CC
На шестой странице отчета McKinsey & Company отмечено, что в 2008 году процент загруженности вычислительных систем дата-центра не превышал 6%. Но с развитием облачных ЦОД, ростом популярности виртуальной инфраструктуры и IaaS тренд начал меняться. Как отмечает компания NRDC в своем отчете Data Center Efficiency Assessment, в 2014 году «процент занятости» серверов в облачной среде составил уже 65%.
Это связано с тем, что сегодня одним из базовых критериев выбора облачного провайдера является доступность. Поэтому поставщики стремятся минимизировать допустимое время простоя облачной платформы. Например, если по SLA провайдер обещает доступность «три девятки», то время простоя за год может составлять не более 9 часов. Такие условия предъявляют серьезные требования к инфраструктуре, поэтому провайдеры используют балансировщики нагрузки, чтобы эффективно распределять ресурсы CPU и памяти и обеспечивать непрерывность рабочих процессов клиентов.
Отметим, что такой подход дополнительно позволяет сэкономить на охлаждении и обслуживании оборудования — по данным исследования Uptime Institute, оптимизация парка серверов в дата-центрах мира высвободит порядка 30 млрд долларов. За счет этого ЦОД и IaaS-провайдеры смогут уменьшить стоимость услуг и сделать их еще эффективнее.
Проблема разогрева
Однако, как отмечает автор статьи на Semiconductor Engineering, сейчас в ряде ЦОД усиленная нагрузка на процессоры приводит к их повышенному разогреву, что ускоряет старение чипов. Считается, что при определённом соотношении энергии активации устройства (0,8 eV/K) и его рабочей температуры (75–125°C), каждые 10 градусов сверх нормы могут уменьшить срок его службы в два раза.
При этом повышение температуры может приводить к сбоям, которые довольно сложно диагностировать. Речь идет о так называемом эффекте электромиграции. Он проявляется в скачках напряжения, приводящих к случайным замыканиям одного или нескольких контактов и нарушению работы схем (появлению задержек и даже поломке). Примером подобной ситуации может служить выход из строя части жестких дисков WD через год работы — причиной была электромиграция в одном из используемых в HDD контроллеров.
Испытание для инженеров
Чтобы снизить «уровень стресса» для чипов и замедлить износ электроники, компании используют различные технологии. Например, САПР для моделирования работы чипов перед передачей их в производство. Во время симуляций проводится проверка соединений и параметров электропитания, анализ статических рисков сбоя и оценка влияния электромагнитного поля.
Например, системы автоматизированного проектирования помогают оценить влияние электромиграции и отметить места, в которых требуется расширение соединений между транзисторами или увеличение числа контактов, чтобы предотвратить преждевременный выход системы из строя.
Что касается температурного моделирования, то, как говорит Ральф Айверсон (Ralph Iverson), инженер из отдела научных исследований компании Synopsys, занимающейся разработкой САПР, для отслеживания перегревов используется модель «случайного блуждания». С её помощью производят оптимизацию целевой функции (траектории распространения тепла) и предсказывают влияние температуры на платы и чипы.
/ фото ИТ-ГРАД Unboxing серверов Cisco UCS M4308
Другое направление — разработка систем для отслеживания «старения» чипов в реальном времени. Например, исследователи из Мюнхенского технического университета предложили оценивать степень деградации схемы путем отслеживания задержки, с которой по ней проходит ток. Специальный программный контроллер оценивает задержку прохождения сигнала и сообщает о превышении допустимого уровня деградации электронного устройства. При этом система может автоматически снизить частоту работы чипа и скорректировать рабочее напряжение, пока устройство не будет заменено.
Поиск новых материалов
Разработчики электроники также начинают обращать внимание на новые материалы, которые бы выдерживали более высокие нагрузки, чем кремний. Например, одним из потенциальных материалов, который рассматривается в качестве замены кремнию, является нитрид галлия (GaN).
Этот полупроводник имеет более высокую подвижность носителей заряда и больший коэффициент теплопроводности. За счет этого транзисторы на основе нитрида галлия меньше в размерах и обладают большими показателями мощности. Например, нитрид галлиевые транзисторы используют при создании и развертке широкополосных беспроводных сетей, в том числе для обеспечения работы дата-центров.
Также исследуется возможность применения таких материалов, как антимониды и висмутиды. Они могут стать основой инфракрасных сенсоров для использования в телекоммуникационном оборудовании. Другой вариант — соединения цинка и кадмия с теллуром. В частности, их потенциал может быть полезен для создания альтернативных источников электроэнергии (солнечных панелей).
Однако и сам кремний сбрасывать со счетов ученые не намерены. Исследователи из REAP Labs Университета Тафтса «дают кремнию новую жизнь».
Они работают в области «кремниевой фотоники», создавая электронно-оптические микросхемы на одном кристалле кремния. Это дает чипам возможность взаимодействовать посредством оптических, а не электрических сигналов, что ускоряет перенос больших массивов информации и снижает влияние электромагнитных помех на систему.
Работают в этой области и в IBM. Компания уже смогла разместить устройства, выполненные по технологии кремниевой фотоники, прямо на процессорном чипе.
Подобные технологии позволят создать принципиально новые вычислительные системы, которые бы выдерживали повышенные нагрузки при работе.
P.S. О чем еще мы пишем в Первом блоге о корпоративном IaaS:
Комментарии (10)
potan
20.02.2018 01:45Интересно, будет ли эта проблема стимулировать исследования в области самосинхронной логики? Самосинхорнное схемы при деградации просто начинают работать медленнее, не требуя управления тактовой частотой.
msatersam11
20.02.2018 04:23До самого конца статьи, был уверен, что читаю Введение… к осн. части статьи
Tomatos
20.02.2018 10:20Вопрос не в старении, а в соотношении старение/устаревание. При высоких нагрузках, вполне могут скорее сменить оборудование на новое поколение, чем кристаллы успеют деградировать.
zuborg
20.02.2018 10:33Когда-то (давным давно) и про memtest86 никто не слыхал, а сейчас от хостеров, которые позволяют себе им не пользоваться, надо бежать не оглядываясь.
Видимо, скоро придет пора и периодического прогона какого-то cputest64.
andy_p
20.02.2018 10:35Я даже статью на эту тему написал:
www.mes-conference.ru/infoMES/index.php?page=vpaper&code=D327&ls=ru
dimka11
20.02.2018 17:09Проблема, в уменьшении размеров и техпроцесса, при уменьшении размеров, становится сложнее отводить тепло, риск электромиграции существенно повышается с уменьшением техпроцесса. А вообще, с учетом быстрого устаревания оборудования, не вижу повода для беспокойства.
nikolayv81
20.02.2018 20:09Не знаю как для датацентров, а вот дома было бы неприятно получить умерший процессор через пару месяцев после окончания гарантии, это уже не говоря о ещё менее приятных последствиях выхода из строя жёстких дисков.
Temtaime
Содержание не отражает вопрос в заголовке.
Т.е. стареть быстрее не стали, просто повысились нагрузки, а вместе с тем температура, и её превышание приводит к деградации кристаллов.
В общем-то ничего нового.
andrewzhuk
Кажется, вы в своем комментарии даете ответ на свой же вопрос: стареют из-за ускоренной деградации, она — из-за нагрузки, что делать — приспосабливать технологии под меняющиеся потребности и юзкейсы, как — ряд направлений указан выше, хотя думаю, что они есть и другие разработки, но это уже тема для отдельного обсуждения.
Temtaime
Если у ДЦ проблемы с охлаждением, то что у обычных пользователей?
Как раньше кодировали видео на 100% CPU, так и сейчас. Нагрузка та же.