128-ядерный Altra Max M128-30 в серверных бенчмарках под Linux

Серверный рынок обычно опережает массовый рынок на несколько лет. Например, восьмиядерные CPU сначала появились для серверов. Только потом их начали делать для домашних ПК, причём цена упала в несколько раз. Так или иначе, инновации постепенно спускаются — и доходят до всех нас. Но всё начинается с серверов.

На серверах сейчас очень интересно. Нас ожидает не просто рядовой апгрейд, а концептуальный прорыв одновременно по нескольким фронтам. Так называемый суперцикл 2022 года.

Новые CPU и GPU


Для начала самое интересное — процессоры. Тут настоящую революцию устроит AMD, которая готовит к выпуску 4-е поколение серверных процессоров EPYC Genoa на гигантском новом разъёме LGA 6096.


Если у вас 21-дюймовый монитор и Хабр развернут на весь экран, то масштаб будет примерно 1:1

Семейство Genoa (до 96 ядер) и Bergamo (до 128 ядер, 2023 года) производятся по топологии TSMC 5 нм новой архитектуре Zen 4 и Zen 4c. О них можно говорить в настоящем времени, потому что Genoa уже производится мелкими партиями (на фото), а скоро появится в продаже.

Серверные AMD

Характеристика Milan Genoa Bergamo
Количество ядер: 64 ядра 96 ядра 128 ядра
TDP: 280 Вт 320 Вт 320 Вт
Кэш: 256 МБ 804 МБ 804 МБ
Каналов RAM: 8 12 12
PCIe: 128x Gen4 128x Gen5 128x Gen5
Литография: 7 нм TSMC 5 нм TSMC 5 нм TSMC
Год выхода: 2021 год 2022 год 2023 год
По сравнению с нынешним поколением Milan нас ожидает двукратное повышение плотности транзисторов, рост производительности минимум на 25% и двукратное улучшение энергоэффективности. Следующее поколение серверных процессоров Bergamo (128 ядер) будет работать на том же сокете.

Ядро нового поколения Zen 4 — это поддержка и новой шины PCIe 5.0, и новой памяти DDR5, и технологии CXL (смотрите ниже). Предположительно, на эти CPU можно будет повесить по 12 ТБ RAM DDR5 на сокет.

Что касается GPU, то AMD также выпустит серию Instinct MI200 — продвинутый ускоритель для дата-центров и суперкомпьютеров, он же первый в мире MCM GPU (то есть мультичиповый модуль GPU). Работает в тандеме с процессорами EPYC.

Intel движется примерно в том же направлении. TDP процессоров постепенно приближается к отметке 500 Вт, а количество ядер CPU медленно догоняет GPU. В этом году выйдет новое поколение процессоров Xeon под кодовым названием Sapphire Rapids. Здесь тот же набор: память DDR5, шина PCIe и CXL 1.1. Плюс новый процессорный интерконнект Ultra Path Interconnect (UPI). Из других инноваций — новый набор инструкций AMX (Advanced Matrix Extensions) для аппаратного ускорения обучения AI.

Унижение Intel


Новый ускоритель Xe-HPC Ponte Vecchio настолько важен для Intel, что она заказала его производство у TSMC по самому передовому в мире техпроцессу 5 нм. Можно представить, насколько это унизительно для компании Intel, которая несколько десятилетий считала себя мировым лидером по производству микроэлектроники.



100 млрд транзисторов, 1024 ядра, 408 МБ кэша L2 делают Ponte Vecchio одним из самых сложных и больших GPU в мире.

Кстати, на тех же ядрах Xe-Core выйдут дискретные видеокарты для геймеров и майнеров Intel Arc.


Игры 2022 года с поддержкой технологии XeSS (видеокарты Arc), источник

Первая из них — Intel Arc Alchemist на чипе A370M (производительность уровня GTX 1660 или выше).


Видеокарта Intel Arc Alchemist

Вообще, это уже не первый заход Intel на дискретные видеокарты. Например, в 90-е годы компании вроде Diamond и 3DLabs выпускали карты на чипсете Intel 740. Конечно, они не могли сравниться по производительности с безусловным лидером — легендарным ускорителем 3Dfx Voodoo, хотя они и стоили немалые деньги по тем временам: до $80 и даже $90 за топовую карту с 8 МБ памяти.


Видеокарта Diamond на чипсете Intel 740

128-ядерные ARM


Возвращаясь на рынок процессоров, здесь тоже наблюдаются некие аналогии с 90-ми годами. Как и тогда, лидерство захватили двое: AMD и Intel, но в спину им дышит третий игрок. Четверть века назад это был Cyrix, а сейчас — семейство ARM-процессоров от разных производителей.

Cерверные ARM для собственного использования делают Amazon, Google, Huawei и прочие гиганты рынка. Однако есть компании, у которых выстроена совсем другая бизнес-модель. Например, Ampere со 128-ядерными процессорами Altra Max M128-30.

Эти CPU доступны для всех желающих по скромной цене $5800, что в пересчёте на ядро или по энергоэффективности получаются намного выгоднее многих серверных CPU на x86.


Altra Max M128-30

В некоторых бенчмарках они тоже выглядят неплохо:



Память DDR5


Объём RAM на серверах преодолел рубеж 1 терабайт, а иногда узким местом становится производительность памяти. Даже на пиковой скорости 200 ГБ/с операция memset для терабайта DDR4 займёт пять секунд.

К счастью, на помощь приходит DDR5. В январе 2022 года цены на память DDR5 сильно упали после декабрьского хайпа, связанного с Alder Lake. Конечно, это играет на руку сборщикам серверов.

Новое поколение памяти — это новые материнские платы и CPU. Апгрейд с DDR4 на DDR5 принесёт ускорение до 2,63 раз (в MT/s) и увеличение плотности / объёма в четыре раза: от чипов 16 до 64 Гбит, как показано на диаграмме, указанной ниже.



На практике это увеличение тактовой частоты до 4,8 ГГц, а модули DIMM вырастут до 256 ГБ.

С заменой материнских плат и процессоров, поддержкой нового поколения PCIe (см. ниже) налицо «суперцикл». Хотя есть вероятность, что из-за дефицита комплектующих он может затянуться до 2023 года, но это уже детали.

Объём памяти на один сервер скоро превысит десять терабайт. Значительно увеличится энергоэффективность вычислений. Себестоимость маленьких инстансов ещё больше приблизится к нулю.

Сегодня DDR5 уже работает в MacBook Pro с процессорами M1 Max. Они стали первыми, где мы можем увидеть скорость обмена с памятью 400 ГБ/с. Такой апгрейд отражается на всех приложениях.



PCIe 5.0


Этот год станет годом миграции на PCIe 5.0, а на горизонте уже маячит PCIe 6.0 (PCIe Gen6). В январе 2022 года спецификации PCIe 6.0 были официально утверждены.



Новое поколение шины по сравнению с PCIe 5.0 удваивает скорость передачи данных по каждой линии. Теперь это 8 ГБ/с по одной линии (x1) в каждом направлении, то есть для каналов x16 она возрастает до 128 ГБ/с на каждое направление. По мнению экспертов, первое железо с поддержкой PCIe 6.0 появится в конце 2022 года. А через несколько лет шина пойдёт на десктопы.

При этом PCIe 6.0 с переходом на импульсно-амплитудную модуляцию PAM4 (Pulse-Amplitude Modulation 4) вместо NRZ — самый крупный апгрейд в истории стандарта PCI Express, если судить по количеству инноваций в методах сигнализации и кодирования.


Сравнение NRZ и PAM4, источник

На новом поколении PCIe 5.0 (а затем и 6.0) строится вся серверная архитектура. То есть в итоге это увеличение производительности всех компьютерных подсистем:

  • хранение данных;
  • сети/интерконнекты;
  • ускорители;
  • процессоры.

CXL — лимонный сок для бутербродов


Интересно, что шина PCI Express всегда считалась узким местом высокопроизводительных систем, поэтому в суперкомпьютерах и некоторых дата-центрах стараются заменить или расширить её. Например, в 2014 году IBM предложила интерфейс Coherent Accelerator Processor Interface (CAPI) поверх PCIe, но он не взлетел.

Были и другие предложения. Сейчас большие надежды возлагают на Compute Express Link (CXL) поверх PCIe Gen5. Говорят, что за этим интерконнектом — будущее серверов.

Чтобы объяснить CXL, есть кулинарный пример. Скажем, мы хотим приготовить тако с лимоном. У нас много кукурузных лепёшек с начинкой, то есть готовых тако (процессоры), и отдельно дольки лимона (RAM).



В стандартной системе управления памятью нам не хватит RAM на все CPU: к некоторым тако прилагается лимон, а другим не хватает.



Но если выжать лимон, то сиропа хватит на все бутерброды (тако): данную роль играет интерфейс CXL, который распределяет RAM на все процессоры.



С этой целью для серверов выпускают CXL-модули расширения памяти типа CXL Memory Expander.


Первый на рынке CXL Memory Expander вышел 11 мая 2021 года

Очень похоже на маркетинговую чушь, но CXL реально работает.

Новые форм-факторы SSD


Большинство производителей SSD ещё не освоили PCIe 4.0, но в этом году начнётся апгрейд систем уже на PCIe 5.0, так что SSD PCIe 5.0 ожидаются к концу года. В частности, прототип ADATA с контроллером Silicon Motion SM2508 показал скорость чтения 14 ГБ/с и записи 12 ГБ/с — это примерно вдвое выше, чем у топовых современных SSD на PCIe 4.0 типа Samsung 980 Pro.


Первый в мире SSD на PCIe 5.0 (ADATA)

Кстати, сейчас SSD выпускают в самых разных форматах, вплоть до коробок U.2 размером как винчестеры SATA 2,5" (есть специальные пластиковые расширители, чтобы вставить SSD в гнездо 3,5").


Разнообразие форм-факторов SSD

Но никто не заставляет делать корпус накопителя настолько большим. Ведь M.2 и самый быстрый, и самый дешёвый разъём: никаких лишних кабелей и корпусов. Наверное, SSD формата M.2 с интерфейсом PCIe 4.0 в ближайшее время станет стандартом даже на массовом рынке.


WD Black SN770, один из первых SSD с поддержкой PCIe 4.0 для массового рынка

Похоже на то, что с 2022 года суперциклы обновления железа пойдут быстрее, чем раньше. В предыдущее десятилетие индустрия буквально застряла на старом стандарте PCIe Gen3. Долго не было революции практически ни в чём: CPU, GPU, память словно застыли. Теперь же совершенно другое дело.

А какие у вас есть мысли на этот счёт?


НЛО прилетело и оставило здесь промокоды для читателей нашего блога:

15% на все тарифы VDS (кроме тарифа Прогрев) — HABRFIRSTVDS.

20% на выделенные серверы AMD Ryzen и Intel Core HABRFIRSTDEDIC.

Комментарии (12)


  1. little-brother
    14.02.2022 11:49

    M.2 - хотсвап? Нет? Что он потерял в сервере?

    ARM - для узкой ниши ок, а для расширения сущ. корпоративных мощностей так себе.

    PCIe 6.0? Некоторые производители СХД еще PCIe4 не освоили :)

    Новые видеокарты настолько важны для Intel, что она уже несколько раз переносила анонс. Имхо с таким подходом будет что-то невразумительное на выходе.


    1. amarao
      14.02.2022 12:17
      -1

      M2 -> U2


      1. little-brother
        14.02.2022 12:56

        U2 в статье отношение - "дикая коробка". И наверное скоро будет U.3 актуальнее или вообще поход аля Хуавей с проприетарными разъемами Palm


      1. cepera_ang
        14.02.2022 14:51

        U2 -> E1 (даже на картинках есть). Вот это точно будущее — нормально проработанный под потребности формат, без легаси того, что там раньше блины крутились. Правда напихали вариантов в угоду дурацким хотелкам разных производителей. нет бы сделать сначала один форм-фактор, а не 25.


  1. WicRus
    14.02.2022 12:31
    +2

    Судя по тестам из интернетов, складывается впечатление, что НТП в области микроэлектроники сильно замедлился. PCI-E v.4 пока очень горячий и к нему так и напрашивается активное охлаждение. DDR5 оказалась на том же уровне по производительности что и DDR4, только задержки подросли. Процессоры между поколениями приростают довольно слабо. При этом ещё и существует проблема покупки свежих комплектующих по вменяемым ценам.


    1. equand
      14.02.2022 15:39

      Rome CPU и U.2 NVMe x4 в райд0 уже на 25% грузит сервер. Добавь туда хотя бы 2х40гбит/с скорость и все там, осталось пару ядер на обслужку.

      Интересно что будет с 24x NVMe для pciex5 и 400гбит карточками :D

      Имхо без 5ггц не разберешься, а с уменьшением процесса они уменьшают частоту.


      1. cepera_ang
        14.02.2022 16:07

        Netflix сёрвит 400 или 800Гбит/сек видео с пачки nvme и рассказывают каких трудов это стоило.


  1. bm13kk
    14.02.2022 13:33
    +1

    Видео, которое взяли для обьяснения CLX, неплохое. Но в статье дико перекрутили.


  1. gonzazoid
    14.02.2022 15:02
    +4

    а иногда узким местом становится производительность памяти

    истерично взвизгнул в этом месте. Иногда? Все что можно соптимизировать предвыборками и угадываниями - уже соптимизено. Если мы полезли в память значит мы промахнулись с кэшем и планированием (да, для кэша и планирования мы тоже лезем в память, я в курсе, сейчас мы лезем в память уже после этого). И вот как раз тут никакого прогресса толком со времен перехода на DDR4 нет. Нужны то не тактовые частоты ради тактовых частот и не пропускная ради пропускной (ага, делаем 512 разрядов шину и вжух - пропускная выросла в 8 раз по сравнению с 64, ага). Нужна реальная скорость - произвольный доступ по случайному адресу, с минимальным таймингом. Единственный честный параметр и по нему прогресса практически нет.


  1. czz
    14.02.2022 20:34
    +2

    Про всё понял, кроме тако с сиропом.


    1. bm13kk
      15.02.2022 15:58

      оригинал откуда это взяли
      https://www.youtube.com/watch?v=Mp9L7OClb2U

      Как я понял - задача CXL - распределять всю *ddr память между всеми вычислительными ядрами. Не важно где - на материнке или в pcie слоте.


  1. Am0ralist
    16.02.2022 18:08

    Они стали первыми, где мы можем увидеть скорость обмена с памятью 400 ГБ/с.
    Производители приставок и АМД с своими скромными 560 ГБ/с — ну да, ну да, пошли мы нафиг