Дважды в год мир высокопроизводительных вычислений замирает в ожидании обновления TOP500 — главного индикатора технологического прогресса в области суперкомпьютеров. Это не просто список — это компас, указывающий направление развития всей компьютерной индустрии. Технологии, которые сегодня тестируются здесь, завтра придут в корпоративные дата-центры, а послезавтра — в наши рабочие станции и ноутбуки. Что же мы увидим в ноябрьском Топ-10, рассмотрим в посте ниже.
Технологические тренды, меняющие правила игры
Казалось бы, что интересного может быть в очередном обновлении рейтинга суперкомпьютеров — ну становятся они мощнее из года в год, и что с того? Однако именно в этой сфере происходит первичное тестирование технологий, которые через несколько лет окажутся в наших домашних компьютерах и серверах. Суперкомпьютеры всегда были и остаются той передовой, где испытываются самые смелые инженерные решения, ведь именно здесь цена ошибки измеряется миллионами долларов, а требования к надежности близки к абсолютным.
История перехода технологий из мира суперкомпьютеров в массовый сегмент богата на примеры. Взять хотя бы высокоскоростную память HBM, которая сегодня красуется в характеристиках топовых ИИ ускорителей и серверных процессоров — она прошла боевое крещение именно в суперкомпьютерных системах. То же самое можно сказать о технологиях межпроцессорного взаимодействия вроде AMD Infinity Fabric, OCulink и PCI Express 5.0 — все эти решения сначала обкатывались на самых требовательных системах, прежде чем попасть в массовый сегмент. И это не просто совпадение, а устойчивый шаблон развития индустрии, когда самые передовые технологии постепенно просачиваются сверху вниз, становясь доступнее и дешевле.
Особенно показательна история с системами охлаждения — то, что когда-то считалось экзотикой и было доступно только для суперкомпьютеров, сегодня становится нормой для обычных серверных стоек. Жидкостное охлаждение, некогда бывшее исключительной прерогативой самых мощных систем, теперь активно внедряется в корпоративном сегменте, демонстрируя, как технологические инновации постепенно находят более широкое применение по мере снижения стоимости и роста доступности.
Анализируя современные тренды в TOP500, можно довольно точно предсказать, какие технологии через 3-5 лет станут обыденностью. Например, сейчас мы наблюдаем интереснейшую эволюцию концепции System-on-Chip (SoC). Если раньше под этим термином подразумевалась простая интеграция чипсета в процессор, то теперь El Capitan с его APU AMD MI300A демонстрирует совершенно новый уровень интеграции, объединяя на одной подложке CPU, GPU и высокоскоростную память HBM. Такой подход к архитектуре, вероятно, станет одним из определяющих векторов развития как серверного сегмента, так и потребительских ПК в ближайшем будущем.
Не менее интересна история успеха ARM-архитектуры в мире высокопроизводительных вычислений. Японский суперкомпьютер Fugaku, построенный исключительно на ARM-процессорах A64FX без использования графических ускорителей, не просто попал в TOP500 — он возглавил этот престижный рейтинг в 2020 году и до сих пор удерживает позиции в первой десятке, что наглядно демонстрирует жизнеспособность ARM не только в мобильном сегменте, но и в самых требовательных вычислительных задачах.
В мире сетевых технологий также происходят любопытные изменения, разрушающие привычные представления о доминировании тех или иных решений. Многие считают, что InfiniBand безраздельно властвует в суперкомпьютерном сегменте, однако реальность несколько сложнее. Суперкомпьютерное подразделение HPE (бывшая Cray) успешно развивает собственные решения, и их современный интерконнект Slingshot стал одним из стандартов индустрии. При этом InfiniBand от NVIDIA начал активно укреплять позиции только с 2020 года, что напрямую связано с бумом ИИ-вычислений и растущей популярностью ускорителей NVIDIA, а также производимых ими серверов и OEM-решений на основе их GPU-ускорителей.
Так можно продолжать ещё очень долго, но с предисловием пожалуй закончим и далее мы разберём весь топ-10 текущего рейтинга суперкомпьютеров.
Текущая расстановка сил
Посмотрев на первую десятку рейтинга, мы видим три основных направления: системы на базе AMD MI300A, демонстрирующие преимущества SoC-архитектуры, классические решения с раздельными CPU и GPU, а также интересный эксперимент NVIDIA с их связкой фирменного ARM процессора Grace и топового ИИ ускорителя GH200 Hopper.
Рассмотрим детальнее каждую систему из первой десятки, их технические особенности и то, как они отражают текущие тенденции в индустрии высокопроизводительных вычислений.
El Capitan: на вершине производительности
Первое место в ноябрьском рейтинге TOP500 занял суперкомпьютер El Capitan, установленный в Ливерморской национальной лаборатории – США, штат Калифорния. Система, разработанная HPE, демонстрирует производительность в 1,742 петафлопс по тесту Linpack при теоретическом максимуме 2,746 петафлопс. Цифры впечатляют, но суть кроется в деталях архитектуры.
El Capitan построен на платформе HPE Cray EX255a. В его основе — AMD Instinct MI300A, который представляет собой интегрированное APU-решение, где центральный и графический процессоры вместе с памятью объединены в единый вычислительный узел. Всего система содержит 11 миллионов вычислительных ядер.
Узлы связаны между собой с помощью Slingshot-11 — фирменного сетевого решения HPE для высокопроизводительных вычислений. Стоит отметить, что использование собственной сетевой технологии является частью стратегии HPE по созданию полностью интегрированных решений без зависимости от сторонних производителей сетевого оборудования.
Работой системы управляет операционная система TOSS, специально оптимизированная под высокопроизводительные вычисления. При пиковой производительности система потребляет около 30 тысяч киловатт.
Frontier: серебряный призёр не сдаёт позиций
Второе место занимает Frontier из Окриджской национальной лаборатории. Эта система, также построенная на платформе HPE Cray, но модели EX235a, показывает результат в 1,353 петафлопс по Linpack при теоретическом пике в 2,055 петафлопс.
В сердце Frontier находятся процессоры AMD EPYC 3rd поколения с 64 ядрами на частоте 2 ГГц и графические ускорители AMD Instinct MI250X. Система объединяет более 9 миллионов вычислительных ядер, связанных той же сетью Slingshot-11, что обеспечивает эффективное масштабирование параллельных вычислений.
Энергопотребление в 24 607 киловатт выглядит весьма разумным для такой мощности. Программная часть построена на HPE Cray OS с использованием компиляторов GCC 12.3.0 и hipcc. Математические операции обеспечиваются библиотеками ROCm 5.7.1 и MKL 2019, а за межпроцессорное взаимодействие отвечает Cray MPICH версии 8.1.30.
Aurora: попытка Intel остаться в игре
Третье место достаётся Aurora из Аргоннской национальной лаборатории — системе, которая наглядно демонстрирует текущее положение дел у Intel. Компания, ещё недавно считавшаяся непотопляемым авианосцем индустрии, теперь отчаянно пытается доказать свою релевантность в мире HPC, где AMD и NVIDIA чувствуют себя как рыба в воде.
Aurora построена на платформе HPE Cray EX с процессорами Xeon CPU Max 9470 с HBM памятью прямо на процессоре и связке с графическими ускорителями Intel Data Center GPU Max — названия внушительные, но на деле суперкомпьютер может похвастаться лишь 1,012 петафлопс по Linpack при теоретическом максимуме 1,980 петафлопс. При этом система потребляет почти 39 тыс. kW — больше, чем любой другой суперкомпьютер в первой пятёрке.
Система располагает 9,2 миллионами ядер, где каждый Xeon Max вносит вклад благодаря 52 ядрам на частоте 2,4 ГГц. Однако если посмотреть на соотношение производительности и энергопотребления, картина получается не самая радужная. Впрочем, чего ещё ожидать от компании, чьи акции планомерно двигаются к историческим минимумам, а каждый новый анонс сопровождается очередными переносами сроков и урезанием характеристик.
Eagle: облачный прорыв Microsoft
Четвертое место занимает Eagle, развёрнутый в инфраструктуре Microsoft Azure. Система демонстрирует, что облачные провайдеры тоже умеют в высокопроизводительные вычисления, хотя и с некоторыми оговорками. Платформа NDv5 с процессорами Xeon Platinum 8480C и ускорителями NVIDIA H100 выдаёт 561,2 петафлопс по Linpack при теоретическом потолке 846,84 петафлопс.
Два миллиона ядер связаны сетью NVIDIA Infiniband NDR — да, Infiniband, а не Slingshot, хотя судя по фото в интернете суперкомпьютер был заказан у HPE, либо же в процессе он был модернизирован и от HP в нём остались только надписи на корпусе. Система работает под управлением Ubuntu 22.04, используя стандартный набор инструментов NVIDIA — NVCC, CUBLAS 12.2 и HPCX 2.16.
HPC6: итальянский подход к эффективности
На пятой строчке расположился HPC6 от Eni S.p.A. — итальянской энергетической компании, которая, похоже, решила вложиться в собственные вычислительные мощности. И надо сказать, получилось неплохо: система на платформе HPE Cray EX235a показывает 477,9 петафлопс по Linpack при теоретическом максимуме 606,97 петафлопс.
HPC6 от Eni S.p.A. использует то, что можно назвать "золотым стандартом" современных суперкомпьютеров — связку процессоров AMD EPYC третьего поколения с ускорителями AMD Instinct MI250X. Это сочетание стало де-факто стандартом в индустрии благодаря оптимальному балансу производительности, энергоэффективности и стоимости. На этой проверенной платформе система демонстрирует впечатляющие 477,9 петафлопс при энергопотреблении всего 8,4 тысячи киловатт. Три миллиона ядер работают настолько эффективно, что энергетики из Eni могут гордиться не только вычислительной мощностью, но и экономичностью своего суперкомпьютера.
Fugaku: японское постоянство
Шестую позицию занимает старина Fugaku из центра RIKEN — живое доказательство того, что ARM может не только в смартфоны. Система, некогда возглавлявшая рейтинг в 2020 года, до сих пор показывает достойные 442,01 петафлопс по Linpack при теоретическом пике 537,21 петафлопс.
7,6 миллиона ядер на процессорах A64FX с частотой 2,2 ГГц связаны фирменным интерконнектом Tofu interconnect D от Fujitsu. Система потребляет около 30 тысяч киловатт, но может работать и в экономичном режиме, снижая аппетиты до 26 тысяч kW. Весь софт — от операционной системы до библиотек — заточен именно под эту архитектуру, что и позволяет держать планку производительности на достойном уровне.
Alps: NVIDIA пробует себя в CPU
Седьмое место у Alps из Швейцарского национального суперкомпьютерного центра. Система построена на платформе HPE Cray EX254n, и тут NVIDIA решила выйти за пределы своей графической песочницы — в основе лежат процессоры NVIDIA Grace в связке с GPU GH200 Superchip.
Два миллиона ARM ядер на процессорах Grace с частотой 3,1 ГГц в тандеме с GH200 выдают 434,9 петафлопс по Linpack при теоретическом потолке 574,84 петафлопс. При этом система потребляет всего 7,1 тысячи киловатт. Современные ARM-решения от NVIDIA демонстрируют впечатляющие показатели энергоэффективности — не случайно в рейтинге Green500, который ранжирует суперкомпьютеры по соотношению производительности к энергопотреблению, системы на базе NVIDIA Grace занимают лидирующие позиции.
Это достижение особенно значимо в контексте текущего ИИ-бума, когда энергопотребление дата-центров растёт в геометрической прогрессии. Обучение современных моделей нейросетей требует таких колоссальных энергетических ресурсов, что некоторые технологические гиганты всерьёз рассматривают строительство собственных модульных атомных электростанций для обеспечения своих дата-центров. В этих условиях энергоэффективность ARM-решений от NVIDIA может стать одним из ключевых факторов развития индустрии искусственного интеллекта.
Забавно наблюдать, как NVIDIA, десятилетиями занимавшая свою уютную нишу производителя графических ускорителей, теперь пытается откусить кусок серверного пирога у Intel и AMD. Grace, про которые мы ранее писали в этом посте — это первая серьёзная попытка компании выйти на рынок центральных процессоров, и, судя по показателям Alps, попытка довольно удачная. Хотя, конечно, одна система в TOP500 — это ещё не повод для Intel начинать паковать чемоданы.
Сеть Slingshot-11, как мы уже говорили, иного от HPE ждать не стоит. На программном уровне используется HPE Cray OS в связке с библиотекой CUBLAS — тут NVIDIA остаётся в своей зоне комфорта, используя отработанный годами софтверный стек.
LUMI: финский расчёт
Восьмую строчку занимает LUMI — европейский проект под управлением финского CSC. Система на базе HPE Cray EX235a с 2,7 миллионами ядер AMD EPYC третьего поколения и ускорителями MI250X выдаёт 379,7 петафлопс по Linpack при теоретическом максимуме 531,51 петафлопс.
В техническом плане LUMI не преподносит никаких сюрпризов — это типовое решение от HPE, построенное по уже отработанной схеме. Что забавно, рынок суперкомпьютеров в каком-то смысле начинает напоминать обычный интернет-магазин: заходите на сайт HPE, выбираете конфигурацию, оплачиваете несколько десятков миллионов долларов — и получаете свой суперкомпьютер с доставкой на дом. Правда, в отличие от обычного онлайн-шоппинга, этот "товар" потребляет 7 тысяч киловатт энергии, что, впрочем, является весьма экономичным показателем для такой производительности.
Leonardo: итальянский компромисс
Девятое место у Leonardo из CINECA — ещё одного европейского проекта, на этот раз итальянского. И вот тут становится интереснее: перед нами редкий пример современного суперкомпьютера, созданного без участия HPE. Система на базе BullSequana XH2000 представляет собой необычный коктейль: процессоры Intel Xeon Platinum 8358 в паре с ускорителями NVIDIA A100.
1,8 миллиона ядер, связанных через Quad-rail NVIDIA HDR100 InfiniBand, выдают 241,2 петафлопс по Linpack при теоретическом пике 306,31 петафлопс. Энергопотребление — 7,5 тысяч киловатт. Использование относительно старых A100 вместо новых H100 может показаться странным выбором, но имеет экономическое обоснование: значительное снижение цен на A100 после выхода H100 сделало их весьма привлекательным вариантом для проектов с ограниченным бюджетом. Похоже, итальянские инженеры нашли оптимальный баланс между производительностью и стоимостью.
Tuolumne: замыкающий из Ливермора
Закрывает десятку Tuolumne из Ливерморской лаборатории — младший брат лидера рейтинга El Capitan. И снова перед нами типовое решение от HPE на платформе Cray EX255a. Как и старший брат, система использует интегрированное APU-решение AMD MI300A, объединяющее в едином кристалле процессорные ядра Zen4 и графическое ядро CDNA3. При теоретическом максимуме 288,88 петафлопс система демонстрирует 208,1 петафлопс в тесте Linpack, потребляя всего 3,4 тысячи киловатт — очередное подтверждение эффективности интегрированной архитектуры AMD.
Что всё это значит
Анализируя TOP500, можно выделить несколько ключевых моментов. AMD сейчас доминирует на рынке с двумя сильными технологическими решениями. С одной стороны, это APU на базе Zen4 с CDNA3 (MI300A) — самое производительное решение в мире x86 для суперкомпьютеров. С другой — связка EPYC 3-го поколения на Zen3 с MI250X на CDNA2, которая хоть и считается технически устаревающей, но остаётся эффективным решением, позволяющим войти в TOP500 даже с относительно скромным бюджетом.
NVIDIA, в свою очередь, делает серьёзную ставку на полную вертикальную интеграцию. Компания объединяет собственные процессоры Grace с ускорителями GH200 через высокоскоростной NVLINK, создавая суперчипы. И это только начало — через пару лет, с выходом обновлённых процессоров Vera в паре с графической архитектурой Rubin, NVIDIA может радикально изменить расстановку сил в TOP500, потенциально занимая более 50% рейтинга. Главное условие — сохранение текущего спроса на решения для искусственного интеллекта.
На этом фоне особенно грустно наблюдать за попытками Intel удержаться в игре. Падение этого некогда несокрушимого гиганта индустрии выглядит особенно болезненным на фоне успехов AMD и NVIDIA.
Интересно будет также проследить за развитием проектов на базе процессоров Ampere One, про которые мы уже писали ранее и к которым рынок только начинает активно присматриваться. Не исключено, что через пару лет эти ARM-процессоры в связке с ускорителями NVIDIA также начнут занимать лидирующие позиции в рейтинге.
Комментарии (17)
avereshagina
13.12.2024 10:09Уважение интелу за третью строчку. Жаль, что Пэт Гелсингер ушел, и теперь реже получиться видеть такие экспромты в виде суперкомпьютера или итаниума. Будем скучать!
SF_author Автор
13.12.2024 10:09Держу в курсе. Детище Пэта Гелсингера на базе Intel Itanium 2 уже участвовало в TOP500 2004 года и занимало гордую 2 строчку. Если интересно - Thunder.
Playa13
13.12.2024 10:09Японский суперкомпьютер на ARM честно сказать удивил. Но в целом уже всем известно - за ARM будущее
kenskiy
13.12.2024 10:09Я в лице ARM ожидал тут увидеть решения от Huawei Kunpeng 920 ну или Ampere Altra. Может быть китайский суперкомьютеры тут не учитывается. Нужно провести ресеч в этом направлении и сделать TOP500 China.
Brak0del
13.12.2024 10:09Может быть китайский суперкомьютеры тут не учитывается.
Они и не учитываются, Китай перестал подаваться в TOP500 (не хотят светить возможности) и имеет 2 экзаскейл суперкомпьютера. Китай кое-что светит в Gordon Bell Prize.
OrkBiotechnologist
13.12.2024 10:09Из-за санкций не хотят светить или они ещё до торговой войны там решили не палиться?
Brak0del
13.12.2024 10:09Мне показалось, что после санкций на Huawei решили не подставлять свои прочие детища.
SF_author Автор
13.12.2024 10:09Это действительно интересно. Почитал про недавно вышедший Tianhe Xingyi:
15.97 млн ядер(390 ядерные SW26010 pro на RISC архитектуре), должен отметить это впечатляет.
Dr_Lenin
13.12.2024 10:09За Mi300A на 100% согласен. Выглядит как будущее как минимум для компактных систем с продуманной системой охлаждения, так и для "Царь APU".
В Авроре конечно небольшая недосказанность по поводу ROCm. В каком-то смысле они действительно используют ROCm, но не обычный, а rocBLAS (который занимается в основном именно математикой). Интересно, присутствует ли он только в ускорителях Instinct или доступен так же на ускорителях Radeon RX или Radeon pro?)
SF_author Автор
13.12.2024 10:09С компактностью думаю будет спорно, хотя можно наверное HPE Microserver организовать, где все пространство внутри будет отведено под размещение радиатора.
Про rocBLAS действительно не знал, почитаю. Было бы интересно свой радеон превратить в универсальный калькулятор линейной аргебры ранее заточенной под нвидию
Ilya_gaming
13.12.2024 10:09Судя по развитию ARM процессоров, а особенно Nvidia, можно предположить, что так скоро мы увидим на рынке десктопные ARM для домашних пк от AMD и Nvidia, а может и Intel, если Qualcomm их купит. Сейчас Snapdragon 8 elit уже неплохо показывает себя в ноутбуках, при этом там ограниченный TDP
SF_author Автор
13.12.2024 10:09В дополнении выше упомянутой темы Kunpeng хочу сказать, что хуавей выпускает Kunpeng 920 для потребительских ПК. Там готовая материнка, где CPU уже впаян и все это с фирменной архитектурой TaiShan V110(модифицированный ARM).
У нас в РФ тоже есть варианты на условном Эльбрус-8С, который также подлежит впаиванию. Эти процессоры можно найти в моноблоках и рабочих станциях для гос. сектора.
DimonRabadon02
13.12.2024 10:09То что на первом месте находится El Capitan неудивительно, ведь даже я, который особо не следит за новостями про суперкомпьютеры, слышал о нем, но меня поразило, что Fugaky, японский монстр, до сих пор один из лучших в мире.
Tyusha
13.12.2024 10:09Напутали в петафлопсами. У лидеров не пета, а экзафлопсы.
jamiederinzi
13.12.2024 10:09Там, насколько я понял, запятая в качестве разделителя разрядов, т.е. 1,472 петафлопс - это не "один и четыреста семьдесят две тысячных", а "тысяча четыреста семьдесят два"
kenskiy
Как человеку, который всей душой любит железки, мне грустно наблюдать обилие проприетарщины в суперкомпьютерах. С одной стороны, очевидно, что для достижения максимальной производительности это необходимо, но с другой – я практически лишен возможности поюзать это железо и насладиться им.
В 2022 году в мои руки попал интересный процессор - Xeon E5 2692v2, купленный на Авито за пару тысяч рублей. Процессор обладал скромной тактовой частотой 2.2 GHz, но при этом имел максимальное число ядер для этого сокета - 12 штук. Модель процессора не была опубликована на сайте Intel, так как это был OEM-вариант с оптимизированной стоимостью для частных заказчиков. Однако скажу сразу, этот процессор отлично работал на Supermicro X9 и справлялся с базовой виртуализацией.
Позже я узнал, что именно эти процессоры стояли в суперкомпьютере Tianhe-2A в 2013 году. Таким образом, мне удалось прикоснуться к части суперкомпьютера.
SF_author Автор
Кстати, тот самый Xeon Phi 31S1P тоже проскакивает на досках объявлений, однако вещь это бесполезная от слова совсем. Если только нет желания пощупать брошенный дистрибутив Intel Lunux и увидеть легендарный HyperThreading в 4 потока на одно ядро)