Европа официально вступила в экзафлопсную эру суперкомпьютеров. В исследовательском центре Юлиха (Германия) начал работу JUPITER — первый европейский суперкомпьютер, который позиционируется как экзафлопсный.
JUPITER объединяет в себе передовые технологии: 24 000 чипов NVIDIA GH200 Grace Hopper, новейшую систему жидкостного охлаждения и модульную архитектуру. Рассказываем, что внутри у крупнейшего суперкомпьютера Европы, сколько он стоит и для каких целей его будут использовать.
Как американские GPU и французские CPU работают в одной системе
JUPITER — система с модульной архитектурой, разработанной для адаптации к различным типам вычислительных задач. В отличие от систем с однородной структурой, JUPITER состоит из двух специализированных вычислительных модулей: Booster и Cluster.
Такая схема делает систему адаптивной к различным типам вычислительных задач — от обучения моделей искусственного интеллекта, где эффективен модуль Booster с графическими ускорителями, до научных задач, требующих обработки больших объемов данных, — тут подходит Cluster Module.

Booster. Модуль обеспечивает основную вычислительную мощь JUPITER и делает его экзафлопсной системой. Этот модуль содержит 6000 вычислительных узлов, в каждом из которых установлено по четыре суперчипа NVIDIA GH200 Grace Hopper. В общей сложности модуль включает 24 000 таких чипов.
Каждый суперчип GH200 Grace Hopper представляет собой комбинацию центрального процессора Grace и графического ускорителя Hopper H100.

В каждом GPU Hopper H100 установлено 96 ГБ высокоскоростной памяти HBM3 с пропускной способностью 4 ТБ/с. Такая пропускная способность позволяет одновременно работать с наборами данных объемом в несколько десятков гигабайт, не обращаясь к более медленным уровням памяти. Центральный процессор Grace включает 72 ядра Neoverse и 120 ГБ памяти LPDDR5X с пропускной способностью 500 ГБ/с.
Архитектура модуля Booster организована так, что каждый узел содержит четыре GPU Hopper H100, объединяя четыре CPU и четыре GPU в единый узел из восьми компонентов. Связь между GPU осуществляется через NVLink со скоростью 300 ГБ/с, а между GPU и CPU — 600 ГБ/с. Общая производительность показанная модулем Booster составила 793,4 петафлопса (Rmax) при пиковой мощности 930 петафлопс (Rpeak). Для задач искусственного интеллекта производительность может достигать 80 экзафлопс.
Cluster. В отличие от Booster, Cluster Module использует французские процессоры Rhea1 от компании SiPearl. Они разработаны специально для европейских суперкомпьютеров на архитектуре Arm.

Cluster Module включает более 1300 узлов, каждый из которых оснащен двумя процессорами SiPearl Rhea1. Каждый такой процессор содержит 80 ядер Arm Neoverse Zeus, обеспечивая вычислительную мощность для задач, не требующих ускорения графическими процессорами. Каждый узел имеет 64 ГБ памяти HBM2e и 512 ГБ DDR5.
Производительность Cluster Module составляет около 5 петафлопс. Это значительно ниже, чем у Booster, но модуль оптимизирован для задач с высокими требованиями к пропускной способности памяти.
Как в JUPITER организован обмен и хранение данных
Быстрый обмен данными между тысячами вычислительных узлов — один из ключевых факторов для работы экзафлопсной системы. JUPITER использует сетевую инфраструктуру NVIDIA Mellanox InfiniBand NDR с топологией DragonFly+, которая обеспечивает высокую скорость передачи и минимальные задержки.
Сеть JUPITER состоит из 25 групп DragonFly+ в модуле Booster и 2 дополнительных групп для Cluster, хранилищ и административной системы. Эти группы соединены между собой более чем 11 000 линков, каждый со скоростью 400 Гбит/с. Внутри групп используется топология fat-tree, которая сокращает путь между узлами до минимума.

В целом система содержит около 51 000 линков и 102 000 логических портов. Такая мощная сеть нужна для быстрого обмена данными между модулями и для доступа к хранилищам.
Система хранения данных JUPITER построена по трехуровневому принципу:
Первый уровень — хранилище ExaFLASH на 21 петабайт на базе NVMe-накопителей. Оно записывает данные со скоростью более 2 терабайт в секунду и считывает со скоростью более 3 терабайт в секунду. ExaFLASH используется для временных данных при вычислениях, требующих максимальной скорости.
Второй уровень — модуль хранения высокой емкости на 300+ петабайт. Он хранит данные среднего и долгосрочного использования, которым не нужен сверхбыстрый доступ.
Третий уровень — ленточная система на 700+ петабайт. Она служит для резервного копирования и архивного хранения больших массивов данных, к которым обращаются редко.
Для управления всей системой разработан JUPITER Management Stack. Рабочей нагрузкой управляет система Slurm с дополнениями ParaStation. Всё это работает в среде Kubernetes с хранилищем Ceph.
Доступ к JUPITER организован через более 20 узлов входа (SSH), а также через веб-интерфейсы Jupyter и систему UNICORE. Вычислительные ресурсы делятся между Европейским проектом высокопроизводительных вычислений (EuroHPC) и немецким суперкомпьютерным центром GCS. Это позволяет использовать систему как для общеевропейских научных проектов, так и для немецких исследований.
Как в JUPITER решили проблему энергопотребления и охлаждения
JUPITER достигает энергоэффективности более 60 миллиардов операций на ватт. Это значит, что каждый ватт электроэнергии обеспечивает выполнение 60 гигафлопс вычислений. Общая выделенная мощность для дата-центра JUPITER составляет 25 мегаватт. При этом в обычном режиме суперкомпьютер потребляет от 12 до 15 мегаватт, а при пиковых нагрузках — до 20 мегаватт.

В JUPITER разработчики применили систему прямого жидкостного охлаждения Direct Liquid Cooling от Eviden на платформе BullSequana XH3000. Принцип работы системы прост: теплоотводящие элементы напрямую контактируют с жидким теплоносителем. Вода поступает в систему с температурой 34 ℃ и выходит нагретой до 43 ℃.
Интересный аспект системы охлаждения — рекуперация тепла. Горячая вода из системы охлаждения используется для обогрева зданий исследовательского кампуса Юлиха. Благодаря этому тепло от работы суперкомпьютера не пропадает, а служит источником энергии для отопления. Это делает систему экологичнее и снижает общие энергозатраты.

Какие задачи будет решать JUPITER
Для задач искусственного интеллекта JUPITER может развивать мощность до 90 экзафлопс. Это в два раза больше, чем могли предыдущие самые быстрые системы в Европе.
Главное направление работы суперкомпьютера — изучение климата. JUPITER поможет создавать климатические модели с детализацией до 1 километра. Благодаря этому ученые смогут точнее предсказывать наводнения, засухи и штормы. Этими возможностями уже планирует воспользоваться Институт метеорологии Макса Планка. В проекте Destination Earth с помощью JUPITER создают цифровые двойники Земли. Они помогут проверять разные климатические сценарии и оценивать последствия изменения климата.
Второе важное направление — развитие искусственного интеллекта в Европе. JUPITER станет основой для фабрики искусственного интеллекта, о которой объявили в марте 2025 года. Юлихский центр вместе с девятью европейскими партнерами уже запустил проект TrustLLM. В нем используют JUPITER для обучения крупных языковых моделей на разных европейских языках. Это поможет Европе меньше зависеть от американских технологий.
JUPITER также помогает в изучении мозга. Исследователи используют его для создания моделей человеческого мозга. Например, с помощью симулятора Arbor они моделируют работу отдельных нейронов. Это поможет разработать методы лечения болезни Альцгеймера и других нейродегенеративных заболеваний.

Институт биофизики Макса Планка планирует с помощью JUPITER изучать структуры клеток на атомном уровне. Это расширит наши знания о работе живых организмов.
В области квантовых вычислений JUPITER может моделировать системы с более чем 50 кубитами. Это рекорд для обычных компьютеров. Такие возможности помогут развитию квантовых технологий.
Сейчас JUPITER занимает 4-е место в мировом рейтинге суперкомпьютеров и 1-е место в Европе. Он уступает только американским системам El Capitan, Frontier и Aurora. В ближайшие годы в Европе планируют создать второй такой суперкомпьютер — Alice Recoque во Франции.
Как думаете, это поможет сократить отставание ЕЭС от США и Китая в области высокопроизводительных вычислений?
andrewilife
Серьёзная хреновина