Дженсен Хуанг представляет NVIDIA GB200 NVL72.
Дженсен Хуанг представляет NVIDIA GB200 NVL72.

Введение 

Индустрия разработки искусственного интеллекта требует огромного количества вычислительных ресурсов для инференса ИИ, и еще большего количества ресурсов для обучения передовых языковых моделей. Несмотря на тот факт, что регулярно выходят новые, высокопроизводительные решения для разработчиков ИИ-сектора, на рынке почти не представлено готовых систем, снабженных интерконнектом, который будет способен эффективно объединить до нескольких десятков передовых ИИ-ускорителей. Чтобы удовлетворить эти потребности, Nvidia разработала передовое решение в лице NVIDIA GB200 NVL72, которое функционирует как единая, высокопроизводительная система для самых требовательных ИИ-операций. По сути, это готовое решение "под ключ", укомплектованное самыми передовыми компонентами, такими как GPU, ARM процессорами, коммутаторами, DPU и SmartNIC. Сегодня мы расскажем вам, что из себя представляет стойка GB200 NVL72, из чего она состоит, насколько она производительна, а также ответим на вопрос, почему Nvidia позиционирует эту систему как один большой и мощный GPU.

Схема взаимодействия GPU B200 с CPU Grace.
Схема взаимодействия GPU B200 с CPU Grace.

Что же такое GB200 NVL72?

GB200 NVL72 — это серверный шкаф, состоящий из 36 центральных процессоров Nvidia Grace и 72 графических процессоров B200 на новейшей архитектуре Blackwell. CPU и GPU от Nvidia в системе интегрируются в виде уникальных устройств GB200 NVL4 Superchip. Комплекс GB200 NVL72 предназначен для решения задач, связанных с обучением и инференсом самых современных больших языковых моделей с количеством параметров, исчисляющихся в триллионах. Также комплекс GB200 NVL72 пригоден для интеграции в инфраструктуры крупнейших дата-центров и сетора HPC. Примечательно, что GB200 NVL72 построен на фирменной модульной архитектуре MGX, которая обеспечивает максимальную гибкость конфигурирования системы и широкие возможности ее масштабирования. Общий объем быстрой памяти HBM3e составляет впечатляющие 13,5 ТБ, что позволяет развертывать даже самые требовательные LLM без нужны в квантизации моделей, а суммарное количество ARM-ядер Neoverse V2 составляет 2592 штук. Само собой, такое обилие высокопроизводительных компонентов делают систему GB200 NVL72 очень энергоемкой — энергопотребление стойки достигает колоссальных 120 кВт. В свою очередь, для охлаждения такого устройства не подойдут даже самые мощные серверные вентиляторы, поэтому в системе используется жидкостная система охлаждения. Несмотря на рекордный объем памяти VRAM, Nvidia также интегрировала технологию для квантизации моделей ИИ — движок Transformer 2-ого поколения. Transformer Engine 2.0 поддерживает выполнение операций ИИ в формате FP4 и FP8, благодаря чему разработчики ИИ могут в 4 раза быстрее обучать большие языковые модели, нежели при использовании формата с полной точностью. Кроме того, форматы FP4 и FP8 позволяют сохранить достаточную точность при экономии значительного объема вычислительных ресурсов, при этом не прибегая к использованию формата INT8.

Передовой серверный шкаф GB200 NVL72 в конфигурации ASUS AI POD, состоящий из 18-ти вычислительных нод, 9-ти нод с NVLink Switch, 6-ти полок электропитания, 1-ого контроллера управления и 3-х сетевых коммутаторов для управления Ethernet-устройствами.
Передовой серверный шкаф GB200 NVL72 в конфигурации ASUS AI POD, состоящий из 18-ти вычислительных нод, 9-ти нод с NVLink Switch, 6-ти полок электропитания, 1-ого контроллера управления и 3-х сетевых коммутаторов для управления Ethernet-устройствами.

GB200 Grace Blackwell Superchip 

Nvidia GB200 Grace Blackwell Superchip — это старшая модель устройств на архитектуре Blackwell, которая представляет собой ускоритель для ИИ, состоящий из 2-х графических чипов B200 и 1-ого центрального процессора Grace от компании Nvidia. Форм фактор ускорителя оптимизирован под MGX, что и делает его очень удобным для развертывания инфраструктур, предназначенных разработки передовых моделей искусственного интеллекта. Ввиду своей комплектации, эти устройства имеют внушительный TDP, достигающий 2,7 кВт, что является очень высоким показателем даже для ИИ-ускорителей. Кроме того, объем памяти каждого суперчипа достигает 864 ГБ (2x 192 ГБ HBM3e для двух ускорителей Blackwell и 480 ГБ LPDDR5X для одного CPU Grace). С помощью высокоскоростного интерконнекта NVLink-C2C, обеспечивается минимальная задержка при передаче данных между графическими и центральными процессорами. Именно благодаря суперчипам GB200 Grace Blackwell, серверный узел GB200 NVL72 имеет одни из самых высоких показателей ИИ-производительности на рынке передовых решений для больших языковых моделей.

Суперчип GB200 Grace Blackwell, интегрируемый в суперкомпьютеры GB200 NVL72.
Суперчип GB200 Grace Blackwell, интегрируемый в суперкомпьютеры GB200 NVL72.

Инфраструктура NVLink

NVLink 5.0

NVLink 5.0 — это новое, 5-ое поколение межпроцессорных соединений, анонсированное вместе с другими решениями на архитектуре Blackwell. Эта технология позволяет эффективно объединять графические чипы и центральные процессоры в одном большом кластере, при этом, обеспечивая минимальные задержки при передаче данных. NVLink 5.0 является основным связующим звеном всего комплекса GB200 NVL72. Интерфейс имеет колоссальную пропускную способность, достигающую 1,8 ТБ/с, что позволяет создавать крайне эффективные межсоединения, способные объединить вплоть до 72 графических процессоров. Однако для реализации технологии столь разветвленной сети NVLink 5.0, Nvidia внедрили в серверный узел такие нетривиальные компоненты, как NVLink Switch и NVLink Spine, благодаря которым NVLink может масштабироваться в больших масштабах нежели чем в традиционных системах DGX и HGX.

Массив из 9-ти NVLink Switch в серверном узле GB200 NVL72.
Массив из 9-ти NVLink Switch в серверном узле GB200 NVL72.

NVLink Switch

Специализированные ноды NVLink Switch с форм-фактором 1U необходимы для соединения ускорителей серверной стойки GB200 NVL72 друг с другом. Контроллеры устанавливаются в центре стойки между массивами вычислительных нод в количестве 9-ти штук, что делается для синхронизации электрических сигналов. Пропускная способность каждого NVLink Switch составляет 14,4 ТБ/с. Таким образом, 9x NVLink Switch обеспечивают неблокируемую пропускную способность в 130 ТБ/с, за счет чего скорость передачи данных остается стабильной даже при пиковых нагрузках. Помимо функции соединения графических ускорителей, за счет поддержки протокола ​​SHARP In-Network Compute, чипы NVLink Switch расширяют зону вычислений до внутрисетевых операций с производительностью 3,6 TFLOPS в формате FP8, тем самым еще больше повышая эффективность GB200 NVL72. 

Именно благодаря работе NVLink Switch удается коммутировать такое большое количество графических процессоров в единую сеть — без использования этих нод, технология NVLink могла бы объединить лишь несколько GPU. Вышеперечисленные преимущества использования NVLink Switch сделали возможным реализацию концепции объединения всех графических процессоров в один большой CUDA-процессор с общей памятью.

Внутри коммутатора NVLink Switch установлено два одноименных чипа. Этот элемент системы также подлежит жидкостному охлаждению, как и все другие компоненты GB200 NVL72.
Внутри коммутатора NVLink Switch установлено два одноименных чипа. Этот элемент системы также подлежит жидкостному охлаждению, как и все другие компоненты GB200 NVL72.

NVLink Spine

NVLink Spine — это старший брат NVLink Bridge, состоящий из “5000 медных проводников общей длинной в 2 мили”, объединяющий вычислительные ноды и коммутаторы NVLink Switch в единую систему. Он устанавливается на задней стороне стойки GB200-NVL72 и благодаря использованию медных проводников обеспечивает экономию энергии на 20 кВт по сравнению с оптическими трансиверами, которые тратят большое количество энергии на питание светодиодов. Таким образом, NVLink Spine позволяет 72-м графическим процессорам Blackwell взаимодействовать друг с другом по NVLink, обеспечивая высокую скорость передачи данных для ускорения вычислений.

“Мостик” NVLink Spine достигает внушительных размеров. Его высота составляет ~ 120 см.
“Мостик” NVLink Spine достигает внушительных размеров. Его высота составляет ~ 120 см.

Сетевая инфраструктура Infiniband и Ethernet

Nvidia грамотно расставила приоритеты, уделив сетевой инфраструктуре не меньше внимания, чем графическим решениям. Чтобы обеспечить эффективный интерконнект для различных экосистем, Nvidia предлагает выбор из двух моделей коммутаторов — Quantum-X800 InfiniBand и Spectrum-X800 Ethernet.

Решения на базе InfiniBand по праву считаются наиболее продвинутыми в области кластеризации, так как этот стандарт изначально разрабатывался для построения таких систем. InfiniBand обеспечивает высокую пропускную способность и низкие задержки, что идеально подходит для современных вычислительных нагрузок.

Однако инфраструктура InfiniBand не всегда легко внедряется в дата-центры, которые ранее использовали классический Ethernet. Именно для таких клиентов Nvidia разработала продвинутый Ethernet-коммутатор Spectrum-X800, который поддерживает наиболее востребованные сетевые технологии. Это решение позволяет получить многие преимущества InfiniBand без необходимости полной перестройки сетевой инфраструктуры ЦОД.

Теперь рассмотрим особенности и характеристики платформ Quantum-X800 InfiniBand и Spectrum-X800 Ethernet по-отдельности:

Quantum-X800 InfiniBand

Платформа Quantum-X800 InfiniBand основана на базе новой версии версии стандарта InfiniBand XDR и предназначена для интеграции в наиболее требовательные инфраструктуры сектора HPC и ИИ. Коммутаторы Quantum-X800 InfiniBand имеют до 144 портов OSFP 800G а также выделенный порт для Unified Fabric Manager. Помимо этого, новое семейство коммутаторов работает в связке с сетевыми картами ConnectX-8 SuperNIC (встроенные в каждую ноду), благодаря которым соединяются все вычислительные модули, тем самым организовывая связь между ними и коммутаторами. По умолчанию серверный узел GB200 NVL72 поддерживает интеграцию 1-ого коммутатора Quantum-X800 InfiniBand.

Сетевой коммутатор Quantum-X800 InfiniBand в компоновке 1U.
Сетевой коммутатор Quantum-X800 InfiniBand в компоновке 1U.

Spectrum-X800 Ethernet

В свою очередь, платформа Spectrum-X800 Ethernet на базе коммутатора SN5600, предназначена для интеграции в серверный шкаф GB200 NVL72. Spectrum-X800 Ethernet применяется для развертывания инфраструктур крупнейших облачных систем генеративного ИИ и является первым в мире Ethernet-коммутатором класса 800GbE. Пропускная способность этого решения достигает 51,2 Тбит/с, имеется 64 порта 800GbE в формате OSFP и предполагается совместная работа с DPU BlueField-3 (однако, вместо DPU можно использовать сетевые карты ConnectX). Spectrum-X800 Ethernet интегрируется в серверный шкаф GB200 NVL72 в количестве 1-ой штуки вместо коммутатора Quantum-X800 InfiniBand и обеспечивая максимальную совместимость серверного узла с внешними сетями и уже существующими инфраструктурами.

Дженсен Хуанг представляет платформу Spectrum-X800 Ethernet.
Дженсен Хуанг представляет платформу Spectrum-X800 Ethernet.

NVIDIA BlueField-3

Nvidia BlueField-3 — новейшая версия сопроцессоров для обработки данных, которая является еще одним вычислительным звеном серверного узла GB200 NVL72. Основная задача Nvidia BlueField-3 — разгрузка центрального процессора Grace за счет выполнения краевых вычислений непосредственно в на базе мощностей самого DPU. Nvidia BlueField-3 можно перепрограммировать для адаптации к особенностям сетевого трафика и и улучшения безопасности сетевого окружения комплекса GB200 NVL72.

Сопроцессор для обработки данных Nvidia BlueField-3.
Сопроцессор для обработки данных Nvidia BlueField-3.

Производительность NVIDIA GB200 NVL72

Производительность нового серверного узла GB200 NVL72 сможет удовлетворить потребности разработки даже самых требовательных моделей искусственного интеллекта с триллионами параметров. GB200 NVL72 в 30 раз более эффективны в инференсе LLM и в 4 раза более эффективны в обучении LLM, чем системы на базе ускорителей H100 на архитектуре прошлого поколения. Помимо этого, GB200 NVL72 демонстрирует увеличение скорости обработки данных в 18 раз и увеличение энергоэффективности до 25 раз по сравнению с ускорителями Hooper. 

Рассмотрим производительность системы GB200 NVL72 более подробно, а также сравним ее с топовыми адаптерами, представленными на рынке:

Параметр 

GB200 NVL72(36x GB200 Grace Blackwell Superchip)

DGX H200(8x H200 Hooper)

AMD Instinct MI325X Platform (8x MI325)

Объем памяти

13.5TB HBM3e

1128GB HBM3e

2048GB HBM3e

FP4

1440 PFLOPS

-

-

FP8/ FP6

720 PFLOPS

32 PFLOPS

41.8 PFLOPS

FP16 / BF16

360 PFLOPS

15.8 PFLOPS

20.9 PFLOPS

FP32 / TF32

180 PFLOPS

7,84 PFLOPS

10.5 PFLOPS

Как видно из таблицы, серверный узел GB200 NVL72 является лучшим решением, которому нет равных среди ИИ-ускорителей, представленных на рынке. Это обуславливается тем, что GB200 NVL72 состоит из 36 передовых ИИ-ускорителей GB200 Grace Blackwell Superchip, которые эффективно объединены в одну систему. Однако, столь высокая ИИ-производительность вероятно будет полезна лишь крупным компаниям разработчиков новейших моделей LLM, которые будут способны конкурировать с такими гигантами индустрии, как Open AI, Microsoft, Google и прочими корпорациями.

Вывод

GB200 NVL72 — это самое передовое решение компании Nvidia для сектора ИИ и HPC, которое имеет все перспективы стать самым востребованным и желанным устройством для крупных, корпоративных потребителей. Nvidia не ошиблись, позиционируя GB200 NVL72 как один большой GPU — все компоненты этого серверного узла работают едино, что обеспечивается передовым межсоединением NVLink 5.0. В этом устройстве собраны буквально все передовые решения от Nvidia, что делает GB200 NVL72 не просто высокопроизводительным вычислительным комплексом, а полноценной экосистемой для создания передовых моделей искусственного интеллекта и развертывания крупнейших дата-центров.

Комментарии (15)


  1. kovserg
    06.12.2024 07:41

    И сколько стоит этот Spectrum ?


    1. SF_author
      06.12.2024 07:41

      Если отталкиваться от цен в интернете, то NVIDIA Spectrum-4 Switch(64 x 800 Gigabit QSFP) стоит ~ $74,457. Теперь стоит попытаться скалькулировать стоимость 1 шкафчика и подыскать варианты лизинга)


  1. avereshagina
    06.12.2024 07:41

    Хотел бы взять две gb200 и развернуть на всем этом деле нейронку для генерации лендингов. Бесконечная зарабатывалка, если так подумать


    1. kenskiy
      06.12.2024 07:41

      Можно еще в студию Артемия Лебедева такой шкафчик поставить. Думаю экспресс дизайн через "Иронова" мог бы сильно преобразиться.


  1. SF_author
    06.12.2024 07:41

    Когда я прочитал, что Nvlink Spine сделан из меди, у меня сразу возникли сомнения. Огромный медный мост длиной более метра, который соединяет множество серверов с высокочастотным сигналом. Не звучит ли это на грани фантастики?

    Я тут же полез в интернет и выяснил, что эти мостики действительно имеют проблемы, что накладывает некоторые ограничения на выпуск GB200 NVL72. Кажется, оптическое соединение могло быть лучшим выбором по сравнению с классической медью, особенно в таких инфраструктурах, как дата-центры, где в ограниченном пространстве размещается огромное количество устройств, способных создавать наводки для мостика.


  1. kenskiy
    06.12.2024 07:41

    GB200 NVL72 это безусловно круто. Но я только сейчас заметил, что 8x MI325 в OAM будут попроизводительнее H200) И памяти больше. Конечно с B200 не сравнивали, но возможно MI325X с ROCm 6.3 может пошатнуть позиции Nvidia на корпоративном рынке.


  1. volkovdaily
    06.12.2024 07:41

    На базе NVIDIA GB200 NVL72 можно попробовать сделать стартап, который обучает нейросеть для компаний и продаёт им это решение для использования в их бизнес процессах. А так шкаф по цене как здание, и без инвестиций с кремниевой долины тут не прорваться.


    1. IO806 Автор
      06.12.2024 07:41

      На самом деле, с такой вычислительной мощностью, практически любой перспективный ИИ-стартап может начать работать в профит буквально с момента запуска. Главное, чтобы он закрывал потребности растущего рынка ИИ, а это сделать не сложно -  открыть Яндекс Вордстат и можно формировать бизнес план)


  1. CBET_TbMbI
    06.12.2024 07:41

    Что-то это очень напоминает 60-70-ые годы 20 века. Компьютеры размером со шкаф и ценой с целый дом. Продаются только крупным компаниям.

    Интересно, через 50 лет будут такие у каждого второго дома для игр? Или скорость прогресса уже не та?


    1. IZh
      06.12.2024 07:41

      По некоторым оценкам, современные процессоры всего в несколько тысяч раз выделяют больше тепла при переключении одного бита, чем требует предел Ландауэра. Эта стойка потребляет 120 киловатт. Если бы удалось её в тысячу раз ужать, то 120 ватт для домашнего применения вполне нормально. Вот, для мобильного вряд ли. Ну или надо искать другие принципы вычислений. Но то теоретический предел, а удастся ли к нему настолько подобраться — это вопрос.


      1. kenskiy
        06.12.2024 07:41

        Я думаю 30 лет технологического прогресса и мощности этого шкафчика будут у вас в портативном устройстве. Не буду писать что телефоне(не уверен в развитии этого класса устройств на 30 лет вперед). Может в каком-нибудь нейроморфном чипе вживленном в ваше тело.


        1. IZh
          06.12.2024 07:41

          В личном домашнем устройстве, к которому обращается носимое за вычислениями, возможно. А вот в носимом, если не перейдут на другой тип вычислений, типа квантовых, обратимых и т.д., то тепловыделение не позволит. Сколько ватт тепла можно комфортно отводить в мозг? :-)


          1. kenskiy
            06.12.2024 07:41

            Мне почему-то кажется, что мы стоим на пороге некого "технологического рывка". Боюсь, что бедный кремний с размером затвора менее 1нм не получится эффективно развивать. Можно посмотреть в сторону квантовых процессоров от IBM и более детально изучить их характеристики. Я думаю IBM не просто так вкладывают огромные деньги в исследование этого направления. Современный IBM Condor насчитывает уже более 1 тыс. кубитов. Считаю потенциал есть. И сразу других типов вычислительных устройств, квантовые процессоры звучат как тот самый альтернативный путь развития микроэлектроники, который возможен на ближайшие 50 лет.


            1. CBET_TbMbI
              06.12.2024 07:41

              Что смогут кубитные компьютеры вопрос открытый. А вот обычные такое ощущение, что скоро упрутся в потолок. Процессоры уже сколько лет если и прибавляют, то по 5% за поколение. А видюхи если и прибавляют, то за счёт цены и энергопотребления.


    1. kenskiy
      06.12.2024 07:41

      Это действительно похоже на мейнфремы IBM) Даже если на чипы смотреть, IBM ранее представала нечто похожее на суперчипы NVIDIA. И там уже чуть ли не в 80-е годы была заветная 1000W)))

      IBM CPU 9121/311 - "суперчип" своего времени
      IBM CPU 9121/311 - "суперчип" своего времени


    1. IO806 Автор
      06.12.2024 07:41

      Думаю, решения для игр будут постепенно отходить от необходимости в каком-либо мощном железе - скорее какие-нибудь нулевые клиенты для передачи картинки на монитор.