Введение
Индустрия разработки искусственного интеллекта требует огромного количества вычислительных ресурсов для инференса ИИ, и еще большего количества ресурсов для обучения передовых языковых моделей. Несмотря на тот факт, что регулярно выходят новые, высокопроизводительные решения для разработчиков ИИ-сектора, на рынке почти не представлено готовых систем, снабженных интерконнектом, который будет способен эффективно объединить до нескольких десятков передовых ИИ-ускорителей. Чтобы удовлетворить эти потребности, Nvidia разработала передовое решение в лице NVIDIA GB200 NVL72, которое функционирует как единая, высокопроизводительная система для самых требовательных ИИ-операций. По сути, это готовое решение "под ключ", укомплектованное самыми передовыми компонентами, такими как GPU, ARM процессорами, коммутаторами, DPU и SmartNIC. Сегодня мы расскажем вам, что из себя представляет стойка GB200 NVL72, из чего она состоит, насколько она производительна, а также ответим на вопрос, почему Nvidia позиционирует эту систему как один большой и мощный GPU.
Что же такое GB200 NVL72?
GB200 NVL72 — это серверный шкаф, состоящий из 36 центральных процессоров Nvidia Grace и 72 графических процессоров B200 на новейшей архитектуре Blackwell. CPU и GPU от Nvidia в системе интегрируются в виде уникальных устройств GB200 NVL4 Superchip. Комплекс GB200 NVL72 предназначен для решения задач, связанных с обучением и инференсом самых современных больших языковых моделей с количеством параметров, исчисляющихся в триллионах. Также комплекс GB200 NVL72 пригоден для интеграции в инфраструктуры крупнейших дата-центров и сетора HPC. Примечательно, что GB200 NVL72 построен на фирменной модульной архитектуре MGX, которая обеспечивает максимальную гибкость конфигурирования системы и широкие возможности ее масштабирования. Общий объем быстрой памяти HBM3e составляет впечатляющие 13,5 ТБ, что позволяет развертывать даже самые требовательные LLM без нужны в квантизации моделей, а суммарное количество ARM-ядер Neoverse V2 составляет 2592 штук. Само собой, такое обилие высокопроизводительных компонентов делают систему GB200 NVL72 очень энергоемкой — энергопотребление стойки достигает колоссальных 120 кВт. В свою очередь, для охлаждения такого устройства не подойдут даже самые мощные серверные вентиляторы, поэтому в системе используется жидкостная система охлаждения. Несмотря на рекордный объем памяти VRAM, Nvidia также интегрировала технологию для квантизации моделей ИИ — движок Transformer 2-ого поколения. Transformer Engine 2.0 поддерживает выполнение операций ИИ в формате FP4 и FP8, благодаря чему разработчики ИИ могут в 4 раза быстрее обучать большие языковые модели, нежели при использовании формата с полной точностью. Кроме того, форматы FP4 и FP8 позволяют сохранить достаточную точность при экономии значительного объема вычислительных ресурсов, при этом не прибегая к использованию формата INT8.
GB200 Grace Blackwell Superchip
Nvidia GB200 Grace Blackwell Superchip — это старшая модель устройств на архитектуре Blackwell, которая представляет собой ускоритель для ИИ, состоящий из 2-х графических чипов B200 и 1-ого центрального процессора Grace от компании Nvidia. Форм фактор ускорителя оптимизирован под MGX, что и делает его очень удобным для развертывания инфраструктур, предназначенных разработки передовых моделей искусственного интеллекта. Ввиду своей комплектации, эти устройства имеют внушительный TDP, достигающий 2,7 кВт, что является очень высоким показателем даже для ИИ-ускорителей. Кроме того, объем памяти каждого суперчипа достигает 864 ГБ (2x 192 ГБ HBM3e для двух ускорителей Blackwell и 480 ГБ LPDDR5X для одного CPU Grace). С помощью высокоскоростного интерконнекта NVLink-C2C, обеспечивается минимальная задержка при передаче данных между графическими и центральными процессорами. Именно благодаря суперчипам GB200 Grace Blackwell, серверный узел GB200 NVL72 имеет одни из самых высоких показателей ИИ-производительности на рынке передовых решений для больших языковых моделей.
Инфраструктура NVLink
NVLink 5.0
NVLink 5.0 — это новое, 5-ое поколение межпроцессорных соединений, анонсированное вместе с другими решениями на архитектуре Blackwell. Эта технология позволяет эффективно объединять графические чипы и центральные процессоры в одном большом кластере, при этом, обеспечивая минимальные задержки при передаче данных. NVLink 5.0 является основным связующим звеном всего комплекса GB200 NVL72. Интерфейс имеет колоссальную пропускную способность, достигающую 1,8 ТБ/с, что позволяет создавать крайне эффективные межсоединения, способные объединить вплоть до 72 графических процессоров. Однако для реализации технологии столь разветвленной сети NVLink 5.0, Nvidia внедрили в серверный узел такие нетривиальные компоненты, как NVLink Switch и NVLink Spine, благодаря которым NVLink может масштабироваться в больших масштабах нежели чем в традиционных системах DGX и HGX.
NVLink Switch
Специализированные ноды NVLink Switch с форм-фактором 1U необходимы для соединения ускорителей серверной стойки GB200 NVL72 друг с другом. Контроллеры устанавливаются в центре стойки между массивами вычислительных нод в количестве 9-ти штук, что делается для синхронизации электрических сигналов. Пропускная способность каждого NVLink Switch составляет 14,4 ТБ/с. Таким образом, 9x NVLink Switch обеспечивают неблокируемую пропускную способность в 130 ТБ/с, за счет чего скорость передачи данных остается стабильной даже при пиковых нагрузках. Помимо функции соединения графических ускорителей, за счет поддержки протокола SHARP In-Network Compute, чипы NVLink Switch расширяют зону вычислений до внутрисетевых операций с производительностью 3,6 TFLOPS в формате FP8, тем самым еще больше повышая эффективность GB200 NVL72.
Именно благодаря работе NVLink Switch удается коммутировать такое большое количество графических процессоров в единую сеть — без использования этих нод, технология NVLink могла бы объединить лишь несколько GPU. Вышеперечисленные преимущества использования NVLink Switch сделали возможным реализацию концепции объединения всех графических процессоров в один большой CUDA-процессор с общей памятью.
NVLink Spine
NVLink Spine — это старший брат NVLink Bridge, состоящий из “5000 медных проводников общей длинной в 2 мили”, объединяющий вычислительные ноды и коммутаторы NVLink Switch в единую систему. Он устанавливается на задней стороне стойки GB200-NVL72 и благодаря использованию медных проводников обеспечивает экономию энергии на 20 кВт по сравнению с оптическими трансиверами, которые тратят большое количество энергии на питание светодиодов. Таким образом, NVLink Spine позволяет 72-м графическим процессорам Blackwell взаимодействовать друг с другом по NVLink, обеспечивая высокую скорость передачи данных для ускорения вычислений.
Сетевая инфраструктура Infiniband и Ethernet
Nvidia грамотно расставила приоритеты, уделив сетевой инфраструктуре не меньше внимания, чем графическим решениям. Чтобы обеспечить эффективный интерконнект для различных экосистем, Nvidia предлагает выбор из двух моделей коммутаторов — Quantum-X800 InfiniBand и Spectrum-X800 Ethernet.
Решения на базе InfiniBand по праву считаются наиболее продвинутыми в области кластеризации, так как этот стандарт изначально разрабатывался для построения таких систем. InfiniBand обеспечивает высокую пропускную способность и низкие задержки, что идеально подходит для современных вычислительных нагрузок.
Однако инфраструктура InfiniBand не всегда легко внедряется в дата-центры, которые ранее использовали классический Ethernet. Именно для таких клиентов Nvidia разработала продвинутый Ethernet-коммутатор Spectrum-X800, который поддерживает наиболее востребованные сетевые технологии. Это решение позволяет получить многие преимущества InfiniBand без необходимости полной перестройки сетевой инфраструктуры ЦОД.
Теперь рассмотрим особенности и характеристики платформ Quantum-X800 InfiniBand и Spectrum-X800 Ethernet по-отдельности:
Quantum-X800 InfiniBand
Платформа Quantum-X800 InfiniBand основана на базе новой версии версии стандарта InfiniBand XDR и предназначена для интеграции в наиболее требовательные инфраструктуры сектора HPC и ИИ. Коммутаторы Quantum-X800 InfiniBand имеют до 144 портов OSFP 800G а также выделенный порт для Unified Fabric Manager. Помимо этого, новое семейство коммутаторов работает в связке с сетевыми картами ConnectX-8 SuperNIC (встроенные в каждую ноду), благодаря которым соединяются все вычислительные модули, тем самым организовывая связь между ними и коммутаторами. По умолчанию серверный узел GB200 NVL72 поддерживает интеграцию 1-ого коммутатора Quantum-X800 InfiniBand.
Spectrum-X800 Ethernet
В свою очередь, платформа Spectrum-X800 Ethernet на базе коммутатора SN5600, предназначена для интеграции в серверный шкаф GB200 NVL72. Spectrum-X800 Ethernet применяется для развертывания инфраструктур крупнейших облачных систем генеративного ИИ и является первым в мире Ethernet-коммутатором класса 800GbE. Пропускная способность этого решения достигает 51,2 Тбит/с, имеется 64 порта 800GbE в формате OSFP и предполагается совместная работа с DPU BlueField-3 (однако, вместо DPU можно использовать сетевые карты ConnectX). Spectrum-X800 Ethernet интегрируется в серверный шкаф GB200 NVL72 в количестве 1-ой штуки вместо коммутатора Quantum-X800 InfiniBand и обеспечивая максимальную совместимость серверного узла с внешними сетями и уже существующими инфраструктурами.
NVIDIA BlueField-3
Nvidia BlueField-3 — новейшая версия сопроцессоров для обработки данных, которая является еще одним вычислительным звеном серверного узла GB200 NVL72. Основная задача Nvidia BlueField-3 — разгрузка центрального процессора Grace за счет выполнения краевых вычислений непосредственно в на базе мощностей самого DPU. Nvidia BlueField-3 можно перепрограммировать для адаптации к особенностям сетевого трафика и и улучшения безопасности сетевого окружения комплекса GB200 NVL72.
Производительность NVIDIA GB200 NVL72
Производительность нового серверного узла GB200 NVL72 сможет удовлетворить потребности разработки даже самых требовательных моделей искусственного интеллекта с триллионами параметров. GB200 NVL72 в 30 раз более эффективны в инференсе LLM и в 4 раза более эффективны в обучении LLM, чем системы на базе ускорителей H100 на архитектуре прошлого поколения. Помимо этого, GB200 NVL72 демонстрирует увеличение скорости обработки данных в 18 раз и увеличение энергоэффективности до 25 раз по сравнению с ускорителями Hooper.
Рассмотрим производительность системы GB200 NVL72 более подробно, а также сравним ее с топовыми адаптерами, представленными на рынке:
Параметр |
GB200 NVL72(36x GB200 Grace Blackwell Superchip) |
DGX H200(8x H200 Hooper) |
AMD Instinct MI325X Platform (8x MI325) |
Объем памяти |
13.5TB HBM3e |
1128GB HBM3e |
2048GB HBM3e |
FP4 |
1440 PFLOPS |
- |
- |
FP8/ FP6 |
720 PFLOPS |
32 PFLOPS |
41.8 PFLOPS |
FP16 / BF16 |
360 PFLOPS |
15.8 PFLOPS |
20.9 PFLOPS |
FP32 / TF32 |
180 PFLOPS |
7,84 PFLOPS |
10.5 PFLOPS |
Как видно из таблицы, серверный узел GB200 NVL72 является лучшим решением, которому нет равных среди ИИ-ускорителей, представленных на рынке. Это обуславливается тем, что GB200 NVL72 состоит из 36 передовых ИИ-ускорителей GB200 Grace Blackwell Superchip, которые эффективно объединены в одну систему. Однако, столь высокая ИИ-производительность вероятно будет полезна лишь крупным компаниям разработчиков новейших моделей LLM, которые будут способны конкурировать с такими гигантами индустрии, как Open AI, Microsoft, Google и прочими корпорациями.
Вывод
GB200 NVL72 — это самое передовое решение компании Nvidia для сектора ИИ и HPC, которое имеет все перспективы стать самым востребованным и желанным устройством для крупных, корпоративных потребителей. Nvidia не ошиблись, позиционируя GB200 NVL72 как один большой GPU — все компоненты этого серверного узла работают едино, что обеспечивается передовым межсоединением NVLink 5.0. В этом устройстве собраны буквально все передовые решения от Nvidia, что делает GB200 NVL72 не просто высокопроизводительным вычислительным комплексом, а полноценной экосистемой для создания передовых моделей искусственного интеллекта и развертывания крупнейших дата-центров.
Комментарии (15)
avereshagina
06.12.2024 07:41Хотел бы взять две gb200 и развернуть на всем этом деле нейронку для генерации лендингов. Бесконечная зарабатывалка, если так подумать
kenskiy
06.12.2024 07:41Можно еще в студию Артемия Лебедева такой шкафчик поставить. Думаю экспресс дизайн через "Иронова" мог бы сильно преобразиться.
SF_author
06.12.2024 07:41Когда я прочитал, что Nvlink Spine сделан из меди, у меня сразу возникли сомнения. Огромный медный мост длиной более метра, который соединяет множество серверов с высокочастотным сигналом. Не звучит ли это на грани фантастики?
Я тут же полез в интернет и выяснил, что эти мостики действительно имеют проблемы, что накладывает некоторые ограничения на выпуск GB200 NVL72. Кажется, оптическое соединение могло быть лучшим выбором по сравнению с классической медью, особенно в таких инфраструктурах, как дата-центры, где в ограниченном пространстве размещается огромное количество устройств, способных создавать наводки для мостика.
kenskiy
06.12.2024 07:41GB200 NVL72 это безусловно круто. Но я только сейчас заметил, что 8x MI325 в OAM будут попроизводительнее H200) И памяти больше. Конечно с B200 не сравнивали, но возможно MI325X с ROCm 6.3 может пошатнуть позиции Nvidia на корпоративном рынке.
volkovdaily
06.12.2024 07:41На базе NVIDIA GB200 NVL72 можно попробовать сделать стартап, который обучает нейросеть для компаний и продаёт им это решение для использования в их бизнес процессах. А так шкаф по цене как здание, и без инвестиций с кремниевой долины тут не прорваться.
IO806 Автор
06.12.2024 07:41На самом деле, с такой вычислительной мощностью, практически любой перспективный ИИ-стартап может начать работать в профит буквально с момента запуска. Главное, чтобы он закрывал потребности растущего рынка ИИ, а это сделать не сложно - открыть Яндекс Вордстат и можно формировать бизнес план)
CBET_TbMbI
06.12.2024 07:41Что-то это очень напоминает 60-70-ые годы 20 века. Компьютеры размером со шкаф и ценой с целый дом. Продаются только крупным компаниям.
Интересно, через 50 лет будут такие у каждого второго дома для игр? Или скорость прогресса уже не та?
IZh
06.12.2024 07:41По некоторым оценкам, современные процессоры всего в несколько тысяч раз выделяют больше тепла при переключении одного бита, чем требует предел Ландауэра. Эта стойка потребляет 120 киловатт. Если бы удалось её в тысячу раз ужать, то 120 ватт для домашнего применения вполне нормально. Вот, для мобильного вряд ли. Ну или надо искать другие принципы вычислений. Но то теоретический предел, а удастся ли к нему настолько подобраться — это вопрос.
kenskiy
06.12.2024 07:41Я думаю 30 лет технологического прогресса и мощности этого шкафчика будут у вас в портативном устройстве. Не буду писать что телефоне(не уверен в развитии этого класса устройств на 30 лет вперед). Может в каком-нибудь нейроморфном чипе вживленном в ваше тело.
IZh
06.12.2024 07:41В личном домашнем устройстве, к которому обращается носимое за вычислениями, возможно. А вот в носимом, если не перейдут на другой тип вычислений, типа квантовых, обратимых и т.д., то тепловыделение не позволит. Сколько ватт тепла можно комфортно отводить в мозг? :-)
kenskiy
06.12.2024 07:41Мне почему-то кажется, что мы стоим на пороге некого "технологического рывка". Боюсь, что бедный кремний с размером затвора менее 1нм не получится эффективно развивать. Можно посмотреть в сторону квантовых процессоров от IBM и более детально изучить их характеристики. Я думаю IBM не просто так вкладывают огромные деньги в исследование этого направления. Современный IBM Condor насчитывает уже более 1 тыс. кубитов. Считаю потенциал есть. И сразу других типов вычислительных устройств, квантовые процессоры звучат как тот самый альтернативный путь развития микроэлектроники, который возможен на ближайшие 50 лет.
CBET_TbMbI
06.12.2024 07:41Что смогут кубитные компьютеры вопрос открытый. А вот обычные такое ощущение, что скоро упрутся в потолок. Процессоры уже сколько лет если и прибавляют, то по 5% за поколение. А видюхи если и прибавляют, то за счёт цены и энергопотребления.
kenskiy
06.12.2024 07:41Это действительно похоже на мейнфремы IBM) Даже если на чипы смотреть, IBM ранее представала нечто похожее на суперчипы NVIDIA. И там уже чуть ли не в 80-е годы была заветная 1000W)))
IO806 Автор
06.12.2024 07:41Думаю, решения для игр будут постепенно отходить от необходимости в каком-либо мощном железе - скорее какие-нибудь нулевые клиенты для передачи картинки на монитор.
kovserg
И сколько стоит этот Spectrum ?
SF_author
Если отталкиваться от цен в интернете, то NVIDIA Spectrum-4 Switch(64 x 800 Gigabit QSFP) стоит ~ $74,457. Теперь стоит попытаться скалькулировать стоимость 1 шкафчика и подыскать варианты лизинга)