Улетная скорость параллельных вычислений и вывод в реальном времени: что умеет Blackwell от NVIDIA / forpes.ru

Главная
Улетная скорость параллельных вычислений и вывод в реальном времени: что умеет Blackwell от NVIDIA

Улетная скорость параллельных вычислений и вывод в реальном времени: что умеет Blackwell от NVIDIA +6

17.12.2024 06:02

mClouds_editor 0 882 Источник

Илон Маск и его команда xAI создали суперкластер из 100 000 графических процессоров NVIDIA всего за 19 дней — вместо четырех лет. В NVIDIA этот подвиг уже назвали сверхчеловеческим. И это на базе H200, которые совсем скоро можно будет назвать графическими процессорами предыдущего поколения.

В этом году NVIDIA представила новую платформу графических процессоров Blackwell. Ее назвали в честь математика-первопроходца и статистика Дэвида Блэквелла. В линейке — два мощных графических процессора B100 и B200 и суперкомпьютер GB200.

Платформа последнего поколения обещает своим владельцам революционные возможности для работы больших языковых моделей: вывод LLM — в 30 раз быстрее H100, обучение LLM — в четыре раза быстрее, энергоэффективность — в 25 раз выше.

Платформу Blackwell анонсировали в первой половине 2024 года. Из-за последующих доработок сроки выпуска несколько раз переносили. Последний раз — на начало 2025 года. А пока мы ждем выхода на рынок новой линейки ускорителей от NVIDIA, давайте разберемся, что про них известно на сегодняшний день и как далеко производитель шагнул от линейки Hopper.

Экосистема Blackwell: что есть что

NVIDIA готовит к выпуску новое поколение ускорителей на базе графических процессоров Blackwell, которые придут на смену линейке Hopper. Но прежде чем мы приступим к обзору характеристик и возможностей новой экосистемы, давайте разберемся, что есть что.

B100 и В200 — графические процессоры нового поколения с тензорными ядрами.

NVLink — высокоскоростная шина для передачи данных между процессорами. В поколении Blackwell используется шина пятого поколения.

NVSwitch — сетевой переключатель, который позволяет одновременно общаться всем графическим процессорам, подключенным через NVLink. С его помощью можно объединить до 576 GPU.

GB200 Superchip — ускоритель нового поколения, который включает два графических процессора B200 и центральный ARM-процессор Grace на 72 ядра.

NVIDIA HGX B200 и HGX B100 — модульная платформа для центров обработки данных, в которую интегрированы графические процессоры последнего поколения с тензорными ядрами и высокоскоростной шиной.

DGX B200 — унифицированная платформа для ИИ-моделей, предназначенная для управления, обработки и вывода данных с помощью графических процессоров B200.

GB200 NVL72 — серверная стойка, которая объединяет 36 ускорителей GB200 Superchip, соединенных NVLink пятого поколения, и два коммутатора NVSwitch.

NVIDIA DGX SuperPOD — центр обработки данных под ключ, который работает на стойках GB200 NVL72.

Blackwell vs Hopper: что нового

Следующее поколение графических процессоров Blackwell шагнуло далеко вперед от своего предшественника в части скорости, нагрузки и безопасности.

Сверхбыстрые соединения между GPU. Одна из ключевых особенностей Blackwell — использование шин NVLink пятого поколения и коммутаторов NVSwitch, что позволяет нескольким процессорам работать вместе как единый вычислительный блок. Если быть точными, соединения нового поколения могут обеспечить бесперебойную высокоскоростную связь между 576 GPU, заставляя их работать как один большой ЦОД.

NVLink пятого поколения обеспечивает двунаправленное прямое соединение между графическими процессорами со скоростью 1,8 ТБ/с — что вдвое быстрее предыдущей версии.

Сравнение NVLink разных поколений. Источник: https://www.nvidia.com/ — *Сравнение NVLink разных поколений. Источник:* *https://www.nvidia.com/*

Переключатель NVSwitch соединяет несколько каналов NVLink, обеспечивая связь всех графических процессоров на полной скорости NVLink — 1,8 ТБ/с — как в одной стойке, так и между стойками.

Возможности NVSwitch в сравнении. Источник: https://www.nvidia.com/ — *Возможности NVSwitch в сравнении. Источник:* *https://www.nvidia.com/*

Для обеспечения высокоскоростных коллективных операций каждый коммутатор NVLink оснащен механизмами NVIDIA SHARP для внутрисетевого сокращения и ускорения многоадресной рассылки.

Пятое поколение NVLink и его предшественники: сравнение. Источник: https://www.nvidia.com/ — *Пятое поколение NVLink и его предшественники: сравнение. Источник:* *https://www.nvidia.com/*

Коммутатор нового поколения дает возможность расширить соединения NVLink между узлами и создать, по сути, бесшовный многоузловой кластер GPU с высокой пропускной способностью. Одна стойка NVL72 может поддерживать в 9 раз больше графических процессоров, чем одна система на 8 GPU. Фактически это дает возможность создать один большой графический процессор размером с центр обработки данных.

Новые форматы квантования и микромасштабирования. Архитектура Blackwell использует трансформаторы второго поколения. Они поддерживают новые параметры точности квантования, включая современные форматы микромасштабирования.

Сравнение доступных форматов передачи данных в Blackwell и Hopper. Источник: https://www.nvidia.com/ — *Сравнение доступных форматов передачи данных в Blackwell и Hopper. Источник:* *https://www.nvidia.com/*

Источник магии трансформаторов Blackwell — тензорные ядра пятого поколения. Именно они ускоряют вычисления смешанной точности из-за управления динамическим диапазоном и расширения форматов микромасштабирования. В NVIDIA заявляют, что тензорные ядра пятого поколения способны ускорить обучение генеративных моделей ИИ в 4 раза и поднять производительность вывода LLM в 30 раз по сравнению с Hopper.

На обучение генеративных моделей ИИ с триллионами параметров и точностью до 16 бит с плавающей запятой уходят месяцы. Тензорные ядра NVIDIA пятого поколения способны обеспечить намного более высокую производительность при пониженной точности — FP8, сократив этот срок четырехкратно.

Кстати, тензорные ядра обеспечили NVIDIA победу в общеотраслевых тестах MLPerf по логическому выводу.

Новые форматы квантования и точность вычислений способны значительно ускорить параметры вывода в моделях Mixture of Experts (MoE), на которой, по слухам, базируется и GPT-4. Эти модели помогают распределить вычислительную нагрузку между несколькими специализированными подсетями, которые называют «экспертами», и обучить тысячи графических процессоров с помощью параллелизма моделей и конвейеров. А динамический диапазон тензорных ядер позволяет моделям настраивать и улучшать числовые форматы для снижения точности, постоянно оптимизируя модели для повышения производительности. С ними модели MoE значительно быстрее выполняют логический вывод благодаря эффективности условных вычислений и разреженности, обусловленной экспертным параллелизмом.

Решение сложных задач без потери конфиденциальности. Раньше доверенная среда TEE использовалась только для защиты данных в приложениях вроде аутентификации контента или безопасных платежей, но в поколении Blackwell NVIDIA расширила ее действие:

TEE-ввод-вывод: теперь данные защищены не только внутри GPU, но и при передаче по шине NVLink, так что можно использовать GPU для обработки конфиденциальных данных, не боясь утечки.
Шифрование: Blackwell шифрует данные в состоянии покоя, в движении и во время вычислений, так что они защищены на всех этапах обработки.

Это нововведение дает возможность использовать GPU для обработки конфиденциальных данных без риска компрометации. Вместе с тем открываются новые возможности для разработки приложений, которые требуют повышенной безопасности, например для машинного обучения с конфиденциальными данными.

Ускоренная декомпрессия данных и RAS для надежности. Поколение Blackwell предлагает декомпрессию данных на скорости 800 ГБ/с. Новейшая архитектура позволяет обрабатывать огромные объемы сжатых данных в форматах LZ4, Snappy и Deflate в несколько раз быстрее, чем раньше.

Новый GB200 с пропускной способностью памяти HBM3e 8 ТБ/с и шустрый интерфейс NVLink-C2C процессора Grace делают конвейер обработки данных чрезвычайно быстрым.

Тесты NVIDIA показали, что запросы на обработку данных на кластере GB200 выполняются в 18 раз быстрее, чем на традиционном процессоре x86, и в 6 раз быстрее, чем на H100. Это делает его отличным решением для аналитики и работы с базами данных.

Дополнительно Blackwell снабдили встроенным механизмом RAS. С ним GPU самостоятельно проверяет свои вычислительные ядра и память, выявляя потенциальные проблемы. RAS помогает предотвратить сбои и ошибки, повышая стабильность работы системы. В случае проблем с GPU RAS позволяет быстро заменить неисправную плату, не останавливая работу всего кластера. А еще — упрощает диагностику и ремонт, сокращая время простоя и затраты.

Производительность систем NVIDIA Blackwell на базе B100, B200 и GB200: сравнение

Экосистема NVIDIA Blackwell на базе графических процессоров нового поколения включает HGX B100, HGX B200, DGX B200 и суперкомпьютеры GB200 NVL36 и GB200 NVL72.

Характеристики и результаты тестов производительности HGX B100/B200 и GB200 NVL72. Источник: https://www.nvidia.com/ — *Характеристики и результаты тестов производительности HGX B100/B200 и GB200 NVL72. Источник:* *https://www.nvidia.com/*

Ключевые преимущества новой экосистемы NVIDIA:

Ускоренный логический вывод. Blackwell обеспечивает в 30 раз более высокую производительность логического вывода в режиме реального времени, что делает его идеальным решением для бизнес-приложений и потребительских сервисов, требующих мгновенного отклика.
Масштабируемость MoE. Blackwell с его огромной памятью — до 13,5 ТБ — и высокоскоростным межсоединением NVLink позволяет эффективно реализовывать модели MoE, которые ранее были ограничены из-за высокой коммуникационной нагрузки.
Ускоренная RAG. Blackwell идеально подходит для векторных баз данных и расширенной генерации (RAG), обеспечивая высокую скорость поиска и обработки данных.
Экологичность. Blackwell в 25 раз энергоэффективнее, чем аналогичный кластер H100, что делает его более экологичным решением для ИИ.

Главный недостаток Blackwell, о котором пока известно, — это перегрев в серверных стойках высокой емкости, вмещающих до 72 GPU. Из-за этого NVIDIA пришлось сдвинуть выпуск с 2024 на 2025 год, поскольку перегрев может привести к снижению производительности графических процессоров и повредить оборудование. Пока остается ждать, удастся ли NVIDIA решить эту проблему.

Новое поколение суперкомпьютеров на подходе

Мы в mClouds следим за новинками рынка, чтобы поддерживать актуальность своих сервисов. Недавно узнали, что NVIDIA уже готовит суперкомпьютеры следующего поколения — Blackwell Ultra GB300, которые должны выйти на рынок к середине 2025 года. Уже сейчас известно, что GB300 будут оснащены «полностью жидкостным» охлаждением, что позволит им работать с гораздо более высокой производительностью, чем текущие модели.

Дизайн с сокетами, когда GPU не припаяны к материнской плате, а установлены в специальные разъемы, как CPU, позволит устанавливать или удалять графические процессоры без ущерба для системы. Но есть и неприятные новости: ожидается, что GB300 будут значительно дороже, чем текущие модели. К примеру, если новенький GB200 NVL72 будет стоить около 3 млн $, то цена на GB300 в топовой конфигурации может подобраться к отметке в 5 млн $.

Улетная скорость параллельных вычислений и вывод в реальном времени: что умеет Blackwell от NVIDIA +6

Экосистема Blackwell: что есть что

Blackwell vs Hopper: что нового

Производительность систем NVIDIA Blackwell на базе B100, B200 и GB200: сравнение

Новое поколение суперкомпьютеров на подходе

Комментарии (0)