Серверный узел с восемью GPU-ускорителями AMD Instinct MI325X (2,3 ТБ видеопамяти, 8×750 Вт)

Современные дата-центры уже не такие, как прежде. Раньше на типичный сервер поставили бы 144-ядерный CPU, много RAM и десяток HDD/SSD. Но теперь приоритеты меняются, в первую очередь из-за высокого спроса на машинное обучение (ML) и приложения LLM. Хотя аппетит к памяти только вырос, но процессоры нужны другие.

И крупным корпорациям, и маленьким компаниям нужно железо для обсчёта ИИ-приложений. Это GPU-ускорители, NPU (Neural Processing Unit) и TPU (Tensor Processing Unit), AI-чипы нового поколения. Нужны серверы с GPU. Открываются даже специализированные GPU-облака на растущем спросе.

Такой тренд виден и на потребительском рынке. Всё больше компаний хотят запускать ИИ у себя, поэтому ставят мейнфреймы прямо в офисе, как предки в 70-е годы. Даже на ПК и ноутбуках за последний квартал 14% проданных устройств было оснащено специализированной микросхемой с аппаратным ускорением AI.

Посмотрим, какое конкретно железо ставят на серверы и ПК.

▍ AMD и Nvidia


Например, AMD представила новый GPU-ускоритель для дата-центров Instinct MI325X, который станет доступен для заказа в конце 2024 года:


Сам процессор GPU здесь не отличается от предыдущей модели MI300X, зато память HBM3 заменили на более быструю и плотно упакованную HBM3E, что позволит выпустить ускорители с объёмом памяти до 288 ГБ, а локальная пропускная способность памяти достигает 6 ТБ/с.

Получается, что в типичном сервере на восемь ускорителей Instinct MI325X (как на КДПВ) будет 2,3 ТБ памяти. Этого достаточно для загрузки LLM с триллионом параметров на одном лишь серверном узле. А представьте, какие возможности у большого кластера!

Нужно заметить, что Nvidia тоже недавно обновила свой ускоритель H100 до H200, сделав апгрейд памяти с HBM3 на HBM3E:


Nvidia H200

Вот сравнительная таблица с характеристиками Nvidia для понимания, что сейчас ставят в дата-центрах для решения задач ML.

  H200 H100 A100 (80 ГБ)
Ядра FP32 CUDA 16896? 16896 6912
Тензорные ядра 528? 528 432
Макс. частота 1,83 ГГц? 1,83 ГГц 1,41 ГГц
Частота памяти ~6,5 Гбит/с HBM3E 5,24 Гбит/с HBM3 3,2 Гбит/с HBM2e
Шина памяти 6144-bit 5120-bit 5120-bit
Пропускная способность памяти 4,8 ТБ/с 3,35 ТБ/с 2 ТБ/с
VRAM 141 ГБ 80 ГБ 80 ГБ
Вектор FP64 33,5 TFLOPS? 33,5 TFLOPS 9,7 TFLOPS
Тензор INT8 1979 TOPS? 1979 TOPS 624 TOPS
Тензор FP16 989 TFLOPS? 989 TFLOPS 312 TFLOPS
Тензор FP64 66,9 TFLOPS? 66,9 TFLOPS 19,5 TFLOPS
Межсоединения NVLink 4
18 линий (900 ГБ/с)
NVLink 4
18 линий (900 ГБ/с)
NVLink 3
12 линий (600 ГБ/с)
GPU GH100
(814 мм²)
GH100
(814 мм²)
GA100
(826 мм²)
Количество транзисторов 80 млрд 80 млрд 54,2 млрд
TDP 700 Вт 700 Вт 400 Вт
Техпроцесс TSMC 4N TSMC 4N TSMC 7N
Интерфейс SXM5 SXM5 SXM4
Архитектура Hopper Hopper Ampere
В марте Nvidia анонсировала архитектуру Blackwell для ускорителей нового поколения B200/B100, которые придут на смену популярным сейчас H100/H200/GH200. Производительность B200 (два GPU в одном чиплете, 2×104 млрд транзисторов, 1000 Вт) будет в два с лишним раза выше, чем у H100, не говоря уже о самых слабых ускорителях A100. Например, в тензорах FP16 производительность этих трёх моделей составляет 2250, 990 и 312 TFLOPS для B200, H100 и A100, соответственно.

Nvidia Blackwell: два GPU в одном чиплете

Ну а флагманским продуктом Nvidia станет ускоритель Grace Blackwell Superchip (GB200), составленный из двух Blackwell GPU и 72-ядерного Grace CPU, он будет вдвое производительнее B200, а TDP вырастет до 2700 Вт.

Три основных производителя памяти уже поставляют (или анонсировали) стеки памяти HBM3E объёмом 36 ГБ, что на 50% больше, чем нынешние топовые стеки HBM3 на 24 ГБ. За счёт этого AMD и смогла увеличить максимальный объём памяти со 192 до 288 ГБ на одном ускорителе.



Нужно сказать, что память HBM3 сейчас в дефиците. Например, Micron продала весь выпуск до конца 2024 года (и большую часть 2025 г.).

Кроме более высокой плотности, HBM3E обеспечивает более высокую тактовую частоту памяти. Micron и SK hynix рассчитывают в конечном итоге продавать стеки с пропускной способностью 9,2 Гбит/с на контакт, а Samsung хочет выйти на 9,8 Гбит/с на контакт, что более чем на 50% превышает скорость передачи данных 6,4 Гбит/с в обычной HBM3. Однако пока неясно, когда мы увидим память на таких скоростях.

AMD пообещала каждый год выпускать новый GPU-ускоритель для дата-центров:



В ближайшие годы AMD запустит две новые архитектуры CDNA и соответствующие продукты Instinct в 2025 и 2026 гг. Серия MI350 на базе CDNA 4 выйдет в 2025 году, а за ней в 2026 году последует ещё более амбициозная серия MI400, основанная на архитектуре CDNA 'Next'.

Сравнительные характеристики ускорителей от AMD:

  MI325X MI300X MI250X MI100
Вычислительные юниты 304 304 2×110 120
Матричные (тензорные) ядра 1216 1216 2×440 480
Потоковые процессоры 19456 19456 2×7040 7680
Макс. частота 2100 МГц 2100 МГц 1700 МГц 1502 МГц
Вектор FP64 81,7 TFLOPS 81,7 TFLOPS 47,9 TFLOPS 11,5 TFLOPS
Вектор FP32 163,4 TFLOPS 163,4 TFLOPS 47,9 TFLOPS 23,1 TFLOPS
Матрица FP64 163,4 TFLOPS 163,4 TFLOPS 95,7 TFLOPS 11,5 TFLOPS
Матрица FP32 163,4 TFLOPS 163,4 TFLOPS 95,7 TFLOPS 46,1 TFLOPS
Матрица FP16 1307,4 TFLOPS 1307,4 TFLOPS 383 TFLOPS 184,6 TFLOPS
Матрица INT8 2614,9 TOPS 2614,9 TOPS 383 TOPS 184,6 TOPS
Частота памяти ~5,9 Гбит/с HBM3E 5,2 Гбит/с HBM3 3,2 Гбит/с HBM2E 2,4 Гбит/с HBM2
Шина памяти 8192-bit 8192-bit 8192-bit 4096-bit
Пропускная способность памяти 6 ТБ/с 5,3 ТБ/с 3,2 ТБ/с 1,23 ТБ/с
VRAM 288 ГБ
(8×36 ГБ)
192 ГБ
(8×24 ГБ)
128 ГБ
(2×4×16 ГБ)
32 ГБ
(4×8 ГБ)
ECC Да (Full) Да (Full) Да (Full) Да (Full)
Каналы Infinity Fabric 7
(896 ГБ/c)
7
(896 ГБ/c)
8 3
TDP 750 Вт 750 Вт 560 Вт 300 Вт
GPU 8x CDNA 3 XCD 8x CDNA 3 XCD 2x CDNA 2 GCD CDNA 1
Количество транзисторов 153 млрд 153 млрд 2×29,1 млрд 25,6 млрд
Техпроцесс XCD: TSMC N5
IOD: TSMC N6
XCD: TSMC N5
IOD: TSMC N6
TSMC N6 TSMC 7 нм
Архитектура CDNA 3 CDNA 3 CDNA 2 CDNA (1)
Форм-фактор OAM OAM OAM PCIe
Дата выпуска IV кв. 2024 12/2023 11/2021 11/2020
К сожалению, AMD по-прежнему не собирается выпускать версии PCIe новых ускорителей, только OAM для серверных материнских плат.

▍ Google, Amazon и др.


Google, Amazon и некоторые другие корпорации разрабатывают специализированные TPU для собственных дата-центров. Например, Google занимается этим более десяти лет.



TPU — это интегральная схема специального назначения (ASIC), созданная для одной конкретной цели: выполнения уникальной матричной и векторной математики для построения и работы моделей ИИ.

Первый такой чип TPU v1 вышел в 2015 году и сразу стал хитом в разных подразделениях Google.

Инженеры предполагали, что сделают не более 10 000 таких чипов, но в итоге создали более 100 000 для поддержки различных проектов Google, включая рекламу, поиск, речевые проекты, AlphaGo и даже некоторые беспилотные автомобили.

За прошедшее с тех пор десятилетие TPU сменили несколько поколений, повысив производительность и эффективность, и теперь служат основой для ИИ почти во всех продуктах Google.

Сейчас в строю уже шестое поколение TPU под названием Trillium:



Кроме перечисленных компаний, серверные AI-процессоры собирается выпустить MediaTek по техпроцессу TSMC 3 нм. Они также разрабатывают AI-чипы для ПК в сотрудничестве с Nvidia (для конкуренции с линейкой ARM-процессоров Snapdragon X Elite.

MediaTek ориентируется скорее на средний и нижний сегменты AI-серверов (в отличие от Nvidia и AMD). Это очень перспективная ниша, в которой действуют ещё ряд стартапов.

▍ Микросхемы AI для ПК


Что касается AI-чипсетов для настольных компьютеров и ноутбуков, то здесь доминирует компания Apple c чипами M-серии (M3, M4), которые оснащены ускорителем Neural Engine. Она и внесла львиную долю в упомянутые 14% проданных компьютеров с аппаратным ускорением AI во II кв. 2024 года.

Весной также были представлены новые ARM-ноутбуки Copilot+ с процессорами Qualcomm Snapdragon X (аппаратное ускорение AI).

На платформе x86 компания Intel выпустила чипсеты Core Ultra (и плагины OpenVINO для использования нейросетей с аппаратным ускорением в GIMP и других программах), а компания AMD в июле — линейку процессоров Ryzen AI 300 для ноутбуков.


Ryzen AI 300

Ryzen AI 300 — первые процессоры с ядрами Zen 5. У них мощный интегрированный GPU, а также ядро Radeon с поддержкой RDNA 3.5 и до 16-ти вычислительных блоков в зависимости от модели.



На выбор предлагается две модели: Ryzen AI 9 HX 370 и Ryzen AI 9 365, которые отличаются количеством ядер, тактовой частотой и возможностями интегрированного GPU. В обеих моделях установлен одинаковый NPU под названием Strix Point. По слухам, в будущем будет выпущено ещё несколько моделей:



Вероятно, Intel включит модуль NPU во все десктопные процессоры следующего поколения Arrow Lake. Говорят, что наступает «эра AI PC», хотя простые пользователи этому не очень рады, но в будущем ПК будет неполноценным без аппаратного ускорителя нейросетей.

Сейчас даже большие модели с 70 млрд параметров можно обучать на домашнем ПК с двумя стандартными GPU (3090 или 4090 по 24 ГБ каждая).

▍ Выводы


Таким образом, ИИ сейчас стал приоритетом номер один для производителей микросхем, в том числе Intel и AMD. Это справедливо и для рынка серверов, и для ноутбуков, и настольных ПК. Для рынка это просто манна небесная: все видят, что акции Nvidia выросли в десять раз за два года на волне популярности ИИ-вычислений. И все хотят присоединиться к пиршеству. Мировая индустрия микроэлектроники словно получила второе дыхание и снова стала развиваться семимильными шагами, что не может не радовать.

Примечание. Экспорт высокопроизводительных ускорителей запрещён в санкционные страны.

Telegram-канал со скидками, розыгрышами призов и новостями IT ?

Комментарии (1)


  1. Javian
    30.08.2024 07:13

    Такое чувство, что рынок видеоигр ждет длительный застой - там нет таких денег как в корпоративном сегменте. Пользователь будет платить за ИИ функционал, получая все туже старую 3D графику.