Nvidia выпустила флагманский ускоритель A100 c 80 ГБ памяти / forpes.ru

Главная
Nvidia выпустила флагманский ускоритель A100 c 80 ГБ памяти

Nvidia выпустила флагманский ускоритель A100 c 80 ГБ памяти +12

18.11.2020 14:37

Data_center_MIRAN 21 9700 Источник

В мае этого года Nvidia представила мощный графический ускоритель под названием A100 с 40 ГБ памяти HBM2e. Карта разработана только для дата-центров. Ею комплектуются фирменные модули Nvidia DGX A100 для вычислительных кластеров, в том числе для суперкомпьютеров. В ноябре были запущены первые инстансы AWS на ускорителях A100 (инстансы EC2 P4d). Судя по всему, это A100 — де-факто самые производительные GPU в мире.

Сейчас представлена новая версия флагманского видеоускорителя, которая оснащается вдвое большим объёмом памяти — 80 гигабайт HBM2e. Это более продвинутый стандарт памяти, у которого увеличена тактовая частота, так что пропускная способность памяти в новой версии доведена до 3,2 Гбит/с на каждый пин, что даёт в сумме пропускную способность всей памяти 2 ТБ/с.

Nvidia не снимает старую модель с производства и будет одновременно продавать 40- и 80-гигабайтные версии. Основные заказчики — клиенты с большими наборами данных для обучения систем искусственного интеллекта. При работе с чрезвычайно большими наборами данных объём памяти является «бутылочным горлышком» в аппаратной части, то есть главным ограничивающим фактором. Таким образом, если графический ускоритель способен сохранить всю нейронную модель в локальной памяти целиком, то потенциально он может быть значительно быстрее, чем тот GPU, которому часто приходится выходить для обмена данными во внешнюю память за пределами платы.

Сравнение первого и второго поколения А100 с 40 и 80 ГБ памяти

Технические характеристики топовых ускорителей Nvidia

A100 (80 ГБ) A100 (40 ГБ) V100

Ядер FP32 CUDA 6912 6912 5120

Макс. частота 1,41 ГГц 1,41 ГГц 1,53 ГГц

Частота памяти 3,2 Гбита/с HBM2e 2,4 Гбита/с HBM2 1,75 Гбита/с HBM2

Шина памяти 5120 бит 5120 бит 4096 бит

Полоса пропускания памяти 2,0 ТБ/с 1,6 ТБ/с 0,9 ТБ/с

VRAM 80 ГБ 40 ГБ 16 ГБ/32 ГБ

Числа одинарной точности 19,5 TFLOPs 19,5 TFLOPs 15,7 TFLOPs

Числа двойной точности 9,7 TFLOPs
(1/2 FP32 rate) 9,7 TFLOPs
(1/2 FP32 rate) 7,8 TFLOPs
(1/2 FP32 rate)

Тензоры INT8 624 TOPs 624 TOPs N/A

Тензоры FP16 312 TFLOPs 312 TFLOPs 125 TFLOPs

Тензоры TF32 156 TFLOPs 156 TFLOPs N/A

Интерконнект NVLink 3
12 Links (600GB/sec) NVLink 3
12 Links (600GB/sec) NVLink 2
6 Links (300GB/sec)

GPU GA100
(826 мм²) GA100
(826 мм²) GV100
(815 мм²)

Транзисторов 54,2 млрд 54,2 млрд 21,1 млрд

TDP 400 Вт 400 Вт 300 Вт/350 Вт

Процесс производства TSMC 7N TSMC 7N TSMC 12nm FFN

Интерфейс SXM4 SXM4 SXM2/SXM3

Архитектура Ampere Ampere Volta

Как видим, единственное различие между 40-и 80-гигабайтной версиями A100 заключается в объёме и пропускной способности памяти. Обе модели сделаны на базе графических процессоров GA100 с максимальной тактовой частотой 1,41 ГГц. Аналогично, TDP у двух моделей тоже не отличается.

Вместо этого улучшения A100 сводятся к объёму и большей пропускной способности памяти. Оригинальный A100 оснащался шестью 8-гигабайтными стеками памяти HBM2, причём один из них был отключён. Это давало 40 ГБ памяти с пропускной способностью 1,6 ТБ/с.

В новом A100 сохранилась та же конфигурация 5/6 стеков, но здесь поставили новую память HBM2E. Это неофициальное название для последнего поколения стандарта памяти HBM2 с рекордной пропускной способностью 3,2 Гбит/с на пин. Улучшения в техническом процессе позволили производителю удвоить ёмкость памяти. Конечным результатом является то, что HBM2E предлагает и больше ёмкость, и больше полосу пропускания.

Судя по всему, выпуск новой версии A100 с большей пропускной способностью и большим объёмом памяти является не столько запланированным шагом, сколько побочным эффектом от улучшения техпроцесса. Samsung и SK Hynix совсем недавно начали массовое производство HBM2E.

В A100 сохраняется аппаратное ограничение в 7 инстансов на один ускоритель.

Nvidia выпускает A100 на серверных платах HGX и DGX. Для клиентов, которым нужны отдельные экземпляры ускорителя, по-прежнему предлагаются A100 в исполнении PCIe, хотя в варианте 80 ГБ они пока не доступны.

Конфигурация DGX — это новинка. В такую систему устанавливается восемь ускорителей, так что совокупный объём памяти достигает 640 ГБ.

Также доступна рабочая станция DGX Station A100. Это наследник прежней DGX Station образца 2017 года на ускорителях Volta.

По сути, DGX Station A100 — усечённая наполовину DGX A100 с четырьмя ускорителями A100 и одним процессором AMD EPYC. Энергопотребление пока неизвестно, но на пресс-конференции, заявили, что рабочая станция «работает от обычной розетки». Для сравнения, потребляемая мощность стандартной DGX A100 составляет 6,5 кВт.

Рабочая станция DGX Station A100

Станция DGX использует хладагент, то есть искусственное охлаждение (рефрижерацию), тогда как в DGX Station предыдущего поколения было простое водяное охлаждение. Можно предположить, что возникнет дополнительный шум, связанный с подключением компрессора.

Массовое производство обеих систем уже началось. Nvidia говорит, что они работают в нескольких небольших суперкомпьютерах, таких как Cambridge-1. Но продажи для всех желающих планируются только в феврале 2021 года.

Комментарии (21)

maxpivovar
18.11.2020 18:36
#22322676
Где то плачет ~~Илон Маск~~ Tesla

Firz
18.11.2020 19:14
#22322838
Энергопотребление пока неизвестно, но на пресс-конференции, заявили, что рабочая станция «работает от обычной розетки».

System Power Usage 1.5 kW at 100–120 Vac

Можно предположить, что возникнет дополнительный шум, связанный с подключением компрессора.

System Acoustics <37 dB
www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/dgx-station/nvidia-dgx-station-a100-datasheet.pdf

mSnus
18.11.2020 19:15
#22322846
+1
А за что NVM2e так перевели?
1. LoadRunner
  18.11.2020 20:43
  #22323184
  То есть это не «эйч-би-эм»?
  1. mSnus
    18.11.2020 20:55
    #22323236
    Простите, кажется, я всех запутал. Память там, вероятно, HBM2e, хотя в спеках этого не нашёл. А накопители NVMe, это в спеках есть.
    https://www.nvidia.com/ru-ru/data-center/a100/

erdbeeranke
18.11.2020 20:24
#22323120
теперь все моды на скайрим пойдут

BlackSCORPION
19.11.2020 21:32
#22323404
But can it run Crysis?
1. solovetski
  19.11.2020 22:43
  #22323680
  Зашёл за этим комментом. И да, в вопрос надо добавить «на максималках».
  1. Foxbator
    19.11.2020 04:23
    #22324490
    … в 8к разрешении с рейтрейсингом
  1. FreeNickname
    19.11.2020 11:22
    #22325406
    Не надо, в каноничном меме этого нет.
1. EviGL
  19.11.2020 06:58
  #22324628
  But can it run Minecraft RTX?
1. Victor_Grigoryev
  19.11.2020 08:10
  #22324722
  -1
  жалко, что в историю бенчмаркинга пекарного железа крепко вошёл именно неоптимизированный и скучный высер от крайтек

bugdesigner
19.11.2020 08:02
#22324712
Интересно, когда уже эти чипы/модули перестанут называть видеоускорителями? Фактически, обработка именно видео для них стала далеко не первоочередной задачей.
1. ptica_filin
  19.11.2020 11:25
  #22325422
  Тоже зашёл в комменты с такой мыслью. Это уже по сути вычислительный ускоритель, а не графический.
  Они в истории уже бывали, даже не нужно придумывать новое название.

rPman
19.11.2020 09:16
#22324852
Цена на pci-e версию на 40Gb с пониженным энергопотреблением и явно скоростью (пусть будут заявленные 125 tensorflow tflops) в розницу 10к баксов.

Уже устаревающий rtx2080 с 11Gb памяти дает 58 tensor tflops и обойдется в $1.2к

Флагманский rtx3090 с 25Gb памяти и чуть лучше характиристиками (по бенчмаркам он ровно в 2 раза лучше 2080) — $2к

Т.е. за главную фичу — учетверение gpu памяти придется пятикратно завышать оплату.
1. n0isy
  19.11.2020 09:31
  #22324886
  так бывает за нишевый продукт. маркетинг и мелкопартийность.

anonymous
19.11.2020 10:28
#22325142
Продукт однозначно нужный. Все чаще появляются задачи, когда модель не влезает в память видеокарты и приходится делать композицию. У нас одна задача от постоянного заказчика потребовала пару лет назад купить Tesla P40 с 24Гб памяти. Это однозначный вклад в рост направления AI (нейронок) и это не может не радовать. Единственным минусом пока всего этого роста является стоимость входа, которая непомерна для небольших команд.
1. rPman
  19.11.2020 11:11
  #22325358
  Если не секрет, что именно хотя бы приблизительно требует такой объем памяти именно в gpu? это ведь актуально если доступ к памяти практически рандомный иначе может хватить потока через cpu.
  1. anonymous
    19.11.2020 11:55
    #22325622
    +1
    CV для поиска аномалий в жидкой среде с огромным набором признаков. Аугментация не проводилась — данных было более 12 млн снимков для соотношения групп и потом поиска в них аномалий присущих этой группе, потом уже ручная разметка — адова работа… Важна была скорость обработки рабочей модели (жидкая среда меняется постоянно и аномалии должны находится в реальном времени и по сигналам модели срабатывали технологические процессы во вне) — ансамбль был заказчиком забракован. К сожалению подробности разглашать не имею права по NDA. При работе с 1080Ti 11Gb уперлись в нехватку памяти, после танцев с разными архитектурами модели, было принято решение взять P40 24Gb — задачу успешно сдали.
    
    rPman
    19.11.2020 12:35
    #22325856
    Задача классная, но вопрос был больше как определили что вам нехватает именно оперативной памяти? постепенно усложняли модель до сходимости а она не сходилась?
    
    зы или вы обучающую выборку целиком туда заливали?

darkAlert
19.11.2020 11:05
#22325328
80 ГБ это прям огого! Наконец то у жирных моделек можно будет батчи делать больше чем размера 1

	A100 (80 ГБ)	A100 (40 ГБ)	V100
Ядер FP32 CUDA	6912	6912	5120
Макс. частота	1,41 ГГц	1,41 ГГц	1,53 ГГц
Частота памяти	3,2 Гбита/с HBM2e	2,4 Гбита/с HBM2	1,75 Гбита/с HBM2
Шина памяти	5120 бит	5120 бит	4096 бит
Полоса пропускания памяти	2,0 ТБ/с	1,6 ТБ/с	0,9 ТБ/с
VRAM	80 ГБ	40 ГБ	16 ГБ/32 ГБ
Числа одинарной точности	19,5 TFLOPs	19,5 TFLOPs	15,7 TFLOPs
Числа двойной точности	9,7 TFLOPs (1/2 FP32 rate)	9,7 TFLOPs (1/2 FP32 rate)	7,8 TFLOPs (1/2 FP32 rate)
Тензоры INT8	624 TOPs	624 TOPs	N/A
Тензоры FP16	312 TFLOPs	312 TFLOPs	125 TFLOPs
Тензоры TF32	156 TFLOPs	156 TFLOPs	N/A
Интерконнект	NVLink 3 12 Links (600GB/sec)	NVLink 3 12 Links (600GB/sec)	NVLink 2 6 Links (300GB/sec)
GPU	GA100 (826 мм²)	GA100 (826 мм²)	GV100 (815 мм²)
Транзисторов	54,2 млрд	54,2 млрд	21,1 млрд
TDP	400 Вт	400 Вт	300 Вт/350 Вт
Процесс производства	TSMC 7N	TSMC 7N	TSMC 12nm FFN
Интерфейс	SXM4	SXM4	SXM2/SXM3
Архитектура	Ampere	Ampere	Volta