AMD представила новое решение для высокопроизводительных вычислений на ИИ — ускоритель Instinct MI100 на базе новой архитектуры CDNA.
Instinct MI100 выполнен TSMC на архитектуре 7-нм. Он предназначен для работы с интерфейсом PCIe 4.0 x16 (64 Гбайт/с).
В Instinct MI100 входит 120 вычислительных блоков и 7680 потоковых процессоров.
Пиковая производительность в FP64-приложениях достигает 11,5 Тфлопс, а для FP32 — 23 Тфлопс. В bfloat16-вычислениях этот показатель равен 92,3 Тфлопс.
Instinct MI100 представлен только в форм-факторе полноразмерной PCIe-карты с уровнем потребления 300 Вт. Он оснащён 32 Гбайт памяти HBM2 с пропускной способностью 1,23 Тбайт/с.
Три интерфейса Infinity Fabric (IF) с пропускной способностью по 92 Гбайт/с каждый можно объединить в связку до четырёх ускорителей Instinct MI100. Уровень пропускной способности не будет зависеть от того, подключен набор к PCIe 3.0 или 4.0.
Компания сравнила показатели своей новинки и ускорителя вычислений A100 от Nvidia. AMD утверждает, что ее решение показывает более высокую производительность из расчета на каждый доллар затрат. Правда, у ускорителя Nvidia больше оперативная память и пропускная способность памяти (до 80 ГБ и 2039 ГБ/с). При этом A100 демонстрирует более высокую производительность при более низкой точности и более высокий уровень потребления.
Первыми новые вычислительные графические ускорители получат Dell PowerEdge R7525, Gigabyte G482-Z54, HPE Apollo 6500 Gen10 Plus и Supermicro AS-4124GS-TNR. Поставки ожидаются в этом месяце.
В октябре AMD объявила о покупке производителя микросхем Xilinx за $35 млрд. После сделки компания может стать главным конкурентом Intel на рынке чипов для обработки больших данных и облачных центров.
См. также:
Alexsey
Железо это хорошо, а со стороны софта AMD делает какие-то телодвижения? А то не понятен смысл этих железок если весь софт все равно под CUDA заточен.
kasthack_phoenix
У них есть ROCm, который должен позволять сильно облегчать портирование с CUDA, но его как-то очень лениво пилят, да и поддерживается тот только на нативном Linux(т.е. не получится даже пробросить в WSL / Dokcer for windows). Из популярного софта на него портировали Tensorflow, но это форк, который не смержен в основной репозиторий.
Kobalt_x
[Буквоед edition] Не rocm, а hip(в составе rocm) который проксирует все либо в nvcc либо в свой компилятор. Не принимают в основном, потому что это ломает сборку на чистом cuda окружении (т к. для сборки нужно будет ставить hip). Btw pytorch там тоже есть.
nrndda
Основная ветка Pytorch поддерживает ROCm уже несколько версий подряд: CMake
nrndda
Да и в Tensorflow в каком-то виде то же есть поддержка.
Собирал из исходников Pytorch с ROCm и много различных проблем при сборке. До недавнего времени HIP был экспериментальным и они на него мигрировали. К тому же они используют свою ветку clang/llvm, что выливается в проблемы с драйверами в Mesa при сборке со штатным llvm.