Одной из новинок конференции GTC 2022 стала видеокарта RTX A5500, расширяющая ассортимент профессиональных графических ускорителей NVIDIA. Она построена на архитектуре Ampere с RT-ядрами второго поколения и тензорными — третьего. Видеокарта выделяется наличием 24 Гбайт памяти GDDR6 с функцией коррекции ошибок ECC и пиковой пропускной способностью 768 Гбайт/с.
В составе выполненного по технологии 8 нм графического чипа RTX A5500 присутствуют 10 240 ядер CUDA, 80 RT-ядер и 320 тензорных ядер. В компании NVIDIA отмечают, что производительность ускорителя в операциях одинарной точности (FP32) составляет 34,1 Тфлопс, а в операциях половиной точности (FP16) — 272,8 Тфлопс.
Все это, как говорится, на бумаге. Проверим реальные способности видеокарты, благо возможность выбора машины с ней у HOSTKEY недавно появилась.
Энкодинг
Сравнивая RTX A5000 и RTX A4000, мы убедились, что ни рост частоты процессора, ни объем видеопамяти не оказали большого влияния на производительность блоков энкодинга видеокарт. Читатели также справедливо заметили, что мы использовали автоматическую настройку квантования (а следовательно, и качества получаемого видео) вместо готового пресета кодека h264, а также упустили важный для стриминга 60 fps энкодинг.
Повторим те же тесты на RTX A5500 и первым делом запустим энкодинг потока 1080p в 30 fps. Если взять результаты A5000, то она (как и A4000) осилила только 14 потоков.
A5500 показывает себя лучше и при 14 потоках явно имеет запас прочности (NVIDIA обещает до 16 потоков). При этом видеокарта потребляет меньшую на 5 Вт мощность и имеет более низкую температуру видеоядра (+35° C против +47° C у A5000), но видеопамяти задействует на 500 Мб больше.
Вывод nvidia-smi dmon -s pucm
:
gpu |
pwr |
gtemp |
mtemp |
sm |
mem |
enc |
dec |
mclk |
pclk |
fb |
bar1 |
Idx |
W |
C |
C |
% |
% |
% |
% |
MHz |
MHz |
MB |
MB |
0 |
92 |
35 |
- |
13 |
3 |
100 |
0 |
7600 |
1890 |
4141 |
32 |
Вывод ffmpeg
дает нам следующее:
frame = 1051 fps = 32 q = 33.0 size = 9472 kB time = 00:00:34.93 bitrate = 2221.2 kbits/s speed = 1.07x
16 видеопотоков адаптер явно не вытягивает:
gpu |
pwr |
gtemp |
mtemp |
sm |
mem |
enc |
dec |
mclk |
pclk |
fb |
bar1 |
Idx |
W |
C |
C |
% |
% |
% |
% |
MHz |
MHz |
MB |
MB |
0 |
96 |
44 |
- |
13 |
4 |
100 |
0 |
7600 |
1905 |
4732 |
32 |
frame = 901 fps =28 q= 26.0 size = 7680 kB time = 00:00:29.93 bitrate = 2101.8 kbits/s speed = 0.917x
Начинается пропуск кадров, и картинка наполняется артефактами: кодек не справляется и автоматически ухудшает качество (параметр q при этом прыгает от 26 до 50).
Попробуем записать видео в высоком качестве. Задаем параметры, соответствующие high profile для кодека h264: он считается основным для цифрового вещания и видео на оптических носителях, особенно для телевидения высокой четкости (используется также для видеодисков Blu-Ray и вещания DVB HDTV).
Снова запускаем 14 потоков. Нагрузка на видеокарту возрастает, но карта держится:
gpu |
pwr |
gtemp |
mtemp |
sm |
mem |
enc |
dec |
mclk |
pclk |
fb |
bar1 |
Idx |
W |
C |
C |
% |
% |
% |
% |
MHz |
MHz |
MB |
MB |
0 |
95 |
43 |
- |
13 |
4 |
100 |
0 |
7600 |
1890 |
4141 |
32 |
Вывод ffmpeg
:
frame = 968 fps = 32 q = 23.0 size = 7680 kB time = 00:00:32.16 bitrate = 1955.9 kbits/s speed = 1.07x
Пробуем 4K и 30 fps. Три потока в high profile карта осиливает без проблем:
frame = 257 fps = 37 q = 33.0 size = 2304 kB time = 00:00:08.46 bitrate = 2229.3 kbits/s speed = 1.2x
На четырех потоках она слегка пасует (как помните, A5000 при четырех потоках и автоматической настройке качества смогла выдать только 25–26 кадров с артефактами):
frame = 985 fps = 30 q = 37.0 size = 7424 kB time = 00:00:32.73 bitrate = 1858.0 kbits/s speed = 0.995x
Аппаратно имеем следующую картину:
gpu |
pwr |
gtemp |
mtemp |
sm |
mem |
enc |
dec |
mclk |
pclk |
fb |
bar1 |
Idx |
W |
C |
C |
% |
% |
% |
% |
MHz |
MHz |
MB |
MB |
0 |
89 |
32 |
- |
9 |
4 |
100 |
0 |
7600 |
1920 |
1659 |
11 |
По факту видеокарта работает на более высокой частоте, чем при энкодинге видео в FullHD, но основные ядра у нее не загружены (чип холодный, как и видеопамять).
Стриминг 4K при 60 кадрах в секунду ожидаемо просел до двух потоков, но мы использовали уже не мультфильм, а запись геймплея игры Doom Eternal, что создавало некоторые проблемы для аппаратного декодера. A5500 справилась, но на пределе, и без ложки дегтя не обошлось: энкодинг в AV1 аппаратно недоступен, а при вещании через VLC c Ubuntu 20.04 мы не смогли выдать 60 fps, поскольку поток постоянно резался до 30 кадров в секунду. Пришлось городить костыль из ffmpeg и сервера вещания:
frame = 240 fps = 61 q = 32.0 size = 2304 kB time = 00:00:09.48 bitrate = 3991.0 kbits/s speed = 1.03x
Вывод: энкодеры в RTX A5500 улучшили, и при равных условиях она превосходит по мощности A5000, выдавая субъективно лучшую картинку и работая на меньших частотах.
CUDA/RT/Тензорные ядра
А как с остальными блоками? Мы сравнили новинку с A5000 в нескольких тестах (подробнее о методиках можно прочитать в одной из предыдущих статей):
Тест возможностей для майнинга (с помощью PhoenixMiner).
Тест возможностей машинного обучения. Для этого мы провели на каждой из карт обучение нейросети на определении, кошка или собака изображена на фотографии, использовав для этого 100 эпох.
Тест V-Ray 5 Benchmark на рендер как в связке CPU + GPU (CUDA-тест), так и чисто на GPU (тест RTX).
Тест LuxMark в трех разных сценах, проверяющий скорость в OpenCL на GPU.
Тест Blender в разных сценах в режиме OptiX с использованием всех возможностей RTX.
Итоговая таблица:
NVIDIA GPU |
Скорость майнинга, MH |
ML test 100 epoh |
V-Ray 5 Benchmark (vpaths/vrays) |
LuxMark |
Blender |
RTX A5000 |
86.66 |
9 мин. 9 сек. |
V-Ray GPU CUDA — 1381 vpaths |
Lux ball — 74 795 Hotel — 15 794 Mic — 45 640 |
Monster — 2312 Junkshop — 1331 Classroom — 1148 |
RTX A5500 |
87.319 |
8 мин. 59 сек. |
V-Ray GPU CUDA — 1594 vpaths
|
Lux ball — 78 554 Hotel — 16 219 Mic — 48 832 |
Monster — 2468 Junkshop — 1388 Classroom — 1223 |
RTX A5500 лучше показывает себя в рендеринге, но тут все зависит от оптимизации: в V-Ray 5 мы имеем отрыв в 13–14%, в LuxMark — 5–7%, похожие цифры в 5–7% и в Blender. С учетом погрешности выдаваемых «попугаев» в пару процентов в зависимости от прогона, итоговый прирост производительности не сильно впечатляет.
В машинном обучении A5500 быстрее минимум на 15%, а вот для майнеров будет неприятным сюрпризом практически одинаковый хэшрейт у обеих карт. Отметим, впрочем, что решение позиционируется производителем для профессионалов в графике и нейросетях.
Выводы
Увы, чуда не случилось. Реальный прирост производительности составляет 5–10% в зависимости от выполняемой задачи, а в случаях майнинга и энкодинга прироста не наблюдается.
В плюсах имеем: меньшее энергопотребление, лучшее охлаждение за счет меньшего тепловыделения видеочипа, а также больший объем видеопамяти, что должно положительно сказаться на интенсивно использующих ее задачах.
Стоит ли это потраченных денег? Решать покупателю, а у нас вы можете заказать выделенный сервер с NVIDIA RTX A5500, если захотите изучить новинку самостоятельно.
А специальный промокод «Я С ХАБРА» откроет врата щедрости: назовите его консультанту на сайте при размещении заказа — и получите дополнительную скидку. Платить можно как всегда в рублях с НДС российской компании или в евро — компании в Нидерландах.
adminustrator
Добрый день!
Подскажите, пожалуйста, для того, кто сам только обучается DS и ML, какую видеокарту вы могли бы рекомендовать? Возможно ли использование ноутбучных решений с графикой rtx 30xx или A40XX, A50XX/A55XX в этом смысле лучше?
taluyev
Для обучения достаточно colab, достаточно любой карты поддерживпющей cuda...
ULP
Любая простая подойдёт, та что в ноутбуке с cuda тоже. А так публика охотно берет 1080 старые например.