Почём ИИ для народа: протестировали платформу YADRO G4208P с восемью H100 NVL и RTX 4090 на десятке ИИ-моделей / forpes.ru

Главная
Почём ИИ для народа: протестировали платформу YADRO G4208P с восемью H100 NVL и RTX 4090 на десятке ИИ-моделей

Почём ИИ для народа: протестировали платформу YADRO G4208P с восемью H100 NVL и RTX 4090 на десятке ИИ-моделей +18

10.06.2025 10:53

makart19 15 2100 Источник

Привет, Хабр! Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. Сегодня поговорим о готовящемся к выпуску сервере YADRO G4208P G3, к раннему образцу которого мы получили полный доступ, чтобы оценить его эффективность работы с нейросетями.

Шесть лет назад для обучения GPT-2 на 1,6 миллиарда параметров требовались массивы из десятков топовых V100 и целая команда инженеров, а сам процесс мог занимать недели. Сейчас один GPU-сервер YADRO G4208P G3 справляется с этой задачей за ~1,6 суток. Мы провели масштабное тестирование разных ИИ-моделей на платформах с восемью H100 NVL и RTX 4090, адаптированных для установки в сервер. Когда же выгоднее взять RTX 4090, а в каких случаях не обойтись без серверных карт? Давайте вместе разберемся.

Новый GPU-сервер для тестирования

В нашем распоряжении GPU-сервер YADRO G4208P G3 с парой Xeon Platinum Gen4. Мы можем установить до восьми GPU: в нашем случае это H100 NVL и 4090. Есть поддержка NVLink Bridge, так что на одном тестовом стенде мы сравним работу видеокарт H100 NVL с этой технологией и без нее.

Характеристики GPU-сервера G4208P G3

Форм-фактор: 4U.
CPU: 2 × Intel Xeon Scalable 4/5 поколения, TDP до 350 Вт.
RAM: до 8 ТБ DDR5-4800.
GPU: до 8 PCIe 5.0 x16 двойной ширины, TDP до 450 Вт.
Накопители: до 12 дисков (8 × SAS/SATA, 4 × SAS/SATA/NVMe)
Поддержка NVLink Bridge.

Подробные технические характеристики →

Конфигурации тестовых систем

Компонент/ платформа	G4208P (8х4090)	G4208P (8хH100NVL)
CPU	2 x Intel Xeon Platinum Gen4 (32 ядра)	2 x Intel Xeon Platinum Gen4 (32 ядра)
GPU	8x RTX 4090 (24 GB)	8x H100NVL (94 GB)
RAM	2 TB (16x 64GB)	2 TB (16x 64GB)
SSD	14 TB NVMe	7 TB NVMe
NVIDIA Драйвер	560.35.5	560.35.5
ОС	Ubuntu 22.04, Linux 6.8.0-38-generic	Ubuntu 22.04, Linux 6.8.0-38-generic

Обучение моделей GPT-2

Для экспериментов мы выбрали бенчмарк на основе реализации обучения для модели GPT-2 на 1,558 миллиарда параметров из репозитория проекта llm.c Андрея Карпаты.

Именно эта модель была представлена OpenAI в блоге Better Language Models and Their Implications в феврале 2019 года. Тогда для ее обучения нужна была команда инженеров и солидные вычислительные ресурсы: массивы из десятков топовых V100. Обучение модели могло длиться несколько недель.

Сейчас, шесть лет спустя, достаточно одного сервера с восемью картами H100, а обучение занимает 1–1,6 суток. Все это благодаря развитию GPU, современным библиотекам, таким как CUDA и cuDNN, а также открытым датасетам типа FineWeb-Edu.

Андрей Карпаты показывает, что это возможно даже без фреймворков вроде PyTorch или TensorFlow. Все обучение реализовано примерно в 5 тысячах строк на C и CUDA. Это наглядный пример того, насколько проще и доступнее стало обучение крупных языковых моделей.

Мы проверили, как справляются серверы YADRO c обучением GPT-2 на 1,6 миллиарда параметров. Обучение на конфигурации G4208P с восемью H100 NVL заняло 38 часов, или примерно 1.6 суток. На графике ниже показываем соотношение времени исполнения 50 шагов обучения на конфигурации G4208P с RTX 4090 по сравнению с конфигурацией на Н100 NVL:

В качестве эксперимента мы также выполнили несколько шагов обучения варианта модели на 12,2 миллиарда параметров из репозитория Андрея Карпаты. Эта реализация обучения модели рассчитана только на GPU c объемом памяти >= 80 ГБ, поэтому замеры проводили только на сервере с восемью H100 NVL.

На этой конфигурации один шаг обучения в среднем длится в ~38 раз дольше, чем для модели в 1,558 миллиарда параметров. Для ускорения процесса нужно использовать кластер из подобных машин, но это уже тема следующей серии экспериментов.

Бенчмарки индустриального стандарта

При формировании оценки производительности общего плана для серверной платформы мы используем бенчмарки индустриального стандарта MLCommons. Этот репозиторий содержит набор многоцелевых бенчмарков для различных типов нагрузок и сценариев. В статье мы затрагиваем те, что связаны с задачами обучения и инференса моделей ИИ.

Давайте посмотрим на результаты запуска MLCommons-бенчмарков для платформы G4208P G3 в двух конфигурациях — с восемью RTX 4090 и H100 NVL.

Соотношение времени обучения

Посмотрим на результаты сравнения времени обучения для разных моделей ИИ, которые используются для обработки изображений и естественного языка:

классификация изображений (ResNet),
сегментация медицинских изображений, например для МРТ и КТ (UNet3D),
определение объектов (RetinaNet),

Соотношение времени обучения на разных платформах для моделей ResNet, UNet3D, RetinaNet

Из графика видно:

8х 4090 G4208P G3 в среднем в ~3 раза уступает 8х H100 NVL в задачах обучения малых моделей,
G4208P G3 8х H100 NVL превосходит результаты 8х H100 PCIe из публичного репозитория. Публичных данных по H100 NVL, к сожалению, нет.

Открытые бенчмарки

В сравнении мы использовали эти записи из публичного репозитория:

Бенчмарк/Конфигурация	public 8x H100_80GB PCIe (MLCommons)
Image classification (ResNet)	4.0-0017
Image segmentation, medical (UNet3D)	4.0-0017

Сравнение производительности на задачах инференса

Посмотрим, на что способны GPU при выполнении разных задач, начиная с обработки изображений и заканчивая языковыми моделями.

На графике ниже — сравнение производительности серверов YADRO на задаче инференса при обработке всех имеющихся данных (офлайн-сценарий) с публичными результатами из репозитория MLCommons. Для него взяли конкурентные платформы c конфигурациями ускорителей 8х H100 PCIe (на 80 ГБ) и 8x H100 NVL.

Соотношение пропускной способности инференса (офлайн-сценарий)

Ключевые выводы:

8х 4090 G4208P G3 в среднем в ~2,7 раза уступает 8х H100 NVL, наибольшая просадка наблюдается в задачах связанных с инференсом LLM,
8х H100 NVL G4208P G3 показывает результаты, аналогичные результатам из публичных данных для 8х Н100 NVL.

Открытые бенчмарки

В сравнении мы использовали эти записи из публичного репозитория.

Бенчмарк/Конфигурация	8x H100_80GB PCIe (mlcommons)	8x H100NVL (mlcommons)
Speech-to-text (rnnt)	4.0-0001
NLP (bert-99)	4.1-0004	4.1-0040
LLM – Summarization (gpt-j-6B-99)	5.0-0064*	5.0-0023
LLM – Q&A (llm-70b-99)	5.0-0064*	5.0-0023
Recommendation (dlrm-v2-99)	5.0-0064*	5.0-0009**
Image segmentation, medical (3d-unet-99)	5.0-0064*	5.0-0023
Object detection (retinanet)	5.0-0064*	5.0-0023
Image classification (resnet50)	5.0-0064*	5.0-0050*
Image Generation (stable-diffusion-xl)	5.0-0064*	5.0-0050*

Замечание: в версии MLCommons 5.0 не для всех бенчмарков представлены данные по конфигурациям с восемью GPU. Например, для H100 PCIe внесены данные только для четырех H100 PCIe (запись 5.0-0064). В этих случаях значение для конфигурации 8х H100 PCIe было аппроксимировано умножением значения на необходимый коэффициент:

* — х2 для публичных данных с четырьмя GPU (запись 5.0-0064),

** — x4 для публичных данных с двумя GPU (запись 5.0-0009).

Когда полезен NVLink

NVLink позволяет соединять GPU напрямую, в обход относительно медленной PCIe, обеспечивая высокоскоростной обмен данными. Пропускная способность такого соединения более чем в 4 раза превышает возможности PCIe 5.0: 600 ГБ/с против 128 ГБ/c в обоих направлениях.

Конкретная скорость зависит от версии NVLink — от 160 ГБ/с для архитектуры Pascal (1.0) и до 900 ГБ/с для Hopper (4.0). В пятой версии NVIDIA обещает скорость до 1,8 ТБ/с для GPU с архитектурой Blackwell. К примеру, интерфейс PCIe 5.0 удваивает пропускную способность по сравнению с предыдущим поколением: до 64 ГБ/с в каждом направлении на слот x16.

В нашем сервере NVLink работает именно между парой карт, но и этого достаточно, чтобы ускорить ряд задач. В масштабных моделях — например, языковых на десятки или сотни миллиардов параметров — узким местом часто становится обмен данными между GPU. NVLink-связка из двух карт позволяет эффективно разделить параметры модели и обучать или выполнять инференс, значительно сократив потери на коммуникациях.

Наши тесты показывают прирост производительности более чем в 1,5 раза на больших нейросетях при попарном объединении GPU шиной NVLink. Сравнивали с вариантом обмена данными через PCIe.

Таким образом NVLink будет полезен в следующих сценариях:

модель не умещается на одной GPU, и нужно распределить ее на две видеокарты.
для повышения эффективности выполнения задачи нужно больше места для обработки входных данных.

Когда 4090 выгоднее: производительность/цена

4090 — это адаптированные версии клиентских RTX 4090 для работы в сервере. Подобные GPU производят на фабриках, а технология соответствует стандартам производства серверных графических ускорителей. В G4208P G3 можно установить восемь таких GPU.

На рынке есть сопоставимые по производительности GPU-карты L40, L40S, специализированные и изначально спроектированные для использования в серверах, но детальный обзор разных видов GPU-карт — тема для отдельной статьи.

Главное сравнительное преимущество RTX — это соотношение производительность/цена. Если посмотреть на стоимость платформ и сопоставить ее с данными по производительности, то по метрике производительность/цена платформа 8х 4090 G4208P G3 выходит вперед в ряде случаев. Например, при обучении малых моделей до ~2 миллиардов параметров в задачах, которые связаны с обработкой изображений и обучением малых LLM:

Также 8х 4090 G4208P G3 оказывается впереди для инференса малых моделей (до ~2 миллиардов параметров) в задачах, которые связаны с обработкой изображений:

А еще — инференса моделей распознавания речи и обработки естественного языка:

При обработке малых моделей до ~2 миллиардов параметров платформа 8х 4090 G4208P G3 в среднем в ~2,5 раза эффективнее 8х H100 NVL в задачах инференса и в ~1,4 раза в задачах тренинга.

Инференс больших LLM с количеством параметров более ~70 миллиардов значительно эффективнее проводить на конфигурации с 8х H100 NVL.

По результатам выше мы видим, что в ИИ-задачах по вычислительной мощности H100 NVL превосходит 4090 в среднем в ~2,7 раза. А с точки зрения эффективности затрат на решение прикладных задач, таких как компьютерное зрение и инференс моделей до ~2 млрд параметров, платформа с 8х 4090 может окупиться значительно быстрее, чем специализированный сервер с 8х GPU вроде H100 NVL.

Выводы

Платформа G4208P G3 позволяет установить восемь мощных серверных GPU и объединить их попарно шиной NVLink. В задачах инференса и обучения ИИ-моделей она демонстрирует производительность на уровне аналогичных платформ мировых вендоров.

Конфигурация G4208P G3 8х H100 NVL хорошо себя показывает как для инференса больших LLM (более ~70 миллиардов параметров), так и для обучения малых и средних LLM-моделей — до 13 миллиардов параметров.

Конфигурация G4208P G3 8х 4090 подходит для инференса и обучения малых моделей, например моделей для работы с изображениями (ImageClassification, ObjectDetection, ImageSegmentation), и LLM с количеством параметров ~1,6 миллиардов параметров. Причем по метрике производительность/цена она может быть до 2,5 раза эффективнее, чем конфигурация 8х H100 NVL.

Мы свели общие выводы по производительности и метрике производительность/цена платформ 8x H100 NVL и 8x 4090 в таблицу:

Задача/платформа	8x H100 NVL		8x 4090
Задача/платформа	Perf	Perf/ cost	Perf	Perf/ cost
Обучение средних моделей (1,6B < LLM < 13B)	★★★	◼◼◼	n/a	n/a
Обучение малых моделей (LLM ~1,6B, ImageClassification, ObjectDetection,Speech2Text и т. д.)	★★★	◼◼	★	◼◼◻
Инференс больших моделей (LLM >=70B)	★★★	◼◼◼	☆	◼◻
Инференс средних моделей (LLM ~6B)	★★★	◼◼◼	★	◼◼◼
Инференс малых моделей (LLM ~1,6B, ImageClassification, ObjectDetection,Speech2Text и т. д.)	★★★	◼	★★	◼◼◻

Используемые обозначения:

◼◼◼/★★★ — самая высокая эффективность (три пункта) для задачи по заданной метрике.
◼◼◻/★★☆ — эффективность составляет 2,5 пункта (из трех) для задачи по заданной метрике.
n/a — результаты для задачи отсутствуют, так как набор используемых бенчмарков в силу ограничений реализации или особенностей компонент (например, недостаточный объем памяти) не позволяет проводить эксперименты на этой конфигурации.

В следующей статье расскажем о запуске различных моделей от deepseek-ai на платформах YADRO. Также мы планируем тестировать конфигурации с другими GPU на сервере G4208P G3. Подписывайтесь!

Комментарии (15)

Darth_Anjan
10.06.2025 11:36
#28420340
Так, и почём же? А то в заголовке заинтересовали, а в статье не раскрыли...
1. yadro_team
  10.06.2025 11:36
  #28424974
  Добрый день! На данный момент цену может обозначить отдел продаж, понимая заказчика и проект. В статье есть ссылка на страницу продукта, по кнопке «Свяжитесь с нами» можно задать свой вопрос.
  1. StasTukalo
    10.06.2025 11:36
    #28431214
    Ребята, это детский сад. "Понимая заказчика" и весь подобный бред можно втюхивать где-нибудь в другом месте, но не на хабре. Что можно понять не так во фразе "Сколько стоит описываемая серверная платформа под 8 гпу- корпус, мать, блоки питания?" ? и чтоб два раза невставать- ттх матери дайте.
    
    ПС Ульяна (@lodz ) и Артём (@makart19 ) , я думаю, что не я один нелюблю продавцов, которые прячут цены и из процесса получения этой самой цены делают квест- уверен, что таких многие не любят. Нафига вы написали эту статью на хабре и потом футболите людей с самым логичным вопросом- "сколько это стоит" ? Вы стесняетесь своей цены? Какая логика?

alexhu
10.06.2025 11:36
#28420834
Если правильно понимаю масштабы, то от 110т. рублей за "попробовать" обучить модель и вдвое меньше за понимание, получается ли хоть что - то.

riv9231
10.06.2025 11:36
#28420986
Т.е. имя доступ к серверам с 8xH100 и 8x4090, вы решили протестировать модели размером 1,6B и 70B. Но ведь это можно запустить и на одной H100. Наверное, вам была не важна максимальная производительность этого железа. А можно было бы запустить и deepseek R1 вот это было бы интересно.
1. makart19 Автор
  10.06.2025 11:36
  #28421792
  Как раз сейчас мы собираем материалы для следующей статьи по экспериментам с различными моделями от deepseek-ai на платформах YADRO.

StasTukalo
10.06.2025 11:36
#28421836
Позвольте три вопросика:
1. Почем такой сервер?
2. На какой платформе построена ваша "платформа"? Это супермикро? Модель матери в студию, пожалуйста. Обещанные 8 ТБ ддр5 говорят о том, что это что-то достаточно современное.
3. Присоединяюсь к недоумению по поводу убогости моделей, которые вы на таком железе "тестировали".
В задачах инференса и обучения ИИ-моделей она демонстрирует производительность на уровне аналогичных платформ мировых вендоров.

Слушайте, зачем вы так говорите?? Ни в коем случае не хочу обидеть сборщиков компов (любой законный бизнес - хорошо) - но вы и так взяли импортную мать для гпу-серверов, засунули ее в импортный корпус для гпу-серверов и воткнули импортных гпу - оно у вас и так является "платформой мировых вендоров" - а когда сборщик компов кичится крутостью собранного им компа так, будто он сам процессор на кремниевой подложке вырастил - ну это вызывает недоумение..
1. yadro_team
  10.06.2025 11:36
  #28425464
  Здравствуйте! Спасибо за вопросы.
  
  Про цену пояснили выше в комментариях. Ее лучше запросить у отдела продаж на странице продукта.
  
  Серверы YADRO производятся на наших собственных заводах в РФ — в Дубне и Малаховке. Внутри — материнские платы нашего производства, BIOS/BMC также наши собственные.
  
  Пока мы поделились первой порцией результатов по тестам. В продолжении расскажем про работу серверов с тяжелыми моделями.
  1. StasTukalo
    10.06.2025 11:36
    #28426138
    Материнские платы вашего собственного производства?! Если это правда- то это очень круто. Это ваша собственная разработка или дизайн куплен по лицензии? Если куплен- то что в основе?

WASD1
10.06.2025 11:36
#28421940
Огромное спасибо за статью.

А какие модели максимум можно обучить на 8RTX4090 / H100?
Было бы интересно посмотреть что произойдёт с ростом модели (70B - влезет или нет?)
1. yadro_team
  10.06.2025 11:36
  #28425474
  Спасибо, что читаете! В следующей статьей, которую мы уже готовим, ответим на этот вопрос.

avshkol
10.06.2025 11:36
#28425576
Вы тестировали именно на обучении с нуля, а не файнтюнинге?

В этом случае фраза в заголовке "ИИ для народа" немного странная - где тот народ, который с нуля именно обучает, а не файнтюнит LLM?

Народ (т.е. массовый экспериментатор с LLM), в лучшем случае может позволить себе 2 × 4090, чего хватает для файнтюнинга небольших моделей.

Сервер с таким железом - это не для народа, а для корпораций, которые не готовы размещать свои данные и модели на внешних серверах , но хотят не отставать в ИИ и реализовать свои проекты. Но даже там в большинстве случаев будет достаточно тех же 2×4090, чтобы использовать небольшую llm + RAG для условно нескольких десятков тыс.внутренних документов...

murkin-kot
10.06.2025 11:36
#28426054
G4208P G3: вид сверху

Подскажите, на фото сверху видеокарточки стоят на расстоянии вряд ли больше миллиметра друг от друга, как это сказывается на охлаждении? Площадь для доступа охлаждающего воздуха получается миллиметров 60-80 квадратных, а площадь, ометаемая вентилятором раз в 10 больше (при одном вентиляторе). На лицо снижение минимум в 10 раз, это если зазор не менее миллиметра.

Карточки не перегреваются? На сколько снижается в результате рабочий ресурс?
1. smoksin
  10.06.2025 11:36
  #28426628
  вы о каких вентиляторах речь ведете? Серверные GPU обычно на борту их не имеют, обдуваются тем, что стоит в сервере. А те. уверяю вас, имеют хорошую производительность, ревут как истребитель с вертикальным взлетом!
1. czz
  10.06.2025 11:36
  #28430770
  У этих карт пластины радиатора расположены вдоль карты, а не поперек (в отличие от десктопных) и обернуты в кожух. Воздух в них вдувается под давлением с переднего торца, проходит через весь радиатор, как через трубу, выходит с заднего торца сразу за пределы корпуса. Это намного эффективнее, чем вентилятор сбоку, от которого потоки уходят в произвольных направлениях. Только очень шумно.