Привет, Хабр! Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. Сегодня поговорим о готовящемся к выпуску сервере YADRO G4208P G3, к раннему образцу которого мы получили полный доступ, чтобы оценить его эффективность работы с нейросетями.
Шесть лет назад для обучения GPT-2 на 1,6 миллиарда параметров требовались массивы из десятков топовых V100 и целая команда инженеров, а сам процесс мог занимать недели. Сейчас один GPU-сервер YADRO G4208P G3 справляется с этой задачей за ~1,6 суток. Мы провели масштабное тестирование разных ИИ-моделей на платформах с восемью H100 NVL и RTX 4090, адаптированных для установки в сервер. Когда же выгоднее взять RTX 4090, а в каких случаях не обойтись без серверных карт? Давайте вместе разберемся.
Новый GPU-сервер для тестирования
В нашем распоряжении GPU-сервер YADRO G4208P G3 с парой Xeon Platinum Gen4. Мы можем установить до восьми GPU: в нашем случае это H100 NVL и 4090. Есть поддержка NVLink Bridge, так что на одном тестовом стенде мы сравним работу видеокарт H100 NVL с этой технологией и без нее.

Характеристики GPU-сервера G4208P G3
Форм-фактор: 4U.
CPU: 2 × Intel Xeon Scalable 4/5 поколения, TDP до 350 Вт.
RAM: до 8 ТБ DDR5-4800.
GPU: до 8 PCIe 5.0 x16 двойной ширины, TDP до 450 Вт.
Накопители: до 12 дисков (8 × SAS/SATA, 4 × SAS/SATA/NVMe)
Поддержка NVLink Bridge.
Конфигурации тестовых систем
Компонент/ |
G4208P (8х4090) |
G4208P (8хH100NVL) |
CPU |
2 x Intel Xeon Platinum Gen4 (32 ядра) |
2 x Intel Xeon Platinum Gen4 (32 ядра) |
GPU |
8x RTX 4090 (24 GB) |
8x H100NVL (94 GB) |
RAM |
2 TB (16x 64GB) |
2 TB (16x 64GB) |
SSD |
14 TB NVMe |
7 TB NVMe |
NVIDIA Драйвер |
560.35.5 |
560.35.5 |
ОС |
Ubuntu 22.04, Linux 6.8.0-38-generic |
Ubuntu 22.04, Linux 6.8.0-38-generic |
Обучение моделей GPT-2
Для экспериментов мы выбрали бенчмарк на основе реализации обучения для модели GPT-2 на 1,558 миллиарда параметров из репозитория проекта llm.c Андрея Карпаты.
Именно эта модель была представлена OpenAI в блоге Better Language Models and Their Implications в феврале 2019 года. Тогда для ее обучения нужна была команда инженеров и солидные вычислительные ресурсы: массивы из десятков топовых V100. Обучение модели могло длиться несколько недель.
Сейчас, шесть лет спустя, достаточно одного сервера с восемью картами H100, а обучение занимает 1–1,6 суток. Все это благодаря развитию GPU, современным библиотекам, таким как CUDA и cuDNN, а также открытым датасетам типа FineWeb-Edu.
Андрей Карпаты показывает, что это возможно даже без фреймворков вроде PyTorch или TensorFlow. Все обучение реализовано примерно в 5 тысячах строк на C и CUDA. Это наглядный пример того, насколько проще и доступнее стало обучение крупных языковых моделей.
Мы проверили, как справляются серверы YADRO c обучением GPT-2 на 1,6 миллиарда параметров. Обучение на конфигурации G4208P с восемью H100 NVL заняло 38 часов, или примерно 1.6 суток. На графике ниже показываем соотношение времени исполнения 50 шагов обучения на конфигурации G4208P с RTX 4090 по сравнению с конфигурацией на Н100 NVL:

В качестве эксперимента мы также выполнили несколько шагов обучения варианта модели на 12,2 миллиарда параметров из репозитория Андрея Карпаты. Эта реализация обучения модели рассчитана только на GPU c объемом памяти >= 80 ГБ, поэтому замеры проводили только на сервере с восемью H100 NVL.
На этой конфигурации один шаг обучения в среднем длится в ~38 раз дольше, чем для модели в 1,558 миллиарда параметров. Для ускорения процесса нужно использовать кластер из подобных машин, но это уже тема следующей серии экспериментов.
Бенчмарки индустриального стандарта
При формировании оценки производительности общего плана для серверной платформы мы используем бенчмарки индустриального стандарта MLCommons. Этот репозиторий содержит набор многоцелевых бенчмарков для различных типов нагрузок и сценариев. В статье мы затрагиваем те, что связаны с задачами обучения и инференса моделей ИИ.
Давайте посмотрим на результаты запуска MLCommons-бенчмарков для платформы G4208P G3 в двух конфигурациях — с восемью RTX 4090 и H100 NVL.
Соотношение времени обучения
Посмотрим на результаты сравнения времени обучения для разных моделей ИИ, которые используются для обработки изображений и естественного языка:
классификация изображений (ResNet),
сегментация медицинских изображений, например для МРТ и КТ (UNet3D),
определение объектов (RetinaNet),

Из графика видно:
8х 4090 G4208P G3 в среднем в ~3 раза уступает 8х H100 NVL в задачах обучения малых моделей,
G4208P G3 8х H100 NVL превосходит результаты 8х H100 PCIe из публичного репозитория. Публичных данных по H100 NVL, к сожалению, нет.
Открытые бенчмарки
В сравнении мы использовали эти записи из публичного репозитория:
Бенчмарк/Конфигурация |
public 8x H100_80GB PCIe (MLCommons) |
Image classification |
4.0-0017 |
Image segmentation, medical |
4.0-0017 |
Сравнение производительности на задачах инференса
Посмотрим, на что способны GPU при выполнении разных задач, начиная с обработки изображений и заканчивая языковыми моделями.
На графике ниже — сравнение производительности серверов YADRO на задаче инференса при обработке всех имеющихся данных (офлайн-сценарий) с публичными результатами из репозитория MLCommons. Для него взяли конкурентные платформы c конфигурациями ускорителей 8х H100 PCIe (на 80 ГБ) и 8x H100 NVL.


Ключевые выводы:
8х 4090 G4208P G3 в среднем в ~2,7 раза уступает 8х H100 NVL, наибольшая просадка наблюдается в задачах связанных с инференсом LLM,
8х H100 NVL G4208P G3 показывает результаты, аналогичные результатам из публичных данных для 8х Н100 NVL.
Открытые бенчмарки
В сравнении мы использовали эти записи из публичного репозитория.
Бенчмарк/Конфигурация |
8x H100_80GB PCIe (mlcommons) |
8x H100NVL (mlcommons) |
Speech-to-text (rnnt) |
4.0-0001 |
|
NLP (bert-99) |
4.1-0004 |
4.1-0040 |
LLM – Summarization (gpt-j-6B-99) |
5.0-0064* |
5.0-0023 |
LLM – Q&A (llm-70b-99) |
5.0-0064* |
5.0-0023 |
Recommendation (dlrm-v2-99) |
5.0-0064* |
5.0-0009** |
Image segmentation, medical (3d-unet-99) |
5.0-0064* |
5.0-0023 |
Object detection (retinanet) |
5.0-0064* |
5.0-0023 |
Image classification (resnet50) |
5.0-0064* |
5.0-0050* |
Image Generation (stable-diffusion-xl) |
5.0-0064* |
5.0-0050* |
Замечание: в версии MLCommons 5.0 не для всех бенчмарков представлены данные по конфигурациям с восемью GPU. Например, для H100 PCIe внесены данные только для четырех H100 PCIe (запись 5.0-0064). В этих случаях значение для конфигурации 8х H100 PCIe было аппроксимировано умножением значения на необходимый коэффициент:
* — х2 для публичных данных с четырьмя GPU (запись 5.0-0064),
** — x4 для публичных данных с двумя GPU (запись 5.0-0009).
Когда полезен NVLink
NVLink позволяет соединять GPU напрямую, в обход относительно медленной PCIe, обеспечивая высокоскоростной обмен данными. Пропускная способность такого соединения более чем в 4 раза превышает возможности PCIe 5.0: 600 ГБ/с против 128 ГБ/c в обоих направлениях.
Конкретная скорость зависит от версии NVLink — от 160 ГБ/с для архитектуры Pascal (1.0) и до 900 ГБ/с для Hopper (4.0). В пятой версии NVIDIA обещает скорость до 1,8 ТБ/с для GPU с архитектурой Blackwell. К примеру, интерфейс PCIe 5.0 удваивает пропускную способность по сравнению с предыдущим поколением: до 64 ГБ/с в каждом направлении на слот x16.
В нашем сервере NVLink работает именно между парой карт, но и этого достаточно, чтобы ускорить ряд задач. В масштабных моделях — например, языковых на десятки или сотни миллиардов параметров — узким местом часто становится обмен данными между GPU. NVLink-связка из двух карт позволяет эффективно разделить параметры модели и обучать или выполнять инференс, значительно сократив потери на коммуникациях.
Наши тесты показывают прирост производительности более чем в 1,5 раза на больших нейросетях при попарном объединении GPU шиной NVLink. Сравнивали с вариантом обмена данными через PCIe.

Таким образом NVLink будет полезен в следующих сценариях:
модель не умещается на одной GPU, и нужно распределить ее на две видеокарты.
для повышения эффективности выполнения задачи нужно больше места для обработки входных данных.
Когда 4090 выгоднее: производительность/цена
4090 — это адаптированные версии клиентских RTX 4090 для работы в сервере. Подобные GPU производят на фабриках, а технология соответствует стандартам производства серверных графических ускорителей. В G4208P G3 можно установить восемь таких GPU.
На рынке есть сопоставимые по производительности GPU-карты L40, L40S, специализированные и изначально спроектированные для использования в серверах, но детальный обзор разных видов GPU-карт — тема для отдельной статьи.
Главное сравнительное преимущество RTX — это соотношение производительность/цена. Если посмотреть на стоимость платформ и сопоставить ее с данными по производительности, то по метрике производительность/цена платформа 8х 4090 G4208P G3 выходит вперед в ряде случаев. Например, при обучении малых моделей до ~2 миллиардов параметров в задачах, которые связаны с обработкой изображений и обучением малых LLM:

Также 8х 4090 G4208P G3 оказывается впереди для инференса малых моделей (до ~2 миллиардов параметров) в задачах, которые связаны с обработкой изображений:

А еще — инференса моделей распознавания речи и обработки естественного языка:

При обработке малых моделей до ~2 миллиардов параметров платформа 8х 4090 G4208P G3 в среднем в ~2,5 раза эффективнее 8х H100 NVL в задачах инференса и в ~1,4 раза в задачах тренинга.
Инференс больших LLM с количеством параметров более ~70 миллиардов значительно эффективнее проводить на конфигурации с 8х H100 NVL.
По результатам выше мы видим, что в ИИ-задачах по вычислительной мощности H100 NVL превосходит 4090 в среднем в ~2,7 раза. А с точки зрения эффективности затрат на решение прикладных задач, таких как компьютерное зрение и инференс моделей до ~2 млрд параметров, платформа с 8х 4090 может окупиться значительно быстрее, чем специализированный сервер с 8х GPU вроде H100 NVL.
Выводы
Платформа G4208P G3 позволяет установить восемь мощных серверных GPU и объединить их попарно шиной NVLink. В задачах инференса и обучения ИИ-моделей она демонстрирует производительность на уровне аналогичных платформ мировых вендоров.
Конфигурация G4208P G3 8х H100 NVL хорошо себя показывает как для инференса больших LLM (более ~70 миллиардов параметров), так и для обучения малых и средних LLM-моделей — до 13 миллиардов параметров.
Конфигурация G4208P G3 8х 4090 подходит для инференса и обучения малых моделей, например моделей для работы с изображениями (ImageClassification, ObjectDetection, ImageSegmentation), и LLM с количеством параметров ~1,6 миллиардов параметров. Причем по метрике производительность/цена она может быть до 2,5 раза эффективнее, чем конфигурация 8х H100 NVL.
Мы свели общие выводы по производительности и метрике производительность/цена платформ 8x H100 NVL и 8x 4090 в таблицу:
Задача/платформа |
8x H100 NVL |
8x 4090 |
||
Perf |
Perf/ cost |
Perf |
Perf/ cost |
|
Обучение средних моделей (1,6B < LLM < 13B) |
★★★ |
◼◼◼ |
n/a |
n/a |
Обучение малых моделей |
★★★ |
◼◼ |
★ |
◼◼◻ |
Инференс больших моделей (LLM >=70B) |
★★★ |
◼◼◼ |
☆ |
◼◻ |
Инференс средних моделей (LLM ~6B) |
★★★ |
◼◼◼ |
★ |
◼◼◼ |
Инференс малых моделей (LLM ~1,6B, ImageClassification, ObjectDetection,Speech2Text и т. д.) |
★★★ |
◼ |
★★ |
◼◼◻ |
Используемые обозначения:
◼◼◼/★★★ — самая высокая эффективность (три пункта) для задачи по заданной метрике.
◼◼◻/★★☆ — эффективность составляет 2,5 пункта (из трех) для задачи по заданной метрике.
n/a — результаты для задачи отсутствуют, так как набор используемых бенчмарков в силу ограничений реализации или особенностей компонент (например, недостаточный объем памяти) не позволяет проводить эксперименты на этой конфигурации.
В следующей статье расскажем о запуске различных моделей от deepseek-ai на платформах YADRO. Также мы планируем тестировать конфигурации с другими GPU на сервере G4208P G3. Подписывайтесь!
Комментарии (7)
alexhu
10.06.2025 11:36Если правильно понимаю масштабы, то от 110т. рублей за "попробовать" обучить модель и вдвое меньше за понимание, получается ли хоть что - то.
riv9231
10.06.2025 11:36Т.е. имя доступ к серверам с 8xH100 и 8x4090, вы решили протестировать модели размером 1,6B и 70B. Но ведь это можно запустить и на одной H100. Наверное, вам была не важна максимальная производительность этого железа. А можно было бы запустить и deepseek R1 вот это было бы интересно.
makart19 Автор
10.06.2025 11:36Как раз сейчас мы собираем материалы для следующей статьи по экспериментам с различными моделями от deepseek-ai на платформах YADRO.
StasTukalo
10.06.2025 11:36Позвольте три вопросика:
Почем такой сервер?
На какой платформе построена ваша "платформа"? Это супермикро? Модель матери в студию, пожалуйста. Обещанные 8 ТБ ддр5 говорят о том, что это что-то достаточно современное.
Присоединяюсь к недоумению по поводу убогости моделей, которые вы на таком железе "тестировали".
В задачах инференса и обучения ИИ-моделей она демонстрирует производительность на уровне аналогичных платформ мировых вендоров.
Слушайте, зачем вы так говорите?? Ни в коем случае не хочу обидеть сборщиков компов (любой законный бизнес - хорошо) - но вы и так взяли импортную мать для гпу-серверов, засунули ее в импортный корпус для гпу-серверов и воткнули импортных гпу - оно у вас и так является "платформой мировых вендоров" - а когда сборщик компов кичится крутостью собранного им компа так, будто он сам процессор на кремниевой подложке вырастил - ну это вызывает недоумение..
WASD1
10.06.2025 11:36Огромное спасибо за статью.
А какие модели максимум можно обучить на 8RTX4090 / H100?
Было бы интересно посмотреть что произойдёт с ростом модели (70B - влезет или нет?)
Darth_Anjan
Так, и почём же? А то в заголовке заинтересовали, а в статье не раскрыли...
yadro_team
Добрый день! На данный момент цену может обозначить отдел продаж, понимая заказчика и проект. В статье есть ссылка на страницу продукта, по кнопке «Свяжитесь с нами» можно задать свой вопрос.