
Еще несколько лет назад флагманские GPU встречались в двух сценариях — дорогостоящее обучение моделей с чистого листа или претрейнинг крупных архитектур. Под такие задачи строили целые кластеры: длинные эпохи, десятки миллиардов параметров, месяцы непрерывных расчетов. Даже для обучения относительно «легких» моделей требовались серверы с 4−8 топовыми GPU. А уже сегодня можно заказать сервер сразу с восемью GPU H200, да еще и в формате SXM.
Привет, Хабр! На связи Сергей Ковалёв, менеджер выделенных серверов в Selectel. В этой статье я расскажу, как индустрия оказалась в точке, когда нужны суммарные 1 128 ГБ видеопамяти и куда несется этот «локомотив». Под катом — все подробности.
Используйте навигацию, если не хотите читать весь текст
От обучения к инференсу — две эпохи ИИ
Период 2020−2023 годов можно назвать эпохой бума обучения. Спрос на топовые GPU стремительно рос, и самой популярной картой стала NVIDIA A100. Тем, у кого таких ресурсов не было, оставалось лишь надеяться на готовые сервисы: отправлять запросы к API и получать ответы.
Однажды все изменилось. Появились открытые модели (Open-weight LLM) — например, Qwen, Deepseek, LLaMA, Mistral, Falcon, GPT-NeoX, Gemma. Пришли мультимодальные архитектуры, работающие не только с текстом, но и с изображениями — такие как, LLaVA, InternLM-XComposer, Florence.
Открытые LLM изначально не знают специфический бизнес-контекст — они обучены на общедоступных данных. Чтобы модель приносила пользу, ее нужно адаптировать. Сделать это можно разными способами.
Самый простой подход — RAG (retrieval-augmented generation). В таком случае языковая модель перед генерацией ответа ищет релевантную информацию в заданном наборе данных и использует ее как контекст. Примером такого набора могут быть, например документы компании. Однако самый действенный прием — дообучение.
С появлением открытых моделей и ростом доступности вычислительных ресурсов каждый может взять уже готовую базовую модель и адаптировать для решения уникальной задачи. Все, что требуется, — организовать собственные данные и провести дообучение модели. Для этого разработаны специальные методы — например, fine-tune, LoRA или QLoRA.
В компаниях новый подход приветствовали еще по одной причине. Всю работу можно вести на собственной инфраструктуре — сохраняется полный контроль над данными, снижаются затраты, а вся логика поддается кастомизации.
Fine-tune (дословно «тонкая настройка» — самый ресурсоемкий метод, когда берется предварительно подготовленная на огромных массивах модель и дообучается на специфическом наборе данных. При этом обновляются все веса (параметры).
LoRA (Low-Rank Adaptation) — более эффективный способ. Миллиарды параметров не переопределяются, а замораживаются. При этом к некоторым слоям модели добавляются «адаптеры».
QLoRA (Quantized LoRA) — самый экономичный метод для систем с ограниченными ресурсами. Модель сжимается до четырехбитного формата, а затем применяется LoRA.
Не забываем, что можно еще и комбинировать различные модели в пайплайнах — например, объединить генерацию эмбеддингов, текста и мультимодальную обработка изображений.
Рынок перестроился радикально, и последние несколько лет можно назвать эпохой инференса. LLM стали рабочим инструментом для множества бизнес-задач. Все их не перечислить даже в целой статье:
чат-боты и ассистенты,
генераторы кода по описанию задачи на естественном языке,
интеллектуальный поиск по документам,
всевозможные мультимодальные сервисы…
При этом существенно сократилось время вывода новых продуктов на рынок.
Дообучение подвластно не только большим корпорациям. В процесс активно включились энтузиасты, которые работают с открытыми моделями и выкладывают результаты своей работы в свободный доступ на платформах вроде Hugging Face. Сегодня их насчитывается больше 150 тыс — и такая динамика ускоряет прогресс. ИИ становится доступнее, снижаются барьеры для входа, и с передовыми технологиями могут работать даже небольшие команды и отдельные разработчики.
У простоты дообучения есть и обратная сторона. Качество моделей в открытых хабах и репозиториях заранее неизвестно и во многих случаях оставляет желать лучшего. Зачастую нет никакой информации ни о точности, ни о данных, которые использовались для обучения. Непонятно, для каких задач модель действительно подходит.
В итоге компании, выбирая пример из публичного репозитория, сталкиваются с неопределенностью. Модель прекрасно работает на демонстрационных стендах, но не выполняет свои функции в реальности. Не забываем: в бизнес-кейсах важны предсказуемость, безопасность и надежность. По этим причинам, а также учитывая доступность вычислительной инфраструктуры, большинство компаний дообучают модели своими силами.
«Традиционное» обучение с чистого листа никуда не исчезло. Крупные корпорации продолжают инвестировать в новые поколения LLM, потому как исключительно pretraining на гигантских датасетах может обеспечить качественный скачок. Наглядные примеры — GPT-4 или Gemini, которые невозможно получить простым fine-tuning. Однако и ресурсы для подобных исследований нужны иные — тысячи GPU и уникальные данные, которые зачастую не купить ни за какие деньги..
Сформировалась новая экосистема. Взглянув со стороны видно, что в ней сосуществуют разные игроки: бигтех, государства, научное сообщество и энтузиасты. Вместе они формируют новый мир искусственного интеллекта, где у бизнеса есть возможность выбирать: использовать готовые модели, адаптировать их под свои задачи или строить собственные.
Эволюция флагманских GPU: от V100 до H100
С обстановкой в индустрии мы разобрались. Сегодня основными драйверами спроса на GPU остаются обучение и инференс моделей. Но как реагируют на вызовы производители самих видеокарт?
Львиная доля рынка принадлежит NVIDIA. Особенно это заметно в сегментах ЦОД и ИИ. По моей оценке даже монстры от AMD семейства MI250-350X пока близко не приближаются по распространенности и масштабам к NVIDIA. Главная причина — развитый стек CUDA, богатая экосистема библиотек cuDNN, TensorRT и NCCL, а также широкая поддержка во фреймворках PyTorch и TensorFlow.

Давайте вспомним, как все начиналось. За точку отсчета возьмем V100, которые вышли в свет в 2017 году и были первыми GPU от NVIDIA с тензорными ядрами. Именно их первыми стали массово внедрять в суперкомпьютерах и дата-центрах.
Но настоящей звездой стала A100, которая появилась в 2020 году. Удивляться этому не приходится.
Тензорные ядра 3‑го поколения с поддержкой ускорения для sparse-матриц.
Технология MIG (multi-Instance GPU) — возможность физически разделить один GPU на семь изолированных экземпляров для разных задач, что позволяло нескольким командам работать с одной видеокартой.
Большой (x6) прирост производительности в среднем по сравнению с V100, x20 — в отдельных ML-задачах.

Эта видеокарта — одна из самых успешных GPU для ЦОД в истории производителя. Официальные данные по продажам не публикуются, однако по экспертным оценкам A100 было продано в несколько раз больше, чем предыдущих V100. Косвенно это подтверждает и собственный опыт нашей компании на рынке аренды выделенных серверов с GPU.
Наступил 2022 год. Архитектура Ampere сменилась на Hopper. Вышла NVIDIA H100, на борту которой:
тензорные ядра 4‑го поколения;
нативная поддержка формата FP8, что дало до x2 ускорения обучения и инференса по сравнению с A100;
улучшенные алгоритмы планирования вычислений и коммуникаций между GPU.
Технические характеристики флагманских GPU NVIDIA:
Модель |
V100 |
A100 |
H100 |
Количество ядер CUDA |
5 120 |
6 912 |
14 592 |
Количество ядер Tensor |
640 |
432 |
456 |
Объем памяти, ГБ |
16 или 32 |
40 или 80 |
80 или 96 |
Тип памяти |
HBM2 |
HBM2e |
HBM2e |
Примерная пропускная способность памяти, ТБ/с |
0,9−1,1 |
1,56−2,0 |
3,0−4,0 |
Доступные форм-факторы |
PCIe, SXM2 |
PCIe, SXM4 |
PCIe, SXM5 |
Для обучение (training) критично сочетание всех параметров — количества CUDA- и Tensor-ядер, объем HBM, а также пропускной способность памяти и таких видов соединений, как NVLink и NVSwitch. Именно так получится без потерь запускать процесс обучения на десятках и сотнях GPU.
Для инференса на первый план выходит объем и скорость видеопамяти. Эти свойства определяют, сколько токенов и насколько длинный контекст сможет обрабатывать модель. Именно по этой причине рост HBM в A100 и H100 напрямую отразился на ускорении инференса LLM.
Есть и еще одна значимая характеристика — форм‑фактор.
PCI — подключение через универсальный слот на материнской плате. Преимущества — совместимость с большим числом серверов, возможность объединения NVLink мостами по два или четыре модуля.
SXM — видеокарта припаивается прямо на специализированную материнскую плату HGX или DGX. Внешне она выглядит как обычная, но «квадратная» и без привычного разъема PCIe. Модули объединяются через NVSwitch в «полносвязную» сеть между всеми GPU в сервере. Достигается максимальная пропускная способность — скорость взаимодействия значительно выше, чем у PCI.
Все три флагманские модели, о которых мы рассказали, очень популярны у наших клиентов, которые арендуют выделенные серверы. В основном пользуются спросом PCI‑версии — они дают максимальную гибкость при конфигурировании машины. Часто запрашивают и системы с 1−8 GPU, попарно объединенные мостами NVLink.
NVIDIA H200 в Selectel
В конце 2023 года NVIDIA официально представила видеокарту H200 — логическое развитие архитектуры Hopper, на которой построена H100. Однако, как и в предыдущем случае, анонс не означал мгновенного появления на рынке. Реальные поставки начались только во второй половине 2024 года, а массовая доступность появилась ближе к концу.

Главное новшество H200 — значительный рост пропускной способности и объема памяти благодаря переходу на технологию HBM3e. Как мы уже отмечали, эти характеристики критически важны для задач обучения и инференса — ведь именно память часто становится узким местом.
Сравним H100 и H200. Ключевые особенности — в таблице:
Модель |
H100 |
H200 |
Количество ядер CUDA |
14 592 |
16 896 |
Количество ядер Tensor |
456 |
528 |
Объем памяти, ГБ |
80 или 96 |
141 |
Тип памяти |
HBM2e |
HBM3e |
Примерная пропускная способность памяти, ТБ/с |
3,0−4,0 |
4,8 |
Доступные форм-факторы |
PCIe, SXM5 |
PCIe, SXM5 |
Видно, что объем видеопамяти возрос более чем на 45%, а пропускная способность — примерно на четверть. Соответственно, повысилась и эффективность при решении задач обучения и инференса.

Сервер HGX 8×H200 SXM подготавливается к монтажу в стойку.
Мы предлагаем GPU NVIDIA H200 в двух вариантах:
в форм-факторе PCIe — когда важна прежде всего гибкость конфигураций;
в составе серверов HGX 8×H200 SXM — для максимальной производительности и плотности вычислений.

Суммарные характеристики сервера впечатляют.
Более 1,12 ТБ самой быстрой видеопамяти HBM3e.
96 ядер процессоров Intel Xeon Platinum 5‑го поколения.
2 ТБ RAM DDR5 с коррекцией ошибок и регистром.
Быстрые NVMe‑диски с внушительным объемом, который можно дополнительно увеличить.
Шесть или восемь блоков питания 3 кВт.

Суммарно каждый такой сервер потребляет до 15 кВт электроэнергии. В наших дата‑центрах они размещаются в специальных стойках с усиленным электропитанием и воздушным охлаждением, что гарантирует стабильную работу даже при максимальной нагрузке.
Особенности инференса на флагманских моделях
Прежде чем уловить все особенности инференса, стоит осознать масштаб современного ИИ. Например, чистое обучение типичной языковой модели на 20−30 млрд параметров требует серьезной инфраструктуры.
Например, кластер из 20 серверов NVIDIA HGX 8×H200 SXM (всего 160 GPU) справится с такой задачей примерно за 2,5−3 месяца при использовании FP8, 3D-параллелизма и триллионов токенов данных. Даже для корпораций задействование такой мощи выглядит как стратегический проект, а не повседневная операция.
А вот инференс — наоборот, ежедневная реальность бизнеса: чат-боты, анализ документов, генерация отчетов, персонализация. В отличие от тяжеловесного обучения, ему требуется на порядок меньше ресурсов.
Рассмотрим для примера модель Qwen3-32B — современную LLM с 32 млрд параметрами, которая относится к классу высокоточных моделей среднего уровня. Для оценки воспользуемся калькулятором, при этом примем FP16, batch size = 1. Результаты могут быть модельными и отличаться в реальной жизни, но наша задача сейчас — простое сравнение производительности GPU.
Результаты для одного пользователя
1 x H200 обеспечивает до 30 000 токенов на вход, со скоростью генерации 63 токена в секунду.
8 x H200 принимает до 128 000 токенов на вход (максимум, что может переварить Qwen3-32B), скорость генерации — 488 токенов в секунду, то есть можно запустить целых две с половиной Qwen‑32B на максимальной мощности.
Если увеличить число пользователей до 16:
1 x H200 — до 7 000 токенов на вход, скорость генерации — 63 токена в секунду;
8 x H200 — до 90 000 токенов на вход, скорость генерации 439 токенов в секунду.
Поддержка длинных контекстов до 128 000 токенов позволяет обрабатывать юридические документы целиком, технические спецификации, финансовые отчеты и большие объемы клиентских данных.
При этом модель может обслуживать до 16 сотрудников одновременно, выдавая ответы со скоростью до 488 токенов в секунду — отличный показатель инференса для production-нагрузок корпоративного уровня.
Не всегда бизнесу нужна именно флагманская видеокарта. Если сценарий применения — чат-бот для клиентской поддержки или анализ текстов с короткими запросами в 100−500 токенов, а также умеренной нагрузкой по числу пользователей, то даже одной H200 будет избыточно как по мощности, так и по стоимости аренды.
Вот мы и подошли к ответу на вопрос в заголовке: почему в золотую лихорадку непросто продавать лопаты?
Дело в том, что такая «лопата» в виде флагманских моделей закрывает лишь часть спроса на инфраструктуру для инференса больших LLM. Важно подбирать оптимальный GPU под конкретный сценарий.
Закономерно возникает следующий вопрос: «Что же делать, чтобы получить и достаточную производительность и не перерасходовать бюджет проекта?» Краткий ответ — использовать младшие линейки GPU. Рассмотрим их характеристики на примере видеокарт, доступных к заказу в Selectel:
Модель |
RTX PRO 6000 |
RTX 4090 |
RTX A5000 |
L4 |
A2 |
A2000 |
Количество ядер CUDA |
24 064 |
16 384 |
8 192 |
7 424 |
1 280 |
3 328 |
Объем памяти, ГБ |
96 |
24 |
24 |
24 |
16 |
6 |
Тип памяти |
GDDR7 |
GDDR6X |
GDDR6 |
GDDR6 |
GDDR6 |
GDDR6 |
Примерная пропускная способность памяти, ТБ/с |
1,6 |
1,0 |
0,77 |
0,3 |
0,2 |
0,3 |
Модель |
Qwen3-32B |
Qwen3-8B |
Qwen3-8B |
Qwen3-8B |
Qwen3-4B |
Qwen3-1.7B |
Число токенов |
10 000 |
8 000 |
8 000 |
8 000 |
11 000 |
3 000 |
Скорость генерации для одного пользователя, токен/с |
51 |
67 |
47 |
— |
12 |
— |
Таблица выше наглядно показывает, что ключевые факторы производительности при инференсе:
объем видеопамяти (VRAM) — напрямую задает, какую по размеру модель можно запустить;
пропускная способность памяти — влияет на скорость генерации токенов;
архитектура и число CUDA-ядер — определяют общую вычислительную мощность.
Даже на самых базовых GPU, например NVIDIA А2, возможен инференс моделей с небольшим количеством весов и коротким контекстом.
Для обучения и инференса крупных моделей от 30 млрд параметров аренда серверов на NVIDIA H200 остается оптимальным решением: 141 ГБ HBM3e памяти и 4,8 ТБ/с пропускной способности.
Однако если бизнес работает с компактными моделями, до 8 млрд параметров, то можно попробовать младшие линейки GPU — например, NVIDIA L4 или RTX PRO 6000.
Такой подход позволяет:
сократить стоимость аренды и обслуживания,
масштабировать инфраструктуру по мере роста нагрузки,
сбалансировать производительность и экономику проекта.
Правильная комбинация «тяжелых» и «легких» GPU для инференса и дообучения моделей позволяет выстроить оптимальную сбалансированную IaaS-архитектуру.
Что ждет нас дальше
После выхода NVIDIA H200 индустрия GPU продолжает развиваться. Следующим шагом стало появление новых флагманов — NVIDIA B200 и RTX600 Pro 96Gb, которые построены на архитектуре Blackwell и закручивает очередной виток производительности.
Как и ожидалось, B200 принесет:
увеличение числа CUDA‑ и Tensor-ядер;
прибавление объема видеопамяти до 180 ГБ;
переход на новейшую HBM4;
почти двукратный рост пропускной способности памяти — до 8 ТБ/с;
обновленные интерфейсы NVLink и SXM — связь между GPU станет еще быстрее.
Мощности B200 хватит для любых экстремальных нагрузок: от обучения многомиллиардных моделей до молниеносного инференса в продакшене.
NVIDIA обозначила интересный тренд — отказ от полностью универсальных GPU в пользу узкоспециализированных чипов, которые оптимизированы под конкретные этапы работы LLM. Именно архитектуры языковых моделей определяют особенности, где два ключевых этапа — Prefill и Decode — нагружают систему по-разному.
Prefill (анализ и подготовка запроса) требует высокой вычислительной мощности, но сравнительно мало памяти — пока ядра GPU заняты вычислениями, она часто простаивает.
Decode (генерация ответа), напротив, интенсивно наполняет память, но требует меньше арифметических операций — в этот момент простаивают вычислительные блоки.
Такое чередование обрекает универсальные видеокарты на неэффективное использованию ресурсов. Чтобы решить эту проблему, инженеры NVIDIA представили новую архитектурную концепцию — два типа специализированных ускорителей, каждый из которых оптимизирован под свою задачу.
Rubin CPX (для Prefill) фокусируется на вычислительную мощность — память 128 ГБ GDDR7, пропускная способность до 2 ТБ/с.
R200 / VR200 (для Decode) нацеливается на пропускную способность до 20,5 ТБ/с, а объем памяти достигает 288 ГБ HBM4.
Зачем использовать универсальные чипы, если есть специализированные? Они эффективнее и экономичнее — ведь, каждая модель создана для своей задачи и работает с максимальной отдачей.
Для бизнеса, который арендует мощности, открывается новая возможность — строить по-настоящему рентабельные AI-сервисы. Можно гибко подбирать инфраструктуру под конкретный тип нагрузки — обучение, fine-tuning, инференс — и оптимизировать затраты, что особенно важно при повсеместном внедрении инференса. Тем интереснее будет решать задачи в мире искусственного интеллекта.
Рынок AI-чипов меняется стремительно. Оставайтесь на связи, будем и дальше рассказывать о трендах инфраструктурных технологий!