Что такое Tensor Core GPU
NVIDIA Tensor Core GPU — стандарт де-факто для AI-вычислений благодаря архитектуре, спроектированной специально под операции, характерные для нейронных сетей.
Тензоры — основной тип данных в AI: это многомерные массивы весов. Для их обработки необходимо массовое матричное умножение, и именно его ускоряет специализированный аппаратный блок — Tensor Core. В отличие от классических CUDA-ядер, Tensor Core за один такт выполняет смешанно-точностное матричное умножение сразу над блоком чисел.
Впервые Tensor Core появились в Tesla V100 (Volta, 2017). Начиная с Ampere, NVIDIA отказалась от бренда «Tesla» в пользу названия «Tensor Core GPU», подчёркивая, что именно производительность тензорных ядер и объём высокоскоростной HBM-памяти определяют реальную стоимость владения AI-кластером.
В облаке Cloud4Y представлены все ключевые поколения этих карт: доступны в аренду серверные GPU для ЦОД (от V100 до B300) и карты для рабочих станций (RTX 4090, RTX A6000 Ada, RTX 5090). Разберёмся, чем они отличаются и какую из них арендовать под конкретную задачу.
Сводная таблица: все GPU Cloud4Y
Для серверных карт приведены характеристики SXM-модификаций (HGX/DGX). PCIe-версии имеют урезанные характеристики.
Краткий ориентир по строкам таблицы:
FP32, FP16, FP8 — вычислительная мощность на разных форматах точности. Чем больше — тем быстрее выполняются задачи. FP16 и FP8 — основные форматы для AI.
Память — сколько данных помещается «в карту». Определяет, модель какого размера можно запустить.
Проп. памяти — скорость подачи данных в вычислитель. Критична для инференса больших моделей.
NVLink — межкарточное соединение. Есть только у серверных GPU, позволяет объединять карты в кластер.
TDP — энергопотребление. Влияет на стоимость эксплуатации и требования к охлаждению.
V100 |
A100 |
H100 |
H200 |
B200 |
B300 |
RTX 4090 |
A6000 Ada |
RTX 5090 |
RTX 6000 Blackwell |
|
|---|---|---|---|---|---|---|---|---|---|---|
Архитектура |
Volta |
Ampere |
Hopper |
Hopper |
Blackwell |
Blackwell Ultra |
Ada Lovelace |
Ada Lovelace |
Blackwell |
Blackwell |
Год |
2017 |
2020 |
2022 |
2024 |
2025 |
2025 |
2022 |
2022 |
2025 |
2025 |
Сегмент |
ЦОД |
ЦОД |
ЦОД |
ЦОД |
ЦОД |
ЦОД |
Раб. станция |
Раб. станция |
Раб. станция |
Раб. станция |
FP64 |
7.8 TFLOPS |
9.7 TFLOPS |
34 TFLOPS |
34 TFLOPS |
37 TFLOPS |
1.2 TFLOPS |
— |
— |
— |
— |
FP32 |
15.7 TFLOPS |
19.5 TFLOPS |
67 TFLOPS |
67 TFLOPS |
75 TFLOPS |
75 TFLOPS |
82.6 TFLOPS |
91.1 TFLOPS |
104.8 TFLOPS |
125 TFLOPS |
TF32 Tensor |
— |
312 TFLOPS |
989 TFLOPS |
989 TFLOPS |
2.2 PFLOPS |
2.2 PFLOPS |
— |
— |
— |
— |
FP16/BF16 Tensor |
125 TFLOPS |
624 TFLOPS |
1979 TFLOPS |
1979 TFLOPS |
4.5 PFLOPS |
4.5 PFLOPS |
330 TFLOPS |
364 TFLOPS |
~420 TFLOPS |
4000 AI TOPS* |
FP8 Tensor |
— |
— |
3958 TFLOPS |
3958 TFLOPS |
9 PFLOPS |
9 PFLOPS |
660 TFLOPS |
728 TFLOPS |
~840 TFLOPS |
✓ |
FP4 Tensor (Dense) |
— |
— |
— |
— |
9 PFLOPS |
до 15 PFLOPS |
— |
— |
✓ |
✓ |
Память |
32 ГБ HBM2 |
80 ГБ HBM2e |
80 ГБ HBM3 |
141 ГБ HBM3e |
192 ГБ HBM3e |
288 ГБ HBM3e |
24 ГБ GDDR6X |
48 ГБ GDDR6 ECC |
32 ГБ GDDR7 |
96 ГБ GDDR7 ECC |
Проп. памяти |
900 ГБ/с |
2 ТБ/с |
3.35 ТБ/с |
4.8 ТБ/с |
до 8 ТБ/с |
до 8 ТБ/с |
1.01 ТБ/с |
960 ГБ/с |
1.79 ТБ/с |
1.8 ТБ/с |
NVLink |
300 ГБ/с |
600 ГБ/с |
900 ГБ/с |
900 ГБ/с |
1.8 ТБ/с |
1.8 ТБ/с |
— |
— |
— |
— |
TDP |
300 Вт |
400 Вт |
700 Вт |
700 Вт |
1000 Вт |
1400 Вт |
450 Вт |
300 Вт |
575 Вт |
600 Вт |
* NVIDIA приводит для RTX PRO 6000 Blackwell совокупный показатель AI-производительности (4000 AI TOPS), не разделяя на FP16/FP8 отдельно. Источники: Exxact Corp (A100, H100, H200, B200 — точные значения из таблицы); NVIDIA Technical Blog (B300 — 288 ГБ, 8 ТБ/с, до 15 PFLOPS FP4); NVIDIA Datasheets (V100 SXM2, H100 SXM5 — bandwidth 3.35 ТБ/с; H100/H200 FP16 = 1979, FP8 = 3958 TFLOPS — точные значения, Exxact округляет их до 2 и 4 PFLOPS); TechPowerUp GPU Database (RTX 4090, A6000 Ada); RunPod, Notebookcheck (RTX 5090); NVIDIA RTX PRO 6000 Blackwell Datasheet, Leadtek (RTX 6000 Blackwell — 125 TFLOPS FP32, 4000 AI TOPS, 96 ГБ GDDR7 ECC, 1.8 ТБ/с, 600 Вт).
Если смотреть на производительность, выраженную в количестве операций с плавающей точкой в секунду на заданной точности, видно: GPU поколения Blackwell жертвуют производительностью FP64 Tensor Core ради кратного ускорения в FP32 и ниже. B300 доводит эту логику до предела: его FP64 составляет всего 1.2 TFLOPS, зато FP4 — до 15 PFLOPS.
Обучение нейронных сетей не требует 64-битной точности для расчёта весов и параметров. Отказываясь от FP64 Tensor Core, NVIDIA высвобождает транзисторный бюджет в пользу форматов FP32, FP16, FP8/FP6 и FP4, которые используются в реальных AI-задачах.
Производительность B300 и B200 в TF32, FP16 и FP8 более чем вдвое превышает показатели предыдущего поколения H200. Кроме того, Blackwell получил новый Transformer Engine с поддержкой FP4. Эти форматы пониженной точности применяются не ко всему вычислению целиком, а в составе смешанной точности (Mixed Precision) — и выигрыш в производительности при таком подходе кратный.
Карты V100 и RTX-линейка (4090, A6000 Ada, 5090) не входят в оригинальное сравнение Exxact; мы добавили их, поскольку они представлены в парке Cloud4Y. V100 остаётся разумным выбором для задач, где достаточно 125 TFLOPS FP16 и 32 ГБ памяти. RTX-карты не имеют NVLink и используют GDDR-память, но выигрывают в соотношении цена/FP32 и подходят для рендера, Stable Diffusion и инференса. RTX 6000 Blackwell с 96 ГБ ECC-памяти занимает уникальную нишу между рабочими станциями и серверными GPU: это единственная несерверная карта, способная запустить 70B-модель в FP8 на одном ускорителе.
Нужно ли обновляться?
«Новее — значит лучше» в случае аппаратного обеспечения часто оправдано. Но переход на новейшую платформу Tensor Core GPU — стратегическое решение, которое зависит от вычислительных потребностей организации, типа нагрузки и планов по масштабированию. Новые архитектуры дают очевидный прирост, но реальная отдача появляется тогда, когда железо соответствует приоритетам нагрузки.
Разворачиваете новую AI-инфраструктуру → Blackwell
Платформы B300 и B200 обеспечивают существенный прирост и в обучении, и в инференсе по сравнению с Hopper. B300 располагает более чем втрое большим объёмом памяти относительно H100 (288 ГБ против 80 ГБ).
По проверенным данным о производительности B300 и B200, прирост составляет до 11–15× по пропускной способности LLM на одну карту по сравнению с Hopper. На многокарточных конфигурациях этот множитель масштабируется.
Архитектура Blackwell поддерживает режимы пониженной точности (FP8, FP4), которые значительно повышают эффективность крупномасштабного обучения и инференса.
Обновляете существующий парк H100 или H200 → гибридная стратегия
Рассмотрите гибридное распределение нагрузки: B300 или B200 — для критичных задач инференса, H200 — для фоновых ресурсоёмких задач.
Продолжайте обучение крупных моделей на H100 или H200 — они остаются сильны в FP64 и FP8 для HPC- и тренировочных нагрузок.
Используйте B200 или B300 для инференса и промышленной эксплуатации: именно здесь Blackwell обеспечивает наибольший выигрыш в пропускной способности и задержке.
NVIDIA продолжает развивать линейку, и переход на новое железо можно осуществлять постепенно. Крупномасштабные инфраструктуры требуют времени на развёртывание и окупаемость. Даже при выходе нового поколения предыдущее продолжает обеспечивать высокую производительность.
Тарифы
Итоговая стоимость может отличаться в зависимости от конфигурации CPU, RAM, NVMe, сетевого канала и сертификации.
GPU |
₽/час |
₽/мес. |
Типовой сценарий |
|---|---|---|---|
Tesla V100 32 ГБ |
147 |
68 814* |
Компьютерное зрение, OCR, классический ML, рендер |
Tesla A100 40 ГБ |
155 |
72 410* |
Дообучение и инференс моделей до 7B, MIG, классический ML |
Tesla H100 80 ГБ |
686 |
321 157* |
Обучение трансформеров, инференс 13–70B |
Tesla H200 141 ГБ |
686 |
321 157* |
Инференс LLM 70B+, длинные контексты |
Tesla B200 180 ГБ |
1 123 |
525 559* |
Флагманские модели, HPC + AI |
Tesla B300 288 ГБ |
1 116 |
803 306 |
Инференс 100B+ с FP4, большой KV-кэш |
RTX 4090 24 ГБ |
100 |
72 061* |
Stable Diffusion, инференс до 13B |
RTX 5090 24 ГБ |
83 |
75 667* |
Инференс FP4 до 24B, рендер, Stable Diffusion |
RTX A6000 Ada 48 ГБ |
105 |
81 967* |
Промышленный инференс 13–30B, ECC |
RTX 6000 Blackwell 96 ГБ |
137 |
98 364* |
Инференс 70B в FP8 на одной карте, 96 ГБ ECC |
* Цена указана с учётом скидки. Актуальный прайс и условия.
Метрика эффективности
Сравнивать GPU по цене в рублях за час бессмысленно — карта, которая в два раза дороже, может решать задачу в три раза быстрее. Корректный подход — считать стоимость результата.
Подход 1 — стоимость TFLOPS. Делим тариф на FP16-производительность. Чем меньше рублей за TFLOPS — тем выгоднее.
Подход 2 — стоимость миллиона токенов. Берём бенчмарк TensorRT-LLM на Llama-3 70B FP8, считаем токенов/час и делим на тариф. По этой метрике H200 выигрывает у H100 даже при +25 % к тарифу: 1.9× прирост снижает себестоимость токена на 30–40 %. B200 и B300 опережают H200 ещё в 2–3 раза.
Главный тезис: оценивайте GPU не по цене в час, а по цене за выполненную работу.
Почему аренда GPU в Cloud4Y выгоднее покупки
Для российского бизнеса покупка GPU-инфраструктуры в 2026 году — это не просто крупные капзатраты. Это логистика параллельного импорта, задержки на месяцы, сложности с гарантиями.
• Капзатраты → операционные. При аренде вы платите только за реально использованные часы.
• ЦОД в РФ и за рубежом. Москва, Новосибирск, Турция, Германия, Нидерланды.
• ФЗ-152, ФЗ-187, PCI DSS, CSA STAR. Сертификации, которых у зарубежных облаков под российское регулирование нет.
• Почасовая тарификация. Платите за часы под GPU, а не за простаивающую карту.
• Быстрая смена поколения. Переключение на новый тариф без закупки, монтажа и списания.
Заключение
Выбор GPU — не про «берём самое новое». Правильная формула: берём карту, у которой себестоимость единицы результата минимальна. Для моделей 70B+ — H200 или Blackwell. Для 13–30B — H100 или A6000 Ada. Для классического ML — V100 или A100. Для разработки и рендера — RTX 4090, 5090, A6000 Ada.
Cloud4Y даёт доступ ко всему диапазону: от V100 до B300, с почасовой оплатой и в рамках российского правового поля.
Подобрать конфигурацию: cloud4y.ru/cloud-hosting/gpu
Материал подготовлен на основе аналитики Exxact Corporation (ноябрь 2025) с расширением под полный парк GPU Cloud4Y. Данные по B300 уточнены по официальному техническому блогу NVIDIA (январь 2026).
Комментарии (3)

Tirarex
22.04.2026 15:08Tesla V100 32 ГБ
68 814 р/мес
На 10к дороже чем купить Tesla v100/32гб с али, сразу с охлаждением.
MaxAkaAltmer
Пишите, если кому доступ нужен - мне и полтоса хватит )))Хотя нет - сейчас лето на носу - жарко будет от них ))