Если в 1999-м вы апгрейдили ПК до GeForce 256 ради Quake III, вы инвестировали в будущее ИИ. Тогда никто не верил, что игровая карта с 32 МБ памяти станет прародителем ChatGPT. А сегодня ее «потомки» обучают нейросети, рендерят реалистичные миры и управляют суперкомпьютерами. Рассказываем, как NVIDIA за 25 лет увеличила производительность GPU в тысячи раз и превратила их в главный инструмент для машинного обучения, моделирования сложных процессов и анализа больших данных.

1999 год — GeForce 256

В этом году компания NVIDIA выпустила первый в мире графический процессор (GPU). На это обратили внимание только заядлые геймеры, так как новая видеокарта могла обеспечить достаточную производительность для всё более требовательных игр. Никто не знал, что выпуск GeForce 256 заложил основу для AI будущего.

В первом GPU было 23 млн транзисторов и 32 МБ памяти SDR. За 25 лет количество транзисторов увеличилось в 3300 раз, а объем памяти — в 768 000 раз
В первом GPU было 23 млн транзисторов и 32 МБ памяти SDR. За 25 лет количество транзисторов увеличилось в 3300 раз, а объем памяти — в 768 000 раз

Революционная видеокарта работала на архитектуре NV10. Механизмы трансформации и освещения, склейку треугольников и рендеринг впервые удалось объединить в одном чипе. До выхода GeForce 256 для этих задач использовали центральный процессор (CPU). Новые технологии, которые поддерживал GPU:

  • Аппаратное ускорение T&L (Transform and Lighting). Так называют первые два этапа отрисовки в 3D-графике: перемещение объектов на экране и изменение освещения. Эти процессы — одни из самых ресурсоемких в компьютерной графике. GPU взял на себя часть нагрузки CPU, что позволило разработчикам значительно увеличить детализацию игр.

Важность T&L сразу отметили в сообществе геймеров. В популярном онлайн-журнале Tom’s Hardware вышел обзор на GeForce 256: «GPU может снизить нагрузку на центральный процессор и предотвратить сбои в работе 3D-конвейера. Технология позволит разработчикам игр использовать гораздо больше полигонов, что приведет к значительному повышению детализации».

  • DirectX 7.0. Новая версия программного интерфейса API позволила проигрывать видео с разрешением 1280 × 720 и добиться плавной графики в играх.

  • Пиксельный шейдер. Так называют специальную программу, которая отвечает за обработку пикселей на экране: их цвет, текстуру и освещение. Технология позволила создавать реалистичные блики, тени, отражения и другие визуальные эффекты.

Из минусов — GeForce 256 была несовместима с предыдущими версиями DirectX. Это стало проблемой для игроков, которые хотели играть в старые игры на новой карте. А еще она потребляла много энергии и перегревалась.

Первой игрой, которая использовала функции GPU, стала Quake III Arena. После нее у пользователей сложились противоречивые мнения: от «ну и что» до «я видел свет». Но даже несмотря на очевидный недостаток (низкую пропускную способность памяти), GeForce 256 стал первым GPU, который превысил 1 млн продаж и вывел NVIDIA в лидеры на рынке.

Главное, что GeForce 256 оказалась не просто мощной графической картой для игр. Она нашла применение в других областях: мультимедиаприложениях и профессиональных программах для 3D-моделирования.

Цена на момент выпуска — 199 $.

Графические процессоры продолжили развиваться в следующих сериях GeForce. Их характеристики улучшались постепенно. Например, в GeForce 3-й серии появились новые технологии:

  • Vertex & Pixel Shader (nFiniteFX Engine) — обработка вершинных шейдеров. Вместе с пиксельными шейдерами технология позволила создавать сложные объекты и визуальные эффекты. Именно на GeForce 3-й серии началась разработка культовой Doom 3.

  • Multisampling Anti-Aliasing (MSAA) — новый метод сглаживания, который уменьшает эффект «лесенки» на краях объектов и позволяет создавать плавные границы.

К 2006 году NVIDIA выпустила видеокарты GeForce уже 7-й серии. Самая мощная из них — двухпроцессорная GeForce 7950 GX2 на архитектуре Curie, ее анонсировали как флагман для энтузиастов. Это одно из первых успешных двухчиповых решений до эпохи многоядерных GPU. Характеристики: техпроцесс — 90 нм, 512 МБ памяти GDDR3 на частоте 0,6 ГГц, 256-битный интерфейс и самая высокая пропускная способность — 38,40 ГБ/с. Цена на момент выпуска — 599–649 $.

2007–2011 годы — GeForce 8800 и Tesla 870

В 2007 году NVIDIA выпускает серию GeForce 8 — первых графических карт с унифицированной архитектурой. Отдельные процессоры для пиксельных и вершинных шейдеров заменили 128 процессоров общего назначения. GPU мог распределять нагрузку равномерно между ними, благодаря чему выросла производительность.

NVIDIA G80 GPU
NVIDIA G80 GPU

В основе GeForce 8800 — новейший чип G80 с 681 миллионом транзисторов и поддержкой DirectX 10. Но главный прорыв — появление GPGPU, технологии для вычислений, а не просто рендеринга графики.

Технология GPGPU стала основой для новой архитектуры от NVIDIA — CUDA (Compute Unified Device Architecture). Она позволила использовать GPU для сложных вычислительных задач, которые раньше выполнялись только на центральном процессоре. Архитектура повысила производительность компьютеров, ноутбуков, суперкомпьютеров и вычислительных станций. И NVIDIA, кроме игровых и профессиональных карт, начала выпускать серверные решения для каждого поколения чипов.

В 2006-м были выпущены первые карты семейства Tesla, специально предназначенного для CUDA-вычислений. Появились новые языки программирования, например OpenCL. Благодаря этому разработчики смогли использовать параллельную вычислительную мощность GPU для широкого спектра приложений — от научных симуляций до машинного обучения. 

Tesla строится на базе GPU G80, но, в отличие от обычных графических процессоров, не имеет средств вывода изображения на дисплей. Карты Tesla использовали чип от игровых карт серии 8800: в Tesla C870 он был один, в D870 — два, а в S870 — целых четыре. Серверы на их основе обладали высокой производительностью в ряде задач, поэтому быстро стали популярными для научных и технических вычислений.

Цена на момент выпуска. Флагманская GeForce 8800 GTX — 599 $. Tesla C870 — 1499 $.

С новым чипом G80 и серверными картами Tesla NVIDIA вышла на рынок высокопроизводительных вычислений (HPC). К 2011 году исследователи в области AI обнаружили, что параллельная архитектура GPU идеально подходит для задач глубокого обучения. Переломный момент произошел в 2012 году, когда Алекс Крижевский из Университета Торонто обучил нейронную сеть AlexNet классифицировать изображения. Она превзошла ПО, которое написали эксперты по зрению, и выиграла в конкурсе ImageNet.

Эта победа доказала эффективность глубоких нейронных сетей, обученных на графических процессорах. GPU позволили в 30 раз ускорить обработку информации по сравнению с обычными процессорами, что привело к быстрому прогрессу во многих областях ИИ.

2012–2017 годы — развитие серверных процессоров Tesla

Технология GPGPU продолжила развиваться в новых поколениях серверных процессоров Tesla. Рассмотрим архитектуры, которые выпускала NVIDIA в этот период:

Kepler (2012 год). Архитектура, специально созданная для HPC, с акцентом на энергоэффективность, программируемость и производительность. Ключевые технологии на примере GPU Tesla K80:

  • Hyper-Q. Функция позволяет нескольким ядрам CPU одновременно использовать ядра CUDA на одном GPU. Нагрузка на GPU значительно вырастает, уменьшается простой CPU и улучшается программируемость. В результате — улучшенная многозадачность для HPC.

  • GPU Boost. Технология отслеживает нагрузку на процессор и увеличивает тактовую частоту, когда необходимо. В результате GPU может «разогнаться», при этом не потребляя слишком много мощности и не нагреваясь выше максимально допустимой температуры. 

В результате GPU NVIDIA становятся всё популярнее в дата-центрах.

Maxwell (2014 год). Архитектуру анонсировали как преемника архитектуры Kepler. Maxwell продолжила работать на повышение энергоэффективности и производительности. GPU того года: Tesla M4 (чип GM206), Tesla М6 (GM204), Tesla M10 (4× GM107), Tesla M40 (1× GM200), Tesla M60 (2× GM204). Кстати, M10 — первый графический процессор, который появился у нас в mClouds

Ключевые технологии архитектуры Maxwell:

  • Кластер SMM из 4 блоков по 32 мультипроцессора. Пришел на смену потокового мультипроцессора SMX. Благодаря делению на блоки логика управления стала проще, а задачи по ядрам CUDA начали распределяться более эффективно.

  • Unified Memory. Технология, при которой видеопамять GPU объединяют с памятью CPU. Это позволило упростить доступ к данным и повысить эффективность работы. Особенно в приложениях, требующих высокой производительности: играх и HPC.

  • NVLink. Специальная высокоскоростная шина для передачи данных, которая использовалась в профессиональных картах. Нужна для соединения нескольких GPU между собой. Технология позволяет процессорам обмениваться данными с очень высокой скоростью для ускорения вычислений. 

В это время GPU начинают активно использовать в машинном обучении. 

Pascal (2016 год). Чипы Pascal использовали в картах GeForce 10-й серии и серверных GPU Tesla, например P100. Ключевые технологии:

  • HBM2. Технология 3D-памяти, где несколько чипов памяти скрепляется друг с другом, образуя единый блок. Это обеспечивает в три раза более высокую пропускную способность в сравнении с Maxwell. 

  • FP16. 16-битный формат ускорения обработки данных за счет уменьшения точности, но без серьезного ущерба для результата. Этот формат стали активно использовать для глубокого обучения нейросетей, где важна высокая скорость обработки больших объемов данных.

Благодаря инновациям Pascal NVIDIA начала доминировать в ИИ-инфраструктуре. В 2016 году генеральный директор NVIDIA Дженсен Хуанг подарил первый суперкомпьютер NVIDIA DGX-1 AI на базе P100 компании OpenAI, впоследствии именно его использовали для обучения ChatGPT.

Volta (2017 год). Первым GPU на базе архитектуры Volta стал Tesla V100. Ключевые технологии:

  • Тензорные ядра. Специальные модули, встроенные в GPU для ускорения обучения ИИ. 

  • NVLink 2.0. Скорость передачи данных между CPU и GPU или между несколькими GPU достигла 200 ГБ/с.

Архитектура Volta стала настоящим прорывом в сфере ИИ и оставалась золотым стандартом для глубокого обучения до 2020 года.

2018 год — Tesla T4

К 2018 году NVIDIA разработала архитектуру Turing. Для компьютеров ее реализовали в GPU GeForce 20, GeForce 16 и Quadro. Для центров обработки данных и систем искусственного интеллекта — в Tesla T4.

Nvidia Tesla T4
Nvidia Tesla T4

Особенности и обновления: 

  • Ray Tracing. Трассировка лучей, которую выполняют ядра RT. Благодаря технологии стало возможным перенести в игры работу света из реального мира и создать максимально реалистичные сцены.

  • DLSS (Deep Learning Super Sampling). Технология использует ИИ для улучшения качества изображения в играх. Она с помощью нейросетей восстанавливает картинку, сохраняя детали и резкость.

  • Новые тензорные ядра. Процессоры ускоряют тренировку и инференс глубоких нейронных сетей до 500 трлн тензорных операций в секунду. 

Цена на момент выпуска. GeForce 20 — 350 $, Tesla T4 — 3125 $.

В мае 2020 года компания NVIDIA отказалась от бренда Tesla, чтобы избежать путаницы с одноименной компанией — производителем электрокаров Tesla Илона Маска. Так Tesla Т4 превратился в NVIDIA Т4.

2020 год — A100 Tensore Core

Чип GA100 базируется на архитектуре Ampere. Она впервые использована на профессиональных GPU A100 и игровых RTX 3080. Чип специально разработан для работы с ИИ и HPC, а также для центров обработки данных. Он обеспечивает в 20 раз более высокую производительность, чем его предшественники, например тот же Tesla V100.

NVIDIA A100 Tensore Core
NVIDIA A100 Tensore Core

Особенности и обновления: 

  • Multi-Instance GPU (MIG). Технология позволяет разделить один физический GPU на несколько виртуальных. Каждый экземпляр получает свою долю памяти, вычислительных ядер и пропускной способности. Это позволяет одновременно обрабатывать несколько параллельных задач ИИ, а также экономит ресурсы и ускоряет работу за счет сокращения задержки.

  • 3-е поколение NVLink. Новая версия технологии увеличивает пропускную способность между GPU до 600 ГБ/с и ускоряет передачу данных в рамках интенсивных рабочих нагрузок.

  • 3-е поколение тензорных ядер. В 20 раз более высокая производительность по сравнению с предыдущим поколением. Новые форматы данных — TF32 и BF16, а также улучшенная поддержка FP64 для HPC.

Архитектура Ampere стала стандартом для суперкомпьютеров. Например, Selene с его 63 460 петафлопсами базируется на графических процессорах A100.

В то же время на архитектуре Ampere выходят и карты среднего звена для рабочих станций. Например, RTX A6000 с памятью 48 ГБ GDDR6 подходит для CAD и CAE, виртуального прототипирования продуктов, сложных проектных и вычислительных задач. А популярные до сих пор карты для виртуализации рабочих мест (VDI): A40 и A16 — активно используют в ЦОД. У нас A16 на сегодня основная видеокарта для работы с VDI, особенно в CAD-приложениях, таких как Revit.

Цена на момент выпуска. A100 —до 20 000 $. RTX A6000 — 4700 $.

2022–2023 годы — H100 и L40S

В 2022 году случился новый прорыв в области ИИ — вышел ChatGPT и за несколько месяцев получил миллионы пользователей. Для его обучения использовали тот самый суперкомпьютер NVIDIA DGX-1 на основе восьми P100 и V100 с общим объемом HBM2-памяти 128 ГБ — подарок Джейсена Хуанга.

Из-за гонки ИИ обновления GPU начинают выходить всё чаще. В 2022 году вышло сразу две архитектуры от NVIDIA: Hopper и Ada Lovelace. 

Hopper. Архитектура исключительно для серверных GPU. Первым GPU на Hopper стал H100, который используют для построения вычислительных кластеров HGX. Производительность подобной системы из восьми GPU H100 может достигать невероятных 480 терафлопс. Для сравнения: ускорители A100 на Ampere показывали в три раза меньше — 156 терафлопс.

NVIDIA H100 Tensor Core GPU
NVIDIA H100 Tensor Core GPU

Особенности и обновления H100: 

  • FP8. 8-битный формат обработки данных позволил ускорить обучение ИИ в шесть раз по сравнению с A100.

  • NVLink 4.0. 4-я версия технологии увеличивает пропускную способность между GPU до 900 ГБ/с и ускоряет передачу данных в рамках интенсивных рабочих нагрузок.

H100 стал основой для обучения и ответов ChatGPT, а также для других LLM. 

Цена на момент выпуска — 42 000 $.

Ada Lovelace. Архитектура лежит в основе серверных GPU L40, а также игровой GeForce RTX 4090. 

Ключевые технологии архитектуры:

  • DLSS 3. Технология, которая использует ИИ для генерации дополнительных кадров. Это позволяет повысить FPS в играх и улучшить плавность геймплея.

  • AV1 Encoding. Новый кодек с открытым исходным кодом, который обеспечивает более эффективное сжатие видео по сравнению с H.264 и HEVC. В результате получается лучшее потоковое видео.

Позже, во втором полугодии 2023 года, NVIDIA выпустила апдейт L40 — L40S. В новой версии добавилась поддержка FP8, vGPU. В результате инференс и обучение ИИ ускорились в два раза по сравнению с L40, а в рендеринге и графике прирост производительности составил около 20%.

Цена на момент выпуска. GeForce RTX 4090 — 1499 $. L40 — от 10 000 $.

Если сравнивать серверные H100 и L40S, то у первого максимальный объем видеопамяти на 32 ГБ больше, а технологический процесс тоньше на 25%. Однако H100 стоит дороже и избыточен для многих задач, связанных с ИИ. Его выбирают для экстремальных вычислений, где важен большой объем памяти: например, для обучения GPT. Если же вы работаете с инференсом, 3D-графикой или аналитикой и вам нужен баланс цена/производительность, то подойдет L40S. Это более гибкий вариант для рабочих станций и облаков: там не нужен большой объем памяти, но важна высокая производительность.

H100 PCIe

L40S

Архитектура

Hopper

Ada Lovelace

GPU

GH100

AD102

Тип

Для серверов

Для серверов

Объем памяти

80 ГБ

48 ГБ

Количество потоковых процессоров

7296

18176

Частота ядра / в режиме Boost

1065 МГц / 1650 МГц

1110 МГц / 2520 МГц

Транзисторы

80 млн

76,3 млн

Технологический процесс

4 нм

5 нм

Tensor Cores

456

568

Энергопотребление

350 Вт

300 Вт

Мы в mClouds в прошлом году запустили облачные серверы с GPU L4 и L40S. L4 — младшая модель линейки, ее рекомендуем для мультимедиа, легких ИИ-задач, стриминга — там, где достаточно 24 ГБ памяти. А L40S на 48 ГБ памяти наши клиенты используют в задачах, которые требуют больше мощности и памяти. Например, в обучении ИИ и интенсивных вычислениях, сложной 3D-графике и тяжелых аналитических приложениях. Если нужно увеличить ресурсы, видеокарты можно объединять.

2025 год — будущее NVIDIA

NVIDIA выпустила новое поколение графических процессоров на основе архитектуры Blackwell, и уже совсем скоро ждем чипы Rubin.

NVIDIA GB200 NVL72
NVIDIA GB200 NVL72

Blackwell. B100, B200 и суперкомпьютер GB200 предлагают новые возможности для работы больших языковых моделей: вывод LLM — в 30 раз быстрее H100, обучение LLM — в четыре раза быстрее, энергоэффективность — в 25 раз выше. 

  • NVLink 5-го поколения. Сверхбыстрые соединения между GPU позволяют объединить до 576 GPU и заставить их работать вместе как единый вычислительный блок. 

  • Трансформаторы 2-го поколения и тензорные ядра 5-го поколения. Ускоряют вычисления смешанной точности и обучение ИИ в четыре раза по сравнению с Hopper.

  • Улучшенная защита конфиденциальных данных — их можно прогонять через ИИ и не бояться утечек.

  • Ускоренная декомпрессия данных до 800 ГБ/с. Можно обрабатывать огромные объемы сжатых данных в форматах LZ4, Snappy и Deflate в несколько раз быстрее, чем раньше.

Подробнее об архитектуре Blackwell рассказали в статье «Улетная скорость параллельных вычислений».

Кроме суперчипов, NVIDIA продолжает выпускать GPU мидл-сегмента. Например, недавно вышел RTX PRO 6000 (как замена RTX 6000 Ada Generation). Внутри RTX PRO 6000 — 24 064 ядра CUDA, 96 ГБ видеопамяти стандарта GDDR7, поддержка коррекции ошибок (ECC) и теплопакет в 600 Вт.

NVIDIA RTX PRO 6000 Blackwell Server Edition
NVIDIA RTX PRO 6000 Blackwell Server Edition

Эта же архитектура используется в геймерской линейке GeForce. Принадлежащие к ней чипы GeForce 5070, GeForce 5080 и GeForce 5090 отличаются от предыдущего поколения на Ada Lovelace тем, что получили функции трассировки лучей и апскейлинга DLSS. В них реализована MFG — генерация при помощи нейросети нескольких кадров в промежутках между «настоящими» кадрами.

Если видеокарта GeForce 5090 с 32 ГБ памяти ориентирована на геймеров, то RTX PRO 6000 с ее 96 ГБ — на разработчиков, инженеров, ученых. Она служит отличной альтернативой в тех задачах, в которых не требуется внушительная производительность H100, а экономика важна. Стартовая цена — 8300 $.

Rubin. Архитектуру планируют внедрить в чип GPU R-100, который выйдет ориентировочно в середине 2025 года. Новинка должна в несколько раз ускорить обучение и генерацию ответов нейросетями и стать прорывом на AI-рынке:

  • Техпроцесс 3 нм. Чип станет меньше, чем предыдущее поколение с техпроцессом 5 нм.

  • Конструкция сетки 4х. Технология позволит добиться большей производительности при меньшем энергопотреблении.

  • HBM4. Пропускная способность памяти достигнет рекордных 3,6 Тбит/с — в два раза быстрее, чем у предыдущего поколения.

Из минусов только цена — эксперты ожидают от 50 000 $. А подробнее об архитектуре Rubin рассказали в нашей статье.

В планах NVIDIA на ближайшее будущее:

  • Первый суперкомпьютер с искусственным интеллектом для ИИ-инфраструктуры и ИИ-экосистемы.

  • Завод по производству продукции с технологиями ИИ, на котором будут использоваться чипы серии Blackwell GPU.

  • Производство высокопроизводительных настольных суперкомпьютеров DGX Spark и DGX Station вместе с Acer, Asus и Gigabyte.

Мы в mClouds продолжим следить за эволюцией графических процессоров, а о самом интересном расскажем в блоге — подписывайтесь, чтобы быть в курсе.

Следите за развитием графических процессоров? Пишите в комментариях, какие GPU стоят в ваших ПК и серверах ↓

Комментарии (2)


  1. VanMurder
    29.05.2025 13:12

    Цена на момент выпуска. A100 —199 000 $. RTX A6000 — 4700 $. 200к ? это не ошибка?


    1. mClouds_editor Автор
      29.05.2025 13:12

      Спасибо за внимательность! Действительно, до 200к стоила система NVIDIA DGX с несколькими A100. Сама же A100 в зависимости от конфигурации - до 20к $. Правки внесли в статью )