В третьей части обзора посмотрим на что способна Tesla V100 в работе с современными локальными моделями ИИ. Сравним ее с более современными серверными ускорителями и видеокартами по вычислительной мощности. Проверим какие модели ИИ она способна запустить в LM Studio и протестируем их.

Сравнение производительности Tesla V100 с современными серверными ускорителями и видеокартами

NVIDIA Tesla V100 стала первым массовым серверным ускорителем с интегрированными тензорными ядрами, что в 2017 году ознаменовало революцию в сфере обучения нейронных сетей. Данный ускоритель стал стандартом для индустрии и активно использовался при разработке прорывных моделей того времени, таких как GPT-2 (хотя финальная версия этой модели обучалась на TPU). Рост сложности моделей ИИ и объемов данных со временем требовал увеличения мощности и объема быстрой памяти, что напрямую стимулировало прогресс в разработке аппаратных ускорителей. Ниже приведена таблица для сравнения вычислительной мощности Tesla V100 с более современными серверными ускорителями и видеокартами NVIDIA.

Модель

Год

Пиковая вычислительная мощность в зависимости от формата представления чисел с плавающей запятой (Floating Point), TFLOPS

Объем памяти, Гб

FP64

FP32

TF32 Tensor

FP16/BF16 Tensor

FP8 Tensor

FP4 Tensor Dense

V100

2017

7.8

15.7

125

16/32

A100

2020

9.7

19.5

312

624

40/80

H100

2022

34

67

989

1979

3958

80/96

H200

2024

34

67

989

1979

3958

141

B200

2025

37

75

2200

4500

9000

9000

180/192

B300

2025

1.2

75

2200

4500

9000

15000

288

RTX 4070

2023

29

117

233

12

RTX 4080

2022

49

195

390

16

RTX 4090

2022

83

330

660

24

RTX 5070

2025

31

123

247

494

12

RTX 5080

2025

56

225

450

900

16

RTX 5090

2025

105

419

838

1676

32

Из-за отсутствия поддержки современных форматов (FP8/FP4), прямое сравнение по мощности с современными картами возможно лишь в форматах FP16 и FP32. Если взять наиболее универсальный формат данных для LLM - FP16, то более современные серверные ускорители существенно опережают Tesla V100 по вычислительной мощности, а ее главные конкуренты - видеокарты RTX 4070 и RTX 5070. Однако близкие показатели TFLOPS не всегда означают одинаковую скорость вычислений. Tesla V100 использует старые тензорные ядра 1-го поколения, в то время как RTX 4070 и RTX 5070 имеют гораздо более эффективные ядра 4-го и 5-го поколений. Они выполняют операции над матрицами значительно быстрее. Однако в задачах, ограниченных памятью, Tesla V100 выигрывает за счёт высокой пропускной способности HBM2 ~900 ГБ/с, тогда как у RTX 4070 пропускная способность GDDR6X ~504 ГБ/с, а у RTX 5070 ~672 ГБ/с.

Для оценки средней вычислительной мощности CUDA и тензорных ядер я запустил скрипт, написанный на Python с использованием библиотеки PyTorch, который измеряет производительность матричного умножения (GEMM).

Этот тест напрямую нагружает ядра GPU: в режиме FP32 работают CUDA-ядра, а в режиме FP16 - тензорные ядра.

Результат теста:

Реальная средняя вычислительная мощность Tesla V100 в форматах FP32 и FP16 несколько ниже пиковых значений из вышеприведенной таблицы - 15.7 и 125 TFLOPS.

LM Studio: запуск, тестирование и варианты использования локальных моделей ИИ

Запуск и тестирование локальных моделей ИИ

Для запуска LLM я использовал программу LM Studio. Список выбранных моделей приведен в таблице ниже:

Полное название модели

Издатель

Параметры, млрд

Тип квантования

Размер, Гб

Qwen3.6-35b-a3b

unsloth

35 для обучения, 3 активных

Q2_K_XL

13,11

Qwen3.6-35b-a3b-mtp

unsloth

35 для обучения, 3 активных

Q2_K_XL

13,37

Qwen3.6-35b-a3b

qwen

35 для обучения, 3 активных

Q4_K_M

20,55

GPT-OSS-20B

openai

20

MXFP4

11,28

Gemma-4-e4b

google

4 эффективных

Q8_0

8,4

Все представленные модели ИИ в формате GGUF. GGUF (GPT-Generated Unified Format) - это современный бинарный формат файлов для хранения и эффективного запуска больших языковых моделей (LLM) на центральных процессорах (CPU) и видеокартах (GPU). Он разработан специально для llama.cpp и совместим с Tesla V100.

В список я добавил две модели Qwen3.6-35b-a3b с одинаковым квантованием Q2_K_XL, но одна из них поддерживает спекулятивное декодирование MTP. MTP (Multi-Token Prediction) - это метод ускорения генерации текста языковыми моделями, позволяющий модели предсказывать сразу несколько следующих токенов за один проход, вместо одного. MTP позволяет генерировать текст в 1.5–2 раза быстрее без потери качества ответов. В LM Studio перед загрузкой модели MTP в память GPU нужно обязательно активировать опцию MTP Speculative Decoding в расширенных настройках.

Перед началом тестирования, привожу список основных компонентов и параметров своего ПК:

  • Материнская плата: ASRock A520M Phantom Gaming 4

  • Процессор: AMD Ryzen 7 5700GE

  • Оперативная память: 64 Гб (2x Patriot Viper Steel 32 Гб DDR4 3600 МГц)

  • Основной накопитель: SSD NVMe Kingston KC3000 1 Тб

  • Блок питания: FSP Vita GM 750 Вт

  • Операционная система: Windows 11 Pro

  • Драйвер NVIDIA: 553.74 (серверный grid драйвер от Google)

  • LM Studio: v.0.4.14 (Build 2), CUDA llama.cpp v.2.15, Vulkan llama.cpp v.2.15

Проверим скорость работы LLM. Каждой модели я отправил один и тот же запрос: "Напиши короткую фантастическую историю о приключениях путешественника во времени".

Настройки каждой модели - "по умолчанию", системный ptompt - отсутствует, режим размышлений - включен.

Результаты теста приведены в таблице ниже:

Полное название модели

Тип квантования

Размер, Гб

Скорость генерации, токены/сек.

Qwen3.6-35b-a3b

Q2_K_XL

13,11

38,24

Qwen3.6-35b-a3b-mtp

Q2_K_XL

13,2

77,35

Qwen3.6-35b-a3b

Q4_K_M

20,55

19,21

GPT-OSS-20B

MXFP4

11,28

109,11

Gemma-4-e4b

Q8_0

8,4

67,87

Самой быстрой моделью оказалась GPT-OSS-20B, а самой медленной - Qwen3.6-35b-a3b с квантованием Q4_K_M. Низкая скорость работы последней (19,21 т/с) обусловлена тем, что она не помещается целиком в быструю память GPU: часть слоев выгружается в более медленную оперативную память DDR4. Для сравнения: версия Qwen3.6 с квантованием Q2_K_XL, которая полностью поместилась в VRAM Tesla V100, работает вдвое быстрее (38,24 т/с), а модель с поддержкой MTP - в четыре раза быстрее (77,35 т/с). По моему мнению для большинства задач в работе с локальными LLM достаточно 35-40 токенов в секунду. В связи с этим стоит выбирать модели ИИ, которые полностью помещаются в память GPU. Далее я не буду использовать модель Qwen3.6-35b-a3b Q4_K_M из-за ее низкой скорости работы на моем ПК.

Так же стоит отметить, что модель Qwen3.6-35b-a3b-mtp работает нестабильно с движком CUDA llama.cpp v.2.15. С контекстным окном 15000 токенов модель занимает 15,5 Гб памяти GPU. Во время выполнения запроса в LM Studio иногда возникает резкий рост потребления памяти и модель полностью выгружается. В журнале LM Studio появляется ошибка - CUDA error: out of memory. Поэтому модель Qwen3.6-35b-a3b-mtp я запускал на движке Vulkan llama.cpp v.2.15. Разница в скорости генерации текста между CUDA и Vulkan для этой MTP-модели незаметна, при этом работа на Vulkan была стабильной.

Варианты использования локальных моделей ИИ

Рассмотрим наиболее интересные варианты использования локальных моделей ИИ, запускаемых в LM Studio.

Генерация кода в OpenCode

Проверим на что способны локальные LLM в генерации кода.

В LM Studio есть встроенный локальный сервер API, который позволяет другим приложениям и ИИ-агентам обращаться к запущенным моделям. Я использовал эту функцию для интеграции локальных моделей в OpenCode.

Для начала попробую создать небольшой одностраничный сайт для ведения личного блога. Тестовый запрос был идентичным для всех моделей.

Qwen3.6-35b-a3b:

Время генерации сайта - 3 минуты 40 секунд. Использованное количество токенов из контекстного окна - 14901.

Qwen3.6-35b-a3b-mtp:

Время генерации сайта - 2 минуты 10 секунд. Использованное количество токенов из контекстного окна - 20244.

GPT-OSS-20B:

Время генерации сайта - 1 минута 45 секунд. Использованное количество токенов из контекстного окна - 17539.

Gemma-4-e4b:

Время генерации сайта - 2 минуты 5 секунд. Использованное количество токенов из контекстного окна - 22456.

Заключение:

Все четыре модели успешно справились с поставленной задачей: корректно сгенерировали структуру сайта, вставили изображения из папки с проектом к заголовкам статей. Правильно вставили текст, соответствующий теме для каждой статьи. Наиболее интересный дизайн, на мой взгляд, получился у модели Qwen3.6-35b-a3b-mtp.

Далее я решил усложнить задачу и проверить смогут ли локальные LLM справиться с созданием небольшой 2D-игры. Каждой модели отправил одинаковый запрос: "Создай игру, аналогичную игре Flappy Birds. Игра должна открываться в веб-браузере и должна быть максимально приближена к оригиналу".

Qwen3.6-35b-a3b:

Время генерации игры - 7 минут 24 секунды. Использованное количество токенов из контекстного окна - 18677.

  • Графика: Высококачественная, максимально приближенная к оригиналу.

  • Элементы: Красивые облака на фоне, желтая птица в стиле оригинала, зеленые трубы с характерными "горловинами" сверху.

  • Интерфейс: Есть экран приветствия ("Flappy Bird", "Click or Press Space"), отображается текущий счет (Score: 1) и лучший результат (Best: 5), полноценный экран Game Over.

  • Геймплей: Птица успешно проходит между трубами, все элементы корректно отображаются. Сложность игры - средняя.

Qwen3.6-35b-a3b-mtp:

Время генерации игры - 2 минуты 5 секунд. Использованное количество токенов из контекстного окна - 19107.

  • Графика: Хорошая, но фон отличается от оригинала. Облака проработаны лучше, чем в предыдущем варианте. Некорректно выбран цвет земли (зеленый).

  • Элементы: Желтая птица и зеленые трубы выглядят аккуратно.

  • Интерфейс: Экран приветствия с текстом "Tap or press Space to play", отображается текущий счет и лучший результат. На экране Game Over изменяется фон в отличии от предыдущего результата.

  • Геймплей: Птица успешно проходит между трубами, все элементы корректно отображаются. Сложность игры - легкая, так как количество труб меньше, чем в предыдущем варианте.

GPT-OSS-20B:

Время генерации игры - 2 минуты 24 секунды. Использованное количество токенов из контекстного окна - 20015.

  • Графика: Базовая, минималистичная.

  • Элементы: Вместо птицы желтый круг без деталей, трубы - зеленые прямоугольники без горловин сверху.

  • Интерфейс: Экран "Click to Start", отображается текущий счет - Score: 0 и лучший результат - High: 1. На экране Game Over отображается только текущий счет, не указано как перезапустить игру.

  • Геймплей: Желтый круг успешно проходит между трубами, все элементы корректно отображаются. Сложность игры - легкая. Количество труб примерно такое же как в предыдущем варианте.

Gemma-4-e4b:

Время генерации игры - 1 минута 3 секунды. Использованное количество токенов из контекстного окна - 17333.

  • Графика: Простая, похожа на результат GPT-OSS-20B.

  • Элементы: Желтый круг вместо птицы, зеленые прямоугольники вместо труб.

  • Интерфейс: На стартовом экране нет информации как начать игру. Не отображается текущий счет во время игры. На экране Game Over не отображается лучший результат.

  • Геймплей: Часто встречаются трубы, которые накладываются друг на друга, или просто смыкаются. Худший геймплей среди всех вариантов.

Заключение:

Все модели создали рабочую версию игры Flappy Bird с основными элементами: птицей, трубами, счетчиком очков и экраном Game Over. Однако качество исполнения значительно различается. Обе модели Qwen-3.6-35b-a3b справилась отлично. GPT-OSS-20B удалось реализовать игру на базовом уровне. Gemma-4-e4b - справилась с задачей быстрее всех, но выдала худший с точки зрения геймплея результат.

Работа с документацией

В LM Studio можно прямо в чат приложить документ в формате docx и попросить модель ИИ проанализировать документ: найти ошибки, улучшить стиль текста или дополнить. Однако редактировать и создавать файлы в формате docx модель ИИ не сможет. Для того, чтобы с помощью LM Studio можно было сразу вносить изменения в файл docx нужно установить соответствующий плагин - word-tools. С помощью этого инструмента ИИ модели хорошо справляются с дополнением текста, рерайтом и исправлением ошибок прямо в файле docx.

В качестве примера я решил проверить насколько быстро локальные LLM справятся с генерацией краткого содержания первой части моего обзора Tesla V100. Полный текст статьи был сохранен в файле docx.

Результаты генерации краткого содержания статьи:

Qwen3.6-35b-a3b:

Статья описывает процесс модификации серверного ускорителя NVIDIA Tesla V100 16 GB (SXM2) для домашнего ПК путем установки в корпус от видеокарты RTX 4090. Автор приобрел карту и адаптер через Taobao, затратив около 15 000 рублей. Ключевые этапы работы:

  • Настройка BIOS: отключение CSM, включение Above 4G Decoding и выбор интегрированной графики для вывода изображения на монитор.

  • Установка драйверов: официальный драйвер NVIDIA работал только в режиме TCC (без игр), а серверный драйвер Google вызывал сбои. Стабильная работа достигнута с драйвером 553.74, требуются манипуляции с виртуальным экраном.

  • Физическая сборка: из-за крупных габаритов карты (3,5 кг) потребовались опорный кронштейн и райзеры для переноски других устройств в заблокированные слоты PCIe.

Особое внимание уделено модификации охлаждения. Стандартные кулеры не поддерживают автоматическую регулировку, поэтому вентиляторы были подключены к материнской плате через специальные переходники. Настройка Fan Control позволила добиться бесшумной работы в простое (~15%) и безопасных температур до 60°C при нагрузке.

Обзор является первой частью цикла. Во второй части запланированы тесты ускорителя в современных играх.

Время генерации - 3 минуты.

Qwen3.6-35b-a3b-mtp:

В статье описывается первая часть обзора серверного ускорителя NVIDIA Tesla V100 16 ГБ, установленного в корпус от видеокарты RTX 4090. Рассматриваются технические характеристики карты (архитектура Volta, 5120 CUDA-ядер) и процесс её покупки через китайский маркетплейс. Описываются трудности физической установки: большие габариты корпуса перекрывают слоты расширения материнской платы, что потребовало использования райзеров для подключения Wi-Fi адаптера и дополнительного накопителя, а также специальной опоры из-за веса конструкции. Указывается на отсутствие видеовыходов у серверной карты. Подробно разбирается настройка BIOS, в частности необходимость включения Above 4G Decoding для адресации памяти, и выбор основного устройства вывода изображения. Отмечаются проблемы с драйверами: официальное ПО от NVIDIA поддерживает только вычислительный режим TCC, а серверные версии от Google вызывают сбои системы; в итоге была успешно применена версия драйвера 553.74. В завершении рассказывается о модернизации охлаждения: подключении вентиляторов к материнской плате и настройке их оборотов через программное обеспечение Fan Control для баланса между шумом и температурой.

Время генерации - 51 секунда.

GPT-OSS-20B:

В статье описывается покупка, установка и настройка серверного ускорителя NVIDIA Tesla V100 16 Гб в корпусе RTX 4090. Автор подробно рассказывает о технических характеристиках карты (5120 CUDA‑ядер, 640 тензорных ядер, 16 ГБ HBM2), стоимости доставки и комплектации, а также об особенностях сборки: необходимость установки дополнительных райзеров, настройка BIOS (отключение CSM, включение Above 4G Decoding) и выбор видеокарты для вывода изображения. Далее рассматриваются драйверы – официальные NVIDIA‑драйверы работают только в режиме TCC, а Google‑драйверы поддерживают WDDM, но требуют отключения виртуального экрана. Охлаждение осуществляется через PWM‑переходники и программу Fan Control. Автор отмечает, что Tesla V100 не имеет видеовыходов, поэтому для игр используется интегрированная графика процессора.

Время генерации - 17 секунд.

Gemma-4-e4b:

Статья описывает процесс установки и настройки вычислительного ускорителя Tesla V100 (архитектура Volta, 16 ГБ HBM2) в ПК на базе материнской платы ASRock A520M с использованием адаптера SXM2 на PCI-e 3.0 и корпуса от RTX 4090. В обзоре освещаются технические детали, включая покупку ускорителя (стоимость около 15 000 руб.), сложности физической установки и необходимость использования райзеров. Подробно описаны шаги по настройке BIOS (отключение CSM, включение Above 4G Decoding) для корректной работы с большим объемом памяти. Также рассматриваются проблемы с драйверами — переход от официальных драйверов NVIDIA к серверным драйверам Google и решение вопроса охлаждения путем подключения кулеров Tesla V100 к материнской плате и настройки кривых оборотов через Fan Control.

Время генерации - 26 секунд.

Все модели успешно справились с генерацией краткого содержания статьи и сохранением в файл формата docx. Лучший результат с точки зрения качества текста, на мой взгляд, у модели Qwen3.6-35b-a3b: в кратком содержании отражены все основные моменты, а ключевые выделены в структурированный список. Самой быстрой оказалась - GPT-OSS-20B.

Итоговая таблица для сравнения времени генерации краткого содержания статьи локальными LLM:

Модель

Время генерации, с

Qwen3.6-35b-a3b

180

Qwen3.6-35b-a3b-mtp

51

GPT-OSS-20B

17

Gemma-4-e4b

26

Заключение

NVIDIA Tesla V100 представляет собой отличную и доступную платформу для экспериментов с локальными моделями ИИ. Ускоритель успешно запускает современные модели, демонстрируя производительность, достаточную для комфортной работы. Ключевым фактором производительности является возможность полной загрузки LLM в память GPU. При выгрузке части слоев модели в оперативную память ПК скорость значительно снижается, сильно затормаживая работу.

Вывод по итогам тестирования моделей ИИ в LM Studio:

  • Qwen3.6-35b-a3b Q2_K_XL (включая версию с поддержкой MTP): выдает наиболее качественный результат по сравнению с другими протестированными моделями. Лучше всех справилась со всеми задачами: генерация кода одностраничного сайта, создание игры Flappy Bird, рерайт статьи. Модель с поддержкой MTP обеспечивает высокую скорость работы.

  • GPT-OSS-20B: лидер по скорости генерации текста. В генерации кода и рерайте статьи качественно уступает модели Qwen3.6-35b-a3b, но превосходит Gemma-4.

  • Gemma-4-e4b: показала посредственный результат. При скорости работы сравнимой с Qwen3.6-35b-a3b-mtp качество итогового результата существенно уступает последней.

В итоге NVIDIA Tesla V100 показала себя универсальным решением. На момент выхода в 2017 году - это был мощный серверный ускоритель для дата-центров, сегодня - это отличное доступное решение для работы с нейросетями с возможностью комфортно играть в современные игры на высоких настройках графики.

На мой взгляд, покупать её стоит как вариант для апгрейда старого ПК или для универсальной недорогой сборки - "работай и играй". Современные видеокарты с 16 Гб памяти стоят дороже, а меньший объем VRAM будет недостаточен для запуска современных моделей ИИ. При этом 16 Гб - это минимальный порог. Для полной загрузки в память GPU модели Qwen3.6-35b в квантовании Q4 (которую я исключил из теста из-за низкой скорости работы) нужен объем VRAM минимум 24 Гб.

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 1 — Внешний вид, установка и настройка

Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 2 — тестирование в бенчмарках и играх

Комментарии (2)


  1. Timick
    25.05.2026 16:29

    Это старое железо на хабе антиквариат даёт прикурить любому новому.

    Гоняю v100s на cuda в fp64 раза в полтора только слабее h100. Чистая геометрическая математика, не ии, но какая разница под капотом ии тот же самый cuda.

    При этом в чистую уделывает 5090


    1. Yuiy78 Автор
      25.05.2026 16:29

      FP64 насколько я понимаю применяется в научных расчетах. NVIDIA в современных архитектурах сосредоточена на увеличении вычислительной мощности в FP4, FP8 и FP16, которые используются в современных нейросетях, при этом жертвуя производительностью в FP64.