Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса / forpes.ru

Главная
Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса +25

18.06.2025 08:00

dmitrifriend 34 7900 Источник

Мечтаете запустить нейросеть на компьютере и анализировать целые книги или сложные документы? Тогда объём VRAM и поддержка длинных контекстов — ваши главные приоритеты.

С появлением RTX 5060 Ti 16GB открылась интригующая возможность — собрать систему с двумя такими картами за 950 $, получив целых 32 ГБ VRAM! Но как этот дуал покажет себя против проверенной временем б/у RTX 3090 (~900 $), с её внушительными 24 ГБ и легендарной пропускной способностью?

Я провёл тесты на реальных моделях (Qwen3 30B/32B), чтобы выяснить, какую видеокарту выбрать для нейросети в 2025 году, если ваша цель — запустить LLM на компьютере с максимальной отдачей, особенно для длинных контекстов.

Мир локального инференса больших языковых моделей (LLM) стремительно меняется. Для нас, энтузиастов, которые любят собирать и настраивать свои собственные системы, поиск идеального баланса между видеопамятью (VRAM), производительностью и ценой — это настоящий вызов, который никогда не теряет актуальности. С появлением таких карт, как NVIDIA RTX 5060 Ti с 16 ГБ памяти, открываются новые горизонты.

Особенно меня заинтриговала возможность конфигурации с двумя картами RTX 5060 Ti 16GB. Как она покажет себя в сравнении с одним из ветеранов рынка подержанных видеокарт — могучей RTX 3090? Особенно оглядываясь на то, что мы стремимся сэкономить, но всё же предпочитаем значительный объём видеопамяти. Я решил проверить на практике, и вот что мне удалось выяснить.

Сравнение характеристик и цен

К июню 2025 года рынок предлагает немало интересных вариантов. Подержанную RTX 3090 с внушительными 24 ГБ видеопамяти можно приобрести за 850–900 $. С другой стороны, покупка двух новых RTX 5060 Ti 16GB обойдётся примерно в 950 $. RTX 5060 Ti оснащена 16 ГБ памяти GDDR7, 4608 ядрами CUDA, пропускной способностью 448 ГБ/с и энергопотреблением 180 Вт, а также использует интерфейс PCIe 5.0 x8. Такая конфигурация позволяет уложиться менее чем в тысячу долларов за систему на базе двух видеокарт.

Сравним основные характеристики:

Характеристика	Одна RTX 3090 (подержанная)	Две RTX 5060 Ti 16GB (гипотетически)
Конфигурация GPU	1 × NVIDIA RTX 3090	2 × NVIDIA RTX 5060 Ti
Общий объём VRAM	24 ГБайт GDDR6X	32 ГБайт (16 ГБайт на карту) GDDR7
Пропускная способность памяти	936 ГБайт/с	448 ГБайт/s
Общее количество ядер CUDA	10 496	4608
Суммарный TDP	~350 Вт	~360 Вт (180 Вт на карту)
Интерфейс	PCIe 4.0 × 16	PCIe 5.0 × 8
Ориентировочная стоимость, всего	850–900 $ (подержанная)	950 $ (новые)

Первое, что бросается в глаза, — это преимущество в видеопамяти у связки из двух RTX 5060 Ti: целых 32 ГБ. Однако RTX 3090 отвечает более чем двукратным преимуществом в пропускной способности памяти на одной карте. Такое соотношение предвещает интересный компромисс производительности.

Сборная система для тестирования и методология

Чтобы разобраться в этом вопросе, я провёл серию тестов на системе под управлением Ubuntu 22.04 LTS с драйвером Nvidia версии 575.57.08. Для выполнения ИИ‑генераций я использовал сервер llama.cpp с интерфейсом OpenWebUI. Основное внимание было уделено двум динамическим моделям Unsloth, с 4-битной квантизацией в формате GGUF:

Qwen3–30B‑A3B-128K‑UD‑Q4_K_XL: многоэкспертная нейросеть, которая обычно менее требовательна к пропускной способности памяти, несмотря на свой размер.
Qwen3–32B‑UD‑Q4_K_XL: плотная модель, которая, как правило, гораздо интенсивнее нагружает память при генерации токенов.

Моя цель заключалась в замере скорости обработки запросов (токены в секунду), а ещё важнее — скорости генерации токенов при различных длинах контекста.

Локальные модели хороши для экспериментов, но доступ к мощным облачным нейросетям вроде Gemini 2.5 Pro, ChatGPT o3, Claude 4 или Midjourney по‑прежнему часто необходим. А возиться с VPN и десятком подписок — неудобно. На BotHub все топовые нейросети доступны в едином интерфейсе и с оплатой только за использование (pay as you go). Регистрируйся по реферальной ссылке и получи 100 000 токенов для теста любых моделей!

RTX 5060 Ti — недостающее звено между бюджетом и VRAM?

Главное преимущество тандема из двух RTX 5060 Ti — это его внушительный объём видеопамяти в 32 ГБ. Он не только позволяет загружать более крупные модели, но и увеличивает длину контекста, а также допускает более высокую точность квантизации.

Например, при наличии 32 ГБ памяти модель Qwen с 30 млрд параметров, такая как Qwen3 30B A3B, может работать с квантизацией в 6 бит (потребуется около 25 ГБ памяти для хранения весов), оставляя достаточно ресурсов для контекста. Для сравнения, RTX 3090 с 24 ГБ в подобных условиях столкнётся с трудностями, вероятно ограничившись квантизацией в 5 бит (примерно 21 ГБ для весов), что оставляет меньше места для длинных контекстов.

В моих тестах с моделями, квантизированными до 4 бит, конфигурация с двумя RTX 5060 Ti 16GB продемонстрировала отличную способность обрабатывать длинные контексты. Например, с моделью Qwen3 30B A3B мне удалось достичь максимального размера контекста, равного примерно 44 000 токенов, и при этом получить приемлемый ответ.

Вот краткий обзор производительности...

Производительность двух RTX 5060 Ti 16GB (llama.cpp, Ubuntu 22.04 LTS, OpenWebUI)

Модель	Длина контекста (токены)	Длительность обработки промта перед началом вывода (с)	Скорость обработки промта перед началом вывода (токены/с)	Скорость вывода ответа (токены/с)
Qwen3 30B A3B
	~1 600	1,15	1422,67	80,83
	~14 000	17,74	797,23	44,94
	~32 000	70,19	459,63	26,04
	~44 000	124,38	357,51	20,94
Qwen3 32B
	~1 600	2,56	642,11	17,88
	~10 000	28,81	378,24	13,15
	~12 000	34,30	358,44	12,89
	~14 000	46,30	320,04	12,56
	~18 000	62,84	288,98	12,39

Скорости генерации токенов вполне достойные, особенно если учитывать ценовую категорию и предложенный объём видеопамяти. Возможность работать с 44-тысячным контекстом на многоэкспертной модели с 30 млрд параметров — это большое достижение для задач, требующих глубокого анализа больших документов.

RTX 3090 с 24 ГБ памяти

RTX 3090 остаётся замечательным выбором даже в качестве подержанного устройства. Её главное преимущество — это невероятная пропускная способность видеопамяти в 936 ГБ/с, которая напрямую влияет на скорость передачи данных к ядрам GPU во время генерации токенов. Данная характеристика особенно важна для обеспечения отзывчивости языка модели в реальном времени. Хотя объём её видеопамяти, 24 ГБ, ниже, чем у двух RTX 5060 Ti, его всё же достаточно для многих крупных моделей, особенно с квантизацией до 4 бит.

В ходе моих тестов RTX 3090 смогла обработать максимум 32 000 токенов на модели Qwen3 30B A3B, что является внушительным показателем, хотя и уступает 44 000 токенов у двойной 5060 Ti.

Вот показатели, которые удалось зафиксировать...

Производительность RTX 3090 (llama.cpp, Ubuntu 22.04 LTS, OpenWebUI)

Модель	Длина контекста (токены)	Длительность обработки промта перед началом вывода (с)	Скорость обработки промта перед началом вывода (токены/с)	Скорость вывода ответа (токены/с)
Qwen3 30B A3B
	~1 600	0,90	1818,64	104,52
	~14 000	11,64	1214,24	58,64
	~32 000	46,52	692,22	28,01
Qwen3–32B
	~1 600	1,62	1012,93	30,75
	~10 000	16,88	645,58	24,52

Как и ожидалось, RTX 3090 показывает свою мощь благодаря высокой пропускной способности памяти, особенно в задачах с плотной моделью Qwen3 32B, где скорость генерации токенов заметно выше.

Лицом к лицу: анализ производительности

Сравнение двух конфигураций чётко показывает компромисс: RTX 3090 неизменно быстрее, если говорить о сырой скорости генерации токенов. При использовании плотной модели Qwen3–32B‑UD‑Q4_K_XL RTX 3090 опережала пару RTX 5060 Ti примерно на 70–85% по скорости генерации токенов при всех протестированных длинах контекста.

Например, на контексте из ~1600 токенов RTX 3090 выдавала 30,75 токена в секунду, тогда как пара 5060 Ti обеспечивала лишь 17,88 токена в секунду. Этот разрыв в скорости ощутим, если ваши рабочие задачи связаны с моделями, интенсивно нагружающими пропускную способность памяти.

Однако ситуация становится менее однозначной, когда речь заходит о многоэкспертной модели, Qwen3 30B A3B. Здесь разница в скорости генерации токенов оказалась менее значительной — RTX 3090 была быстрее примерно на 29–30% на средних длинах контекста (например, 1600 и 14 000 токенов). Это объясняется характеристиками многоэкспертных моделей, которые не задействуют все свои параметры при генерации каждого токена, что снижает нагрузку на пропускную способность памяти по сравнению с плотными моделями.

Меня действительно удивила производительность при обработке очень длинных окон контекста в многоэкспертной модели. На контексте из 32 000 токенов с Qwen3 30B A3B связка из двух RTX 5060 Ti 16GB отставала от RTX 3090 всего на 7% по скорости генерации токенов (26,04 т/с против 28,01 т/с).

Результат впечатляет, учитывая, что пропускная способность памяти одной RTX 3090 почти вдвое выше, чем у одной RTX 5060 Ti. Он может свидетельствовать о том, что при экстрадлинных контекстах начинают играть роль другие факторы; либо llama.cpp эффективно распределяет память между видеокартами, сглаживая различия, когда её объём достаточен.

Разумеется, связка RTX 5060 Ti предоставляет больше видеопамяти (32 против 24 ГБ), что позволяет ей справляться с контекстом длиной 44 000 токенов на модели Qwen3 30B A3B. В то время как RTX 3090 в моих тестах остановилась на 32 000 токенов. Эта дополнительная ёмкость становится ключевым преимуществом, если ваша работа связана с необходимостью обработки чрезвычайно длинных запросов или документов.

ExLlamaV3 + TabbyAPI

Завершив изначальные тесты с llama.cpp, я решил повторно проверить обе конфигурации, применив ExLlamaV3 с TabbyAPI — более лёгкое и быстрое решение, известное своей высокой эффективностью в локальных сценариях инференса. Моей целью было выяснить, сколько производительности можно выжать из систем при оптимизированной среде выполнения. Я использовал модель Qwen3 30B A3B, квантизированную до 5 бит (примерно 20 ГБ), с упором на два размера контекста: 32 000 и 44 000 токенов. И RTX 3090, и связка из двух RTX 5060 Ti 16GB смогли комфортно разместить модель в пределах своей VRAM, но разница в скорости оказалась весьма показательна.

Вот полученные результаты:

Конфигурация	Длина контекста	Скорость заполнения (prefill speed, токены/с)	Скорость вывода ответа (токены/с)
Одна RTX 3090 (24 Гбайт)	~32 000	~1445	~51
	~44 000	~1305	~47
Две RTX 5060 Ti (по 16 Гбайт)	~32 000	~1037	~44
	~44 000	~929	~38

Очевидно, что ExLlamaV3 обеспечивает более быструю работу по сравнению с llama.cpp, благодаря меньшим издержкам и продуманным оптимизационным путям. RTX 3090 сохраняет лидерство в абсолютной пропускной способности — это особенно заметно при скорости заполнения и генерации. Однако связка из двух RTX 5060 Ti несильно отстаёт, особенно если учесть её большое преимущество в 32 ГБ VRAM, что позволяет ей уверенно справляться с задачами даже при обработке контекста на 44 000 токенов.

Вкратце: если вы работаете с большими контекстами LLM, требуя как скорости, так и гибкости, ExLlamaV3 + TabbyAPI сокращает разрыв между этими двумя конфигурациями. В данном тандеме вариант с двумя картами способен значительно превзойти все ожидания при грамотной оптимизации.

Практические аспекты системы с двумя RTX 5060 Ti

Выбор конфигурации с двумя RTX 5060 Ti 16GB не просто покупка двух видеокарт — нужно заранее продумать совместимость системы. Материнской плате следует иметь как минимум два слота PCIe x8 или x16, причём желательно располагать их с достаточным расстоянием между собой, чтобы обеспечить правильное охлаждение, особенно если карты используют открытые кулеры вместо турбин.

Что касается энергопотребления, порог тепловыделения видеокарт составляет около 360 Вт. Если учесть остальную часть системы, блок питания на 800 Вт станет разумным выбором для стабильной работы с запасом мощности. Важную роль играет грамотная организация воздушного потока в корпусе, чтобы избежать теплового троттлинга.

С программной стороны llama.cpp достаточно хорошо поддерживает мульти‑GPU‑конфигурации. Однако, как и в случае любых многокартных систем, стоит быть готовым к редким нюансам в работе драйверов или необходимости дополнительной настройки.

Какой вариант видеокарт лучше для локальных LLM?

Итак, какой из вариантов станет лучшим выбором для энтузиаста локальных LLM в июне 2025 года? За примерно 950 $ можно собрать систему из двух RTX 5060 Ti 16GB, тогда как подержанная RTX 3090 обойдётся в 850–900 $. Разница в цене не слишком большая.

Если ваша главная цель — максимальная скорость генерации токенов для моделей, которые помещаются в 24 ГБ, и если вы часто работаете с плотными моделями, RTX 3090 остаётся более предпочтительным вариантом. Эта однокартная конфигурация проста в установке и демонстрирует выдающиеся показатели производительности благодаря высокой пропускной способности памяти.

Однако если ваши задачи связаны с большими окнами контекста или если вы хотите использовать модели с более высокой точностью квантизации (например, 6 бит для моделей с 30 млрд параметров), конфигурация с двумя RTX 5060 Ti 16GB становится очень привлекательным решением.

Преимущество в объёме VRAM в 32 ГБ — это весомый аргумент: производительность связки, особенно при работе с многоэкспертными моделями и длинными контекстами, оказывается более чем удовлетворительной. Такой вариант не только предоставляет больше памяти, чем RTX 3090, но и показывает почти сопоставимые результаты в ряде сценариев. Потратить дополнительные 50–100 $ за такой объём памяти вполне оправданно.

В конечном итоге, как отмечают многие пользователи, выбор по большей части зависит от того, насколько часто вы планируете использовать большие контексты. Если ваша работа постоянно выводит потребность в VRAM на максимум, конфигурация с двумя RTX 5060 Ti 16GB предлагает путь, который RTX 3090 просто не в силах превзойти в плане чистой вместимости.

Пути для апгрейда и взгляд в будущее

Для тех, кто планирует постепенную модернизацию системы, начало с одной RTX 5060 Ti 16GB предоставляет гибкость: позже можно добавить вторую карту и фактически удвоить объём VRAM. Такой поэтапный подход может быть легче для бюджета. Если же у вас уже есть RTX 3090, но вы всё равно испытываете нехватку VRAM, можно при необходимости установить вторую карту RTX 3090 — конечно, если позволяет ваша система и финансы. Альтернативно можно взглянуть в сторону более производительных (и существенно более дорогих) видеокарт, таких как RTX 5090 или будущие поколения.

Рынок подержанных RTX 3090 продолжает демонстрировать тенденцию к снижению цен, что делает эти карты всё более привлекательными. Если цены упадут ещё сильнее, модель может стать достойной альтернативой новым конфигурациям на основе двух видеокарт. Вместе с тем RTX 5060 Ti, являясь более современной моделью в линейке 5000-й серии, вероятно, сохранит стабильную стоимость в ближайшее время, особенно если версия с 16 ГБ VRAM будет пользоваться высоким спросом среди пользователей LLM.

С моей точки зрения, конфигурация с двумя RTX 5060 Ti 16GB показала себя как удивительно мощный и универсальный вариант для запуска нейросетей на своём локальном компьютере. Яркое подтверждение тому, что креативные комбинации аппаратных решений могут пойти навстречу бюджету, при этом сохраняя интерес для технически подкованных энтузиастов. Вы получите достаточный запас VRAM, достойную производительность и возможность справляться с всё более крупными моделями и контекстами — выглядит невероятно перспективно, не так ли?

Аллан Витт

Cоучредитель и редактор Hardware Corner. «Компьютеры и интернет увлекли меня ещё в детстве. В 2011 году я начал обучение на IT‑специалиста в компании среднего бизнеса, параллельно с этим запустил свой блог. Мне действительно нравится писать о технологиях. После успешного завершения обучения я два года работал системным администратором в той же компании. В качестве подработки я занялся модернизацией готовых ПК и сборкой кастомных игровых систем в местном магазине электроники. Желание заниматься сборкой компьютеров на постоянной основе всё усиливалось, и теперь это моя основная работа»

Комментарии (34)

Terranz
18.06.2025 08:21
#28451200
купил за полторы тыщи 1080 на 8гб и гоняю нейронки для картинок и кода в докерах

мне нравится, почти бесплатно
а 5060 или 3090? оче дороха
1. Shado_vi
  18.06.2025 08:21
  #28451436
  можно взять ещё одну 1080 и мост рублей за 500-1000 и получить 8+8 гб.
  если конечно узкими местами не станут материнка/cpu и/или блок питания.
  
  3090 ~750$ сейчас +-.
  плюс в отличии от rtx 40 и 50, 3090 поддерживает NVLink(~400$).
  какой то оверпрайсные мосты для ампер по сравнению с более старыми.
  1. Alex-Freeman
    18.06.2025 08:21
    #28451890
    А где вы нашли NVLink по ~400$? Большинство предложений $100-200.
    
    Shado_vi
    18.06.2025 08:21
    #28456064
    я про примерную цену за 3 и 4 слотовые мосты для ampere(rtx 3090).
    2 слотовая цена например в regard сейчас 18 т.р. ~225$.
    но такую 2 слотовую не пристроить к стандартной 3090 у которых форматы 2.5 / 3 слота же?!
    
    где вы нашли за цену меньшую чем 200$ с учётом доставки в рф?
  1. MountainGoat
    18.06.2025 08:21
    #28454912
    KoboldCPP умеет работать с не соединёнными видеокартами.

SnakeSolid
18.06.2025 08:21
#28451470
Добавьте, пожалуйста, табличку с результатами всех тестов в конец статьи, чтобы было бы понятнее. Сложно сравнивать производительность выискивая результаты в тексте.

evgeniy_kudinov
18.06.2025 08:21
#28451612
Видеопамять видеокарты RTX 5060 Ti 16 ГБ нельзя объединить. Эта модель не поддерживает мультиграфическую конфигурацию (SLI)

Интересно, как возможно объединить память видеокарт без SLI/NVLink? Не хватает технического описания реализации такого.
1. Moog_Prodigy
  18.06.2025 08:21
  #28451844
  Я не сильно профи, но имхо она не обьединяется в привычном смысле этого слова как по SLI. Вместо этого слои модели раскидываются, часть в одну карту, часть в другую. Они при этом работают не совсем параллельно, сначала первая видеокарта считает свои слои, затем через тот же pcie этот полуфабрикат перебрасывается во вторую видеокарту, которая подхватывает вычисления для следующих слоев и считает дальше. По сравнению с линками это медленнее, но промежуточный результат весит относительно (модели) немного, поэтому pci шина успевает это обрабатывать.
1. NKulikov
  18.06.2025 08:21
  #28452646
  Это называется Parallelism. Прекрасные объяснения есть тут и тут. Вкратце, есть множество техник/способов такого разделения со своими особенностями. Например, Data Parallelism (по сути, загрузка множества копий модели каждая в свой GPU) и оно не требует быстрого интерконнекта между GPU, ибо там данные почти не ходят, но и "объединения карт" там нет. Есть Tensor parallelism - там разрезается модель на N-слоев (каждый слой делится на N частей и отправляется в свою GPU). И вот тут оно намного более требовательное к полосе, ибо при запросе данные ходят очень активно между картами. Есть еще Pipeline parallelism и т.д.
  
  А дальше есть 3 варианта, как GPU могут общаться между собой - PCIe, NVLINK (SLI нет уже), Ethernet/IB. NVLINK - самый быстрый. Потом Ethernet/IB или PCIe (в зависимости от системы и конфигурации).
  
  И как раз вот тут автор и стрельнул себе в ногу, выбрав 5060 Ti, у которой шина PCIe 5.0 x8. Т.е. всего 30GB/s при скорости VRAM у 5060 Ti в 450GB/s. Взял бы хотя бы 5070 Ti было бы в два раза быстрее, потому что там PCIe 5.0 x16 (хотя справедливости ради там и VRAM 900GB/s), но тогда бы математика по стоимости не сошлась.
  
  И вот ровно по той причине, что PCIe СИЛЬНО (больше, чем в 10 раз) медленнее даже GDDR7 (я молчу тут про HBM), делать тензорный или pipeline parallelism на картах без NVLINK - такая себе затея. Дешевле (с точки зрения $/token/s) взять более мощную и дорогую карту, куда модель влезет целиком. Нынче это, например, 5090 c 32GB VRAM за ~3k$ или RTX Pro 6000 c 96GB VRAM за ~10k$. Понятно, что есть и H100/H200 и B200, но это уже другая лига.
  1. evgeniy_kudinov
    18.06.2025 08:21
    #28452814
    Спасибо за описание.
    То есть получается если есть "материнка" с 1 x PCIe 5.0 (в режиме x8), 1 x PCIe 5.0 (в режиме x16) и максимально эффективно это поставить 2 "видюхи" GeForce RTX 5070 Ti PCIe 5.0 16 ГБ GDDR7, 256 бит и GeForce RTX 5060 Ti PCIe 5.0 16 ГБ GDDR7, 128 бит.
    
    NKulikov
    18.06.2025 08:21
    #28452856
    Да нет. У вас скорость обмена между картами ограничена самым медленным компонентом. И это будет PCIe 5.0 x8 в 5060 Ti. То, что у вас в 5070 Ti есть еще 30GB/s сверху совершенно ни на что не повлияет. Да и вообще, ставить разные карты под одну модель - такое себе, ибо распределять сложно.
    
    Наиболее "эффективно" - брать карту, куда модель влезет целиком и вообще не ходит в PCIe, а не заниматься multi-gpu инсталляциями. Насколько это возможно, подъемно и на самом деле нужно, как обычно, зависит от задачи/бюджета/ограничений и прочего
  1. Shannon
    18.06.2025 08:21
    #28452962
    Tensor parallelism - там разрезается модель на N-слоев (каждый слой делится на N частей и отправляется в свою GPU). И вот тут оно намного более требовательное к полосе, ибо при запросе данные ходят очень активно между картами. Есть еще Pipeline parallelism и т.д.
    И как раз вот тут автор и стрельнул себе в ногу, выбрав 5060 Ti, у которой шина PCIe 5.0 x8. Т.е. всего 30GB/s при скорости VRAM у 5060 Ti в 450GB/s.
    
    Да не на столько драматично. Для Tensor parallelism в режиме генерации токенов в пике хватает 5 гб/с. Обмен тензорами же происходит не размером в целую модель, а только результирующими. Столбик RX:
    
    И вот ровно по той причине, что PCIe СИЛЬНО (больше, чем в 10 раз) медленнее даже GDDR7 (я молчу тут про HBM), делать тензорный или pipeline parallelism на картах без NVLINK - такая себе затея.
    
    Если гнаться за идеальными цифрами, то да, но на практике ускорение против Pipeline parallelism будет в любом случае. Урезая шину, подготовка промпта PP упадет драматично, но она всё ещё огромна, поэтому важнее именно генерация новых токенов TG, которое почти не проседает от количества линий. А учитывая, что даже pcie4.0 x1 дает 4гб/с, то затея стоящая в любом случае.
    
    Llama3.3-70b 4.5bpw на 4x3090 без NVLink
    
    NKulikov
    18.06.2025 08:21
    #28453762
    ИМХО это очень сильно зависит от размера моделей и ее параметров. Для маленьких моделей оно одна, для моделей с большим число параметров пусть и с меньшим квантованием - будет другое. В MoE и reasoning models там совсем все драматично.
    
    На картинке, которые вы привели (от сюда) 2x Llama 3 8B in Q8 (1 модель на двух картах), пусть и пишется про "схожие паттерны" 34/70B), а вторая - Mixtral-8x7B-Instruct-0.1-GPTQ. Я соглашусь, что на 8B там будет не так много нагрузки. Но возьмите DeepSeek R1/V3 и там все будет намного хуже.
    
    Насчет processing/generation — это как раз очень наглядно. Processing (prefill) - compute-bound обычно и делается параллельно. Generation (Decode) делается последовательно и там нету большого объема передаваемых данных. Prefill напрямую влияет на time-to-first-token, т.е. вбили промпт и сидим ждем пока оно начнет писать. Особенно больно это при большом input типа text summarization, кодинге и т.д, а также по мере роста длительности беседы (потому что обрабатываются все прошлые сообщения в рамках окна, которое резко растет последнее время). Я уже молчу про Deep Research, т.е. супер много prefill.
    
    Короче, я соглашусь, что для маленьких, простых моделей, с низким контекстным окном, полоса не так критична. Для больших моделей с большим контекстом и требованиями по низкому time-to-first-token — это становится проблемой. И так же полоса становится все более и более критичной по мере увеличения мощности compute и скорости RAM - оно просто съедает выигрыш. Именно поэтому инференс сейчас активно двигается в сторону больших систем типа GB200NVL72 или B200 NVL8, которые ранее использовались в основном для тренинга.
    
    Shannon
    18.06.2025 08:21
    #28454156
    ИМХО это очень сильно зависит от размера моделей и ее параметров
    
    Так размер модели обсуждаемый в этом посте - тот что влезет в 24/32гб VRAM. А вы переходите на гипотетические драматические ситуации промышленного инференса на B200 с множеством параллельных запросов.
    
    В MoE и reasoning models там совсем все драматично.
    Но возьмите DeepSeek R1/V3 и там все будет намного хуже.
    
    В R1/V1 всего 37B активных параметров, будет точно также по скорости. Проблема только как вместить всю модель в VRAM.
    Та же Qwen3-30B-A3B летает на домашних картах с 1000 t/s на pp и 130 t/s на tg, так как активных параметров всего 3B.
    
    DeepSeek дома запускают на одной GPU получая ускорение через -ot exps=CPU, т.к. никакого тензорного параллелизма не хватит чтобы уместить 671B в домашний VRAM. При чем как раз 2 5060 тут могут выступить лучше одной 3090, скорости у них будут одинаковые из-за распараллеливания работы, а контекста вместят больше.
    
    Насчет processing/generation — это как раз очень наглядно.
    
    Если вместо 800 t/s будет 400 t/s на pp (x4 вместо x16), это всё равно с огромным запасом для домашнего использования, 64к контекста переварятся за 3 минуты в первый раз, а дальше частично закэшируются, даже 100 t/s будет вполне достаточно.
    Если речь про идеальные цифры, то да, а если про реальные - то даже для x1 это имеет смысл, а не "такая себе затея" и "как раз вот тут автор и стрельнул себе в ногу".
    
    Для больших моделей с большим контекстом и требованиями по низкому time-to-first-token — это становится проблемой.
    Именно поэтому инференс сейчас активно двигается в сторону больших систем типа GB200NVL72 или B200 NVL8, которые ранее использовались в основном для тренинга.
    
    Тут уж говорим либо про домашний инференс, либо про промышленный. Сколько у вас получается получить на B200 и какой поток на тензорный параллелизм показывает?
    
    Я на домашнем ПК получал скорость pp 30 t/s для 64к на DeepSeek R1 671B, квант который целиком влезал в RAM + 1 GPU, время до первого токена десятки секунд. Да, медленно, но драматизма не вижу, если бы целиком влезло в VRAM, было бы на порядок быстрее даже на медленной шине.
    
    BadNickname
    18.06.2025 08:21
    #28454918
    т.к. никакого тензорного параллелизма не хватит чтобы уместить 671B в домашний VRAM.
    
    Хватит)
    
    Shannon
    18.06.2025 08:21
    #28454996
    Для тензорного параллелизма vllm нужны одинаковые по объему видеокарты в количестве кратном степени двойки. То есть нужно 16 Tesla P40, либо 8 китайских 4090 48гб, либо 4 RTX PRO 6000 96гб.
    
    NKulikov
    18.06.2025 08:21
    #28462988
    Окей, я готов признать, что я погорячился и, вероятно, из-за проф. деформации сделал излишний перенос с промышленных систем на домашние.
    
    При этом я по-прежнему считаю, что мнение, что инференс не требователен к полосе GPU2GPU в общем случае, ошибочным и/или неполным и считаю важным это подсветить:
    
    1.) Чем больше у вас параметров в модели (пусть и при меньшем числе разрядов на параметр), тем больше требования. 7-8B - нынче это очень маленькие модели и сейчас очевиден тренд на рост моделей при одновременном снижении разрядности параметров (а значит при +- тех же требованиях по VRAM). 40-70B INT4 влезает в ~30-35GB VRAM.
    
    2.) Чем больше у вас TP (т.е. чем больше у вас "объединяется" карт), тем больше данных ходит через GPU2GPU создавая нагрузку. 8 GPU на сервер, в общем-то нормальная история нынче, 4 так вообще везде ставится.
    
    3.) GPU2GPU влияет в основном на prefill, а не Decode. И это критично, если:
    
    а.) У вас есть требования по TTFT. Для пром. систем они практически всегда есть и задаются в качестве исходного требования. Ожидания в минуты часто является просто не допустимым. Например, в MLPerf Inference это 6 секунд для LLama 3.1 405B и 0.5 секунды для Llama 2 70B, в среднем же обычно, для чат-ботов берут что-то порядка до 2-5 секунд. Чтобы обеспечить низкое время TTFT нужен очень быстрый prefill, а это, в свою очередь, резко задирает требования по GPU2GPU. С другой стороны, супербыстрый Decode нужен реже, потому что мы (человека) читаем со скоростью 200-1000 слов в минуту максимум. Если Decode идет с такой скоростью, то обычно быстрее не нужно. Исключение - очень большой и длинный Reasoning.
    
    б.) Большой размер входящего окна. Размер окна нынче очень быстро и сильно растет. Та же Llama 405B имеет 128к токенов против 4k у Llama 70B.
    
    в.) Задача подразумевает обработку большего числа входящих данных. Особенно если это новые данные. Например Coding, Text Summarization, Translate, Deep Research, RAG, etc.
    
    4.) По мере роста вычислительных способностей карт и объема их памяти, bottleneck начинает смещаться. 5090 имеет 104TFLOP FP32/16 и 1.8TB/s VRAM, что в 5 раз быстрее в FP32, на 30% быстрее в FP16, на уровне по скорости VRAM по сравнению с A100 с NVLINK. RTX Pro 6000 BSE еще быстрее и имеет больше RAM при этом PCIe и не имеет NVLINK.
    
    5.) Все проблемы с полосой GPU2GPU вылезают супер явно на multi-node inference. Понятно, что там и задержки начинают играть большую роль, но и требования по полосе заметны.
    
    Короче, выше написанное не является оспариванием ваших аргументов (во многом справедливых), а скорее дополнением и комментарием против заявлений общего типа вроде "скорость PCIe не критична для инференса". Она может не являться проблемой (особенно если мы говорим про домашние условия и требования на уровне "ну да медленно и мало, но хоть как-то"), а может и очень даже являться (особенно если мы про современные и промышленные системы, где "как-то" не варант). Как обычно "it depends" от задачи и условий.
    
    Спасибо за прекрасную и содержательную беседу!
  1. BadNickname
    18.06.2025 08:21
    #28454858
    Скорость PCIe не критична для инференса. Единственное на что она хоть как-то влияет - это если вы работаете в режиме с unified memory, когда у вас постоянно идет подкачка в GPU из ram
    
    Разница на v100 32GB c/без nvlink что-то меньше 20% в row split режиме llama.cpp. и незаметна в layer split режиме.
    
    Дешевле (с точки зрения $/token/s) взять более мощную и дорогую карту, куда модель влезет целиком.
    
    Это очень сомнительное утверждение.
    
    Во первых в 32gb влезет или gemma 3 27b или qwq 32b, и то и то для большого контекста хочет много vram. Во вторых всё что больше 32gb - это сразу иксы по цене, кроме разве что китайской 4090 с удвоением VRAM.
    
    Shannon
    18.06.2025 08:21
    #28454960
    Скорость PCIe не критична для инференса. Единственное на что она хоть как-то влияет - это если вы работаете в режиме с unified memory, когда у вас постоянно идет подкачка в GPU из ram
    Разница на v100 32GB c/без nvlink что-то меньше 20% в row split режиме llama.cpp. и незаметна в layer split режиме.
    
    Там речь про запуск в режиме Tensor Parallelism, например, через vLLM.
    
    В Tensor Parallelism каждый слой считается параллельно на всех GPU, вычисление элементов слоя разбивается на отдельные матричные операции, которые нужны для общего результата, и каждая GPU считает свой кусочек.
    Первая GPU считает Y1 = X * A1, вторая Y2 = X * A2, третья Y3 = X * A3.
    
    После этого GPU1 получает [Y2, Y3], GPU2 получает [Y1, Y3], GPU3 получает [Y1, Y2]. Теперь каждая GPU собирает итоговый Y = [Y1, Y2, Y3].
    
    Передача результатов вычислений туда сюда требует пропускной способности либо pice, либо nvlink, либо ещё как. Размеры этих кусочков хоть и несопоставим с размером модели, так как все веса уже предзагружены в GPU, но всё равно намного больше, чем в llama.cpp. За счет такого распределения вычислений видеокарты лучше утилизируются. Ну, допустим, на двух GPU вместо 30 t/s, можно получить 50 t/s на той же конфигурации.
    
    LLM из-за того, что их веса загружены в память и статичны, могут выполнять параллельную обработка множества запросов почти без потери скорости. Например, если в llama.cpp указать параметр --parallel N, где N количество слотов, то можно пользоваться моделью одновременно с кем-то без задержек, либо запрашивать сразу несколько ответов. Максимальный размер контекста делится на количество слотов.
    
    llama.cpp --parallel 8. Одиночный запрос 20 t/s, 8 параллельных - 18 t/s каждый (суммарно 144 t/s)
    И если в таком же режиме запустить Tensor Parallelism, то требования к пропускной способность pcie или nvlink резко возрастут, кратно количеству слотов.

V_PA
18.06.2025 08:21
#28452250
ну все как обычно кроется в нюансах. 3090 сейчас на авито можно купить за 60к рублей, даже при текущем курсе в 78 это даже не 800 баксов. но у 3090 есть проблема с охлаждением модулей памяти со стороны бекплейта, странно, что автор про это не говорит) поэтому к 3090 надо еще покупать прокладки и обслуживать карту своими или чужими некривыми руками. про 5060 тоже слегка лукаво - нужно не просто pci x16, а версию свежую - v1, v2, v3 вряд ли подойдут) ну и плата будет на самая плохая, раз есть два слота x16 на достаточном расстоянии. но ценник свежей платы и проца будет ух, но почему-то это не учитывается в статье. 3090 у меня шуршит на cc150 за 5 тыщ рублей, плата за 4 (хиро 8). с 5060 затраты на железо будут кратно больше (наверное можно купить еще одну 3090).
1. Shannon
  18.06.2025 08:21
  #28452530
  про 5060 тоже слегка лукаво - нужно не просто pci x16, а версию свежую - v1, v2, v3 вряд ли подойдут) ну и плата будет на самая плохая, раз есть два слота x16 на достаточном расстоянии.
  с 5060 затраты на железо будут кратно больше (наверное можно купить еще одну 3090).
  
  Никакой разницы не будет. Если нет второго x16, а у x1 слота есть вырез, то можно прям в него подключать видеокарту. Подойдут даже x1 pcie 1.0 подключенные через удлинитель.
  
  Для инференса ширина pcie не играет роли, так как данные грузятся 1 раз и дальше тензоры уже крутятся на внутренней vram и скорость шины уже не важна, выдавая на выход лишь небольшую порцию данных. По сути, тоже относится и к играм, если игра влезает целиком в vram.
  
  Скорость pcie важна для обучения, и то если обработка батчей происходит быстрее, чем скорость загрузки этих батчей, которые часто бывают небольшого размера на домашнем обучении.
  
  Более актуальный совет, это выбирать 5060 размером 2-слота, а не 2.5, так как нижняя карта, в зависимости от материнки, может упереться или ей будет не хватать воздуха от слишком близкого расположения с нижней заглушкой корпуса, где блок питания.
1. Shado_vi
  18.06.2025 08:21
  #28456106
  есть 3090 ti, у которых память вроде только с классической стороны.
  
  среди разнообразия же 3090 есть варианты с более продуманной системой охлаждения.
  например есть версия с активным охлаждением сверху.
  инженеры некоторых брендов(не asus) додумались поставить тепловые трубки сверху.
  видел тесты с кастомнымыми вариантами дополнительного пассивного/активновного охлаждения с неплохими результатами.

ru4pae
18.06.2025 08:21
#28452264
Раньше все видео карты скупали любители майнинга, теперь любители ИИ.

Куда бедному геймеру податься? :`(

А сам тест интересен.
1. RulenBagdasis
  18.06.2025 08:21
  #28453434
  Так AMD-шные карты же есть, они для нейронок плохо подходят.
1. provide
  18.06.2025 08:21
  #28455138
  Майнинг практически напрямую приносил деньги, а нейронки на потребительских картах это по большей части удел энтузиастов без материального выхлопа.
  P.S.: 3 года назад купил 3060ti за 41к, в этом году - 5060ti за 46к, с учетом инфляции цены даже упали

avshkol
18.06.2025 08:21
#28452850
Отличное сравнение, люблю Хабр за такие статьи. Получается, даже 2 карты, начинающиеся с 5... не дают преимуществ в скорости по сравнению с лучшим представителем серии 3... (думал, уж 2 то всяко поборют...)
1. fermentum
  18.06.2025 08:21
  #28454086
  Они дают увеличение размера контекста или возможность загружать модели в существенно лучшем кванте. Автор сравнивал Q4, который гарантированно поместился в 24Гб, если бы он немного поднял качество сжатия, то 3090 существенно проиграл бы в производельности, потому что часть слоев ушла бы в оперативку.
  1. avshkol
    18.06.2025 08:21
    #28454330
    Да, объем видеопамяти - это для LLM первый критерий, здесь 3090 побъет всех, кто ниже объемом, даже если это будут будущие 6 или 7 серия...

fermentum
18.06.2025 08:21
#28454104
Интересно было бы почитать про миниПК с сотней Гб VRAM - GMKtec EVO-X2 на базе AMD Ryzen Al Max+ 395. Выглядит как отличное решение для запуска серьезных LLM.
1. BadNickname
  18.06.2025 08:21
  #28454930
  Нет Cuda.
  
  Сразу минус FA и минус куча современных оптимизаций.
  
  Приколы с бенчмарками от производителя тоже говорят многое.
1. Kvento
  18.06.2025 08:21
  #28459602
  За свою цену это очень слабое решение. Лучше взять 3090. И проблемы с программной частью тоже не красят
  1. nidalee
    18.06.2025 08:21
    #28460392
    С одной стороны да. С другой, AI MAX ЕМНИП умеет до 128 гигов shared memory. Т.е. по объему памяти это вещи просто несравнимые.
    
    Вопрос, насколько 128 гигов медленной памяти будет быстрее, чем 24 гига быстрой. И будут ли.
    
    Я поглядывал на нее для генерации видео, но там (WAN2.1) я так понял узким местом является производительность самого GPU даже на 24 гигах, поэтому 128 на медленном чипе будут просто бесполезны. Ну разве что в OOM не будут падать, но проще на 24 умерить пыл и просто апскейлить видео, а не генерировать сразу в большом разрешении.
  1. here-we-go-again
    18.06.2025 08:21
    #28462430
    Или бу макбук на м процессорах на 128 общей памяти, там вроде лучшее от двух миров будет.
    
    NKulikov
    18.06.2025 08:21
    #28463126
    Лучшее от всех миров это https://www.servethehome.com/the-nvidia-dgx-spark-is-a-tiny-128gb-ai-mini-pc-made-for-scale-out-clustering-arm/ или https://www.servethehome.com/this-is-the-asus-ascent-gx10-a-nvidia-gb10-mini-pc-with-128gb-of-memory-and-200gbe/ :)
    
    Тут и 128GB Unified RAM, и CUDA, и Blackwell, и возможность две штуки собирать в стек. И стоит 3-4k$, что дешевле MacBook Pro c 128GB RAM.