Синтетические тесты показывают, что эти карты в 10 раз медленнее старых игровых. Но на практике с LLM они оказались на уровне RTX 2060/3060. Эта статья для тех, кто хочет сделать дешёвый LLM-сервер и любителей хардкорных экспериментов.

 По ходу мы рассмотрим:

  • теоретические данные

  • условия для работы этих GPU

  • результаты практических тестов производительности

  • объяснение полученных противоречий

  • советы по небольшим доработкам (охлаждение, PCIexpress)

  • сравнение друг с другом и другими GPU

Введение

Цена на эти видеокарты в несколько раз ниже Nvidia RTX, что привлекает попробовать использовать их вместо «обычных» собратьев. Да и жалко, когда пропадает такое высокотехнологичное оборудование. В русскоязычном сегменте интернета я не нашел внятных сведений о возможности применения этих видеокарт для чего-нибудь, кроме майнинга. Есть немало информации по использованию различных майнинговых видеокарт для игр, но по любым другим вопросам информация отрывочная и разрозненная, обычно по несколько комментов по этой теме на разных ресурсах. Особенно мало информации про CMP 50HX, CMP 90HX и подобные, так как для игр они бесперспективны.

Это хлам, или что?
Это хлам, или что?

Что о них известно:

  • 10 ГБ видеопамяти

  • отсутствуют видеовыходы

  • не работают в большинстве приложений как графические ускорители

  • имеют искусственные ограничения по вычислительным возможностям и урезанную до 4х линий шину PCIexpress 1.1

Однако, сайт techpowerup.com, высоко оценил их по производительности: CMP 50HX примерно как RTX 2080, а CMP 90HX ещё выше. Там же приведены краткие сведения о них и их «теоретическая производительность». Эти теоретические цифры кочуют из статьи в статью, от бенчмарка к бенчмарку. Всё здесь приводить не буду, кому интересно – обратитесь к оригиналу. Для сравнения приведены данные по NVIDIA GeForce RTX 3070 Ti.

Параметр

CMP 50HX

CMP 90HX

RTX 3070 Ti

GPU Name

TU102

GA102

GA102

Pixel Rate

123.6 GPixel/s

136.8 GPixel/s

169.9 GPixel/s

Texture Rate

296.6 GTexel/s

342.0 GTexel/s

339.8 GTexel/s

FP16 (half)

22.15 TFLOPS (2:1)

21.89 TFLOPS (1:1)

21.75 TFLOPS (1:1)

FP32 (float)

11.07 TFLOPS

21.89 TFLOPS

21.75 TFLOPS

FP64 (double)

346.1 GFLOPS (1:32)

342.0 GFLOPS (1:64)

339.8 GFLOPS (1:64)

CMP 90HX выглядит идентично RTX 3070 Ti, не правда ли? Но цена на б/у  RTX 3070 Ti как минимум вдвое больше. А CMP 50HX вообще за 5-6 т. р. купить можно. Так что же, нужно брать?

Не торопитесь, давайте сначала посмотрим что получается на самом деле.

 Как это работает

 Во-первых, нужен мощный блок питания – не менее 750 Вт. Карты весьма прожорливы, их TDP составляет 250/320 Вт для 50HX/90HX соответственно.

С отсутствующими видеовыходами всё ясно – нужна встройка, или любая видеокарта-«затычка» и всё без проблем будет работать.

После установки стандартных драйверов Nvidia карты определяются в системе, GPU-Z показывает их характеристики но в параметрах «Computing» и «Technologies» стоят не все «галочки».

В результате не все приложения с ними работают. Например, Ollama с ними работает, а LM Studio не видит. «Бублик» FurMark их так же не видит.

Следующий шаг – установка патченных драйверов Nvidia, идем сюда:
https://github.com/dartraiden/NVIDIA-patcher, читаем здесь
https://pikabu.ru/story/delaem_rtx_2070_iz_deshyovoy_cmp_40hx_za_9k_10357281.

Сейчас у меня стоит пропатченная последняя версия драйверов от Nvidia – 580.88. После этого видеокарты определяются в системе как RTX 2080 Ti и RTX 3070 Ti, но некоторые программы показывают их настоящие названия. LM Studio успешно завелась и уже видит Vulkan GPU, а «Бублик» FurMark теперь крутится.

CMP 50HX
CMP 50HX
CMP 90HX
CMP 90HX
LM Studio
LM Studio

Теория vs Практика – «холодный душ»

Но что это? Крутится-то «бублик» не больно резво, мягко говоря. Для CMP 50HX он показывает 24-29 FPS в зависимости от режима (GL/VK), а для CMP 90HX вообще 5 FPS.

CMP 50HX
CMP 50HX
CMP 50HX
CMP 50HX
CMP 90HX
CMP 90HX

Вот тут сразу ясно, почему для игр они не подходят. Но что же с вычислениями? Есть такая программка – Cuda-Z, которая определяет производительность видеокарты.

CMP 50HX

CMP 90HX

Core Information

----------------

Name: NVIDIA CMP 50HX

Compute Capability: 7.5

Clock Rate: 1545 MHz

PCI Location: 0:18:0

Multiprocessors: 56

Threads Per Multiproc.: 1024

 Memory Information

------------------

Total Global: 10239.8 MiB

Bus Width: 320 bits

Clock Rate: 7001 MHz

L2 Cache Size: 48 KiB

Shared Per Block: 48 KiB

Pitch: 2048 MiB

Total Constant: 64 KiB

 Performance Information

-----------------------

Memory Copy

Host Pinned to Device: 1560.55 MiB/s

Host Pageable to Device: 1491.45 MiB/s

Device to Host Pinned: 1564.14 MiB/s

Device to Host Pageable: 1491.8 MiB/s

Device to Device: 192.901 GiB/s

GPU Core Performance

Single-precision Float: 436.65 Gflop/s

Double-precision Float: 436.621 Gflop/s

64-bit Integer: 3266.44 Giop/s

32-bit Integer: 13.4882 Tiop/s

24-bit Integer: 13.4198 Tiop/s

Core Information

----------------

Name: NVIDIA CMP 90HX

Compute Capability: 8.6

Clock Rate: 1710 MHz

PCI Location: 0:16:0

Multiprocessors: 50

Threads Per Multiproc.: 1536

 Memory Information

------------------

Total Global: 10239.6 MiB

Bus Width: 320 bits

Clock Rate: 9501 MHz

L2 Cache Size: 48 KiB

Shared Per Block: 48 KiB

Pitch: 2048 MiB

Total Constant: 64 KiB

 Performance Information

-----------------------

Memory Copy

Host Pinned to Device: 801.233 MiB/s

Host Pageable to Device: 777.104 MiB/s

Device to Host Pinned: 789.066 MiB/s

Device to Host Pageable: 747.778 MiB/s

Device to Device: 237.809 GiB/s

GPU Core Performance

Single-precision Float: 719.494 Gflop/s

Double-precision Float: 359.868 Gflop/s

64-bit Integer: 2692.25 Giop/s

32-bit Integer: 11.3901 Tiop/s

24-bit Integer: 11.3753 Tiop/s

 

Самое интересное – в конце таблицы. Итак, здесь всё печально, никаких «теоретических» 11 и 21 TFLOPS для FP32 (Single-precision Float) и близко нет, вместо них 0,43 и 0,72 TFLOPS. Это в 25 и 30 раз меньше соответственно.

Что самое грустное, я не нашел никаких способов что-то с этим сделать. Поэтому бытует мнение, что эти карты никуда не годятся, кроме майнинга.

 Тесты в Ollama – а ведь неплохо

Попробуем запустить на них локальные нейросети и оценить скорость генерации. При работе ollama в 10 ГБ видеопамяти на 100% умещаются квантованные модели на 7b, 8b и даже некоторые на 9b. Вот скорость работы некоторых моделей (ток/с):

  • llama3.1:8b-instruct-q6_K – 32

  • dolphin3:8b – 28

  • gemma2:9b – 33

  • gemma3:4b-it-q8_0 – 57

Квантованные модели на 8b, целиком умещающиеся в видеопамяти выдают по 28-32 токена в секунду, модели по 4b – 45-57 ток/с. Причем CMP 50HX и CMP 90HX показывают результаты одинаковые с точностью до небольшой погрешности. Напомню, что CMP 90HX примерно вдвое дороже.

Замечу, что здесь производительность не зависит от CPU и ОЗУ компьютера. Я пробовал запускать их на старенькой материнке с AMD A10-5800k и более свежем Ryzen 5 5600G, результаты одинаковые.

Немного упомяну про LM Studio – здесь ситуация хуже, скорость работы моделей примерно в 1,5 – 2 раза меньше, чем в ollama. Например, qwen3:8b-q4_K_M выдает здесь около 14 ток/с вместо 28 в ollama.

LM Studio
LM Studio

Если взять модели побольше, то скорость резко падает из-за выгрузки части слоев LLM на CPU. При работе с моделями на 12-14b и обработке на CPU 20-30% модели скорость составляет около 11-13 ток/с.

gpt-oss:20b (37%/63%) выдает 10 ток/с, а dolphin-mixtral:8x7b (69%/31% - бОльшая часть на CPU) всего 7,2 ток/с. Но и нагрузка на GPU составляет всего около 10%, основная часть работает на CPU, поэтому такие тормоза.

Напомню, что если поставить два таких GPU, то объем VRAM составит уже 20 ГБ и туда «влезут» на 100% уже сильно квантованные модели на 12-14b, менее сжатые модели на 8b и даже gpt-oss:20b. А такие модели уже заметно «умнее», при этом работают они довольно шустро (ток/с):

  • gemma3:12b-it-qat – 26

  • qwen3:8b-q8_0 – 43

  • gpt-oss:20b – 55 (да, пятьдесят пять)

gpt-oss:20b на двух GPU
gpt-oss:20b на двух GPU
Загрузка моделей на двух GPU
Загрузка моделей на двух GPU

Неплохо! Здесь есть несколько неочевидных нюансов.

  1. Две видеокарты суммарно потребляют в таком режиме не 500-600 Вт, как можно подумать, а примерно столько же, сколько и одна.

  2. Суммарная производительность у них примерно как у одной, так как слои распределены по обеим и обрабатываются последовательно. Дело в том, что ollama/llama.cpp не умеют распараллеливать вычисления одной модели на несколько GPU. Они загружают разные слои на разные карты, но обработка идет последовательно. Поэтому прирост только в объеме VRAM, а не в скорости.

  3. Зато при этом греться они почти не будут. И шуметь тоже.

  4. Две видеокарты с 10 ГБ VRAM хуже, чем одна с 20 ГБ VRAM, так как при размещении слоев происходит фрагментация VRAM и остаются неиспользуемые области. По-простому, если размер блоков памяти по 4 ГБ, то в каждую карту влезет по 2 блока по 4 ГБ, а всего в 2 карты – 16 ГБ. Если бы память была цельной, то в одну карту на 20 ГБ влезло бы 5 блоков общим объемом 20 ГБ. Можно примерно считать, что 2 GPU по 10 ГБ это примерно как 1 GPU на 16 ГБ.

Запуск LLM обычно приводит к 100% загрузки GPU и он, конечно, начинает греться. Вот здесь CMP 50HX и CMP 90HX ведут себя по-разному.

CMP 90HX показывает 100% нагрузки на GPU, но температура и потребляемая мощность при этом особо не растут, вентиляторы не прибавляют обороты. Вероятно, её производительность очень сильно «задушена» и она не особо напрягается. (Как позже выяснилось при проведении других замеров производительности, она всё же перегревается и не хочет сама разгонять кулера без внешнего управления.)

CMP 50HX так же показывает 100% нагрузки на GPU, вентиляторы почти не прибавляют обороты, но температура резко повышается и Hot Spot достигает 95 градусов. Алгоритм управления кулерами «зажимает» их обороты до 40-45%, не обращая внимания на перегрев. Проблема решается двумя способами.

  1. Установить MSI Afterburner и настроить его на нужное управление вентиляторами. После этого он должен быть в автозагрузке.

  2. Я обнаружил непонятную прошивку BIOS, которая ставится на CMP 50HX. При этом в работе видеокарты ничего не меняется, но вентиляторы начинают нормально управляться, автоматом от 50 до 100% оборотов, не допуская перегрева GPU. Прошивка здесь – VGA Bios Collection: MSI RTX 2080 10 GB | TechPowerUp.

Лайфхак – если ваша CMP 50HX перегревается, а кулер не разгоняется — попробуйте прошить BIOS от MSI RTX 2080 10GB (есть на TechPowerUp).

Секрет производительности в LLM

Вроде бы получились неплохие показатели производительности. Так в чём же дело? «Бублик»-то очень медленно крутится и игрушки дико тормозят. Ещё бы: 0,43 и 0,72 TFLOPS – это не 10 – 20, как у «нормальных» GPU.

К сожалению, у меня нет видеокарты RTX, чтобы напрямую их сравнить. Но примеры работы LLM на видеокартах RTX, 2060, 2070, 3060, 3070, которые я нашел в сети, показывают близкие результаты. По крайней мере, разница не в разы. И почему CMP 50HX и CMP 90HX показывают одинаковые результаты?

 Ситуация интересная и не так уж всё и плохо. Синтетические тесты показывали жалкие 0.44 TFLOPS – эти карты должны быть в 10 раз медленнее старых игровых. Но на практике с LLM они оказались на уровне RTX 2060/3060, реальная скорость генерации — 30 токенов/с. Не сходится – похоже, что синтетика меряет что-то не то.

Если посмотреть на «теоретическую производительность», то все показатели CMP 90HX примерно вдвое выше, чем у CMP 50HX, кроме Integer и FP16 (Half Floating Point – вычисления с половинной точностью). Теоретическая производительность в FP16 у них высокая и почти одинаковая – около 22 TFLOPS, а реальную производительность FP16 Cuda-Z не показывает.

Современные LLM-фреймворки, такие как Ollama, для максимальной скорости могут использовать не полноценную точность FP32, а половинную — FP16. Дело в том, что при инференсе LLM высокая точность не нужна, для уменьшения объема данных здесь широко используется квантование (уменьшение разрядности и точности представления чисел). Вычисления в FP16 часто работают быстрее, а данные занимают меньше места. Что, если, ollama работает в FP16, раз они показывают одинаковые результаты и не такие плохие, как должны быть для FP32?

Стандартных бенчмарков и тестов GPU, показывающих реальную производительность GPU отдельно в FP16 я не нашел. Чтобы раскопать их реальную производительность пришлось копнуть глубже и провести небольшое расследование. Поиски привели на GitHub, где нашлось несколько исходников таких тестов. Один из них я и собрал – «OpenCL-Benchmark». А вот и его результат, который подтвердил мою догадку.

Параметр               

CMP 50HX

CMP 90HX

Compute Units

56 at 1545 MHz (3584 cores)

50 at 1710 MHz (6400 cores)

Memory

10239 MB

10239 MB

Cache global

1792 KB

1400 KB

Cache local

48 KB

48 KB

Buffer global

2559 MB

2559 MB

Buffer const

64 KB

64 KB

FP64 

0.429 TFLOPs/s (1/24)

0.352 TFLOPs/s (1/64)

FP32 

0.433 TFLOPs/s (1/24)

0.715 TFLOPs/s (1/32)

FP16 

27.220 TFLOPs/s ( 2x )

22.443 TFLOPs/s ( 1x )

INT64

3.228  TIOPs/s (1/4 )

2.638  TIOPs/s (1/8 )

INT32

13.473  TIOPs/s ( 1x )

11.317  TIOPs/s (1/2 )

INT16

10.993  TIOPs/s ( 1x )

9.806  TIOPs/s (1/2 )

INT8 

1.715  TIOPs/s (1/8 )

1.439  TIOPs/s (1/16)

Memory coalesced read

498.10 GB/s

709.26 GB/s

Memorycoalesced write

469.91 GB/s

715.30 GB/s

Memory misalign read

419.61 GB/s

709.03 GB/s

Memory misalign write

125.71 GB/s

76.71 GB/s

PCIe send

1.56 GB/s

0.81 GB/s

PCIe receive

1.56 GB/s

0.81 GB/s

PCIe bidirectional

1.56 GB/s

0.81 GB/s

Вот они, заветные терафлопсы в FP16! CMP 50HX ещё и побыстрее считает оказывается… Обратите внимание на числа в скобках – коэффициент (2x) означает, что GPU поддерживает выполнение двух операций FP16 за такт, это признак высокой оптимизации. Но у CMP 50HX память помедленнее, поэтому в итоге выходит примерно одинаково.

Сравним с другими GPU

Сравнение производительности в FP16
Сравнение производительности в FP16

Ого, да тут есть порох в пороховницах!

По всей видимости, некоторая часть вычислений делается в FP32, а LM Studio использует их больше, что всё несколько тормозит, иначе CMP 50HX была бы ещё быстрее. Вероятно, результаты CMP можно ещё улучшить, если задаться целью и сделать версию движка llama.cpp, оптимизированную строго под FP16.

Немного теоретических предположений о других майнерских картах. CMP 30/40/70, P102/P104/P106 – все имеют более низкую производительность FP16 и меньше VRAM. Хотя, вроде бы на CMP 40HX играть можно, значит там FP32 нормально работает. Но, возможно, где-то FP16 сильно порезано, или вообще отключено.

 А что там с шиной PCI-express?

 Расширение до 16 линий возможно, но шина остается PCIexpress 1.1. Это делается аппаратно – допаиванием недостающих конденсаторов на линии PCIexpress. Плата рассчитана на 16 линий, но на большинстве майнерских карт конденсаторы запаяны только на 4 линиях. В майнинговых ригах эти карты часто работают вообще в режиме x1 для экономии слотов и ресурсов материнской платы. Допаяв конденсаторы на остальные линии, мы физически включаем их работу, никаких других блокировок здесь нет.

Может оказаться, что 16 линий всё равно работать не будут. Не все слоты материнских плат поддерживают 16 линий. Обычно только один слот работает на 16 линий. Если есть второй длинный слот, он обычно работает на 8 линий, третий вообще на 4. Посмотрите в таблицу выше – CMP 50HX работает на 8 линиях (хотя распаяны все 16), а CMP 90HX – на четырех.

Конденсаторы нужны 0402 емкостью 220 или 100 нФ, напряжение и прочие параметры не важны. Чтобы расширить шину до 16 линий, нужно распаять 24 конденсатора, а до 8 линий – всего 8. Предупреждаю тех, кто не представляет, как их паять – удовольствие ниже среднего, морока ещё та. Поэтому, лучше искать видеокарту с уже напаянными конденсаторами (цена при этом примерно на 1000 дороже).

Не ожидайте многого от расширения шины, GPU не станет работать быстрее! Ну, почти. Переход с 4 линий PCIexpress на 8 немножко увеличивает скорость генерации – примерно на 3%, расширение до 16 линий ещё чуть-чуть – около 1 ток/с. При 8 линиях шина уже не является узким местом. Но «бублик» от этого не будет крутиться быстрее и игрушки не пойдут, если что.

Существенно ускоряется загрузка моделей и контекста, они быстрее начинают отвечать. Расширение до 8 линий ускоряет загрузку примерно в полтора раза, расширение до 16 линий – ещё примерно на четверть (итого где-то вдвое быстрее, чем на 4 линиях). Например, при загрузке с быстрого NVMe накопителя, llama3.1:8b-instruct-q6_K грузится:

  • 4 линии – 10,5 с

  • 8 линий – 7 с

  • 16 линий – 5,5 с.

При загрузке данных с HDD или SATA SSD всё будет гораздо медленнее и разница будет меньше.

 Сравнение видеокарт

Для RTX примерные данные из интернета – могут быть не точными, я встречал противоречивые результаты. Буду признателен за уточнения, при необходимости внесу изменения.

Модель

FP16 (TFLOPS)

VRAM, ГБ

Ollama для 8b (ток/с)

Цена б/у, т.р.

р/ток/с

CMP 50HX

27

10

30

6

200

CMP 90HX

22

10

30

11

367

RTX 2060

13

12

25

15

600

RTX 3060

13

12

40

20

500

RTX 3070

20

8

60

25

416

 Первое, что мы видим – не только FP16 определяют скорость работы. Очевидно, что частично на результат влияет и производительность FP32.

Относительная стоимость вычислений для ollama
Относительная стоимость вычислений для ollama

Более дорогая CMP 90HX ничем не лучше CMP 50HX и приобретать её не имеет смысла (по крайней мере на сегодня, пока неизвестны способы «оживить» её теоретические возможности).

Если Вас интересуют какие-то другие вычисления чисто в FP16, то здесь картина ещё контрастнее и CMP 50HX вне конкуренции.

Относительная стоимость вычислений в FP16
Относительная стоимость вычислений в FP16

Итоги

CMP 50HX в целом слабее GeForce RTX 20XX/30XX/…, но если есть желание попробовать побаловаться и поэкспериментировать, то при её нынешней цене – это идеальный вариант. Если я прав, то при вычислениях в Integer или FP16 (half) она примерно соответствует RTX 2060/3060, а возможно и 2070/3070 на 8 ГБ, а 2 штуки с успехом заменят гораздо более дорогую карту на 16 ГБ.

Но для других применений, в том числе игр, обучения серьезных LLM, точных FP64/FP32-вычислений (наука, CAD, 3D), они уже не годятся.

Комментарии (13)


  1. SmallDonkey
    24.08.2025 12:20

    Спасибо, я ждал эту статью, давно интересовали эти gpu


  1. Spiritschaser
    24.08.2025 12:20

    Шикарно. Как раз ищу объект для экспериментов с райзером от wifi слота M.2 на PCIexpress 1 - хочу сделать переносимую внешнюю LLM "машину" для любого ноута для AI агента в IDE.


  1. MountainGoat
    24.08.2025 12:20

    Не уверен, что из производительности 8b в таком раскладе можно экстраполировать выводы о производительности 32b и 70b. Там всё упрётся, как и всегда, в пропускную способность памяти и шины, а не флопсы. А покупать железо, чтобы гонять на нём 8b - это весьма нишевый случай.


    1. WebSlave Автор
      24.08.2025 12:20

      Никто и не предлагает такое решение для серьезных применений. Это больше побаловаться, поизучать, поисследовать, когда интересно вроде, но пока не знаешь, насколько оно тебе надо.
      Естественно, набирать 40-60 ГБ видеопамяти картами по 10 ГБ - такое себе. Но 3 штуки, к примеру, вполне реально. Масштабируется оно нормально. При работе двух карт модель распределяется по обеим, при этом падения скорости относительно работы той же модели (8b, естественно) вообще нет. На двух картах работают модели по 14b, они уже не такие тупенькие. А 3 заменят карту на 24 ГБ, что по цене вообще несопоставимо. Пропускная способность памяти у них очень даже на уровне, по шине передается не так много данных, судя по всему, так что ничего никуда не упрется.
      Но ещё раз - это вариант для баловства и дешевых экспериментов.


  1. malyazin_2010
    24.08.2025 12:20

    У меня ПК из трех майнинговых карт p106-100 (аналог 1060ti). Собрал для создания 3д моделей. Три p106-100 в итоге работают по производительности как одна 3060ti, но по цене в пять раз дешевле. Подробнее тут: https://habr.com/ru/articles/896454/

    Есть планы заменить  р106-100 на cmp40hx, тогда производительность возрастет в три раза
    Есть планы заменить р106-100 на cmp40hx, тогда производительность возрастет в три раза


    1. WebSlave Автор
      24.08.2025 12:20

      А точно CMP 40HX подходят? Я где-то встречал, что у них как раз FP16 порезана. Но ничего не утверждаю - тут достоверности никакой, пока сам не проверишь, не поймёшь. Если что, пробуйте осторожно, сначала на одной. Если что не так, то 50HX попробовать можно, но она больше и кушает тоже больше.


      1. malyazin_2010
        24.08.2025 12:20

        У меня opelCL программа, поетому результаты openCL bencmark должны примерно отражать реальную производительность для моих нужд. CMP30 И CMP40 судя по бкнчмарку хорошо мне подойдут. А производительность CMP50 и CMP70 в бенчмарке openCL по каким-то причинам сильно урезана, поэтому скорее всего она окажутся хуже, чем у 30-й и 40-й.


        1. WebSlave Автор
          24.08.2025 12:20

          Нет, не так. openCL может работать с любыми типами данных, это зависит от Вашей программы. Я ведь тоже производительность по OpenCL-Benchmark определял. И она по разным типам данных совершенно разная. Чаще всего бенчмарки их усредняют и получают "среднюю температуру по больнице".

          Но чаще всего, конечно, при вычислениях используется FP32, а с ним у CMP 50/90 вообще беда. Это llama оказалась неожиданным исключением. С этими картами могут быть любые сюрпризы. Например, CMP 50/90 по вычислениям вроде бы примерно равны, а по Furmark они в 5 раз отличаются. Что-то там ещё порезано. И что не так в других - тоже толком неизвестно. В каждом конкретном случае только пробовать, благо здесь цена ошибки не велика.


          1. malyazin_2010
            24.08.2025 12:20

            В целом у меня такая же логика. Я купил р104-100, и ее мощность окащалась в полтора раза больше р106-100.

            Дальше план купить по одной cmp30/40/50/70/90/100 и затестить что как работает. Потом куплю 3-4 штуки тех карт, которые окажутся самыми эффективними в моей задаче.


  1. 10011001010010010
    24.08.2025 12:20

    Для ИИ и видеорендеринга критически важна производительность шин(ы) PCI по которой идёт обмен данными между GPU и CPU и RAM. у майнинга никакого обмена толком нет, там хватает просто любого дохлого шнурка. Так что майнинговые карты для ИИ не годятся.


    1. WebSlave Автор
      24.08.2025 12:20

      Уважаемый, вы статью вообще читали? Это заявление из рода "этого не может быть, потому, что не может быть никогда!". Пруфы давайте. У меня они есть, а у Вас?


  1. semushin
    24.08.2025 12:20

    У меня cmp 90hx. Работают модели только те, что влезают в память, типа 7b. всё что выше выдают ошибки. не знаю в чём проблема, с виду вроде новая, знакомый говорит, возможно проблема в банке. в паре с p102-100 работать не хочет. p102-100 в lmstudio в версиях выше 3.20 не работают. интересует скорость генерации при двух картах в параллели. у меня gtx 1080 и p102-100. одна 1080 выдаёт что то около 20 токенов/с на 4b модели, а в паре с p102-100 уже 7 токенов/с. PS у cmp90hx охлад мне нравится.. 7 трубок.


    1. WebSlave Автор
      24.08.2025 12:20

      Странно... Я такого не встречал. Те, что влезают в память работают, а что не влезают - нет? Может, это программный косяк какой-то? Без видеокарты на CPU работает? А Вы пробовали подобрать модель размером "под завязку", чтоб примерно 9 ГБ заполнить?

      Р102-100 в LM Studio не работает, а в ollama? Вторая карта снижает производительность? Такое возможно, если она медленнее первой. Модель делится поровну между ними и скорость усредняется. Может, у p102-100 как раз скорость FP16 порезана?

      С охлаждением CMP 90HX не всё хорошо, я уже начитался и насмотрелся. Там чипы памяти перегреваются и майнеры разными способами с этим борются. Я, например, купил карту с медной пластиной на памяти, она не греется. Кстати, из-за перегрева в майнинге могут быть и проблемы с памятью. Может, тесты какие-нибудь найти и погонять?