Всем привет!

2025-й постепенно подходит к концу. А хайп вокруг искусственного интеллекта (ИИ), длящийся уже три года, заканчиваться не собирается. И вполне возможно, что именно в этом году происходит зарождение нового тренда внутри этого хайпа. Он заключается в переносе вычислительных мощностей ближе к пользователю - прямо домой, на его личную вычислительную станцию. Похоже, что большие языковые модели (LLM) и генеративный ИИ перестают быть прерогативой дата-центров.

Рис. 1. Техно-магнат дарит другому техно-магнату техно-энтузиасту специализированный миникомпьютер для локальной работы с нейросетями [1].
Рис. 1. Техно-магнат дарит другому техно-магнату техно-энтузиасту специализированный миникомпьютер для локальной работы с нейросетями [1].

В этой статье приведен обзор решений, которые можно применить в качестве домашних вычислительных станций ИИ сегодня.

Постановка задачи

На определенном этапе мне понадобилась железка для локальной работы с LLM с удовлетворительными показателями качества и скорости за вменяемые деньги. Для решения следующих задач:

  • анализ довольно большого объёма кода;

  • анализ технической документации;

  • различные административные задачи (составление вакансий, отбор соискателей, анализ договоров, саммаризация совещаний и т.п.)

  • немного вайбкодинга.

В каждом из перечисленных случаев речь идет о чувствительной информации, которой неправильно делиться с операторами облачных LLM.

Что касается качества работы - стоит рассматривать нейросети с максимальным количеством параметров, которые могут поместиться в оперативной памяти целиком. Эксперименты с Openrouter на нечувствительных к передаче данных показали, что более мелкие модели выглядят менее сообразительными, чем их более крупные родственники.

Есть грубое эмпирическое правило (не помню откуда оно взялось), что размер модели в миллиардах параметров примерно соответствует количеству гигабайт оперативной памяти машины, на которой ты хочешь эту модель запустить. То есть модель на 120 миллиардов параметров можно запустить на железе со 128 ГБ оперативки. Поскольку речь идет об анализе больших документов, размер контекстного окна должен быть при этом максимальным (хотя бы 100 тыс. токенов). Контекст "отъест" еще сколько-то, так что чем больше памяти, тем лучше.

И желательно при этом, чтобы скорость ответов не вызывала чувства мучительного ожидания. Основной показатель скорости, который обычно все обсуждают, это скорость генерации ответа в токенах/сек (t/s). Мне не удалось в моменте найти какие-то академические исследования на тему оптимально воспринимаемого порога скорости. Но вопрос периодически всплывает в различных сообществах, например, здесь [2]. Вполне можно взять за основу, так что будем отталкиваться от следующих показателей:

  • Для фоно­вых задач и запросов с большим контекстом многие могут терпеть скорости около 1–5 t/s, если качество вывода достаточно высокое.

  • Самый «минимально терпимый» диапазон для диалога с сетью в чате: 5–10 t/s.

  • Для программирования — часто озвучивают минимум 20–30 t/s.

  • Под агентные или длинные сессии — принято ожидать от 50 t/s и выше.

  • Крайнее неудобно всё, что ниже 3–5 t/s, особенно для интерактивных задач (диалог, код).

Также желательны компактные размеры девайса и по возможности минимальное энергопотребление (собирать комбайн на основе нескольких RTX 3090 или 4090, потребляющий более киловатта, не очень хочется).

Итак, чем же нас могут порадовать плоды прогресса?

Nvidia DGX Spark

Фото, приведенное на первом рисунке и весьма популярное в сети, было сделано 14 октября 2025 года. Улыбающийся Дженсен Хуанг дарит своё новое детище (тот самый DGX Spark) Илону Маску. Скорее всего, не только для того, чтобы сделать Илона чуть более счастливым. Возможно, столь тяжелая PR артиллерия подтянута потому, что Nvidia прочит этой небольшой коробочке большое будущее.

Рис. 2 Скриншот рекламного баннера с сайта Nvidia [3].
Рис. 2 Скриншот рекламного баннера с сайта Nvidia [3].

Официальный анонс устройства состоялся 18 марта текущего года [4]. По сути это первое специализированное устройство Nvidia для инференса LLM, рассчитанное на масс маркет. Его стоимость составляет 3 999 долл. США, поставки начались как раз в октябре. При большом желании можно заказать и в Россию (на известном сайте с частными объявлениями цены стартуют от 410 тыс. руб.).

Что мы имеем под капотом:

Характеристика

Описание / Значение

AI-чип (GB10 Blackwell)

CPU + GPU, 1 петаFLOP FP4, оптимизирован для инференса LLM

Оперативная память

128 ГБ LPDDR5x Unified System Memory

Пропускная способность памяти

273 GB/s

Размер моделей для инференса

До 200 млрд параметров (одна система), до 405 млрд (две системы)

Tensor Cores

5-е поколение, FP4

Сеть

ConnectX-7 NIC, 200 Гбит/с

NVMe SSD

4 ТБ, аппаратное шифрование

Форм-фактор

150×150×50,5 мм, 1,2 кг

Питание

140–240 Вт TDP

AI софт/ОС

NVIDIA DGX OS и программный стек

Насколько хорош девайс для инференса свежих open source моделек? А ведь он реально неплох. Основная фишка устройства - объединенная память CPU/GPU. Это позволяет загружать модели до 120 миллиардов параметров целиком в область памяти, выделенную под GPU. Основные результаты тестов на фреймворке ollama, согласно [5], следующие:

Model Name

Model Size

Quantization

Prefill (t/s)

Decode (t/s)

gpt-oss

20b

mxfp4

2,053.98

60.91

gpt-oss

120b

mxfp4

94.67

41.88

llama-3.1

8b

q4_K_M

23,169.59

43.18

llama-3.1

8b

q8_0

19,826.27

28.54

llama-3.1

70b

q4_K_M

411.41

4.58

gemma-3

12b

q4_K_M

1,513.60

26.51

gemma-3

12b

q8_0

1,131.42

16.09

gemma-3

27b

q4_K_M

680.68

11.51

gemma-3

27b

q8_0

65.37

7.35

deepseek-r1

14b

q4_K_M

2,500.24

21.45

deepseek-r1

14b

q8_0

1,816.97

13.68

qwen-3

32b

q4_K_M

100.42

9.53

qwen-3

32b

q8_0

37.85

6.24

Prefill здесь - скорость обработки токенов запроса, Decode - скорость генерации ответа. К сожалению, в оригинальной таблице не указаны длины запросов и ответов (а это важно, скорость падает при увеличении длины запроса). Предположу, что и запрос и ответ были не более 1 максимум 2 килотокенов. Обычно подобное тестирование ведется с такими длинами.

Тестирование показывает, что Spark проигрывает по производительности до 4 раз современным дискретным GPU (например, RTX 5090 или RTX Pro 6000 Blackwell). Узким местом является относительно низкая пропускная способность ОЗУ (273 Гб/с). Но при этом Spark гораздо более компактный и энергоэффективный. Приведу-ка ещё раз первоисточник, отчет весьма подробный - [5].

Mac Studio M4 Max и M3 Ultra

По хорошему стоило бы поставить эти гаджеты на первое место (особенно M3 Ultra). Ибо на текущей момент это наиболее интересный вариант для локального запуска LLM. За исключением, пожалуй, небольшого нюанса, о котором упомяну чуть ниже.

Рис. 3. Внешний вид Mac Studio (одинаков для M3 Ultra и M4 Max). Фото и подробный обзор здесь [6].
Рис. 3. Внешний вид Mac Studio (одинаков для M3 Ultra и M4 Max). Фото и подробный обзор здесь [6].

Итак, 18 марта 2025-ого Nvidia публикует пресс релиз о первом в своем роде устройстве для локального инференса LLM, которое собирается начать продавать в октябре. А за пару недель до этого Apple публикует пресс релиз о своих новых Mac Stations, в котором M3 Ultra ни много ни мало «capable of running large language models (LLMs) with over 600 billion parameters entirely in memory, thanks to its advanced GPU and up to 512GB of unified memory with M3 Ultra — the most ever in a personal computer».

То бишь данный зверь с 512 Гб оперативной памяти на борту способен запускать большие языковые модели (LLM) с более чем 600 миллиардами параметров полностью в памяти. DeepSeek R1 с 671B параметров - прямо на вашем рабочем столе! Кстати, продажи начались уже в марте.

Что запрятано внутрь Mac Studio:

Параметр

Mac Studio M3 Ultra

Mac Studio M4 Max

Процессор (CPU)

28-ядерный (20 производительных + 8 энергоэффективных) или 32-ядерный (24+8)

14-ядерный (10 производительных + 4 энергоэффективных) или 16-ядерный

Графический процессор (GPU)

60 или 80 ядер

32 или 40 ядер

Нейронный движок

32-ядерный

16-ядерный

Оперативная память

96–512 ГБ унифицированной памяти, с пропускной способностью 819 ГБ/с

36–128 ГБ унифицированной памяти, с пропускной способностью 546 ГБ/с

Хранилище (SSD)

1–16 ТБ

512 ГБ–8 ТБ

Поддержка дисплеев

До 8 дисплеев с разрешением до 6K и 8K

До 5 дисплеев: 4×6K@60 Гц + 1×4K@144 Гц HDMI

Порты

6 × Thunderbolt 5, 2 × USB-A, HDMI 2.1, 10 Gb Ethernet, слот SDXC, аудио 3.5мм

Аналогичные порты, включая Thunderbolt 5, HDMI 2.1, USB-C и Ethernet

Энергопотребление

До 480 Вт

До 370 Вт

Нагрев и охлаждение

Усиленная система охлаждения с двумя вентиляторами

Эффективная система охлаждения

Особенности

Двойной чип M3 Max, оптимизирован для ресурсоёмких задач, ИИ и многопоточных вычислений

Новый чип M4 Max с акцентом на энергоэффективность и высокую частоту ядер

Было бы любопытно взглянуть на результаты тестов. К сожалению, подробного отчета найти не удалось, так что будем довольствоваться разрозненными данными.

Первым делом, конечно же, любопытно было бы взглянуть на результаты работы полноразмерного DeepSeek. Могучего джина, помещенного в столь маленькую коробочку. К счастью, любопытно было не только лишь мне [6]:

Модель

Размер контекста (запрос)

Скорость обработки запроса (t/s)

Скорость генерации (t/s)

DeepSeek V3 0324

0.069K

58.08 (1.19s)

21.05

DeepSeek V3 0324

1.145K

82.48 (13.89s)

17.81

DeepSeek V3 0324

15.777K

69.45 (227s)

5.79

DeepSeek R1

1K

75.92

16.83

DeepSeek R1

13K

58.56

6.15

Mac Studio M3 Ultra с 512 Гб на борту реально позволяет работать локально с моделями размером 670B+ при больших окнах контекста. Скорости генерации при малых контекстах (до ~1К токенов) у DeepSeek V3 и R1 схожи — 17–21 токен/сек. По мере увеличения длины контекста скорость генерации резко падает: на 16K токенов DeepSeek V3 выдаёт только 5.79 токенов/сек, DeepSeek R1 на 13K — 6.15 токенов/сек. То есть при реальной работе с длинным контекстом скорость заметно ниже, но в целом приемлемо. При запросе в 16 тысяч токенов использование памяти достигло 466 ГБ.

Для сопоставления результатов инференса Mac Studio с Nvidia DGX Spark приведу ещё одну таблицу [7]. Здесь приведены замеры на версии Mac Studio с меньшим размером ОЗУ. Но поскольку и модели тоже меньшего размера, полагаю, что сопоставление будет более менее адекватным. С запросом для тестирования тут всё понятно. Замеры делались по промту "Write a 500 word story".

Models

M3 Ultra (256GB, 80-core GPU)

mistral-large:123b (4bit)

8.42 tokens/s

llama3.1:8b (4bit)

85.02 tokens/s

deepseek-r1:14b (4bit)

46.50 tokens/s

deepseek-r1:32b (4bit)

25.58 tokens/s

deepseek-r1:70b (4bit)

13.16 tokens/s

Qwen2.5:7B (4bit)

88.87 tokens/s

Qwen2.5:14B (4bit)

47.25 tokens/s

Qwen2.5:32B (4bit)

26.02 tokens/s

Qwen2.5:70B (4bit)

12.21 tokens/s

На примере пары совпавших позиций видно, что скорость генерации у Mac Studio M3 Ultra примерно в 2 раза выше, чем у Nvidia DGX Spark. Не обязательно сравнивать эти цифры сейчас, я приведу финальную таблицу в конце статьи.

Но уже сейчас понятно, что Mac Studio M3 Ultra (особенно версия с 512 ГБ оперативной памяти на борту) - самое оптимальное решение для локального инференса LLM на сегодняшний день. Если бы не один жирный минус - высокая цена [8]:

Конфигурация

Официальная цена Apple ($)

M4 Max, 16C CPU, 40C GPU, 128GB, 512GB

3499

M4 Max, 16C CPU, 40C GPU, 128GB, 1TB

3699

M4 Max, 16C CPU, 40C GPU, 128GB, 2TB

4099

M4 Max, 16C CPU, 40C GPU, 128GB, 4TB

4699

M4 Max, 16C CPU, 40C GPU, 128GB, 8TB

5899

M3 Ultra, 28C CPU, 60C GPU, 256GB, 1TB

5599

M3 Ultra, 28C CPU, 60C GPU, 256GB, 2TB

5999

M3 Ultra, 28C CPU, 60C GPU, 256GB, 4TB

6599

M3 Ultra, 28C CPU, 60C GPU, 256GB, 8TB

7799

M3 Ultra, 28C CPU, 60C GPU, 256GB, 16TB

10199

M3 Ultra, 32C CPU, 80C GPU, 256GB, 1TB

7099

M3 Ultra, 32C CPU, 80C GPU, 256GB, 2TB

7499

M3 Ultra, 32C CPU, 80C GPU, 256GB, 4TB

8099

M3 Ultra, 32C CPU, 80C GPU, 256GB, 8TB

9299

M3 Ultra, 32C CPU, 80C GPU, 256GB, 16TB

11699

M3 Ultra, 32C CPU, 80C GPU, 512GB, 1TB

9499

M3 Ultra, 32C CPU, 80C GPU, 512GB, 2TB

9899

M3 Ultra, 32C CPU, 80C GPU, 512GB, 4TB

10499

M3 Ultra, 32C CPU, 80C GPU, 512GB, 8TB

11699

M3 Ultra, 32C CPU, 80C GPU, 512GB, 16TB

14099

Забываем на время про потенциальную возможность завести на своем рабочем столе свой личный полноразмерный Deepseek и двигаемся дальше.

Strix Halo (RYZEN AI MAX+ 395)

Строго говоря, это название не какого-то конкретного мини ПК, а архитектуры (Strix Halo) нового процессора AMD на её основе (RYZEN AI MAX+ 395), анонсированного 6 января 2025 года на выставке CES 2025. Продажи мини ПК на его основе начались немного позже - в апреле - июле 2025.

Рис. 4. Чип RYZEN AI MAX+ 395.
Рис. 4. Чип RYZEN AI MAX+ 395.

RYZEN AI MAX+ 395 это высокопроизводительный мобильный процессор от AMD, построенный на архитектуре Zen 5. Он сочетает 16 ядер и 32 потока с базовой частотой 3 ГГц и ускорением до 5.1 ГГц. В процессоре интегрирован ускоритель Radeon 8060S с 40 вычислительными блоками RDNA 3.5, которая обеспечивает производительность, близкую к выделенным видеокартам. Кроме того, чип оснащён нейронным ускорителем ИИ XDNA 2 с производительностью 50 триллионов операций в секунду (TOPS).

Рис. 5. Мини ПК на основе RYZEN AI MAX+ 395: слева направо GMKtec EV0-X2, Beelink Мини-ПК Beelink GTR 9 Pro AI и MINISFORUM MS-S1.
Рис. 5. Мини ПК на основе RYZEN AI MAX+ 395: слева направо GMKtec EV0-X2, Beelink Мини-ПК Beelink GTR 9 Pro AI и MINISFORUM MS-S1.

Перечень доступных на рынке моделей на основе этого процессора с ценами на них любезно сведен в таблицу каким-то заботливым участником сайта Reddit здесь [9]. Надо сказать, что цены на большинство моделей со 128 Гб оперативной памяти составляют 1999 дол. США. Что на фоне рассмотренных выше альтернатив выглядит довольно привлекательно.

В качестве примера приведем характеристики наиболее распространенного в России (судя по количеству предложений на маркетплейсах) GMKtec EV0-X2 [10]:

Параметр

Значение

Процессор

AMD Ryzen AI Max+ 395, 16 ядер / 32 потока, TSMC 4nm FinFET, до 5.1 ГГц, 16 MB L2, 64 MB L3

Графика

Интегрированная AMD Radeon 8060S (архитектура RDNA 3.5, до 40 вычислительных блоков)

Оперативная память

LPDDR5X, 64 ГБ или опционально 128 ГБ, 8-канальная, частота 8 ГГц, пропускная способность 217 Гб/с

Постоянная память

PCIe 4.0 SSD, 1 ТБ или 2 ТБ

Сетевые интерфейсы

Wi-Fi 7 (максимальная скорость до 46 Гбит/с), Bluetooth 5.4, Ethernet 2.5 Гбит/с

Видеовыходы

Поддержка до 4 мониторов 4K/8K (HDMI 2.1, DisplayPort 1.4)

Порты

2x USB4 (40 Гбит/с), 3x USB 3.1 Gen2, 2x USB 2.0, HDMI, 3x DisplayPort, слот SD UHS-II

Хранение данных

SSD PCIe 4.0, 1-2 ТБ

Тепловой пакет (TDP)

Стабильная работа при 120 Вт, пик до 140 Вт

Дополнительные функции

Нейронный ускоритель XDNA 2 с производительностью до 126 TOPS для AI задач

Шум вентилятора

37–44 дБА в нагрузке

Режимы работы

Performance (120 Вт), Balanced (80 Вт), Quiet (50 Вт)

Питание

Блок питания 230 Вт

Нас особенно интересуют результаты инференса данного девайса и подобных ему. Они подробнейшим образом изложены в замечательном тесте [11]:

Рис. 6. Скорость обработки запроса Strix Halo для различных LLM (t/s).
Рис. 6. Скорость обработки запроса Strix Halo для различных LLM (t/s).
Рис. 7. Скорость генерации ответа Strix Halo для различных LLM (t/s).
Рис. 7. Скорость генерации ответа Strix Halo для различных LLM (t/s).

Выводы

Теперь нам остается сравнить описанные решения на инференсе на чем-нибудь одинаковом. Ранее у нас нашлись пересечения по двум моделям (llama3.1:8b квантизация 4bit и deepseek-r1:14b квантизация 4bit). Я не нашел в интернет результатов тестирования этих моделей на Strix Halo, поэтому сделал сам на своем GMKtec EV0-X2 (как можно догадаться, в результате своих изысканий я остановился именно на нём).

Итак, что мы имеем в сухом остатке:

Параметр

Nvidia DGX Spark

Mac Studio M3 Ultra

Strix Halo

Скорость генерации для llama3.1:8b (4bit), t/s

43.18

85.02

40.81

Скорость генерации для deepseek-r1:14b (4bit), t/s

21.45

46.50

20.57

Размер ОЗУ, Gb

128

256 или 512

64 или 128

Энергопотребление, W

до 240

до 480

до 140

Цена, USD

3999

от 5599 до 14099

1999

Ну что тут сказать... Было бы неплохо завести себе Mac Studio M3 Ultra, конечно. Но цена в 5,6 тыс. USD за модель с 256 Г ОЗУ выглядит не особо оправданной. Strix Halo лидирует по цене и энергосбережению, показывая производительность на уровне Nvidia DGX Spark.

При этом мини ПК на основе Strix Halo - это полноценный персональный компьютер на Windows 11, готовый к работе из коробки, совместимый со всем офисным и профессиональным софтом. Просто ставь на стол и работай. Так что выбор очевиден.

Большое спасибо, что дочитали до конца. Прошу потратить ещё 10 секунд своего времени и поучаствовать в опросе (ниже).


PS: LLaMA (Large Language Model Meta AI) — семейство больших языковых моделей компании Meta Platforms, Inc., признанной в РФ экстремистской организацией. Упоминание LLaMA используется исключительно в описательном ключе и не предполагает поддержки или одобрения её владельца.

Комментарии (37)


  1. GospodinKolhoznik
    10.11.2025 04:07

    Каких только оправданий не придумаешь, чтобы объяснить жене, зачем потратил столько денег на покупку дорогой видеокарты.


    1. achekalin
      10.11.2025 04:07

      Или новорожденной дочке вертолета на радиоуправлении.


  1. anonymous
    10.11.2025 04:07


    1. Walker2000 Автор
      10.11.2025 04:07

      Так и есть. Теперь можно показать жене эту статью. Правда, тут не совсем про видеокарту, скорее про мини компы.


  1. anonymous
    10.11.2025 04:07


  1. d3d11
    10.11.2025 04:07

    Я правильно понимаю, что локальные LLM должны постоянно дообучаться, в этом вопросе у облачных, видимо, преимущество? Или я что-то недопонимаю?


    1. Walker2000 Автор
      10.11.2025 04:07

      И те и другие могут добучаться только в том случае, если их кто-то дообучает )


      1. d3d11
        10.11.2025 04:07

        Это я и имею ввиду )
        Облачные дообучает вендор. Стало быть они будут всегда впереди?


        1. Walker2000 Автор
          10.11.2025 04:07

          Ну если в общем, то да. Облачная LLM это не только собственно LLM, но и сопутствующие сервисы (поиск в интернет, преобразование документов и автомтическое помещение их в промт, оптимизация системного промта, как минимум). В награду за всё это удобство пользователь шлёт информацию, которую ранее не доверял даже поисковикам.


        1. achekalin
          10.11.2025 04:07

          Смотря чему. Облачные в общем случае обучают "всему", а локальную Вы можете обучить на тех знаниях, которые актуальны Вам. И, скажем, Шекспира или Толстого она в качестве текстов не обгонит, зато, например, в узких задачах вроде написания ответа на вопросы юзеров согласно знаниям в вашей внутренней базе знаний в компании - может всех за пояс заткнуть.

          Вот и задача: сначала найти проблему, которую решаете, а потом решать, чем ее решать (в т.ч. хватит ли локальной модели). Локальная, с другой стороны, не засвечивает ваши данные облачному провайдеру - и хорошо если просто провайдеру, а не условным ЦРУ с АНБ.


          1. GLYUKOZA
            10.11.2025 04:07

            Локальному провайдеру интернета при этом можно всё светить? И хорошо если просто провайдеру, а не...


            1. seregina_alya
              10.11.2025 04:07

              Не совсем понятно, что вы имеете в виду. В случае локальной ЛЛМ провайдер обычно отсутствует - она работает на одном из ваших устройств, чаще на вашем собственном компьютере. А с облачной ЛЛМ трафик в любом случае зашифрован и провайдер ничего не видит


  1. Litemanager_remoteadmin
    10.11.2025 04:07

    Спасибо за проделанную работу, интересно было почитать, я не очень силен в теме , но что если разбивать задачу на несколько ПК у меня например есть пара лишних ноутов без дела


    1. Walker2000 Автор
      10.11.2025 04:07

      Спасибо за оценку. Если есть несколько компов с небольшим объемом памяти, можно запустить несколько небольших моделей или несколько агентов на основе них. Если, конечно, есть соответствующая задача.


  1. nikolz
    10.11.2025 04:07

    Есть грубое эмпирическое правило (не помню откуда оно взялось), что размер модели в миллиардах параметров примерно соответствует количеству гигабайт оперативной памяти машины, на которой ты хочешь эту модель запустить. То есть модель на 120 миллиардов параметров можно запустить на железе со 128 Гб оперативки.

    Число параметров надо умножить на формат параметра.

    Если модель имеет 120 миллиардов параметров, то запустить ее на железе со 128 ГБ оперативки возможно при формате FP8.

    Для запуска с форматом FP32 (полная точность) требуемый объем оперативки составит 512 ГБ.


    1. Walker2000 Автор
      10.11.2025 04:07

      Да, всё верно. В меньшую сторону тоже работает. 120 млрд параметров с квантизацией 4 бита это примерно 60 Гб весов модели.


      1. nikolz
        10.11.2025 04:07

        Поправьте, "б" -это "бит", а байт - это "Б".


        1. Walker2000 Автор
          10.11.2025 04:07

          Поправил, спасибо.


  1. Anti2024
    10.11.2025 04:07

    Ну... Nvidia 5090 32гб сейчас стоит 325тр в среднем. Может быть мак студио и дешевле получится. Интересно бы их сравнить - мак студио и PC, за те же деньги.


    1. Walker2000 Автор
      10.11.2025 04:07

      В статье есть ссылочка про сравнение m3 ultra со сборками на видеокартах. К сожалению, оно не очень подробное. Но в сети наверняка что-то и поинтереснее есть, если покопаться.


  1. melodictsk
    10.11.2025 04:07

    Просто прикрути 3090, а лучше 4090 48ГБ к своему мини пк и удвоишь производительность. Можно даже через м. 2 псие. Там будет 4х 4.0 псие, что вполне хватит. В видюху влезет контент и будет там шевелиться очень шустро, намного шустрее чем на маке. Если память останется на видео, то и для активных слоев, если модель МоЕ.


    1. Walker2000 Автор
      10.11.2025 04:07

      4090 это 300 тыс руб. Есть ли смысл связываться, если можно купить готовый комп под инференс моделей вплоть до 120 млрд. параметров за 200?


      1. Bardakan
        10.11.2025 04:07

        цены на 4090 на местной барахолке в переводе на ваши рубли:
        60тыс
        157тыс
        174тыс
        ...

        Mac Studio на M3 и M4 там нет.

        Собственно поэтому и интересует сравнение со стандартным пк на видеокартах. Пусть даже это будет одна конфигурация для примера.


        1. Walker2000 Автор
          10.11.2025 04:07

          Я не занимался тестированием видеокарт и не планирую, если честно. Как по мне, такой подход слишком сложный и энергозатратный. Но тема популярна, попробуйте поискать решение на реддит, полагаю, кто-то точно делал такое сравнение.


  1. serov1984
    10.11.2025 04:07

    Интересная статья. Сохранил. Пока только начинаю всем этим интересоваться.
    Сейчас как раз ищу решение вопроса с видеопамятью.
    Можете, пожалуйста, подсказать с одним вопросом?

    Задача - запустить локально open source видео генераторы Wan и Huynyan, дообучить на своих наборах фото или мини-роликах.
    И потом начать генерировать ролики. В максимально возможном качестве (720р)

    Вопрос с памятью мне не совсем ясен.
    Оба генератора в оригинале требуют 80 Гб видеопамяти (или около того).
    Первые же форки на гитхабе у них (больше всего звезд Wan2GP) - это возможность запустить их на картах с небольшим объемом памяти.
    За счет чего сделано такое резкое снижение требований? Более примитивные ролики будут?

    Есть Nvidia 4070 с 12 GB.
    Этого хватит для задачи?

    На указанные в данной статье варианты денег, конечно, не хватит...
    Посматриваю в сторону БУ карт. Например, старая Tesla P40 8-летней давность имеет 24 гб, но старая версия CUDA и нет тензорных ядер.
    Имеет ли смысл для видео?
    И можно ли смотреть в сторону AMD как более дешевый вариант? Или Intel B60 на 24 ГБ?
    Бюджет не более 100 - 120 тыс.


    1. Walker2000 Автор
      10.11.2025 04:07

      Спасибо за оценку. Про генеративные модели не подскажу, к сожалению, не работал с ними.


    1. SergNF
      10.11.2025 04:07

      GGUF. Сам запускаю в ComfyUI на 16 GB VRam (5060Ti) Вы не написали какой Wan. Wan 2.2 использует 2 модели, поэтому либо еще больше врам памяти, либо ждать. Использую 2.1, мне хватает, не для коммерческого использования.


  1. SergNF
    10.11.2025 04:07

    На "Strix Halo" можно Линукс поставить? LLM и Windows ... не понимаю.

    ЗЫ. Перечитал "Ваш выбор", у него unified ram, как у Mac? Т.е. до 64 Гб VRAM?


    1. Walker2000 Автор
      10.11.2025 04:07

      VRAM до 96 Гб. Судя по ссылке с тестами LLM на Strix Halo, Linux можно на него поставить. Приведенные тесты делались на Linux.


    1. Bardakan
      10.11.2025 04:07

      windows точно станет, потому что есть gpd win 5 на том же проце и с windows 11 на борту.
      Кстати как-то подозрительно - портативка на проце, который в этой статье заявлен как "проц для ИИ вычислений"


    1. rodial
      10.11.2025 04:07

      На "Strix Halo" желательно Linux ставить, т.к. производительность при запуске LLM выше. Ну и конечно можно, та же Ubuntu 24 ставится без проблем.

      VRAM от 512MB до 96GB при 128GB RAM, unified

      В ROCm недавно добавили официально поддержку этого чипа, но только GPU, поддержки NPU пока нет, впрочем GPU выдает нормальные результаты, у меня даже немножко больше чем на графиках в статье.


  1. GmKru
    10.11.2025 04:07

    Здравствуйте! тоже хочу приобрести себе Мини ПК на основе RYZEN AI. Выбираю из тех же моделей, что и Вы. Как понял, они в принципе одинаковые, почему остановились именно на GMKtec EV0-X2?

    У этих трёх моделей должны отличаться системы охлаждения, поделитесь своим мнением по этому поводу?


    1. Walker2000 Автор
      10.11.2025 04:07

      У GMKtec EV0-X2 три вентилятора для охлаждения. Плюс эта модель в принципе наиболее покупаемая была на тот момент времени судя по количеству заказов. Поэтому решил остановиться на нем. Сейчас немного напрягает внешний источник питания. Возможно, стоило по этой причине приглядеться к Beelink GTR 9 Pro AI. Но я не изучал, насколько эффективно у него работает система охлаждения.


  1. PavelBelyaev
    10.11.2025 04:07

    Наверно месяц любуюсь на озоне EVO-x2 128gb+2tb ssd, он то 165, то 190, то 170... Плюс пошлина. Откопал на али за 163 где то с доставкой вариант на 128+2, плюс где то 20 пошлина будет. Надеюсь не кирпич приедет...
    Спасибо вам за обзор, до этого только отзывы на озоне видел, можете протестировать Qwen 3 coder q4 30b?
    У меня сейчас комп с 5060ti 16gb, но модельки типа Mistral 3.2 Q4 24B весят 14.7GB, им порой мешает запуститься запущенный браузер который откусывает 1.1 гиг, товарищ на линуксе вообще иксы вырубает и с другого компа гоняет нейронки, вот сделали бы бюджетнеые типа 5060 видяшки но гигов на 100+, как будто не упирается в камень, а упирается в память, когда не может всю модель на видеокарту загрузить то сразу скорость такая что при ответе каждой буквы ждешь по 10 секунд.


    1. seregina_alya
      10.11.2025 04:07

      Китайцы сделали. Видела где-то обзор одного чуда, на которое добавили 48 гигабайт памяти вдобавок к чипу сороковой серии)


      1. PavelBelyaev
        10.11.2025 04:07

        Да, вроде 4090d, а тем временем на авито есть услуги прокачки всяких 4090 за кучу денег, распаивают больше памяти... Сервисы подхватили хайп.


    1. Walker2000 Автор
      10.11.2025 04:07

      Зависимость вывода первого токена от длины контекста
      Зависимость вывода первого токена от длины контекста

      Для qwen3-coder-30b примерно такая картина. Единственное, квантизация здесь q8_0. И параметры настройки нейросети в LM Studio были ещё не оптимальные, скорее всего. И кнопка мощности в среднем положении (80 Вт на графическом ускорителе). Так что в реальности побыстрее должно быть. На коротком контексте быстродействие qwen30-coder-30b можно посмотреть в обзоре, который в статье последним приведён. Там простая qwen3-30, думаю, они примерно одинаково себя ведут. Мне больше понравилась gpt-oss-120b, надо сказать.