Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст нейросетей - image и video). Так же поговорим о выборе видеокарты и параметрах влияющих на генеративные workflow.

Telegram

VRAM requirements

Для начала - график с оптимальными и минимальными значениями VRAM для image и video моделей.

Почему упор на обьем VRAM? При недостатке памяти вы либо не запустите модель, либо одна генерация будет длиться 1-2+ минуты (для image), что делает модель абсолютно не юзабельной. И да - с 8 gb можно запустить, например FLUX fp8, но это будет похоже на общение по почте - долго и муторно.

До минимальных значений модель либо выдаст ошибку, либо будет часто забирать global memory, что замедлит ее в разы. Оптимальное значение - это либо официальное требование VRAM, либо максимальное число по комьюнити тестам, выше которого обьем уже не даст приемущества в скорости.

Что влияет на размер нейросети?

Почти все веса модели - это матрицы и вектора (ну или weights and biases), которые еще называют "параметрами", вы могли видеть, что одна модель имеет размер 32B, у GPT-5 вообще 2 триллиона параметров и т.п. Они имеют precision или quantization level и отличаются по количеству байт.

Самые популярные форматы:

  • FP16 - (16-bit floating point) 2 байта на параметр

  • BF16 - (16-bit floating point) 2 байта - разница в Exponent и Fraction битах

  • FP32 - (32-bit floating point) 4 байта

  • FP8 - здесь начинается квантизация - это самый популярный формат, требует 1 байт на параметр

  • GGUF - уже немного другой формат, но включим его сюда, квантизация начинается от Q2 до Q8, gguf - самый оптимизированный вариант

Соответственно, можно радикально сжать модель, если параметр будет весить не 4 байта, а один.

32B⋅4 byte=128GB
32B⋅1byte=32GB

Quantization

Если у вас недостаточно VRAM, или базовая модель огромна - ищите quantized версии (fp8, GGUF, lightning).

Quantization снижает битность параметра (FP32 --> FP16) и может поменять float на int (FP32 --> INT8), что сильнее оптимизирует нейросеть, снизит computational и memory costs. Говорят даже о снижении потребления энергии, но это в теории.

Да, за оптимизацию нужно платить качеством, но это не столь критично, когда стоит вопрос между использованием и не использованием нейросети.

(По правде, в личных тестах я почти не заметил отличий FLUX.1-Dev и fp8 версии, они становятся видны при снижении количества параметров (WAN 2.2 (14B) и (WAN 2.2 (5B)) или с изменением workflow (FLUX-Dev и FLUX.Schnell))

Зачем вам GPU?

Нейросети нагружают железо матричными операциями, сами матрицы большие, нейронов и слоев бывает много - значит нам важен обьем памяти и скорость вычислений.

За вычисления отвечают ядра, у GPU их больше, чем у CPU, плюс отличия в архитектуре дают многократное приемущество в паралельных задачах. Тензорные ядра могут складывать и умножать матрицы за одну операцию. Все это важно для нейросетей, 3D, мат. анализа и любой big data.

При работе с нейросетями приходится делать много итераций: править промт, конфиг, делать тесты и чинить сломанные моменты. Чем короче каждая итерация - тем быстрее дорога к нужному результату.

Основа скорости - тензорные ядра. Они настолько быстрые, что основной проблемой становится скорость VRAM.

Memory bandwidth

GPU имеет собственную память (VRAM), она разделяется по блокам:

  • Streaming Multiprocessors (SM):

    • Registers

    • Shared Memory

    • L1 Cache

  • L2 Cache

  • Global Memory

L1, Shared Memory, L2, Registers - отличаются по размеру и скорости, не будем останавливаться на них.

Global Memory - самая большая, но наиболее труднодоступная и медленная.

Напомню, что нам важны тензорные ядра, они складывают все наши матрицы и делают это настолько быстро, что могут спокойно простаивать 50% времени, потому что не успели получить новые операции из памяти - здесь возникает bottleneck.

Memory bandwidth (MB) - это скорость перемещения даты между GPU ядрами и блоками памяти. MB и количество тензоров должны быть в балансе. Если у GPU много тензоров, но низкая пропускная способность - толку от них мало. Далее я покажу хорошие примеры потребительских GPU, а сейчас наконец-то переходим к нейросетям!

Нейросети и VRAM

Напомню, что на графике минимальный (до него модель не будет работать) и оптимальный обьем VRAM. Я разбил данные на отрезки по 8, 12, 16, 24-32 gb - они наиболее популярны.

В списке:

Image-models:

  • Stable Diffusion (SD)

  • FLUX

  • Qwen-Image & Qwen-Edit

Video-models:

  • Wan

  • Hunuyan-Video

  • LTX-Video

Желтым цветом отмечены "разблокированные" модели, доступные с увеличением VRAM.

8 gb

8 gb критически не достаточно для локальных моделей, я сам обновил свою 3070, чтобы плотнее заняться ими. На 8 gb не доступны:

  • Wan 2.2 (14B) - топовая видео модель с комьюнити и различными workflow

  • FLUX.1-Dev будет работать в fp8 версии, но - это самая низкая граница, генерации могут занимать несколько минут

  • по опыту - не доступен любой ControlNet workflow

Здесь находится минимальная граница, вы как бы можете запустить модель, но она будет работать не оптимально, будет залазить в global memory, все будет медленно и доооолго.

12 gb

Свою RTX 3070 я обновил сразу на 5090, но перед этим пользовался различными VDS серверами и Colab'ом с Runpod'ом. Чаще пользовался A2 на 16 gb или той же 5090 на 32 gb. Не могу поделиться опытом работы на 12 gb.

Тут открываются:

  • FLUX.1 Kontext GGUF (но это нижняя граница)

  • FLUX.2 fp8

Stable Diffusion (SD) не буду даже упоминать - мое мнение вы можете прочесть в ТГ.

16 gb

Самый оптимальный (на данный момент) обьем, здесь варятся локальные SOTA модели:

  • WAN 2.2 (14B)

  • FLUX.1-Dev и FLUX.2-Dev

  • Qwen-Image

Но на Qwen-Edit памяти уже не хватит, со временем требования вырастут и на актульные модели (чего стоит FLUX.1 и FLUX.2). Для самых жирных моделей потребуется отключить все программы, кроме ComfyUI, чтобы получить полную производительность.

24-32 gb

Территория Control-Net'ов, сложных workflow, файнтюнинга и 90-го семейства RTX.

Разблокирываются:

  • FLUX.1 Kontext

  • Qwen-Image-Edit

Control-Net и сложные workflow применяют технику MoE (Mixture of experts), когда задача распределяется между "экспертными" моделями, из-за этого количество LoRA и даты которую нужно подгружать - возрастает вместе с требованиями к обьему и скорости VRAM.

Для файн-тюнинга нужно прогонять датасет по множеству раз, от размера, количества эпох и отдельных параметров (например Learning Rate'а и длины токена) зависит качество, с бюджетными видеокартами трудно удержать все параметры на приемлемом уровне.

Видеокарты

По аналогии с моделями, для вашего удобства я собрал все популярные RTX карты в одной таблице и сделал анализ, но без цены, потому что не все GPU бывают в наличии, люди живут в разных местах, ситуация с дефицитом постоянно меняется. Решение по цене вы можете сделать самостоятельно, а сейчас посмотрим на 3 ключевых параметра:

  • обьем VRAM

  • Memory bandwidth (gb/s)

  • Количество Tensor Cores

Важный дисклеймер: RTX 5070 Super и RTX 5080 Super на момент Декабря 2025 еще не вышли, они запланированы на 2026 год.

Данные отдельно по каждому параметру:

VRAM разделены по цвету:

  • красный - недостаточно

  • желтый - терпимо

  • синий - оптимально

  • зеленый - top-pick

  • фиолетовый - особенный случай

  • (Черным отмечен мой выбор GPU)

RTX tier 50

Я уже отмечал, что 8 gb недостаточно для локальных нейросетей, поэтому 50-ое семейство - не лучший выбор.

RTX tier 60

Если вам нужен дешевый и сердитый вариант - это RTX 3060 с 12 gb. Для 16 gb лучше выглядит 5060 Ti, потому что 4060 Ti имеет почти в 2 раза меньший Memory Bandwidth, что может создать ощутимый bottleneck.

RTX tier 70

Смотрим на версии с 16gb VRAM, между 5070 Super и Ti появляется выбор:

  • Super - 2gb VRAM

  • Ti - 25% Memory Bandwidth

Мое мнение на стороне Super, 2 gb позволят комфортнее пользоваться ПК во время генерации, но вы можете выбрать скорость Ti версии.

(upd: На момент Декабря RTX 5070 Super еще не вышла, выбирайте между 4070 Ti Super и RTX 5070 Ti, разница в параметрах не такая большая - можно отталкиваться от цены)

RTX tier 80

Для меня фаворит - 5080 Super из-за 24gb VRAM. Среди других я бы не стал выбирать обычную 5080, а посмотрел в сторону 4080, потому что у 50 серии нет особого прироста в тензорных ядрах, а цена заметно выше.

(upd: пока 5080 Super не вышла - я бы смотрел на RTX 4080)

RTX tier 90

Топ-пик и мой пик - RTX 5090. Сила, мощь и явный отрыв среди вообще всех других видеокарт. Но вы можете взять и 40 серию, и 30.

3090 - особый случай, топ за свои деньги, Xeon среди видеокарт (шутка). Мощный и сердитый вариант, кто хочет отдачи от каждого вложенного рубля.

На этом все, мы рассмотрели нейросети и видеокарты. Кому было интересно и полезно - можете подписаться на мой ТГ-канал. Я пишу про нейросети (в основном локальные), тех арт и иногда про 3D. Спасибо за внимание!

Комментарии (24)


  1. jarkevithwlad
    21.12.2025 16:30

    если нужна генерация изображений то есть nunchaku github который позволяет некоторые модели запускать при 3gb vram, вот недавно выпустили поддержку z-image, а старый flux-dev давно ими квантован, потерь качества почти нет, при этом и скорость значительно выше

    Скрытый текст


  1. vp7
    21.12.2025 16:30

    А что на счёт apple'овских M процессоров? Имеют право на жизнь?

    M2 Pro с 32 Gb RAM сейчас можно купить за 120-140 т.р. - скорость ниже, но по объёму памяти ему нет конкурентов.


    1. stas_dubich
      21.12.2025 16:30

      Я тестировал M2 Pro но с 16 gb ram, на простых текстовых моделях
      Если RTX 3090 выдает условно 60 токенов в секунду, то M2 Pro - по ощущениям 5-10
      Да модель помещается, но скорость оставляет желать лучшего


      1. Bardakan
        21.12.2025 16:30

        нейросеть говорит что m2 pro - не альтернатива 3090. Нужно брать mac studio m4 max или m3/m4 ultra, причем с большим запасом озу - от 64гб


      1. AbuMohammed
        21.12.2025 16:30

        Мы запускали qwen для аннотации имэджевых данных на m2(а100 склеила ласты и ушла в страну вечной тренировки, а надо было здесь и сейчас) , вполне юзабельно было.


        1. Bardakan
          21.12.2025 16:30

          можно подробнее? Если я правильно понял, для вашей задачи как будто скорость не особо критична


    1. iwram
      21.12.2025 16:30

      И работает и есть проблемы. Не все модели будут корректно работать если купите самый дорогой mac studio. Оставлю это https://github.com/pytorch/pytorch/issues/141287 - некоторые модели и в том числе для дообучения - будут работать через процессор, что вызывает печаль. Не стал бы на данный момент инвестировать в яблоки, если цель запускать модели и остальные вещи связанные с ML


    1. Shannon
      21.12.2025 16:30

      А что на счёт apple'овских M процессоров? Имеют право на жизнь?
      M2 Pro с 32 Gb RAM сейчас можно купить за 120-140 т.р. - скорость ниже, но по объёму памяти ему нет конкурентов.

      У M2 Pro скорость памяти 200 гб/с, это всего в 2 раза выше чем DDR5 память, и на старых маках нет тензорных matmul ядер, они появились только в m5. Есть, например, Ryzen AI Max+ 395 (Strix Halo), продаются на озонах, там скорость памяти 256 гб/с, бывают до 128гб, но стоят дешевле маков.

      Сейчас в продаже появились AMD Pro R9700 32GB за 1300 баксов, люди уже тестируют LLM, flux2, и wan2.2, 128 тензорных ядра, поддержка fp4, LLM заводятся на AMD давно без проблем, и есть официальные сборки ComfyUI на AMD. Не так быстро и удобно как CUDA, но быстрее и удобнее чем старые маки.

      Ещё плюс GPU - это возможность запускать огромные MoE модели за счёт ОЗУ. Например, для запуска GPT-OSS-120B нужно 64гб RAM и немного VRAM, примерно тоже самое с видеогенератором Wan2.2, ему, помимо VRAM, нужно много RAM для быстрой работы.

      Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM


  1. m0xf
    21.12.2025 16:30

    Ещё есть вариант - переделанная RTX 4090 на 48Gb. По цене примерно как RTX 5090.


    1. wiki7979
      21.12.2025 16:30

      Подскажите профану. Если есть обычный мини пк alder n100, с 8 ГБ ОЗУ - можно ли как-то подключить видеокарту?


      1. melodictsk
        21.12.2025 16:30

        Да, можно. В разъём М2 для ссд. Это не имеет никакого смысла. Потому, что у Н100 очень медленная озу. Я делал эксперимент на минипк с амд 6800hs 16гб лпддр5 + внешняя видеокарта 3070м 8гб подключён на через м2 4х псие4.0. Вполне шустро и сносно работает благодаря быстрому процессору и очень быстрой озу (по тесту под 100 гб/с).


  1. rrrrex
    21.12.2025 16:30

    Какие ещё RTX 5070/5080 super? Как можно советовать то, что ещё не вышло.


    1. Starkfrost
      21.12.2025 16:30

      Тоже споткнулся на фразе "Для меня фаворит - 5080 Super из-за 24gb VRAM". Всё-таки нейросеть писала.


    1. Zombieleon7
      21.12.2025 16:30

      Они скорее и не выйдут, судя по инсайдам


    1. Andreev_TechArt Автор
      21.12.2025 16:30

      забыл упомянуть, да. Чуть позже будет время внесу комент в статью


  1. Astus
    21.12.2025 16:30

    Z-image не хватает, потрясающе быстрый и качественный вариант домашней локальной генерации, на моей старушке 2080 просто летает, лучшее соотношение скорости-качества на данный момент. С нетерпением жду edit-версию.


    1. Andreev_TechArt Автор
      21.12.2025 16:30

      Z-image да, пока писал статью и занимался video нейронками - упустил ее из вида. Они выходят слишком быстро


  1. theult
    21.12.2025 16:30

    Судя по ценникам в магазинах, нейросетям нужна абсолютно вся ram, vram, tlc и 3dnand :)


  1. FluffyFeline
    21.12.2025 16:30

    Что тут делают несуществующие видеокарты?


    1. Andreev_TechArt Автор
      21.12.2025 16:30

      добавил комменты в статью, что они пока не вышли


  1. mrwindowspro
    21.12.2025 16:30

    Спасибо за разбор! Жаль тут и много мусора


  1. Moog_Prodigy
    21.12.2025 16:30

    Ну, для генерации картинок врам и гпу, имхо даже поважнее будет, чем для применений типа LLM. Поясню: когда мы пишем промпт для картинки, нам нужна обратная связь (в большинстве случаев) - что то мы упустили в промпте, может местами переставить, веса подправить, а может и моделька неподходящая. Но пока картинка вся не сгенерится - мы этого не поймем. Без ГПУ на проце это может занять минут 15-30 ожидания, за которые можно уже подзабыть - а что мы хотели то? Или наоборот, за это время накрутили совсем новый промпт, который кажется нам верхом промптинга....через следующую генерацию понимаем что это не так. Наше счастье, что генераторы картинок (точнее их модельки) не такие огромные, как LLM, поэтому можно и на не новых видеокартах работать.

    LLM даже на проце без всяких ГПУ начинают выдавать токены сразу. Нууу..."почти" сразу. Тем не менее они их начинают понемножку выдавать, и буквально с самого начала становится понятно, хрень она пишет или нет. Например "Я не могу" в начале ответа может вполне быть стоп-словом, если моделька отвечает по API, и прервать дальнейшую генерацию можно в самом начале. Или какое нибудь "Извините, я...".

    Или вообще говоришь ей писать на питоне а она начинает выдавать псевдокод в виде смеси Питона и Си. Потому что она насмотрелась этого псевдокода в статьях.

    Вот видеогенераторы - там все настолько медленно и жруче, что даже и не поймешь. Но подозреваю что с ними все как с рисовалками картинок. Это же по сути те же рисовалки, только у них унутре уже встроены контролнеты и прочее барахло, которое призвано по сути нарисовать и чуть изменять картинку, и так тысячи раз.


  1. dadada1255
    21.12.2025 16:30

    rtx 5070 18gb и rtx 5080 Super 24gb - этих карт нет на данный момент- декабрь 2025.

    Текст писала нейросеть, без проверки редактором..


  1. shurx
    21.12.2025 16:30

    Я использую Triton и sageattention для ускорения генерации на 4090. Но с каждым разом новые модели становятся более требовательными.