Введение

Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

В качестве графического интерфейса я использовал ComfyUI. Это программа для генерации изображений, в которой весь процесс строится через ноды, соединённые между собой. За счёт этого можно видеть весь pipeline целиком: загрузку модели, обработку промпта, создание latent image, запуск sampler, декодирование и сохранение результата.

По сути, компьютер превращается в небольшую локальную студию генерации изображений. В моём случае система собиралась на обычном домашнем ПК с видеокартой уровня RTX 3060 12 GB. Этого достаточно для комфортной работы с большим количеством моделей, особенно если не пытаться сразу генерировать изображения в слишком большом разрешении.

Установка и структура папок

После установки ComfyUI важно правильно разложить файлы по папкам. В этой статье я не обучал модель с нуля, а использовал уже готовую скачанную модель генерации изображений. В моём случае это была NoobXL в формате .safetensors.

Основные директории выглядят так:

ComfyUI/
  models/
    checkpoints/
    vae/
    loras/
    upscale_models/
    controlnet/

Основной файл модели нужно поместить в папку:

models/checkpoints

Если используются дополнительные компоненты, они раскладываются по соответствующим директориям:

ComfyUI/models/vae/              — для VAE
ComfyUI/models/loras/            — для LoRA
ComfyUI/models/upscale_models/   — для моделей апскейла
ComfyUI/models/controlnet/       — для ControlNet

После добавления модели ComfyUI желательно перезапустить, чтобы программа увидела новый checkpoint в списке доступных моделей.

Базовый workflow

После подготовки модели нужно собрать базовую схему генерации. В ComfyUI каждый элемент создаётся через рабочую область: достаточно нажать правой кнопкой мыши по пустому месту и найти нужную ноду в списке.

Для минимального workflow понадобятся следующие ноды:

Load Checkpoint
CLIP Text Encode
CLIP Text Encode
Empty Latent Image
KSampler
VAE Decode
Save Image

Общая схема выглядит так:

Load Checkpoint
├─ MODEL ───────────────→ KSampler
├─ CLIP ────────────────→ CLIP Text Encode (Positive)
├─ CLIP ────────────────→ CLIP Text Encode (Negative)
└─ VAE ─────────────────→ VAE Decode

CLIP Text Encode (Positive) ─→ KSampler (positive)
CLIP Text Encode (Negative) ─→ KSampler (negative)

Empty Latent Image ─────────→ KSampler (latent_image)

KSampler (samples) ─────────→ VAE Decode (samples)

VAE Decode (image) ─────────→ Save Image

В ноде Load Checkpoint выбирается модель из папки checkpoints. Эта нода является отправной точкой всего процесса: она загружает checkpoint и отдаёт три важных компонента — MODEL, CLIP и VAE.

MODEL отвечает за саму генерацию изображения. CLIP нужен для обработки текстового запроса, то есть промпта. VAE используется в конце, чтобы превратить внутреннее latent-представление в обычную картинку.

Далее используются две ноды CLIP Text Encode. Первая отвечает за positive prompt — описание того, что должно быть на изображении. Вторая отвечает за negative prompt — описание того, чего на изображении быть не должно: размытости, плохой анатомии, лишних пальцев, водяных знаков, текста и других артефактов.

Обе ноды CLIP Text Encode подключаются к выходу CLIP из Load Checkpoint. Благодаря этому текстовые запросы обрабатываются тем же текстовым энкодером, который связан с выбранной моделью.

Нода Empty Latent Image создаёт пустую заготовку изображения во внутреннем latent-формате. В ней задаются ширина, высота и batch_size. Для первого запуска можно использовать разрешение 768x768 или 768x1024, а batch_size оставить равным 1, чтобы не создавать лишнюю нагрузку на видеокарту.

Главная нода генерации KSampler. Именно в неё сходятся основные линии workflow. К ней подключается MODEL из Load Checkpoint, positive prompt из первой CLIP Text Encode, negative prompt из второй CLIP Text Encode и latent-заготовка из Empty Latent Image.

Внутри KSampler задаются основные параметры генерации: количество шагов, CFG Scale, sampler, scheduler, seed и denoise. Для стартового варианта я использовал такие настройки:

steps: 28
cfg: 7
sampler: DPM++ 2M
scheduler: Karras
denoise: 1.0

Эти параметры дают нормальную базу для первого запуска готовой аниме-модели.

После работы KSampler результат всё ещё находится не в виде обычной картинки, а в latent-формате. Поэтому следующим шагом используется VAE Decode. В неё подключается выходsamples из KSampler и выход VAE из Load Checkpoint. Эта нода декодирует latent-данные в изображение.

Последняя нода — Save Image. К ней подключается выход image из VAE Decode. После запуска workflow готовая картинка сохраняется в папку:

ComfyUI/output/

Запуск и генерация

Когда схема собрана, остаётся вписать промпты и запустить генерацию.

В positive prompt указывается то, что нужно получить на изображении. Например:

masterpiece, best quality, highly detailed, anime girl, detailed eyes,
detailed hair, clean lineart, soft lighting, sharp focus

В negative prompt указывается то, что нужно исключить:

lowres, bad anatomy, bad hands, deformed, ugly, mutated, extra limbs, missing limbs, fused fingers, too many fingers, long neck, bad proportions, blurry, low quality, worst quality, jpeg artifacts, watermark, text, signature, poorly drawn face, bad eyes, extra tail, wrong hair color

После этого нужно нажать кнопку запуска генерации. В разных версиях интерфейса она может называться Queue Prompt, Run или похожим образом. Если всё подключено правильно, ComfyUI начнёт генерацию, а итоговое изображение появится в папке output.

Возможные ошибки

При первом запуске результат не всегда получается идеальным. Самая частая проблема — мыльная или слишком сглаженная картинка. В таком случае стоит попробовать изменить настройки KSampler: уменьшить или увеличить CFG Scale, поменять sampler, scheduler или количество шагов.

Также многое зависит от самой модели. Если checkpoint плохо подходит под нужный стиль, одними настройками исправить результат сложно. В таком случае лучше попробовать другую модель или подключить LoRA.

Ещё одна частая причина плохого результата — слишком общий промпт. Чем точнее описан желаемый результат, тем выше шанс получить качественное изображение. При этом negative prompt тоже важен: он помогает убрать артефакты, плохую анатомию, лишние элементы, текст и водяные знаки.

Если ничего не помогает, стоит проверить три вещи: правильно ли выбрана модель, корректно ли собран workflow и достаточно ли конкретно описан промпт.

Заключение

В итоге получается простой локальный генератор изображений на базе ComfyUI и готовой аниме-модели. Для первого запуска не нужны сложные дополнительные инструменты: достаточно загрузить checkpoint, собрать базовый workflow, задать промпты и настроить KSampler.

Такой вариант хорошо подходит для старта. А уже после того, как базовая генерация заработала, workflow можно постепенно усложнять. Подключать LoRA, добавлять upscale, использовать ControlNet, делать второй проход через KSampler и собирать собственный pipeline под нужный стиль.

Комментарии (11)


  1. DaneSoul
    03.05.2026 01:32

    В моём случае система собиралась на обычном домашнем ПК с видеокартой уровня RTX 3060 12 GB.

    Сколько времени (и для какого разрешения и количества шагов) занимает генерация 1 изображения на такой карте?


    1. dalopq Автор
      03.05.2026 01:32

      30 шагов, 896 x 1344, 28-30 секунд


      1. KEugene
        03.05.2026 01:32

        А если что-то более практичное? Хотя бы 1080p? В идеале 1440p.


        1. dalopq Автор
          03.05.2026 01:32

          Можно, не проблема. Только поменять параметры в Empty Latent Image на соответствующие


          1. dalopq Автор
            03.05.2026 01:32

            Но именно с моей моделью LLM возникают аномалии с изображением в таком разрешении, поэтому на ваше усмотрение


      1. DaneSoul
        03.05.2026 01:32

        Прогнал с такими же параметрами на CPU Rizen 7 и DDR5 без видео карты - примерно 6 минут 15 секунд. Получается Ваша видео карта где-то в 13 раз быстрей.


      1. NicholasM6
        03.05.2026 01:32

        Хм, у меня Titan V в 2 раза быстрее такое изображение генерирует


  1. copyhold
    03.05.2026 01:32

    исправьте позитивный промпт. можно сделать его немного более позитивным :)


    1. dalopq Автор
      03.05.2026 01:32

      Увидел в чем дело, комбинация клавиш Ctrl + V не сработала :-)


  1. Seeman78
    03.05.2026 01:32

    Perchance хорошие бесплатные генераторы, без ограничений. Lcm 8 steps lora если хотите очень быстро с sdxl в сомфи генерировать. Параметры на huggingface сайте обычно указываются. Для аниме есть специальные чекпойнты.


  1. elpodium_agency
    03.05.2026 01:32

    Спасибо!