Представьте, что вы развернули у себя дома полноценную языковую модель — не платного чат‑бота из облака с его фильтрами, задержками и цензурой, а вполне безлимитную LLM, которая может быть и помощником по работе, и D&D квестом, и вашей вайфу… на абсолютно любую тему. И в 2025 году это уже работает неожиданно хорошо.

Ещё год назад за достойное ролевое общение приходилось платить Character.AI или бороться с ограничениями в ChatGPT, но теперь — всё иначе. Домашний чатбот не только не уступает по качеству, но и выигрывает: всего за 5 минут можно добавить генерацию изображений, озвучку (TTS), понимание речи (STT) и полную автономность — без облаков, логов и подписок.

В этой статье расскажу:

  • как запустить языковую модель на базе KoboldCpp даже на не самом свежем железе

  • как быстро настраивать персонажей и диалоговые сценарии

  • и как за 5 минут своей LLM‑вайфе, офис‑ассистенту или игрового персонажу голос и генерацию изображений — всё у себя локально

Будет умеренно много информации по настройке программы и персонажей, но только полезной, без воды и слишком эзкотических настроек.
Тем, кто не хочет долго разбираться, а сразу кинуться в бой - достаточно прочитать блок Быстрый старт.

Что такое KoboldCpp

KoboldCpp — это локальный open‑source сервер для запуска больших языковых моделей (LLM, или попросту — чатботов) на базе известного движка llama.cpp.

В отличие от Ollama, здесь есть встроенный веб‑интерфейс. В отличие от LM Studio, KoboldCpp изначально заточен под мультимедийный сценарий: он объединяет текст, голос (как на вход, так и на выход), распознавание и генерацию изображений. Особенно хорошо он подходит для ролевых сценариев и текстовых квестов — олдфаги, игравшие в доисторические текстовые адвенчуры без графики, поймут, о чём речь. Только теперь в этих приключениях есть полноценный ИИ!

Установка

Программа устанавливается на все основные платформы (Mac, Windows и Linux. На Android возможен запуск через Termux, но он неофициальный) буквально в один клик. Переходим по ссылке, находим установочный файл для последнего релиза и своей платформы и дважды кликаем.

Устанавливать ничего не нужно: дистрибутив запускается в portable‑режиме. Просто скопируйте.exe (или соответствующий бинарник под Linux/macOS) в удобное место на диске и запускайте оттуда — всё будет работать из коробки.

Быстрый старт!

Чтобы начать, нужно буквально два действия — выбрать железо и языковую модель. При запуске koboldcpp.exe (или аналога на вашей ОС) появляется лаунчер в котором есть основные технические настройки.

В поле Presets выбираем:

  • Если у вас видеокарта NVIDIA — выбирайте Use CuBLAS. Это самый быстрый и стабильный вариант.

  • Если у вас AMD или Intel GPU — пробуйте Vulkan или CLBlast.

  • Если GPU нет или она очень старая, оставайтесь на Use CPU.

Проверьте, что в поле GPU ID отображается название нужного адаптера — лаунчер обычно подставляет его автоматически.

Flash Attention может ускорить работу модели в 2–4 раза за счёт оптимизированного механизма внимания — он снижает нагрузку на память GPU. Flash Attention официально работает только с CuBLAS (CUDA). Для Vulkan поддержка отсутствует.
В общем, если у вас Nvidia RTX и CuBLAS, включаем, если Vulkan или CPU оставляем выключенным.

MMAP полезен, если модель больше объёма доступной RAM, но у вас есть быстрый SSD — в этом случае веса подгружаются "по требованию", и можно запускать даже крупные модели на относительно слабых машинах.
Если же оперативки достаточно (например, 64 ГБ для модели 7–13B), выгоднее загрузить веса целиком и запустить без mmap — так вы избежите лишних обращений к диску.

Context Size — это объём «памяти» модели в токенах. Чем он выше, тем больше прошлых сообщений LLM будет помнить, но тем больше RAM/VRAM уйдёт на KV‑кэш и тем медленнее будет каждая итерация. Выбирайте значение, которое покрывает ваш тип диалогов, не превышая разумный предел системы.

Этих настроек вполне достаточно, чтобы начать чатиться и исследовать возможности приложения. Хотите сразу в бой — нажимайте Launch! А если хотите выжать из KoboldCpp максимум — дальше вас ждёт подробный разбор: от визуального сторителлинга до синтеза речи и Web UI кастомизации.

Детальные настройки

Loaded Files

Text Model — файл нашей LLMки в формате GGUF. Для быстрого старта можем выбрать рекомендованый Tiefighter 13B. Мы рассмотрим другие модели чуть позже.

HF Search — поиск языковых моделей на Hugging Face.

Text Lora (необязательное) — позволяет подключить LoRA‑адаптер — дополнительный файл, меняющий поведение основной модели (тональность, стиль, персонаж и т. д.). Обычно используется в ролевых или специализированных задачах (например, LoRA для ролевой вайфу, программирования и т. д.).

Vision mmproj — это дополнительный мультимодальный «проектор» (projection‑head) для моделей, которые умеют понимать изображения — например, LLaVA‑тюны на базе Llama / Mistral / Gemma. Если мы запускаем чисто текстовую LLM, это поле можно оставить пустым.

Остальные поля можно не трогать.

Network

Port — порт, на котором запускается веб‑интерфейс и API сервер KoboldCpp.
Важно: если вы хотите открыть доступ с другого устройства в сети — не забудьте пробросить этот порт.

Host — по умолчанию пусто → сервер слушает localhost (только для текущего ПК). Если хотите получить доступ с другого устройства в сети (например, с телефона) — укажите:

0.0.0.0

Это откроет сервер на все IP‑интерфейсы вашей машины.

Multiuser Mode — позволяет одновременно подключаться к KoboldCpp нескольким клиентам (например, SillyTavern + браузер).

Quiet Mode — отключает логгирование запросов в консоль. Удобно, если не хотите видеть потоковое лог‑сообщение на каждый токен/запрос. Визуально чистит терминал, но никак не влияет на работу модели.

Shared Multiplayer — экспериментальный режим для подключения нескольких живых пользователей в один чат.

Remote Tunnel — открывает доступ к KoboldCpp через туннель (например, через Cloudflare или ngrok). Полезно, если хотим запустить KoboldCpp на ПК и заходить, например, через телефон.

Enable WebSearch — включает подключение к внешним веб‑поисковикам — работает только при наличии модели или плагина с поддержкой retrieval (например, через TextDB, LangChain или собственную реализацию).

Image Gen

Image Gen. Model (safetensors/gguf) — главный файл модели Stable Diffusion в формате .safetensors или .gguf. Рекомендуется использовать оптимизированные модели типа:

  • deliberate_v2.safetensors

  • dreamshaper_8.gguf

  • fluxdiffusion‑v1.0.gguf

Без этого файла генерация изображений работать не будет.

Clamp Resolution Limit — ограничение на максимальное разрешение генерируемых картинок. Hard — абсолютный предел (например, 1024), Soft — ограничение, которое может быть гибким при апскейле.

Image LoRA — Дополнительные стили или визуальные адаптации для SD.

  • LoRA‑файл подгружается отдельно (аналогично text‑LoRA).

  • Multiplier регулирует силу влияния LoRA.

Используется в продвинутых художественных сценариях. Можно не трогать на старте.
Остальные поля тоже можно оставить как есть.

Audio

Эта вкладка отвечает за озвучивание текста (TTS) и распознавание речи (STT). Можно скипнуть, если вы пока не собираетесь общаться с моделью голосом или получать голосовые ответы.

Whisper Model (Speech‑To‑Text) — Путь к модели Whisper, которая распознаёт речь (STT) в формате .bin. Если вы хотите говорить голосом — обязательно укажите файл здесь. Примеры моделей:

  • whisper‑tiny.en

  • whisper‑medium.en

Модели с поддержкой русского языка (от самой компактной к большой):

  • whisper‑tiny.ru

  • whisper‑base.ru

  • whisper‑medium

  • whisper‑large‑v3

OuteTTS Model (Text‑To‑Speech) — путь к OuteTTS‑модели — это генератор голоса из текста. Тоже формат.gguf. Ставим, если хотим, чтобы модель отвечала голосом. Примеры:

  • espeak‑voice‑en‑us.gguf

  • gruut‑tts‑vctk‑en‑female.gguf

Модели с поддержкой русского языка (от самой компактной к большой):

  • espeak‑ng‑ru.gguf (монотонный голос)

  • gruut‑tts‑vctk‑ru‑female.gguf (живее звучание)

  • mms‑tts‑rus.gguf (современная, нейросетевой голос)

WavTokenizer Model (Text‑To‑Speech Required) — токенизатор звуковой волны, требуется вместе с OuteTTS, только если модель использует раздельный токенизатор.

Extra

Unpack KoboldCpp To Folder — Распаковывает встроенные компоненты koboldcpp.exe (всё, что внутри одного.exe‑файла) в отдельную папку. Полезно, если хотим запускать через скрипты или командную строку, для базовых целей не нужно.

Generate LaunchTemplate — создаёт файл‑шаблон конфигурации.kcppt, который содержит:

  • Путь к модели

  • Все параметры запуска

  • Выбранные режимы (GPU, контекст, FlashAttention и т. д.)

Register / Unregister — регистрирует расширения .kcppt в системе Windows, чтобы можно было двойным кликом запускать KoboldCpp с нужной конфигурацией.

Теперь нажимаем Launch, если не нажали раньше и наконец‑то переходим к работе программы!

Чат

После запуска нас перебросит на ссылку по умолчанию http://localhost:5001 в браузере (если ни одна из моделей во время запуска не крашится — это будет видно в консоле).

Помимо вполне очевидного интерфейса не нуждающегося в объяснении, нас интересует кнопка шестрёнки с дополнительным функционалом:

Здесь можно переписывать сообщения как себя, так и бота, генерировать изображения. Изображения могут быть сгенерированы как по контексту беседы, так и по обычному промпту. Но мы чуть позже настроим так, что изображения будут сами генерировать в контекстуально‑уместный момент переписки.

Настройки чата

Одно из главных преимуществ KoboldCpp перед другими фронэнтдами для LLM — его неожиданно огромная универсальность. В отличие от других клиентов для языковых моделей, KoboldCpp адаптируется под любые сценарии: рабочий ассистент, ролевая вайфу, генератор историй или текстовый мастер подземелий.
Всё это зависит не только от выбранной языковой модели, но и от того, как настроен интерфейс и режим взаимодействия с ИИ.

За эти настройки отвечает вкладка Settings. Здесь можно выбрать стиль общения, включить или отключить форматирование Markdown, задать структуру диалога и выбрать режим генерации. Один из ключевых параметров — Usage Mode — определяет общий формат и "поведение" модели. Ниже кратко разберём, что означает каждый из режимов и для чего он нужен:

Usage Mode - одна из важнейших настроек в koboldCpp
Usage Mode — одна из важнейших настроек в koboldCpp

Instruct Mode (рекомендуемый по умолчанию) — этот режим имитирует поведение моделей‑помощников, как ChatGPT, Claude Sonnet, Mistral Le Chat. Использует чёткую структуру вида:

[Instruction]
Response

Выбирать для рабочих сценариев: объяснение, помощь в коде, работа, формальные диалоги, короткие ответы. Совместим с большинством современных GGUF‑моделей (особенно с суффиксом *‑Instruct).

Story Mode — ориентирован на генерацию непрерывного нарратива без диалогов. Модель воспринимает ввод как часть текста и плавно продолжает его в том же стиле. Нет чёткого деления на «пользователь/модель» — всё воспринимается как «продолжение истории». Подходит для: художественного письма, книг, фрагментов рассказов, дневников.

Adventure Mode — стиль общения в духе текстовых RPG Dungeons & Dragons. Каждое сообщение пользователя интерпретируется как действие игрока, а модель играет роль мастера подземелий или игрового мира.
Часто форматируется как:

> Go north  
The orc blocks your path...

В Adventure Mode вводимое сообщение имеет три типа:

  • Action — Представляет собой действие, которое игрок совершает от первого лица.

  • Action (Roll) — То же самое, что обычное Action, но с добавлением элемента случайности успеха или логики броска кубика.

  • Story — нейтральное продолжение повествования без указания на чьё‑либо действие. Может быть как описанием сцены, так и монологом, размышлением или реакцией NPC.

Adventure Mode подходит для RPG-ботов, текстовых квестов, ролевого взаимодействия с персонажами/миром.

Chat Mode — подразумевает диалог в формате «Пользователь — Ассистент». Добавляет имена (например, User / Assistant) и имитирует реалистичный чат. Этот вариант подходит для непринуждённой беседы, болтовни, ролевого общения, вайфу‑ботов, симуляции персонажей.

Ниже пример, как может выглядеть ответ на один и тот же вопрос "Опиши, как выглядит эльфийка в доспехах". Естественно, конкретный ответ так же зависит от контекста, системного промпта и LLM-модели!

эльфийка_в_доспехах.jpg
эльфийка_в_доспехах.jpg

User: Опиши, как выглядит эльфийка в доспехах.
Чат:

Instruct Mode

Эльфийка — высокая и изящная, с серебристыми волосами, заплетёнными в косу. Её доспехи выполнены из легчайшего мифрила, покрыты узорами в форме листьев и переливаются в свете солнца. Она держит изящный лук и внимательно смотрит вдаль.

Chat Mode

Ха, отличный вопрос! Представь себе эльфийку с сияющими глазами и легкой походкой. Она в лёгких доспехах, украшенных резьбой — явно не просто воин, а кто-то важный. Хочешь, я нарисую её?

Story Mode

…Эльфийка стояла на склоне холма. Её доспехи сияли в лучах утреннего солнца, отражая голубизну неба. Ветер играл с прядями её волос, пока она спокойно наблюдала за движением внизу. Лес знал её, как знает своих защитников.

Adventure Mode

Ты смотришь на эльфийку. Её стройная фигура заключена в легкие доспехи из мифрила. Она замечает твой взгляд и приподнимает бровь. — Что-то интересует, путник?

Стили

В KoboldCpp можно выбрать между тремя стилями оформления интерфейса. Это чисто визуальная настройка, но она помогает погрузиться в нужную атмосферу.

  • Classic Theme — минималистичный интерфейс для технического использования: код, тестирование, чистый текст.

  • Aesthetic Theme — визуально приятный, стилизованный UI с «анимешным» акцентом. Добавляет портреты персонажей, декоративные рамки, цветовые градиенты.

  • Corpo Theme — стиль, максимально похожий на приложения вроде ChatGPT.

Samplers

Здесь находятся основные параметры генерации, которые определяют стиль, креативность, длину и стабильность ответов модели. Ниже пробежимся только по самым важным параметрам, без перегрузов!

Context Size — сколько токенов из истории диалога модель будет помнить. Максимум зависит от модели (например, 4096, 8192, 32 768). Больше — лучше память, но выше нагрузка на RAM.

Max Output — максимальное количество токенов, которое модель сгенерирует за один вызов. 102–256 — нормальный диапазон для чата, больше — для длинных историй.

Temperature — «температура» генерации: 0.7–1.0 — креативно; ниже — строго и предсказуемо. Значения около 0.7–0.9 — сбалансированы.

Repetition Penalty — «наказание» за повтор слов. Значение 1.07–1.15 помогает убрать зацикливание, но слишком высокое — «ломает» стиль.

Top‑K — оставляет при генерации следующего слоа, только K самых вероятных слов из всего словаря. Например, при Top‑K = 40 — модель выбирает только из 40 самых вероятных токенов.

Top‑P — выбирает динамически то количество токенов, чья общая вероятность превышает P (например, 0.9 = 90%).

Остальное можно оставить как есть.

Media

Эта вкладка отвечает за генерацию изображений, озвучку и работу с голосом.

Generate Images

KoboldCpp может как сам генерировать изображения с помощью встроенной модели, так и передавать запрос во внешний движок типа Automatic1111.

  • Autogenerate Images (Smart) — модель будет сама решать, когда сгенерировать изображение по контексту.

  • Detect ImgGen Instructions — распознаёт специальные команды внутри текста (/imagine).

  • Save Images — сохранять сгенерированные картинки в папку.

Text To Speech (TTS)

Озвучивает ответы модели.

  • Narrate Both Sides — озвучка и пользователя, и ИИ.

  • Narrate Only Dialog — только реплики ИИ.

Voice Input

Позволяет общаться с ИИ голосом. Работает с Whisper (если настроен).

  • Language — язык распознавания (можно оставить auto).

  • Delay — сколько миллисекунд ждать перед распознаванием.

  • Suppress Non-Speech — автоматически подавлять фоновые звуки.

WebSearch

Функционал ретривера информации из интернета. Да, языковую модель в кобольде можно из коробки настроить искать в интернете!

Context Data

В меню чата есть ещё важное окно под названием Context Data. Здесь мы можем задать условия, мир или "настроение" в сессии общения с моделью.

Поле Memory

Это позволяет задать постоянную память — текст, который будет автоматически добавляться в каждый запрос к модели. Так мы можем задать фон нашему боту: описание персонажей, сеттинг, лор и другие «всегда актуальные» детали. Например: "Ты - вождь орков Дуротан. Когда тебе что-то не понятно - говори "Лок-тар-огар!"." Такую память модель будет учитывать, пока вы не очистите контекст или не измените память вручную.

Пример:

Имя: Мефала  
Фракция: Оплот (Rampart)  
Раса: человек  
Класс: фехтовальщица  
Специализация: Защита

Характер: сдержанная, решительная и спокойная. Обладает холодным умом и тактическим мышлением. Мефала — боец не словом, а поступками, предпочитает молчание пустым разговорам.  
Манера речи: говорит кратко, но чётко. Предпочитает прямоту, иногда допускает лёгкий сарказм.  
Отношение к собеседнику: уважение нужно заслужить. Мефала ценит волю, выдержку и практичность.  

Особенности: носит эльфийские кожаные доспехи без лишнего украшательства. Опытна в защите пограничных лесов и партизанской тактике. Не поддаётся эмоциям, её сложно сбить с толку.  
Никогда не приукрашивает реальность. Спокойно даёт указания, как командир.

Поле Author’s Note

Это отдельный блок, который вставляется ближе к концу контекста и служит тонкой настройкой текущего поведения модели. Можно использовать для корректировки стиля, тона или добавления краткой подсказки которая актуальна в данный момент диалога. К слову, можно нажать AutoGenerate Memory чтобы быстро сформировать базовую память на основе текущего чата.
Пример:

Мефала говорит спокойно и уверенно. Она не теряет хладнокровия, избегает высокопарных фраз и говорит по делу. Её речь сдержанная, логичная, иногда с сухим сарказмом. Всё, что она говорит — звучит как приказ.

Вкладка World Info

World Info — это база фактов, понятий и сущностей, которые KoboldCpp автоматически подгружает в контекст во время генерации, когда видит связанные ключевые слова. Это своего рода локальная база знаний: названия персонажей, фракций, мест, заклинаний, предметов и любых других важных элементов мира.

Например:

  • Ключевое слово: Кригане; Криган; Kreegan; Криганский; Inferno demons

  • Текст: Кригане (англ. Kreegans) — демоническая раса пришельцев, обитающая в городе‑фракции Inferno. Их общество основано на жесткой иерархии; высшие касты — ифриты и архидьяволы. Кригане питаются разрушением, поклоняются хаосу и презирают все живое на Энроте. В бою часто используют магию Огня.

Теперь, когда в чате появится слово «Кригане», KoboldCpp автоматически вставит это описание ближе к Memory, и модель будет помнить лор без лишней «ручной» подсказки.

Вот и всё, что нужно, чтобы создать и настроить своего персонажа!

Save / Load

Это кнопка в верхнем меню позволяет сохранять сценарии или загружать готовые. Хранить сценарии можно как в кэше браузера, так и в виде внешнего .json файла. К сожалению, сохранить отдельно персонажа нельзя - для этого нужен SillyTavern.

Где взять модели?

Для ролевого опыта и творческих сценариев нужны модели без цензуры — иначе персонажи будут постоянно ограничены и «запиканы». Все языковые и голосовые модели можно найти на Hugging Face. Скачивать нужно в формате GGUF.

При выборе конкретной сборки нужно ориентироваться на уровень квантования — от Q2 (самое сильное сжатие, минимальные требования к железу, но и самое слабое качество) до Q8 (почти без потерь, но требует много RAM/VRAM). Оптимальный компромисс между качеством и производительностью — Q4_K_M.

Ниже — актуальные безцензурные модели:

  • KoboldAI/LLaMA2–13B‑Tiefighter — отличный баланс между размером (~13B) и возможностями. Специально адаптирована для сторителлинга, RP и инструкционных задач.

  • TheDrummer/Cydonia-22B‑v1 — fine‑tuning от TheDrummer, оптимизирована для RP и сторителлинга с богатым креативом и интерактивностью. Очень выразительная и «живая» в ролевых сценариях, учитывает контекст, хорошо держит структуру повествования. Однако ресурсоёмкая — требует 20+ GB VRAM или эффективной quantization.

  • Mistral-7B‑Instruct — компактная (~7B) и быстрая, отлично подходит для первых экспериментов. Поддерживает instruct‑шаблоны и хорошо работает в Chat/Adventure Mode.

  • Gemma‑3–27B‑Abliterated — более крупная (~27B) модель с полностью снятой цензурой. Отличный выбор для насыщенных, «живых» ролевых диалогов и глубокой проработки персонажей.

  • Llama‑3.2–8×4B‑MoE‑Dark‑Champion — Mixture-of-Experts архитектура с гигантским контекстом (до 128k токенов!). Смелый стиль, эпическая подача — подходит для генерации длинных историй. Ресурсоёмкая, но впечатляющая.

  • Так же достойны упоминания: L3.2 Rogue Creative Instruct 7B, Stheno 8B, Mistral‑Nemo 12B RP — доступны на Hugging Face, оптимизированы под RP и без цензуры 

Модели для генерации изображений советую искать на civitai.

Мой шаблон

Кому интересен мой шаблон настроек - сохраните json ниже в файл вроде cydonia_dreamshaper.kcppt, затем открываем его в Load Config в кобольде. Тут указана для генерации изображений DreamShaperXL потому что её можно скачать через HuggingFace. Я же рекомендую зайди на civitai и скачать что-то вроде Realism by Yogi или по своему усмотрению. У меня RTX 4070 Ti SUPER 16GB VRAM, поэтому если у вас видеокарта слабее - придётся заменить LLM на одну из тех, что были перечислены выше.

{
  "model_param": "https://huggingface.co/TheDrummer/Cydonia-22B-v1/resolve/main/cydonia-22b-v1-Q3_K_L.gguf",

  "port_param": 5001,
  "host": "",
  "launch": true,

  "threads": -1,
  "usecublas": true,
  "contextsize": 8192,
  "gpulayers": 999,
  "flashattention": true,
  "usemmap": true,
  "smartcontext": true,

  "multiuser": 1,
  "websearch": true,

  "sdmodel": "https://huggingface.co/Lykon/dreamshaper-xl-v2-turbo/resolve/main/DreamShaperXL_Turbo_v2.safetensors",
  "sdthreads": 0,
  "sdt5xxl": "",
  "sdvae": "",
  "sdvaeauto": true,
  "sdclamped": 0,
  "image_auto": true,

  "whispermodel": "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.en-q5_1.bin",
  "ttsmodel": "https://huggingface.co/koboldcpp/tts/resolve/main/OuteTTS-0.3-500M-Q4_0.gguf",
  "ttswavtokenizer": "https://huggingface.co/koboldcpp/tts/resolve/main/WavTokenizer-Large-75-Q4_0.gguf",
  "ttsmaxlen": 4096,

  "embeddingsmodel": "https://huggingface.co/koboldcpp/GGUFDumps/resolve/main/snowflake-arctic-embed-m-long-Q4_0.gguf",

  "chatcompletionsadapter": "AutoGuess",
  "defaultgenamt": 512,
  "maxrequestsize": 32,
  "istemplate": true
}

Плюсы и минусы KoboldCpp

Мы подошли к финалу обзора и можем подытожить, чем хорош KoboldCpp — и когда лучше обратить внимание на альтернативы вроде LM Studio, Ollama или Oobabooga.

Плюсы:

  • Универсальность: один интерфейс — множество сценариев (чат, сторителлинг, RPG, рабочий ассистент).

  • Заточен под развлечения: встроенные ролевые режимы, генерация истории, персонажи.

  • Не требует установки: работает в portable-режиме, запускается с любого места.

  • Приватность и open-source: никакой отправки логов или диалогов в сеть.

  • Мультимодальность: поддержка текста, изображений, озвучки (TTS) и распознавания речи (STT).

  • Многопользовательский режим: можно подключаться с разных устройств одновременно.

  • Поддержка внешних подключений: туннели, Web API, взаимодействие с другими интерфейсами.

  • Простой RAG из коробки: встроенная база знаний через TextDB.

  • Интеграция с SillyTavern: легко использовать в ролевых и визуальных интерфейсах.

Минусы:

  • Менее удобная загрузка моделей, чем в LM Studio или Ollama (нет drag-and-drop или автопоиска).

  • Интерфейс немного устаревший — особенно по сравнению с новыми desktop-UI у LM Studio или WebUI у Oobabooga.

  • Нет возможности экспорта персонажей отдельно от сценария.

Как по мне, KoboldCpp — это лучший выбор для тех, кто хочет не просто запустить локальную LLM, а извлечь из неё максимальный интерактивный опыт. Этот софт не самый минималистичный, не самый удобный для новичка, но зато максимально гибкий: здесь можно не только общаться с ботом, но и разворачивать текстовые приключения, озвучивать диалоги, подключать генерацию изображений и даже задавать базу знаний.

Если вам интересен чисто рабочий фронтэнд под LLM — читайте мой гайд по LM Studio.
Ну а в следующем обзоре мы ещё больше углубимся в развлекательный функционал LLM в обзоре SillyTavern — подписывайтесь, ставьте лайки!

Комментарии (8)


  1. eps
    07.07.2025 11:30

    Было бы здорово получить ваши рекомендуемые модели в виде одного файла .kcppt, как в примере из доков


    1. GiantLynx Автор
      07.07.2025 11:30

      Добавил шаблон в статью


  1. Moog_Prodigy
    07.07.2025 11:30

    Надо же, сколько упихали туда. Вот еще минусы:

    1. Постоянные вылеты без каких-либо обьяснений (особенно если моделька "чуть не подходит"), а чем она не подходит - только методом перебора.

    2. Несмотря на всю простоту, также требует видеокарту и неслабую. Генерация на CPU конечно возможна, на скоростях 1-3 токен в секунду. Для программирования это куда ни шло, для ролевых игр это очень печально.

    Имхо, для ролевки пока лучше ST не сделали. Но подключать ее желательно к LMStudio паровозиком.


    1. GiantLynx Автор
      07.07.2025 11:30

      1. У меня были такие проблемы только с генераторами картинок и STT. Языковые GGUF все подходили, ну или мне просто повезло. Но генераторы картинок лучше хостить в A1111 или ComfyUI для лучшего экспериенса. (да, ещё один сервис который надо поднять, но это так оно работает лучше).

      2. Даже с RTX 3060 можно уже играться на квантованых 7b моделях, но что-либо старее, да, уже грустно.


  1. Bikedu
    07.07.2025 11:30

    А есть ли возможность реализовать умный дом на основе этого?


    1. GiantLynx Автор
      07.07.2025 11:30

      Да, запросто. KoboldCpp - это просто локальный LLM-сервер с HTTP API, так что его можно скрестить с Home Assistant или MQTT. Придётся дописать мост на питоне, но если хочется сделать своего домашнего вайфу-ассистента, как в sci-fi фильмах (Blade Runner 2049) - то это можно сделать уже сейчас.


  1. eps
    07.07.2025 11:30

    Возможно, я не расчувствовал прелесть KoboldCPP.

    Кажется ollama + хороший нативный UI (я пользуюсь MindMac, но видел неплохие другие) будет поприятнее. Синтез / распознавание речи есть встроенные в MacOS, картинки на входе ollama умеет. Картинки на выходе — нет, но за 6 итераций (иначе timeout) Kobold UI выдаёт сложноразличимую фигню, которая вряд ли обогащает историю.

    Плюс мне нравится концепция ollama (всегда запущенный API-сервер и тонкие клиенты на любой вкус). Два сервера — один на моём ноуте, один на соседнем компе помощнее, они выгружают модели спустя какое-то время и не мешают жить.

    Спасибо ОПу за статью. Помогла попробовать систему — и понять, что это не моё.


  1. whileTrueCry
    07.07.2025 11:30

    Крутая статья - чётко, по делу и без лишней воды. Особенно понравилось, как подробно расписаны режимы Story / Chat / Adventure. Было бы интересно увидеть сравнение производительности CPU vs GPU: сколько токенов в секунду, как меняется отклик и т.п. Ещё, может, отдельный блок про подключение внешних источников (типа API или RAG с поиском) - чтобы можно было вытащить свежие данные в оффлайн‑режиме.

    В целом - мощный гайд. Спасибо!