
Представьте, что вы развернули у себя дома полноценную языковую модель — не платного чат‑бота из облака с его фильтрами, задержками и цензурой, а вполне безлимитную LLM, которая может быть и помощником по работе, и D&D квестом, и вашей вайфу… на абсолютно любую тему. И в 2025 году это уже работает неожиданно хорошо.
Ещё год назад за достойное ролевое общение приходилось платить Character.AI или бороться с ограничениями в ChatGPT, но теперь — всё иначе. Домашний чатбот не только не уступает по качеству, но и выигрывает: всего за 5 минут можно добавить генерацию изображений, озвучку (TTS), понимание речи (STT) и полную автономность — без облаков, логов и подписок.
В этой статье расскажу:
как запустить языковую модель на базе KoboldCpp даже на не самом свежем железе
как быстро настраивать персонажей и диалоговые сценарии
и как за 5 минут своей LLM‑вайфе, офис‑ассистенту или игрового персонажу голос и генерацию изображений — всё у себя локально
Будет умеренно много информации по настройке программы и персонажей, но только полезной, без воды и слишком эзкотических настроек.
Тем, кто не хочет долго разбираться, а сразу кинуться в бой - достаточно прочитать блок Быстрый старт.
Что такое KoboldCpp

KoboldCpp — это локальный open‑source сервер для запуска больших языковых моделей (LLM, или попросту — чатботов) на базе известного движка llama.cpp.
В отличие от Ollama, здесь есть встроенный веб‑интерфейс. В отличие от LM Studio, KoboldCpp изначально заточен под мультимедийный сценарий: он объединяет текст, голос (как на вход, так и на выход), распознавание и генерацию изображений. Особенно хорошо он подходит для ролевых сценариев и текстовых квестов — олдфаги, игравшие в доисторические текстовые адвенчуры без графики, поймут, о чём речь. Только теперь в этих приключениях есть полноценный ИИ!
Установка
Программа устанавливается на все основные платформы (Mac, Windows и Linux. На Android возможен запуск через Termux, но он неофициальный) буквально в один клик. Переходим по ссылке, находим установочный файл для последнего релиза и своей платформы и дважды кликаем.
Устанавливать ничего не нужно: дистрибутив запускается в portable‑режиме. Просто скопируйте.exe (или соответствующий бинарник под Linux/macOS) в удобное место на диске и запускайте оттуда — всё будет работать из коробки.
Быстрый старт!

Чтобы начать, нужно буквально два действия — выбрать железо и языковую модель. При запуске koboldcpp.exe (или аналога на вашей ОС) появляется лаунчер в котором есть основные технические настройки.
В поле Presets выбираем:
Если у вас видеокарта NVIDIA — выбирайте Use CuBLAS. Это самый быстрый и стабильный вариант.
Если у вас AMD или Intel GPU — пробуйте Vulkan или CLBlast.
Если GPU нет или она очень старая, оставайтесь на Use CPU.
Проверьте, что в поле GPU ID отображается название нужного адаптера — лаунчер обычно подставляет его автоматически.
Flash Attention может ускорить работу модели в 2–4 раза за счёт оптимизированного механизма внимания — он снижает нагрузку на память GPU. Flash Attention официально работает только с CuBLAS (CUDA). Для Vulkan поддержка отсутствует.
В общем, если у вас Nvidia RTX и CuBLAS, включаем, если Vulkan или CPU оставляем выключенным.
MMAP полезен, если модель больше объёма доступной RAM, но у вас есть быстрый SSD — в этом случае веса подгружаются "по требованию", и можно запускать даже крупные модели на относительно слабых машинах.
Если же оперативки достаточно (например, 64 ГБ для модели 7–13B), выгоднее загрузить веса целиком и запустить без mmap — так вы избежите лишних обращений к диску.
Context Size — это объём «памяти» модели в токенах. Чем он выше, тем больше прошлых сообщений LLM будет помнить, но тем больше RAM/VRAM уйдёт на KV‑кэш и тем медленнее будет каждая итерация. Выбирайте значение, которое покрывает ваш тип диалогов, не превышая разумный предел системы.

Этих настроек вполне достаточно, чтобы начать чатиться и исследовать возможности приложения. Хотите сразу в бой — нажимайте Launch! А если хотите выжать из KoboldCpp максимум — дальше вас ждёт подробный разбор: от визуального сторителлинга до синтеза речи и Web UI кастомизации.
Детальные настройки
Loaded Files

Text Model — файл нашей LLMки в формате GGUF. Для быстрого старта можем выбрать рекомендованый Tiefighter 13B. Мы рассмотрим другие модели чуть позже.
HF Search — поиск языковых моделей на Hugging Face.
Text Lora (необязательное) — позволяет подключить LoRA‑адаптер — дополнительный файл, меняющий поведение основной модели (тональность, стиль, персонаж и т. д.). Обычно используется в ролевых или специализированных задачах (например, LoRA для ролевой вайфу, программирования и т. д.).
Vision mmproj — это дополнительный мультимодальный «проектор» (projection‑head) для моделей, которые умеют понимать изображения — например, LLaVA‑тюны на базе Llama / Mistral / Gemma. Если мы запускаем чисто текстовую LLM, это поле можно оставить пустым.
Остальные поля можно не трогать.
Network

Port — порт, на котором запускается веб‑интерфейс и API сервер KoboldCpp.
Важно: если вы хотите открыть доступ с другого устройства в сети — не забудьте пробросить этот порт.
Host — по умолчанию пусто → сервер слушает localhost (только для текущего ПК). Если хотите получить доступ с другого устройства в сети (например, с телефона) — укажите:
0.0.0.0
Это откроет сервер на все IP‑интерфейсы вашей машины.
Multiuser Mode — позволяет одновременно подключаться к KoboldCpp нескольким клиентам (например, SillyTavern + браузер).
Quiet Mode — отключает логгирование запросов в консоль. Удобно, если не хотите видеть потоковое лог‑сообщение на каждый токен/запрос. Визуально чистит терминал, но никак не влияет на работу модели.
Shared Multiplayer — экспериментальный режим для подключения нескольких живых пользователей в один чат.
Remote Tunnel — открывает доступ к KoboldCpp через туннель (например, через Cloudflare или ngrok). Полезно, если хотим запустить KoboldCpp на ПК и заходить, например, через телефон.
Enable WebSearch — включает подключение к внешним веб‑поисковикам — работает только при наличии модели или плагина с поддержкой retrieval (например, через TextDB, LangChain или собственную реализацию).
Image Gen

Image Gen. Model (safetensors/gguf) — главный файл модели Stable Diffusion в формате .safetensors
или .gguf
. Рекомендуется использовать оптимизированные модели типа:
deliberate_v2.safetensors
dreamshaper_8.gguf
fluxdiffusion‑v1.0.gguf
Без этого файла генерация изображений работать не будет.
Clamp Resolution Limit — ограничение на максимальное разрешение генерируемых картинок. Hard — абсолютный предел (например, 1024), Soft — ограничение, которое может быть гибким при апскейле.
Image LoRA — Дополнительные стили или визуальные адаптации для SD.
LoRA‑файл подгружается отдельно (аналогично text‑LoRA).
Multiplier регулирует силу влияния LoRA.
Используется в продвинутых художественных сценариях. Можно не трогать на старте.
Остальные поля тоже можно оставить как есть.
Audio

Эта вкладка отвечает за озвучивание текста (TTS) и распознавание речи (STT). Можно скипнуть, если вы пока не собираетесь общаться с моделью голосом или получать голосовые ответы.
Whisper Model (Speech‑To‑Text) — Путь к модели Whisper, которая распознаёт речь (STT) в формате .bin
. Если вы хотите говорить голосом — обязательно укажите файл здесь. Примеры моделей:
whisper‑tiny.en
whisper‑medium.en
Модели с поддержкой русского языка (от самой компактной к большой):
whisper‑tiny.ru
whisper‑base.ru
whisper‑medium
whisper‑large‑v3
OuteTTS Model (Text‑To‑Speech) — путь к OuteTTS‑модели — это генератор голоса из текста. Тоже формат.gguf. Ставим, если хотим, чтобы модель отвечала голосом. Примеры:
espeak‑voice‑en‑us.gguf
gruut‑tts‑vctk‑en‑female.gguf
Модели с поддержкой русского языка (от самой компактной к большой):
espeak‑ng‑ru.gguf (монотонный голос)
gruut‑tts‑vctk‑ru‑female.gguf (живее звучание)
mms‑tts‑rus.gguf (современная, нейросетевой голос)
WavTokenizer Model (Text‑To‑Speech Required) — токенизатор звуковой волны, требуется вместе с OuteTTS, только если модель использует раздельный токенизатор.
Extra
Unpack KoboldCpp To Folder — Распаковывает встроенные компоненты koboldcpp.exe (всё, что внутри одного.exe‑файла) в отдельную папку. Полезно, если хотим запускать через скрипты или командную строку, для базовых целей не нужно.
Generate LaunchTemplate — создаёт файл‑шаблон конфигурации.kcppt, который содержит:
Путь к модели
Все параметры запуска
Выбранные режимы (GPU, контекст, FlashAttention и т. д.)
Register / Unregister — регистрирует расширения .kcppt
в системе Windows, чтобы можно было двойным кликом запускать KoboldCpp с нужной конфигурацией.
Теперь нажимаем Launch, если не нажали раньше и наконец‑то переходим к работе программы!
Чат

После запуска нас перебросит на ссылку по умолчанию http://localhost:5001 в браузере (если ни одна из моделей во время запуска не крашится — это будет видно в консоле).
Помимо вполне очевидного интерфейса не нуждающегося в объяснении, нас интересует кнопка шестрёнки с дополнительным функционалом:

Здесь можно переписывать сообщения как себя, так и бота, генерировать изображения. Изображения могут быть сгенерированы как по контексту беседы, так и по обычному промпту. Но мы чуть позже настроим так, что изображения будут сами генерировать в контекстуально‑уместный момент переписки.
Настройки чата
Одно из главных преимуществ KoboldCpp перед другими фронэнтдами для LLM — его неожиданно огромная универсальность. В отличие от других клиентов для языковых моделей, KoboldCpp адаптируется под любые сценарии: рабочий ассистент, ролевая вайфу, генератор историй или текстовый мастер подземелий.
Всё это зависит не только от выбранной языковой модели, но и от того, как настроен интерфейс и режим взаимодействия с ИИ.
За эти настройки отвечает вкладка Settings. Здесь можно выбрать стиль общения, включить или отключить форматирование Markdown, задать структуру диалога и выбрать режим генерации. Один из ключевых параметров — Usage Mode — определяет общий формат и "поведение" модели. Ниже кратко разберём, что означает каждый из режимов и для чего он нужен:

Instruct Mode (рекомендуемый по умолчанию) — этот режим имитирует поведение моделей‑помощников, как ChatGPT, Claude Sonnet, Mistral Le Chat. Использует чёткую структуру вида:
[Instruction]
Response
Выбирать для рабочих сценариев: объяснение, помощь в коде, работа, формальные диалоги, короткие ответы. Совместим с большинством современных GGUF‑моделей (особенно с суффиксом *‑Instruct).
Story Mode — ориентирован на генерацию непрерывного нарратива без диалогов. Модель воспринимает ввод как часть текста и плавно продолжает его в том же стиле. Нет чёткого деления на «пользователь/модель» — всё воспринимается как «продолжение истории». Подходит для: художественного письма, книг, фрагментов рассказов, дневников.
Adventure Mode — стиль общения в духе текстовых RPG Dungeons & Dragons. Каждое сообщение пользователя интерпретируется как действие игрока, а модель играет роль мастера подземелий или игрового мира.
Часто форматируется как:
> Go north
The orc blocks your path...
В Adventure Mode вводимое сообщение имеет три типа:
Action — Представляет собой действие, которое игрок совершает от первого лица.
Action (Roll) — То же самое, что обычное Action, но с добавлением элемента случайности успеха или логики броска кубика.
Story — нейтральное продолжение повествования без указания на чьё‑либо действие. Может быть как описанием сцены, так и монологом, размышлением или реакцией NPC.
Adventure Mode подходит для RPG-ботов, текстовых квестов, ролевого взаимодействия с персонажами/миром.
Chat Mode — подразумевает диалог в формате «Пользователь — Ассистент». Добавляет имена (например, User / Assistant) и имитирует реалистичный чат. Этот вариант подходит для непринуждённой беседы, болтовни, ролевого общения, вайфу‑ботов, симуляции персонажей.
Ниже пример, как может выглядеть ответ на один и тот же вопрос "Опиши, как выглядит эльфийка в доспехах". Естественно, конкретный ответ так же зависит от контекста, системного промпта и LLM-модели!

User: Опиши, как выглядит эльфийка в доспехах.
Чат:
Instruct Mode |
Эльфийка — высокая и изящная, с серебристыми волосами, заплетёнными в косу. Её доспехи выполнены из легчайшего мифрила, покрыты узорами в форме листьев и переливаются в свете солнца. Она держит изящный лук и внимательно смотрит вдаль. |
Chat Mode |
Ха, отличный вопрос! Представь себе эльфийку с сияющими глазами и легкой походкой. Она в лёгких доспехах, украшенных резьбой — явно не просто воин, а кто-то важный. Хочешь, я нарисую её? |
Story Mode |
…Эльфийка стояла на склоне холма. Её доспехи сияли в лучах утреннего солнца, отражая голубизну неба. Ветер играл с прядями её волос, пока она спокойно наблюдала за движением внизу. Лес знал её, как знает своих защитников. |
Adventure Mode |
Ты смотришь на эльфийку. Её стройная фигура заключена в легкие доспехи из мифрила. Она замечает твой взгляд и приподнимает бровь. — Что-то интересует, путник? |
Стили

В KoboldCpp можно выбрать между тремя стилями оформления интерфейса. Это чисто визуальная настройка, но она помогает погрузиться в нужную атмосферу.
Classic Theme — минималистичный интерфейс для технического использования: код, тестирование, чистый текст.
Aesthetic Theme — визуально приятный, стилизованный UI с «анимешным» акцентом. Добавляет портреты персонажей, декоративные рамки, цветовые градиенты.
Corpo Theme — стиль, максимально похожий на приложения вроде ChatGPT.
Samplers

Здесь находятся основные параметры генерации, которые определяют стиль, креативность, длину и стабильность ответов модели. Ниже пробежимся только по самым важным параметрам, без перегрузов!
Context Size — сколько токенов из истории диалога модель будет помнить. Максимум зависит от модели (например, 4096, 8192, 32 768). Больше — лучше память, но выше нагрузка на RAM.
Max Output — максимальное количество токенов, которое модель сгенерирует за один вызов. 102–256 — нормальный диапазон для чата, больше — для длинных историй.
Temperature — «температура» генерации: 0.7–1.0 — креативно; ниже — строго и предсказуемо. Значения около 0.7–0.9 — сбалансированы.
Repetition Penalty — «наказание» за повтор слов. Значение 1.07–1.15 помогает убрать зацикливание, но слишком высокое — «ломает» стиль.
Top‑K — оставляет при генерации следующего слоа, только K самых вероятных слов из всего словаря. Например, при Top‑K = 40 — модель выбирает только из 40 самых вероятных токенов.
Top‑P — выбирает динамически то количество токенов, чья общая вероятность превышает P (например, 0.9 = 90%).
Остальное можно оставить как есть.
Media

Эта вкладка отвечает за генерацию изображений, озвучку и работу с голосом.
Generate Images
KoboldCpp может как сам генерировать изображения с помощью встроенной модели, так и передавать запрос во внешний движок типа Automatic1111.
Autogenerate Images (Smart) — модель будет сама решать, когда сгенерировать изображение по контексту.
Detect ImgGen Instructions — распознаёт специальные команды внутри текста (
/imagine
).Save Images — сохранять сгенерированные картинки в папку.
Text To Speech (TTS)
Озвучивает ответы модели.
Narrate Both Sides — озвучка и пользователя, и ИИ.
Narrate Only Dialog — только реплики ИИ.
Voice Input
Позволяет общаться с ИИ голосом. Работает с Whisper (если настроен).
Language — язык распознавания (можно оставить auto).
Delay — сколько миллисекунд ждать перед распознаванием.
Suppress Non-Speech — автоматически подавлять фоновые звуки.
WebSearch
Функционал ретривера информации из интернета. Да, языковую модель в кобольде можно из коробки настроить искать в интернете!
Context Data

В меню чата есть ещё важное окно под названием Context Data. Здесь мы можем задать условия, мир или "настроение" в сессии общения с моделью.
Поле Memory
Это позволяет задать постоянную память — текст, который будет автоматически добавляться в каждый запрос к модели. Так мы можем задать фон нашему боту: описание персонажей, сеттинг, лор и другие «всегда актуальные» детали. Например: "Ты - вождь орков Дуротан. Когда тебе что-то не понятно - говори "Лок-тар-огар!"." Такую память модель будет учитывать, пока вы не очистите контекст или не измените память вручную.
Пример:
Имя: Мефала
Фракция: Оплот (Rampart)
Раса: человек
Класс: фехтовальщица
Специализация: Защита
Характер: сдержанная, решительная и спокойная. Обладает холодным умом и тактическим мышлением. Мефала — боец не словом, а поступками, предпочитает молчание пустым разговорам.
Манера речи: говорит кратко, но чётко. Предпочитает прямоту, иногда допускает лёгкий сарказм.
Отношение к собеседнику: уважение нужно заслужить. Мефала ценит волю, выдержку и практичность.
Особенности: носит эльфийские кожаные доспехи без лишнего украшательства. Опытна в защите пограничных лесов и партизанской тактике. Не поддаётся эмоциям, её сложно сбить с толку.
Никогда не приукрашивает реальность. Спокойно даёт указания, как командир.
Поле Author’s Note
Это отдельный блок, который вставляется ближе к концу контекста и служит тонкой настройкой текущего поведения модели. Можно использовать для корректировки стиля, тона или добавления краткой подсказки которая актуальна в данный момент диалога. К слову, можно нажать AutoGenerate Memory чтобы быстро сформировать базовую память на основе текущего чата.
Пример:
Мефала говорит спокойно и уверенно. Она не теряет хладнокровия, избегает высокопарных фраз и говорит по делу. Её речь сдержанная, логичная, иногда с сухим сарказмом. Всё, что она говорит — звучит как приказ.
Вкладка World Info

World Info — это база фактов, понятий и сущностей, которые KoboldCpp автоматически подгружает в контекст во время генерации, когда видит связанные ключевые слова. Это своего рода локальная база знаний: названия персонажей, фракций, мест, заклинаний, предметов и любых других важных элементов мира.
Например:
Ключевое слово: Кригане; Криган; Kreegan; Криганский; Inferno demons
Текст: Кригане (англ. Kreegans) — демоническая раса пришельцев, обитающая в городе‑фракции Inferno. Их общество основано на жесткой иерархии; высшие касты — ифриты и архидьяволы. Кригане питаются разрушением, поклоняются хаосу и презирают все живое на Энроте. В бою часто используют магию Огня.
Теперь, когда в чате появится слово «Кригане», KoboldCpp автоматически вставит это описание ближе к Memory, и модель будет помнить лор без лишней «ручной» подсказки.
Вот и всё, что нужно, чтобы создать и настроить своего персонажа!
Save / Load

Это кнопка в верхнем меню позволяет сохранять сценарии или загружать готовые. Хранить сценарии можно как в кэше браузера, так и в виде внешнего .json файла. К сожалению, сохранить отдельно персонажа нельзя - для этого нужен SillyTavern.
Где взять модели?
Для ролевого опыта и творческих сценариев нужны модели без цензуры — иначе персонажи будут постоянно ограничены и «запиканы». Все языковые и голосовые модели можно найти на Hugging Face. Скачивать нужно в формате GGUF.
При выборе конкретной сборки нужно ориентироваться на уровень квантования — от Q2
(самое сильное сжатие, минимальные требования к железу, но и самое слабое качество) до Q8
(почти без потерь, но требует много RAM/VRAM). Оптимальный компромисс между качеством и производительностью — Q4_K_M
.
Ниже — актуальные безцензурные модели:
KoboldAI/LLaMA2–13B‑Tiefighter — отличный баланс между размером (~13B) и возможностями. Специально адаптирована для сторителлинга, RP и инструкционных задач.
TheDrummer/Cydonia-22B‑v1 — fine‑tuning от TheDrummer, оптимизирована для RP и сторителлинга с богатым креативом и интерактивностью. Очень выразительная и «живая» в ролевых сценариях, учитывает контекст, хорошо держит структуру повествования. Однако ресурсоёмкая — требует 20+ GB VRAM или эффективной quantization.
Mistral-7B‑Instruct — компактная (~7B) и быстрая, отлично подходит для первых экспериментов. Поддерживает instruct‑шаблоны и хорошо работает в Chat/Adventure Mode.
Gemma‑3–27B‑Abliterated — более крупная (~27B) модель с полностью снятой цензурой. Отличный выбор для насыщенных, «живых» ролевых диалогов и глубокой проработки персонажей.
Llama‑3.2–8×4B‑MoE‑Dark‑Champion — Mixture-of-Experts архитектура с гигантским контекстом (до 128k токенов!). Смелый стиль, эпическая подача — подходит для генерации длинных историй. Ресурсоёмкая, но впечатляющая.
Так же достойны упоминания: L3.2 Rogue Creative Instruct 7B, Stheno 8B, Mistral‑Nemo 12B RP — доступны на Hugging Face, оптимизированы под RP и без цензуры
Модели для генерации изображений советую искать на civitai.
Мой шаблон
Кому интересен мой шаблон настроек - сохраните json ниже в файл вроде cydonia_dreamshaper.kcppt
, затем открываем его в Load Config в кобольде. Тут указана для генерации изображений DreamShaperXL потому что её можно скачать через HuggingFace. Я же рекомендую зайди на civitai и скачать что-то вроде Realism by Yogi или по своему усмотрению. У меня RTX 4070 Ti SUPER 16GB VRAM, поэтому если у вас видеокарта слабее - придётся заменить LLM на одну из тех, что были перечислены выше.
{
"model_param": "https://huggingface.co/TheDrummer/Cydonia-22B-v1/resolve/main/cydonia-22b-v1-Q3_K_L.gguf",
"port_param": 5001,
"host": "",
"launch": true,
"threads": -1,
"usecublas": true,
"contextsize": 8192,
"gpulayers": 999,
"flashattention": true,
"usemmap": true,
"smartcontext": true,
"multiuser": 1,
"websearch": true,
"sdmodel": "https://huggingface.co/Lykon/dreamshaper-xl-v2-turbo/resolve/main/DreamShaperXL_Turbo_v2.safetensors",
"sdthreads": 0,
"sdt5xxl": "",
"sdvae": "",
"sdvaeauto": true,
"sdclamped": 0,
"image_auto": true,
"whispermodel": "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.en-q5_1.bin",
"ttsmodel": "https://huggingface.co/koboldcpp/tts/resolve/main/OuteTTS-0.3-500M-Q4_0.gguf",
"ttswavtokenizer": "https://huggingface.co/koboldcpp/tts/resolve/main/WavTokenizer-Large-75-Q4_0.gguf",
"ttsmaxlen": 4096,
"embeddingsmodel": "https://huggingface.co/koboldcpp/GGUFDumps/resolve/main/snowflake-arctic-embed-m-long-Q4_0.gguf",
"chatcompletionsadapter": "AutoGuess",
"defaultgenamt": 512,
"maxrequestsize": 32,
"istemplate": true
}
Плюсы и минусы KoboldCpp
Мы подошли к финалу обзора и можем подытожить, чем хорош KoboldCpp — и когда лучше обратить внимание на альтернативы вроде LM Studio, Ollama или Oobabooga.
Плюсы:
Универсальность: один интерфейс — множество сценариев (чат, сторителлинг, RPG, рабочий ассистент).
Заточен под развлечения: встроенные ролевые режимы, генерация истории, персонажи.
Не требует установки: работает в portable-режиме, запускается с любого места.
Приватность и open-source: никакой отправки логов или диалогов в сеть.
Мультимодальность: поддержка текста, изображений, озвучки (TTS) и распознавания речи (STT).
Многопользовательский режим: можно подключаться с разных устройств одновременно.
Поддержка внешних подключений: туннели, Web API, взаимодействие с другими интерфейсами.
Простой RAG из коробки: встроенная база знаний через TextDB.
Интеграция с SillyTavern: легко использовать в ролевых и визуальных интерфейсах.
Минусы:
Менее удобная загрузка моделей, чем в LM Studio или Ollama (нет drag-and-drop или автопоиска).
Интерфейс немного устаревший — особенно по сравнению с новыми desktop-UI у LM Studio или WebUI у Oobabooga.
Нет возможности экспорта персонажей отдельно от сценария.
Как по мне, KoboldCpp — это лучший выбор для тех, кто хочет не просто запустить локальную LLM, а извлечь из неё максимальный интерактивный опыт. Этот софт не самый минималистичный, не самый удобный для новичка, но зато максимально гибкий: здесь можно не только общаться с ботом, но и разворачивать текстовые приключения, озвучивать диалоги, подключать генерацию изображений и даже задавать базу знаний.
Если вам интересен чисто рабочий фронтэнд под LLM — читайте мой гайд по LM Studio.
Ну а в следующем обзоре мы ещё больше углубимся в развлекательный функционал LLM в обзоре SillyTavern — подписывайтесь, ставьте лайки!
Комментарии (8)
Moog_Prodigy
07.07.2025 11:30Надо же, сколько упихали туда. Вот еще минусы:
Постоянные вылеты без каких-либо обьяснений (особенно если моделька "чуть не подходит"), а чем она не подходит - только методом перебора.
Несмотря на всю простоту, также требует видеокарту и неслабую. Генерация на CPU конечно возможна, на скоростях 1-3 токен в секунду. Для программирования это куда ни шло, для ролевых игр это очень печально.
Имхо, для ролевки пока лучше ST не сделали. Но подключать ее желательно к LMStudio паровозиком.
GiantLynx Автор
07.07.2025 11:30У меня были такие проблемы только с генераторами картинок и STT. Языковые GGUF все подходили, ну или мне просто повезло. Но генераторы картинок лучше хостить в A1111 или ComfyUI для лучшего экспериенса. (да, ещё один сервис который надо поднять, но это так оно работает лучше).
Даже с RTX 3060 можно уже играться на квантованых 7b моделях, но что-либо старее, да, уже грустно.
Bikedu
07.07.2025 11:30А есть ли возможность реализовать умный дом на основе этого?
GiantLynx Автор
07.07.2025 11:30Да, запросто. KoboldCpp - это просто локальный LLM-сервер с HTTP API, так что его можно скрестить с Home Assistant или MQTT. Придётся дописать мост на питоне, но если хочется сделать своего домашнего вайфу-ассистента, как в sci-fi фильмах (Blade Runner 2049) - то это можно сделать уже сейчас.
eps
07.07.2025 11:30Возможно, я не расчувствовал прелесть KoboldCPP.
Кажется ollama + хороший нативный UI (я пользуюсь MindMac, но видел неплохие другие) будет поприятнее. Синтез / распознавание речи есть встроенные в MacOS, картинки на входе ollama умеет. Картинки на выходе — нет, но за 6 итераций (иначе timeout) Kobold UI выдаёт сложноразличимую фигню, которая вряд ли обогащает историю.
Плюс мне нравится концепция ollama (всегда запущенный API-сервер и тонкие клиенты на любой вкус). Два сервера — один на моём ноуте, один на соседнем компе помощнее, они выгружают модели спустя какое-то время и не мешают жить.
Спасибо ОПу за статью. Помогла попробовать систему — и понять, что это не моё.
whileTrueCry
07.07.2025 11:30Крутая статья - чётко, по делу и без лишней воды. Особенно понравилось, как подробно расписаны режимы Story / Chat / Adventure. Было бы интересно увидеть сравнение производительности CPU vs GPU: сколько токенов в секунду, как меняется отклик и т.п. Ещё, может, отдельный блок про подключение внешних источников (типа API или RAG с поиском) - чтобы можно было вытащить свежие данные в оффлайн‑режиме.
В целом - мощный гайд. Спасибо!
eps
Было бы здорово получить ваши рекомендуемые модели в виде одного файла .kcppt, как в примере из доков
GiantLynx Автор
Добавил шаблон в статью