KoboldCpp — нейросеть для развлечений и работы у нас дома / forpes.ru

Главная
KoboldCpp — нейросеть для развлечений и работы у нас дома

KoboldCpp — нейросеть для развлечений и работы у нас дома +9

07.07.2025 10:27

GiantLynx 8 2200 Источник

Представьте, что вы развернули у себя дома полноценную языковую модель — не платного чат‑бота из облака с его фильтрами, задержками и цензурой, а вполне безлимитную LLM, которая может быть и помощником по работе, и D&D квестом, и вашей вайфу… на абсолютно любую тему. И в 2025 году это уже работает неожиданно хорошо.

Ещё год назад за достойное ролевое общение приходилось платить Character.AI или бороться с ограничениями в ChatGPT, но теперь — всё иначе. Домашний чатбот не только не уступает по качеству, но и выигрывает: всего за 5 минут можно добавить генерацию изображений, озвучку (TTS), понимание речи (STT) и полную автономность — без облаков, логов и подписок.

В этой статье расскажу:

как запустить языковую модель на базе KoboldCpp даже на не самом свежем железе
как быстро настраивать персонажей и диалоговые сценарии
и как за 5 минут своей LLM‑вайфе, офис‑ассистенту или игрового персонажу голос и генерацию изображений — всё у себя локально

Будет умеренно много информации по настройке программы и персонажей, но только полезной, без воды и слишком эзкотических настроек.
Тем, кто не хочет долго разбираться, а сразу кинуться в бой - достаточно прочитать блок Быстрый старт.

Что такое KoboldCpp

KoboldCpp — это локальный open‑source сервер для запуска больших языковых моделей (LLM, или попросту — чатботов) на базе известного движка llama.cpp.

В отличие от Ollama, здесь есть встроенный веб‑интерфейс. В отличие от LM Studio, KoboldCpp изначально заточен под мультимедийный сценарий: он объединяет текст, голос (как на вход, так и на выход), распознавание и генерацию изображений. Особенно хорошо он подходит для ролевых сценариев и текстовых квестов — олдфаги, игравшие в доисторические текстовые адвенчуры без графики, поймут, о чём речь. Только теперь в этих приключениях есть полноценный ИИ!

Установка

Программа устанавливается на все основные платформы (Mac, Windows и Linux. На Android возможен запуск через Termux, но он неофициальный) буквально в один клик. Переходим по ссылке, находим установочный файл для последнего релиза и своей платформы и дважды кликаем.

Устанавливать ничего не нужно: дистрибутив запускается в portable‑режиме. Просто скопируйте.exe (или соответствующий бинарник под Linux/macOS) в удобное место на диске и запускайте оттуда — всё будет работать из коробки.

Быстрый старт!

Чтобы начать, нужно буквально два действия — выбрать железо и языковую модель. При запуске koboldcpp.exe (или аналога на вашей ОС) появляется лаунчер в котором есть основные технические настройки.

В поле Presets выбираем:

Если у вас видеокарта NVIDIA — выбирайте Use CuBLAS. Это самый быстрый и стабильный вариант.
Если у вас AMD или Intel GPU — пробуйте Vulkan или CLBlast.
Если GPU нет или она очень старая, оставайтесь на Use CPU.

Проверьте, что в поле GPU ID отображается название нужного адаптера — лаунчер обычно подставляет его автоматически.

Flash Attention может ускорить работу модели в 2–4 раза за счёт оптимизированного механизма внимания — он снижает нагрузку на память GPU. Flash Attention официально работает только с CuBLAS (CUDA). Для Vulkan поддержка отсутствует.
В общем, если у вас Nvidia RTX и CuBLAS, включаем, если Vulkan или CPU оставляем выключенным.

MMAP полезен, если модель больше объёма доступной RAM, но у вас есть быстрый SSD — в этом случае веса подгружаются "по требованию", и можно запускать даже крупные модели на относительно слабых машинах.
Если же оперативки достаточно (например, 64 ГБ для модели 7–13B), выгоднее загрузить веса целиком и запустить без mmap — так вы избежите лишних обращений к диску.

Context Size — это объём «памяти» модели в токенах. Чем он выше, тем больше прошлых сообщений LLM будет помнить, но тем больше RAM/VRAM уйдёт на KV‑кэш и тем медленнее будет каждая итерация. Выбирайте значение, которое покрывает ваш тип диалогов, не превышая разумный предел системы.

Этих настроек вполне достаточно, чтобы начать чатиться и исследовать возможности приложения. Хотите сразу в бой — нажимайте Launch! А если хотите выжать из KoboldCpp максимум — дальше вас ждёт подробный разбор: от визуального сторителлинга до синтеза речи и Web UI кастомизации.

Детальные настройки

Loaded Files

Text Model — файл нашей LLMки в формате GGUF. Для быстрого старта можем выбрать рекомендованый Tiefighter 13B. Мы рассмотрим другие модели чуть позже.

HF Search — поиск языковых моделей на Hugging Face.

Text Lora (необязательное) — позволяет подключить LoRA‑адаптер — дополнительный файл, меняющий поведение основной модели (тональность, стиль, персонаж и т. д.). Обычно используется в ролевых или специализированных задачах (например, LoRA для ролевой вайфу, программирования и т. д.).

Vision mmproj — это дополнительный мультимодальный «проектор» (projection‑head) для моделей, которые умеют понимать изображения — например, LLaVA‑тюны на базе Llama / Mistral / Gemma. Если мы запускаем чисто текстовую LLM, это поле можно оставить пустым.

Остальные поля можно не трогать.

Network

Port — порт, на котором запускается веб‑интерфейс и API сервер KoboldCpp.
Важно: если вы хотите открыть доступ с другого устройства в сети — не забудьте пробросить этот порт.

Host — по умолчанию пусто → сервер слушает localhost (только для текущего ПК). Если хотите получить доступ с другого устройства в сети (например, с телефона) — укажите:

0.0.0.0

Это откроет сервер на все IP‑интерфейсы вашей машины.

Multiuser Mode — позволяет одновременно подключаться к KoboldCpp нескольким клиентам (например, SillyTavern + браузер).

Quiet Mode — отключает логгирование запросов в консоль. Удобно, если не хотите видеть потоковое лог‑сообщение на каждый токен/запрос. Визуально чистит терминал, но никак не влияет на работу модели.

Shared Multiplayer — экспериментальный режим для подключения нескольких живых пользователей в один чат.

Remote Tunnel — открывает доступ к KoboldCpp через туннель (например, через Cloudflare или ngrok). Полезно, если хотим запустить KoboldCpp на ПК и заходить, например, через телефон.

Enable WebSearch — включает подключение к внешним веб‑поисковикам — работает только при наличии модели или плагина с поддержкой retrieval (например, через TextDB, LangChain или собственную реализацию).

Image Gen

Image Gen. Model (safetensors/gguf) — главный файл модели Stable Diffusion в формате .safetensors или .gguf. Рекомендуется использовать оптимизированные модели типа:

deliberate_v2.safetensors
dreamshaper_8.gguf
fluxdiffusion‑v1.0.gguf

Без этого файла генерация изображений работать не будет.

Clamp Resolution Limit — ограничение на максимальное разрешение генерируемых картинок. Hard — абсолютный предел (например, 1024), Soft — ограничение, которое может быть гибким при апскейле.

Image LoRA — Дополнительные стили или визуальные адаптации для SD.

LoRA‑файл подгружается отдельно (аналогично text‑LoRA).
Multiplier регулирует силу влияния LoRA.

Используется в продвинутых художественных сценариях. Можно не трогать на старте.
Остальные поля тоже можно оставить как есть.

Audio

Эта вкладка отвечает за озвучивание текста (TTS) и распознавание речи (STT). Можно скипнуть, если вы пока не собираетесь общаться с моделью голосом или получать голосовые ответы.

Whisper Model (Speech‑To‑Text) — Путь к модели Whisper, которая распознаёт речь (STT) в формате .bin. Если вы хотите говорить голосом — обязательно укажите файл здесь. Примеры моделей:

whisper‑tiny.en
whisper‑medium.en

Модели с поддержкой русского языка (от самой компактной к большой):

whisper‑tiny.ru
whisper‑base.ru
whisper‑medium
whisper‑large‑v3

OuteTTS Model (Text‑To‑Speech) — путь к OuteTTS‑модели — это генератор голоса из текста. Тоже формат.gguf. Ставим, если хотим, чтобы модель отвечала голосом. Примеры:

espeak‑voice‑en‑us.gguf
gruut‑tts‑vctk‑en‑female.gguf

Модели с поддержкой русского языка (от самой компактной к большой):

espeak‑ng‑ru.gguf (монотонный голос)
gruut‑tts‑vctk‑ru‑female.gguf (живее звучание)
mms‑tts‑rus.gguf (современная, нейросетевой голос)

WavTokenizer Model (Text‑To‑Speech Required) — токенизатор звуковой волны, требуется вместе с OuteTTS, только если модель использует раздельный токенизатор.

Extra

Unpack KoboldCpp To Folder — Распаковывает встроенные компоненты koboldcpp.exe (всё, что внутри одного.exe‑файла) в отдельную папку. Полезно, если хотим запускать через скрипты или командную строку, для базовых целей не нужно.

Generate LaunchTemplate — создаёт файл‑шаблон конфигурации.kcppt, который содержит:

Путь к модели
Все параметры запуска
Выбранные режимы (GPU, контекст, FlashAttention и т. д.)

Register / Unregister — регистрирует расширения .kcppt в системе Windows, чтобы можно было двойным кликом запускать KoboldCpp с нужной конфигурацией.

Теперь нажимаем Launch, если не нажали раньше и наконец‑то переходим к работе программы!

Чат

После запуска нас перебросит на ссылку по умолчанию http://localhost:5001 в браузере (если ни одна из моделей во время запуска не крашится — это будет видно в консоле).

Помимо вполне очевидного интерфейса не нуждающегося в объяснении, нас интересует кнопка шестрёнки с дополнительным функционалом:

Здесь можно переписывать сообщения как себя, так и бота, генерировать изображения. Изображения могут быть сгенерированы как по контексту беседы, так и по обычному промпту. Но мы чуть позже настроим так, что изображения будут сами генерировать в контекстуально‑уместный момент переписки.

Настройки чата

Одно из главных преимуществ KoboldCpp перед другими фронэнтдами для LLM — его неожиданно огромная универсальность. В отличие от других клиентов для языковых моделей, KoboldCpp адаптируется под любые сценарии: рабочий ассистент, ролевая вайфу, генератор историй или текстовый мастер подземелий.
Всё это зависит не только от выбранной языковой модели, но и от того, как настроен интерфейс и режим взаимодействия с ИИ.

За эти настройки отвечает вкладка Settings. Здесь можно выбрать стиль общения, включить или отключить форматирование Markdown, задать структуру диалога и выбрать режим генерации. Один из ключевых параметров — Usage Mode — определяет общий формат и "поведение" модели. Ниже кратко разберём, что означает каждый из режимов и для чего он нужен:

Usage Mode - одна из важнейших настроек в koboldCpp — Usage Mode — одна из важнейших настроек в koboldCpp

Instruct Mode (рекомендуемый по умолчанию) — этот режим имитирует поведение моделей‑помощников, как ChatGPT, Claude Sonnet, Mistral Le Chat. Использует чёткую структуру вида:

[Instruction]
Response

Выбирать для рабочих сценариев: объяснение, помощь в коде, работа, формальные диалоги, короткие ответы. Совместим с большинством современных GGUF‑моделей (особенно с суффиксом *‑Instruct).

Story Mode — ориентирован на генерацию непрерывного нарратива без диалогов. Модель воспринимает ввод как часть текста и плавно продолжает его в том же стиле. Нет чёткого деления на «пользователь/модель» — всё воспринимается как «продолжение истории». Подходит для: художественного письма, книг, фрагментов рассказов, дневников.

Adventure Mode — стиль общения в духе текстовых RPG Dungeons & Dragons. Каждое сообщение пользователя интерпретируется как действие игрока, а модель играет роль мастера подземелий или игрового мира.
Часто форматируется как:

> Go north  
The orc blocks your path...

В Adventure Mode вводимое сообщение имеет три типа:

Action — Представляет собой действие, которое игрок совершает от первого лица.
Action (Roll) — То же самое, что обычное Action, но с добавлением элемента случайности успеха или логики броска кубика.
Story — нейтральное продолжение повествования без указания на чьё‑либо действие. Может быть как описанием сцены, так и монологом, размышлением или реакцией NPC.

Adventure Mode подходит для RPG-ботов, текстовых квестов, ролевого взаимодействия с персонажами/миром.

Chat Mode — подразумевает диалог в формате «Пользователь — Ассистент». Добавляет имена (например, User / Assistant) и имитирует реалистичный чат. Этот вариант подходит для непринуждённой беседы, болтовни, ролевого общения, вайфу‑ботов, симуляции персонажей.

Ниже пример, как может выглядеть ответ на один и тот же вопрос "Опиши, как выглядит эльфийка в доспехах". Естественно, конкретный ответ так же зависит от контекста, системного промпта и LLM-модели!

User: Опиши, как выглядит эльфийка в доспехах.
Чат:

Instruct Mode	Эльфийка — высокая и изящная, с серебристыми волосами, заплетёнными в косу. Её доспехи выполнены из легчайшего мифрила, покрыты узорами в форме листьев и переливаются в свете солнца. Она держит изящный лук и внимательно смотрит вдаль.
Chat Mode	Ха, отличный вопрос! Представь себе эльфийку с сияющими глазами и легкой походкой. Она в лёгких доспехах, украшенных резьбой — явно не просто воин, а кто-то важный. Хочешь, я нарисую её?
Story Mode	…Эльфийка стояла на склоне холма. Её доспехи сияли в лучах утреннего солнца, отражая голубизну неба. Ветер играл с прядями её волос, пока она спокойно наблюдала за движением внизу. Лес знал её, как знает своих защитников.
Adventure Mode	Ты смотришь на эльфийку. Её стройная фигура заключена в легкие доспехи из мифрила. Она замечает твой взгляд и приподнимает бровь. — Что-то интересует, путник?

Стили

В KoboldCpp можно выбрать между тремя стилями оформления интерфейса. Это чисто визуальная настройка, но она помогает погрузиться в нужную атмосферу.

Classic Theme — минималистичный интерфейс для технического использования: код, тестирование, чистый текст.
Aesthetic Theme — визуально приятный, стилизованный UI с «анимешным» акцентом. Добавляет портреты персонажей, декоративные рамки, цветовые градиенты.
Corpo Theme — стиль, максимально похожий на приложения вроде ChatGPT.

Samplers

Здесь находятся основные параметры генерации, которые определяют стиль, креативность, длину и стабильность ответов модели. Ниже пробежимся только по самым важным параметрам, без перегрузов!

Context Size — сколько токенов из истории диалога модель будет помнить. Максимум зависит от модели (например, 4096, 8192, 32 768). Больше — лучше память, но выше нагрузка на RAM.

Max Output — максимальное количество токенов, которое модель сгенерирует за один вызов. 102–256 — нормальный диапазон для чата, больше — для длинных историй.

Temperature — «температура» генерации: 0.7–1.0 — креативно; ниже — строго и предсказуемо. Значения около 0.7–0.9 — сбалансированы.

Repetition Penalty — «наказание» за повтор слов. Значение 1.07–1.15 помогает убрать зацикливание, но слишком высокое — «ломает» стиль.

Top‑K — оставляет при генерации следующего слоа, только K самых вероятных слов из всего словаря. Например, при Top‑K = 40 — модель выбирает только из 40 самых вероятных токенов.

Top‑P — выбирает динамически то количество токенов, чья общая вероятность превышает P (например, 0.9 = 90%).

Остальное можно оставить как есть.

Media

Эта вкладка отвечает за генерацию изображений, озвучку и работу с голосом.

Generate Images

KoboldCpp может как сам генерировать изображения с помощью встроенной модели, так и передавать запрос во внешний движок типа Automatic1111.

Autogenerate Images (Smart) — модель будет сама решать, когда сгенерировать изображение по контексту.
Detect ImgGen Instructions — распознаёт специальные команды внутри текста (/imagine).
Save Images — сохранять сгенерированные картинки в папку.

Text To Speech (TTS)

Озвучивает ответы модели.

Narrate Both Sides — озвучка и пользователя, и ИИ.
Narrate Only Dialog — только реплики ИИ.

Voice Input

Позволяет общаться с ИИ голосом. Работает с Whisper (если настроен).

Language — язык распознавания (можно оставить auto).
Delay — сколько миллисекунд ждать перед распознаванием.
Suppress Non-Speech — автоматически подавлять фоновые звуки.

WebSearch

Функционал ретривера информации из интернета. Да, языковую модель в кобольде можно из коробки настроить искать в интернете!

Context Data

В меню чата есть ещё важное окно под названием Context Data. Здесь мы можем задать условия, мир или "настроение" в сессии общения с моделью.

Поле Memory

Это позволяет задать постоянную память — текст, который будет автоматически добавляться в каждый запрос к модели. Так мы можем задать фон нашему боту: описание персонажей, сеттинг, лор и другие «всегда актуальные» детали. Например: "Ты - вождь орков Дуротан. Когда тебе что-то не понятно - говори "Лок-тар-огар!"." Такую память модель будет учитывать, пока вы не очистите контекст или не измените память вручную.

Пример:

Имя: Мефала  
Фракция: Оплот (Rampart)  
Раса: человек  
Класс: фехтовальщица  
Специализация: Защита

Характер: сдержанная, решительная и спокойная. Обладает холодным умом и тактическим мышлением. Мефала — боец не словом, а поступками, предпочитает молчание пустым разговорам.  
Манера речи: говорит кратко, но чётко. Предпочитает прямоту, иногда допускает лёгкий сарказм.  
Отношение к собеседнику: уважение нужно заслужить. Мефала ценит волю, выдержку и практичность.  

Особенности: носит эльфийские кожаные доспехи без лишнего украшательства. Опытна в защите пограничных лесов и партизанской тактике. Не поддаётся эмоциям, её сложно сбить с толку.  
Никогда не приукрашивает реальность. Спокойно даёт указания, как командир.

Поле Author’s Note

Это отдельный блок, который вставляется ближе к концу контекста и служит тонкой настройкой текущего поведения модели. Можно использовать для корректировки стиля, тона или добавления краткой подсказки которая актуальна в данный момент диалога. К слову, можно нажать AutoGenerate Memory чтобы быстро сформировать базовую память на основе текущего чата.
Пример:

Мефала говорит спокойно и уверенно. Она не теряет хладнокровия, избегает высокопарных фраз и говорит по делу. Её речь сдержанная, логичная, иногда с сухим сарказмом. Всё, что она говорит — звучит как приказ.

Вкладка World Info

World Info — это база фактов, понятий и сущностей, которые KoboldCpp автоматически подгружает в контекст во время генерации, когда видит связанные ключевые слова. Это своего рода локальная база знаний: названия персонажей, фракций, мест, заклинаний, предметов и любых других важных элементов мира.

Например:

Ключевое слово: Кригане; Криган; Kreegan; Криганский; Inferno demons
Текст: Кригане (англ. Kreegans) — демоническая раса пришельцев, обитающая в городе‑фракции Inferno. Их общество основано на жесткой иерархии; высшие касты — ифриты и архидьяволы. Кригане питаются разрушением, поклоняются хаосу и презирают все живое на Энроте. В бою часто используют магию Огня.

Теперь, когда в чате появится слово «Кригане», KoboldCpp автоматически вставит это описание ближе к Memory, и модель будет помнить лор без лишней «ручной» подсказки.

Вот и всё, что нужно, чтобы создать и настроить своего персонажа!

Save / Load

Это кнопка в верхнем меню позволяет сохранять сценарии или загружать готовые. Хранить сценарии можно как в кэше браузера, так и в виде внешнего .json файла. К сожалению, сохранить отдельно персонажа нельзя - для этого нужен SillyTavern.

Где взять модели?

Для ролевого опыта и творческих сценариев нужны модели без цензуры — иначе персонажи будут постоянно ограничены и «запиканы». Все языковые и голосовые модели можно найти на Hugging Face. Скачивать нужно в формате GGUF.

При выборе конкретной сборки нужно ориентироваться на уровень квантования — от Q2 (самое сильное сжатие, минимальные требования к железу, но и самое слабое качество) до Q8 (почти без потерь, но требует много RAM/VRAM). Оптимальный компромисс между качеством и производительностью — Q4_K_M.

Ниже — актуальные безцензурные модели:

KoboldAI/LLaMA2–13B‑Tiefighter — отличный баланс между размером (~13B) и возможностями. Специально адаптирована для сторителлинга, RP и инструкционных задач.
TheDrummer/Cydonia-22B‑v1 — fine‑tuning от TheDrummer, оптимизирована для RP и сторителлинга с богатым креативом и интерактивностью. Очень выразительная и «живая» в ролевых сценариях, учитывает контекст, хорошо держит структуру повествования. Однако ресурсоёмкая — требует 20+ GB VRAM или эффективной quantization.
Mistral-7B‑Instruct — компактная (~7B) и быстрая, отлично подходит для первых экспериментов. Поддерживает instruct‑шаблоны и хорошо работает в Chat/Adventure Mode.
Gemma‑3–27B‑Abliterated — более крупная (~27B) модель с полностью снятой цензурой. Отличный выбор для насыщенных, «живых» ролевых диалогов и глубокой проработки персонажей.
Llama‑3.2–8×4B‑MoE‑Dark‑Champion — Mixture-of-Experts архитектура с гигантским контекстом (до 128k токенов!). Смелый стиль, эпическая подача — подходит для генерации длинных историй. Ресурсоёмкая, но впечатляющая.
Так же достойны упоминания: L3.2 Rogue Creative Instruct 7B, Stheno 8B, Mistral‑Nemo 12B RP — доступны на Hugging Face, оптимизированы под RP и без цензуры

Модели для генерации изображений советую искать на civitai.

Мой шаблон

Кому интересен мой шаблон настроек - сохраните json ниже в файл вроде cydonia_dreamshaper.kcppt, затем открываем его в Load Config в кобольде. Тут указана для генерации изображений DreamShaperXL потому что её можно скачать через HuggingFace. Я же рекомендую зайди на civitai и скачать что-то вроде Realism by Yogi или по своему усмотрению. У меня RTX 4070 Ti SUPER 16GB VRAM, поэтому если у вас видеокарта слабее - придётся заменить LLM на одну из тех, что были перечислены выше.

{
  "model_param": "https://huggingface.co/TheDrummer/Cydonia-22B-v1/resolve/main/cydonia-22b-v1-Q3_K_L.gguf",

  "port_param": 5001,
  "host": "",
  "launch": true,

  "threads": -1,
  "usecublas": true,
  "contextsize": 8192,
  "gpulayers": 999,
  "flashattention": true,
  "usemmap": true,
  "smartcontext": true,

  "multiuser": 1,
  "websearch": true,

  "sdmodel": "https://huggingface.co/Lykon/dreamshaper-xl-v2-turbo/resolve/main/DreamShaperXL_Turbo_v2.safetensors",
  "sdthreads": 0,
  "sdt5xxl": "",
  "sdvae": "",
  "sdvaeauto": true,
  "sdclamped": 0,
  "image_auto": true,

  "whispermodel": "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.en-q5_1.bin",
  "ttsmodel": "https://huggingface.co/koboldcpp/tts/resolve/main/OuteTTS-0.3-500M-Q4_0.gguf",
  "ttswavtokenizer": "https://huggingface.co/koboldcpp/tts/resolve/main/WavTokenizer-Large-75-Q4_0.gguf",
  "ttsmaxlen": 4096,

  "embeddingsmodel": "https://huggingface.co/koboldcpp/GGUFDumps/resolve/main/snowflake-arctic-embed-m-long-Q4_0.gguf",

  "chatcompletionsadapter": "AutoGuess",
  "defaultgenamt": 512,
  "maxrequestsize": 32,
  "istemplate": true
}

Плюсы и минусы KoboldCpp

Мы подошли к финалу обзора и можем подытожить, чем хорош KoboldCpp — и когда лучше обратить внимание на альтернативы вроде LM Studio, Ollama или Oobabooga.

Плюсы:

Универсальность: один интерфейс — множество сценариев (чат, сторителлинг, RPG, рабочий ассистент).
Заточен под развлечения: встроенные ролевые режимы, генерация истории, персонажи.
Не требует установки: работает в portable-режиме, запускается с любого места.
Приватность и open-source: никакой отправки логов или диалогов в сеть.
Мультимодальность: поддержка текста, изображений, озвучки (TTS) и распознавания речи (STT).
Многопользовательский режим: можно подключаться с разных устройств одновременно.
Поддержка внешних подключений: туннели, Web API, взаимодействие с другими интерфейсами.
Простой RAG из коробки: встроенная база знаний через TextDB.
Интеграция с SillyTavern: легко использовать в ролевых и визуальных интерфейсах.

Минусы:

Менее удобная загрузка моделей, чем в LM Studio или Ollama (нет drag-and-drop или автопоиска).
Интерфейс немного устаревший — особенно по сравнению с новыми desktop-UI у LM Studio или WebUI у Oobabooga.
Нет возможности экспорта персонажей отдельно от сценария.

Как по мне, KoboldCpp — это лучший выбор для тех, кто хочет не просто запустить локальную LLM, а извлечь из неё максимальный интерактивный опыт. Этот софт не самый минималистичный, не самый удобный для новичка, но зато максимально гибкий: здесь можно не только общаться с ботом, но и разворачивать текстовые приключения, озвучивать диалоги, подключать генерацию изображений и даже задавать базу знаний.

Если вам интересен чисто рабочий фронтэнд под LLM — читайте мой гайд по LM Studio.
Ну а в следующем обзоре мы ещё больше углубимся в развлекательный функционал LLM в обзоре SillyTavern — подписывайтесь, ставьте лайки!

Комментарии (8)

eps
07.07.2025 11:30
#28539740
Было бы здорово получить ваши рекомендуемые модели в виде одного файла .kcppt, как в примере из доков
1. GiantLynx Автор
  07.07.2025 11:30
  #28540350
  Добавил шаблон в статью

Moog_Prodigy
07.07.2025 11:30
#28540016
Надо же, сколько упихали туда. Вот еще минусы:
1. Постоянные вылеты без каких-либо обьяснений (особенно если моделька "чуть не подходит"), а чем она не подходит - только методом перебора.
2. Несмотря на всю простоту, также требует видеокарту и неслабую. Генерация на CPU конечно возможна, на скоростях 1-3 токен в секунду. Для программирования это куда ни шло, для ролевых игр это очень печально.
Имхо, для ролевки пока лучше ST не сделали. Но подключать ее желательно к LMStudio паровозиком.
1. GiantLynx Автор
  07.07.2025 11:30
  #28540158
  У меня были такие проблемы только с генераторами картинок и STT. Языковые GGUF все подходили, ну или мне просто повезло. Но генераторы картинок лучше хостить в A1111 или ComfyUI для лучшего экспериенса. (да, ещё один сервис который надо поднять, но это так оно работает лучше).
  
  Даже с RTX 3060 можно уже играться на квантованых 7b моделях, но что-либо старее, да, уже грустно.

Bikedu
07.07.2025 11:30
#28540124
А есть ли возможность реализовать умный дом на основе этого?
1. GiantLynx Автор
  07.07.2025 11:30
  #28540178
  Да, запросто. KoboldCpp - это просто локальный LLM-сервер с HTTP API, так что его можно скрестить с Home Assistant или MQTT. Придётся дописать мост на питоне, но если хочется сделать своего домашнего вайфу-ассистента, как в sci-fi фильмах (Blade Runner 2049) - то это можно сделать уже сейчас.

eps
07.07.2025 11:30
#28540290
Возможно, я не расчувствовал прелесть KoboldCPP.

Кажется ollama + хороший нативный UI (я пользуюсь MindMac, но видел неплохие другие) будет поприятнее. Синтез / распознавание речи есть встроенные в MacOS, картинки на входе ollama умеет. Картинки на выходе — нет, но за 6 итераций (иначе timeout) Kobold UI выдаёт сложноразличимую фигню, которая вряд ли обогащает историю.

Плюс мне нравится концепция ollama (всегда запущенный API-сервер и тонкие клиенты на любой вкус). Два сервера — один на моём ноуте, один на соседнем компе помощнее, они выгружают модели спустя какое-то время и не мешают жить.

Спасибо ОПу за статью. Помогла попробовать систему — и понять, что это не моё.

whileTrueCry
07.07.2025 11:30
#28541068
Крутая статья - чётко, по делу и без лишней воды. Особенно понравилось, как подробно расписаны режимы Story / Chat / Adventure. Было бы интересно увидеть сравнение производительности CPU vs GPU: сколько токенов в секунду, как меняется отклик и т.п. Ещё, может, отдельный блок про подключение внешних источников (типа API или RAG с поиском) - чтобы можно было вытащить свежие данные в оффлайн‑режиме.

В целом - мощный гайд. Спасибо!

KoboldCpp — нейросеть для развлечений и работы у нас дома +9

Что такое KoboldCpp

Установка

Быстрый старт!

Детальные настройки

Loaded Files

Network

Image Gen

Audio

Extra

Чат

Настройки чата

Стили

Samplers

Media

Generate Images

Text To Speech (TTS)

Voice Input

WebSearch

Context Data

Поле Memory

Поле Author’s Note

Вкладка World Info

Save / Load

Где взять модели?

Мой шаблон

Плюсы и минусы KoboldCpp

Комментарии (8)

eps

GiantLynx Автор

Moog_Prodigy

GiantLynx Автор

Bikedu

GiantLynx Автор

eps

whileTrueCry