Если вы хотите поиграться с LLM у вас есть несколько вариантов: можно задействовать LLM через код, можно воспользоваться чатом одного из облачных провайдеров, а можно развернуть у себя UI-клиента для работы с LLM. Их довольно много. И функционал у них может сильно различаться. В самом простом виде есть только чат. У наиболее продвинутых есть встроенные базы знаний, работа с изображениями и много других функций.

Ниже краткий обзор 9 таких клиентов (отсортированы по предпочтению автора):

  1. Open WebUI

  2. LM Studio

  3. Msty Studio

  4. Librechat

  5. Chatbox

  6. AnythingLLM

  7. GPT4All

  8. Jan.ai

  9. Ollama

1. Open WebUI

  • Git: https://github.com/open-webui/open-webui

  • Документация: https://docs.openwebui.com

  • Клиент: веб (докер)

  • Модели: поддерживает как локальные веса, так и подключение по API.

  • Функции: работа со звуком (запись голоса, TTS), работа с изображениями, веб-поиск, работа с файлами, RAG, встроенная база знаний, function/tool calling, многопользовательский режим (аккаунты, роли).

  • Лицензия: слегка модифицированный BSD-3.

Один из самых популярных клиентов. Имеет современный и продуманный интерфейс. Довольно развитый функционал. Возможно лучший кандидат для развертывания в локальной сети предприятия.

2. LM Studio

  • Скачать: https://lmstudio.ai

  • Документация: https://lmstudio.ai/docs/app

  • Клиент: десктоп (Win/Linux/macOS)

  • Модели: только скаченные на локальный на диск. Встроенный каталог моделей с Hugging Face (не нужно искать и скачивать вручную). Поддержка GPU.

  • Функции: RAG, База знаний, можно поднять OpenAI-совместимый локальный сервер, работа с файлами, поддержка мультимодальных моделей, настройка параметров генерации.

  • Лицензия: проприетарная, но LM Studio бесплатен как для личного, так и для коммерческого использования.

LM Studio все всем замечательная. Но есть один жирный недостаток - LM Studio не может работать по API (ни с облачными провайдерами, но со своими сервисами). Т.е. она предназначена только для локального использования на текущем компьютере и только с локально скаченными моделями. В остальном функционал очень богатый (особенно в части поддержки разных форматов и движков инференса).

3. Msty Studio

  • Скачать: https://msty.ai

  • Документация: https://docs.msty.studio/getting-started

  • Клиент: десктоп (Win/Linux/macOS)

  • Модели: локальные (Ollama) или через API (широкий набор провайдеров)

  • Функции: инструменты, RAG, база знаний, работа с файлами и изображениями, веб-поиск, настройка параметров генерации.

  • Лицензия: freemium. Базовый функционал бесплатен, но есть платные функции, для доступа к которым нужна лицензия. 

Msty имеет очень приятный и продуманный интерфейс. Функционал богатый, но есть платные функции.

4. Librechat

  • Сайт: https://www.librechat.ai

  • Git: https://github.com/danny-avila/LibreChat

  • Документация: https://www.librechat.ai/docs

  • Клиент: веб (docker)

  • Модели: только по API. Имеется ряд преднастроенных провайдеров.

  • Функции: RAG, работа с файлами, база знаний, инструменты, агенты, веб-поиск, настройка параметров генерации, работа с кодом, мультимодальность (работа с изображения/аудио), память, запись аудио (TTS). Многопользовательский режим (аутентификация, роли).

  • Лицензия: MIT

Интерфейс хорошо проработан. Из недостатков: многие настройки делаются через через конфигурационные файлы. Также подходит для развертывания в сети компании (легко поднимается через докер), но с настройками придется повозиться.

5. Chatbox

  • Сайт: https://chatboxai.app

  • Клиент: десктоп (Win/Linux/macOS)

  • Модели: локальные модели (через Ollama или LM Studio) + куча облачных провайдеров.

  • Функции: работа с файлами, генерация изображений, инструменты, база знаний, веб-поиск, работа с кодом.

  • Лицензия: GNU

Интерфейс простой, а функционал довольно навороченный.

6. AnythingLLM

  • Скачать: https://anythingllm.com/desktop

  • Документация: https://docs.anythingllm.com

  • Клиент: есть и десктоп (Win/Linux/macOS) и веб-клиент (docker)

  • Модели: локальные и по API (имеется куча провайдеров)

  • Функции: RAG, работа с документами, рабочие пространства, векторная БД, инструменты/агенты, поддержка мультимодальных моделей, TTS. 

  • Лицензия: MIT

(Имхо) немножко устаревший/карявенький интерфейс. В остальном довольно богатый функционал.

7. GPT4All

  • Сайт: https://www.nomic.ai/gpt4all

  • Документация: https://docs.gpt4all.io/

  • Клиент: десктоп (Win/Linux/macOS)

  • Модели: локальные + готовый список облачных провайдеров + можно подключить OpenAI API совместимые. Загрузка моделей с HuggingFace.

  • Функции: RAG, база знаний.

  • Лицензия: MIT

Немножко не современный интерфейс. Функционал базовый. А в остальном неплохое приложение.

8. Jan.ai

  • Сайт: https://www.jan.ai

  • Документация: https://www.jan.ai/docs/desktop

  • Клиент: десктоп (Win/Linux/macOS)

  • Модели: локальные модели (через lama.cpp), готовый список облачных провайдеров + можно подключить OpenAI совместимые API. Загрузка моделей через хаб.

  • Функции: вызов инструментов, настройка параметров генерации. Можно поднять свой локальный сервер.

  • Лицензия: AGPL-3.0

Простой и легкий клиент. Функционал скромный, но для несложных экспериментов вполне достаточный. Интерфейс хороший, но без изысков.

9. Ollama

  • Сай: https://ollama.com

  • Документация: https://docs.ollama.com

  • Клиент: десктоп (Win/Linux/macOS).

  • Модели: локальные. Загрузка с собственного хаба.

  • Функции: только чат.

  • Лицензия: MIT

Интерфейс простой как две копейки, но симпатишный :) Из функционала - только чат и возможность скачивать модели из собственного репозитория.


Вместо вывода. Если нужен веб, то сначала смотрим на Open WebUI, потом Librechat (там чуть сложнее настройки). Если нужно десктоп приложение, то фаворита два: LM Studio и Msty Studio. LM Studio смотрится помощнее, но не может никуда подключаться по API.

Помимо рассмотренных есть и другие решения. Например: private-gpt, KoboldCpp, SillyTavern, Text Generation WebUI (oobabooga). Они менее известны. Они отсутствуют в этой подборке либо потому что мне не удалось из запустить (без танцев с бубном), либо они имеют совсем устаревший интерфейс (судя по скринам).


Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

Комментарии (7)


  1. Bardakan
    24.10.2025 17:44

    Что такое «толстый клиент»?


    1. slivka_83 Автор
      24.10.2025 17:44

      десктопное приложение.


  1. Shannon
    24.10.2025 17:44

    Если нужно десктоп приложение, то фаворита два: LM Studio и Msty Studio.

    Оба с закрытым кодом, а открытый Jan.ai им не конкурент. Есть другая популярная опенсорсная полнофункциональная альтернатива Cherry Studio:
    https://github.com/CherryHQ/cherry-studio

    Если лезть в дебри ollama, то есть в консоль, то можно заглянуть и в оригинал. В llama.cpp уже встроен простой и удобный веб-клиент, на котором можно развернуться запуская модели на GPU + CPU через параметры -cmoe или -ncmoe N, которые до сих пор не поддерживаются в ollama.
    -cmoe позволяет запустить на слабом железе не только GPT-OSS-120b или GLM-4.5-Air 110b, но и более крупные модели, если хватает обычной RAM памяти.

    В ежедневных готовых сборках llama.cpp есть llama-server.exe, на huggingface есть команда для скачивания и запуска:

    Модель GPT-OSS-120b весит 61гб, в домашние GPU она не лезет, но так как это MoE модель, то с помощью параметра -cmoe её можно разместить равномерно по GPU+CPU, всё что нужно на каждом шагу в GPU, всё остальное на CPU. На 64к контекста нужно всего 8гб VRAM:
    llama-server -hf ggml-org/gpt-oss-120b-GGUF -c 65536 -fa -cmoe --jinja

    Если модель уже скачана, то
    llama-server -m "D:\mdels\gpt-oss-120b-MXFP4.gguf" -c 65536 -fa -cmoe --jinja

    Даже на медленной 4060 можно получить скорость чуть выше 11 t/s на 47к контекста:


    1. Incognito4pda
      24.10.2025 17:44

      К чему это всё? GPT-OSS-120b уже давным давно спокойно работает на Ollama.


      1. Shannon
        24.10.2025 17:44

        Речь, не про то, что работает, а про то как работает. Спокойной работает даже с диска - это не секрет, вопрос в том с какой скоростью.

        Через выгрузку на GPU можно получить ускорение на Dense моделях уже давно, но на MoE моделях это почти не работает, тут нужен другой подход, когда выгружаются на GPU не отдельные слои, а тензоры внимания и часть ffn всех слоев сразу.

        Кому интересно подробнее, как это работает: https://habr.com/ru/articles/921540/

        Через -cmoe или --cpu-moe можно переключиться на такой режим и получить ускорение по сравнению со стандартным режимом. Это дает ускорение в 1.5-2 раза с меньшим расходом памяти.

        Через -ncmoe N можно ещё эффективнее загрузить всю доступную VRAM, например, все 16гб VRAM и получить не 11 t/s, а 16 t/s, прирост ещё в 45%.

        Сейчас это можно сделать на llama.cpp, на котором построены все остальные клиенты, включая LM Studio и Ollama, что тоже не секрет, но они предоставляют не полную поддержку всех фич, которая есть в движке. В LM Studio недавно добавили галочку для cmoe, но не ncmoe.

        В Ollama реализация поддержки cmoe предложена, но она до сих пор не смержена в основную ветку: https://github.com/ollama/ollama/pull/12333
        Также с августа висит запрос на поддержку ncmoe: https://github.com/ollama/ollama/issues/11772


    1. slivka_83 Автор
      24.10.2025 17:44

      За Cherry спасибо. Много рыскал по интернету, но его не встретил. Попробую его и если что допишу статью :)


  1. eps
    24.10.2025 17:44

    Если нужно десктоп приложение

    Если хочется нативное (не веб / Electron) приложение под Мак, это MindMac, если под Linux (Gnome), то это Alpaca

    Фоточки