За полчаса установил DeepSeek 1.5B, пока вы искали GPT подешевле / forpes.ru

Главная
За полчаса установил DeepSeek 1.5B, пока вы искали GPT подешевле

За полчаса установил DeepSeek 1.5B, пока вы искали GPT подешевле +68

14.05.2025 10:51

21_copilots 128 59000 Источник

Решил установить и протестировать возможности DeepSeek 1.5B — компактной языковой модели, которая работает без тяжёлого железа и запускается даже на домашнем сервере.

В этой статье покажу и расскажу:

Что такое DeepSeek и какие у него возможности.
Как подготовить сервер Ubuntu 24.04, установить и настроить Ollama.
Как развернуть DeepSeek 1.5B и наладить его работу.
Как настроить Open WebUI — веб-интерфейс, чтобы общаться с моделью.
Как использовать модель и какие нюансы в работе нашёл.

Статью написал Solution Architect со стажем 19 лет.

DeepSeek и его возможности

У модели DeepSeek 1.5B — 1,5 миллиарда параметров. Это немного по меркам топовых моделей, но для большинства задач этого хватает с головой. Особенно если не хочется поднимать ферму или платить за каждую сессию в API.

Поэтому я решил запустить DeepSeek через Ollama — удобный инструмент для управления локальными LLM. Там всё максимально просто: загрузка модели, развёртывание, обновления — на всё одна команда. Модель работает на сервере, без обращения к внешним API. То есть данные не уходят за периметр и можно не переживать о политике конфиденциальности очередного SaaS-сервиса.

Для фронта буду использовать Open WebUI. Интерфейс лаконичный, но функциональный, подойдёт, если лень всё гонять через CLI или писать свои обёртки.

Где можно использовать DeepSeek?

У меня изначально был простой запрос: найти локальную модель, которую можно запустить без облаков и без покупки RTX 4090. А DeepSeek 1.5B спокойно работает на сервере с 8–16 Гб оперативки и средним процессором. Умеет создавать чат-ботов, отвечать на вопросы, анализировать и писать тексты, генерировать идеи и код.

Узнал, что DeepSeek 1.5B часто тестируют небольшие команды, стартапы или просто айтишники, которые хотят поэкспериментировать с языковыми моделями без сложной инфраструктуры и лишних трат.

Я как раз такой айтишник.

Подготовка сервера Ubuntu 24.04

Перед тем как запускать DeepSeek 1.5B, привёл сервер в порядок — модель не взлетит, если система завалена мусором. Поэтому сначала чистка, апдейты, установка нужных пакетов. Важно, чтобы всё работало стабильно: Ollama, WebUI и сама модель.

Первые шаги: обновление системы

Сначала я освежил Ubuntu 24.04. Подключиться к серверу можно через SSH или открыть терминал, если работаете локально.

sudo apt update && sudo apt upgrade -y

Так я обновил списки пакетов и установил последние версии программ. Дождался завершения процесса и взялся за установку важных утилит:

sudo apt install -y curl git build-essential

curl — для загрузки файлов из сети.
git — на случай, если захотите клонировать репозитории.
build-essential — для компиляции, если она понадобится.

Проверка ресурсов сервера

Чтобы убедиться, что сервер впустит DeepSeek 1.5B, проверяю доступную оперативную память с помощью команды: free -h

Чтобы модель работала, хватит 8 Гб RAM, но 16 Гб дадут больше свободы. Если памяти не хватает, надо создать swap-файл, чтобы система не капризничала во время нагрузки.

Как создать swap-файл на 4 Гб:

sudo fallocate -l 4G /swapfile
sudo chmod 600 /swapfile 
sudo mkswap /swapfile 
sudo swapon /swapfile

Чтобы swap-файл работал и после перезагрузки, добавляю его в /etc/fstab:

echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

Теперь проверяю процессор: Lscpu

Да, DeepSeek не требует суперсовременного CPU, но многоядерный процессор (4 ядра и более) ускорит работу. Даже если у вас сервер поменьше, модель всё равно запустится, просто не так быстро.

Я тестировал на «MacBook Pro M1 Pro» — всё ок.

Установка Docker: фундамент для Ollama и Open WebUI

Здесь нужны Ollama и Open WebUI, которые лучше всего работают в контейнерах Docker. Для установки сначала добавляю официальный репозиторий Docker:

sudo apt update
sudo apt install -y ca-certificates curl
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc

Добавляю репозиторий в источники APT:

echo \
  "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \
  $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
  sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

Теперь устанавливаю Docker:

sudo apt update
sudo apt install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

Так как у меня он уже установлен, то сообщение выглядит чуть иначе:

Запускаю Docker и включаю его автозапуск:

sudo systemctl enable docker
sudo systemctl start docker

Чтобы работать с Docker без sudo, добавляю своего пользователя в группу docker:

sudo usermod -aG docker $USER

Теперь нужно перезайти в сессию (или переподключиться по SSH), чтобы всё заработало.

Проверка окружения

Решил семь раз отмерить — один отрезать. Хочу убедиться, что всё готово, поэтому проверяю версию Docker: docker --version

На экране должно появиться что-то вроде Docker version 27.0.3 или новее. Теперь проверяю, работает ли docker compose:

docker compose version

Если обе команды отвечают без ошибок, сервер готов. Но если есть проблема, проверяйте логи (sudo journalctl -u docker) или почитайте документацию Docker.

В итоге я обновил систему, установил Docker, чтобы Ollama и Open WebUI чувствовали себя как дома, и проверил ресурсы, чтобы DeepSeek задышал.

Установка и настройка Ollama

Ollama — это инструмент с открытым кодом, созданный для работы с языковыми моделями на локальных машинах. Она берёт на себя работу по загрузке, управлению и запуску моделей, давая для этого простой интерфейс, будь то командная строка или API.

Установка Ollama

Ollama официально поддерживает запуск через собственный скрипт, но я выбрал другой путь — с Docker. Поэтому сначала создал директорию для хранения данных Ollama, чтобы модели и настройки не терялись: mkdir -p ~/ollama

Теперь запускаю Ollama в Docker-контейнере:

docker run -d -v ~/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

-d — запускает контейнер в фоновом режиме.
--gpus all — даёт Ollama доступ к GPU, если он есть. Если его нет, команду убираем.
-v ~/ollama:/root/.ollama — подключает локальную папку ~/ollama к контейнеру, чтобы сохранить модели и настройки.
-p 11434:11434 — открывает порт 11434, через который мы будем общаться с Ollama.
--name ollama — даёт контейнеру имя для удобства.
ollama/ollama — образ Docker, который мы используем.

После выполнения команды проверяю, работает ли контейнер: docker ps

Так контейнер с именем ollama появляется в списке. А если что-то пошло не так, проверяйте логи снова:

docker logs ollama

Проверяю, что Ollama работает: curl http://localhost:11434

Если с ней всё окей, вы получите ответ, похожий на: Ollama is running. Но если ответа нет, проверьте, открыт ли порт 11434 (sudo netstat -tuln | grep 11434) и работает ли контейнер.

Настраиваю Ollama для DeepSeek

Ollama сама по себе не содержит DeepSeek 1.5B — модель нужно загрузить. Но сначала надо убедиться, что Ollama настроена правильно. По умолчанию она использует порт 11434 и хранит модели в папке, которую я подключил (~/ollama). Если хочется изменить порт или другие параметры, можно отредактировать запуск контейнера. Например, для другого порта (скажем, 11435):

docker stop ollama
docker rm ollama
docker run -d -v ~/ollama:/root/.ollama -p 11435:11434 --name ollama ollama/ollama

Но для моего случая стандартный порт подойдёт. Если у вас есть GPU, то Ollama автоматически попытается использовать его для ускорения работы моделей. Чтобы проверить, видит ли Ollama GPU, я запускаю тестовую модель (маленькую llama3):

docker exec -it ollama ollama run llama3

Если модель загрузилась и отвечает — отлично. Выйти из режима общения можно с помощью Ctrl+D. Загрузка может занять время, но это нормально для первого запуска.

Автозапуск Ollama

Чтобы Ollama запускалась вместе с сервером, я настроил Docker для автозапуска. Но важно, чтобы в случае сбоев контейнер перезапустился. Поэтому добавляю политику перезапуска:

docker update --restart unless-stopped ollama

Теперь Ollama будет подниматься автоматически.

Вообще, Ollama — это мост между вами и DeepSeek 1.5B. То есть она упрощает работу с моделью и позволяет запускать её без глубоких знаний о нейронных сетях. Через её API я смогу подключить Open WebUI, чтобы общаться с моделью через браузер или интегрировать её в приложения.

Разворачиваю DeepSeek 1.5B

DeepSeek 1.5B весит около 3–4 Гб в сжатом виде, но перед загрузкой всё равно надо убедиться, что у меня есть хотя бы 10 Гб свободного места в директории ~/ollama, чтобы учесть временные файлы и кеш.

Ollama умеет загружать модели автоматически, но DeepSeek 1.5B может потребовать уточнения имени или источника, так как это не стандартная модель из её библиотеки. На момент написания статьи (май 2025 года) DeepSeek 1.5B доступна через сторонние репозитории или кастомные настройки. Для простоты предположу, что вы используете модель, доступную через Ollama, или уже загрузили её файл вручную.

Вот так Ollama скачает и подготовит DeepSeek 1.5B:

docker exec -it ollama ollama pull deepseek-r1:1.5b

Примечание. Если модель deepseek:1.5b недоступна напрямую в Ollama, нужно импортировать её из файла. Загрузите файл модели (обычно в формате GGUF) из официального источника DeepSeek или из других доверенных источников вроде Hugging Face.

Затем импортируйте её в Ollama:

docker cp deepseek-1.5b.gguf ollama:/root/.ollama/models/
docker exec -it ollama ollama import deepseek-1.5b.guf deepseek-r1:1.5b

Жду завершения загрузки. У каждого это будет разное время — всё зависит от скорости интернета и мощности сервера. Просто смотрите за прогрессом в терминале.

После завершения загрузки запускаю DeepSeek через Ollama:

docker exec -it ollama ollama run deepseek-r1:1.5b

Ollama откроет интерактивный режим, где я могу задать любой вопрос. Например:

И хоть отвечает он по-русски, слова всё равно коверкает в виде «добре» ?

Если модель отвечает — поздравляю, всё получилось. Для выхода из режима нажмите Ctrl+D.

Если модель не запускается, проверяю логи: docker logs ollama

Частые проблемы: недостаток памяти (проверьте free -h), неверный формат файла модели или ошибка сети при загрузке. Если возникли баги, убедитесь, что файл модели цел и совместим с Ollama.

Тестирование возможностей

Чтобы лучше понять, на что способен DeepSeek 1.5B, задайте ему несколько вопросов разной сложности. Например:

Практический — «Напиши Python-скрипт для парсинга CSV-файла».
Аналитический — «Проанализируй этот текст: [вставьте короткий текст]».
Творческий — «Придумай сюжет для короткого фантастического рассказа».

Ещё советую записать ответы и использовать их позже при настройке Open WebUI.

Оптимизация работы

DeepSeek 1.5B достаточно лёгок, но на слабых серверах может работать медленно. Как спастись от тормозов системы:

Убедитесь, что Ollama использует GPU (с помощью nvidia-smi внутри контейнера, если у вас есть GPU).
Уменьшите количество одновременно обрабатываемых запросов, добавив флаг --max-queue 1 при запуске Ollama.
Увеличьте swap-файл, если памяти не хватает (как описано в главе о подготовке сервера).

У меня всё работает, и я готов к созданию удобного интерфейса с помощью Open WebUI.

Настраиваю Open WebUI

Общаться с ИИ через терминал я не хочу, а красивый и удобный интерфейс — хочу. Поэтому обратился к Open WebUI — открытому веб-приложению, который и создан для работы с языковыми моделями через Ollama.

Так всё будет происходить в чате, история сообщений сохранится и можно будет дополнительно настраивать поведение модели. Open WebUI работает в браузере, а значит, можно общаться с ИИ с любого устройства.

Установка Open WebUI

Open WebUI, как и Ollama, лучше всего себя чувствует в Docker-контейнере. Мой сервер уже знает Docker, так что я просто добавлю ещё один контейнер, который свяжется с Ollama.

Сначала создаю директорию для хранения данных Open WebUI: mkdir -p ~/open-webui

Теперь запускаю Open WebUI в Docker-контейнере:

docker run -d -p 8080:8080 --add-host=host.docker.internal:host-gateway -v ~/open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

-d — запускает контейнер в фоновом режиме.
-p 8080:8080 — открывает порт 8080, через который мы будем заходить в Open WebUI.
--add-host=host.docker.internal:host-gateway — позволяет Open WebUI найти Ollama, работающую на том же сервере.
-v ~/open-webui:/app/backend/data — сохраняет данные (настройки, историю чатов) в папке ~/open-webui.
--name open-webui — даёт контейнеру имя.
--restart always — обеспечивает автозапуск контейнера при перезагрузке сервера.
ghcr.io/open-webui/open-webui:main — официальный образ Open WebUI.

Проверяю, работает ли контейнер: docker ps

Должен появиться контейнер с именем open-webui. Если что-то идёт не так, проверяйте логи: docker logs open-webui

Подключение Open WebUI к Ollama

Open WebUI автоматически ищет Ollama по адресу host.docker.internal:11434. Поскольку я запустил Ollama на порте 11434 (как описано в предыдущей главе), они должны легко найти друг друга.

Чтобы убедиться, что всё работает, открываю браузер и перехожу по адресу:

http://<ваш_IP_сервера>:8080

Например, если ваш сервер имеет IP 192.168.1.100, введите http://192.168.1.100:8080. Если вы работаете локально, используйте http://localhost:8080.

При первом запуске Open WebUI просит создать учётную запись. Я ввожу имя пользователя, пароль и адрес электронной почты. Это защитит мой интерфейс от чужих глаз, особенно если сервер доступен из внешней сети.

Захожу и вижу чат-интерфейс. В верхнем меню выбираю модель deepseek-r1:1.5b (она должна появиться, если Ollama работает корректно). Если модель не отображается, проверяю:

Работает ли Ollama (curl http://localhost:11434 должно вернуть Ollama is running).
Доступен ли порт 11434 внутри контейнера Open WebUI. Если нет, перезапускаю Open WebUI с правильным адресом Ollama:

docker stop open-webui
docker rm open-webui
docker run -d -p 8080:8080 -e OLLAMA_API_BASE_URL=http://host.docker.internal:11434 -v ~/open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Теперь, когда Open WebUI настроен, нужно задать DeepSeek вопрос через веб-интерфейс. Что-то из этого:

«Как написать REST API на Python с Flask?»
«Расскажи историю о путешественнике во времени».
«Проанализируй этот код: [вставьте небольшой код]».

Ещё Open WebUI помогает настраивать параметры модели, такие как температура (для креативности ответов) или максимальная длина ответа, через настройки в интерфейсе.

Дополнительная настройка: безопасность и доступ

Если ваш сервер доступен из интернета, обезопасьте Open WebUI:

Паролем. Он должен быть надёжным при создании учётной записи.
HTTPS. Настройте обратный прокси (например, через Nginx) с SSL-сертификатом от Let’s Encrypt. Это защитит данные.
Ограничением доступа. Настройте файрвол (например, ufw), чтобы порт 8080 был открыт только для определённых IP:

sudo ufw allow from <ваш_IP> to any port 8080
sudo ufw enable

Если вам захочется поделиться с кем-то доступом, создайте дополнительные учётные записи в интерфейсе Open WebUI (раздел Settings → Users).

Ну и всё. Теперь Open WebUI превратил DeepSeek 1.5B из командной строки в полноценного помощника, с которым можно общаться через браузер.

Тонкости работы с DeepSeek

В процессе работы понял, что у DeepSeek 1.5B есть несколько секретов.

1. Точность запросов

DeepSeek лучше отвечает, если запрос чёткий и содержит контекст. Чем больше деталей, тем лучше результат. Вместо «Напиши код» уточните:

«Напиши Python-функцию для сортировки списка чисел методом пузырька».

2. Параметры в Open WebUI

В Open WebUI вы можете менять параметры модели:

Температура. Низкая (0.3–0.5) — для точных, предсказуемых ответов; высокая (0.8–1.0) — для креативных.
Максимальная длина ответа. Увеличьте для длинных текстов, уменьшите для небольших.
Top-p. Контролирует разнообразие слов. Значение 0.9 обычно работает хорошо.

Экспериментируйте с этими настройками в разделе Model Settings в Open WebUI.

3. Ограничения модели

DeepSeek 1.5B не гигант вроде GPT-4, поэтому:

Он может путаться в очень сложных задачах (например, глубокий анализ больших данных).
Иногда даёт неточные или выдуманные факты. Проверяйте важные ответы.
Лучше работает с короткими и средними текстами.

Если задача слишком сложная, разбейте её на части. Вместо «Напиши приложение», начните с «Напиши структуру REST API».

4. Оптимизация производительности

На слабых серверах DeepSeek может быть медленным. Чтобы ускорить его:

Убедитесь, что Ollama использует GPU, если он есть (nvidia-smi внутри контейнера).
Ограничьте количество одновременных запросов в Ollama:

docker stop ollama
docker run -d --gpus all -v ~/ollama:/root/.ollama -p 11434:11434 --name ollama -e OLLAMA_MAX_QUEUE=1 ollama/ollama

Если памяти мало, увеличьте swap-файл (см. главу о подготовке сервера).

5. Локализация и языки

DeepSeek хорошо понимает русский язык, но иногда его ответы не такие естественные, как на английском. Если результат не идеален, попробуйте переформулировать запрос или задать его на английском, а затем попросите перевести:

Answer in English: what is quantum computing? Then translate to Russian.

Заключение и перспективы

Что я в итоге сделал: начал с подготовки сервера Ubuntu 24.04 и убрал всё лишнее. Затем добавил Ollama, которая оживила DeepSeek 1.5B. Загрузил модель и поместил в Open WebUI, чтобы общаться с ней через браузер.

Затем проверил её: протестировал на ответы для клиентов и на написание кода. Узнал тонкости, которые делают её работу ещё лучше.

Получается, что DeepSeek помогает:

Экономить время, отвечая на рутинные вопросы или генерируя контент.
Сохранять приватность, не отправляя ваши секреты в облака.
Вдохновлять, помогая в творчестве, обучении или разработке.

Кто-нибудь из вас пробовал работать с DeepSeek? Как вам?

Комментарии (128)

13werwolf13
14.05.2025 10:59
#28303916
очередная пустая статья ниочём.

зачем в этой схеме докер, почему webui а не что-то поудобнее, ни слова о производительности, ни сравнения с другими моделями (скорее всего потому что нормальным моделям нужно сиииильно больше памяти)..
мог бы минусануть - минусанул бы
1. loyal_carner_07
  14.05.2025 10:59
  #28303986
  Очевидно же, что статья для новичков. А docker, ollama и openui выбраны как самые простые способы установить ИИ и начать с ней РАБОТАТЬ
  1. MountainGoat
    14.05.2025 10:59
    #28304152
    Это сложные способы. Особенно если Докер не стоит уже налаженный и пользоваться им человек не умеет. Простой - это скачать KoboldCPP.EXE и запустить двойным кликом. Всё, никаких окружений, соединений контейнеров и прочего.
    
    Если очень надо на Linux, там есть такой же бинарник.
    
    ArtyomOchkin
    14.05.2025 10:59
    #28313348
    Про это, кстати,тесть целая статья.
  1. IgorLutiy
    14.05.2025 10:59
    #28304868
    Для новичков LM Studio. Скачал, установил. Скачиваешь из нее же любую модель (на которую хватит ресурсов машины) и пользуешься. Буквально 3-4 клика.
    
    ainoneko
    14.05.2025 10:59
    #28309988
    1009 мегабайт -- это всего лишь оболочка для скачивания моделей? :)
    
    AcckiyGerman
    14.05.2025 10:59
    #28310252
    Чего не написали 1033216 Кб, ведь ещё внушительнее же?
    Кстати, 1 Гб это в тысячи раз меньше размеров самих моделей.
    
    slonopotamus
    14.05.2025 10:59
    #28310310
    Размер самих моделей никак не объясняет какого чёрта скачивалка весит гигабайт.
    
    Zdnkaa
    14.05.2025 10:59
    #28315398
    Программа весит - 1 гигабайт.
    
    Модель deepseek 1.5B, - 1.5 гигабайта.
    
    Разница размеров огромная, в 1000 раз больше плюс минус, я считать не умею.
    
    Для справки, 1 миллиард параметров = 1 гигабайт веса и 1 гигабайт Видеопамяти занимает
    
    molnij
    14.05.2025 10:59
    #28311194
    Нет, это оболочка для скачивания моделей, непосредственно запускалка этих моделей (включая немаленькие библиотеки куды, если память не изменяет), ну и сам интерфейс с обвязкой и полгига электрона, куда ж без этой раковой опухоли..
    
    AndrewBond
    14.05.2025 10:59
    #28312788
    ...и вебсервер еще для предоставления доступа к API
    
    Bardakan
    14.05.2025 10:59
    #28313278
    возможности по работе с моделями упираются в процессор и оперативную память, возможно в видеокарту. Вы на полном серьезе зажали 1 гиг ssd для среды для работы с моделями, когда в 2025 такой объем стоит копейки?
    
    george3
    14.05.2025 10:59
    #28314004
    не знаю почему но с моим RTX 3090 LM studio работает в 5 (!!) раз медленней TPS чем ollama. поэтому только Ollama + PageAssist - всегда в броузере рабочая ЛЛМ.
    
    StasTukalo
    14.05.2025 10:59
    #28314010
    Нифига себе разница! Не разбирались почему?
    
    george3
    14.05.2025 10:59
    #28314076
    тупо LM studio GPU загрузка 20% вместо положенных 95-98 у ollama . пофиксил удалением LM studio.
1. linux-over
  14.05.2025 10:59
  #28304012
  Эм. докер - очевидно для того, чтобы не геморроиться настраивать окружение, а скачать его.
  
  Насколько я вижу, гуй к этому - другой докер. Получается всё правильно: нужен модуль - берёшь модуль, нет - нет.
  
  Не очень я понял Вашей гневной реакции и стремления минусовать. Да статья не идеал. Я бы хотел видеть готовые конфиги уровня docker-compose (вместо ручного управления), но даже в таком виде очень хорошо:
  
  я, например, до этой статьи и не задумывался, что можно попробовать подобного уровня вещи запускать на своём ноутбуке. А теперь вот выделю время и поиграю.
  
  То есть у таких статей ценность не только в том, "как настроить", а в том, что посредством их доносится информация о том, что "это вообще возможно".
  
  Я лично плюсанул.
  1. 13werwolf13
    14.05.2025 10:59
    #28304240
    давайте я сокращу статью:
    
    sudo zypper in -y ollama # никакого геморроя, просто ставится sudo systemctl enable --now ollama # никакого геморроя, просто запускается ollama pull deepseek-r1:671b #ну тут модель конечно каждый под своё железо выбирает
    
    а уж сколько разных клиентов есть которые будут и проще для новичков и удобнее и легковеснее я наверное промолчу. тем более что львиная доля вообще не будет юзать отдельный клиент а задействует плагин для своей ide.
    
    Ну вот и объясните мне зачем захламлять систему лишними ненужными сервисами, лишним рантаймом и тратить время на написание статьи ниочём?
    
    это не статья для новичков, это статья для отпугивания новичков.
    
    ioannes
    14.05.2025 10:59
    #28309910
    Это Минервасофт, у них все статьи такие.
  1. rodial
    14.05.2025 10:59
    #28310704
    Устанавливал я его на ноутбуке, работает, отвечает по теме, но очень уж часто глючит, временами вообще кракозябру выдаёт.
1. HyperWin
  14.05.2025 10:59
  #28304016
  Карма автора такая явно не просто так. Очень понравились фразы про то что DeepSeek не запустится на захламленной системе (шьто? Скачал репу, сбилдил, запустил) и что из артефактов выделил "добре", когда она там сыпет иероглифами и таким подобным. Разрешает пользователю использовать докер без root прав... Зачем??
1. nochnoj
  14.05.2025 10:59
  #28306784
  Я не в восторге от статьи, но критика неконструктивная. Критикуя - предлагай. Чем плох OpenWebUI? Что "поудобнее"? Какие модели лучше, что не требуют много памяти?
  
  Иначе это просто бессмысленный негатив.
  1. Aelliari
    14.05.2025 10:59
    #28306934
    Критикуя - предлагай
    
    Критик не обязан делать предложения, но должен аргументированно указывать на «слабые», по его мнению, места. Иначе это не критика
  1. janvarev
    14.05.2025 10:59
    #28307194
    Выше писали про LMStudio: https://habr.com/ru/companies/minerva_media/articles/909130/comments/#comment_28304868
    
    Вот на Хабре про скорости генерации локально на моделях разных размеров:
    
    https://habr.com/ru/articles/896204/
  1. 13werwolf13
    14.05.2025 10:59
    #28307260
    Чем плох OpenWebUI?
    
    да хотя бы тем что он web, кмк этого уже достаточно.
    
    Что "поудобнее"?
    
    как я уже написал выше любой плагин для вашей любимой ide будет поудобнее, а если ии вам нужен не для IDE то любой нативный клиент
    
    Какие модели лучше
    
    те которые требуют по теробайту памяти
    
    что не требуют много памяти
    
    вы или крестик или трусы... к сожалению чем больше моделька умеет и чем лучше работает тем больше она требует памяти, ну не хватит всем 640кб, это миф. да и проца вам не хватит.. и нервов..
    
    зато в тренде
    
    Black_Unbreon
    14.05.2025 10:59
    #28311454
    Последние 2 цифры картинки это видимо айфоны и LLM, а остальные про что?
    
    Aleus1249355
    14.05.2025 10:59
    #28312472
    До этого был хайп с нанотехнологиями. Кстати, где они сейчас ?
    
    До этого 21й век .
    
    До этого мода на 2000й год. Воооу, современно.
    
    На счёт троников не знаю, не застал
  1. Okeu
    14.05.2025 10:59
    #28308056
    Критикуя - предлагай
    
    Назвать статью "За полчаса установил QWEN 1.5B..."
    ого, выглядит уже не так хайпово?)
  1. sergeym69
    14.05.2025 10:59
    #28309368
    Вот это намного удобнее https://github.com/n4ze3m/page-assist это расширение для браузеров, устанавливается в браузер и работает и не только с Ollama и возможностей у него больше, в том числе есть поддержка RAG
1. Okeu
  14.05.2025 10:59
  #28308040
  еще и в очередной раз это хайпово называют "запустить DeepSeek" хотя им оно не является, это QWEN с 1.5B параметров, которую дообучали на синтетике от DeepSeek
  1. Antra
    14.05.2025 10:59
    #28310238
    Причем "родной" Qwen3 практически наверняка будет не хуже.
    
    По крайней мере у меня когда видеопамять загружена другими задачами, и Ollama оффлоадит значительную часть qwen3:30b на CPU, это, конечно, чувствуется, но не катастрофически. Мелкие модели CPU тем более потянет.
1. astromc
  14.05.2025 10:59
  #28308556
  Поддерживаю, начал чтение - и мысль - неужели тут автор обойдётся без очередной обёртки в виде Докера. Но дальше сюрпрайз - ставит Докер.
  
  Есть же Ollama, есть llama.cpp, есть KoboldCPP - их достаточно априори, при наличии мозгов - на кой лишний гемор, занимающий место, и отнимающий ресурсы.
  
  Риторические вопросы, имхо.

Rezzet
14.05.2025 10:59
#28304098
У меня сервер работает под TrueNas Scale там это все разворачивается тремя кликами, OpenWebUI можно поставить сразу с встроенным ollama, можно сделать пять кликов и поставить ollama отдельно.

Но все это действительно не имеет смысла. 1.5B это ооооочень маленькая модель, зачем она нужно вообще не сильно понятно, какой-то сервис сделать с донастройкой(дообучением) под внутренние или внешние задачи проекта(компании).

Основной вопрос зачем вам своя маленькая модель, если бесплатно доступна большая, и даже если вы хотите сделать свой сервис на основе дипсика, то проще их апи купить, там цены достаточно низкие.

Можно локально развернуть и 670B - но тут как говорится два стула: первый развернуть на CPU и это относительно дешевый вариант, т.к. найти сервер с 1,5Tb памяти не так сложно как кажется и не так дорого, стартовый ценник от $1k, если использовать старые Xeon, до $5k, если брать что-то поновее типа EPYC. Только в любом случае получите производительно 1.5-3 токена в секунду и ответы у вас будут минут за 20 появляться, а то и больше, когда контекст разговора вырастет. Следующий шаг это исполнение на GPU и тут стартовый ценник увеличивается на порядок или два порядка(~$100k, нужно просто 8 Nvidia A100). И снова не сильно понятно зачем это нужно, первый вариант работает слишком медленно что бы им пользоваться, а второй вариант непонятно зачем нужен если вы можете купить доступ к апи за гораздо меньшие деньги. За те же $10k вам доступа к апи хватит надолго, даже на продовый продукт, очень сомневаюсь что в ваш стартап сразу прибегут миллионы пользователей, а привлечь какую-то аудиторию и сделать софт-ланч точно хватит и $10k.

Сейчас предел для энтузиаста это модели 30B. Это влезет на хороший домашний компьютер с 4090 или 5090. Может быть можно замахнуться на 70B, но по видеопамяти вы уже выйдете за пределы 5090 и будет использовать видео-своп(не знаю как правильно называется, подкачку из оперативы), работать будет все равно быстрее чем на любом CPU.

На computex ожидаются релизы видеокарт от интел с 48Гб видеопамяти и может амд чет представит, но ценник все равно будет не маленький это будут тысячи долларов(думаю 5-7). Если счет идет на тысячи долларов то можно думать о NVIDIA RTX PRO 6000(96Gb) - это 70B модели будет тягать очень бодро, ценник около $12k.

Вот и все реалии. А 1,5B даже и не знаю кому и зачем может пригодиться, так поиграться разве что.
1. tiagon
  14.05.2025 10:59
  #28304350
  я на 4070ti super развернул gemini 27b. работает шустро, но справляется плохо и непонятно зачем оно нужно. даже разворачивал модель на 70b и она все равно справлялась плохо и вдобавок работала на 2 токена в секунду (да, это обычный домашний комп с 64 гигами оперативки). Нормальные, обученные модели - все равно прерогатива больших компаний, которые делятся с тобой частичкой благодати через браузер (для большинства пользователей).
  1. Rezzet
    14.05.2025 10:59
    #28304494
    gemini 27b не самая лучшая модель. Если хотите хорошие локальные модели то это: gemma3:27B, qwen3(чем больше тем лучше), QwQ-32B
    
    tiagon
    14.05.2025 10:59
    #28305376
    да, прошу прощения. имел в виду именно gemma3:27b
    
    alan008
    14.05.2025 10:59
    #28306074
    Там вместо QwQ-32B недавно же Qwen3 привезли.
    
    https://ollama.com/library/qwen3
    
    Rezzet
    14.05.2025 10:59
    #28306414
    А вы внимательно прочитали мое сообщение? прочитайте еще раз текст написанный до "QwQ-32B".
    
    alan008
    14.05.2025 10:59
    #28309620
    точно, начало и конец прочитал, а середину - нет :)
  1. BadNickname
    14.05.2025 10:59
    #28306382
    Gemma - одна из лучших в целом моделей которые сейчас есть под руками.
    
    Вопрос, опять же, в том, чего вы от неё хотите.
1. janvarev
  14.05.2025 10:59
  #28305350
  Основной вопрос зачем вам своя маленькая модель, если бесплатно доступна большая, и даже если вы хотите сделать свой сервис на основе дипсика, то проще их апи купить, там цены достаточно низкие.
  
  Вот да - постоянно объясняю, что стоимость вызова на какой-нибудь дешевой Google Flash 2.5 будет 1-2 копейки за вызов, около 100 токенов в секунду скорость генерации. У Дипсика будет... ну 2-5 копеек. На 1000 вызовов - 20-50 рублей, оно вообще ни о чем.
  
  И домашний вариант - ну, на небольшой модели можно выжать до 30-40 токенов в секунду, модели побольше уже 5-8, если влезут.
  1. Neikist
    14.05.2025 10:59
    #28305498
    Облачные версии поголовно зацензурированы. Тогда как для локальных открытых энтузиасты делают файнтюны эту проблему решающие. Плюс не хочется зависеть от наличия интернета/блокировок ркн. Ну и если локальные модели справляются с задачами бесплатно - платить даже копейки за облачные, ну такое.
    
    alhimik45
    14.05.2025 10:59
    #28305512
    Можно использовать провайдеров OpenSource LLM, которые дают OpenAI compatible api и ничего не цензурируют сами. Подключать к тому же Open WebUI и всё
    
    Neikist
    14.05.2025 10:59
    #28305588
    Так цензура уже в весах моделей зашита. В т.ч. в большинстве моделей с открытыми весами. Потому и нужно на hf выискивать файнтюны которые ее убирают. Причем расцензуривают как правило небольшие модели как раз, которые и так на локальной железке можно запустить, и не тратить совсем ничего, плюс не зависеть от сети.
    
    alhimik45
    14.05.2025 10:59
    #28305652
    Просто есть ещё модерация поверх самой модели в нативных чатах (DeepSeek, вырезающий упоминания Си, и. т. п.). А, если именно ту цензуру что в весах, то да. Тут только локальные расцензуренные.
    Ну и они всегда будут маленькие, потому что переобучить большие у энтузиастов ресурсов нет :(
    
    Neikist
    14.05.2025 10:59
    #28305662
    С другой стороны современные небольшие (30b и около) модели в целом уже достаточно хороши. Сравнимы с chatgpt 3, а то и 3.5. И для простых задач типа переводов, отыгрышей персонажей, по мелочи код поправить или объяснить и т.п. их в целом хватит.
    
    Jacov911
    14.05.2025 10:59
    #28305522
    Но облако в котором вы это развернули, тоже не бесплатное...
    
    Neikist
    14.05.2025 10:59
    #28305526
    Зачем облако, если речь про запуск на локальном компе/домашнем сервере (который и так под разные selfhosted сервисы стоит)?
    
    Jacov911
    14.05.2025 10:59
    #28305574
    Аргумент) если конечно у вас просто "свободные" такие вычислительные мощности и достались бесплатно + не просят розетку :)
    
    Neikist
    14.05.2025 10:59
    #28305616
    Ну как бесплатно. ПК, на котором у меня ollama крутится дома, для игр и VR используется в основном. Так что 4080 super там стоит на 16 гигов. Модели до 22b (с квантизацией, конечно) на ней неплохо работают. Впрочем, qwen3:30-a3b там и чисто на CPU отлично работает, даже если ни слоя в видеопамять не загружать - 10 токенов в секунду, а если закинуть часть слоев в GPU то и того быстрее. qwq:32b уже облом что на GPU с таким объемом памяти, что на CPU, банально медленно слишком, токен в секунду, где то. Хотя когда qwq:32b пользовался - запускал ее на M1 max с 32 гигами RAM, там работала неплохо, хоть ноут и звучал так будто взлетать собрался.
    
    Ну а уж потраченное на эти запросы электричество точно меньше чем плата облачным провайдерам за вызовы api.
    
    З.Ы. Стоит уточнить что большие тексты я не обрабатываю с LLM. Типичный промпт за пару тысяч токенов у меня почти никогда не вылезает. А 95 перцентиль наверно и вовсе не вылезает за 500. Если именно с большими текстами работать надо - тут ради удобства логичнее какой-нибудь моделью на openrouter воспользоваться.
    
    janvarev
    14.05.2025 10:59
    #28307208
    
    Ну, не поголовно... оригинальный DeepSeek (большой) вообще-то почти без цензуры.
    
    Скорости в локальных генерациях довольно малы, я писал про оценки здесь: https://habr.com/ru/articles/896204/
    
    valera_efremov
    14.05.2025 10:59
    #28307710
    Ну и если локальные модели справляются с задачами бесплатно - платить даже копейки за облачные, ну такое.
    
    У вас бесплатное электричество?
    
    Neikist
    14.05.2025 10:59
    #28307900
    На фоне стоимости за вызовы api (даже если именно те же самые модели по api дергать) - можно сказать что и да. Рублей 400 в месяц за все электричество потраченное всеми потребителями в квартире плачу. Где-то раз в 100 дешевле выходит, чем api, думаю. Если не в тысячу. Ну а вы кажется любите к словам прикапываться.
  1. BelerafonL
    14.05.2025 10:59
    #28307238
    Ну а что делать, если я хочу LLM для работы с документами организации, которые нельзя направо и налево в API LLM разбрасывать? Мне бы просто загрузить в контекст модели pdf и вопросы позадавать по нему хотя бы. Пусть хоть медленно, но хоть что-то. Так-то да, через openrouter вообще куча моделей доступна как free, в том числе даже deepseek-chat-v3-0324:free. Но провайдеры моделей же все чёрным-по-белому пишут, что собирают пользовательские промпты. На том и живут. А для дома... ну это как хобби проект, чтобы применить знания работы с локальными LLM потом где-то ещё.
    
    janvarev
    14.05.2025 10:59
    #28307296
    если я хочу LLM для работы с документами организации, которые нельзя направо и налево в API LLM разбрасывать?
    
    Это да, без вариантов ))
    
    Но провайдеры моделей же все чёрным-по-белому пишут, что собирают пользовательские промпты.
    
    Бесплатные да, платные обычно нет, но надо смотреть, конечно. И чувствительные данные, согласен, только на локалке )
    
    Я вообще-то просто про пет-проекты написал, типа, что-нибудь там проклассифицировать 1000 накаченных PDF-ок. Там имхо удобнее через API, и быстрее.
    
    alhimik45
    14.05.2025 10:59
    #28307466
    все чёрным-по-белому пишут, что собирают пользовательские промпты
    
    Всё же не все. На openrouter есть специальная пометка по поводу сохранения данных и ссылка на Privacy policy, так что можно самому прочитать по конкретному провайдеру. Я ресерчил этот вопрос. Есть те, кто явно пишет что ничего не сохраняет, как DeepInfra или Groq. Есть те, кто помечены как несохраняющие, но в их соглашениях промпты просто не упоминаются ни в одну ни в другую сторону. Есть те, кто изначально писал что будут тренить свои модели, как Nebius AI, но потом обновили соглашение и убрали пункт (но осадочек остался, да).
    
    RH215
    14.05.2025 10:59
    #28309644
    Доверять тому, что написано в соглашении - такое себе, особенно, если ты не многомиллиардная компания со штатом юристов. Чувствительные данные всё равно стрёмно отсылать.
  1. JBFW
    14.05.2025 10:59
    #28308354
    Все не-локальные решения чреваты тем, что завтра какая-нибудь очередная говорящая голова что-нибудь скажет или сделает - и хозяева сервиса обидятся и вам доступ отрубят, за компанию.
    
    Потому что у говорящих голов своя реальность и на ваши мелкие проблемы чихать.
  1. Theio
    14.05.2025 10:59
    #28311094
    1) Генерация синтетики. На 4070 ti super можно из qwen 2.5 7b выжать 800-900 tps и это ещё без асинхронного батчинга.
    
    2) Файнтюны моделей. В облаке есть далеко не всё, что бывает нужно.
    
    3) Закрытые репозитории. Если не хочется чтоб провайдер модели видел твой код, то поднятая модель и порубленный к ней cline + continue вполне заменяет cursor.
    
    Это всё довольно нишево, но иногда надо. Кстати, дипсик будет нифига не копейки если вы его подрубите к cline, там спокойно может зафигачить десяток тысяч токенов в контекст запроса, но это уже другая история
1. BadNickname
  14.05.2025 10:59
  #28306378
  Следующий шаг это исполнение на GPU и тут стартовый ценник увеличивается на порядок или два порядка(~$100k, нужно просто 8 Nvidia A100)
  
  Нет.
  
  Сейчас предел для энтузиаста это модели 30B
  
  Нет.
  
  А 1,5B даже и не знаю кому и зачем может пригодиться, так поиграться разве что.
  
  Отличные классификаторы, особенно после дообучения.
  
  На computex ожидаются релизы видеокарт от интел с 48Гб видеопамяти и может амд чет
  
  Китайцы уже продают 4090 на 48GB за 3.5к$.
1. Shannon
  14.05.2025 10:59
  #28306756
  Сейчас предел для энтузиаста это модели 30B. Это влезет на хороший домашний компьютер с 4090 или 5090. Может быть можно замахнуться на 70B, но по видеопамяти вы уже выйдете за пределы 5090
  
  Так энтузиасту с 4090 достаточно добавить одну 5060 ti 16гб, чтобы вмещать 72B IQ4_XS полностью в vram.
  А 5090 + 16гб открывает доступ к 123B моделям (Large 2 123B или Command A 111B).
  
  и будет использовать видео-своп(не знаю как правильно называется, подкачку из оперативы), работать будет все равно быстрее чем на любом CPU.
  
  Не, не будет. Это будет на порядок медленнее чем на любом CPU, на практике "видео-своп" дичайшие тормозит и все рекомендуют его отключать, чтобы случайно не залезть в него.
  Падение на 70B моделях с 2 t/s до 0.01 t/s.
  
  Вот и все реалии.
  
  Еще со времен первой MoE модели, которую Mistral представили 2 года назад, это не так.
  У них была Mixtral-8x7B размером 46.7B и она показывала себя сильно лучше 30B тех времен, модель обходила Llama2-70B и конкурировала с chatgpt-3.5.
  
  После этого MoE шагает по планете, включая проприетарные модели, вроде Grok, Gemini и по слухам gpt-4o.
  
  Для энтузиастов сейчас есть такие локальные MoE:
  
  Llama 4 Scout - размер 109B, скорость 20 t/s, большой запас по скорости. Хватит 8гб gpu.
  
  Llama 4 Maverick - размер 402B, скорость 19 t/s. Хватит 12гб gpu.
  
  Qwen3-235B-A22B - размер 235B, скорость 4.5-6.5 t/s.
  
  DeepSeek V3/R1 - размер 671B, скорость 2-3 t/s.
  
  Граница комфортного использования это где-то 5 t/s.
  
  Детали не так важны, главное, что энтузиасты дома не заперты на 30B моделях и никогда не были. До этого была отличная MoE модель Mixtral 8x22b и её отличный файнтюн WizardLM-2.
  
  Душные детали. Почему MoE быстрое и большое, а Dense тяжелое. Параметры запуска для ускорения
  
  MoE модели не монолитны, они состоят из отдельных экспертов и на вычисление каждого токена на каждом шагу задействуется только часть экспертов. На каждом шагу MoE-роутер выбирает какие эксперты будут задействованы для следующего токена, они могут быть как разными, так и совпадать какое-то время, и на каждом шагу работает только ограниченное число экспертов, поэтому модель работает в разы быстрее, чем Dense модель такого же размера.
  
  В теории Dense модели такого же размера будут лучше, но на практике это не всегда так. Был пример Dense модели Llama 3.1 размером 405B, она выступала не сильно лучше, и даже хуже, чем модель Llama 3.3 70B.
  
  Ускорение для MoE можно достигнуть выгрузив тензоры всех экспертов в GPU, всех кроме тяжелых ffn тензоров, это делается через команду: -ot exps=CPU или --override-tensor "([0-9]+).ffn_.*_exps.=CPU"
  
  Архитектура MoE бывает разной, например, Llama 4 имеет общих экспертов, и так как общие эксперты участвуют в вычислении токена на каждом шагу, то выгрузка тензоров дает хорошее ускорение, так как общие эксперты всегда в быстрой видеопамяти.
  
  У Qwen3 нет общих экспертов, поэтому тут не получится получить стабильное ускорение, но можно выгрузить столько экспертов, сколько влезает через команду: -ot blk.(1[2-9]|[2-8][0-9]|9[0-3]).ffn.*=CPU
  Команда указывает, что первые 11 экспертов пойдут на GPU, а остальные 82 на CPU. Тут обычное регулярное выражение, 11 слоев рассчитаны на 24гб vram.
  
  Если несколько видеокарт, можно тензоры раскидать по устройствам:
  
  -ot "blk\.([0-9]|1[0-2])\.ffn.*=CUDA0" -ot "blk\.(1[4-9]|2[0-3])\.ffn.*=CUDA1" -ot "ffn.*=CPU" -ngl 95
  
  Это работает и на обычной llama.cpp, но так как много тензоров остаются на CPU, полезно будет взять ik_llama, откуда и пришли все эти оптимизации с override-tensor - это форк llama.cpp который затачивается на оптимизации работы на CPU, улучшенные кванты, которые конвертируются на лету из обычных, и немного ускоряет GPU.
  
  В командную строку нужно добавить параметры: -fmoe -amb 512 -rtr
  -rtr параметр который запускает автоматическую конвертацию модели в улучшенный квант от ik_llama, но он отключает mmap (если mmap включен и модель не влезла в память, она будет загружаться с диска), поэтому модель будет загружаться сразу в память и памяти должно быть достаточно.
  -ngl сколько выгрузить слоев на gpu.
  
  Подробнее про значение всех команд: https://github.com/ikawrakow/ik_llama.cpp/discussions/258
  
  Благодаря оптимизациями от ik_llama, то, например, Maverick 402B если запускать его через ik_llama.cpp, то на 32k контексте скорость с 19 t/s падает всего до 15 t/s, при расходе видеопамяти 14гб.
  
  Пример полного запуска
  
  ./llama-server -m "Llama-4-Maverick-17B-128E-Instruct-UD-Q3_K_XL-00001-of-00004.gguf" -fa -ctk q8_0 -ctv q8_0 -c 32768 -fmoe -amb 512 -rtr -ot exps=CPU -ngl 95 --threads 8
  
  Если у вас больше 1 GPU, то будет ошибка при выгрузке всех возможных слоев через -ngl 95 и придется снизить её до 93-94. Это снизить скорость генерации, поэтому лучше собрать ik_llama добавив DGGML_SCHED_MAX_COPIES=1 (по умолчанию 4):
  
  cmake -B ./build -DGGML_CUDA=ON -DGGML_BLAS=OFF -DGGML_SCHED_MAX_COPIES=1
  
  У https://huggingface.co/ubergarm/ есть кванты заточенные под ik_llama, включая команды запуска и другие подробности.
  1. Rezzet
    14.05.2025 10:59
    #28308434
    Спасибо за ответ, достаточно познавательно.
    
    Qwen3-235B-A22B - размер 235B, скорость 4.5-6.5 t/s.
    
    DeepSeek V3/R1 - размер 671B, скорость 2-3 t/s.
    
    Я о этом говорю, где граница комфорта тут каждый сам решает. Как по мне меньше 20 t/s так себе.
    
    Не, не будет. Это будет на порядок медленнее чем на любом CPU, на практике "видео-своп" дичайшие тормозит и все рекомендуют его отключать,
    
    Может мы говорим про разные вещи, пробовал грузить 70B модели в lmstudio в 4090, вроде они не должны помещаться в память и работало быстрее чем 0.01 t/s, не помню точно с какой скоростью, но не так медленно.
    
    Так энтузиасту с 4090 достаточно добавить одну 5060 ti 16гб
    
    А можно с этого момента подробнее? У меня не то что бы залежи видеокарт поэтому никогда не смотрел как использовать две. Может поделитесь ссылкой как это дело настраивать?
    
    Llama 4 Scout - размер 109B, скорость 20 t/s, большой запас по скорости. Хватит 8гб gpu.
    
    Llama 4 Maverick - размер 402B, скорость 19 t/s. Хватит 12гб gpu.
    
    Они недавно совсем вышли, никогда их не пробовал. Для моих задач дипсика и грока хватает, мне так простой код сгенерить, еще за развернутой справкой и примерами обращаюсь. Так то код умею писать, просто тяжело всю документацию в голове держать.
    
    StarJohn
    14.05.2025 10:59
    #28309716
    Я использую text-generation-webui на 3090 и Tesla P40 (24 + 24 Гб), там ничего настраивать не надо, для квантизованных GGUF просто надо указать пропорцию разделения модели между двумя "памятями".
    
    Shannon
    14.05.2025 10:59
    #28311044
    Может мы говорим про разные вещи, пробовал грузить 70B модели в lmstudio в 4090, вроде они не должны помещаться в память и работало быстрее чем 0.01 t/s, не помню точно с какой скоростью, но не так медленно.
    
    У Nvidia настройка CUDA System Memory Fallback или CUDA политика резерва системной памяти, по умолчанию включена, когда в память gpu не влезают данные, она загружает их в "своп" в обычную память, в эти моменты модель начинает дико тормозить, как и вся система.
    
    Может показаться, что это работает просто от того, что ollama или LM Studio не эффективно заполняют vram, и там есть еще место. Если у вас это действительно работает, то это стоит изучить подробнее.
    
    А так, у всех проектов основанных на llama.cpp есть возможность выгружать часть слоев на GPU, сколько хватит памяти, а часть оставлять на CPU. LM Studio делает это автоматически. В новой версии можно явно указать, чтобы модель не выходила за пределы реальной памяти.
    
    А можно с этого момента подробнее? У меня не то что бы залежи видеокарт поэтому никогда не смотрел как использовать две. Может поделитесь ссылкой как это дело настраивать?
    
    Всё автоматически заработает, если вместо CUDA выбрать Vulkan - то заработает даже для AMD + Nvidia + Intel.
    
    Если у вас разнородные видяхи, например, у 4060 память имеет скорость 288 гб/с, у 5060 448 гб/с, а у 4090 1 тб/с, то нужно выбрать стратегию приоритетной разгрузки, сначала максимально загружать 4090, а потом остальные, а не разгружать слои равномерно.
    
    Ну и еще несколько деталей:
    
    В LM Studio пока нельзя указывать override-tensor, если интересует эта опция, то придется воспользоваться text-generation-webui, там это указывается в extra-flags поле. Это в основном затронет MoE модели, для остальных не важно.
    
    В text-generation-webui можно легко создавать множество ролей и быстро переключаться между ними, у каждой роли будет своя история диалогов. Тут легче закидывать модели для тестирования, достаточно копировать их в models папку, не нужно создавать подпапки как в LM Studio.
    
    Если есть встройка, можно в Windows в "настройках графики" указать путь до любого exe'шника, например, браузера или оболочки винды dwm, и перекинуть их на встройку, чтобы высвободить занятые пару гб под винду и браузер. Либо в браузере отключить 3d ускорение, а в настройках графики Windows отключить планирование gpu с аппаратным ускорением. Это имеет смысл, если не хватает чуть-чуть до загрузки целиком модели в vram.
    
    В LM Studio полезно выбирать версии квантов, например найти unsloth версии. IQ4_XS кванты, влезают в 40гб vram для 70-72B моделей, а UD-Q2_K_XL влезет в 32гб.
    
    В LM Studio или ollama не оптимально в автоматическом режиме заполняется VRAM, когда можно загрузить еще 3-4гб они не догружают. Тут поможет ручное управление, мониторить nvidia-smi или диспетчер задач, и смотреть реальную загрузку памяти.
    
    У LM Studio по умолчанию выключено квантование KV-кэша, если его включить, можно еще выиграть пару гб.
    
    Немного информации про разные кванты
    
    У gguf есть 2 вида квантов: статические k-кванты и i-кванты с применением матрицы важности imatrix. k-кванты просто квантуют тензоры, без выбора какие тензоры важнее в общей куче. В i-квантах приоритет отдается квантам, которые подсвечиваются через imatrix. imatrix создается из txt файла с различным набором текстов, поэтому финальная модель будет квантована с учетом тех видов текстов, что там были, и можно сделать свою imatrix заточенную, например, на нужный язык.
    
    Все квантуют по разному, поэтому кванты называются одинаково, но они будут разные. Например, самые популярные кванты от bartowski заточены на английский язык, он использует английскую imatrix везде, даже не для i-квантов, он квантует статичные k-кванты вплоть до Q6 через английскую imatrix. Если у вас приоритет на другой язык, лучше взять статичные кванты от lm-studio, или новые кванты от Unsloth.
    
    В ik_llama есть продвинутые кванты, они на данный момент лучше остальных вариантов. Такие кванты могут конвертироваться на лету через ключ -rtr при загрузке модели, но это отключает mmap. Можно их переконверитровать и сохранить результат, либо немного готовых есть у https://huggingface.co/ubergarm. Но это для совсем энтузиастов, которые хотят выжать максимум из минимального объема, и которые не боятся компиляции и консоли, так как ik_llama не предоставляет готовые бинарники.
    
    Они недавно совсем вышли, никогда их не пробовал.
    
    https://openrouter.ai/meta-llama/llama-4-scout:free
    https://openrouter.ai/meta-llama/llama-4-maverick:free
    
    Регистрация на openrouter не замороченная, пускает любую почту, в поиске просто ввести free и будет много новинок, которые можно протестировать, в том числе и через API.
    
    Например, интересный новый мердж двух моделей R1 и V3-0323:
    https://openrouter.ai/tngtech/deepseek-r1t-chimera:free
    
    Или неизвестная новинка от DeepSeek под названием Prover V2:
    https://openrouter.ai/deepseek/deepseek-prover-v2:free
    
    Rezzet
    14.05.2025 10:59
    #28312724
    Проверил еще раз на модели R1 70B - 0.63 t/s. На простом запросе, более сложного не дождался. Вы оказались правы. Наверно когда грузил модели больше VRAM я не слишком сильно превышал пределы, может быть это было 40B и поэтому в памяти отпечаталось что скорость падала примерно до 1-3 t/s. В любом случае такие модели уже быстрее просто на хорошем многоядерном процессоре исполнять.
    
    Всё автоматически заработает, если вместо CUDA выбрать Vulkan - то заработает даже для AMD + Nvidia + Intel.
    
    Это очень интересно. Технически достаточно дома железа что бы проверить две видеокарты в действие. У меня стоит 4090, могу временно одолжить из компьютера супруги 5070Ti (16Gb). Но это сделать сложно, использую обычную материнскую плату на AMD x470 чипсете. Там какие-то сложность с вторым PCI-E16x, если установлен второй SSD(возможно это на B450/550 чипсете).
    
    Скажите, что важнее для второй видеокарты, скорость самого чипа или размер памяти? Или на ней то же будет производиться исполнение и важно и то и другое?
    
    StasTukalo
    14.05.2025 10:59
    #28313814
    Важно и то и другое, но объем памяти важнее.
    
    Сейчас хорошее время для сборки домашнего суперкомпьютера- фирменная мать Supermicro x10dri под xeon 26xx v3/v4 стоит на авито 20 тр и поддерживает до полутора тб озу, бум майнинга эфира завершился- 3090 сейчас стоят копейки..
    
    Shannon
    14.05.2025 10:59
    #28314410
    Но это сделать сложно, использую обычную материнскую плату на AMD x470 чипсете. Там какие-то сложность с вторым PCI-E16x, если установлен второй SSD(
    
    Вы можете подключить gpu в любой маленький x1 pcie, или урезанный x16, либо даже в слот для nvme через переходник. Для инференса достаточно x1 pcie 1.0, не важны ни x16 линии, ни версии pcie.
    
    Ширина канала виляет только на время загрузки слоев в память видеокарты - один единственный раз во время загрузки модели, а на сами вычисления это уже никак не влияет. На материнках обычно стоит много pcie 3.0 x1, это 1 гб/с, если загружать с sata ssd, то упретесь в скорость диска, а не канала pcie, а если с nvme, то будет 16 секунд на загрузку, вместо 6 секунд.
    
    Так что можно утыкать всю материнку кучей видях через удлинители, на localllama периодически люди выкладывают своих монстров франкенштейна, где видеокарты кто как смог закрепил вне корпуса, и там обычно их от 4 до 10.
    
    В типичный домашний комп можно без проблем засунуть 3.5 слотовую 4090 и 2 слотовую 4060ti/5060ti, нужно только материнку правильно подобрать, чтобы расстояние между двумя pcie было достаточным. У меня на b550 phantom gaming 4 идеально влезло, не пришлось ничего придумывать.
    
    Скажите, что важнее для второй видеокарты, скорость самого чипа или размер памяти? Или на ней то же будет производиться исполнение и важно и то и другое?
    
    Слои распределятся по видеокартам, поэтому каждая будет вычислять, но требования к этому на столько малы по сравнению к скорости памяти, что фактически важны только объем и скорость памяти.
    
    Akr0n
    14.05.2025 10:59
    #28314978
    С каким процессором и памятью используете эту материнку? Скорость инференса на CPU не подскажете?
1. Zy2ba
  14.05.2025 10:59
  #28307302
  Может вместо карточки от зажравшейся nvidia взять apple studio на 96гб универсальной памяти за 4к$? Если я правильно понимаю, то как раз должно хватать на 70b + чуть-чуть для рабочих задач остаться
  
  ну или вообще mac pro на 192гб собрать. Но это уже почти 9k$
1. ShadF0x
  14.05.2025 10:59
  #28307488
  А 1,5B даже и не знаю кому и зачем может пригодиться
  
  Мелкие модели (1.5-3B) - это, как правило, draft-модели для спекулятивного декодинга. Пока большая модель (от 70B) рожает ежа, draft-модель быстро подкидывает наиболее вероятные токены.

melodictsk
14.05.2025 10:59
#28304206
Вот простой способ.
1. Качаем Lmstudio
2. Запускаем, из неё выбираем подходящую модель, в том числе и эту.
3. Запускаем и пользуемся хоть локально, хоть через веб.
  
  Делов на 3 минуты в 5 кликов. Дольше модели качать.