Вчера Ollama стала устанавливаться как версия 0.15.5
Теперь доступны новые модедели, например qwen3-coder-next.
Данная модель очень хорошо пишет код, но есть одна проблема. Для ollama есть только модели с квантизацией q4_K_M размер модели 52Гб., q8_0 размер 85Гб или платный запуск из облака. Сама модель обучена на 80 миллиардах параметров, большую часть которых составил код.
Да, в минимальной конфигурации, для локального запуска этой модели необходимо не меньше 80 Гб. видеопамяти если нужна большая скорость. Конечно можно запустить эту модель и на CPU, имея от 128 Гб. DDR5 RAM, работать будет, но очень медленно.
Что интересно, на такие статьи всегда налетают хейтеры, я думаю это из за того что не каждый может собрать сервер для запуска таких моделей. Но проблема в том что, когда я предлагаю таким людям доступ к своему серверу, на котором уже загружены эти модели и у которого хватает мощности для их инференса, они начинают ставить минусы к статьям и писать нелепые комментарии о том что ollama это полное гавно.
Если вы не хейтер и не супергуру в нейросетях, то буду рад дать доступ к моему ИИ серверу на котором вы сможете испытать 10 различных моделей.
Доступ к серверу бесплатный, но к сожалению не вечный. Когда я закончу настройку своего RAG, я выключу этот сервер. Хотя есть слабая возможность что я привезу из Китая еще один такой же.
Адрес сервера http://demonryb.ru:8100/
Доступ к моделям возможен только после того как я подтвежу вашу регистацию.
Сразу добавлю, если я одобрил вашу регистрацию НО вы попытаетесь перегрузить сервер тупыми запросами, я буду вынужден вас отключить.
Зарегистрировшись, нужно подождать когда я одобрю регистрация, я не каждую секунду у компьютера. Просто иногда обновляйте страницу.
Ну и краткая характеристика моего сервера:
Процессор Core I9 14900KF
RAM: DDR5 192 Gb.
GPU 2 x RTX4090D48G (96 Гб. VRAM GDDR6X), производительность по меркам huggingface 166 TFLOPS
Возможно это не самя удачная конфигурация, готов обсуждать её, но если вы не имеете даже такой конфигурации своего ПК, то может вам не стоит кричать и ставить мне минусы?
Вот так я вижу когда запускают инференс -

Комментарии (34)

MAXH0
07.02.2026 20:35Если раньше эксперимент в области Ии был из разряда - продал квартиру – купил видюху, то теперь квартиру надо продавать не в провинции, а в Москве )))

softel Автор
07.02.2026 20:35Тем летом планировал зимой (то есть сейчас) купить еще 2 видеокарты RTX4090D 48Gb, но случился облом с ценами и логистикой. За картами придется лететь в Китай самому, а я боюсь такие долгие перелеты и вообще самолетов почему то последнее время стал боятся, возраст может.

Stranger267
07.02.2026 20:35Интересно, а чего все нрсятся с игровыми 4090? Мы для своих целей сейчас юзаем все больше A6000RTX 48gb планируем 96gb (до 2 мы в сервер ставим, а дальше vmware и даем карты вмке), купили две H100 но это очень неудобная карта, она щаточена на фермы да еще и полцены это лиценщии на то что нам не нужно. А A6K ставятся куда угодно и отлично работают благо с активным охлаждением. И лишнего там в карте немного. Кстати для пролакшена будет vllm а не оллама, оллама похоже нагрузку не тянет.
(RAG это такая конечно красивая профанация... junk in -> junk out. Но работает, но периолически мухоморов объедается на реальных задачах)

ZanZy
07.02.2026 20:35А зачем запускать qwen3-coder-next локально, если бесплатно доступен qwen3-coder на chat.qwen.ai ? Ну, кроме экспериментов, какие ещё причины? На случай, если отключат? Или он принципиально лучше кодит? Конфиденциальность? Вы упомянули RAG. Вы строите RAG на основе qwen3-coder-next? А для чего, если не секрет?

softel Автор
07.02.2026 20:35RAG я строю на другой модели, а qwen3-coder-next пишет красивый и правильный код, в чем то он даже лучше чем код от модели gpt-oss:120b, он реально меня разгрузил. А для RAG лучше использовать thinking модели.
А что касается опасений, да, есть небольшая паранойя - конфидециальность и если отключат.

softel Автор
07.02.2026 20:35А вообще если честно то я просто захотел что бы у меня был довольно мощный GPU сервер, да это дорого, но я надеюсь что это окупится, если нет то и хер с ним. Но сейчас мы с локальной нейросетью и моим сервером на подряде выкачиваем 5 больших форумов. Полностью, до каждой запятой. Раньше было это делать проще, а сейчас приходится анализировать каждый URL и нейросеть для этого создала хороший код на питоне. Вот бы мне такой компьютер году в 2006.

ZanZy
07.02.2026 20:35может, я чего не понимаю, для выкачивания форумов достаточно программы на питоне. даже если надо капчи разгадывать. А вот RAG логично на локальной бямке делать

softel Автор
07.02.2026 20:35Я не сильно молодой и понятия типа "бямке" не знаю и спрашивать у поиска не хочу. Лучше вы пишите нормальным русским языком.

ZanZy
07.02.2026 20:35Это и есть нормальный русский язык. БЯМ.

softel Автор
07.02.2026 20:35LLM что ли?

ZanZy
07.02.2026 20:35ну да

softel Автор
07.02.2026 20:35Ну я вообще не стронник импортных слов, но иногда всетаки лаконичней именно английский язык. LLM проще произносится чем БЯМ. Уж извините.

ZanZy
07.02.2026 20:35термины существуют не для того, чтобы нравиться кому-то. вкусовщину обсуждать не собираюсь. З.Ы. И БЯМ проще произносится.

angel_zar
07.02.2026 20:35Зачем регистрироваться на сервере для получения доступа к OpenWebUI интерфейсу, не понятно. А так, у qwen по api токены нужно покупать, а вот api доступ к модели + VSC + Cline - к примеру - это совершенно другой уровень, чем копи настои с чатом заниматься.
И для локальной модели rag для разработки, вполне не плохая идея - для серъезного проекта - если туда запихать документацию и внутренние правила, возможно можно и код, но тогда слишком часто нужно будет rag обновлять, что бы поддерживать в актуальном состоянии.

vmkazakoff
07.02.2026 20:35Эм. Ну работа в режиме чата и работа в режиме агента через какой-то ide это прям две разные работы. Одно дело постоянно из чата туда и обратно копировать, другое - когда агент сам перепишет несколько файлов найдя все упоминания функции или класса. Так что одно другое не заменяет.

softel Автор
07.02.2026 20:35Когда есть свой сервер с API, нет проблемы подключить IDE

vmkazakoff
07.02.2026 20:35Так я об этом же. Просто автор вопроса спросил зачем сервер, если есть бесплатно в веб интерфейсе. Вашу идею я как раз уловил и поддерживаю - и секурно, и удобно. Ну и вообще поиграться интересно.

autyan
07.02.2026 20:35Что интересно, на такие статьи всегда налетают хейтеры, я думаю это из за того что не каждый может собрать сервер для запуска таких моделей.
А вы смогли? Ну ничего себе! Неверноятно! Мне, вероятно, стоит начать самопроизвольно семяизвергаться от этой новости?
Ваш пост выглядит как нелепое хваставство пятнадцатилетнего подростка, у которого появился очень мощный компьютер, но ему некому об этом сказать, поэтому приходится писать сюда. Скройте это позорище.

MountainGoat
07.02.2026 20:35Просто ollama давно задубел и бесполезен. Надо ставить Kobold, или у llama.cpp свой сервер уже появился, и тогда можно гонять любую квантизацию, гибко подбирая под наличное железо.

softel Автор
07.02.2026 20:35Ну вот хоть кому то интересно поиграться с сервером


Потроебление 700 ватт, немного, но зимой лишнее тепло дома это хорошо.

rPman
07.02.2026 20:35как у вас подключены видеокарты, сколько линий у pci-e у каждой и какой версии?, какая материнка?

softel Автор
07.02.2026 20:35Карты на одной шине PCI-E 16X версия 5, разделены по 8Х на каждую, материнка ASUS ROG MAXIMUS Z790 DARK HERO, процессор I9 14900К, RAM DDR5 192Гб. 4800. SSD 2 ТБ Gen5 14500 Мб/с, но сидит на PCI-E 4.0, так что безпонтово

softel Автор
Пока только 4 регистрации одобрил, остальные с непонятними почтами удалил.
riv9231
Пока у меня регистрация была открыта, постоянно регались десятки китайцев или китайских ботов с почтой на домене qq.com или cn не помню уже.