Вчера Ollama стала устанавливаться как версия 0.15.5

Теперь доступны новые модедели, например qwen3-coder-next.

Данная модель очень хорошо пишет код, но есть одна проблема. Для ollama есть только модели с квантизацией q4_K_M размер модели 52Гб., q8_0 размер 85Гб или платный запуск из облака. Сама модель обучена на 80 миллиардах параметров, большую часть которых составил код.

Да, в минимальной конфигурации, для локального запуска этой модели необходимо не меньше 80 Гб. видеопамяти если нужна большая скорость. Конечно можно запустить эту модель и на CPU, имея от 128 Гб. DDR5 RAM, работать будет, но очень медленно.

Что интересно, на такие статьи всегда налетают хейтеры, я думаю это из за того что не каждый может собрать сервер для запуска таких моделей. Но проблема в том что, когда я предлагаю таким людям доступ к своему серверу, на котором уже загружены эти модели и у которого хватает мощности для их инференса, они начинают ставить минусы к статьям и писать нелепые комментарии о том что ollama это полное гавно.

Если вы не хейтер и не супергуру в нейросетях, то буду рад дать доступ к моему ИИ серверу на котором вы сможете испытать 10 различных моделей.

Доступ к серверу бесплатный, но к сожалению не вечный. Когда я закончу настройку своего RAG, я выключу этот сервер. Хотя есть слабая возможность что я привезу из Китая еще один такой же.

Адрес сервера http://demonryb.ru:8100/

Доступ к моделям возможен только после того как я подтвежу вашу регистацию.

Сразу добавлю, если я одобрил вашу регистрацию НО вы попытаетесь перегрузить сервер тупыми запросами, я буду вынужден вас отключить.

Зарегистрировшись, нужно подождать когда я одобрю регистрация, я не каждую секунду у компьютера. Просто иногда обновляйте страницу.

Ну и краткая характеристика моего сервера:

Процессор Core I9 14900KF

RAM: DDR5 192 Gb.

GPU 2 x RTX4090D48G (96 Гб. VRAM GDDR6X), производительность по меркам huggingface 166 TFLOPS

Возможно это не самя удачная конфигурация, готов обсуждать её, но если вы не имеете даже такой конфигурации своего ПК, то может вам не стоит кричать и ставить мне минусы?

Вот так я вижу когда запускают инференс -

Комментарии (34)


  1. softel Автор
    07.02.2026 20:35

    Пока только 4 регистрации одобрил, остальные с непонятними почтами удалил.


    1. riv9231
      07.02.2026 20:35

      Пока у меня регистрация была открыта, постоянно регались десятки китайцев или китайских ботов с почтой на домене qq.com или cn не помню уже.


  1. MAXH0
    07.02.2026 20:35

    Если раньше эксперимент в области Ии был из разряда - продал квартиру – купил видюху, то теперь квартиру надо продавать не в провинции, а в Москве )))


    1. softel Автор
      07.02.2026 20:35

      Да уж, цены конечно сейчас негуманные.


    1. softel Автор
      07.02.2026 20:35

      Тем летом планировал зимой (то есть сейчас) купить еще 2 видеокарты RTX4090D 48Gb, но случился облом с ценами и логистикой. За картами придется лететь в Китай самому, а я боюсь такие долгие перелеты и вообще самолетов почему то последнее время стал боятся, возраст может.


      1. vpman
        07.02.2026 20:35

        Vik-on, авито. Брал недавно, с водянкой. Есть турбина, но она шумит как пылесос


        1. softel Автор
          07.02.2026 20:35

          У меня 2 карты RTX4090 с турбинами, шумят как 2 пылесоса )))


      1. Stranger267
        07.02.2026 20:35

        Интересно, а чего все нрсятся с игровыми 4090? Мы для своих целей сейчас юзаем все больше A6000RTX 48gb планируем 96gb (до 2 мы в сервер ставим, а дальше vmware и даем карты вмке), купили две H100 но это очень неудобная карта, она щаточена на фермы да еще и полцены это лиценщии на то что нам не нужно. А A6K ставятся куда угодно и отлично работают благо с активным охлаждением. И лишнего там в карте немного. Кстати для пролакшена будет vllm а не оллама, оллама похоже нагрузку не тянет.

        (RAG это такая конечно красивая профанация... junk in -> junk out. Но работает, но периолически мухоморов объедается на реальных задачах)


  1. ZanZy
    07.02.2026 20:35

    А зачем запускать qwen3-coder-next локально, если бесплатно доступен qwen3-coder на chat.qwen.ai ? Ну, кроме экспериментов, какие ещё причины? На случай, если отключат? Или он принципиально лучше кодит? Конфиденциальность? Вы упомянули RAG. Вы строите RAG на основе qwen3-coder-next? А для чего, если не секрет?


    1. softel Автор
      07.02.2026 20:35

      RAG я строю на другой модели, а qwen3-coder-next пишет красивый и правильный код, в чем то он даже лучше чем код от модели gpt-oss:120b, он реально меня разгрузил. А для RAG лучше использовать thinking модели.

      А что касается опасений, да, есть небольшая паранойя - конфидециальность и если отключат.


    1. softel Автор
      07.02.2026 20:35

      А вообще если честно то я просто захотел что бы у меня был довольно мощный GPU сервер, да это дорого, но я надеюсь что это окупится, если нет то и хер с ним. Но сейчас мы с локальной нейросетью и моим сервером на подряде выкачиваем 5 больших форумов. Полностью, до каждой запятой. Раньше было это делать проще, а сейчас приходится анализировать каждый URL и нейросеть для этого создала хороший код на питоне. Вот бы мне такой компьютер году в 2006.


      1. ZanZy
        07.02.2026 20:35

        может, я чего не понимаю, для выкачивания форумов достаточно программы на питоне. даже если надо капчи разгадывать. А вот RAG логично на локальной бямке делать


        1. softel Автор
          07.02.2026 20:35

          На питоне и выкачивает.


        1. softel Автор
          07.02.2026 20:35

          Я не сильно молодой и понятия типа "бямке" не знаю и спрашивать у поиска не хочу. Лучше вы пишите нормальным русским языком.


          1. ZanZy
            07.02.2026 20:35

            Это и есть нормальный русский язык. БЯМ.


            1. softel Автор
              07.02.2026 20:35

              LLM что ли?


              1. ZanZy
                07.02.2026 20:35

                ну да


                1. softel Автор
                  07.02.2026 20:35

                  Ну я вообще не стронник импортных слов, но иногда всетаки лаконичней именно английский язык. LLM проще произносится чем БЯМ. Уж извините.


                  1. ZanZy
                    07.02.2026 20:35

                    термины существуют не для того, чтобы нравиться кому-то. вкусовщину обсуждать не собираюсь. З.Ы. И БЯМ проще произносится.


                    1. DarkGenius
                      07.02.2026 20:35

                      Никто не говорит в профессиональной среде "БЯМ"


    1. angel_zar
      07.02.2026 20:35

      Зачем регистрироваться на сервере для получения доступа к OpenWebUI интерфейсу, не понятно. А так, у qwen по api токены нужно покупать, а вот api доступ к модели + VSC + Cline - к примеру - это совершенно другой уровень, чем копи настои с чатом заниматься.

      И для локальной модели rag для разработки, вполне не плохая идея - для серъезного проекта - если туда запихать документацию и внутренние правила, возможно можно и код, но тогда слишком часто нужно будет rag обновлять, что бы поддерживать в актуальном состоянии.


      1. softel Автор
        07.02.2026 20:35

        Ну например для того что бы посмотреть что могут локальные LLM

        Вон кто то уже играется с ними


        1. angel_zar
          07.02.2026 20:35

          Я не спорю, по играться для студентов самое то, но не более.


    1. vmkazakoff
      07.02.2026 20:35

      Эм. Ну работа в режиме чата и работа в режиме агента через какой-то ide это прям две разные работы. Одно дело постоянно из чата туда и обратно копировать, другое - когда агент сам перепишет несколько файлов найдя все упоминания функции или класса. Так что одно другое не заменяет.


      1. softel Автор
        07.02.2026 20:35

        Когда есть свой сервер с API, нет проблемы подключить IDE


        1. vmkazakoff
          07.02.2026 20:35

          Так я об этом же. Просто автор вопроса спросил зачем сервер, если есть бесплатно в веб интерфейсе. Вашу идею я как раз уловил и поддерживаю - и секурно, и удобно. Ну и вообще поиграться интересно.


  1. autyan
    07.02.2026 20:35

    Что интересно, на такие статьи всегда налетают хейтеры, я думаю это из за того что не каждый может собрать сервер для запуска таких моделей. 

    А вы смогли? Ну ничего себе! Неверноятно! Мне, вероятно, стоит начать самопроизвольно семяизвергаться от этой новости?

    Ваш пост выглядит как нелепое хваставство пятнадцатилетнего подростка, у которого появился очень мощный компьютер, но ему некому об этом сказать, поэтому приходится писать сюда. Скройте это позорище.


    1. Prikalel
      07.02.2026 20:35

      Ух ты

      Новое слово


    1. softel Автор
      07.02.2026 20:35

      Вы из тех самых хейтеров?


  1. MountainGoat
    07.02.2026 20:35

    Просто ollama давно задубел и бесполезен. Надо ставить Kobold, или у llama.cpp свой сервер уже появился, и тогда можно гонять любую квантизацию, гибко подбирая под наличное железо.


    1. softel Автор
      07.02.2026 20:35

      Можно, НО всему свое время ))


  1. softel Автор
    07.02.2026 20:35

    Ну вот хоть кому то интересно поиграться с сервером

    Потроебление 700 ватт, немного, но зимой лишнее тепло дома это хорошо.


    1. rPman
      07.02.2026 20:35

      как у вас подключены видеокарты, сколько линий у pci-e у каждой и какой версии?, какая материнка?


      1. softel Автор
        07.02.2026 20:35

        Карты на одной шине PCI-E 16X версия 5, разделены по 8Х на каждую, материнка ASUS ROG MAXIMUS Z790 DARK HERO, процессор I9 14900К, RAM DDR5 192Гб. 4800. SSD 2 ТБ Gen5 14500 Мб/с, но сидит на PCI-E 4.0, так что безпонтово