Ollama 0.15.5 новый релиз / forpes.ru

Главная
Ollama 0.15.5 новый релиз

Ollama 0.15.5 новый релиз +7

07.02.2026 19:08

softel 34 11000 Источник

Вчера Ollama стала устанавливаться как версия 0.15.5

Теперь доступны новые модедели, например qwen3-coder-next.

Данная модель очень хорошо пишет код, но есть одна проблема. Для ollama есть только модели с квантизацией q4_K_M размер модели 52Гб., q8_0 размер 85Гб или платный запуск из облака. Сама модель обучена на 80 миллиардах параметров, большую часть которых составил код.

Да, в минимальной конфигурации, для локального запуска этой модели необходимо не меньше 80 Гб. видеопамяти если нужна большая скорость. Конечно можно запустить эту модель и на CPU, имея от 128 Гб. DDR5 RAM, работать будет, но очень медленно.

Что интересно, на такие статьи всегда налетают хейтеры, я думаю это из за того что не каждый может собрать сервер для запуска таких моделей. Но проблема в том что, когда я предлагаю таким людям доступ к своему серверу, на котором уже загружены эти модели и у которого хватает мощности для их инференса, они начинают ставить минусы к статьям и писать нелепые комментарии о том что ollama это полное гавно.

Если вы не хейтер и не супергуру в нейросетях, то буду рад дать доступ к моему ИИ серверу на котором вы сможете испытать 10 различных моделей.

Доступ к серверу бесплатный, но к сожалению не вечный. Когда я закончу настройку своего RAG, я выключу этот сервер. Хотя есть слабая возможность что я привезу из Китая еще один такой же.

Адрес сервера http://demonryb.ru:8100/

Доступ к моделям возможен только после того как я подтвежу вашу регистацию.

Сразу добавлю, если я одобрил вашу регистрацию НО вы попытаетесь перегрузить сервер тупыми запросами, я буду вынужден вас отключить.

Зарегистрировшись, нужно подождать когда я одобрю регистрация, я не каждую секунду у компьютера. Просто иногда обновляйте страницу.

Ну и краткая характеристика моего сервера:

Процессор Core I9 14900KF

RAM: DDR5 192 Gb.

GPU 2 x RTX4090D48G (96 Гб. VRAM GDDR6X), производительность по меркам huggingface 166 TFLOPS

Возможно это не самя удачная конфигурация, готов обсуждать её, но если вы не имеете даже такой конфигурации своего ПК, то может вам не стоит кричать и ставить мне минусы?

Вот так я вижу когда запускают инференс -

Комментарии (34)

softel Автор
07.02.2026 20:35
#29496778
Пока только 4 регистрации одобрил, остальные с непонятними почтами удалил.
1. riv9231
  07.02.2026 20:35
  #29498040
  Пока у меня регистрация была открыта, постоянно регались десятки китайцев или китайских ботов с почтой на домене qq.com или cn не помню уже.

MAXH0
07.02.2026 20:35
#29496952
Если раньше эксперимент в области Ии был из разряда - продал квартиру – купил видюху, то теперь квартиру надо продавать не в провинции, а в Москве )))
1. softel Автор
  07.02.2026 20:35
  #29496960
  Да уж, цены конечно сейчас негуманные.
1. softel Автор
  07.02.2026 20:35
  #29496976
  Тем летом планировал зимой (то есть сейчас) купить еще 2 видеокарты RTX4090D 48Gb, но случился облом с ценами и логистикой. За картами придется лететь в Китай самому, а я боюсь такие долгие перелеты и вообще самолетов почему то последнее время стал боятся, возраст может.
  1. vpman
    07.02.2026 20:35
    #29498066
    Vik-on, авито. Брал недавно, с водянкой. Есть турбина, но она шумит как пылесос
    
    softel Автор
    07.02.2026 20:35
    #29498170
    У меня 2 карты RTX4090 с турбинами, шумят как 2 пылесоса )))
  1. Stranger267
    07.02.2026 20:35
    #29502128
    Интересно, а чего все нрсятся с игровыми 4090? Мы для своих целей сейчас юзаем все больше A6000RTX 48gb планируем 96gb (до 2 мы в сервер ставим, а дальше vmware и даем карты вмке), купили две H100 но это очень неудобная карта, она щаточена на фермы да еще и полцены это лиценщии на то что нам не нужно. А A6K ставятся куда угодно и отлично работают благо с активным охлаждением. И лишнего там в карте немного. Кстати для пролакшена будет vllm а не оллама, оллама похоже нагрузку не тянет.
    
    (RAG это такая конечно красивая профанация... junk in -> junk out. Но работает, но периолически мухоморов объедается на реальных задачах)

ZanZy
07.02.2026 20:35
#29496968
А зачем запускать qwen3-coder-next локально, если бесплатно доступен qwen3-coder на chat.qwen.ai ? Ну, кроме экспериментов, какие ещё причины? На случай, если отключат? Или он принципиально лучше кодит? Конфиденциальность? Вы упомянули RAG. Вы строите RAG на основе qwen3-coder-next? А для чего, если не секрет?
1. softel Автор
  07.02.2026 20:35
  #29497014
  RAG я строю на другой модели, а qwen3-coder-next пишет красивый и правильный код, в чем то он даже лучше чем код от модели gpt-oss:120b, он реально меня разгрузил. А для RAG лучше использовать thinking модели.
  
  А что касается опасений, да, есть небольшая паранойя - конфидециальность и если отключат.
1. softel Автор
  07.02.2026 20:35
  #29497034
  А вообще если честно то я просто захотел что бы у меня был довольно мощный GPU сервер, да это дорого, но я надеюсь что это окупится, если нет то и хер с ним. Но сейчас мы с локальной нейросетью и моим сервером на подряде выкачиваем 5 больших форумов. Полностью, до каждой запятой. Раньше было это делать проще, а сейчас приходится анализировать каждый URL и нейросеть для этого создала хороший код на питоне. Вот бы мне такой компьютер году в 2006.
  1. ZanZy
    07.02.2026 20:35
    #29497066
    может, я чего не понимаю, для выкачивания форумов достаточно программы на питоне. даже если надо капчи разгадывать. А вот RAG логично на локальной бямке делать
    
    softel Автор
    07.02.2026 20:35
    #29497076
    На питоне и выкачивает.
    
    softel Автор
    07.02.2026 20:35
    #29497080
    Я не сильно молодой и понятия типа "бямке" не знаю и спрашивать у поиска не хочу. Лучше вы пишите нормальным русским языком.
    
    ZanZy
    07.02.2026 20:35
    #29497090
    Это и есть нормальный русский язык. БЯМ.
    
    softel Автор
    07.02.2026 20:35
    #29497096
    LLM что ли?
    
    ZanZy
    07.02.2026 20:35
    #29497108
    ну да
    
    softel Автор
    07.02.2026 20:35
    #29497116
    Ну я вообще не стронник импортных слов, но иногда всетаки лаконичней именно английский язык. LLM проще произносится чем БЯМ. Уж извините.
    
    ZanZy
    07.02.2026 20:35
    #29498070
    термины существуют не для того, чтобы нравиться кому-то. вкусовщину обсуждать не собираюсь. З.Ы. И БЯМ проще произносится.
    
    DarkGenius
    07.02.2026 20:35
    #29499978
    Никто не говорит в профессиональной среде "БЯМ"
1. angel_zar
  07.02.2026 20:35
  #29497322
  Зачем регистрироваться на сервере для получения доступа к OpenWebUI интерфейсу, не понятно. А так, у qwen по api токены нужно покупать, а вот api доступ к модели + VSC + Cline - к примеру - это совершенно другой уровень, чем копи настои с чатом заниматься.
  
  И для локальной модели rag для разработки, вполне не плохая идея - для серъезного проекта - если туда запихать документацию и внутренние правила, возможно можно и код, но тогда слишком часто нужно будет rag обновлять, что бы поддерживать в актуальном состоянии.
  1. softel Автор
    07.02.2026 20:35
    #29497908
    Ну например для того что бы посмотреть что могут локальные LLM
    
    Вон кто то уже играется с ними
    
    angel_zar
    07.02.2026 20:35
    #29499514
    Я не спорю, по играться для студентов самое то, но не более.
1. vmkazakoff
  07.02.2026 20:35
  #29498172
  Эм. Ну работа в режиме чата и работа в режиме агента через какой-то ide это прям две разные работы. Одно дело постоянно из чата туда и обратно копировать, другое - когда агент сам перепишет несколько файлов найдя все упоминания функции или класса. Так что одно другое не заменяет.
  1. softel Автор
    07.02.2026 20:35
    #29498212
    Когда есть свой сервер с API, нет проблемы подключить IDE
    
    vmkazakoff
    07.02.2026 20:35
    #29498738
    Так я об этом же. Просто автор вопроса спросил зачем сервер, если есть бесплатно в веб интерфейсе. Вашу идею я как раз уловил и поддерживаю - и секурно, и удобно. Ну и вообще поиграться интересно.

autyan
07.02.2026 20:35
#29497388
Что интересно, на такие статьи всегда налетают хейтеры, я думаю это из за того что не каждый может собрать сервер для запуска таких моделей.

А вы смогли? Ну ничего себе! Неверноятно! Мне, вероятно, стоит начать самопроизвольно семяизвергаться от этой новости?

Ваш пост выглядит как нелепое хваставство пятнадцатилетнего подростка, у которого появился очень мощный компьютер, но ему некому об этом сказать, поэтому приходится писать сюда. Скройте это позорище.
1. Prikalel
  07.02.2026 20:35
  #29497652
  Ух ты
  
  Новое слово
1. softel Автор
  07.02.2026 20:35
  #29497892
  Вы из тех самых хейтеров?

MountainGoat
07.02.2026 20:35
#29497910
Просто ollama давно задубел и бесполезен. Надо ставить Kobold, или у llama.cpp свой сервер уже появился, и тогда можно гонять любую квантизацию, гибко подбирая под наличное железо.
1. softel Автор
  07.02.2026 20:35
  #29497916
  Можно, НО всему свое время ))

softel Автор
07.02.2026 20:35
#29497930
Ну вот хоть кому то интересно поиграться с сервером

Потроебление 700 ватт, немного, но зимой лишнее тепло дома это хорошо.
1. rPman
  07.02.2026 20:35
  #29499506
  как у вас подключены видеокарты, сколько линий у pci-e у каждой и какой версии?, какая материнка?
  1. softel Автор
    07.02.2026 20:35
    #29500068
    Карты на одной шине PCI-E 16X версия 5, разделены по 8Х на каждую, материнка ASUS ROG MAXIMUS Z790 DARK HERO, процессор I9 14900К, RAM DDR5 192Гб. 4800. SSD 2 ТБ Gen5 14500 Мб/с, но сидит на PCI-E 4.0, так что безпонтово

Ollama 0.15.5 новый релиз +7

Комментарии (34)

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор