Локальная модель vs Гигачат: мой опыт и выводы / forpes.ru

Главная
Локальная модель vs Гигачат: мой опыт и выводы

Локальная модель vs Гигачат: мой опыт и выводы -2

30.01.2026 19:57

softel 32 9700 Источник

Как всё началось

Прошлой весной я впервые столкнулся с нейросетью — Гигачат от Сбербанка. До этого я считал такие сервисы «несерьёзной фигнёй». После нескольких экспериментов с Гигачатом моё мнение кардинально изменилось: ответы оказались впечатляющими, и я начал задумываться о применении ИИ в работе.

Однако использовать внешний сервис в коммерческих проектах оказалось дорогим. Я начал искать альтернативу — локальные модели, которые можно запускать на собственном железе без постоянных расходов.

Первый шаг: небольшие модели

Для начала я собрал компьютер с двумя видеокартами RTX 5070 (12 ГБ видеопамяти каждая) и 64 ГБ ОЗУ. На нём удалось запустить небольшие модели (до 20 ГБ), которые работали приемлемо, но всё равно уступали Гигачату по качеству и скорости. Плюс был очевиден: всё происходило локально, без ограничений со стороны провайдера.

Апгрейд железа

Чтобы сравнивать более крупные модели, я вложил поборов свою внутреннюю "жабу" в следующую конфигурацию:

КОМПОНЕНТ	ХАРАКТЕРИСТИКА
GPU	2 × RTX 4090 (48 ГБ VRAM каждая)
Оперативная память DDR5	192Гб (4 планки по 48Гб)
Процессор	Intel i9‑14900K
Материнская плата	ASUS ROG MAXIMUS Z790 DARK HERO

Эта система позволяет запускать модели размером до ≈ 100 ГБ, а скорость вычислений выросла в разы.

Тестирование на «Задаче Эйнштейна»

Недавно на Хабре я нашел статью Задача Эйнштейна — большой тест LLM нейросетей на логическое мышление / Хабр. Я решил проверить, как моя локальная модель справится с этим тестом. И вот какие результаты я получил.

Модель	Параметры	Объём VRAM	Время решения	Результат
gpt‑oss:120b	120 млрд параметров	~70Gb	1 мин	*ВЕРНО*
Qwen3‑next:80b	80 млрд параметров	~50Gb	1 мин	*ВЕРНО*
DevStral2‑123b	123 млрд параметров	~95Gb	14 мин	НЕ ВЕРНО
Гигачат (Сбербанк)	неизвестно, но много	очень много	12 мин	НЕ ВЕРНО

Что мы видим?

Модели, запущенные локально на мощном железе (gpt‑oss 120b, Qwen3‑next 80b), дают быстрый и правильный результат.
Некоторые крупные модели (DevStral2‑123b) работают медленно и дают ошибку, несмотря на полное использование GPU.
Сервис Гигачат, работающий на «больших серверах», в данном случае решал задачу дольше и выдал неверный ответ.

Выводы:

Локальный запуск может превзойти облачные сервисы – при достаточном оборудовании модель способна быстрее и точнее решать задачи, чем коммерческий API.
Не всякая «большая» модель гарантирует качество – размер параметров не всегда коррелирует с точностью; оптимизация и обучение играют большую роль.
Стоимость vs. контроль – собственный сервер избавляет от расходов на запросы к API и даёт полный контроль над данными и настройками, но требует значительных капитальных вложений в оборудование.

Конечно события с текущими ценами на память и ажиотажем делают сборку такого сервера еще более недоступной, но мне видимо повезло, я его собрал прошлым летом как раз перед бумом.

Если у вас есть аналогичный опыт или идеи по оптимизации локальных ИИ серверов, буду рад обсудить в комментариях!

Комментарии (32)

Fhann
30.01.2026 21:06
#29459856
Надо бы подождать годика два. Думаю, за это время нейросети на 32б, будут на уровне нынешних 120b, если не лучше.
1. softel Автор
  30.01.2026 21:06
  #29459906
  Возможно, но что делать когда хочется попробовать здесь и сейчас? А тем более что это еще и приносит результат. Да дорого, но если допустим, гипотетически предположить то что через пару лет 32b модели будут круче чем сейчас 120b, то высока вероятность того что и железо для их запустка кратно будет дороже.
  1. janvarev
    30.01.2026 21:06
    #29460798
    гипотетически предположить то что через пару лет 32b модели будут круче чем сейчас 120b, то высока вероятность того что и железо для их запустка кратно будет дороже.
    
    Нет, вряд ли. Основная стоимость железа в запуске моделей - это VRAM на видеокарте, чтобы туда модель помещалась.
    
    Если будут 32B модели - они будут с очень большой вероятностью такой же архитектуры, как сейчас - а значит и железо будет требоваться то же самое.
    
    По "попробовать" - я рекомендую смотреть, что недавно вышло (обычно чем свежее, чем умнее) и помещается в ваш RAM/VRAM
    
    Вот из того, что помню:
    
    Gemma 3 24B
    
    GLM 4.7 Flash
    
    Qwen 3 (что у него там последнее? вроде 30BA3B или что-то в этом духе)
1. K0Jlya9
  30.01.2026 21:06
  #29460590
  Скорее память сильно подешевеет, и появятся специализированные ускорители без функций видеокарты. Уменьшение моделей ни к чему хорошему не ведет.

smirnfil
30.01.2026 21:06
#29460022
А с нормальными облачными LLM вы работали? Просто есть подозрение, что вы сравниваете лучшие локальные модели с далеко не лучшей облачной.
1. softel Автор
  30.01.2026 21:06
  #29460072
  Я создаю север техподдержки своей продукции, сторонние сети меня не интересуют, во первых это дорого, а во вторых я не смогу иметь полный контроль.
  1. smirnfil
    30.01.2026 21:06
    #29460106
    Ну если у вас стоит задача использовать только локальные модели, то это другое дело. Я просто к тому, что сравнение довольно странное - мне бы в голову не пришло сравнивать что-то с ГигаЧатом.
    
    softel Автор
    30.01.2026 21:06
    #29463118
    А почему бы не сравнивать? В жизни вообще то все познается в сравнении.
    
    Вот я сравнил суперкомпьютер Christofari от Сбера со своим сервером и Сбер проиграл.
    
    smirnfil
    30.01.2026 21:06
    #29463734
    Потому что лидеры в этой области Anthropic, OpenAI и Google. А никак не Сбер.
    
    softel Автор
    30.01.2026 21:06
    #29463742
    Но и гугловский ИИ не выиграл, вот в чем вопрос.
  1. tester37
    30.01.2026 21:06
    #29460784
    Сколько стоило ваше железо, давайте посчитаем что реально дешевле
    
    pacifictype
    30.01.2026 21:06
    #29460832
    потеря конфиденциальных данных при передаче в модель работающую на коммунальном железе - бесценна... но конечно можно только позавидовать человеку который может собрать себе в лабу машину с парой 4090 48gb VRAM просто поборов жабу (С) - 96gb VRAM....их ещё пойди найди в таком конфиге.
    
    softel Автор
    30.01.2026 21:06
    #29462982
    Тут только путь ножками в Китай если там нет того кому вы можете доверить и отправить большую кучу денег на покупку таких комплектух.
    
    Есть только одна проблема с этими картами, нужно будет их на водянку переводить, а разбирать боязно.
    
    При нагрузке шумят как взлетающий самолет.
    
    softel Автор
    30.01.2026 21:06
    #29463038
    Такая конфигурация обошлась почти в 1 млн.
    
    Сейчас наверное дороже будет.

WondeRu
30.01.2026 21:06
#29460180
Я не защищаю ГЧ, но вы сравнивали только по одной задаче?
1. softel Автор
  30.01.2026 21:06
  #29463026
  Нет, не по одной. основные сравнения были по написанию кода, гигачат слишком много нужно поправлять, так как делает много ошибок. И иногда что то проще самому написать, чем редактировать его код.

dyadyaSerezha
30.01.2026 21:06
#29460320
До этого я считал такие сервисы «несерьёзной фигнёй». После нескольких экспериментов с Гигачатом моё мнение кардинально изменилось

Я правильно понимаю, что западно-восточные модели типа ChatGPT и DeepSeek казались вам несерьёзной фигнёй? Почему?

Интересно, сколько стоила тем летом финальная конфигурация компа? И какие результаты приносит вам локальная модель. Желательно, результаты в деньгах.

Насчёт тестировавшихся локальных моделей. Они уже предобучены? Если да, то на чем?
1. softel Автор
  30.01.2026 21:06
  #29461514
  Финальная конфигурация обошлась почти в 1 млн.
  
  Результат использования меня вполне удовлетворяет.
  
  Над переобучением (finetuning) или RAG я пока думаю и собираю необходимый мне датасет. Или вы что то другое имели в виду?

softel Автор
30.01.2026 21:06
#29463078
Еще подобной задачей проверил Grok и GPTChat. GPTChat начал рассуждать и не закончил. Grok ответил мгновенно НО неправильно.

Но, со второго раза на пару минут задумался и ответил правильно.
1. Politura
  30.01.2026 21:06
  #29463150
  Честно говоря, на одной задачке выложенной в интернет в 2024 году проверять модели не стоит. Вполне есть шанс нарваться на мелкую модель которой именно эта задачка попала в обучающий датасет. Судя по тому, что у вас есть определенный сенарий использования, лучше тесты сделать вручную, или нагенерировать под этот сценарий и на этих тестах уже проверять.
  1. softel Автор
    30.01.2026 21:06
    #29463170
    Я провери эту задачу на 12 моделях, с первого раза решили только 3.
1. smirnfil
  30.01.2026 21:06
  #29463722
  Opus отвертил без проблем.
  1. softel Автор
    30.01.2026 21:06
    #29463728
    Ну значит Opus поучает плюсик в моем рейтинге.

Politura
30.01.2026 21:06
#29463106
На таком железе стоит попробовать модели GLM-4.7 и MiniMax-2.1, обе с 4-м квантом, они не влезут в видеопамять, но с учетом MOE архитектуры, скорость должна быть нормальная, особенно у MiniMax.
Те модели, что вы пробовали, целиком вместе с контекстом влезают в видеопамять (хотя, не уверен на счет gpt-oss-120, на большом контексте все может и не влезть), и вам достаточно минимального ОЗУ, ваши 192 Гб не используются никак.
1. softel Автор
  30.01.2026 21:06
  #29463156
  У gpt-oss:120b у меня выставлено максимальное контекстное окно для нее в 128К токенов. Она мне больше всего нравится. Есть еще Qwen3:235b, она не лезет в видеопамять, думает долго, но некоторые вопросы решает более детально. Кроме них есть еще 6 моделей, но их не использую почти.
  1. Politura
    30.01.2026 21:06
    #29463194
    Да, gpt-oss хорошие модели не смотря на то, что им уже пол года. Даже 20b на удивление очень умная, 120b самое большое, что я у себя могу запустить и тоже больше всего нравится.
    
    softel Автор
    30.01.2026 21:06
    #29463212
    Ну раз вы можете запустить gpt-oss:120b у вас тоже неплохое железо.
    
    Politura
    30.01.2026 21:06
    #29463268
    Не, у меня слабое железо, 16 видеопамяти и 64 озу, 120b медленная и небольшой контекст, я чаще 20b использую. Кстати, проверил на ней задачку, она попыталась использовать python и остановилась. Запускал в lm studio, там можно дать доступ к javascript, ради интереса дал, думала минут 5, что-то там делая на JS, в итоге выдала правильный ответ:
    
    softel Автор
    30.01.2026 21:06
    #29463282
    Щас скачаю 20b, посмотрю что у меня она ответит, думаю с сетью 1 гигабит будет быстро.
    
    softel Автор
    30.01.2026 21:06
    #29463376
    Ну да gpt-oss:20b тоже решила.
    
    Работала на одной видеокарте
    
    Но тоже думала минуту.
    
    Сервер жрал полкиловата когда думал.
1. tester37
  30.01.2026 21:06
  #29463220
  Можно наделать wdi с доступом к gpu и продавать ) это к вопросу куда оперативу лишнюю девать
  1. softel Автор
    30.01.2026 21:06
    #29463256
    только не WDI, а VDI
    
    Но меня это не интересует.
    
    А если есть интерес потестировать мой сервер то могу дать временный доступ к нему, он в сети на моем домене 24 часа в сутки. Пишите в личку если интересно.

Локальная модель vs Гигачат: мой опыт и выводы -2

Как всё началось

Первый шаг: небольшие модели

Апгрейд железа

Тестирование на «Задаче Эйнштейна»

Комментарии (32)

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

softel Автор

Локальная модель vs Гигачат: мой опыт и выводы -2