Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к) / forpes.ru

Главная
Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к) +128

29.06.2025 08:46

Shannon 58 30000 Источник

Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы она обучалась в стандартных f16, её вес был бы 1400гб, а мы попробуем версию в 10 раз меньше. Запустим самый маленький 1.66-битный IQ1_S_R4 квант полноценной модели размером 130гб на игровом ПК, отдельно с 4090 и 4060ti. Загрузим туда очень-очень много контекста и проверим, такой квант всё ещё способен давать разумные ответы или нет.

Как запускать

Почти все массовые локальные модели запускаются одинаковым образом, есть движок llama.cpp и формат этого движка gguf, с различными вариантами квантования, и есть оболочки, которые под капотом запускают тот самый llama.cpp - это и ollama, и LM Studio и все остальные.

Чтобы просто запустить локально любую небольшую модель, достаточно скачать LM Studio, Jan или, если нужен более гибкий функционал, text-generation-webui, потом любым способом скачать gguf файл и запустить всё в пару кликов. Это будет работать локально и займет несколько минут на разобраться. Всё это работает и на nvidia, и на amd, и на intel, там где нет CUDA, отлично работает через Vulkan.

Но сегодня нас интересует кое-что посложнее, запустить настоящую большую DeepSeek R1-0528 размером 671B на домашнем игровом ПК. Это запуск не на б/у сервере, не на каком-то специфичном дорогом железе, не на куче видеопамяти, а на обычном ПК.

Запускать будем не обычное квантование вроде Q4_K_M или IQ1_S, и не динамическое квантование UD-...-XL, которое превосходит обычные кванты. Нас интересует sota квантование iq4_ks и R4, которое работает только в ik_llama.

ik_llama.cpp - это форк от llama.cpp, который улучшает производительно на CPU и имеет расширенную поддержку MoE моделей, а так же является создателем передовых новых квантов. Именно через iq4_ks и R4 стало возможно создать настолько маленький квант, который ещё может показывает адекватные результаты и влезает в домашний ПК.

На чём запускать

Нам нужно много памяти, минимум можно попробовать 128гб, сейчас комплект из 4х модулей памяти 48гб DDR5 для домашних ПК стоит в пределах 50к, DDR4 4x32гб в 2 раза дешевле, и в продаже также начали появляться недорогие модули 2x64гб. Можно сказать, что 128/192гб ram это уже вполне доступное железо.

Сами характеристики ПК не так важны, если там есть 6-8 ядер, важнее объем памяти и наличие 1 GPU, что является ключевым фактором для ускорения. Когда используются именно 4 модуля по 48гб, они плохо держат разгон и не стартуют на XMP, но хватит и того, что они запускаются на базовой частоте 4800.

Характеристики испытуемого ПК:

CPU: i7-14700
Материнка: GIGABYTE Z790 D AX
ОЗУ: 4x 48gb Kingbank DDR5 4800 MT/s
GPU: 4060 Ti 16gb, 4090 24gb

Сравним отдельно 4090 и 4060 ti (хотя сейчас уже актуальнее 5060 Ti 16гб, у неё в 1.5 раза быстрее память чем у 4060ti, а стоит столько же), чтобы понять влияние GPU на скорость.

Что запускать? Какой квант?

DeepSeek-R1-0528-IQ1_S_R4 и DeepSeek-V3-0324-IQ1_S_R4

Нас интересует репозиторий ubergarm/DeepSeek-R1-0528-GGUF - пока единственный кто предоставляет готовые кванты для ik_llama. Среди них нам нужен самый маленький размером 130гб - это IQ1_S_R4.

Если не хотите ждать долгих рассуждений от R1, то можно взять V3-0324, для него тоже есть такой квант: DeepSeek-V3-0324-IQ1_S_R4

Квант экстремально малого размера, и замеры качества через PPL показывают, что он ощутимо отстает от оригинала.

Но надежда есть, так как PPL не лучший показатель, он не отображает реальное качество кванта, и замеры KLD намного лучше отображают как квант далек от оригинала.

Вот сравнение 3 малых квантов: от Bartowski, Unsloth и Ubergarm, каждый со своей версией минимального размера. Все показатели чем ниже, тем лучше. Квант R4 имея самый маленький размер, показывает что обладает каким-то качеством:

KLD отклонения от Q8_0, чем ниже, тем лучше

Про разницу PPL и KLD

В работе Accuracy is Not All You Need (https://arxiv.org/abs/2407.09141) показали, что KLD лучше отображает корреляцию между ошибками квантования и метрикой KLD, чем PPL, так как PPL скрывает ошибки квантования из-за усреднения.

PPL (Perplexity) - это степень неуверенности модели в предсказании токена, чем ниже, тем увереннее модель. PPL усредняет логарифмические вероятности по всем токенам, поэтому ошибки, например, завышение вероятности одних токенов и занижение других, могут компенсировать друг друга - в результате PPL близок к оригиналу, хотя результат искажен. Ещё PPL слабо реагирует на ошибки в редких токенах, важных для генерации разнообразных ответов.

KLD (KL Divergence) измеряет расхождение между распределениями исходной и квантованной моделей для каждого токена, потом суммирует расхождения для всех токенов. Тут ошибки никак не компенсируются друг другом, отклонения в вероятностях редких и частых токенов одинаково повлияют на итог. Это куда лучше позволяет оценить потери при квантовании, и если оптимизировать квантование под минимизацию KLD, то в среднем это улучшает кванты.

Замеры скорости памяти

Скорость памяти прямо пропорциональна скорости генерации.

2 модуля памяти, даже модули 48гб, обычно хорошо разгоняются и держать XMP 6400, на такой частоте можно получить почти 100гб/с.

Но так как нам нужно больше памяти, то замерим скорости работы на 4х модулях. Скорость чтения на 4x DDR5-4800 равна 70 Гб/с, это не очень быстро, это ближе к скорости хорошей DDR4, чем к DDR5-6400, но этого должно хватить.

Проверим скорость Gemma3, генерация только на CPU, в стандартном кванте Q4_K_M. Запуск обычной llama.cpp на Windows 10, планировщик не оптимизирован на работу с малыми и большими ядрами:

.\llama-bench -m "gemma-3-12b-it-Q4_K_M.gguf" -t 4 -t 6 -t 8 -t 20 -t 28

.\llama-bench -m "gemma-3-27b-it-Q4_K_M.gguf" -t 4 -t 6 -t 8 -t 20 -t 28

pp - это promp processing, он же prefill. В pp входит системный промпт и вся история диалога. До тех пор пока контекст не закэширован, всё будет считаться от самого начала.

tg - это token generation, генерация новых токенов, обычно все обращают внимание только на этот показатель, но на огромном контексте pp будет так же важен.

Как запускать R1 671B на одной GPU и за счёт чего ускорение

Память не очень быстрая, даже Gemma3 12B весом 7гб еле выходит за границу комфортности, которая составляет 5 t/s. В таких условия нам нужно запустить квант весом 130гб имея для ускорения всего 1 GPU и на сколько это вообще возможно.

Gemma3 это dense-модель, то есть сплошная, для каждого нового токена нужно обойти все параметры модели. DeepSeek V3/R1 - это MoE модель, где на каждом шагу использует только часть параметров.

MoE это сокращение архитектуры Mixture of Experts, в таких моделях количество параметров (B) всей модели больше чем количество активных параметров (AxB) необходимых для каждого нового токена. Например, модель Qwen3-235B-A22B имеет всего 235B параметров и на каждом шагу из них только 22B будут активными.

У R1 количество параметров 671B, активных параметров 37B. Всего 61 слой, 3 слоя общих, которые используются на каждом шагу, остальные слои экспертов, они выбираются роутером на каждом шагу разные, поэтому нельзя просто загрузить 37B в vram.

Если модель целиком влезает в память, то скорость инференса будет примерно равна dense-модели размером 37B, а именно в районе 2 t/s. Это генерация на такой скорости памяти, была бы память быстрее, то и генерация была бы быстрее. 2 t/s мало, нужна помощь от GPU, но если просто выгрузить 10 слоев в vram, то будет ситуация, когда только первые 3 слоя полезны, остальные будут выпадать лишь иногда.

Выгрузив часть слоев ускорение есть, но совсем не существенное, нужно больше:

Решение: override-tensor.

Чтобы получить существенное ускорение, нужно чтобы GPU полноценно участвовала в работе на каждом шагу и решение тут в том, чтобы на GPU выгрузить только веса внимания, которые легкие и на каждом шагу важны. А экспертные ffn каждого слоя оставить на CPU.

В llm трансформерах модель состоит из слоев, каждый слой состоит из 2х видов тензоров: внимания (attn, attention) и полносвязной сети (ffn, feed forward network). Посмотреть структуру модели можно на huggingface если нажать на конкретный квант.

18-й слой deepseek r1, самые тяжелые тензоры это ffn, а важные attn намного легче

Тензоры внимания весят не очень много, и в таком низком кванте они влезают даже в 10гб видеопамяти, оставляя достаточно места для контекста, а ffn экспертов и составляют основной объем модели.

--override-tensor или -ot

Для того, чтобы разнести разбить слой на тензоры в llama.cpp и ik_llama добавили параметр -ot или --override-tensors , через него указывают какие тензоры отправятся на CPU (или другие устройства, например, вторую GPU) используя regexp синтаксис.

Нужно выгрузить все легковесные тензоры на GPU, а тяжелые, которые упрощенно называют MoE-параметрами, на CPU. Чтобы это сделать, нужно сначала выгрузить все слои на видеокарту через параметр -ngl 999 , а потом указываем какие надо перенаправить в обычную память.

MoE-параметры это те, которые имеют в имени exps, то есть эксперты, поэтому нужно просто указать один из синонимов, который выберет всех exps:

-ot exps=CPU

-ot ".ffn_.*_exps.=CPU"

-ot "([0-9]+).ffn_.*_exps.=CPU"

Точные имена тензоров, чтобы составить правильный regexp

Теперь на видеокарте остались какие-то тензоры каждого слоя, и gpu на каждом шаге будет участвовать в генерации, за счет этого и происходит ускорение. И это в основном подходит только для MoE моделей.

И, обычно, если осталась свободная VRAM, или не нужно так много контекста, или есть вторая видеокарта, то можно больше тензоров оставить выгруженными на видеокарте.

-ot "blk\.([4-9])\.ffn.*=CUDA0" -ot "blk\.(1[0-5])\.ffn.*=CUDA1" -ot exps=CPU

Так мы оставим 4-9 слои целиком на 1 GPU и 10-15 слои на 2 GPU. Для rocm или vulkan будут свои синонимы названия устройств, вроде Vulkan0 вместо CUDA0.

В кванте IQ1_S_R4 для тензоров ffn up|gate|down использованы тензоры R4, которые оптимизированы для работы на CPU, их нужно автоматически конвертировать в IQK квант пригодные для GPU. Для этого ik_llama надо скомпилировать с флагом -DGGML_CUDA_IQK_FORCE_BF16=1

Запускаем DeepSeek R1 671B IQ1_S_R4

У ik_llama нет готовых бинарников, как у llama.cpp, поэтому нужно будет собрать её из исходников, делается это по той же инструкции как и llama.cpp, поэтому сложности не должно возникнуть.

Если одна GPU. Вместо -j28 укажите ваше количество ядер или потоков:

git clone https://github.com/ikawrakow/ik_llama.cpp
cd ik_llama
cmake -B ./build -DGGML_CUDA=ON -DGGML_BLAS=OFF
cmake --build build --config Release -j28
cd build/bin

Если планируется использовать несколько GPU:

git clone https://github.com/ikawrakow/ik_llama.cpp
cd ik_llama
cmake -B ./build -DGGML_CUDA=ON -DGGML_BLAS=OFF -DGGML_SCHED_MAX_COPIES=1 -DGGML_CUDA_IQK_FORCE_BF16=1
cmake --build build --config Release -j28
cd build/bin

Если не указать -DGGML_SCHED_MAX_COPIES=1, то будет перерасход видеопамяти с использованием -ot. -DGGML_CUDA_IQK_FORCE_BF16=1 нужен для выгрузки на GPU ffn тензоров, но не всегда дает ускорение, иногда замедляет работу, зависит от модели видеокарты.

После этого можно запустить llama-server:

./llama-server -m "DeepSeek-R1-0528-IQ1_S_R4-00001-of-00003.gguf" -mla 3 -fa -ctk q8_0 -amb 512 -fmoe -ot exps=CPU -ngl 99 -b 4096 -ub 4096 -t 20 -c 8192

По адресу http://127.0.0.1:8080/ будет доступен вполне удобный веб-клиент:

2184 токенов размышления, модель долго искала подвох, ответ 87 токенов. Скорость 7 t/s

Мы получили 7 t/s, это в 2 раза выше, чем мы получали когда вынесли только начальные слои на GPU, хотя в обоих случая количество занимаемой памяти подобрано одинаково, что показывает, что подход через -ot работает.

Подробнее про параметры запуска:

-m - путь до файла модели, у huggingface есть ограничение на размер файла 50гб, поэтому файлов будет несколько разбитых по шаблону 00001-0000x.gguf. Для запуска нужно указывать только 1 файл.

-fa - flash attention, способ эффективнее считать контекст, тратя меньше памяти, при правильной реализации математически идентичен обычному attention.

-amb 512 - переиспользовать буфер для вычисления K*Q, размер в mb, можно увеличить, если хватает памяти.

-fmoe - fused moe, объединяет up, gate и act операции, немного ускоряя вычисления.

-mla 3 - включить mla

-ctk q8_0 - квантование только k-кэша контекста, считается, что он почти не страдает от квантования, в отличии от v-кэша.

-ngl 99 - выгрузить все слои на GPU.

-ot exps=CPU - отправить все тензоры где в имени exps на CPU.

-b 4096 -ub 4096 - оптимизация размеров батчей, может ускорить вычисление pp.

-t 20 - использовать все ядра, что есть, по умолчанию 8.

-c 8192 - задать размер контекста 8к, по умолчанию 4к.

Дополнительные параметры:

-rtr - если запуск CPU only, то при загрузке конвертировать веса в оптимизированные для работы на CPU, отключает mmap

-ser 6,1 - умное уменьшение количества экспертов, ускоряет работу за счет небольшого снижения качества.

-ts 24,16 - если установлены две gpu, то можно распределить по ним слои в заданной пропорции, полезно для dense-моделей, если используется -ot, то лучше не использовать.

Бенчмарк скорости DeepSeek R1

Теперь можно заняться более точным измерением скорости генерации как новых токенов, так и уже существующего контекста. У ik_llama есть удобный инструмент для замера скоростей модели на указанной длине контекста.

Сравним 3 варианта, вначале на типичном контексте 4к, параметры -b и -ub по-умолчанию:

CPU only (скорость памяти 72 гб/с)
Ускорение через 4060 ti 16гб (скорость памяти 288 гб/с)
Ускорение через 4090 24гб (скорость памяти 1008 гб/с)

N_KV - размер контекста.

T_PP - время генерации PP.

S_PP - скорость генерации pp.

S_TG - скорость генерации tg.

CPU only, скрываем все CUDA устройства через CUDA_VISIBLE_DEVICES="":

CUDA_VISIBLE_DEVICES="" ./llama-sweep-bench -m "DeepSeek-R1-0528-IQ1_S_R4-00001-of-00003.gguf" -mla 3 -fa -amb 512 -fmoe -ctk q8_0 -t 28 -c 4096

4060 ti:

CUDA_VISIBLE_DEVICES="1" ./llama-sweep-bench -m "DeepSeek-R1-0528-IQ1_S_R4-00001-of-00003.gguf" -mla 3 -fa -amb 512 -fmoe -ot exps=CPU -ngl 99 -ctk q8_0 -t 28 -c 4096

4090:

CUDA_VISIBLE_DEVICES="0" ./llama-sweep-bench -m "DeepSeek-R1-0528-IQ1_S_R4-00001-of-00003.gguf" -mla 3 -fa -amb 512 -fmoe -ot exps=CPU -ngl 99 -ctk q8_0 -t 28 -c 4096

Разница между 4060 ti и 4090 не соответствует разнице производительности и скорости памяти. Всё потому, что на GPU уходит всего ~10 гб тензоров и при маленьком батче разница между видеокартами не так заметна.

Теперь замерим контекст 32к, увеличим размер батчей, параметры -b 4096 -ub 4096. Увеличивая размер батчей, мы увеличим скорость PP, что важно при работе с большим контекстом, когда обработка 100к может занимать почти час на 25 t/s.

4060 ti:

4090:

Тут разница на подготовку промпта между картами уже видна лучше, скорость памяти 1 Тб/с против 288 Гб/с - всё-таки разница большая. На скорости 1 Тб/с для такого небольшого объема данных уже и количество ядер может быть важным.

На 4090 скорость tg немного упала, это не критично, зато скорость pp выросла почти в 10 раз до 200-300 t/s. С такой скоростью уже можно обрабатывать огромные контексты. На 4060 ti pp вырос всего в 1.5-2 раза, это тоже не плохо, обработка 32к контекста займет 15 минут, а дальше она закэшируется и будет работать моментально.

Параметром -ser 6,1 можно компенсировать потери tg от -ub 4096 -b 4096, сохраняя 300 t/s на pp, и на коротком контексте возвращая 8 t/s на tg:

Как вместить огромный контекст в одну GPU?

Как получить ускорение через GPU разобрались. Теперь нужно разобраться как вместить огромный контекст в тот небольшой объем vram, который остаётся.

У DeepSeek R1 максимальный контекст 160к, это очень много, и в обычном виде на это требуется сотни гб памяти. Например, согласно исследованию Quantitative Analysis of Performance Drop in DeepSeek Model Quantization, для всего лишь 32к контекста нужно 400гб памяти на обычной llama.cpp.

Согласно тому же исследованию, качество кванта UD-Q2_K_XL (это динамическое квантование от Unsloth, главная особенность этого квантования в том, что важные тензоры оставлены в очень высоком качестве, а менее важные квантуются сильнее, за счет этого общее качество остается на высоком уровне) по сравнению с оригиналом FP8 падает всего на несколько процентов в бенчмарках:

Только актуальная версия UD-Q2_K_XL занимает уже 233гб, а не 212гб, слишком много, но можно попробовать запустить её с ssd, это критично снизит скорость PP, но для средних контекстов всё еще может работать, например, 32к ждать пришлось минут 40:

DeepSeek-R1-0528-UD-Q2_K_XL запуск частично с ssd, обработка 32к контекст, скорость 2.3 t/s

Кванты от ubergram по сути такое же динамическое квантование, только с использованием более продвинутых IQK и R4 квантов.

Но возвращаясь к тому, как получилось, что мы уже и тестировали и запускали 32к и для этого не понадобилось 400гб памяти, как это работает?

MLA и Внимание

Контекст так много весит, потому что он полностью связан, и постоянно динамически вычисляет важность токенов через механизм внимания. В отличии от таких статистических предсказателей следующего токена, вроде цепей Маркова, где предыдущее значение контекста не играет роли, играет только предыдущий токен, если это цепь 1 порядка, в трансформерах механизм внимания на каждом шагу работает со всей последовательностью, чтобы постоянно вычислять важность токенов и перепроверять, что ответ правильный.

Механизм Внимания - это квадратичная сложность O(n²) и по памяти и по времени, где n-длина последовательности, каждый токен взаимодействует с каждым токеном, поэтому расход памяти так быстро растет. Чтобы справиться с этим, придумывают различные математические оптимизации, один из них это Flash Attention - используя математические трюки с матрицами уменьшается требования к памяти без потерь качества, результат идентичен обычному attention.

Или другой подход - Sliding Window Attention (SWA), когда токену ограничивают область видимости, например каждый токен видит вокруг себя только вокруг себя в пределах окна, которое обычно 4096 токенов, за счёт этого можно обрабатывать очень длинные последовательности используя мало памяти, но взамен теряется информация вне окна, что можно частично компенсировать различными техниками.

В DeepSeek пошли другим путем, они попытались изменить сам подход к attention. Обычно для оптимизации внимания используют, например, Grouped Query Attention (GQA) или Multi-Query Attention (MQA), эти методы являются вычислительными оптимизациями стандартного механизма без фундаментального изменения архитектуры. Вместо такого подхода в DeepSeek разработали MLA (Multi-Head Latent Attention), где роль для внимания играет не токен, а латентный вектор.

MLA - это обучение скрытых или латентных векторов вместе с основной моделью, эти вектора учатся улавливать ключевые концепции и паттерны в данных. Головы внимания в MLA взаимодействуют не напрямую с токенами, а с этими латентными векторами. За счет этого получается "ужать" KV-кэш в 25 раз сохраняя оригинальное качество:

MLA представили в DeepSeek V2: https://arxiv.org/abs/2405.04434

И причина, почему в том исследовании им потребовалось 400гб для 32к контекста в том, что на момент исследования в llama.cpp не была реализована поддержка MLA.

Кроме MLA, у DeepSeek есть ещё одна интересная технология - MTP.

MTP - это их реализация спекулятивного декодирования, способ переложить часть работы по предсказываю следующего токена на маленькую модель, это работает, когда продолжение слова или фразы уже очевидно. Если зайти на официальный репозиторий deepseek-ai, то размер модели будет 685B, а не 671B. Как раз 14B это модуль MTP.

MTP, в отличии от обычного спекулятивного декодирования, тоже обучалось вместе с модель. По их замерам точность принятия токенов от MTP 85-90%, что дает ускорение основной модели в 1.8 раза.

В llama.cpp сейчас есть реализация спекулятивного декодирования, но она сделана по другому, там в качестве маленькой модели нужна полноценная модель того же семейства. Например, Gemma3 27B в качестве помощника может использовать только что-то из своих младших моделей, вроде Gemma3 1B.

Сколько нужно памяти под контекст используя MLA

В ik_llama, чтобы включить использование mla нужно добавить параметр -fa -mla 3 .

В llama.cpp все виды внимания (mla, swa) используемые конкретной моделью включаются через -fa автоматически, если их поддержка уже добавлена в ядро.

Тензоры оставленные с -ot для кванта IQ1_S_R4 примерно равны 10.5гб, под нужны ОС, включая браузер, на 4090 уходит около 1.7гб. В итоге есть примерно 5гб и 11гб под контекст на 4060ti и 4090 соответственно. Перебором параметра -c можно найти количество контекста, которое влезает в этот объем. Чем больше размер батча, тем больше под них нужно памяти.

Размер батчей стандартный -b 2048 -ub 512:

Тензоры выгружены на GPU, b/ub стандартные -b 2048 -ub 512

Размер батчей -b 4096 -ub 4096:

Тензоры выгружены на GPU, под контекст остатки памяти, -b 4096 -ub 4096

Как вариант, можно не выгружать тензоры на GPU совсем, оставляя всю память под контекст. Для этого надо указать-ngl 0. Максимальные 160к без квантования требуют примерно 14гб при стандартном размере батчей и 18гб при 4096.

Запустим тот же бенчмарк, контекст 160к, все тензоры теперь на CPU:

CUDA_VISIBLE_DEVICES="0" ./llama-sweep-bench -m "DeepSeek-R1-0528-IQ1_S_R4-00001-of-00003.gguf" -mla 3 -fa -amb 512 -fmoe -ot exps=CPU -ngl 0 -ctk q8_0 -t 28 -c 163840 -ngl 31 -b 4096 -ub 4096

Скорость tg упала до скорости 2.85 t/s и соответствует "CPU only". Но с ростом контекста она быстро упадет до 1, а под конец и до 0.5 t/s. А скорость PP осталась как и была на GPU, около 200-300 t/s, но под конец 160к она упадёт до 75 t/s.

Теперь проверим "сложение" двух GPU. Ожидание от двух карт такое, что можно разместить количество контекста сумме их отдельных размеров, то есть в 126к. Но на практике объединив две GPU можно уместить всего 110к с квантованием q8_0, что не совпадает с расчетами. Дело в том, что единственная польза от двух карт в том, что мы разделяем тензоры, отправляя 6гб на gpu1 и 3гб на gpu2, тем самым освобождая память для контекста, а сам контекст создается на двух GPU почти пропорционального размера, то есть не получится сложить 40к + 86к. Логика работы двух GPU и контекста мне пока не понятна.

Замер скорости двух GPU и контекста 110к:

./llama-sweep-bench -m "DeepSeek-R1-0528-IQ1_S_R4-00001-of-00003.gguf" -mla 3 -fa -amb 512 -fmoe -ot exps=CPU -ngl 99 -ts 20,10 -b 4096 -ub 4096 -ctk q8_0 -t 28 -c 112640

Скорости pp просели из-за медленной 4060, но всё еще пригодны для использования и не заставляют ждать слишком долго.

Загружаем модель и проводим тесты

Теперь когда теории достаточно, как ускориться и как вместить огромный контекст понятно, осталось придумать как его проверить. Кодовой базы на 100к у меня нет, а работать с чужой - сложно оценить результат.

Ещё один из вариантов проверить такой большой контекст - это взять знакомую книгу и протестировать модель на ней, сможет ли модель пересказать всю книгу, выдать какие-то факты из начала, середины и конца, и в целом по ответам будет понятно, модель способна обработать такой контекст или она просто выбирает случайные подходящие слова и выдает какой-то не особо связный ответ. Часто маленькие модели (7b, 12b, 14b) уже на контексте в 32к зацикливаются и просто выдают бесконечно одинаковый токен.

Нужна книга, которой точно нет в обучающем датасете, например, Лабиринт Отражений. Текст книги нужно целиком вставить в системный промпт, тогда это будет контекст модели, а потом позадавать вопросы по нему. Это будет не RAG, который разбивает текст на кусочки, создаёт векторную БД и разбивает данные на кусочки, и по ключевым словам достает эти кусочки и подмешивает их в контекст, такие кусочки не связаны друг с другом единым вниманием, поэтому такой подход подходит для документации, но не для связной книги. И это не какой-то похожий подход, это будет чистый контекст.

Проверка модели с пустым системным промптом в своем "базовом" виде. Она ничего не знает о Лабиринте Отражений, но что-то знает про цикл Дозоры, что совсем не помогает.

Стоит подсчитать количество токенов из которого состоит книга, для этого можно воспользоваться утилитой llama-tokenize, и нужно указать модель, так как у всех моделей разные токенизаторы.

linux:

./llama-tokenize -m "DeepSeek-R1-0528-IQ1_S_R4-00001-of-00003.gguf" -f book.txt | wc -l

windows powershell:

.\llama-tokenize.exe -m "DeepSeek-R1-0528-IQ1_S_R4-00001-of-00003.gguf" -f book.txt | Measure-Object -Line | Select-Object -ExpandProperty Lines

Размер книги получился 215к токенов, не влезает ни в 110к, ни даже в максимальные 160к. В таком случае, когда фактический контекст больше размера -c подключается context shift, он обрезает часть токенов и это сильно снижает точность и качество. Проверим как это работает, а потом урежем контекст книги.

В системный промпт скопирован текст всей книги, context shift включается автоматически, попросим пересказать сюжет:

Первое, что удивляет, это то, что настолько экстремально квантованная модель что-то отвечает на таком огромном контексте.

Второе - то, она отвечает что-то связное, описание в целом пересказано верно, ключевая особенность героя передана верно, ключевой момент с Неудачником описан верно. Но видно, что данные из первой половины книги не учтены, это работа context shift.

Посмотреть на то, как context shift даёт негативный эффект, можно спросив какую-то конкретную вещь из книги. Например, попросить точно процитировать эпиграф из самого начала. В ответе полностью выдуманный текст, ничего общего с оригиналом:

context shift не позволяет точно цитировать

Урежем книгу до 100к токенов, теперь текст полностью влезает в контекст. Зададим тот же вопрос, и да, теперь ответ правильный:

Проверим способность MLA и модели работать не только с началом и концом, возьмём цитату из середины и попросим модель найти откуда эта цитата, описать что происходит в этот момент и процитировать диалог целиком.

В каком месте книги кто-то сказал "Звёзды слишком яркие."? Процитируй весь диалог

100к контекста, цитирование из середины книги, диалог дословно верный

Описание событий правильное, цитирование диалога правильное. Ошибка только в том, что это глава 010, а не 011. Возможно модель сбивает то, что нумерация глав в книге представлена в двоичном виде.

160к контекста на одной 4090

Осталось только проверить максимальный контекст для DeepSeek R1, который составляет 160к. Контекст PP будет считаться на GPU, а новые токены ответа TG на CPU, и сколько останется памяти, догрузим GPU целыми слоями.

Если в предыдущем эксперименте скорости были довольно комфортные, то тут скорость будет очень низкой. Это больше про посмотреть, остаётся ли ответ модели разумным на максимальном контексте в таком экстремальном квантовании.

./llama-server -m "DeepSeek-R1-0528-IQ1_S_R4-00001-of-00003.gguf" -mla 3 -fa -amb 512 -fmoe -ot exps=CPU -ngl 18 -ts 24,0 -ctk q8_0 -ctv q8_0 -b 4096 -ub 4096 -t 28 -c 163840

Удалось выгрузить 18 слоев, для большей экономии включил -ctv q8_0, по идее это не должно сказаться на качестве, а несколько гб высвободиться.

Загрузка контекста успешно проходит до 128к и тут мы сталкиваемся с первой проблемой:

```cpy.cu:573: GGML_ASSERT(ggml_nbytes(src0) <= INT_MAX) failed```

Из-за размера батча 4096 мы достигли и превысили лимит INT_MAX. Возможно это исправить или нет, пока не ясно, поэтому придется снизить -b -ub, что замедлит скорость PP, но на данный момент это единственный способ загрузить столько контекста. Уменьшая размер батча, высвободиться видеопамять, значит можно выгрузить больше слоев на GPU, что может немного поможет при генерации ответа:

./llama-server -m "DeepSeek-R1-0528-IQ1_S_R4-00001-of-00003.gguf" -mla 3 -fa -amb 512 -fmoe -ot exps=CPU -ngl 30 -ts 24,0 -ctk q8_0 -ctv q8_0 -b 2048 -ub 2048 -t 28 -c 163840

Скорость PP под конец упала до 75 t/s, а скорость генерации составила всего 0.5 t/s:

Зато можно убедиться, что на 160к модель всё еще не утратила связь с контекстом, и сам ответ правильный в пределах этих 160к, так как развязка осталась в оставшихся 55к.

Чтобы воспользоваться всем контекстом и выгрузить все слои на GPU не хватило буквально 4-5гб, поэтому эту работу оставим для 5090, а для 4090 пределом будет 80к.

Бонус. Огромный контекст на LLama 4 и Gemma3

DeepSeek не единственная модель, в которую можно загрузить много контекста, но единственная у которой есть MLA. Для других моделей стандартным решением является SWA - скользящее окно внимания.

Недавно в llama.cpp добавили поддержку SWA, которое позволяет обрабатывать огромные последовательности требуя мало памяти. Качество должно быть ниже чем у MLA, так как уходя за пределы окна происходит очистка SWA-кэша и, после определенной фиксации в пределах окна, забывание токенов данных, но проверить всё равно можно. Этой поддержки пока нет в ik_llama, поэтому запускать надо на llama.cpp.

SWA работает и для Llama 4 и для Gemma3, включается через -fa, есть возможность включить --swa-full, в этом режиме размер кэша SWA равен полному контексту, очищения SWA кэша не происходит, но памяти потребует намного больше. При использовании SWA context shift автоматически отключается.

У Llama 4 Scout (108B-A17B) размер контекста 10м, У Llama 4 Maverick (401B-A17B) - 1м. Этого хватит, чтобы вместить книгу целиком. У Gemma3 27B только 128к, но она славится тем, чем её контекст очень тяжелый, поэтому SWA должен с этим помочь.

Gemma3 это Dense модель, а Llama 4 это MoE, у Scout 16 экспертов, а у Maverick 128. У Llama 4 есть много общих слоев, поэтому эти модели выдают очень хорошую скорость при использовании -ot, а Gemma3 в целом легковесная.

Для начала посмотрим сколько токенизаторы Llama 4 и Gemma3 найдут токенов у книги:

./llama-tokenize -m "Llama-4-Maverick-17B-128E-Instruct-UD-Q3_ K_XL-00001-of-00004.gguf" -f "labir_otra.txt" | wc -l
> 182120

.\llama-tokenize.exe -m "gemma-3-27b-it-Q4_K_M.gguf" -f "labir_otra.txt" | Measure-Object -Line | Select-Object -ExpandProperty Lines
> 190549

177к токенов у Llama4 и 186к у Gemma3. Видимо у них токенизатор лучше подходит для текста на русском, но как это скажется на качестве пока не ясно.

Модели запускаем через llama.cpp, логика такая же как и раньше, только нужно убрать параметры которых нет в llama.cpp. Модели не запускаются с -fa, если квантование кэшей не синхронно, поэтому придётся указать и -ctv q8_0:

Llama 4 Maverick

Максимально можно вместить 350к контекста в стандартных размераз ub/b и примерно 210к для -ub 3072 -b 3072

Квант UD-Q3_K_XL.

./llama-server -m "Llama-4-Maverick-17B-128E-Instruct-UD-Q3_K_XL-00001-of-00004.gguf" -fa -ctk q8_0 -ctv q8_0 -c 215040 -ot exps=CPU -ngl 99 -ts 24,0 -t 28

Модель правильно собрала вместе части, но в 3 части 8 глав, а не 4. Видимо модель сбивает нумерация в бинарном виде, даже если явно ей это сказать.

Проверим точность цитирования из середины. Цитата точная, описание не совсем точное. Глава указана правильно, а название части модель выдумала по тому, где находятся герои, правильное название "ЧАСТЬ ВТОРАЯ. ЛАБИРИНТ":

Llama 4 Maverick, книга целиком в контексте

Попробуем запутать модель, она должна понять, что пивной ларёк это на самом деле бар и упомянуть про "Ждите отстоя пены".

С этим модель справляется успешно. То есть в пределах SWA окна у модели нет проблем.

Теперь вопрос на контексте 32к, чтобы на нём же протестировать более маленькие модели.

В какой момент была включена Roll Over Beethoven? Что произошло дальше?

Llama 4 Maverick, правильный ответ для тестирования

Тут модель дает правильный ответ, всё это в пределах одной главы.

Небольшой тест 4060 ti, в неё влезает 70к контекста с ub/b 4096. Обработка pp очень медленная, но генерация ответа вполне быстрая.

4060 ti с контекстом 70к, скорость pp низкая, скорость tg нормальная

Ответ правильный, так как ответ снова в пределах абзатца.

4060 ti с контекстом 70к, модель правильно нашла место

Llama 4 Scout

Maverick в целом справляется, если знать особенности SWA. Но вот у Scout с этим намного хуже, ответы хаотичные и случайные, иногда попадающие куда надо. Видимо сказывается тот факт, что у Maverick 128 экспертов, а у Scout только 16.

Квант UD-Q4_K_XL.

Тот же вопрос в пределах 32к. Ответ не правильный по своей логике, Scout пишет, что герой уже в ресторане и там и взял диск, что не правильно, и после заказывает такси, чтобы поехать в тот самый ресторан, где он уже находится по версии модели. Видно, что модель слабее Maverick и не может удерживать события даже в своем ответе.

Gemma3

У Gemma3 возникает проблема на длинном контексте без квантования. Если контекст длиннее 32к, то вместо ответа получается зацикленный токен, эта проблема возникает только без квантования kv-кэша. В пределах 32к контекста ответы более менее нормальные, 32к контекст занимает 2.5гб без квантования.

Если включить квантование -ctk q8_0 -ctv q8_0, то полный 128к контекст обрабатывается и занимает ~7гб, но модель слишком маленькая, всего 27B, поэтому на таком огромном контексте она показывает себя плохо.

Квант Q8_0, модель не удерживает даже 32к контекста и выдумывает ответ из обрывков фраз книги, про то, что герой вернулся в реальность. Возможно, это проблема реализации SWA, но включение --swa-full не помогает, что говорит о том, что это проблема модели.

Если не хочется возиться с консолью

oobabooga / text-generation-webui

Пока text-generation-webui единственный клиент, где реализовали поддержку кастомных параметров командной строки, включая -ot. Тут нет поддержки ik_llama, но для UD-квантов DeepSeek или Llama 4 подойдет. Правда размер контекста тут ограничен 128к.

OpenAI API, Jan и Cherry Studio

При запуске llama-server у ik_llama или llama.cpp создается не только веб-клиент, но и openai compatiable api, поэтому можно пользоваться любым клиентом, который умеет подключаться к openai. Два клиента с открытым кодом, который так умеют: Jan и Cherry Studio.

К url веб-клиента нужно просто добавить /v1 и получить адрес api, который можно использовать в любом софте, в том числе и таком как Cline или Continue для разработки.

Вывод

Для ускорения MoE моделей (LLama 4, DeepSeek, Qwen3) нужен параметр -ot и одна GPU, это позволит получить ощутимое ускорение
Чтобы вместить огромный контекст в небольшой объём памяти нужно использовать MLA для DeepSeek и SWA для Llama 4 / Gemma3
4060 ti позволит вмещать 32к контекста в DeepSeek и 70к в Llama 4 Maverick, но обрабатывает долговато, медленная память сказывается
4090 способна вместить 80к и обрабатывать контекст на комфортной скорости 200-300 t/s, в Maverick способна вместить 210к
Даже на максимальном для R1 контексте 160к мини-квант отвечает нормально

Эксперимент с огромным контекстом прошел лучше чем задумывался, ожидания были, что где-то уже после 8к, максимум 32к, модель совсем перестанет связно отвечать и будет много артефактов. Но не стоит ожидать, что такой маленький квант будет соответствовать качеству оригинала, хотя он и справляется лучше, чем многие другие модели.

Комментарии (58)

m0xf
29.06.2025 09:01
#28500808
Есть ли возможность увеличить контекст, используя несколько GPU?
1. Zalechi
  29.06.2025 09:01
  #28508186
  Физически да, не знаю, если есть программные ограничения в самой модели.

Shannon Автор
29.06.2025 09:01
#28501130
Среди MoE моделей вчера вышла новинка Hunyuan 80B-A13B с 256к контекстом, добавление поддержки в llama.cpp в работе.

Moog_Prodigy
29.06.2025 09:01
#28501376
А что для пользователей 3060 (12) с многоядерными зионами и озу 128 ? Есть ли свет в конце туннеля? У меня полноценный дипсик работал со скоростью 0.1 t/s с подкачкой с nvme...Не, ну работал то нормально, правда неделю ждать приходилось.
1. Shannon Автор
  29.06.2025 09:01
  #28501914
  А что для пользователей 3060 (12) с многоядерными зионами и озу 128 ? Есть ли свет в конце туннеля?
  
  Ну 130гб квант с -ot exps=CPU и -ctk q8_0 -ctv q8_0 в теории должен в притык влезть и сколько-то контекста вместить, у меня не точные цифры про 10гб, точнее это с небольшим запасом, на деле там меньше.
  
  Фактически 1-битная модель, это на самом деле 1.58-битная модель - это минимально возможный размер, когда есть 3 значения: -1, 0, 1, меньше уже нельзя создать квант. Даже 1-bit BitNet, это тоже 1.58-битные llm. Так что даже если эту 1.66-битную уменьшить на это чуть-чуть, особо выигрыша по размеру не будет.

fleur_de_lys_felix
29.06.2025 09:01
#28501406
Спасибо! (Лайк и подписка).

Есть ли разница и повышение хэшрейта аж на 30% при переходе с Windows на Linux?

Справедливо ли всё написанное для AMD/Radeon? Для каких карт ROCm есть? Можно заставить работать? Не факт что соберётся? Не взлетит? RX 7600 XT 16GB?

Б/у-шные Tesla с Ali?

Где находится предел выгоды перехода с 3090/4090 на "профессиональные" Radeon Pro W7000 (W7800/w7900)?

Начали ли появляться ARM-платы (одноплатники со встроенными процессорами) c PCIe-4.0/5.0 способные задействовать больше 1ТБ памяти? Больше 100 ГБ?

Б/у AMD Epyc по-прежнему наше "всё" - если хотим впихнуть взрослый ДикПик в оперативу целиком?
1. Shannon Автор
  29.06.2025 09:01
  #28502346
  Есть ли разница и повышение хэшрейта аж на 30% при переходе с Windows на Linux?
  
  Я тестировал сразу на Linux, мне уже не хотелось собирать ik_llama под Windows, так как под виндой у меня не настроено окружения для сборки, и я на эту статью потратил 5 дней и уже немного устал от всего этого.
  
  Справедливо ли всё написанное для AMD/Radeon? Для каких карт ROCm есть? Можно заставить работать? Не факт что соберётся? Не взлетит? RX 7600 XT 16GB?
  
  У ik_llama фокус на CPU и CUDA. Позавчера я собирал ik_llama vulkan, хотел добавить в сравнение RX 6600, и он работал в разы медленнее чем в vulkan в llama.cpp, поэтому смысла нет. Не тестировал на ROCm, но думаю там такой же результат будет.
  
  В плане llama.cpp всё будет работать нормально с -ot и на rocm, и на вулкане, только не удастся воспользоваться этими квантами от ik_llama и нужно будет подобрать квант от unsloth или bartowski.
  
  А в плане RX7600 лучше подождать и посмотреть на Intel B60 24гб и цену, у интелов обычно шина больше и поэтому память быстрее, а XPU поддержку intel уже добавили в pytorch, что и вне llm может быть полезно.
  
  Б/у-шные Tesla с Ali?
  
  V100 на 32гб отлично впишется, говорят на таобао они щас дешевые.
  
  Где находится предел выгоды перехода с 3090/4090 на "профессиональные" Radeon Pro W7000 (W7800/w7900)?
  
  Если устраивает турбинный шум, то лучше китайскую 4090 на 48гб.
  
  Б/у AMD Epyc по-прежнему наше "всё" - если хотим впихнуть взрослый ДикПик в оперативу целиком?
  
  Эпики быстрые, много быстрой памяти, но ни нормальную тихую башню не поставить, ни корпус нормальный, ни дорогущую память потом ни куда не деть. Это подходит тем, кто точно знает зачем ему эпики, и зачем ему именно квант Q4 или даже Q8.
  
  Просто принципиально кванты выше чем UD-Q2_K_XL по сути ничего не дают, несколько процентов это не существенно, тут нужен DeepSeek R2 чтобы качество принципиально выросло, гнаться за Q8 квантом не имеет практического смысла.
  
  Сейчас в продаже появляются планки 64гб DDR5, это будет 256гб в домашний комп, туда влезает UD-Q2_K_XL, если DeepSeek R2 не вырастет в размерах, то этого хватит, если разжиреет, то да, снова эпики и зеоны будут единственным вариантом.
1. Politura
  29.06.2025 09:01
  #28502986
  Б/у AMD Epyc по-прежнему наше "всё" - если хотим впихнуть взрослый ДикПик в оперативу целиком?
  
  У AMD появилась какая-то новая игрушка: AMD Ryzen AI Max+395, 128Гб общей для ГПУ и ЦПУ памяти, где под ГПУ отводится до 112Гб. Но все это лаптоп, а не десктоп: https://www.amd.com/en/developer/resources/technical-articles/2025/amd-ryzen-ai-max-395--a-leap-forward-in-generative-ai-performanc.html
  
  Если нормально зайдет аудитории, есть ненулевой шанс, что раскрутят и на десктопы с большим объемом памяти.
  1. AcckiyGerman
    29.06.2025 09:01
    #28503436
    Зашла нормально, на ютубе и реддите полно сравнений с M4 Max, rtx 4090 и т.д. По соотношению цена/скорость лучше всего видеокарты с широкой шиной памяти (nvidia xx90), но если нужно более 24 Гб, то или китайские 4090 48g или тогда уже этот AI Max+395 (у обоих решений цена 2к+).
    
    Вот хороший обзор
1. dkeiz
  29.06.2025 09:01
  #28503380
  Исходя из опыта и обсуждений различных конфигураций. Скорость генерации токенов - inference - напрямую зависит от результирующей псп. Влияние ОС на ПСП - вроде меньше 2%(кроме случае нестабильной работы).
  
  >AMD/Radeon? - сделали два шага вперед, можно запустить все что может запустить inference, но в долгую можете столько камней насобирать, что никто не рискуют за свои деньги.
  Б/у-шные Tesla с Ali?
  В зависимости от поколения могут не поддерживать определенные виды вычислений - страдает скорость.
  >Где находится предел выгоды перехода с 3090
  1x3060 12gb - входной порог.
  1x3090 24gb - можно поиграться дома.
  2x3090 ~48gb - можно обзапускаться всякого локального, работает хорошо. Но хочет кушать и охлаждаться.
  3x3090 самое интересное дома. Дальше одна 96gb карточка. Но есть предположение, что это оверкил. Интересно поиграться - не интересно работать - реальная скорость работы слишком низкая. Проще взять подписку у большого провайдера за 20-200$$ в месяц.
  >Б/у AMD Epyc по-прежнему наше "всё"
  Рынок говорит что да. В какой то момент их раскупили и они не стали проседать в цене.
  Но зреют модели с унифицированной памятью, в теории могут быть хорошим сдвигом в сторону LLM, на практике - мало кто рискует за свои деньги. 3090 за 50к в рублях интереснее.
1. molnij
  29.06.2025 09:01
  #28505690
  Буквально на днях проверял работу в лине на облачном gpu и сравнивал с win-домашним. На удивление домашний даже чуть побыстрее был. Разница в районе единиц процентов. С другой стороны на облачном еще может влиять интерференция от других пользователей. Но в любом случае речь не про десятки процентов.
  1. punhin
    29.06.2025 09:01
    #28512594
    Могу предположить, что речь про десятки процентов пошла оттого, что в своё время рендеринг в blender 3d под линуксом оказался быстрее на 30%, чем на том же компьютере, но в винде. Сейчас ситуация даже там выровнялась (винда всё ещё показывает просадку скорости, но разница - от 2 до 6%), но осадочек в народной памяти остался.

evgeniy_kudinov
29.06.2025 09:01
#28501612
Спасибо, полезная статья и подталкивает уже начать собирать своего «домового». Вопрос знатокам: если взять GeForce RTX 5060 Ti 16GB + материнку с PCIe 5.0 + AMD Ryzen 9 9950X3D + 192 ГБ DDR5, будет ли комфортно использовать модели, например, Q4 32b, а также подобные, как в статье? Перебирал разные варианты, и ниже 300 т.р. не выходит c 2мя GPU картами.
1. dkeiz
  29.06.2025 09:01
  #28502478
  Самое эффективное железо которое вы можете купить - б/у 3090, в любом количестве. Только оно все горячее.
  Из интересных альтернатив - железо на унифицированной памяти - mac a3/a4, amd ryzen ai 395. Но - половина софта может не запуститься с коробки. Так что на свой страх.
  1. AcckiyGerman
    29.06.2025 09:01
    #28503462
    да и топовый процессор с X3D и кучей ядер не ускорит особо инференс, упор идёт в скорость ОЗУ (~100 Гб/сек для DDR5 6400). 1 ядро обрабатывает 20гб/сек, можете ради экономии купить что-то на 6-8 ядер, а на сдачу возьмите 3090.
  1. evgeniy_kudinov
    29.06.2025 09:01
    #28508182
    Пока кажется, что две б/у видеокарты GeForce RTX 3090 с 24 ГБ памяти (в сумме 48)— оптимальный выбор для домашнего использования в пределах до 300 тысяч рублей. Однако есть риск, что GPU может быть «уставшей».
1. Shannon Автор
  29.06.2025 09:01
  #28506664
  Бенчмарк Qwen3 32B Q4_K_M на 4060ti 16gb, влезло 48 слоев из 65:
  1. SabMakc
    29.06.2025 09:01
    #28507256
    Qwen3 32B есть и от unsloth - Qwen3-32B-UD-Q2_K_XL.gguf, 12.8GB.
    Вероятно, будет интереснее на 16GB VRAM...
  1. evgeniy_kudinov
    29.06.2025 09:01
    #28508206
    Всё же думаю, vram побольше надо, и пара 3090 вполне подойдут.

Yozh-lyudoyed
29.06.2025 09:01
#28502154
В системный промпт скопирован текст всей книги, context shift включается автоматически, попросим пересказать сюжет:

Сделал это на онлайн-версии, получил сообщение, что загрузилось 85% текста, никакой контекст шифт не включился, я так понял, она просто обрезала текст.

попросить точно процитировать эпиграф из самого начала. В ответе полностью выдуманный текст, ничего общего с оригиналом:

при этом эпиграф процитирован идеально (что ожидаемо)

Урежем книгу до 100к токенов, теперь текст полностью влезает в контекст.

а это как сделать?

В каком месте книги кто-то сказал "Звёзды слишком яркие."? Процитируй весь диалог

А вот тут он вчистую нафантазировал
1. Shannon Автор
  29.06.2025 09:01
  #28502508
  Сделал это на онлайн-версии, получил сообщение, что загрузилось 85% текста, никакой контекст шифт не включился, я так понял, она просто обрезала текст.
  
  context shift это в ik_llama/llama.cpp, это их придумка, которая скорее мешает, чем помогает если про неё не знать, в нативной версии трансформера такого нет.
  
  а это как сделать?
  
  Из txt файла удалять куски текста с конца и смотреть через llama-tokenize результат, когда будет 100к, значит достаточно.

kia00000
29.06.2025 09:01
#28502622
Хороший специалист и плохой русский язык. Теперь стало обычным явлением писать плохо.
1. fleur_de_lys_felix
  29.06.2025 09:01
  #28503342
  просто слишком много инфы. какой-нибудь западный инфоцыган такой же объём на книгу бы растянул
  
  я согласен что читается тяжеловато, но интересно и полезно
1. Ivan_Popov
  29.06.2025 09:01
  #28507556
  Так чай не художественную литературу читаем )

savvadesogle
29.06.2025 09:01
#28502904
Добрый день

Подскажите, а вы не встречали, можно ли с MoE моделькой провернуть следующее:
Есть RAM для одного экземпляра модели, 2x GPU (с объемом VRAM одного GPU достаточном для загрузки слоёв активного эксперта).
В RAM загрузить один экземпляр модели, а в VRAM одного GPU загрузить слои активного эксперта, а в VRAM второй GPU - ещё один экземпляр эксперта активного эксперта.. И отдельными процессами запускать инференс, параллельно через роутинг.

В плане, я видел как в RAM 2х экземпляра грузят модели, и двумя процессами отдельно инференсят используя роутинг. Например, есть 1024 GB RAM и 2 GPU, и параллельно запускают два отдельных Qwen3-235B-A22B + Qwen3-235B-A22B.
Но, если RAM мало, то может есть хаки с тем, чтобы оставить один экзепляр всей модели в RAM.
На ум приходит аналогия с совместным использованием библиотек процессами (одна либа в памяти, и разные процессы ее юзают).
1. Shannon Автор
  29.06.2025 09:01
  #28503268
  На ум приходит аналогия с совместным использованием библиотек процессами (одна либа в памяти, и разные процессы ее юзают).
  
  Есть параметр --parallel N, где N количество параллельных запросы к одной и той же модели. Памяти расходуется столько же, так как на N слотов будет общий размер контекста, но чтобы это нормально работало, должно хватать вычислительных мощностей, чтобы справиться с параллельной работой.
  
  1 запрос, скорость 41 t/s:
  
  4 одновременных запроса, скорость одного слота упала до 28 t/s, но суммарно 112 t/s:
  1. savvadesogle
    29.06.2025 09:01
    #28503292
    Да вот как раз, чтобы скорость не падала и поднимают несколько экземпляров.
    Две модели и каждой выделить узел Numa + свою GPU норм, если достаточно RAM..
    
    А насколько GPU Загружена была при 4х параллельных запросах?
    
    Shannon Автор
    29.06.2025 09:01
    #28507634
    А насколько GPU Загружена была при 4х параллельных запросах?
    
    При 1 запрос: cpu 11%, gpu 95%
    При 4 запросах: cpu 16%, gpu 86%
    
    Это возможно проблема или особенность llama.cpp, сейчас там общий kv-кэш, параллельный вариант пока не реализован: https://github.com/ggml-org/llama.cpp/issues/10860

Nemoumbra
29.06.2025 09:01
#28503076
Как я понимаю, все эти LLM локально запускать на личных ноутбуках вообще никто не сможет ещё N лет.
1. MountainGoat
  29.06.2025 09:01
  #28503236
  Сильно зависит от размера, а размер зависит от требуемых задач. Методы квантизации развиваются, методы сгружения части работы в оперативку тоже улучшаются. Так что никто не знает.
  
  Плюс есть подключаемые по USB ускорители нейронок. Они и сейчас есть, но они маленькие - их создатели не ожидали такого повышения спроса на размер, и раньше стремились к уменьшению энергопотребления. Тоже могут скоро выдать рабочий вариант.
  1. AcckiyGerman
    29.06.2025 09:01
    #28503478
    Ну и всякие Macbook Pro и AMD AI Max+395 имеют быструю озу до 128, и вполне тянут большие сетки.
1. Politura
  29.06.2025 09:01
  #28504170
  Ну вот у меня ноут купленный еще во времена ковида с мобильной 3080 правда с 16Гб видеопамяти, phi-4 reasoning c 14b параметров вся влезает в видеопамять и выдает 30 токенов в секунду, сильно быстрее чем человек может читать:
  
  mistral-small3.2 на 24b параметров занимает 26Гб, влезает на 59% в видеопамять и на 41% в обычную, она выдает 19 токенов в секунду, все также сильно быстрее, чем успеваешь прочитать.
  
  Больше чем на 24 миллиарда параметров запускать не пробовал. Так что все реально даже на старых ноутах их запускать. Правда небольшие модели.
  1. dv0ich
    29.06.2025 09:01
    #28505086
    30 токенов в секунду, сильно быстрее чем человек может читать
    
    Серьёзно?)
    
    Politura
    29.06.2025 09:01
    #28507972
    Ну, может правильнее было написать, сильно быстрее чем я читаю :)

Oeaoo
29.06.2025 09:01
#28503118
Жоска. Я бы, наверное, игрался под жирным (по памяти) маком на М чипе.

kanvas
29.06.2025 09:01
#28503598
умеют ли современные LLM запрос аля "найди в книге фрагмент" превращать вместо долгой работы "нейронов" в типичный Select from ... Where Text like "искомый фрагмент" и исполнить его ? наверное это было бы в тысячи раз экономичнее
1. vvzvlad
  29.06.2025 09:01
  #28503634
  Так это узкий кейс. Кто в здравом уме использует модели как ctrl+f, если это не для тестирования? Тут это тестирование на хранение контекста, а в реальной жизни “искомого фрамента” не будет, а будет вопрос на человеческом языке “а какое пиво пил главный герой с этим, как его, у него еще ник странный был, “убийца” или что-то типа того?"
  1. Deeptown
    29.06.2025 09:01
    #28505820
    не специалист в этой теме, но возникает закономерный вопрос, а ии-модели могут предварительно делать какую то индексацию/нормализацию контекста, выделять ключевые признаки, индексировать только их и держать в памяти, а конкретику кэшировать и возвращаться к ней при необходимости? это вопрос в контексте использования для базы нормативных документов например
    
    NestlyS
    29.06.2025 09:01
    #28506756
    Там чуть ниже автору начального коммента ответили. То, что вы описали, очень похоже на RAG по своей структуре, и его довольно активно внедряют я смотрю
    
    Deeptown
    29.06.2025 09:01
    #28507068
    спасибо! читаю, действительно похоже, не хотелось бы изобретать велосипед
1. n0isy
  29.06.2025 09:01
  #28503934
  Ищите по слову RAG

adante
29.06.2025 09:01
#28503796
А насколько теоретически топовый MBP16 с 128 под это дело годится?

Мне просто под обычные задачи такое совсем не надо, но если есть возможность прилично запускать LLM, то можно подумать над переплатой тыщи в полторы прям за топ.
1. SlavikF
  29.06.2025 09:01
  #28504084
  Сам я не пробовал, но из того что читал - у Маков очень неплохая скорость генерации токенов, но медленная скорость обработки промпта - не хватает скорости процессора. Поэтому для длинных контекстов Мак не очень.

SlavikF
29.06.2025 09:01
#28504076
Спасибо за статью - узнал много нового про параметры запуска в которых трудно было разобраться самому.

Правильно ли я понял, что MLA есть только у DeepSeek и поэтому на больших контекстах DeepSeek работает лучше любых других моделей?
1. Shannon Автор
  29.06.2025 09:01
  #28513074
  Правильно ли я понял, что MLA есть только у DeepSeek
  
  На данный момент да, пока не было замечено других моделей на MLA.
  Есть такой проект TransMLA через который можно мигрировать через пост-обучение с GQA на MLA. По их замерам преобразованная модель лучше себя показывает чем исходная:
  
  и поэтому на больших контекстах DeepSeek работает лучше любых других моделей?
  
  Если сравнивать с моделями на GQA (Group Query Attention), это примерно все открытые модели на момент выхода R1, то да. Если сравнивать с закрытыми моделями, то там по разному, есть явные лидеры, вроде Gemini 2.5 pro, которые обгоняют всех, а есть такие с кем R1 сравнима или лучше их.
  
  Ещё бывают и другие эксперименты с вниманием, вот, например, недавно вышла открытая модель Minimax M1, они используют гибридный Lightning Attention, как раз только что вышла статья разбора архитектуры (https://habr.com/ru/articles/923588/), она ещё дешевле в обучение, ей нужно меньше вычислений чем R1 и у неё контекст 1м, но нет такой эффективной экономии памяти как у MLA.
  
  В общем тут нет какого-то однозначного ответа:

savvadesogle
29.06.2025 09:01
#28504576
А вы не знаете, ik_llama.cpp так же поддерживает xpu (intel), как и llama.cpp? При загрузке слоев вы указываете CUDA0, CUDA1, а для XPU тоже есть аналогичный выбор устройства в ik_llama.cpp?

Antra
29.06.2025 09:01
#28504932
Фантастическая работа проделана! Даже не могу выразить под каким впечатлением нахожусь.

Как такое можно использовать на практике, если сам обычно за ноутом, а GPU подключены к серверу?

В основном интересует Roocode. Наверное, Copilot можно на "удаленную локальную" модель натравить..

Есть ли обертка а-ля OpenAI, позволяющая так гибко управлять выгрузкой на разные GPU и прочим? Даже обычные модели с увеличенным контекстом были бы интересны.
1. SabMakc
  29.06.2025 09:01
  #28505904
  ./llama-server - запускает сервер, есть OpenAI-совместимое API (http://127.0.0.1:8080/v1), можно защитить токеном (задается через --api-key) или через SSH-подключение запросы гонять.
  --host 0.0.0.0 можно дополнительно задать, чтобы был порт доступен извне (по умолчанию - 127.0.0.1).
  
  В целом, практически весь софт умеет OpenAI-совместимое API предоставлять, с которым Roo Code работает.
  1. Antra
    29.06.2025 09:01
    #28505986
    Без GUI (а-ля LM Studio / Ollama) я проживу. Если llama-server позволяет кучу параметров задать (как в статье, кого куда загружать) и обращаться к нему через OpenAI совместимое API - это прекрасно.
    
    Но если этот llama-server надо ручками сопрягать с используемым в статье ik_llama.cpp, это мне, скорее всего, уже сложновато будет.
    
    Поиграюсь. Спасибо!
    
    SabMakc
    29.06.2025 09:01
    #28507234
    llama-server - это один из бинарников в ik_llama.cpp.
    ik_llama.cpp - форк llama.cpp, поэтому имена исполнимых файлов начинаются так.

Akr0n
29.06.2025 09:01
#28505652
За статью респект, очень интересно. Вот только не понял уверенности, что китайцы не использовали для обучения своих моделей разного рода Флибусты и русские (и не только) книги им прекрасно известны, может и не наизусть. У них там с авторским правом как-то "попроще" отношения, есть ощущение, что и модели во многом из-за этого получаются сильные.
1. Vdm_ro
  29.06.2025 09:01
  #28505902
  Так в начале ж есть тест, до загрузки книги в контекст вместо лабиринта там фантазии на тему ночных дозоров....
  1. Akr0n
    29.06.2025 09:01
    #28506674
    Да есть, но я принципе про сам факт, да и где-то очень глубоко модель всё-таки может знать данный текст, что в конечном итоге как-то сказывается. Для чистоты эксперимента, тогда уж надо брать текст, который никогда не светился в интернете. Уж точно не как самая популярная книжка на террентах.

NestlyS
29.06.2025 09:01
#28506768
Отличная статья, но внезапнее всего было упоминание Лабиринта отражений. Не так часто вспоминаю об этой книге, а зря.

jarkevithwlad
29.06.2025 09:01
#28511960
предпологаю есть ещё вариант, есть raid ssd через pci вроде как до 24шт на одной плате видел, говорят скорости близкие к ram
1. SabMakc
  29.06.2025 09:01
  #28512316
  PCIe 5.0 x16 обеспечивает теоретическую пропускную способность в 64 ГБ/с, что в лучшем случае соответствует скорости двухканальной памяти.
  Для больших моделей этого слишком мало.
  Да и стоимость такого решения вызывает сомнения - подозреваю, что проще взять б/у сервер на AMD EPYC.
  1. jarkevithwlad
    29.06.2025 09:01
    #28513246
    а если 2 таких и будет уже лучше скорость, при этом объём можно любой будет использовать
    
    SabMakc
    29.06.2025 09:01
    #28513348
    Ага. Только 32 линии PCIe не у каждого процессора есть (актуальные потребительские процессоры по 24 линии имеют).
    Так что старый AMD EPYC, с его 8 каналами DDR4 все равно впереди. А у современных AMD EPYC 12 каналов DDR5, что еще примерно в 2-3 раза быстрее получается.
    
    А уж если добавить двухпроцессорные материнки, где по 8/12 каналов паяти на каждый процессор...
    
    Ну а объем... Сколько там его надо? Самая большая модель сейчас - Deepseek-R1 весит 700GB с чем-то (неквантованная), что с лихвой перекрывается подобными монстрами.
    
    Хотя llama 4 Behemoth может выйдет - она да, весить побольше будет ) Но там скорость работы на CPU уже совсем печальной будет, не смотря на все 24 канала памяти...

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к) +128

Как запускать

На чём запускать

Что запускать? Какой квант?

DeepSeek-R1-0528-IQ1_S_R4 и DeepSeek-V3-0324-IQ1_S_R4

Замеры скорости памяти

Как запускать R1 671B на одной GPU и за счёт чего ускорение

--override-tensor или -ot

Запускаем DeepSeek R1 671B IQ1_S_R4

Бенчмарк скорости DeepSeek R1

Как вместить огромный контекст в одну GPU?

MLA и Внимание

Сколько нужно памяти под контекст используя MLA

Загружаем модель и проводим тесты

160к контекста на одной 4090

Бонус. Огромный контекст на LLama 4 и Gemma3

Llama 4 Maverick

Llama 4 Scout

Gemma3

Если не хочется возиться с консолью

oobabooga / text-generation-webui

OpenAI API, Jan и Cherry Studio

Вывод

Комментарии (58)

Shannon Автор

Shannon Автор

Shannon Автор

Shannon Автор

Shannon Автор

Shannon Автор

Shannon Автор

Shannon Автор