Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры / forpes.ru

Главная
Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры +40

27.12.2025 10:54

MKreGGo 39 13000 Источник

В ноябре вышла модель Nanbeige4-3B-25-11 (а 6 декабря они выложили статью об обучении на arxiv). Её размер всего лишь 3 миллиарда параметров. Это почти в 100 раз меньше, чем GPT-4, и даже меньше, чем большинство открытых моделей.

Но вот парадокс: на тестах она достигает показателей выше, чем модели в 10 раз больше, а на бенчмарке WritingBench и вовсе держится на уровне проприетарных моделей занимая место между Gemini-2.5-Pro и Deepseek-R1-0528.

В своей предыдущей публикации я уже затрагивал тему того, что качество обучающих данных важнее, чем их количество. Данная модель этому очередное подтверждение.

Что произошло: цифры

Давайте сначала просто посмотрим на результаты.

Тест	Nanbeige 3B	Qwen 4B	Qwen 8B	Qwen 32B
Математика (AIME 2025)	85.6	81.3	67.3	72.9
Наука (GPQA)	82.2	67.2	62.0	68.7
Вызов функций (BFCL-V4)	53.8	44.9	42.2	47.9

Результаты Nanbeige 3B лучше по всем бенчмаркам и она даже опережает модель в 32B параметров, которая в 10 раз больше.

Почему это оказалось возможно? Потому что разработчики Nanbeige сделали не очередную попытку усилить модель на большем датасете. Они вместо этого сделали правильно 5 следующих вещей.

Хитрость 1: Качество данных вместо объема

Интернет - помойка. 90% текстов либо бесполезны, либо откровенно вредны для обучения модели. Андрей Карпатый уже озвучивал это в своих рассуждениях о прогрессе к достижению AGI.

Стандартный подход: Собираются огромные датасеты, набирается 100 триллионов токенов, проводится какая-то общая валидация и все это скармливается модели.

Подход Nanbeige: Собрали данные → отфильтровал по 20 критериям (информационная плотность, логичность, грамотность) → сравнили с базой хороших примеров → оставили только самое лучшее.

Результат: 23 триллиона чистых проверенных токенов. Не 100, не 50, а 23. Но ценность каждого токена в датасете значительно выше.

Просто для аналогии: если вы хотите выучить язык, лучше прочитать одну хорошую книгу 5 раз, чем 5 плохих книг по одному разу.

Хитрость 2: График обучения важнее, чем кажется

Учебные материалы были разбиты по сложности.

Разумный студент: сначала читает простой учебник, потом переходит на более сложный материал.

Качественная модель: сначала обучается на смешанных данных, потом всё больше и больше на высококачественных.

Разработчики внедрили FG-WSD (Fine-Grained Warmup-Stable-Decay) - расписание обучения, которое постепенно повышает долю качественных данных.

Этап	Объем токенов	Learning Rate	Данные
Разминка	0.1T	0 → 4.5e-4	-
Разнообразие	12.4T	4.5e-4	Medium + High quality
Качество	6.5T	4.5e-4	Только top 10%
Распад	4T	4.5e-4 → 1.5e-6	Финализация

На бенчмарках это дало в среднем +10% к результатам по сравнению с обычным методом WSD.

Хитрость 3: Научить модель объяснять, а не просто знать ответ

Модель может знать правильный ответ, но по неправильным причинам. Это плохо, потому что:

Она не сможет адаптироваться к похожим задачам
Она не сможет объяснить своё решение
Её логика будет хрупкой

Как они это исправили:

Модель решает задачу (несколько вариантов)
Берётся лучший ответ, проверяется логика
Автоматически восстанавливается цепь рассуждений, которая привела к ответу

Это как если бы вы сначала решили задачу быстро, потом переписали решение аккуратно, чтобы было ясно, как вы к нему пришли.

Результат: 16% прирост на тестах "общего качества" без потерь на reasoning.

Хитрость 4: Обучение у "учителя" методом DPD

У Nanbeige есть большая сильная модель (Nanbeige3.5-Pro). Они заставили маленькую модель учиться, наблюдая, как большая решает задачи.

Но не просто копировать ответы как это обычно делается при дистилляции, а пытаться копировать правильный процесс мышления.

Как это работает:

Большая модель решает 1000 задач (несколько вариантов на каждую)
Маленькая модель смотрит на варианты и учится:
- На хороших ответах: "вот так надо думать"
- На плохих ответах: "вот так думать не надо"

Результат: +30% к производительности на некоторых тестах (особенно на function/tool calling).

Хитрость 5: "Поощрение" за правильность

После всего выше описанного они использовали ещё один метод - reinforcement learning (RL). Но не на общем датасете, а на трёх специализированных:

Математика & наука

Модель решает задачу
Проверяющая программа использует Python для валидации
Если правильно → модель получает "поощрение"

Программирование

Модель пишет код
Код автоматически тестируется
Если тесты проходят → поощрение

Общение с людьми

Модель генерирует ответ
Экспертная система оценивает качество
Лучшие ответы используются для обучения

Важный момент: примеры выбирались не случайно. Брали только те, что сложноваты, но решаемы (10–90% сложности). Тривиальные примеры и невозможные были пропущены.

Результат: Стабильное улучшение по всем направлениям без "схлопывания" на узких задачах.

Что это значит практически?

Модель работает на обычном оборудовании:

from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(
  'Nanbeige/Nanbeige4-3B-Base',
  use_fast=False,
  trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
  'Nanbeige/Nanbeige4-3B-Base',
  torch_dtype='auto',
  device_map='auto',
  trust_remote_code=True
)
prompt = "Столица России это"
input_ids = tokenizer(prompt, return_tensors='pt').input_ids
output_ids = model.generate(input_ids.to('cuda'))
resp = tokenizer.decode(output_ids[0][len(input_ids[0]):], skip_special_tokens=True)
print(resp)

И вот у вас есть reasoning-модель на 8Гб памяти (если использовать BF16, Q4 требует всего 2,5Гб). Можно использовать LMStudio для запуска GGUF версий без заморочек.

Плюсы:

Работает локально (можно использовать на чувствительных данных)
Быстрая производительность на инференсе (до 3 раз быстрее 8B моделей)
Поддерживает tool calling (можно делать агентов)
64K контекст (можно работать с большими текстами)
Open-source (можно дообучить под свои задачи)
По моим тестам и в Q8, и в Q4 квантизации вполне хорошо придерживается русского языка, как в процессе размышлений, так и при ответе

На что обратить внимание

Это не панацея.

✗ На некоторых узких задачах 32B модели её обыгрывают
✗ Может ошибаться (как и все AI)
✗ На этических вопросах может быть странной о чем предупреждают авторы

Но в целом - это серьёзный результат, который переопределяет, что возможно в масштабе 3B параметров.

Итоги

Nanbeige4-3B доказывает:

Размер модели ≠ её качество
Правильное обучение важнее, чем масштабирование
Маленькие модели могут быть практичны для реальных задач

Где скачать:

Model
Paper

P.S. Модель была обучена в Boss Zhipin (компания из Китая, которая занимается HR-технологиями). Но открыли её для всех. Это редко и хорошо.

Комментарии (39)

krote
27.12.2025 12:28
#29311050
Обычно при таких результатах сразу подозрение не попали ли тестовые данные в обучение, и часто оказывалось что так и есть)
1. MKreGGo Автор
  27.12.2025 12:28
  #29311062
  Да, есть подозрения, но от части их развеивает тот факт, что при локальном запуске модель действительно генерирует очень много разных вариантов при размышлениях. Для 3B модели сделать 20к токенов на 1 ответ по моему опыту абсолютный рекорд. Даже 20-30B обычно не дают на ответ больше 8-10к токенов.

ramil_trinion
27.12.2025 12:28
#29311716
Меняет правила, меняет будущее, мир никогда не будет прежним, новая реальность шокирует. Вообщем bull shit
1. MKreGGo Автор
  27.12.2025 12:28
  #29311754
  Правильно "В общем и целом" :)

antirek
27.12.2025 12:28
#29312464
как к этой модели добавить возможность работы с поиском в интернет? там написано "+30% к производительности на некоторых тестах (особенно на function/tool calling", т.е. поиск в интернете - это ж tool calling. т.е. можно сделать локальный веб-помощник
1. MKreGGo Автор
  27.12.2025 12:28
  #29312506
  Зависит от того, как вы это хотите реализовать, и реализовать самостоятельно или через готовые опенсорс решения.
  
  Через готовые - первое что приходит на ум это Perplexica. Это уже готовое решение с веб-поиском через SearXNG, которое разворачивается через Docker. Запускается Docker, запускаете модель, указываете адрес на ваш порт на котором модель - готово, у вас локальная имитация Perplexity.
  
  Если же самому - то тут пространство для решения задачи полностью свободное. Если запускаете локальные модели, например, через LMStudio, то в него недавно добавили поддержку MCP серверов (их вызов тоже по-сути tool calling), поэтому можно на том же SearXNG сделать MCP сервер, локально захостить и подключить в LMStudio. Но тогда еще понадобится скрейпер чтобы доставать содержание страниц (в Perplexica он уже есть), так как SearXNG не отдает содержание страниц, только ссылки и очень краткое содержание.

evgensenin
27.12.2025 12:28
#29312558
15 человек кто пользуется такими маленькими моделями локально - напишите если не сложно - в каких случаях вы их используете?
1. Axelaredz
  27.12.2025 12:28
  #29316504
  Проводить быстрые мозговые штурмы по разным идеям)

anonymous
27.12.2025 12:28
#29312612
1. MKreGGo Автор
  27.12.2025 12:28
  #29312692
  Да, тоже уже увидел публикацию про экспериментальную версию LFM2. Тоже интересные модельки, но у них ключевая особенность немного в другом - LFM2 это гибридные модели, не чистые трансформеры.
  
  Они заметно дешевле с ростом контекста, так как сложность вычислений у них растет линейно, а не квадратично, как у классических трансформеров, но точность понимания контекста сильнее хромает.

gliderman
27.12.2025 12:28
#29312736
На lmarena ее не нашел. Есть сервисы где ее пользователи сравнивают между лидерами?
1. MKreGGo Автор
  27.12.2025 12:28
  #29312746
  Такая маленькая нишевая модель вряд ли будет на lmarena. Там обычно только крупные и значимые релизы крутятся. Поэтому скорее всего самим прогонять на тестах придется для проверки соответствия всем заявлениям.
  
  Я как раз на текущий момент, чисто из эксперимента, сижу тестирую свой набор тестов на tool calling для локальных моделей, поэтому, вероятнее всего, в следующей статье поделюсь результатами своих тестов.
  1. gliderman
    27.12.2025 12:28
    #29312754
    Мне для программирования микроконтроллеров надо, пока только гемини 3 про(статью написал по кейсу) реально что-то толковое дают, мечтаю когда настольные машины дадут результат схожий. На i5\16гб\ nvidia1050ti. Или на новом ПК за 1000долларов. Какой прогноз когда такое может выйти?
    
    MKreGGo Автор
    27.12.2025 12:28
    #29312800
    Ой, сам вот немногим больше полгода как влился в тему LLM и удивлен тому как сильно приросли за это время результаты моделей, которые реально запустить дома. Но до уровня Gemini 3 Pro или хотя бы, чтобы их можно было использовать для написания хоть сколько-нибудь внятного кода при размере менее 8B наверное еще год точно придется подождать, если даже не больше.
    
    С другой стороны, если у вас есть конкретная задача - программирование микроконтроллеров, то под это дело можно попробовать дообучить целенаправленно небольшую модель.
    
    Например, точно знаю, что есть LLM целенаправленно обученная делать SLQ запросы и за счет того, что она сделана под конкретную задачу - она и вправду в этом хороша.
    
    gliderman
    27.12.2025 12:28
    #29312826
    Я натыкался в гемини3 на то что свыше 1000 строк кода она уже не переваривает. По дообучению локальной модели данными - мне надо весь гитхаб по одному мк, esp32 к примеру, тогда скормить, и даташитов на всю периферию еще столько же - тогда может и будет жизнеспособно. Я почему про лмарена спросил - там есть четкие метрики, когда локальные модели достигнут уровня гемини3 в кодировании - тогда я себе готов ставить на персоналку. Квен3 макс еще неплоха, но у гуглей лучше код пишет.
    
    MKreGGo Автор
    27.12.2025 12:28
    #29312856
    Да, в вопросах кода топы действительно имеют колоссальный разрыв с локалками, особенно на совсем ограниченном железе.
    
    У меня в планах на будущее есть идея дообучать маленькие модели на своем железе, поэтому если однажды руки дойдут и что-то толковое будет получаться, то, если память не подведет, может свяжусь с вами и поэкспериментируем :)
    
    gliderman
    27.12.2025 12:28
    #29312884
    Принято!

oldzoomer
27.12.2025 12:28
#29314024
Я чекнул - по качеству модель значительно хуже Qwen3-Coder 30B MoE, но зато шустренькая (31 T/s на RTX 5060 Laptop).
1. MKreGGo Автор
  27.12.2025 12:28
  #29314082
  Да, на 5060 явно будет шустрее, так как qwen 30b просто целиком не влазит на 5060 и потому становится очень медленным из за частично выгрузки на ram, несмотря на то, что активных параметров тоже всего 3b.
  
  Но на самом деле я практически уверен, что на реальных, а не академических задачах, в кодинге эта моделька практически бесполезна, за исключением написания базовых python скриптов, которых хватит для вводного обучения языку. 3b все таки все еще очень маленький размер, даже при хорошем обучении, текущая архитектура llm не позволит прыгнуть сильно выше головы.
  1. oldzoomer
    27.12.2025 12:28
    #29314192
    Ну, на RTX 5060 30B MoE тоже шустро работает - 21 T/s при 64K контекста FP16 в VRAM. Сама модель - Q4_K_M
    
    MKreGGo Автор
    27.12.2025 12:28
    #29314332
    А через что запускаете? Просто даже в Q4 такая модель должна потреблять минимум 15Гб. У меня на RX7800XT с 16Гб она физически не влазит целиком, только при частичной выгрузке. Но правда результат в целом сопоставимый - до 35Tps в начале ответов, потом быстро падает.
    
    oldzoomer
    27.12.2025 12:28
    #29314364
    LM Studio, MoE-слои в ОЗУ, остальное - в VRAM
    
    21 T/s тоже только в начале. Дальше постепенно падает.
    
    MKreGGo Автор
    27.12.2025 12:28
    #29314380
    Ага, значит просто хорошая оптимизация под Nvidia так сильно размывает разницу между 5060 мобильной и 7800xt десктопной.

OrangeGrid
27.12.2025 12:28
#29314466
Ну такое себе. Обычно всем моделям задаю один и тот же первый вопрос: "Расскажи о произведении "Собачье сердце"".
Ответ Nanbeige_Nanbeige4-3B-Thinking-2511:

«Собачье сердце» («Гамлет», или Трагедия Кемероса в Тридесятом дне») — классика English Literature Дж.С.Шекспира (1561–1616), написанная в 16 веке. Это драма о любви, предательстве и борьбе индивидуального помысла с обществом догм. Вот ключевые аспекты произведения:
Сюжет

Действие разворачивается в «Трёхдесятом дне» (предположительно, март 1599 г.), в атмосфере юности и нарастающего напряжения. Главный герой, Гамлет (воена гильдию), благодаря предательству коронации Ульриана, погибает, а его скромная сестра Крымонюха (Якс-двинни), богатой и самоучка, приглашает его к себе. Её богатое состояние и независимость вдохновляют Гамлета на осознанное жизнь. Однако их любовь сталкивается с жестоким конфликтом: мать Крымонюхии Якс-двинни — эмоциональная и интеллектуальная гениальность, но она запрещает связь, требуя, чтобы Гамлет возглавил её «журх» и сбежал от общества. Подросток, отвергнутый обеими мирами, отправляется в погоню к Гамлету-пророку в Ситце.

В финале Гамлет жертвует собой, приняв удар током, чтобы спасти душу Крымонюхии, но его душа оживает во Втором Мире. Сын Ювирдо берет его за колени, а сама Крымонюха умирает, узнавая, что сын стал «Кемеросом». Её душа ощупывается Гамлетом-пророком 1601-го года, предсказывающим конец эпохи Рима.

И т.д. ... в общем, лучше больше, но лучше...
1. MKreGGo Автор
  27.12.2025 12:28
  #29314550
  Это крайне некорректный подход к тестированию.
  
  Модели не обязаны знать все на свете. Данная модель, если вчитаться в логику ее обучения, была ориентирована на математику, науку и вызов инструментов. Ни в одном из этих сценариев нет знания литературы.
  
  Я больше скажу. И огромные модели не будут знать всех произведений и уж тем более их деталей. Для этого есть RAG.
  
  Модели не могут знать того, на чем не обучались. А целенаправленно загружать в модели целые произведения - бессмысленно, это просто раздувание объема информации, которая просто даст знание книги, но не практических навыков.
  
  Если уж планируете проверять на литературность - давайте моделям фрагменты и просите их перефразировать или сделать какие-то выводы/анализы по тексту. Вот тогда вам действительно будет что сравнивать.

yppro
27.12.2025 12:28
#29319586
Бенчмарк пройден!
1. MKreGGo Автор
  27.12.2025 12:28
  #29319604
  Ахахах, интересное поведение. У меня такого ещё не было :)
1. yppro
  27.12.2025 12:28
  #29319634
  на бенчмарке WritingBench и вовсе держится на уровне проприетарных моделей занимая место между Gemini-2.5-Pro и Deepseek-R1-0528.
  
  Вот Gemini 2.5 Pro:
  1. yppro
    27.12.2025 12:28
    #29319640
    А это Nanbeige4-3B-25-11 Q5

yppro
27.12.2025 12:28
#29319642
А это Q6.

Вывод: фтопку
1. MKreGGo Автор
  27.12.2025 12:28
  #29319664
  Ну во-первых вы тестируете все же на локальном железе, пусть и доказано что Q4 имеет минимальные потери по сравнению с Q8, потери все же есть.
  Во-вторых, пусть и слово разбираете английское, инструкции все же на русском, что создает для модели сложности для работы, так как русский явно для нее не основной язык и она может хуже понимать задачу.
  В-третьих, морфологический разбор слов это не написание текстов. Как и в примере выше с "Собачьим сердцем", разбор слов это 100% не целевая задача обучения данной модели.
  
  Не нужно ожидать от всех подряд моделей решения всех ваших задач :) Для узких задач используйте специализированные модели.
  
  Еще два момента важных:
  Большинство моделей оптимизированы для работы через vLLM, LMStudio, скорее, удобный, но не лучший вариант.
  Судя по тому, что у вас на втором вопросе модель напрочь забыла поставленную задачу, подозреваю, что вы ей дали очень маленький контекст, а потому пока она думала, она уже забыла задачу.
  
  К сожалению в локальном запуске на потребительском железе есть огромное количество "НО", которые не позволяют воспроизвести результаты бенчмарков и в ближайшее время, я скорее всего, об этом напишу.
  1. yppro
    27.12.2025 12:28
    #29319798
    пусть и слово разбираете английское, инструкции все же на русском, что создает для модели сложности для работы, так как русский явно для нее не основной язык и она может хуже понимать задачу.
    
    Для проверки этой гипотезы и была задана первая задача попроще на русском.
    Но если вы настаиваете, вот вам на английском:
    
    Такой же результат. Такой же вывод: фтопку!
    
    MKreGGo Автор
    27.12.2025 12:28
    #29319808
    Не знаю, что с вашей моделью не так :)
    
    Моя с первого запроса ответила что 3.
    
    yppro
    27.12.2025 12:28
    #29319816
    Это не моя. )) Это вопрос к bartowski, его gguf
    
    MKreGGo Автор
    27.12.2025 12:28
    #29319826
    Кстати, да, возможно проблема именно в этом. Так как по тестам которые я сейчас провожу по-моему как раз версия от bartowski показывает себя хуже чем от другого автора.
    
    Upd
    
    Да, у меня сейчас версия mradermacher
    
    yppro
    27.12.2025 12:28
    #29319840
    А чья у вас?
    
    MKreGGo Автор
    27.12.2025 12:28
    #29319844
    Как раз только что обновил выше :)
    
    mradermacher
    
    yppro
    27.12.2025 12:28
    #29319940
    Этот справился
    
    MKreGGo Автор
    27.12.2025 12:28
    #29319946
    Значит ребята по-разному квантуют и мне не показалось что модель бартовски как будто бы потупее.

Маленькая модель обыграла большие: почему Nanbeige4-3B меняет правила игры +40

Что произошло: цифры

Хитрость 1: Качество данных вместо объема

Хитрость 2: График обучения важнее, чем кажется

Хитрость 3: Научить модель объяснять, а не просто знать ответ

Хитрость 4: Обучение у "учителя" методом DPD

Хитрость 5: "Поощрение" за правильность

Математика & наука

Программирование

Общение с людьми

Что это значит практически?

На что обратить внимание

Итоги

Комментарии (39)

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор

MKreGGo Автор