MiniMax-M1: Разбираем архитектуру, ломающую законы масштабирования (и наш VRAM) / forpes.ru

Главная
MiniMax-M1: Разбираем архитектуру, ломающую законы масштабирования (и наш VRAM)

MiniMax-M1: Разбираем архитектуру, ломающую законы масштабирования (и наш VRAM) +4

01.07.2025 07:20

xonika9 1 832 Источник

В последние годы мы наблюдаем настоящую гонку вооружений в мире LLM. Главный девиз — «Больше, выше, сильнее!». Больше параметров, больше данных, больше вычислительных мощностей. Но эта гонка упирается в фундаментальную стену, известную каждому, кто пытался запустить что-то сложнее BERT на своем ноутбуке — тиранию квадратичной сложности. Речь о механизме внимания в архитектуре Transformer, где вычислительные затраты и требования к памяти растут как O(n²), где n — длина последовательности.

Каждый новый токен в контексте делает следующий шаг всё более дорогим. Это ограничивает не только максимальный размер контекстного окна, но и, что более критично, длину «мыслительного процесса» модели — её способность генерировать длинные, последовательные цепочки рассуждений (Chain-of-Thought).

И вот, изучая свежие публикации, я наткнулся на работу, которая предлагает не просто пробить эту стену, а обойти её с помощью архитектурной элегантности. Речь о модели MiniMax-M1. Судя по представленным данным, это первая open-weight модель такого масштаба, которая бросает вызов статус-кво. Заявленные характеристики впечатляют: нативная поддержка 1 миллиона токенов на входе, способность генерировать цепочки рассуждений длиной до 80 000 токенов на выходе, и всё это при потреблении всего 25% FLOPs по сравнению с аналогами вроде DeepSeek R1 на задачах с длинной генерацией.

Но самое интригующее — это экономика. Обучение M1 обошлось примерно в $534,700, в то время как затраты на сопоставимую по амбициям DeepSeek-R1 оцениваются в $5-6 миллионов (хотя по некоторым данным было потрачено $1.3 миллиарда). Это разница на порядок.

Как им это удалось? Какие инженерные прорывы и, что не менее важно, компромиссы стоят за этими цифрами? Я погрузился в их технический отчёт, проанализировал обсуждения в сообществе и готов представить вам детальный разбор этой машины, чтобы понять, является ли она предвестником новой эры в дизайне LLM или просто интересным, но нишевым экспериментом.

Архитектурный фундамент – "Молниеносное Внимание" и Гибридный MoE

В основе любой LLM лежит её архитектура. И если большинство современных гигантов — это, по сути, масштабированные версии классического Transformer, то создатели MiniMax-M1 пошли другим путем. Их решение — это гибрид, сочетающий в себе три ключевые идеи: Mixture-of-Experts (MoE), стандартное Softmax Attention и, что самое интересное, линейное внимание в реализации Lightning Attention.

Проблема стандартного внимания. Представьте себе совещание, где каждый участник (токен) должен выслушать каждого другого участника, чтобы понять общую картину. Если участников 10, это 100 «разговоров». Если 1000 — уже миллион. Это и есть квадратичная сложность. Она великолепно улавливает глобальные зависимости в тексте, но становится неподъёмной на длинных последовательностях.

Линейное внимание как альтернатива. Линейное внимание, и в частности его I/O-оптимизированная реализация Lightning Attention, работает по другому принципу. Вместо «каждый с каждым» оно использует более эффективные механизмы, позволяющие снизить сложность до линейной — O(n). Это похоже на переход от широковещательной радиосвязи к структурированной IP-сети, где сообщения маршрутизируются, а не рассылаются всем подряд. Цена такой эффективности — потенциально менее точное улавливание сложных, дальних зависимостей в данных по сравнению с softmax-вниманием.

Гибридный подход MiniMax-M1. И вот здесь кроется ключевое инженерное решение. Вместо того чтобы полностью отказываться от проверенного временем softmax-внимания, они создали гибридную структуру. Судя по описанию, архитектура выглядит так: на каждые семь блоков Transnormer с Lightning Attention приходится один блок классического Transformer с Softmax Attention.

Мне это видится как очень прагматичный компромисс. Модель получает колоссальный выигрыш в эффективности на большинстве слоев, но периодически «прочищает» и глобализует информацию с помощью полноценного механизма внимания. Это как если бы у вас был сверхсветовой двигатель для перемещения между звездными системами (Lightning Attention), но для точных маневров на орбите вы бы включали проверенные и точные маневровые двигатели (Softmax Attention).

Добавьте к этому архитектуру Mixture-of-Experts (MoE), где из 456 миллиардов общих параметров в каждый момент времени активны только 45.9 миллиарда, и мы получаем монстра, который с одной стороны огромен, а с другой — удивительно эффективен в вычислениях. Именно эта архитектура позволяет модели не задыхаться при генерации десятков тысяч токенов и обрабатывать гигантские входные контексты. График зависимости FLOPs от длины генерации говорит сам за себя: там, где DeepSeek R1 начинает тратить астрономические ресурсы, M1 движется по гораздо более пологой кривой.

Pasted image 20250630113914.png — Слева: Сравнение производительности ведущих коммерческих и открытых моделей по математике соревновательного уровня, кодированию, разработке программного обеспечения, использованию инструментов агентами и задачам понимания длинного контекста. Здесь мы используем модель MiniMax-M1-80k для MiniMax-M1. Справа: Теоретическое масштабирование FLOPs для инференса в зависимости от длины генерации (количество токенов).

Дрессировка зверя – Новый взгляд на RL с помощью CISPO

Иметь эффективную архитектуру — это полдела. Чтобы модель научилась «думать», то есть решать сложные задачи, её нужно правильно обучить. Сегодня золотым стандартом для этого является обучение с подкреплением (RL).

Стандартные алгоритмы, такие как PPO (Proximal Policy Optimization) и его производные (например, GRPO), имеют одну особенность, которая, как выяснили исследователи MiniMax, стала для них камнем преткновения. Эти алгоритмы используют механизм отсечения (clipping), чтобы стабилизировать обучение. Проблема в том, что на начальных этапах обучения модель начинает открывать для себя новые, полезные паттерны рассуждений, часто выраженные в «рефлексивных» токенах («Так, подумаем...», «Проверим еще раз», «Однако»). Эти токены редки, и базовая модель присваивает им низкую вероятность.

Когда алгоритм PPO видит такой низковероятный, но полезный токен, отношение вероятностей новой и старой политики (r_t(θ)) для этого токена становится очень большим. Механизм отсечения воспринимает это как выброс и «срезает» градиентный апдейт. В результате, как пишут авторы, модель фактически наказывается за открытие новых, эффективных путей рассуждения.

Решение: CISPO. Команда MiniMax предложила свой алгоритм — CISPO (Clipped Importance-Sampling-weight Policy Optimization). Идея элегантна: вместо отсечения самого градиентного апдейта, CISPO отсекает веса важности (importance sampling weights).

Формула выглядит так:

ˆr_i,t(θ) = clip( r_i,t(θ), 1 - ε_low, 1 + ε_high )

Это означает, что даже если токен был очень неожиданным, его вклад в градиент не обнуляется, а лишь мягко ограничивается. Все токены продолжают вносить свой вклад в обучение. Эффективность такого подхода подтверждается их внутренними тестами: на задаче математического мышления AIME 2024, обучая модель Qwen2.5-32B, CISPO достиг той же производительности, что и продвинутый алгоритм DAPO, но за вдвое меньшее количество шагов обучения.

Pasted image 20250630114049.png — Сравнение GRPO, DAPO и предложенного CISPO на AIME 2024, на основе Qwen2.5-32B-base. CISPO превосходит как GRPO, так и DAPO по производительности при одинаковом количестве шагов обучения и достигает сопоставимой производительности с DAPO, используя 50% шагов обучения.

В инженерных траншеях – Реальные проблемы и их решения

Ни один крупный проект не обходится без трудностей. Что мне особенно импонирует в отчете, так это честное описание проблем, с которыми столкнулась команда.

Проблема №1: Рассинхрон точности вычислений. Во время RL-тренировки команда заметила, что вероятности токенов в режиме обучения (training mode) значительно отличались от вероятностей в режиме инференса (inference mode). Корреляция была на уровне 0.987, хотя должна быть идеальной. Виновником оказались активации с высокой магнитудой в последнем слое модели (LM head). Стандартная точность вычислений (FP16/BF16) не справлялась, что приводило к ошибкам округления. Решение: перевод вычислений в LM head на FP32, что подняло корреляцию до 0.997.

Pasted image 20250630114200.png — Вероятность токенов в коде режима обучения по сравнению с вероятностью токенов в коде режима инференса. Каждая точка на рисунках представляет собой отдельный токен. Коэффициент корреляции Пирсона указан на рисунках. Теоретически, две вероятности должны быть идентичными, и все токены должны точно лежать на диагональной линии. Слева: Корреляция модели M1 до исправления; Справа: Корреляция модели M1 после применения исправления с использованием точности FP32 для выходной головы языковой модели.

Проблема №2: Патологические циклы повторений. Модель иногда впадала в «ступор» — начинала генерировать бессмысленные последовательности повторяющихся токенов, создавая огромные градиенты. Решение: эвристика, основанная на наблюдении, что в таких циклах уверенность модели в каждом токене взлетает. Генерация принудительно останавливается, если 3000 токенов подряд имеют вероятность выше 0.99.

Проблема №3: Непокорный оптимизатор AdamW. Обучение оказалось чрезвычайно чувствительным к гиперпараметрам AdamW. Команда обнаружила, что градиенты в M1 имеют колоссальный динамический диапазон (от 1e-18 до 1e-5), а корреляция между градиентами на соседних итерациях слабая. Это потребовало ювелирной настройки: β₁=0.9, β₂=0.95, eps=1e-15. Стандартные значения приводили к расхождению. Это ценный урок для всех, кто работает с нестандартными архитектурами.

Реальность – Бенчмарки, отзывы и практические ограничения

Итак, у нас есть уникальная архитектура, новый алгоритм обучения и набор инженерных решений. Что же эта машина умеет на практике? Картина получается неоднозначной.

Сильные стороны: специалист по марафонам

Сила M1 раскрывается там, где требуется её главная суперспособность — длинное мышление и работа с огромным контекстом.

Software Engineering (SWE-bench): Результат 56.0% сопоставим с лучшими моделями, что неудивительно, ведь RL-тренировка проходила в песочнице с реальным выполнением кода.
Long Context (OpenAI-MRCR): На задачах по извлечению фактов из 128 тыс. токенов M1-80k показывает 73.4%, опережая OpenAI o3 и Claude 4 Opus.
Agentic Tool Use (TAU-bench): В задачах использования API M1-40k обходит всех, включая Gemini 2.5 Pro, что подчеркивает важность длинных рассуждений для планирования.

Pasted image 20250630114344.png — Точность и длина генерации в зависимости от шагов RL-обучения для MiniMax-M1.

Слабые стороны: не универсальный солдат

Однако, если посмотреть на более общие задачи, картина меняется. M1 — это не универсальный гений, а узкий специалист.

Сравнительная таблица производительности MiniMax-M1. Источник: MiniMax-AI GitHub

Задача	OpenAI o3	Gemini 2.5 Pro	DeepSeek-R1-0528	MiniMax-M1-80k
AIME 2024 (Математика)	91.6	92.0	91.4	86.0
SWE-bench (Кодинг)	69.1	67.2	57.6	56.0
OpenAI-MRCR (128k)	56.5	76.8	51.5	73.4
SimpleQA (Факты)	49.4	54.0	27.8	18.5
HLE (Общие знания)	20.3	21.6	17.7	8.4
MultiChallenge (Ассистент)	56.5	51.8	45.0	44.7

Данные говорят сами за себя:

Фактическая точность (SimpleQA): Всего 18.5% против 54.0% у Gemini 2.5 Pro. Модель не сильна в быстром извлечении простых фактов.
Общие знания (HLE): Результат 8.4% против 21.6% у Gemini 2.5 Pro показывает явные пробелы в эрудиции.
Креативность: Судя по отзывам пользователей, качество креативного письма значительно уступает моделям от OpenAI или Anthropic. Ответы часто описывают как «роботизированные» и лишенные творческой искры.

Практические барьеры: Готовьте ваш VRAM

Эффективность в FLOPs не всегда транслируется в доступность. Судя по обсуждениям, M1 — очень требовательный зверь.

Высокие требования к VRAM: Даже для коротких контекстов модели нужны серьезные объемы видеопамяти, что делает её практически недоступной для запуска на потребительском железе.
Отсутствие GGUF: На данный момент нет поддержки популярного формата GGUF, что сильно усложняет локальное развертывание для энтузиастов и небольших команд.

При этом важно отметить, что модель полностью открыта под лицензией Apache 2.0 и доступна для тестов на Hugging Face Spaces, что является огромным плюсом для исследовательского сообщества.

Экономика и смена парадигмы

Пожалуй, самый важный аспект истории M1 — это не просто архитектура, а экономика и философия, стоящие за ней.

Сравнение затрат на обучение (~$534k у M1 против ~$5-6M у DeepSeek-R1) — это не просто экономия. Это демонстрация того, что умный дизайн может быть на порядок эффективнее грубой силы.

Этот подход идеально ложится в текущий тренд индустрии. Аналитики из Greyhound Research отмечают, что 58% корпоративных заказчиков AI-решений теперь ставят эффективность модели выше её пиковой точности. Компании устали от гигантских, медленных и дорогих моделей. Им нужны рабочие лошадки, которые решают конкретные задачи экономически целесообразно. M1 — яркий представитель именно этой новой волны.

Неидеальное будущее уже здесь

Проанализировав MiniMax-M1, я пришел к выводу, что это не очередной универсальный SOTA-киллер. Это нечто более интересное и, возможно, более важное в долгосрочной перспективе — блестящий, хоть и неидеальный, специалист.

Это архитектура, спроектированная для марафонских дистанций: анализа кода, работы с гигантскими документами и выстраивания длинных, многошаговых рассуждений. В этих нишах она показывает себя превосходно, обходя даже более именитых конкурентов. Но не просите её написать сонет или быстро ответить на тривиальный вопрос — она вас разочарует.

Ключевой вывод для меня: эра бездумного масштабирования «в лоб», возможно, уступает место эре архитектурной изобретательности. Вместо того чтобы строить все более гигантские и прожорливые вычислительные машины на базе классического Transformer, M1 доказывает, что можно достичь выдающихся результатов через умный гибридный дизайн, который сознательно идет на компромиссы.

Именно такие архитектуры, на мой взгляд, станут фундаментом для по-настоящему полезных AI-агентов, способных автоматизировать сложные рабочие процессы, а не просто отвечать на вопросы в чате. MiniMax-M1 показала, что путь за пределы тирании квадратичной сложности существует. И он чертовски интересен.

Мне всегда интересно, как теория пересекается с практикой. Сталкивались ли вы в своей работе с задачами, где такая специализированная модель, как M1, могла бы оказаться полезнее универсального ассистента?

Особенно любопытен опыт тех, кто запускает большие модели локально. Сегодня многие строят риги из видеокарт, чтобы работать с LLM дома или на работе. Если у вас есть такой опыт, поделитесь, как вы решаете проблему VRAM, какие GPU используете? И насколько для вас критично отсутствие готовых квантованных версий, вроде GGUF, для таких моделей, как M1?

И, наконец, куда, по-вашему, движется вся эта история с локальными и open-source моделями? В сторону гигантских универсалов или в сторону набора эффективных, но узкоспециализированных инструментов?

Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт в моем телеграм канале.

Комментарии (1)

Antra
01.07.2025 15:19
#28513760
Спасибо!

Весьма понятно изложено даже для меня, простого пользователя всяких AI, далекого от ML формул.