Самый старый кирпич трансформера наконец переизобрели. DeepSeek взял матрицу из 1967 года / forpes.ru

Главная
Самый старый кирпич трансформера наконец переизобрели. DeepSeek взял матрицу из 1967 года

Самый старый кирпич трансформера наконец переизобрели. DeepSeek взял матрицу из 1967 года +16

05.06.2026 12:21

niktomimo 2 10000 Источник

За attention-механизм с 2017 года брались сотни раз: sparse attention, linear attention, MoE, MLA, скользящие окна, что только не. А вот residual connection, остаточная связь, та самая x + F(x) из ResNet 2016 года, простояла почти десять лет нетронутой. Её просто унаследовали из résnet'ов, воткнули в трансформер и забыли.

31 декабря 2025-го DeepSeek выложил на arXiv препринт, где взялся именно за этот кирпич. И что показательно, загрузил его на arXiv лично основатель компании Liang Wenfeng, он же в соавторах. Когда основатель сам публикует статью, это обычно значит, что она ляжет в следующую флагманскую модель. Так и вышло: mHC поехал в DeepSeek V4, который выкатили 24 апреля 2026-го.

Разберём, что они сделали, почему это работает и при чём тут матрица из шестидесятых.

Зачем вообще трогать residual

Сначала освежим, что делает остаточная связь, иначе мотивация не считывается.

До residual-связей глубокие сети было тяжело обучать. Сигнал проходит через много слоёв и постепенно затухает, градиент по дороге назад тоже. ResNet починил это одной идеей: вместо того чтобы прогонять вход только через сложное преобразование, оставляем рядом чистый обход. Вход x перепрыгивает слой и складывается с его выходом: x_{l+1} = x_l + F(x_l).

Магия тут в identity mapping. Если слой F ничего полезного не выучил, исходный сигнал всё равно проходит дальше без изменений. К функции, которую мы оптимизируем, добавляется тождественное отображение с постоянным градиентом 1. Это гасит проблему затухающих градиентов: даже когда градиент F уезжает близко к нулю, единица от identity-ветки держит поток. Именно это сделало обучение очень глубоких сетей практичным.

Внутри F за десять лет накрутили всё что можно. А сама остаточная связь так и осталась одним сложением. DeepSeek решил, что там есть что улучшить.

Hyper-Connections: больше выразительности, меньше стабильности

Отправная точка для DeepSeek, это статья Hyper-Connections от ByteDance 2025 года. Идея в обобщении остаточной связи.

Вместо одного остаточного вектора HC расширяет остаточный поток в несколько параллельных компонентов. На входе блока вход дублируется, скажем, четыре раза (expansion rate 4), и дальше эти потоки на каждом слое смешиваются обучаемой матрицей. То есть вместо фиксированного тождественного пути модель сама учится, как информация перемешивается и течёт по расширенному остаточному потоку.

Что приятно, это почти не добавляет вычислений. Перед тем как зайти в дорогой модуль F, расширенное представление проецируется обратно в размерность модели, так что внутри attention и FFN мы не платим за четырёхкратную ширину. Выход F потом снова расширяется другой обучаемой матрицей и складывается с остаточным потоком. На бенчмарках HC обгонял базовую модель, расширять остаточный поток действительно полезно.

Дальше начинается проблема. В обычной residual-связи identity mapping гарантирован самой архитектурой. В HC матрицы смешивания обучаемые и ничем не ограничены. А значит остаточный поток может уехать от тождественного отображения, и величина сигнала начинает либо взрываться, либо схлопываться. И на прямом проходе, и на обратном.

Цифры тут пугающие. На модели в 27 миллиардов параметров неограниченный HC давал усиление сигнала больше чем в 3000 раз. Это не вопрос подбора learning rate, это структурная нестабильность. На графиках обучения HC начинает расходиться примерно с 12000-й итерации, лосс уезжает от базовой линии, нормы градиентов скачут. Чем глубже и больше модель, тем хуже. Ровно поэтому HC в больших обучениях толком не применяли.

mHC: вернуть гарантию, не убив гибкость

Ключевой ход DeepSeek в том, что они не стали выкидывать гибкость HC. Они вернули гарантию identity mapping поверх неё.

Структурно блок mHC почти неотличим от HC. Разница в одном месте: матрица смешивания остаточного потока больше не произвольная. На неё накладывают два ограничения:

Все элементы неотрицательные.
Каждая строка и каждый столбец суммируются в единицу.

Матрицы с такими свойствами называются дважды стохастическими, и живут они на так называемом многограннике Биркгофа (Birkhoff Polytope). Отсюда и «manifold-constrained» в названии: пространство матриц смешивания проецируется на это многообразие.

Интуиция простая и красивая. Сумма по строке равна единице означает, что каждый выходной остаток получает один и тот же суммарный объём входного сигнала. Сумма по столбцу равна единице означает, что каждый входной остаток отдаёт в выходы один и тот же суммарный объём. Что втекло, то и вытекло, ничего не потерялось и не размножилось. В итоге расширенный остаточный поток сохраняет identity-подобное поведение на глобальном уровне, при этом информация по-прежнему свободно перемешивается между путями. Грубо говоря, многополосное шоссе с развязками, но суммарный трафик постоянный, ничего не взрывается и не исчезает.

Теперь как это вообще посчитать. Спроецировать произвольную матрицу на множество дважды стохастических, это классическая задача, и решается она алгоритмом Синкгорна-Кноппа (Sinkhorn-Knopp) аж из 1967 года. Алгоритм до неприличия простой: поочерёдно нормируешь строки, потом столбцы, потом снова строки, и так по кругу. При неотрицательной матрице это итеративно сходится к дважды стохастической. Вот этот шестидесятых годов трюк из теории матриц и оказался недостающим звеном для стабильного обучения триллионных трансформеров в 2026-м.

Отдельная деталь про другие матрицы. Pre- и post-проекции (те, что жмут поток в размерность модели и обратно) тоже не оставили как в HC. На них навесили неотрицательность через sigmoid. Логика в том, что комбинация положительных и отрицательных коэффициентов в этих проекциях может приводить к взаимному сокращению сигналов, signal cancellation, а оно тоже расшатывает обучение на масштабе. Сделали коэффициенты неотрицательными, убрали сокращение.

За эффективность отвечает инфраструктурная часть: n-поточный остаточный дизайн жрёт память на доступах, поэтому DeepSeek докрутил kernel fusion и смешанную точность. Итоговый оверхед обучения 6.7%. За такую стабильность это дёшево.

Что в цифрах

DeepSeek сравнивал три варианта на 27B: базовая модель без HC, обычный HC и mHC. Все на MoE-архитектуре в духе DeepSeek-V3, expansion rate 4.

По стабильности результат чистый. Там, где HC расходится с 12000-й итерации и нормы градиентов скачут, mHC идёт вплотную к базовой линии, лосс гладкий, градиенты ведут себя прилично. Усиление сигнала прижато с тех самых 3000 раз до примерно 1.6 раза. То есть проблема не «смягчена», а структурно закрыта.

По качеству показательна прогрессия на BIG-Bench Hard: базовая модель 43.8, неограниченный HC 48.9, mHC 51.0. Видно две вещи сразу. Расширение остаточного потока само по себе даёт прирост (43.8 → 48.9). И ограничение на многообразие не съедает этот прирост ради стабильности, а ещё и добавляет сверху (48.9 → 51.0). Обычно за стабилизацию платишь качеством, тут наоборот.

Почему это не просто ещё один препринт

mHC уже в проде. DeepSeek V4 вышел 24 апреля 2026-го, две открытые модели под MIT: V4-Pro на 1.6 триллиона параметров и V4-Flash на 284 миллиарда, обе с контекстом в миллион токенов. mHC там заменяет стандартные residual-связи по всей сети.

И вот тут видно, зачем оно было нужно именно DeepSeek. По их же разбору, без mHC обучение модели V4-масштаба либо расходилось бы, либо требовало заметно больше компьюта на стабилизацию. То есть для конторы, которая славится тем, что обучает фронтир дёшево, стабильность при триллионе параметров это не академическая роскошь, а прямая экономика. Январский препринт показывал стабильность на 27B. Главным вопросом было, дотянет ли оно до триллиона. V4 ответил, что дотягивает.

Меня в этой истории цепляет вот что. Мы привыкли, что прогресс в LLM это либо больше параметров, либо больше данных, либо очередной хитрый attention. А тут взяли самый базовый, самый незаметный кирпич, который все считали решённым ещё в 2016-м, и оказалось, что в нём пряталась нетривиальная математика и заметный прирост. Причём чинили его не модной свежей техникой, а алгоритмом нормировки матриц, которому почти шестьдесят лет. Иногда фронтир это не новый слой, а внимательный взгляд на старый.

Если хотите копать сами: arXiv 2512.24880, mHC: Manifold-Constrained Hyper-Connections. Там же ссылки на исходный HC от ByteDance (2409.19606) и, для контекста, на ResNet (1512.03385) и оригинальную статью Синкгорна-Кноппа 1967 года.

Комментарии (2)

vadimr
05.06.2026 12:35
#30069890
Там важная ссылка на [Zhang and Sennrich, 2019]. Примерно благодаря таким вот оптимизациям академик Чжан стал директором Института исследований искусственного интеллекта Университета Цинхуа.

Amareis
05.06.2026 12:35
#30073534
Все же AttnRes от кими выглядит как-то поэлегантней, да и результаты заяляются посильнее.