В 2017 году Vaswani et al. опубликовали «Attention Is All You Need». И за 9 лет индустрия масштабировала одну идею: предсказание следующего токена по вероятности. GPT-5, Claude 4, Gemini 3, DeepSeek V3 — всё это варианты одной и той же архитектуры с разным количеством параметров и инженерными надстройками: Mixture-of-Experts, routing, extended context windows.
Но фундамент не изменился: P(next_token | context) → softmax → argmax. Модель не понимает — она подбирает статистически вероятное продолжение. И вот что говорят не мы, а те, кто строит эти модели:
«It is a well-kept secret in the AI industry: for over a year now, frontier models appear to have reached their ceiling.» («В индустрии ИИ есть секрет, который тщательно скрывают: вот уже больше года передовые модели, похоже, уперлись в свой потолок».)
— HEC Paris, ноябрь 2025
«The era of revolutionary leaps may be giving way to iterative refinements of an architecture near its limits... the industry has reached a local maximum.» («Эпоха революционных скачков, возможно, уступает место итеративным улучшениям архитектуры, которая близка к своим пределам... индустрия достигла локального максимума».)
— Algorithma AI Whitepaper, август 2025
Это не маргинальная позиция. Это консенсус, который индустрия пока боится произнести вслух. Мы произносим.
Три фундаментальных порока трансформера
Квадратичная сложность
Self-attention требует, чтобы каждый токен «посмотрел» на каждый другой токен в контексте. Вычислительная сложность — O(n²) по длине последовательности. Это делает обработку длинных контекстов (книги, кодовые базы, видеопотоки) экономически и технически неподъёмной без костылей вроде sliding window и sparse attention.Провал композициональных рассуждений
Технический анализ показал, что один слой attention доказуемо неспособен надёжно вычислить композицию функций — базовый строительный блок логического мышления. Чтобы ответить на вопрос «Кто бабушка Йенса по материнской линии?», нужно последовательно вычислитьmother(mother(Jens)). Трансформер не может этого сделать надёжно при достаточно большом домене сущностей из-за информационного bottleneck в механизме attention. Практическое следствие - галлюцинации. Модель не может систематически вывести ответ и подбирает статистически правдоподобный, но логически неверный. Это свойство архитектуры.Отсутствие рекурсии и иерархии
Feedforward-природа трансформера означает, что количество вычислительных трансформаций ограничено глубиной модели. Это исключает истинную рекурсивную обработку и моделирование глубоких иерархических структур, которые центральны для человеческого языка и мышления.
Стена масштабирования
Обучение GPT-4 стоило более €100 млн и потребовало в 55 раз больше вычислительных ресурсов, чем GPT-3. При этом прирост на MMLU — с 43.9% до 86.4% — не пропорционален 55-кратному увеличению compute.
После GPT-4 кривая сплющилась. Все frontier-модели инкрементально ползут к ~90% на стандартных бенчмарках. GPT-5 — не новая архитектура, а «unified system» из нескольких моделей с роутером. Llama 4 — MoE-надстройка над тем же трансформером. Mistral специализирует модели вместо масштабирования. Google интегрирует Gemini в продукты вместо погони за бенчмарками.
Все крупные игроки молча признали, что brute-force scaling трансформеров больше не работает. Добавим к этому кризис данных: высококачественный текст в интернете конечен и быстро исчерпывается. Обучение на синтетических данных от других моделей ведёт к деградации качества в цикле обратной связи.
Альтернативы уже здесь
Пока индустрия масштабирует трансформеры, альтернативные архитектуры тихо набирают силу. И результаты есть в рецензируемых журналах.
Reservoir computing как языковая модель
В январе 2026 года Köster и Uchida (Saitama University) опубликовали «Reservoir Computing as a Language Model» — первое систематическое сравнение reservoir computing (RC) с трансформерами на задаче языкового моделирования.
Ключевые результаты:
Attention-Enhanced Reservoir Computer (AERC) достигает test loss 1.73, при том что трансформер — 1.67. Разница минимальна.
RC обрабатывает данные на порядки быстрее: сложность линейна по длине последовательности, а не квадратична.
Авторы представили LAERC — стековую архитектуру, где фиксированные рекуррентные резервуары заменяют self-attention, а обучаемые компоненты обеспечивают адаптивность.
LAERC следует power-law scaling — производительность растёт с числом параметров, аналогично трансформерам, но при меньших вычислительных затратах.
Критическое преимущество: резервуар может быть реализован на физических субстратах — фотонных, нейроморфных, аналоговых. Attention layer трансформера привязан к цифровому GPU.
Bio-inspired computing
В Nature Communications (2024) вышел обзор emerging opportunities для RC, подчёркивающий compact design, быстрое обучение и совместимость с FPGA и нейроморфными чипами. В ноябре 2025 Nature опубликовал работу по brain-inspired adaptive reservoir computing с adaptive control, демонстрирующую преимущества над CNN, LSTM и трансформерами на задачах обработки временных рядов.
Ассоциативная память
Modern Hopfield Networks (Ramsauer et al., 2021) возрождают концепцию content-addressable ассоциативной памяти — хранение и извлечение по содержанию, а не по позиции. В отличие от KV-cache трансформера с его sliding window, ассоциативная память позволяет извлечение по семантической близости без ограничения на размер контекстного окна.
Донор, а не учитель
Стандартная knowledge distillation (KD) в эпоху LLM сместилась от сжатия архитектуры к knowledge elicitation — извлечению знаний в виде reasoning chains, synthetic datasets, structured outputs. Но даже в этой парадигме «ученик» остаётся трансформером меньшего размера. Архитектурная зависимость сохраняется. Ученик наследует все пороки учителя — квадратичную сложность, галлюцинации, отсутствие рекурсии — просто в меньшем масштабе.
Мы предлагаем разорвать эту зависимость.
Большая языковая модель (70B+) — не учитель и не шаблон для сжатия. Она донор знаний. Из неё извлекается что она знает. Полностью отбрасывается как она обрабатывает. Целевая архитектура приёмника - не трансформер.
Аналогия: человек заканчивает университет, получает знания — и потом думает своей головой. Не воспроизводит лекции, не подбирает «наиболее вероятное продолжение» конспекта. А применяет знания через собственную когнитивную архитектуру, ассоциативную, рекурсивную, иерархическую, эмоционально окрашенную. Мы предлагаем сделать то же самое с AI: дать машине «высшее образование» и позволить ей думать иначе. Конкретная архитектура такого приёмника сейчас предмет нашей текущей работы. Публикация деталей будет после завершения этапа прототипирования.
Мы не утверждаем, что решение найдено. Мы утверждаем, что задача поставлена правильно, и что существующие результаты (RC как language model, brain-inspired adaptive computing, modern Hopfield networks, knowledge elicitation) дают основания считать её решаемой.
Вопросы, над которыми мы работаем:
Формат знаний: какое представление извлечённых знаний оптимально для загрузки в не-трансформерную архитектуру? Embedding vectors, knowledge graphs, или гибридные схемы?
Замена attention: какая вычислительная парадигма обеспечивает уровень качества, сопоставимый с self-attention, при линейной сложности и без привязки к GPU? Результаты LAERC [3] показывают, что reservoir computing — серьёзный кандидат.
Output synthesis: как обеспечить генерацию естественного языка из семантического представления без вероятностного подбора токенов?
Substrate independence: может ли когнитивная архитектура быть реализована на нейроморфном или аналоговом hardware? Nature уже говорит — да.
Трансформер не умрёт завтра, как лошадь не умерла в день изобретения автомобиля. GPT, Claude, Gemini будут работать и приносить деньги ещё годы. Но архитектурный сдвиг уже начался.
acc0unt
"Убийц трансформеров" за последние годы было уже очень много. До сих пор перед глазами как живые.
В то, что новая архитектура, которая не даёт над очередной модификацией авторегрессивного трансформера абсолютно никаких практических преимуществ (фотонные компьютеры? серьёзно?), внезапно вырвется вперёд и запинает титанов вроде современного GPT-5.4, веры у меня примерно как в сказочки для детей от 3 до 9 лет.
Ну и видеть очередную итерацию бреда про "это не настоящее понимание" (define "настоящее") и "LLM всё, роста дальше не будет" (производительность с каждым релизом всё ещё растёт) - гнило и тухло. Могли бы уже найти новую пластинку вместо хитов 2023 года.
linabesson Автор
«Убийц трансформеров было много»
Да. И это аргумент в нашу пользу, значит проблема реальна, раз столько людей пытаются её решить. Мы не предлагаем «убить трансформер», мы предлагаем забрать из него знания и запустить их на другой архитектуре. Разница как между «снести здание» и «вывезти из него библиотеку».
«GPT-5.4 запинает титанов, производительность растёт»
Растёт. Вопрос — какой ценой. Orion (предшественник GPT-5) достиг уровня GPT-4 на 20% обучения. Оставшиеся 80% compute дали diminishing returns, настолько, что модель переименовали из GPT-5 в GPT-4.5 (источник: Philippe Dubach, «What Comes After Transformers», март 2026).
Tim Dettmers (декабрь 2025): «The scaling improvements in 2025 were not impressive. We have maybe one, maybe two more years of scaling left because further improvements become physically infeasible.»
Algorithma AI: «brute-force scaling of dense Transformer models is no longer a sustainable or efficient path to progress.» Это не хиты 2023 года, это данные 2025–2026.
«Фотонные компьютеры? Серьёзно?»
Nature Light, июль 2025: optical next-generation reservoir computing — аппаратная реализация с меньшим объёмом данных и reservoir size, превосходящая conventional RC. Nature Communications, 2024: emerging opportunities для RC включая weather forecasting и neuromorphic hardware.
«Define "настоящее понимание"»
С удовольствием. Трансформер предсказывает следующий токен. Это статистическая модель последовательности, не модель мира. Когда GPT-5 «понимает» физику, он воспроизводит паттерны из обучающей выборки. Когда данных нет, то галлюцинирует. Понимание предполагает способность к compositional reasoning на новых данных.
По этому критерию трансформеры систематически проваливаются (Algorithma AI, раздел «Fundamental Flaws», 2025). Можно спорить о терминологии, но нельзя спорить с бенчмарками.
acc0unt
Берём "статистическую модель последовательности", вскрываем её ножиком, засовываем внутрь руку. Что там у неё в кишках? Модель мира.
Не, ну я понимаю что механистическая интерпретируемость в заднице плотно и надолго. Но когда механисты что-то всё-таки находят, их надо слушать. И модели мира внутри трансформеров нашли уже очень и очень давно.
Не говоря уже о генеративных моделях видео на трансформерах. У них с физикой всё на удивление хорошо, можно прям глазками посмотреть. Хотя в основании архитектуры - тот же самый авторегрессивный трансформер с квадратным attention. Просто данные другие. Видео учит пространственному мышлению лучше чем текст, какой блин сюрприз, кто бы мог подумать.
"Фотонные компьютеры" - хайпожорская фигня, потому что масштабируемость у них на современных технологиях абсолютно никакая. Самые мощные фотонные машины современности на задачах ML сливаются вчистую смартфону за $100 и копеечному процессору внутри. Что уж говорить о ML-зубилах вроде Vera Rubin - которые как раз готовятся ставить в серверные стойки сейчас.
Ха ха. Проблема реальна - только она не у трансформеров, а у их "убийц". И проблема в том, что трансформеры - good enough. Мощные, гибкие, эффективные, расширяемые - их можно натравить на практически любую проблему и они её сожрут. Конкурирующие с ними архитектуры просто не дают над ними значительных преимуществ. Ты задолбался с настройкой кастомных блоков и твоя награда - это производительность хуже трансформеров на одних и тех же задачах, нестабильность в обучении, сомнительная масштабируемость, и острая боль в жопе когда приходит очередная бумажка про "как поднять производительность/эффективность трансформера на 5%" и ты не можешь эти 5% в свою хтонь впихнуть. Вот и весь "убийца".
Ценой обучения. Сейчас основной источник роста производительности - это не масштабирование архитектуры. Масштабы архитектуры упёрлись в то, что можно эффективно запускать на современных серверах и продавать клиентам с прибылью. Но учить старые трансформеры новым трюкам - это пожалуйста, это можно.
linabesson Автор
Модели мира внутри трансформеров - ок да, механисты показали, вопрос закрыт. Фотоника тоже да, хайп. Трансформеры good enough нууу может и да, сейчас.
Но good enough — это не научный аргумент. Это экономический. x86 тоже был good enough, на свое время, и он победил не потому что лучший, а потому что дешевле менять софт чем железо. Трансформеры побеждают по той же причине - экосистема, тулинг, инерция, кадры.
Ну и вы же и пишете «масштабы архитектуры упёрлись», рост через обучение. Это потолок. Высокий — но потолок. И вопрос не «работают ли трансформеры сейчас» (работают), а «что делать когда новые трюки кончатся». Это не вопрос на сегодня. Но это вопрос в целом.
acc0unt
Так я буквально на пять сантиметров выше говорю про Vera Rubin. "Потолок" сегодняшних серверных стоек - это явление очень временное.
Ну и удачи найти архитектуру, которая будет давать реальный выигрыш в вычислительной эффективности на широком ряде задач. Сейчас лучшие из лучших - это "мы имеем на широких бенчмарках примерно такие же значения как у трансформеров на примерно том же компьюте", или "мы имеем на узких бенчмарках 20%, а трансформер имеет 80%, но мы в 10000 раз меньше компьюта тратим, это офигенно, только вверх наша штука не масштабируется".
udattsk
Трансформеры — good enough для генерации и анализа, но есть класс задач, где "хорошо" ≠ "достаточно":
- Робот должен остановиться до препятствия
- Медицина: решение нужно доказать, а не «надеяться»
- Промышленность: «иногда сработало» = простой линии
Там нужна не перплексия, а детерминизм.
linabesson Автор
)) вот тебе кейс. Робот-манипулятор на конвейере. Берёт деталь, ставит деталь. 24/7. Требования: latency < 5ms, детерминизм 100%, энергопотребление < 10W.
Ставим трансформер. Что получаем?
Latency. Inference даже маленького трансформера на edge 15–50ms. Уже не прошли. Можно дистиллировать, квантизовать, обрезать. Теперь 8ms. Всё ещё не прошли. А нужно 5. Каждый раз. Не в среднем каждый.
Детерминизм. Трансформер стохастическая модель. Один и тот же вход может дать разный выход в зависимости от floating point порядка операций, температуры, шума. На текстовом чат-боте это незаметно. На конвейере при 200 деталях в минуту — это один покалеченный палец оператора в квартал. Страховая скажет спасибо.
Энергия. Vera Rubin монстр. 600W на чип. На конвейере стоят 40 манипуляторов. 40 × 600W = 24kW только на inference. А рядом стоит контроллер на FPGA который жрёт 2W и делает то же самое — но детерминированно.
Трансформер тут не good enough. Не потому что плохой. А потому что это молоток в ситуации где нужна отвёртка.
Вопрос не «трансформер или не трансформер». Вопрос для чего. Генерация, анализ, reasoning - тут да, трансформер на коне. Hard real-time, детерминизм, edge, milliwatt inference уже другие инструменты. Они существуют не потому что кто-то хочет убить трансформер. А потому что мир не состоит из одних чат-ботов.
acc0unt
Алё, гараж. Мы в 21 веке. Все задачи, которые мог решать тупой как палка микроконтроллер в PLC уже решает тупой как палка микроконтроллер в PLC.
И что остаётся? Задачи, которые требуют мозгов и гибкости. Задачи, которые требуют интеллекта. Задачи, которые сейчас решает мешок с мясом на среднестатистической зарплате.
И вот эти задачи мы сейчас и решаем с помощью ИИ.
acc0unt
Детерменизм - мечта идиота.
Добро пожаловать в реальный мир. В мир, сделанный из броуновского движения. В мир где дерьмо случается. Где промышленными машинами в 20 тонн управляют мешки с мясом, поведение которых предсказуемо хорошо если на уровне "худо-бедно". Плохо если уровень алкоголя в крови начинает сдвигать эту предсказуемость ещё сильнее вниз.
"Детерменизм" он захотел. Ага, щас. Губу раскатал. Думаешь, доктор чего-то там "доказывает"? Он помнит 7 самых частых диагнозов и решает какой из них ставить на вайбах, прочитав перед этим медкарту хорошо если наискосок.
opusmode
Ну, так это, вы ж буквально описали проблему, которую решают предложеные решения и не решает трансформер
При этом мешки, всё же, могут соблюдать какую-то последовательность, а трансформер не особо.
Мешки не совершенны, но в ряде вещей выигрывают у трансформера
Не очень понятно, с чем вы спорите, вам на пальцах описали, что, зачем и почему
acc0unt
Спорю я с абсолютно дурацким убеждением о том, что "детерминизм" вообще возможен при решении сложных задач мерзкого и шумного реального мира. Не все задачи можно урезать до жёсткой стабильной логики. Шум на входе - шум на выходе.
И с тем, что мешки с мясом в этом плане фундаментально лучше современных систем ИИ. Мешки с мясом - это самообученные нейросети на фундаменте биохимического шума. Планку они ставят, но эта планка не такая уж и высокая. LLM современности уже могут уделывать докторов из мяса на многих медицинских задачах.
udattsk
Не шума, а доступной для индивида культуры. Личность растёт, развивается и учится в социуме.
А ничего что эти LLM учили разметчики из африки и индии? Откуда ваши датасеты? ))
FixicusMaximus
у вас шизофрения развивается, советую к мозгоправу
udattsk
Не говорите мне что делать и я не скажу вам куда идти. Специально для этого коммента зарегились? )
FixicusMaximus
Я вообще то не вам, а вот этому товарищу
https://habr.com/ru/articles/1012998/comments/#comment_29700492