Мир после трансформеров: закат и новый рассвет больших языковых моделей / forpes.ru

Главная
Мир после трансформеров: закат и новый рассвет больших языковых моделей

Мир после трансформеров: закат и новый рассвет больших языковых моделей +3

29.10.2025 08:00

AI-SHA 0 220 Источник

Даже если вы избегали ChatGPT и его многочисленных аналогов, то наверняка сталкивались с обработкой текстов ИИ хотя бы в поисковой выдаче. Большие языковые модели (LLM) сейчас применяют повсюду. Проблема в том, что все они построены на одной и той же архитектуре трансформеров, поэтому страдают от общих недостатков. В этой статье эксперты из лаборатории искусственного интеллекта компании «Криптонит» расскажут о существующих ограничениях LLM, наметившихся путях их преодоления и о том, какими будут следующие большие языковые модели.

Эпоха трансформеров началась стремительно, и Marvel здесь ни при чём. Исследование OpenAI «Scaling Laws for Neural Language Models» показало, что эта архитектура с механизмом самовнимания легко масштабируется. Производительность LLM предсказуемо растёт с увеличением размера модели, объёма датасетов и доступных вычислительных ресурсов, а это — залог коммерческого успеха. Поэтому в 2020-2021 начался бум развития LLM. Каждая крупная ИТ-компания хотела представить свою модель с миллиардами параметров (и получить миллиарды долларов от инвесторов).

Однако в последующей работе «Training Compute-Optimal Large Language Models» от DeepMind появилось важное уточнение: существующие модели слабо оптимизированы по отношению данных к параметрам. Поэтому при дальнейшей разработке моделей стали фокусироваться в том числе и на качестве данных, а не только на размере.

Поначалу простое масштабирование и увеличение доли качественных датасетов в обучающих наборах действительно приводили к экспоненциальному росту возможностей LLM. Наверняка вы помните, как с каждым релизом ChatGPT умнел ~~(а мы глупели)~~.

По оценкам исследовательского института Epoch AI, за пять лет стоимость обучения самых мощных LLM выросла в 2,8 – 4,4 раза. Абсолютные значения ещё более впечатляющие. Согласно данным Стэнфордского исследования Artificial Intelligence Index Report, стоимость обучения модели GPT-4 оценивается в $78,4 млн, модель Gemini Ultra от Google обошлась в $191 млн, а Grok 4 — около $480 млн.

При этом многократно возросшие инвестиции больше не дают заметного прироста качества. Подтверждением этому стали релизы GPT-4.5 (Orion) и GPT-5, которые многих разочаровали. Reddit, X (Twitter) оказались переполнены жалобами пользователей на новые модели и просьбами вернуть старые (GPT-4o) как более надёжные.

«Сейчас настал неизбежный этап развития больших языковых моделей: на фоне растущих затрат на их обучение и развёртывание наблюдается уже не столь заметный прогресс, или даже регресс по отдельным показателям. Основные причины сложившейся ситуации кроются в архитектурных ограничениях. Для ряда из них предложены обходные пути, но в целом это паллиатив, а будущее — за новыми подходами», — пояснил зам. руководителя лаборатории ИИ компании «Криптонит» Георгий Поляков.

Существующие барьеры

Основной архитектурный барьер трансформеров — отсутствие механизма долговременной памяти. Когда завершается обучение модели, её веса становятся неизменными. Модель не может записать новый факт из диалога с пользователем в свои параметры. Её контекстное окно лишь играет роль временного буфера. Оно не заменяет собой механизм накопления и последующего использования новых данных. Всё, что попадает в него, исчезает после завершения сессии. Это называется (stateless inference), или логический вывод без изменения состояния.

Наверняка вы сталкивались с тем, что LLM словно живут в прошлом. Скажем, если их последнее обновление было в 2024 году, а вы спрашиваете про научные статьи за 2025 год не включив опцию «поиск в интернете», то модель выдаст ответ, вроде «вы спрашиваете о ещё не написанных статьях».

Дело в том, что обновление модели происходит редко. Оно заключается в её дообучении на новых наборах данных и, малого того, что обходится очень дорого, так ещё и приводит к эффекту «катастрофического забывания» — временному ухудшению инференса по ранее использованным датасетам из-за разбалансировки весов. Именно поэтому сначала на GPT-5 и обрушился шквал критики (плюс ещё сыграл эффект завышенных ожиданий).

Другое фундаментальное ограничение LLM связано с механизмом самовнимания. «Окно внимания» у трансформеров заменяет эмуляцию «понимания». Модель не строит внутренние, сжатые представления знаний. Она лишь следит за контекстом, но постепенно раздувается и запутывается в данных. У неё возникают проблемы с логикой и планированием действий, в ответах появляются артефакты, а реальные сведения смешиваются с генеративным вымыслом (возникают галлюцинации).

Ещё один существенный барьер в развитии LLM — квадратично растущая сложность. Так, например, сложность вычисления матрицы внимания выражается как O(n²) относительно длины последовательности входного текста (n). Квадратично растёт как объём вычислений, так и требования к памяти (RAM / VRAM). Это делает контекст в 1M токенов неподъёмным для чистых трансформеров.

Трансформеры на костылях

За последние пару лет были придуманы всевозможные «костыли», чтобы трансформеры доковыляли до ~~конца серии~~ появления полноценной архитектурной замены. Среди таких паллиативных методов стоит отметить более эффективные механизмы внимания, которые уменьшают требования к памяти, ускоряют обучение и снижают вычислительную сложность. Например, FlashAttention, Sparse attention и Sliding window attention. В том числе благодаря им появились модели с контекстным окном более чем в миллион токенов (например, Claude 3 Opus от Anthropic).

FlashAttention — не просто алгоритмическое, а скорее системно-ориентированное улучшение. Эта техника меняет работу с памятью. Вместо частых операций чтения/записи в относительно медленную глобальную память, FlashAttention стремится выполнить большую часть преобразования данных внутри быстрого кэша. В результате обучение ускоряется в 2-4 раза и радикально снижается потребление памяти.

Схожие между собой подходы Sparse Attention и Sliding Window Attention базируются на гипотезе о том, что не всем токенам нужно уделять равноценное внимание. Модель может фокусироваться на локальном контексте (используя «скользящее окно»), или на заранее заданных разреженных матрицах.

Помимо доработок механизма внимания есть и другие важные аспекты дообучения и инференса моделей.

В первую очередь, это Parameter-Efficient Fine-Tuning (PEFT) — набор методов, которые позволяют дообучать модель, меняя только небольшую часть её параметров. Самые популярные из них — Prompt Tuning, Prefix Tuning и LoRa.

Prompt Tuning — метод адаптации поведения модели к конкретной задаче за счёт добавления к началу входной последовательности нескольких обучаемых векторов, так называемых мягких промптов (soft prompts). В процессе дообучения модели перенастраиваются только эти векторы, а не миллионы параметров исходной модели.

Prefix Tuning — дальнейшее развитие идеи Prompt Tuning. В Prefix Tuning настраиваемая последовательность векторов (префикс) может добавляться не только во входной слой, но и на уровне скрытых состояний внутри всех слоёв трансформера. Это позволяет более гибко управлять процессом генерации модели и эффективнее адаптировать её к задаче.

Хотя оба метода работают путём добавления обучаемых параметров к входным данным, в них все же происходит изменение модели — обновляются векторы мягкого промпта или префикса. Поэтому их относят к методам эффективной настройки с минимальным количеством параметров (parameter-efficient fine-tuning, PEFT).

LoRA (Low-Rank Adaptation) — метод базируется на гипотезе о том, что все изменения, необходимые для адаптации модели к новой задаче, можно выразить как низкоранговое приближение изменений весов. LoRA внедряет в слои модели малые (низкоранговые) матрицы-адаптеры. В процессе тонкой настройки обновляются только параметры этих небольших матриц, что кардинально сокращает вычислительные затраты. Метод LoRA показывает высокую эффективность на моделях с любым числом параметров, в то время как Prompt Tuning и Prefix Tuning эффективны в основном для очень больших моделей и когда есть жёсткие ограничения по доступной видеопамяти.

Другой важной доработкой трансформеров стали методы анализа самих запросов.

Chain-of-Thought (CoT) — техника обработки запросов (prompting), которая заставляет большую языковую модель объяснять свои рассуждения шаг за шагом при решении сложных задач, таких как арифметические вычисления и многоэтапные логические выводы.

Метод появился потому, что классические трансформеры не имеют встроенного механизма для последовательных логических рассуждений. Прямое предсказание следующего токена (слова) в сложных задачах нередко приводит к ошибкам, так как модель пытается статистически «угадать» ответ, не выстраивая внутреннюю логическую цепочку.

CoT заставляет модель разбивать запрос на отдельные логически завершённые этапы. Каждый следующий шаг в рассуждении опирается на результаты предыдущего, что имитирует человеческое мышление. В настоящее время CoT стал фундаментальной техникой в области промптинга и открыл путь для более сложных методов рассуждения

Tree of Thoughts (ToT) — дальнейшее расширение подхода Chain of Thought, позволяющее языковым моделям анализировать несколько логических цепочек одновременно. ToT представляет процесс решения в виде дерева. Каждая ветвь этого дерева представляет собой связный блок текста — промежуточный шаг рассуждения. Модель может генерировать несколько следующих шагов из одной точки ветвления, оценивать их перспективность и выбирать, какую ветвь развивать дальше.

Эксперименты показывают, что ToT кардинально улучшает способности моделей к решению сложных задач. Например, в задаче Game of 24 (где нужно получить 24 из четырёх чисел) результат GPT-4 с CoT составил 4%, в то время как метод ToT позволил модели достичь успеха в 74% случаев.

Как мы уже упоминали выше, трансформеры словно живут в прошлом. Они всегда ограничены данными, доступными на момент обучения. Узнавать новые сведения и использовать их в генерации помогает RAG.

Retrieval-Augmented Generation (RAG) — метод борется с ограничениями обучающих наборов данных. Он запрашивает релевантные данные из внешних источников (базы данных, векторные хранилища, поисковые системы) и предоставляет их модели в качестве дополнительного контекста. В результате модель становится способна учитывать свежие или специфические данные и даёт более качественные ответы.

Кстати, недавно мы писали про фреймворк RAG-Anything, который создаёт единую «карту знаний» документа. Он позволяет ИИ работать не только с текстом, но и с таблицами, графиками, формулами, а также учитывать связи между ними.

Все перечисленные выше методы представляют собой попытки компенсировать недостатки архитектуры модели трансформеров за счёт внешних дополнений и успешно опробованы во многих популярных LLM. За счёт них появились функции «режим рассуждений» и «поиск в интернете».

Принципиально новые подходы

Совсем недавно появились архитектуры, которые бросили вызов трансформерам. Они не просто модифицируют механизм внимания, а заменяют его на более эффективные — с линейной сложностью, сохраняя при этом высокое качество моделирования долгосрочных зависимостей.

Речь о моделях нового типа — State Space Models (SSM). Это класс моделей, заимствованный из теории управления и обработки сигналов. Они описывают динамику скрытого состояния системы, которое эволюционирует с течением времени под воздействием входных данных.

«Основная идея SSM заключается в том, чтобы обновлять скрытое состояние, которое в сжатом виде хранит в себе информацию из всей предыдущей последовательности. Это состояние обновляется на каждом шаге, что делает архитектуру по своей природе рекуррентной (как RNN), но с более структурированными правилами обновления», — сказал Георгий Поляков.

Mamba — самая известная архитектура класса SSM. В ней предлагается механизм селекции состояний. Он позволяет модели динамически выбирать, какую информацию из контекста учитывать приоритетно и запоминать надолго, а какую считать второстепенной. В ряде задач это более эффективно, чем статичные матрицы Sparse Attention.

«Линейная сложность O(n) в Mamba достигается за счёт обновления фиксированного по размеру скрытого состояния. Ей не требуется попарное сравнение всех токенов, как это происходит в механизме внимания трансформеров», — пояснил Георгий Поляков.

В Mamba мы получаем линейную сложность O(n), плюс способность обрабатывать последовательности длиннее тех, на которых обучались.

Идеи, заложенные в архитектуре Mamba, получили дальнейшее развитие. Новые модели семейства Mamba 2+ демонстрируют впечатляющую производительность, сопоставимую с трансформерами значительно большего размера. При этом их масштабируемость остаётся сложной задачей, а предел эффективности пока неизвестен.

Другой перспективный вариант — гибридная архитектура Transformer + SSM. По такому пути развивается модель Jamba компании AI21 Labs. Jamba использует асимметричный блок, состоящий из одного слоя трансформера и семи слоёв Mamba.

На первый взгляд, идея красивая: взять лучшее из двух миров. Но что, если произойдёт наоборот? Прямо как в анекдоте про Эйнштейна и красавицу, предложившую ему родить ребёнка — красивого, как она, и гениального, как он: «Мисс, а вдруг наш ребёнок будет красив, как я, и умён, как вы?».

Так или иначе, достижение нового уровня State-of-the-Art (SOTA) в LLM сейчас требует не просто увеличения числа параметров, а инноваций в архитектуре и методах обучения. Какими будут большие языковые модели будущего? Этого не знают даже их разработчики, поэтому и мы не станем делать вид, будто в курсе.

Одно очевидно уже сейчас: они обходятся всё дороже, и потому бесплатный сыр однажды закончится вместе с деньгами инвесторов. Миллиарды людей утратят доступ к мощным бесплатным и уже обученным моделям после того, как сполна сыграют роль бета-тестеров. Дальше локомотив ИИ встанет на коммерческие рельсы, а из него начнут выгонять безбилетников.

Мир после трансформеров: закат и новый рассвет больших языковых моделей +3

Существующие барьеры

Трансформеры на костылях

Принципиально новые подходы

Комментарии (0)