Даже если вы избегали ChatGPT и его многочисленных аналогов, то наверняка сталкивались с обработкой текстов ИИ хотя бы в поисковой выдаче. Большие языковые модели (LLM) сейчас применяют повсюду. Проблема в том, что все они построены на одной и той же архитектуре трансформеров, поэтому страдают от общих недостатков. В этой статье эксперты из лаборатории искусственного интеллекта компании «Криптонит» расскажут о существующих ограничениях LLM, наметившихся путях их преодоления и о том, какими будут следующие большие языковые модели.

Эпоха трансформеров началась стремительно, и Marvel здесь ни при чём. Исследование OpenAI «Scaling Laws for Neural Language Models» показало, что эта архитектура с механизмом самовнимания легко масштабируется. Производительность LLM предсказуемо растёт с увеличением размера модели, объёма датасетов и доступных вычислительных ресурсов, а это — залог коммерческого успеха. Поэтому в 2020-2021 начался бум развития LLM. Каждая крупная ИТ-компания хотела представить свою модель с миллиардами параметров (и получить миллиарды долларов от инвесторов).

Однако в последующей работе «Training Compute-Optimal Large Language Models» от DeepMind появилось важное уточнение: существующие модели слабо оптимизированы по отношению данных к параметрам. Поэтому при дальнейшей разработке моделей стали фокусироваться в том числе и на качестве данных, а не только на размере. 

Поначалу простое масштабирование и увеличение доли качественных датасетов в обучающих наборах действительно приводили к экспоненциальному росту возможностей LLM. Наверняка вы помните, как с каждым релизом ChatGPT умнел (а мы глупели).  

По оценкам исследовательского института Epoch AI, за пять лет стоимость обучения самых мощных LLM выросла в 2,8 – 4,4 раза. Абсолютные значения ещё более впечатляющие. Согласно данным Стэнфордского исследования Artificial Intelligence Index Report, стоимость обучения модели GPT-4 оценивается в $78,4 млн, модель Gemini Ultra от Google обошлась в $191 млн, а Grok 4 — около $480 млн. 

При этом многократно возросшие инвестиции больше не дают заметного прироста качества. Подтверждением этому стали релизы GPT-4.5 (Orion) и GPT-5, которые многих разочаровали. Reddit, X (Twitter) оказались переполнены жалобами пользователей на новые модели и просьбами вернуть старые (GPT-4o) как более надёжные.

«Сейчас настал неизбежный этап развития больших языковых моделей: на фоне  растущих затрат на их обучение и развёртывание наблюдается уже не столь заметный прогресс, или даже регресс по отдельным показателям. Основные причины сложившейся ситуации кроются в архитектурных ограничениях. Для ряда из них предложены обходные пути, но в целом это паллиатив, а будущее — за новыми подходами», — пояснил зам. руководителя лаборатории ИИ компании «Криптонит» Георгий Поляков.

Существующие барьеры

Основной архитектурный барьер трансформеров — отсутствие механизма долговременной памяти. Когда завершается обучение модели, её веса становятся неизменными. Модель не может записать новый факт из диалога с пользователем в свои параметры. Её контекстное окно лишь играет роль временного буфера. Оно не заменяет собой механизм накопления и последующего использования новых данных. Всё, что попадает в него, исчезает после завершения сессии. Это называется (stateless inference), или логический вывод без изменения состояния.

Наверняка вы сталкивались с тем, что LLM словно живут в прошлом. Скажем, если их последнее обновление было в 2024 году, а вы спрашиваете про научные статьи за 2025 год не включив опцию «поиск в интернете», то модель выдаст ответ, вроде «вы спрашиваете о ещё не написанных статьях». 

Дело в том, что обновление модели происходит редко. Оно заключается в её дообучении на новых наборах данных и, малого того, что обходится очень дорого, так ещё и приводит к эффекту «катастрофического забывания» — временному ухудшению инференса по ранее использованным датасетам из-за разбалансировки весов. Именно поэтому сначала на GPT-5 и обрушился шквал критики (плюс ещё сыграл эффект завышенных ожиданий). 

Другое фундаментальное ограничение LLM связано с механизмом самовнимания. «Окно внимания» у трансформеров заменяет эмуляцию «понимания». Модель не строит внутренние, сжатые представления знаний. Она лишь следит за контекстом, но постепенно раздувается и запутывается в данных. У неё возникают проблемы с логикой и планированием действий, в ответах появляются артефакты, а реальные сведения смешиваются с генеративным вымыслом (возникают галлюцинации). 

Ещё один существенный барьер в развитии LLM — квадратично растущая сложность. Так, например, сложность вычисления матрицы внимания выражается как O(n²) относительно длины последовательности входного текста (n). Квадратично растёт как объём вычислений, так и требования к памяти (RAM / VRAM). Это делает контекст в 1M токенов неподъёмным для чистых трансформеров.

Трансформеры на костылях

За последние пару лет были придуманы всевозможные «костыли», чтобы трансформеры доковыляли до конца серии появления полноценной архитектурной замены. Среди таких паллиативных методов стоит отметить более эффективные механизмы внимания, которые уменьшают требования к памяти, ускоряют обучение и снижают вычислительную сложность. Например, FlashAttention, Sparse attention и Sliding window attention. В том числе благодаря им появились модели с контекстным окном более чем в миллион токенов (например, Claude 3 Opus от Anthropic). 

FlashAttention — не просто алгоритмическое, а скорее системно-ориентированное улучшение. Эта техника меняет работу с памятью. Вместо частых операций чтения/записи в относительно медленную глобальную память, FlashAttention стремится выполнить большую часть преобразования данных внутри быстрого кэша. В результате обучение ускоряется в 2-4 раза и радикально снижается потребление памяти. 

Схожие между собой подходы Sparse Attention и Sliding Window Attention базируются на гипотезе о том, что не всем токенам нужно уделять равноценное внимание. Модель может фокусироваться на локальном контексте (используя «скользящее окно»), или на заранее заданных разреженных матрицах. 

Помимо доработок механизма внимания есть и другие важные аспекты дообучения и инференса моделей. 

В первую очередь, это Parameter-Efficient Fine-Tuning (PEFT) — набор методов, которые позволяют дообучать модель, меняя только небольшую часть её параметров. Самые популярные из них — Prompt Tuning, Prefix Tuning и LoRa. 

Prompt Tuning — метод адаптации поведения модели к конкретной задаче за счёт добавления к началу входной последовательности нескольких обучаемых векторов, так называемых мягких промптов (soft prompts). В процессе дообучения модели перенастраиваются только эти векторы, а не миллионы параметров исходной модели. 

Prefix Tuning — дальнейшее развитие идеи Prompt Tuning. В Prefix Tuning настраиваемая последовательность векторов (префикс) может добавляться не только во входной слой, но и на уровне скрытых состояний внутри всех слоёв трансформера. Это позволяет более гибко управлять процессом генерации модели и эффективнее адаптировать её к задаче. 

Хотя оба метода работают путём добавления обучаемых параметров к входным данным, в них все же происходит изменение модели — обновляются векторы мягкого промпта или префикса. Поэтому их относят к методам эффективной настройки с минимальным количеством параметров (parameter-efficient fine-tuning, PEFT). 

LoRA (Low-Rank Adaptation) — метод базируется на гипотезе о том, что все изменения, необходимые для адаптации модели к новой задаче, можно выразить как низкоранговое приближение изменений весов. LoRA внедряет в слои модели малые (низкоранговые) матрицы-адаптеры. В процессе тонкой настройки обновляются только параметры этих небольших матриц, что кардинально сокращает вычислительные затраты. Метод LoRA показывает высокую эффективность на моделях с любым числом параметров, в то время как Prompt Tuning и Prefix Tuning эффективны в основном для очень больших моделей и когда есть жёсткие ограничения по доступной видеопамяти. 

Другой важной доработкой трансформеров стали методы анализа самих запросов.  

Chain-of-Thought (CoT) — техника обработки запросов (prompting), которая заставляет большую языковую модель объяснять свои рассуждения шаг за шагом при решении сложных задач, таких как арифметические вычисления и многоэтапные логические выводы. 

Метод появился потому, что классические трансформеры не имеют встроенного механизма для последовательных логических рассуждений. Прямое предсказание следующего токена (слова) в сложных задачах нередко приводит к ошибкам, так как модель пытается статистически «угадать» ответ, не выстраивая внутреннюю логическую цепочку.  

CoT заставляет модель разбивать запрос на отдельные логически завершённые этапы. Каждый следующий шаг в рассуждении опирается на результаты предыдущего, что имитирует человеческое мышление. В настоящее время CoT стал фундаментальной техникой в области промптинга и открыл путь для более сложных методов рассуждения

Tree of Thoughts (ToT) — дальнейшее расширение подхода Chain of Thought, позволяющее языковым моделям анализировать несколько логических цепочек одновременно. ToT представляет процесс решения в виде дерева. Каждая ветвь этого дерева представляет собой связный блок текста — промежуточный шаг рассуждения. Модель может генерировать несколько следующих шагов из одной точки ветвления, оценивать их перспективность и выбирать, какую ветвь развивать дальше. 

Эксперименты показывают, что ToT кардинально улучшает способности моделей к решению сложных задач. Например, в задаче Game of 24 (где нужно получить 24 из четырёх чисел) результат GPT-4 с CoT составил 4%, в то время как метод ToT позволил модели достичь успеха в 74% случаев. 

Как мы уже упоминали выше, трансформеры словно живут в прошлом. Они всегда ограничены данными, доступными на момент обучения. Узнавать новые сведения и использовать их в генерации помогает RAG. 

Retrieval-Augmented Generation (RAG) — метод борется с ограничениями обучающих наборов данных. Он запрашивает релевантные данные из внешних источников (базы данных, векторные хранилища, поисковые системы) и предоставляет их модели в качестве дополнительного контекста. В результате модель становится способна учитывать свежие или специфические данные и даёт более качественные ответы.

Кстати, недавно мы писали про фреймворк RAG-Anything, который создаёт единую «карту знаний» документа. Он позволяет ИИ работать не только с текстом, но и с таблицами, графиками, формулами, а также учитывать связи между ними.

Все перечисленные выше методы представляют собой попытки компенсировать недостатки архитектуры модели трансформеров за счёт внешних дополнений и успешно опробованы во многих популярных LLM. За счёт них появились функции «режим рассуждений» и «поиск в интернете».

Принципиально новые подходы

Совсем недавно появились архитектуры, которые бросили вызов трансформерам. Они не просто модифицируют механизм внимания, а заменяют его на более эффективные — с линейной сложностью, сохраняя при этом высокое качество моделирования долгосрочных зависимостей. 

Речь о моделях нового типа — State Space Models (SSM). Это класс моделей, заимствованный из теории управления и обработки сигналов. Они описывают динамику скрытого состояния системы, которое эволюционирует с течением времени под воздействием входных данных.

«Основная идея SSM заключается в том, чтобы обновлять скрытое состояние, которое в сжатом виде хранит в себе информацию из всей предыдущей последовательности. Это состояние обновляется на каждом шаге, что делает архитектуру по своей природе рекуррентной (как RNN), но с более структурированными правилами обновления», — сказал Георгий Поляков.

Mamba — самая известная архитектура класса SSM. В ней предлагается механизм селекции состояний. Он позволяет модели динамически выбирать, какую информацию из контекста учитывать приоритетно и запоминать надолго, а какую считать второстепенной. В ряде задач это более эффективно, чем статичные матрицы Sparse Attention.

«Линейная сложность O(n) в Mamba достигается за счёт обновления фиксированного по размеру скрытого состояния. Ей не требуется попарное сравнение всех токенов, как это происходит в механизме внимания трансформеров», — пояснил Георгий Поляков. 

В Mamba мы получаем линейную сложность O(n), плюс способность обрабатывать последовательности длиннее тех, на которых обучались.

Идеи, заложенные в архитектуре Mamba, получили дальнейшее развитие. Новые модели семейства Mamba 2+ демонстрируют впечатляющую производительность, сопоставимую с трансформерами значительно большего размера. При этом их масштабируемость остаётся сложной задачей, а предел эффективности пока неизвестен.

Другой перспективный вариант — гибридная архитектура Transformer + SSM. По такому пути развивается модель Jamba компании AI21 Labs. Jamba использует асимметричный блок, состоящий из одного слоя трансформера и семи слоёв Mamba. 

На первый взгляд, идея красивая: взять лучшее из двух миров. Но что, если произойдёт наоборот? Прямо как в анекдоте про Эйнштейна и красавицу, предложившую ему родить ребёнка — красивого, как она, и гениального, как он: «Мисс, а вдруг наш ребёнок будет красив, как я, и умён, как вы?». 

Так или иначе, достижение нового уровня State-of-the-Art (SOTA) в LLM сейчас требует не просто увеличения числа параметров, а инноваций в архитектуре и методах обучения. Какими будут большие языковые модели будущего? Этого не знают даже их разработчики, поэтому и мы не станем делать вид, будто в курсе. 

Одно очевидно уже сейчас: они обходятся всё дороже, и потому бесплатный сыр однажды закончится вместе с деньгами инвесторов. Миллиарды людей утратят доступ к мощным бесплатным и уже обученным моделям после того, как сполна сыграют роль бета-тестеров. Дальше локомотив ИИ встанет на коммерческие рельсы, а из него начнут выгонять безбилетников.

Комментарии (0)