Итоги LLM в 2025 году: прогресс, проблемы и прогнозы / forpes.ru

Главная
Итоги LLM в 2025 году: прогресс, проблемы и прогнозы

Итоги LLM в 2025 году: прогресс, проблемы и прогнозы +4

03.01.2026 07:02

antipov_dmitry 4 7000 Источник

Один из лучших обозревателей в мире LLM выпустил масштабный разбор всего самого важного, что случилось с языковыми моделями в 2025 году. Я перевел, чтобы как можно больше людей прочитало этот фундаментальный труд. Дальше — слово автору.

На исходе 2025 года предлагаю оглянуться на ключевые достижения в области больших языковых моделей (LLM) и проанализировать оставшиеся ограничения и нерешенные проблемы, а также высказать несколько соображений о дальнейшем развитии событий.

Как и каждый год, 2025-й выдался чрезвычайно насыщенным для LLM и искусственного интеллекта в целом, при этом прогресс не показывает никаких признаков замедления или выхода на плато.

Год рассуждений, RLVR и GRPO

Есть много тем для обсуждения, но начнем по хронологии — с января 2025 года.

Масштабирование продолжало работать, но оно не особо меняло поведение LLM или ощущения от работы с ними на практике. Единственным исключением стала свежевыпущенная модель o1 от OpenAI, которая добавила цепочки рассуждений (reasoning traces). Поэтому, когда DeepSeek выпустила свою статью о R1 в январе 2025 года, продемонстрировав, что поведение, напоминающее рассуждение, можно развить с помощью обучения с подкреплением (reinforcement learning), это стало поворотным моментом. (В контексте LLM под рассуждением понимается способность модели объяснять свой ответ, причем само это объяснение зачастую приводит к повышению точности ответа.)

Рисунок 1: Короткий ответ и более длинный ответ с промежуточными шагами, который обычно генерируют модели рассуждений

Deepseek Moment

DeepSeek R1 привлекла огромное внимание по нескольким причинам.

Во-первых, DeepSeek R1 была выпущена как модель с открытыми весами, которая показывала действительно хорошие результаты и была сопоставима с лучшими проприетарными моделями того времени (ChatGPT, Gemini и другими).

Во-вторых, статья о DeepSeek R1 заставила многих — особенно инвесторов и журналистов — обратить внимание на более раннюю статью о DeepSeek V3 от декабря 2024 года. Это привело к пересмотру выводов: хотя обучение современных моделей по-прежнему остается дорогим, оно может быть на порядок дешевле, чем предполагалось ранее, — порядка 5 млн долларов, а не 50 или 500 млн.

Рисунок 2: Таблица из статьи о DeepSeek V3, оценивающая стоимость обучения модели DeepSeek V3 с 671 миллиардом параметров

В дополнительных материалах к DeepSeek R1 стоимость обучения модели R1 поверх V3 оценивается в $294 000, что опять же намного ниже, чем все предполагали.

Рисунок 3: Таблица из дополнительных материалов к статье DeepSeek R1, оценивающая стоимость обучения модели R1 поверх DeepSeek V3

Конечно, оценка в 5 млн долларов требует оговорок. Например, она учитывает только стоимость вычислительных кредитов для финального запуска модели, но не учитывает зарплаты исследователей и расходы на эксперименты с гиперпараметрами.

В-третьих, и это наиболее интересно, в статье было представлено обучение с подкреплением с проверяемыми наградами (Reinforcement Learning with Verifiable Rewards, RLVR) с алгоритмом GRPO как новый (или, по крайней мере, модифицированный) алгоритмический подход для разработки так называемых моделей рассуждений и улучшения LLM на этапе постобучения (post-training).

Рисунок 4: Общий обзор того, как и когда применяется обучение с подкреплением. В этом обзоре я сознательно опускаю множество деталей

До этого момента методы постобучения, такие как дообучение с учителем (supervised instruction fine-tuning, SFT) и обучение с подкреплением на основе обратной связи от человека (reinforcement learning with human feedback, RLHF), которые по-прежнему остаются важной частью пайплайна обучения, упирались в необходимость дорогостоящих письменных ответов или меток предпочтений. (Конечно, их можно генерировать синтетически с помощью других LLM, но это немного напоминает проблему курицы и яйца.)

Ключевое значение DeepSeek R1 и RLVR заключается в том, что они позволяют проводить постобучение LLM на больших объемах данных, что делает их отличным кандидатом для улучшения и раскрытия возможностей через масштабирование вычислений на этапе постобучения (при наличии доступного вычислительного бюджета).

Буква V в RLVR означает verifiable — «проверяемый», что подразумевает возможность использования детерминированных подходов для определения корректности ответов, и этих меток достаточно для того, чтобы LLM научилась решать сложные задачи. (Типичные категории — математика и код, но эту идею можно расширить и на другие области.)

Рисунок 5: Простой пример проверяемой награды

Не буду углубляться в технические детали — в годовом обзоре нужно охватить и другие темы. О моделях рассуждений и RLVR можно написать целые статьи или даже книги. Например, если вас интересует более подробная информация, ознакомьтесь с моими предыдущими статьями: «Понимание рассуждающих LLM» (Understanding Reasoning LLMs) и «Состояние обучения с подкреплением для рассуждений LLM» (The State of Reinforcement Learning for LLM Reasoning).

При всем вышесказанном главный вывод таков: разработка LLM в этом году практически полностью находилась под доминированием моделей рассуждений, использующих RLVR и GRPO.

По сути, каждый крупный разработчик LLM с открытыми весами или проприетарных моделей выпустил вариант своей модели с функцией рассуждений (часто называемый «думающим») после выхода DeepSeek R1.

Ключевые направления развития LLM

Если бы мне нужно было кратко резюмировать основные направления разработки LLM для каждого года, помимо простого масштабирования архитектуры и вычислений для предобучения, я бы составил такой список:

2022: RLHF + PPO
2023: LoRA SFT
2024: Mid-Training
2025: RLVR + GRPO

Предобучение (pre-training) по-прежнему остается необходимым фундаментом для всего остального. Помимо этого, именно RLHF (через алгоритм PPO, Proximal Policy Optimization) изначально дал нам оригинальную модель ChatGPT в 2022 году.

В 2023 году много внимания уделялось LoRA (Low-Rank Adaptation) и похожим методам эффективного по параметрам дообучения (parameter-efficient fine-tuning) для обучения небольших кастомных LLM.

Рисунок 6: Некоторые из ключевых направлений разработки проприетарных LLM и моделей с открытыми весами на протяжении лет. Обратите внимание, что это накопительная картина, что означает, что RLHF + PPO, например, все еще актуальны и используются. Однако это уже не самая горячо обсуждаемая тема

Затем, в 2024 году, все крупные лаборатории начали делать свои пайплайны (пред)обучения более сложными, сосредоточившись на синтетических данных, оптимизации смесей данных, использовании доменно-специфичных данных и добавлении специальных этапов обучения на длинном контексте. Я обобщил эти различные подходы в своей статье 2024 года (тогда я сгруппировал эти техники под предобучением, поскольку термин «промежуточное обучение» (mid-training) еще не был введен):

Тогда я рассматривал их как техники предобучения, поскольку они используют тот же алгоритм и цель предобучения. Сегодня эти несколько более специализированные этапы предобучения, которые следуют за обычным предобучением на общих данных, часто называют «промежуточным обучением» — как мост между обычным предобучением и дообучением (или постобучением), включающим SFT, RLHF и теперь RLVR.

Итак, вам может быть интересно: что дальше?

Я думаю, в следующем году мы увидим еще больше внимания к RLVR. Сейчас RLVR применяется в основном в математике и программировании.

Следующий логический шаг — использовать в качестве сигнала награды не только корректность финального ответа, но и оценивать объяснения LLM в процессе обучения RLVR. Это делалось раньше, на протяжении многих лет, под исследовательским термином «процессные модели вознаграждения» (process reward models, PRM). Однако пока это не принесло значительных успехов. Например, цитируя статью о DeepSeek R1:

4.2. Неудачные попытки

[...] В заключение, хотя PRM демонстрирует хорошую способность переранжировать топ-N ответов, сгенерированных моделью, или помогать в управляемом поиске (Snell et al., 2024), ее преимущества ограничены по сравнению с дополнительными вычислительными издержками, которые она вносит в процесс крупномасштабного обучения с подкреплением в наших экспериментах.

Однако, глядя на недавнюю статью о DeepSeekMath-V2, которая вышла в прошлом месяце и которую я обсуждал в своей предыдущей статье «От DeepSeek V3 до V3.2: архитектура, разреженное внимание и обновления RL» (From DeepSeek V3 to V3.2: Architecture, Sparse Attention, and RL Updates), я думаю, что в будущем мы увидим больше «оценки объяснений» в качестве обучающего сигнала.

Способ, которым сейчас оцениваются объяснения, включает использование второй LLM. Это подводит к ещё одному направлению развития RLVR, которое я предвижу: расширению на другие области помимо математики и программирования.

Так что, если бы вы спросили меня сегодня, что я вижу на горизонте для 2026 и 2027 годов, я бы сказал следующее:

2026: расширения RLVR и больше масштабирования во время инференса
2027: непрерывное обучение (continual learning)

Помимо упомянутых расширений RLVR, я думаю, что в 2026 году будет больше внимания уделяться масштабированию во время инференса (inference-time scaling). Масштабирование во время инференса означает, что мы тратим больше времени и денег после обучения, когда позволяем LLM генерировать ответ, но это окупается.

Масштабирование инференса — не новая парадигма, и платформы LLM уже используют определенные техники под капотом. Это компромисс между задержкой, стоимостью и точностью ответа. Однако в определенных приложениях, где точность важнее задержки и стоимости, экстремальное масштабирование инференса может полностью себя оправдать. Например, как показала недавняя статья о DeepSeekV2-Math, это подняло модель до производительности золотого уровня на бенчмарке математических соревнований.

Рисунок 7: Комбинация двух методов масштабирования во время инференса: самосогласованность (self-consistency) и самоулучшение (self-refinement). Дополнительные итерации самоулучшения улучшают точность. Рисунок с пояснениями из статьи DeepSeekMath-V2.

В этом году среди коллег также много говорили о непрерывном обучении. Вкратце, непрерывное обучение — это обучение модели на новых данных или знаниях без переобучения с нуля.

Это не новая идея, и мне интересно, почему она так активно обсуждалась в этом году, ведь пока не было никакого нового или существенного прорыва в области непрерывного обучения. Главная проблема — катастрофическое забывание (catastrophic forgetting): как показывают эксперименты с продолженным предобучением, усвоение новых знаний приводит к частичной потере старых.

Тем не менее, тема явно актуальна, и я ожидаю прогресса в минимизации катастрофического забывания. Разработка методов непрерывного обучения станет важным направлением в ближайшие годы.

GRPO — любимчик исследований года

Академические исследования в эпоху дорогих LLM — непростая задача. Конечно, важные открытия, ставшие основой прогресса и прорывов в LLM, могут быть сделаны в академической среде несмотря на более скромные бюджеты (а может, и благодаря им).

В последние годы популярными примерами являются LoRA (LoRA: Low-Rank Adaptation of Large Language Models, 2021) и связанные с ней методы эффективного по параметрам дообучения.

Рисунок 8: Введение в LoRA с примерами кода (туториал)

Еще один пример — DPO (Direct Preference Optimization, прямая оптимизация предпочтений: Your Language Model is Secretly a Reward Model) и связанные методы выравнивания без модели наград (reward-model-free alignment) как альтернатива обучению с подкреплением на основе обратной связи от человека.

Рисунок 9: Введение в DPO с примерами кода (туториал)

В моем окружении главным исследовательским открытием года стал GRPO. Хотя он был представлен в статье DeepSeek R1, а не появился из академической среды, он все же сделал год захватывающим для исследователей: и RLVR, и GRPO концептуально интересны и, в зависимости от масштаба, не запредельно дороги для экспериментов.

Так что в этом году я видел множество математических улучшений GRPO в исследовательской литературе по LLM (как от компаний, так и от академических исследователей), которые позже были приняты в пайплайнах обучения современных LLM. Например, некоторые из улучшений включают следующее:

Olmo 3:

Фильтрация нулевого градиентного сигнала (DAPO от Yu et al., 2025)
Активная выборка (DAPO от Yu et al., 2025)
Потери на уровне токенов (DAPO от Yu et al., 2025)
Без KL loss (DAPO от Yu et al., 2025 и Dr. GRPO от Liu et al., 2025)
Clip higher (DAPO от Yu et al., 2025)
Усеченная importance sampling (Yao et al., 2025)
Без нормализации стандартного отклонения (Dr. GRPO от Liu et al., 2025)

DeepSeek V3.2:

KL tuning с доменно-специфичными силами KL (ноль для математики)
Reweighted KL
Off-policy маскирование последовательности
Сохранение маски выборки для top-p / top-k
Сохранение оригинальной нормализации преимущества GRPO

Могу подтвердить: эти модификации GRPO существенно влияют на результат. Например, с некоторыми или несколькими из этих модификаций неудачные обновления больше не сбивают процесс обучения, и мне больше не нужно периодически перезагружать чекпоинты.

И даже для очень коротких запусков я наблюдал большой прирост при использовании этих трюков:

Рисунок 10: Небольшой фрагмент результатов моего кода обучения GRPO с нуля, который доступен на GitHub

В любом случае, у меня есть базовый скрипт GRPO в репозитории «Build A Reasoning Model (From Scratch)», если вы хотите поэкспериментировать с ним. (Скоро добавлю больше исследований абляции с соответствующими модификациями.)

Архитектуры LLM: на распутье?

Что касается архитектур LLM, современные модели по-прежнему используют классический декодерный трансформер (decoder-only transformer). Однако в этом году модели с открытыми весами более или менее сошлись на использовании слоев смеси экспертов (mixture-of-experts, MoE), а также как минимум одного «оптимизированного по эффективности» механизма внимания: Grouped-Query Attention, внимания со скользящим окном или многоголового латентного внимания.

Помимо этих достаточно стандартных архитектур LLM, мы также видели более радикальные оптимизации механизма внимания для линейного масштабирования с длиной последовательности. Примеры включают Gated DeltaNets в Qwen3-Next и Kimi Linear, а также слои Mamba-2 в Nemotron 3 от NVIDIA.

В любом случае, не буду вдаваться в детали, потому что у меня есть целая статья на 13 тысяч слов, недавно обновленная и посвященная этим архитектурам, если вы хотите узнать больше: «Большое сравнение архитектур LLM».

Рисунок 11: Большое сравнение архитектур LLM

Мой прогноз заключается в том, что мы продолжим строить модели на архитектуре трансформера как минимум еще несколько лет, по крайней мере когда речь идет о современной производительности моделирования.

В то же время я думаю, что мы будем видеть все больше и больше таких настроек эффективности и инженерных трюков, как Gated DeltaNet и слои Mamba, потому что в масштабах, в которых LLM обучаются, развертываются и используются, это просто имеет финансовый смысл для этих компаний, которые все еще тратят много денег на обслуживание LLM.

Это не означает, что нет других альтернатив. Как я писал в статье «За пределами стандартных LLM» (Beyond Standard LLMs), например, текстовые диффузионные модели представляют собой интересный подход. Сейчас они попадают в категорию экспериментальных исследовательских моделей, но Google поделились, что выпустят модель Gemini Diffusion. Она не будет соперничать с их передовыми предложениями по качеству моделирования, но будет действительно быстрой и привлекательной для задач с требованиями низкой задержки (например, автодополнение кода).

Также две недели назад были выпущены модели LLaDA 2.0 с открытыми весами. Самая крупная из них, на 100 миллиардов параметров, является на сегодняшний день самой большой текстовой диффузионной моделью и находится наравне с Qwen3 30B. (Да, она не продвигает общий уровень современности, но это все равно примечательный релиз в области диффузионных моделей.)

Год масштабирования инференса и использования инструментов

Улучшение LLM путем масштабирования обучающих данных и архитектур — это проверенная формула, которая (все еще) продолжает работать. Однако, особенно в этом году, это уже не «единственный» достаточный рецепт.

Мы увидели это на примере GPT 4.5 (февраль 2025), которая, по слухам, была намного больше, чем GPT 4 (и более поздняя GPT 5), но чистое масштабирование само по себе в целом не является наиболее разумным путем вперед. Возможности GPT 4.5, возможно, были лучше, чем у GPT 4, но увеличенный бюджет на обучение был признан «плохой отдачей от вложений».

Вместо этого большую часть прогресса в этом году обеспечили более совершенные пайплайны обучения (с большим акцентом на предобучение и постобучение) и масштабирование инференса.

Например, как обсуждалось ранее при разговоре о DeepSeekMath-V2, которая достигла производительности золотого уровня в математике, масштабирование инференса — это один из рычагов, которые мы можем использовать, чтобы заставить LLM решать чрезвычайно сложные задачи по требованию (GPT Heavy Thinking или Pro — другие примеры; использовать их для всего не имеет смысла из-за высокой задержки и стоимости, но есть определенные случаи, такие как сложные математические или программистские задачи, где интенсивное масштабирование на этапе инференса оправдано).

Другое крупное улучшение пришло от обучения LLM с учетом использования инструментов. Как вы, скорее всего, знаете, галлюцинации — одна из самых больших проблем LLM. Можно утверждать, что частота галлюцинаций продолжает снижаться, и я думаю, это во многом связано с упомянутым использованием инструментов. Например, когда спрашивают, кто выиграл чемпионат мира по футболу FIFA в 1998 году, вместо попытки запомнить ответ, LLM может обратиться к поисковой системе через механизм вызова инструментов и извлечь эту информацию с авторитетного сайта по этой теме (например, в данном случае, с официального сайта FIFA). То же самое касается математических задач с использованием API калькулятора и так далее.

Например, модели gpt-oss от OpenAI были среди более ранних моделей с открытыми весами, выпущенных в этом году, которые были специально разработаны с учетом использования инструментов.

Рисунок 12: Таблица с пояснениями из статьи с описанием модели gpt-oss (model card paper)

К сожалению, экосистема открытого исходного кода еще не полностью догнала это направление, и многие, если не большинство инструментов, по-прежнему по умолчанию запускают эти LLM в режиме без использования инструментов. Одна из причин заключается в том, что это новая, развивающаяся парадигма, под которую необходимо адаптировать инструментарий. Другая причина также в том, что это более сложная проблема для решения из-за безопасности (предоставление LLM неограниченного доступа к использованию инструментов потенциально может представлять угрозу безопасности или причинить другой вред вашей системе. Я думаю, что разумный вопрос, который всегда нужно задавать: доверили бы вы новому стажеру делать это с таким объемом доступа к вашей системе?)

Я думаю, что в ближайшие годы включение и разрешение использования инструментов станет все более распространенным при локальном использовании LLM.

5. Слово года: Benchmaxxing

Если бы мне пришлось выбрать слово или тренд, который описывает разработку LLM в этом году, это было бы «benchmaxxing» (бенчмаркинг ради бенчмаркинга).

Здесь benchmaxxing означает сильный акцент на улучшении показателей в таблицах лидеров, иногда до такой степени, что производительность на бенчмарках становится самоцелью, а не показателем общих возможностей.

Ярким примером стала Llama 4, которая показала чрезвычайно хорошие результаты по многим устоявшимся бенчмаркам. Однако, как только пользователи и разработчики получили к ней доступ, они поняли, что эти оценки не отражают реальные возможности и полезность.

Как гласит популярная поговорка: если тестовый набор публичен — это уже не настоящий тестовый набор. И проблема в наши дни заключается в том, что данные тестового набора не только являются частью обучающего корпуса (намеренно или непреднамеренно), но также часто непосредственно оптимизируются во время разработки LLM.

В прошлом, даже если оценки на бенчмарках по публичным тестовым наборам были завышены, по крайней мере ранжирование моделей все же сохранялось. Например, см. аннотированный рисунок из статьи 2019 года «Do ImageNet Classifiers Generalize to ImageNet?» ниже.

Рисунок 13: Рисунок с пояснениями из статьи 2019 года «Do ImageNet Classifiers Generalize to ImageNet?»

В разработке LLM это достигло точки, где показатели бенчмарков больше не являются надежными индикаторами производительности LLM.

Однако я думаю, что бенчмарки остаются необходимыми порогами, которые LLM должны преодолеть. То есть, если я вижу, что LLM набирает ниже X на бенчмарке Y, я уже знаю, что это не очень хорошая LLM. Однако, если она набирает выше X на бенчмарке Y, это не означает, что она намного лучше другой LLM, которая также набирает выше X на том же бенчмарке.

Другой аспект, который следует учитывать, заключается в том, что классификаторы изображений имеют только одну задачу, а именно классификацию изображений. Однако LLM используются для множества различных задач: перевода текста, резюмирования текста, написания кода, мозгового штурма, решения математических задач и многих других. Оценка классификаторов изображений, где доступна четкая метрика, такая как точность классификации (classification accuracy), намного проще, чем оценка LLM как на детерминированных, так и на свободных задачах.

Помимо практического опробования LLM и постоянного создания новых бенчмарков, к сожалению, нет решения этой проблемы.

6. ИИ для кода, текстов и исследований

Поскольку эта тема поднимается так часто, я хотел поделиться своим мнением о замене LLM людей для определенных типов задач (или даже профессий).

На высоком уровне я рассматриваю LLM как инструменты, которые дают людям в определенных профессиях «суперспособности». Я имею в виду, что при правильном использовании LLM могут сделать людей существенно более продуктивными и убрать много рутины из повседневной работы. Это варьируется от относительно обыденных задач, таких как обеспечение единообразного оформления заголовков разделов с заглавными буквами, до поиска сложных багов в больших кодовых базах.

6.1 Код

Сегодня я по-прежнему пишу большую часть важного для меня кода самостоятельно. Под «важным для меня» я понимаю контексты, где имеет значение, что я понимаю код и что код корректен. Например, если я настраиваю скрипт обучения LLM, я буду реализовывать и тщательно проверять логику обучения. Это нужно а) чтобы убедиться, что он делает то, что, по моему мнению, должен делать, и б) чтобы сохранить свои знания и экспертизу в этой задаче. Однако теперь я использую LLM для добавления более рутинного кода вокруг этого, например, добавления шаблонного кода argparse для командной строки, чтобы я мог использовать свой собственный код более удобно из командной строки.

Рисунок 14: Пример добавления аргументов командной строки в скрипт обучения с использованием промпта «Добавь argparse для всех опций гиперпараметров в training-script.py»

Но я также все больше и больше полагаюсь на LLM для выявления проблем, предложения улучшений или проверки идей на здравый смысл. В то же время я хочу понимать, что я создаю, и в качестве личной цели стремлюсь углублять свои знания и навыки и продолжать развивать свою экспертизу.

При этом LLM оказались чрезвычайно ценными для задач за пределами моей основной области экспертизы. Они позволяют мне автоматизировать вещи, на которые у меня иначе не хватило бы времени или энергии. Один из примеров — недавний инструмент, который я написал для извлечения и резервного копирования моих статей из Substack в формате Markdown. (Я составляю черновики всего в Markdown, но часто редактирую и расширяю статьи непосредственно в редакторе Substack, поэтому мои локальные черновики не всегда актуальны). LLM также помогли мне очистить CSS на моем сайте, который за годы накопил множество дублирований и несоответствий. И есть много подобных случаев, когда я использовал LLM в этом году.

Или, короче говоря, ключевой момент здесь — понимать, когда использовать LLM, а когда нет. И как использовать LLM таким образом, чтобы это помогало вам развивать свою экспертизу способом, который также приносит удовлетворение.

6.2 Кодовые базы и библиотеки кода

LLM стали лучше писать код, но, несмотря на то, что я слышу от некоторых людей, я не думаю, что код является или станет временным или устаревшим. LLM позволяют быстро создавать продукты, на которые раньше уходило много времени.

Однако чисто LLM-генерируемые кодовые базы не заменяют экспертно созданные кодовые базы. Эти экспертные кодовые базы могли быть даже созданы программистами-людьми, которые сами использовали LLM. Но ключевой момент заключается в том, что кто-то с экспертизой в этой области вложил много времени и усилий в их создание, тестирование и доработку. Другому человеку потребуется много работы, чтобы повторить это, так зачем не использовать готовое, если оно существует?

Короче говоря, я думаю, что эксперт full-stack веб-разработчик, который изучил хорошие паттерны проектирования (design patterns) и компромиссы, изучил, увидел и построил множество платформ за свою карьеру, сможет создать лучшую платформу, чем человек без опыта, который просто дает промпты LLM для ее создания.

Хорошая новость: теперь даже непрофессионал может создать платформу, даже если она не самая лучшая. Однако использование и промптинг LLM поможет этому человеку лишь до определенного предела, и качество платформы упрется в потолок. Поэтому, если человек действительно заботится об улучшении платформы, было бы хорошей идеей углубиться в эту тему, узнать, как другие создают платформы, и вернуться с большими знаниями, чтобы более эффективно использовать LLM для направления и улучшения дизайна платформы.

6.3 Написание технических текстов и исследования

Аналогично программированию, я не вижу, чтобы LLM делали написание технических текстов устаревшим. Написание хорошей технической книги требует тысяч часов работы и глубокого знакомства с предметом. Этот процесс может включать использование LLM для улучшения ясности, проверки технической корректности, исследования альтернатив или проведения небольших экспериментов, но основная работа по-прежнему зависит от человеческого суждения и экспертизы.

Рисунок 15: Реальный пример того, как LLM помогла мне найти и исправить ошибку в предыдущей статье

Да, LLM могут улучшить качество технической документации и специализированных материалов. Они могут помочь авторам находить ошибки, расширять ссылки и в целом сокращать время, потраченное на рутинные задачи. Это освобождает больше времени для глубокой работы, которая действительно требует креативности и опыта.

С точки зрения читателя, я также не думаю, что LLM заменяют профессионально написанные материалы. Использование LLM для изучения темы хорошо работает для быстрых вопросов и объяснений для начинающих. Однако этот подход быстро становится беспорядочным, когда вы хотите построить более глубокое понимание.

В этот момент, вместо того чтобы потенциально тратить часы на попытки отфильтровать ответы LLM по теме, которую вы пытаетесь изучить, но еще не являетесь экспертом, часто имеет смысл следовать структурированному пути обучения, разработанному экспертом. (Эксперт мог использовать или не использовать LLM.)

Конечно, по-прежнему имеет смысл использовать LLM для уточняющих вопросов или исследования побочных путей во время прохождения курса или изучения материала. Также отлично использовать их для создания тестов или упражнений для практики знаний.

В целом, я вижу LLM как чистый выигрыш и для авторов, и для читателей.

Но я также полагаю, что здесь ключевой момент заключается в том, чтобы научиться распознавать, когда использовать LLM, а когда нет. Например, главный недостаток в том, что может возникнуть соблазн сразу использовать LLM, когда тема становится сложной, потому что самостоятельная борьба с проблемой сначала часто приводит к намного более сильному обучению.

Я вижу исследования примерно так же. LLM очень полезны для поиска связанной литературы, выявления проблем в математической нотации и предложения последующих экспериментов. Но все равно имеет смысл оставлять исследователя-человека в роли главного.

Возможно, эмпирические правила здесь выглядят примерно так:

Если эта исследовательская статья или материал были полностью созданы человеком, их потенциально можно было бы дополнительно улучшить
И если эта исследовательская статья или материал могли бы быть сгенерированы простым промптингом LLM, то они, вероятно, недостаточно новаторские и/или глубокие

6.4 LLM и выгорание

LLM все еще довольно новы и развиваются, и я думаю, что есть также менее обсуждаемый недостаток чрезмерного использования LLM. Например, я считаю, что если модель делает всю работу, а человек в основном контролирует, работа может начать казаться пустой.

Конечно, некоторые люди действительно наслаждаются управлением системами и организацией рабочих процессов, и это совершенно обоснованное предпочтение. Но для людей, которым нравится делать саму работу, я думаю, что такой режим работы может ускорить выгорание. (Особенно это касается компаний, которые ожидают больше результатов быстрее, поскольку теперь у нас есть LLM.)

Есть особое удовлетворение в борьбе со сложной проблемой и, наконец, в том, чтобы увидеть, как она работает. Я не получаю того же ощущения, когда LLM сразу выдает решение. Я полагаю, это похоже на готовку (это просто пришло мне в голову, и я не великий повар). Если вам нравится делать пиццу, использование готового теста и только добавление начинки, вероятно, лишает большей части радости, и готовка превращается в рутину. Это не обязательно плохо, но я думаю, что если вы делаете эту работу много часов каждый день в течение длительного периода (месяцы или годы), я могу понять, как это будет казаться пустым и в конечном итоге приведет к выгоранию.

С личной точки зрения, писать код приятнее, чем читать. И вы можете согласиться, что создавать pull request обычно веселее, чем рецензировать их (но, конечно, это не верно для всех).

Возможно, хорошая, идеализированная (но не идеальная) аналогия того, как мы должны использовать AI устойчивым образом — это шахматы.

Шахматные движки превзошли людей-игроков десятилетия назад, но профессиональные шахматы среди людей по-прежнему живы и процветают. Я не эксперт по шахматам, но, я бы сказал, игра, вероятно, даже стала богаче и интереснее.

Основываясь на том, что я слышал (например, на основе книги Каспарова «Deep Thinking» и подкастов с Магнусом Карлсеном), современные игроки используют AI для изучения различных идей, оспаривания своих интуиций и анализа ошибок с уровнем глубины, который просто не был возможен раньше.

Я думаю, что это полезная модель для размышлений об AI в других формах интеллектуальной работы. При правильном использовании AI может ускорить обучение и расширить то, что один человек может разумно взять на себя. Я думаю, мы должны относиться к нему скорее как к партнеру, а не как к замене.

Но я также думаю, что если AI используется для полного аутсорсинга мышления и программирования, это рискует подорвать мотивацию и долгосрочное развитие навыков.

Рисунок 16: LLM снижают порог входа и делают программистов (как начинающих, так и экспертов) более продуктивными. Однако, когда мы завершаем 2025 год, я думаю, что все еще стоит инвестировать в то, чтобы стать экспертом, потому что тогда вы сможете извлечь еще больше из LLM и достигать еще лучших результатов

7. Конкурентное преимущество: частные данные

Общие возможности LLM в программировании, ответах на вопросы и написании текстов продолжают улучшаться. Это в значительной степени верно, потому что масштабирование по-прежнему обеспечивает положительную отдачу от инвестиций благодаря улучшениям в пайплайнах и парадигмах обучения (например, RLVR), а также в масштабировании инференса и использовании инструментов.

Однако это начнет выходить на плато в какой-то момент (аналогично тому, что мы видели при разработке от GPT 4 до GPT 4.5), если мы не будем продолжать изобретать новые методы обучения и/или архитектуры (на данный момент никто не знает, как они могут выглядеть).

LLM уже справляются со множеством типовых задач из разряда «низковисящих фруктов». Но чтобы закрепить их в определенных отраслях, потребуется большая доменная специализация. Я думаю, что поставщики LLM хотели бы получить доступ к высококачественным, доменно-специфичным данным. Пока что похоже, что это будет проблемой.

Например, судя по всему, большинство компаний, к которым обращались, отклонили такие сделки именно потому, что данные являются проприетарными и ключевыми для их конкурентного преимущества. (Я слышал это из нескольких источников, и также была статья в The Information на эту тему.)

Это совершенно логично. Продавать ценные проприетарные данные компаниям вроде OpenAI или Anthropic — решение, на мой взгляд, недальновидное.

Рисунок 17: Пример секторов и типов данных, которые могли бы быть полезны для обучения доменно-специфичных LLM, но где внешняя продажа данных вызывала бы опасения. (Я не являюсь юридическим экспертом, и это не юридическая консультация, но я могу представить, что если это чисто локальная LLM, которая не покидает защищенные серверы компании, обучение модели на данных о здоровье пациентов ничем не отличается от разработки других типов внутреннего программного обеспечения, работающего с этими данными о здоровье пациентов.)

Сейчас разработка LLM запредельно дорога и сложна в масштабе, поэтому только несколько крупных компаний разрабатывают современные LLM. Однако я думаю, что разработка LLM становится все более массовой, поскольку разработчики LLM часто меняют работодателей и в конечном итоге будут наняты крупными финансовыми институтами, биотехнологическими компаниями и другими организациями с бюджетами для разработки конкурентоспособных внутренних LLM, которые будут использовать их частные данные.

Эти LLM даже не обязательно должны быть полностью обучены с нуля; многие современные LLM, такие как DeepSeek V3.2, Kimi K2 и GLM 4.7, выпускаются с открытыми весами и могут быть адаптированы и дополнительно дообучены.

8. Создание LLM и рассуждающих моделей с нуля

Вам может быть интересно, чем я занимался в этом году. Мое внимание было почти полностью сосредоточено на работе, связанной с LLM. В прошлом году я решил стать независимым и основать собственную компанию, в основном чтобы иметь больше времени для работы над собственными исследованиями, книгами, статьями в Substack и сотрудничеством с индустрией.

Как независимый исследователь, консалтинговые проекты — это часть того, что делает такую организацию работы устойчивой. Сюда входят обычные расходы — от продуктов до медицинской страховки. Но есть и менее очевидные траты: например, облачные вычисления для экспериментов.

Со временем моя цель — еще больше сократить консалтинговую работу и проводить больше времени над длинными исследованиями и написанием статей, особенно техническими глубокими погружениями, которыми я делюсь здесь.

Мне повезло: многие компании предлагали работу на полную ставку, что было бы жизнеспособным вариантом, если независимость не сработает, но пока я планирую оставаться независимым.

Если вы находите мою работу полезной, и если можете, подписка на Substack или покупка одной из моих книг действительно помогает сделать такого рода работу устойчивой, и я очень ценю поддержку.

Одним из моих личных достижений этого года стала положительная обратная связь по моей книге «Build A Large Language Model (From Scratch)» (Создайте большую языковую модель с нуля). Я получил множество вдумчивых сообщений от читателей из компаний и университетов по всему миру.

Отзывы описывают самые разные сценарии использования: от профессоров колледжей, которые используют книгу как основной учебник для обучения тому, как работают LLM, до бывших студентов, которые использовали ее для подготовки к собеседованиям и получения новых ролей, до инженеров, которые полагались на нее как на отправную точку для реализации кастомных LLM в продакшене.

Я также был рад узнать, что книга теперь переведена как минимум на девять языков.

Рисунок 18: Моя книга «Build A Large Language Model (From Scratch)», переведенная на разные языки.

Многие читатели также спрашивали, будет ли второе издание, охватывающее более новые и продвинутые темы. Хотя я думал об этом, я осторожен в отношении того, чтобы сделать книгу менее доступной. Например, замена стандартного многоголового внимания на более сложные варианты, такие как многоголовое латентное внимание, используемое в некоторых новых моделях DeepSeek, значительно повысит порог входа.

Вместо этого, пока что, я предпочитаю оставить книгу как есть, поскольку она действительно хорошо работает для людей, которые хотят войти в область LLM. А для читателей, заинтересованных в более продвинутом материале, в качестве продолжения я добавил существенные дополнительные материалы в GitHub-репозиторий книги в течение года. Я планирую продолжать расширять эти материалы со временем.

Рисунок 19: Фрагмент некоторых дополнительных материалов, которые я добавил в репозиторий «Build A Large Language Model (From Scratch)» в этом году

Кроме того, как вы, возможно, знаете, я сейчас работаю над продолжением — «Build A Reasoning Model (From Scratch)» (Создайте модель рассуждений с нуля).

Первая книга, «Build A Large Language Model (From Scratch)», фокусируется на основной архитектуре большой языковой модели и основах предобучения.

Рисунок 20: Иллюстрация того, как две книги «с нуля» соотносятся друг с другом

Книга о рассуждающих моделях продолжается с того места, где заканчивается первая книга. Начиная с предобученной базовой модели, она исследует методы масштабирования во время инференса и техники обучения с подкреплением, направленные специально на улучшение способностей к рассуждению.

Помимо этого Substack, я усердно работаю над написанием книги о рассуждениях, и во многих отношениях я думаю, что это моя самая продуманная и отполированная книга на данный момент.

На данный момент, по моим оценкам, я трачу примерно 75-120 часов на каждую главу. Если вам интересно, я оцениваю, что это обычно распределяется следующим образом:

3-5 часов: мозговой штурм и пересмотр выбора темы
5-10 часов: структурирование контента
20 часов: написание первоначального кода
10-20 часов: проведение дополнительных экспериментов и чтение последней литературы для получения дополнительных инсайтов
10-20 часов: создание иллюстраций
10 часов: написание первоначального черновика текста
10-20 часов: переписывание и доработка главы
5-10 часов: создание упражнений плюс проведение экспериментов
2-5 часов: включение предложений редактора и читателей

В настоящее время я на половине пути к завершению главы 6, которая реализует код обучения с подкреплением с проверяемыми наградами (GRPO) для обучения моделей рассуждений.

Рисунок 21: Фрагмент книги «Build A Reasoning Model (From Scratch)», которая доступна в раннем доступе (early access)

9. Сюрпризы 2025 года и прогнозы на 2026 год

Я хотел завершить эту статью несколькими основными выводами, сосредоточившись на вещах, которые, на мой взгляд, были для меня немного неожиданными, и на том, что я прогнозирую на 2026 год.

9.1 Примечательные и неожиданные вещи в 2025 году

Начнем с сюрпризов 2025 года. Это события, которые я, вероятно, не ожидал бы, если бы вы спросили меня годом ранее в 2024 году:

Несколько моделей рассуждений уже достигают производительности золотого уровня на крупных математических соревнованиях (OpenAI с неназванной моделью, Gemini Deep Think и модель с открытыми весами DeepSeekMath-V2). Я не удивлен, что это произошло в принципе, но я удивлен, что это уже произошло в 2025 году, а не в 2026.
Llama 4 (или Llama в целом) почти полностью потеряла популярность в сообществе открытых весов, и Qwen опередила Llama по популярности (по количеству загрузок и производных версий, как сообщается через проект ATOM Натана Ламберта).
Mistral AI использует архитектуру DeepSeek V3 для своей последней флагманской модели Mistral 3, анонсированной в декабре 2025 года.
Помимо Qwen3 и DeepSeek R1/V3.2, появилось множество дополнительных претендентов в гонке за современные модели с открытыми весами, включая Kimi, GLM, MiniMax и Yi.
Более дешевые, эффективные гибридные архитектуры уже становятся большим приоритетом в ведущих лабораториях (Qwen3-Next, Kimi Linear, Nemotron 3), в отличие от разработки отдельными лабораториями.
OpenAI выпустила модель с открытыми весами (gpt-oss, и я написал отдельную статью об этом ранее в этом году).
MCP (присоединившийся к Linux Foundation) уже стал стандартом для доступа к инструментам и данным в LLM-системах в стиле агентов (пока что); я ожидал, что экосистема останется более раздробленной в 2025 году, по крайней мере до 2026 года.

Прогнозы на 2026 год

Мы, вероятно, увидим промышленную, ориентированную на потребителей диффузионную модель для дешевого, надежного инференса с низкой задержкой, причем Gemini Diffusion, вероятно, пойдет первой.
Сообщество открытых весов будет медленно, но уверенно принимать LLM с локальным использованием инструментов и все более агентными возможностями.
RLVR более широко распространится на другие области помимо математики и программирования (например, химию, биологию и другие).
Классический RAG постепенно уступит место другим решениям для запросов к документам. Вместо использования поиска для каждого запроса, связанного с документами, разработчики будут больше полагаться на лучшую обработку длинного контекста, особенно учитывая появление лучших «небольших» моделей с открытыми весами.
Значительная часть прогресса в бенчмарках и производительности LLM будет происходить от улучшенного инструментария и масштабирования инференса, а не от обучения или самой базовой модели. LLM будут казаться намного лучше, но в основном за счёт улучшения окружающей инфраструктуры. В то же время разработчики будут больше фокусироваться на снижении задержки и заставят модели рассуждений расширять меньше токенов рассуждения там, где это не нужно. Не поймите меня неправильно, 2026 год продвинет современность дальше, но большая доля прогресса будет происходить больше со стороны инференса, чем чисто со стороны обучения в этом году.

Итоги

Подводя итог, я думаю, что если есть один мета-урок из 2025 года, то это то, что прогресс в LLM — это не один прорыв, а улучшения делаются на нескольких фронтах через несколько независимых рычагов. Это включает настройки архитектуры, улучшения качества данных, обучение рассуждениям, масштабирование инференса, вызов инструментов и многое другое.

В то же время оценка остается сложной, бенчмарки несовершенны, и хорошее суждение о том, когда и как использовать эти системы, все еще необходимо.

Моя надежда на 2026 год заключается в том, что мы продолжим видеть интересные улучшения, но также чтобы мы понимали, откуда эти улучшения происходят. Это требует как лучшего и более последовательного бенчмаркинга, так и, конечно, прозрачности.

Спасибо за чтение и за все вдумчивые отзывы и обсуждения в течение года, в комментариях и на всех различных платформах, от Substack Notes до GitHub.

Положительные отзывы и детальные беседы действительно поддерживают мою мотивацию вкладывать время и энергию, необходимые для длинных статей, и продолжать глубоко копаться в исследованиях и деталях реализации LLM. Я многому научился из этих обменов, и надеюсь, что вы тоже.

Я с большим нетерпением жду продолжения этих бесед, поскольку область продолжает развиваться в 2026 году!

С наилучшими пожеланиями, Себастьян

Бонус: кураторский список исследовательских статей по LLM (июль — декабрь 2025)

В июне я поделился бонусной статьей с моими кураторскими и добавленными в закладки списками исследовательских статей для платных подписчиков, которые делают этот Substack возможным.

Аналогичным образом, в качестве благодарности всем добрым сторонникам, ниже я подготовил список всех интересных исследовательских статей, которые я добавил в закладки и категоризировал с июля по декабрь 2025 года. Я просмотрел аннотации этих статей, но прочитал полностью лишь очень небольшую часть. Однако мне все равно нравится собирать такие списки, поскольку я часто возвращаюсь к ним при работе над конкретным проектом.

Однако, учитывая уже огромную длину этой статьи, я делюсь этим списком в отдельной статье.

Спасибо! Это был перевод (не такой простой, как может показаться), а вот мои самонаписанные крафтовые статейки (и мой тг-канальчик про LLM и агентов: Agentic World):

Комментарии (4)

Vitrion
03.01.2026 11:56
#29334082
В 26 году мы определенно увидим множество попыток дополнительной монетизации чатов. Реклама и прочее. А чтобы народ не соскочил на локальные ИИ, то рынок накаутировали заранее. Оказывается модели до 16B параметров могут создавать конкуренцию топам, но новые ноуты/ПК/смартфоны будут выходить в базе на 8Гб, а 16 и выше станут премиум. Такие дела. Но видно, что сам прогресс не останавливается.

Dhwtj
03.01.2026 11:56
#29335162
Уже 4 дня, а ещё ничего нового не вышло. И это в 2026 году!

FOMO + схлопывание рынка труда в ИТ = LLM зависимость

Vitrion
03.01.2026 11:56
#29335886
Ощущение такое, будто я только что прошёл годовой интенсив по LLM за 15 минут. Спасибо за перевод и особенно за структуру — даже про benchmaxxing стало не стыдно знать. Теперь точно понятно, мы не просто масштабируем модели, мы масштабируем иллюзии

ilia_bonn
03.01.2026 11:56
#29336178
В целом, я вижу LLM как чистый выигрыш и для авторов, и для читателей.

Наконец-то кто-то это сказал! А то тут так часто в комментариях осуждают ЛЛМ'ки и их использование при составлении текстов, что уже боишься где-то даже словом обмолвиться, что вообще ими пользуешься. Не дай бог, заминусят, и карму опустят жёстко. Какая-то иррациональная ненависть прям к ним, как когда-то к Spinning Jenny, на заре индустриализации.

Могу, конечно, понять, что из-за ЛЛМ'ок появилось много синтетического контента в интернете. Но вроде же тут все люди интеллектуального труда, и должны быть вполне себе рассудительными пользователями с холодным и трезвым умом. А не утверждать огульно, что ЛЛМ только и умеет, что генерировать мусор, что всё это один большой пузырь, что он в этом году лопнет и весь прогрес от ИИ тупых ЛЛМ'ок останется на уровне милых, но бесполезных бесед с чат-ботом.