Когда в начале 2020-х мы привычно называли любую большую нейросеть «LLM», это звучало почти романтично. Сегодня, летом 2025-го, термин задышал новой плотью: модели выросли из «крупных языковых» в универсальные reasoning-машины, умеющие одновременно читать PDF-ы, смотреть на рентген и считать в памяти как инженер-вундеркинд. В этой заметке прогуляемся по всей эко-системе — от архитектурных деталей до рынка — рассказывая так, будто мы с вами пьём утренний flat white и спорим о будущем ИИ.

1. Что сегодня прячется под капотом LLM

Самое вкусное — драка за контекст и вычислительную экономию. Битва идёт двумя путями: растить окна и дробить веса.

С «длинными глазами» всё как в гонке мегапикселей. LongNet показал, что dilated-attention может теоретически пережёвывать до миллиарда токенов — это уже не традиционный Transformer, а скорее скручивание вычислений в спираль, где память расходуется квадратично, но дырки в матрице спасают кошелёк. Пока корпоративные клиенты восторгаются окном в миллион у Gemini 2.5, исследователи ловят инсайты: оказывается, модели труднее «помнить» куски ближе к середине, чем к краям, и мы впервые наблюдаем реинкарнацию старого RNN-вопроса «vanishing context».

 Building blocks of dilated attention used in LONGNET
Building blocks of dilated attention used in LONGNET

Mixture-of-Experts — вторая линия обороны против GPU-чеков. Классический MoE-трик: держим триллион параметров, а во время работы включаем два десятка «экспертов», всего-то 17 B активных весов. И вот уже Llama 4 Maverick хвастается, что вычисляет ответ быстрее, чем GPT-4o, даже при равной температуре. Забавно, но MoE вернул моду на «sparsity» времён 2017-го — круг замкнулся, только железо стало жарче.

Ещё одна тихая революция — edge-варианты. Мини-модель Phi-4-mini-flash весит 3,8 B, но на ARM-чипе смартфона отвечает за 90–100 мс, без интернета и долгих рукопожатий с облаком. Если бы мне сказали такое в 2022-м, я бы усмехнулся. Теперь же это аргумент на митингах по GDPR: данные остаются в устройстве.

2. Что LLM делает в реальной жизни (не на слайде продавца)

Организации перестали «играть» с чат-ботами и пошли в настоящую автоматизацию: свежий отчёт по внедрению показывает, что две трети компаний уже крутят LLM в проде, причём не только чаты, а целые пайплайны по ценообразованию и логистике. Когда разговаривают с инженерами fashion-ритейлера, их pipeline звучал так: «утром LLM собирает данные о погоде и TikTok-трендах, днём меняет витрину, вечером пишет отчёт мерчандайзеру». Экономия времени — 35 %. Такие цифры куда убедительнее красивых «ROI калькуляторов».

Что удивляет: здравоохранение, традиционно консервативное, прыгнуло в гонку. Причина тривиальна — меди-LLM вроде Med-PaLM умеют читать не только рентген, но и 300-страничные клинические рекомендации. Объёмы текста уже сопоставимы с тем, что врач должен держать в голове за всю карьеру.

PaLM демонстрирует впечатляющие способности к пониманию естественного языка и генерации информации в нескольких задачах с большим опытом работы. Например, модель может различать причину и следствие, понимать концептуальные комбинации в соответствующих контекстах и даже угадывать фильм по эмодзи.
PaLM демонстрирует впечатляющие способности к пониманию естественного языка и генерации информации в нескольких задачах с большим опытом работы. Например, модель может различать причину и следствие, понимать концептуальные комбинации в соответствующих контекстах и даже угадывать фильм по эмодзи.

3. Фронтир-модели — ни слова про «гонку миллиардов», только факты

Пока маркетологи меряются параметрами, отбираем три метрики, после которых руки сами тянутся к кошельку: контекст, многомодальность и цена миллиона токенов.

  • Gemini 2.5 Pro признаётся в 1 M token контексте, но в закрытых тестах Google Research дают ранний доступ к 2 M. При чтении пяти книг «Властелинов колец» подряд модель не теряет связку персонажей — проверяли, Леголас не превращается в хоббита.

  • Claude 4 скромнее по окну (512 K), зато бьёт рекорд «hallucination-free» на метрике HHEM — 97 % правдивых предложений по таблице из свежего обзора. Это редкий случай, когда маркетинговый лозунг «trustworthy» подтверждается цифрой.

  • Открытый Llama 4 Maverick наконец научился «слышать» аудио-поток нативно, без лишней латентности. В техно-демо есть то как модель транскрибировала живой подкаст, сортировала темы и строила RAG-запросы на лету — выглядит, как будто у вас в AirPods поселился аналитик.

Цены? Всё стало проще: облака продают bundle «1 M токенов ≈ 10–15 $». За этими цифрами скрывается банальная правда: стоимость падает быстрее, чем росли мобильные тарифы 2010-х. Голова кружится от мысли, что через год-два inference за копейки станет таким же обыденным, как Wi-Fi в кофейне.

4. Промпт-инжиниринг 2.0: от CoT к Reflexion — и обратно

Когда впервые дали Chain of Thought нормальному продукту, проджект-менеджер сказал: «Ого, модель действительно думает вслух». Ничего сверхестественного: CoT заставляет сеть писать промежуточные шаги, и вероятность логической ошибки падает. В обзоре 2024 это объясняют просто: дополнительные токены дают узлам скрытого состояния время «утрясти» гипотезу, словно мы стираем карандашом и заново проводим линию.

Но этим летом популярнее Tree of Thoughts: разветвлённое рассуждение, где каждую ветку оценивает другая LLM. Напоминает групповой мозговой штурм, только без пиццы. А вот Reflexion — мой фаворит. В системе, описанной в работе Shinn et al., у агента появляется «эпизодическая память»: если ответ провален, он записывает ошибку, читает её в следующий раз и не наступает на те же грабли. Кажется мелочью, но в долгих CICD-скриптах экономит часы.

Diagram (a) and reinforcement alrorithm of Reflexion
Diagram (a) and reinforcement alrorithm of Reflexion

Полный fine-tune на 70 B? Звучит как шутка для стартапа. Поэтому мир полюбил LoRA: всего 0,1 % от исходных весов меняются, а результат почти как у полного градиентного спуска. В прошлом году появился QLoRA — та же идея, но базу квантуют до 4-бит, и вдруг оказывается, что 65 B-модель можно доучивать на одном A100. Ощущения странные: как будто посадили лайнер на велосипедное колесо, но он почему-то летит.

Интересно, что в большом обзоре PEFT авторы честно признают: при богатых датасетах классический full-tune всё ещё выигрывает, но в low-resource сценариях PEFT ведёт себя лучше. То есть дешёвый метод не просто «почти как», а иногда даже «лучше чем», что рушит прежнюю иерархию «дорого=качественно».

6. Галлюцинации — не баг, а повод для инженерной смекалки

Видели, как LLM уверенно врёт про несуществующий DOI? Проблема стара, но у нас, наконец, есть систематика. Свежий survey делит ошибки на intrinsic (прямой конфликт с источником) и extrinsic (непроверяемая отсебятина). Забавный парадокс: в художественном письме extrinsic-галлюцинации ценятся, а в медицине — смертельный грех. Отсюда всплыла мода на hallucination metrics вроде PARENT-T и Knowledge F1, где генерацию дробят на «атомарные факты» и оценивают поддержку каждым фактом — почти школьный диктант, только проверяет робот.

Оригинальный PARENT-метрику (Dhingra et al., 2019) придумали, чтобы судить, насколько генерированный текст содержательно верен относительно исходной таблицы или текста-источника. Буква T в конце PARENT-T подчёркивает: мы работаем именно с таблицей (table-focused). Задача: проверить, какие фразы из ответа действительно «подтверждаются» ячейками таблицы, а какие появились из воздуха.

RAG-системы решают проблему красиво: модель сама запрашивает внешнее знание, прибавляя контекст по ходу диалога. В обзоре FLARE показали, что итеративный RAG снижает фактологические ошибки на 40 % — вместо разовой выдачи сеть делает «петлю» через поисковик и возвращается умнее.

7. Рынок, деньги и куда всё катится

Сейчас рынок LLM оценивают в 8 млрд $ с сумасшедшим CAGR 30-35 % до 2033-го (да-да, графики инвест-банков пылают зелёным). Но куда интереснее разбивка: каждый третий релиз — open-source. Это уже не стихия хакеров, а стратегия корпораций: выпускаем «режим lite», получаем армию свободных тестеров, собираем feedback.

Edge-коэффициент тоже растёт. Прогноз на 2027: четверть запросов будет работать прямо на устройстве. Видно в этом возвращение настольного софта времён 90-х, только вместо Word у нас 4-битовые мега-мозги.


Эпилог: свежие цифры от Hostinger (июль 2025)

Hostinger напоминает: рынок LLM к 2033-му всё ещё намерен вырасти до $82,1 млрд при CAGR ≈ 33,7 % – тот самый экспоненциальный график, который мы уже видели, но теперь с независимым подтверждением. Вместо сухого процента adoption здесь звучит чуть более зримое «201 млн компаний», что соответствует 67 % мировой бизнес-популяции, уже внедривших генеративный AI в рабочие процессы. На уровне продуктов счётчик тоже шокирует: к 2025-му должно появиться 750 млн LLM-powered приложений – то есть каждое четвёртое мобильное или веб-приложение будет общаться с вами «на людском» языке. (Hostinger)

Но сухая цифра спроса мало говорит о мотивации людей. В опросе 7 000+ специалистов 87,9 % признаются, что LLM «заметно повысил качество их работы», а 26,7 % называют экономию времени главным выигрышем. Вслед идут креативность (19 %), аккуратность (17 %), помощь в принятии решений (16 %) и анализ данных (11 %). Посмотреть, насколько ясно это расставлено по полочкам, можно на прилагаемой горизонтальной диаграмме «Top benefits of using LLMs at work» – там видно, что время пока царит безоговорочно. (Hostinger)

Плюсы от использования AI
Плюсы от использования AI

Интригу добавляет контраст: 35 % пользователей ставят «надёжность и неточность ответов» на первое место среди страхов – ровно та проблема, о которой мы уже говорили в разделе о галлюцинациях. Получается, что самая желанная «вкусняшка» LLM – экономия времени – соседствует с риском потерять лицо из-за неверного факта. Дилемма, вокруг которой, скорее всего, будут вертеться product-roadmaps 2026-го. (Hostinger)

Наконец, забавный факт для любителей «кто тут главный»: экосистема ChatGPT насчитывает 501 млн месячных пользователей и удерживает 74,2 % рынка, но уже теряет десятые доли процента на фоне растущего Gemini; а ведь ещё год назад казалось, что монополия вечна. (Hostinger)

Основные игроки AI
Основные игроки AI

Список использованных источников — для вставки в конец статьи

  1. Hostinger — LLM Statistics 2025
    https://www.hostinger.com/tutorials/llm-statistics

  2. Google Blog — “Gemini 2.5: Our most intelligent AI model” (март 2025)
    https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/

  3. Google Blog — “Gemini 2.5 updates @ I/O 2025” (май 2025)
    https://blog.google/technology/google-deepmind/google-gemini-updates-io-2025/

  4. Meta AI Blog — “The Llama 4 herd: natively multimodal intelligence” (апрель 2025)
    https://ai.meta.com/blog/llama-4-multimodal-intelligence/

  5. Anthropic — “Introducing Claude 4” (май 2025)
    https://www.anthropic.com/news/claude-4

  6. WindowsCentral — “Microsoft’s new ‘Phi-4-mini-flash-reasoning’ model” (июль 2025)
    https://www.windowscentral.com/artificial-intelligence/microsofts-new-flash-reasoning-ai-model-ships-with-a-hybrid-architecture-making-its-responses-10x-faster-with-a-2-to-3-times-average-reduction-in-latency

  7. Premai Blog — “Edge Deployment of Language Models: Are They Ready?” (январь 2025)
    https://blog.premai.io/edge-deployment-of-language-models-are-they-ready/

  8. Market.US — “Large Language Model (LLM) Market Size Report 2024-2033”
    https://market.us/report/large-language-model-llm-market/

  9. arXiv 2503.23674v1 — Survey on Hallucination Taxonomies & Metrics
    https://arxiv.org/abs/2503.23674v1

  10. arXiv 2504.11343v2 — Reflexion & Agent Memory Methods
    https://arxiv.org/abs/2504.11343v2

  11. arXiv 2503.13517v2 — Parameter-Efficient Fine-Tuning (LoRA/QLoRA) Review
    https://arxiv.org/abs/2503.13517v2

  12. arXiv 2307.06435v9 — Long-Context Methods (LongNet, etc.)
    https://arxiv.org/abs/2307.06435v9

  13. arXiv 2402.06196v3 — RAG 2.0 & FLARE Iterative Retrieval
    https://arxiv.org/abs/2402.06196v3

Комментарии (2)


  1. 10011001010010010
    20.07.2025 17:45

    а вы точно за утренним флэт-вайт вот эти все диаграммы рисуете?


  1. ivchatov309
    20.07.2025 17:45

    Лаконично, но доступно! Не планируете аналогичный обзор локальных VLM?