Всё началось довольно тихо — без шоу-программ и футуристичных роботов на сцене. В 2017-м исследователи Google опубликовали статью с до смешного скромным названием: Attention is All You Need. Тогда мало кто понял, что именно в этот момент случилось новое «деление эпох»: теперь у ИИ было чёткое «до» и «после».

Сегодня почти весь генеративный ИИ — от ChatGPT до Midjourney, от Gemini до Claude — внутри себя основан на трансформерах. А фундамент всей этой революции оказался… ну прямо скажем, совсем не похожим на научную фантастику. Просто скалярное произведение двух векторов — действие из школьной линейной алгебры

Ни новая экзотическая архитектура памяти. Ни сверхсложная логика вывода. Даже не попытка повторить человеческий мозг.

Просто умножили числа друг на друга и сложили. И всё изменилось.

Но чтобы понять, почему такая простая вещь взорвала всю индустрию, надо вспомнить — во что нейросети упирались раньше.

❯ Большой тупик RNN и CNN: когда старое просто больше не работает

Источник

Ещё недавно обработка текста в машинах очень напоминала чтение по-старинке: слово за словом, слева направо, будто кто-то водил пальцем по книге. Главные герои здесь были RNN — рекуррентные нейронные сети.

На бумаге они выглядели почти идеально: каждое новое слово обновляло своего рода «внутреннюю память» — проглотил одно слово, подвинулся вперёд вместе с новым состоянием. Получалась цепочка памяти:

  • первое слово влияет на второе,

  • второе тащит за собой третье,

  • и так почти до конца предложения.

Ключевое слово тут — почти. Рекуррентные сети очень быстро забывали, о чём речь была много слов назад. Нарисуйте себе цепочку из ведёрок воды: доливаешь впереди — постепенно вытекает позади. Сеть буквально теряла начало длинных предложений (математики скажут: градиенты исчезали). LSTM и GRU пытались починить это место, но получился скорее костыль: подробно помнить они стали чуть дольше, но проблема с корнями осталась.

Источник

Параллельно в NLP подоспели сверточные сети (CNN), которые пришли из распознавания картинок. Они работали похитрее: вместо того чтобы читать текст по одной букве или слову за раз, CNN сканировали сразу несколько соседних словечек. Эдакие шаблоны вроде:

  • прилагательное + существительное;

  • короткие выражения вроде «наконец-то приехал».

Ничего себе! Но была загвоздка: их взгляд был слишком узким — CNN видели только маленькие фрагменты текста вокруг каждого слова. Чтобы понять связь между словами «я» в начале строки и «тебя» в конце абзаца приходилось городить сложную лестницу слоев… а это грузило систему так, что контекст всё равно рвался на части.

Вывод назревал сам собой: проблема не в том, что сеть слишком маленькая или глубокая; дело именно в том КАК она читает последовательности.

Нужен был другой подход.

❯ Новый подход: не эстафета, а мгновенный чат

И вот трансформеры сорвали покровы! Вместо того чтобы передавать информацию по цепочке (как записку через весь класс), каждому слову разрешили оглянуться и посмотреть сразу на все остальные слова предложения или даже документа. Эдакий общий раунд знакомств за секунду!

Это и есть тот самый Attention — внимание слегка переосмысленное для компьютеров.

Чтобы его описать проще всего представить аукцион:

Каждое слово одновременно:

  • задаёт вопрос («что мне нужно?»)

  • рассказывает про себя («кто я такой внутри этого текста?»)

  • предлагает своё содержание (приглашает других узнать о себе).

Три составляющих — Query (ищу!), Key (я такой-то!), Value (вот моя информация!).

Например:

  • Глагол может шепнуть всему тексту: «Я ищу свой объект действия!»

  • Или существительное заявит о себе: «Я стою тут во втором падеже»

Задача сводится к простому вопросу: какие слова реально должны друг для друга быть важными прямо здесь и сейчас?

Вот тут-то на сцену выходит та самая операция из школьной программы…

Центральная операция attention выглядит так:

QK^T

На первый взгляд — ничего особенного.

❯ Как скалярное произведение стало проводником смысла

Скалярное произведение двух векторов показывает, как сильно они «смотрят» в одну сторону. Простыми словами для NLP:

  • Чем смысл у двух слов ближе — тем больше их числовые представления совпадают по направлению;

  • Чем дальше друг другу по смыслу — тем меньше пересечения;

  • Связанные токены мгновенно находят друг друга через высокое значение произведения.

Модель буквально спрашивает: совпадает ли мой запрос с твоим описанием? Если да — внимание возрастает лет до небес!

Удивительно простая идея работает так мощно именно потому что язык полон таких скрытых перекрёстных связей.

❯ Почему сразу не взять расстояние?

Могли бы брать L2-норму…

На первый взгляд ведь что логичнее: чем более похожи слова — тем ближе точки-векторы друг к другу в пространстве! Почему же attention выбрал скалярное произведение?

Во-первых — скорость! Посчитать расстояние между двумя точками требует квадратов да ещё корень извлечь… а видеокарты гораздо быстрее перемножают да складывают числа миллиардами раз в секунду (это как говорить c GPU на его родном языке).

Во-вторых — само поведение attention’а сильно от выбора функции близости: нам нужно не просто заметить связи («близко-далеко»), а часто прям-таки выделить единственный нужный кусок текста с почти безумной уверенностью! Скаляры могут при правильном обучении давать ОГРОМНЫЙ разброс значений — идеальное топливо для резкой фокусировки внимания.

Но любая магия имеет свою цену

❯ Когда математика начинает ломать обучение

Появилась неожиданная проблема. Почти физическая — если размерность ваших векторов растёт (а мы ж любим большие пространства признаков!), то дисперсия их произведений начинает разноситься всё сильнее («выстреливает», сказали бы инженеры). Плюсуйте сюда Softmax…

Var(QK^T)=d_k

Плюсуйте сюда Softmax…

❯ Softmax: машина по производству уверенности

Источник

А Softmax — штука опасная: взял набор чисел , превратил их чисто экспонентой во вполне реальные вероятности (пусть вас не смущает простота операции). Стоит одному числу хоть чуть-чуть перекочевать наверх остальных — всё превращается почти в 1/0; модель вдруг убеждается окончательно сама в себе… и перестаёт учиться дальше вообще.

Лекарство? Делить результат attention’а на корень из размерности пространства признаков. Так можно держать модель от перегрева и бодро продолжать тренироваться без закипания мозговых батарей!

❯ Multi-head Attention или почему хорошего внимания много не бывает

Но в реальной жизни редко бывает однозначность. Одно предложение… десятки разных смысловых связей! Вот возьмите фразу:

«Кот поймал мышь, потому что он был голоден».

Слово «он» связано одновременно

  • с котом,

  • со смыслом голода,

  • с грамматическим строем предложения…

Одна схема внимания тут точно не потянет! Поэтому у трансформеров множество «голов». Каждая учится ловить свой тип связи:

  • одна отвечает за синтаксис,

  • другая ловит семантику,

  • третья замечает эмоции или дальние закономерности,

  • четвёртая может выискивать редкие зависимости далеко через текст…

А потом результат каждой головы аккуратно складывается обратно в единую картину мира!

❯ Проклятие квадратичной сложности

Есть правда обратная сторона всей этой крутизны… Внимание приходится сравнивать каждый токен с каждым другим токеном (всё равно что каждому гостю вечера поговорить хотя бы пару минут с каждым другим); двадцать друзей — 400 разговоров; тысяча токенов? Миллион сравнений!

O(N^2)

GPU всё ещё мощны… но не бесконечно мощны! Именно отсюда нескончаемые поиски новых трюков типа FlashAttention или sparse-attention — чтобы умудриться смотреть далеко вперёд без катастрофического перегруза памяти…

❯ Итоги

Самое удивительное во всей истории attention вот что: индустрия годами пыталась придумывать суперинтеллектуальные схемы и хитрые приёмники памяти или управляемые ячейки данных… а победила простейшая операция из школьной алгебры (которая идеально ложится на цифровые нутра современных видеокарт).

Скалярное произведение стало практически мостом между математикой смысла языка И мебелью современных вычислений! Благодаря этому техника наконец начала видеть структуру текста сразу целиком — как будто взглянуть сверху одним махом вместо того чтобы идти вслепую шаг за шагом…

Вот такой вот переворот произошёл почти незаметно.

Спасибо всем дочитавшим до конца :)

Может быть интересно:
Перейти ↩

Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале 

Комментарии (3)


  1. IamSVP
    29.06.2026 05:54

    Слопа в интернете все больше…


    1. Cartienj
      29.06.2026 05:54

      Почему в интернете? Я и на улице вижу!


  1. i-netay
    29.06.2026 05:54

    Корректнее было бы сказать, что произведение матриц что-то захватило, там же не по паре векторов штучно умножают. А произведение матриц "захватило" нейронки лет на 40 раньше.