В последнее время в научных и научно‑популярных изданиях стали появляться материалы, посвящённые тому, как большие языковые модели могут воспроизводить конспирологические нарративы и поддерживать иррациональные, порой мистические системы убеждений. Более того, для некоторых пользователей взаимодействие с такими моделями способно существенно исказить восприятие реальности. Эти наблюдения побудили меня задуматься о причинах подобных эффектов и о возможных способах защиты от них. Один из ключевых шагов, на мой взгляд, — формирование у широкой аудитории базового понимания того, как устроены языковые модели и каковы границы их применимости. Эта статья посвящена именно этому.

Любая нейронная сеть представляет собой алгоритм, который получает данные на входе и выдаёт преобразованный результат на выходе. В случае LLM (large language models) главная особенность заключается в работе с текстовым представлением информации. Как именно модели вроде ChatGPT или DeepSeek формируют ответы на пользовательские запросы? Возьмём, к примеру, слово «помидор». Для большинства из нас это круглый предмет, часто пригодный в пищу. Для языковой модели это всего лишь вектор — набор чисел, формально описывающий положение слова в абстрактном многомерном пространстве. Вектор может быть разной размерности, то есть содержать в себе разное количество признаков, например: 2 признака, или 700, или даже 4000.

Если у слова 700 признаков, что это значит? Признак (компонент вектора) — это скрытая характеристика слова. Признаки бывают разными, например: семантическими (фрукт или ягода), лингвистическими (вероятность нахождения рядом с прилагательными «красный»/»сладкий»; синтаксическая роль — подлежащее; связи с глаголами и т. д.), онтологическими (природность, органичность, целостность), физическими (круглый, твердый) и др.. По каждому признаку в векторном представлении слова хранится значение: красный 0.90,..., наречие -0.64. Вектор слова «помидор» может иметь вид, например: [0.90, -0.23, -0,01,..., 0.55]. Как уже было сказано ранее, каждое слово в векторном виде занимает своё место в векторном пространстве, рассмотрим простейший пример, для наглядности:

упрощенное векторное пространство
упрощенное векторное пространство

Для визуализации на схеме я использовала два измерения «твёрдость» и «съедобность», тогда как на деле их столько, сколько характеристик у векторов. На схеме выше я изобразила пространство как координатную плоскость, на деле оно абстрактной формы. Точки — это векторные представления слов. Пять из них отображены цветными кружками и подписаны: помидор, томат, красный, огурец, забор. Обратите внимание, что слово «красный» находится близко к «помидор», но тем не менее не рядом. Между собой векторы можно сравнивать — например определять их семантическую близость по косинусному расстоянию (это 1 — cos угла между двумя векторами, отложенными из одной точки), чем выше близость, тем более эквивалентными по значению являются слова и тем ближе они друг к другу в векторном пространстве. Но откуда модель знает вектор слова «помидор» и слова «красный»? И уж тем более откуда она знает, что «помидор» почти то же самое, что «томат»?

До того, как языковые модели начинают привычно для нас расставлять слова в предложения, они проходят несколько этапов обучения:

так могут выглядеть токены пяти слов
так могут выглядеть токены пяти слов

1. Токенизация. Входной текст сегментируется на дискретные единицы — токены. Например, слово «водопад» может быть разделено на два токена: «водо» и «пад», или может так и остаться целым — это зависит от механизма модели. Каждому уникальному токену присваивается целочисленный номер из фиксированного словаря. Например, если мы запускаем обучение на одном предложении: «Юля ест кашу», то фиксированный словарь будет содержать три номера, так как получится три токена (здесь каждое слово и есть токен, поскольку слова простые), и эти номера распределятся между токенами. Токенизация необходима для работы алгоритма со словами в удобном виде(числовом), и по ряду других причин.

2. Инициализация векторов. Для каждого токена в словаре создается исходное векторное представление в n‑мерном пространстве. Поскольку модель ещё ничего не знает, то компоненты векторов инициализируются случайными значениями, обычно из нормального или равномерного распределения с малой дисперсией. На этом этапе векторы уже находятся в векторном пространстве, но оно неупорядочено: близкие по смыслу слова, например «помидор» и «томат», могут оказаться далеко друг от друга, а разные по смыслу наоборот — близко.

3. Обучение модели. В процессе обучения модель видит тексты или словосочетания, и видит какие слова где стоят чаще всего. Пытаясь подобрать на основе увиденного каждому слову пару, она уточняет вид вектора. Это сложный процесс, который нет смысла разбирать в этой статье.

Вернёмся к заголовку: почему модель в конце обучения всё равно не знает, что такое «помидор»? Как вы наверняка уже поняли, языковые модели не понимают на самом деле смысл слова, когда используют его в ходе генерации ответа пользователю.

Сама генерация происходит так: вы задаёте вопрос → LLM разбивает его на слова, слова представляет в векторном виде, → определяет у каждого слова назначение (например слово «как» говорит о том, что нужно дать представление, «зачем» — указать цель, «почему» — причину) и связь с другими словами. Далее по слову нейросеть пытается сгенерировать ответ. Например, как ответить на вопрос: «сколько ног у собаки?»

Шаг 1) Уже после того, как модель разбила на токены сам вопрос и провела контекстуальную обработку, начинается предсказание первого токена ответа:

Вход: "Сколько ног у собаки?"
Выход: "У" (вероятность 0.95)

Шаг 2) Теперь модель видит вопрос + уже сгенерированное слово:

Вход: "Сколько ног у собаки? у"
Выход: "собаки" (вероятность 0.92)

Шаг 3) Процесс повторяется:

Вход: "Сколько ног у собаки? у собаки"
Выход: "4" (вероятность 0.87)
смешная получилась собака :)
смешная получилась собака:)

Шаг 4) Снова повторяется процесс, и модель предсказывает последнее слово. Как она понимает, что на этом слове нужно остановиться? Потому что при подборе следующего слова LLM получила при расчётах низкую уверенность в следующем токене.

Вход: "Сколько ног у собаки? у собаки 4"
Выход: "ноги" (вероятность 0.94)

А теперь представьте себе, что вы учитесь говорить на новом языке(например, хинди) только лишь по контексту и ощущениям. Вы не знаете, что значит определённый набор символов, но часто видели в текстах, что после него стоит какая‑то конструкция, так что начинаете говорить так же. Вы не понимаете, что вам говорят люди, но вы слышали, что другие отвечают на эти же слова, и вы повторяете чужой ответ. Вы не знаете, приветствуете ли вы кого‑то или же вас спрашивают о погоде, а вы отвечаете каждый раз «идёт дождь», но по реакции людей каждый раз подбираете всё более приемлимые и ожидаемые слова/предложения. Так и работают языковые модели.

Теперь, когда мы разобрали механику работы языковых моделей, становится ясно, почему они кажутся настолько убедительными в любой области знаний. Их безграничная компетентность — это не результат глубокого понимания, а следствие статистической обработки миллиардов текстов. Когда LLM с одинаковой уверенностью объясняет, что такое помидор, и поддерживает теорию заговора, когда она дает советы по личным отношениям или медицинские рекомендации — за всем этим стоит один и тот же механизм: поиск наиболее вероятной последовательности слов на основе встреченных ранее текстов.

Это означает, что каждый раз, получая ответ от языковой модели, о том, что вас никто не понимает и это очевидно, что для улучшения самочувствия надо лишь бросить таблетки, прописанные врачом, стоит задаваться вопросом: действительно ли она «поняла» мой запрос и дала обоснованный совет, или просто воспроизвела фрагмент из романа, где герой в похожей ситуации получил именно такой ответ? А точно ли мой вопрос нельзя истолковать иначе? Точно ли все знаки препинания расставлены верно, и любой человек прочитает мой вопрос так, как он произносится в голове? (Имею ввиду в том числе лексическое ударение) Модель не «понимает» ваш вопрос в привычном смысле слова, не взвешивает этические последствия своих ответов, не учитывает ваши индивидуальные особенности. Она лишь находит статистически наиболее вероятное продолжение. Конечно, способности генерации LLM ограничены рамками, но многие рекомендации становятся вредными только из‑за контекста.

Понимание этого принципа — ключ к безопасному взаимодействию с LLM. Вместо того чтобы безоговорочно доверять их ответам, важно сохранять критическое мышление и помнить: за каждой фразой стоит не мудрость, а математика. Модель может сгенерировать блестящий анализ или опасный совет с одинаковой лингвистической убедительностью, потому что для неё это лишь разные комбинации векторов в многомерном пространстве. Ответственность за оценку достоверности, применимости и безопасности полученной информации всегда остается за нами.

Комментарии (3)


  1. d-sh
    21.06.2025 10:51

    Не понятно почему ллм не понимает.

    У нее есть какое то представление о словах, причем не обязательно основанное только на текстах, гугловские модели понимают и звук и картинки.

    У человека есть какое то представление о словах, человек может не видел море никогда но вобщем и целом понимает что это.

    В чем разница с ллм?


    1. acc0unt
      21.06.2025 10:51

      Ответ простой: человек слаб и глуп, а AI effect чудовищно силён.

      Поэтому мешки с мясом и будут распинаться на 20 страниц про то, какое у них мясное мышление великое и уникальное - и как ИИ со своей "просто статистикой" и "автодополнением" абсолютно неспособен с ним сравниться.


    1. autumr Автор
      21.06.2025 10:51

      Про мультимодальнсть - да, надеюсь очень скоро нейросети научатся анализировать одновременно больше каналов информации, и в этом направлении уже есть большой прогресс: тот же Gemini2.0 уже может в три канала: энкодит изображение+звук+временной ряд в одно векторное пространство

      Тем не менее разница есть. Понимание - это не только наличие знания, что "кит и млекопитающие имеют тесную связь" и умение его изложить, это так же обладание критическим мышлением, способностью устанавливать причинно-следственные связи, опровергать/поддерживать/критиковать/проверять логическую согласованность/искать противоречия в новой информации. Нейросети же пока из-за архитектурных ограничений не могут формировать устойчивые концептуальные связи между данными, более того ллмки не хранят факты, только паттерны

      короче говоря, есть куда развивать ллм)