Почему LLM не знают, что такое «помидор», и как не дать себя обмануть? / forpes.ru

Главная
Почему LLM не знают, что такое «помидор», и как не дать себя обмануть?

Почему LLM не знают, что такое «помидор», и как не дать себя обмануть? +36

21.06.2025 09:15

autumr 64 10000 Источник

В последнее время в научных и научно‑популярных изданиях стали появляться материалы, посвящённые тому, как большие языковые модели могут воспроизводить конспирологические нарративы и поддерживать иррациональные, порой мистические системы убеждений. Более того, для некоторых пользователей взаимодействие с такими моделями способно существенно исказить восприятие реальности. Эти наблюдения побудили меня задуматься о причинах подобных эффектов и о возможных способах защиты от них. Один из ключевых шагов, на мой взгляд, — формирование у широкой аудитории базового понимания того, как устроены языковые модели и каковы границы их применимости. Эта статья посвящена именно этому.

Любая нейронная сеть представляет собой алгоритм, который получает данные на входе и выдаёт преобразованный результат на выходе. В случае LLM (large language models) главная особенность заключается в работе с текстовым представлением информации. Как именно модели вроде ChatGPT или DeepSeek формируют ответы на пользовательские запросы? Возьмём, к примеру, слово «помидор». Для большинства из нас это круглый предмет, часто пригодный в пищу. Для языковой модели это всего лишь вектор — набор чисел, формально описывающий положение слова в абстрактном многомерном пространстве. Вектор может быть разной размерности, то есть содержать в себе разное количество признаков, например: 2 признака, или 700, или даже 4000.

Если у слова 700 признаков, что это значит? Признак (компонент вектора) — это скрытая характеристика слова. Признаки бывают разными, например: семантическими (фрукт или ягода), лингвистическими (вероятность нахождения рядом с прилагательными «красный»/»сладкий»; синтаксическая роль — подлежащее; связи с глаголами и т. д.), онтологическими (природность, органичность, целостность), физическими (круглый, твердый) и др.. По каждому признаку в векторном представлении слова хранится значение: красный 0.90,..., наречие -0.64. Вектор слова «помидор» может иметь вид, например: [0.90, -0.23, -0,01,..., 0.55]. Как уже было сказано ранее, каждое слово в векторном виде занимает своё место в векторном пространстве, рассмотрим простейший пример, для наглядности:

Для визуализации на схеме я использовала два измерения «твёрдость» и «съедобность», тогда как на деле их столько, сколько характеристик у векторов. На схеме выше я изобразила пространство как координатную плоскость, на деле оно абстрактной формы. Точки — это векторные представления слов. Пять из них отображены цветными кружками и подписаны: помидор, томат, красный, огурец, забор. Обратите внимание, что слово «красный» находится близко к «помидор», но тем не менее не рядом. Между собой векторы можно сравнивать — например определять их семантическую близость по косинусному расстоянию (это 1 — cos угла между двумя векторами, отложенными из одной точки), чем выше близость, тем более эквивалентными по значению являются слова и тем ближе они друг к другу в векторном пространстве. Но откуда модель знает вектор слова «помидор» и слова «красный»? И уж тем более откуда она знает, что «помидор» почти то же самое, что «томат»?

До того, как языковые модели начинают привычно для нас расставлять слова в предложения, они проходят несколько этапов обучения:

1. Токенизация. Входной текст сегментируется на дискретные единицы — токены. Например, слово «водопад» может быть разделено на два токена: «водо» и «пад», или может так и остаться целым — это зависит от механизма модели. Каждому уникальному токену присваивается целочисленный номер из фиксированного словаря. Например, если мы запускаем обучение на одном предложении: «Юля ест кашу», то фиксированный словарь будет содержать три номера, так как получится три токена (здесь каждое слово и есть токен, поскольку слова простые), и эти номера распределятся между токенами. Токенизация необходима для работы алгоритма со словами в удобном виде(числовом), и по ряду других причин.

2. Инициализация векторов. Для каждого токена в словаре создается исходное векторное представление в n‑мерном пространстве. Поскольку модель ещё ничего не знает, то компоненты векторов инициализируются случайными значениями, обычно из нормального или равномерного распределения с малой дисперсией. На этом этапе векторы уже находятся в векторном пространстве, но оно неупорядочено: близкие по смыслу слова, например «помидор» и «томат», могут оказаться далеко друг от друга, а разные по смыслу наоборот — близко.

3. Обучение модели. В процессе обучения модель видит тексты или словосочетания, и видит какие слова где стоят чаще всего. Пытаясь подобрать на основе увиденного каждому слову пару, она уточняет вид вектора. Это сложный процесс, который нет смысла разбирать в этой статье.

Вернёмся к заголовку: почему модель в конце обучения всё равно не знает, что такое «помидор»? Как вы наверняка уже поняли, языковые модели не понимают на самом деле смысл слова, когда используют его в ходе генерации ответа пользователю.

Сама генерация происходит так: вы задаёте вопрос → LLM разбивает его на слова, слова представляет в векторном виде, → определяет у каждого слова назначение (например слово «как» говорит о том, что нужно дать представление, «зачем» — указать цель, «почему» — причину) и связь с другими словами. Далее по слову нейросеть пытается сгенерировать ответ. Например, как ответить на вопрос: «сколько ног у собаки?»

Шаг 1) Уже после того, как модель разбила на токены сам вопрос и провела контекстуальную обработку, начинается предсказание первого токена ответа:

Вход: "Сколько ног у собаки?"
Выход: "У" (вероятность 0.95)

Шаг 2) Теперь модель видит вопрос + уже сгенерированное слово:

Вход: "Сколько ног у собаки? у"
Выход: "собаки" (вероятность 0.92)

Шаг 3) Процесс повторяется:

Вход: "Сколько ног у собаки? у собаки"
Выход: "4" (вероятность 0.87)

смешная получилась собака :) — смешная получилась собака:)

Шаг 4) Снова повторяется процесс, и модель предсказывает последнее слово. Как она понимает, что на этом слове нужно остановиться? Потому что при подборе следующего слова LLM получила при расчётах низкую уверенность в следующем токене.

Вход: "Сколько ног у собаки? у собаки 4"
Выход: "ноги" (вероятность 0.94)

А теперь представьте себе, что вы учитесь говорить на новом языке(например, хинди) только лишь по контексту и ощущениям. Вы не знаете, что значит определённый набор символов, но часто видели в текстах, что после него стоит какая‑то конструкция, так что начинаете говорить так же. Вы не понимаете, что вам говорят люди, но вы слышали, что другие отвечают на эти же слова, и вы повторяете чужой ответ. Вы не знаете, приветствуете ли вы кого‑то или же вас спрашивают о погоде, а вы отвечаете каждый раз «идёт дождь», но по реакции людей каждый раз подбираете всё более приемлемые и ожидаемые слова/предложения. Так и работают языковые модели.

Теперь, когда мы разобрали механику работы языковых моделей, становится ясно, почему они кажутся настолько убедительными в любой области знаний. Их безграничная компетентность — это не результат глубокого понимания, а следствие статистической обработки миллиардов текстов. Когда LLM с одинаковой уверенностью объясняет, что такое помидор, и поддерживает теорию заговора, когда она дает советы по личным отношениям или медицинские рекомендации — за всем этим стоит один и тот же механизм: поиск наиболее вероятной последовательности слов на основе встреченных ранее текстов.

Это означает, что каждый раз, получая ответ от языковой модели, о том, что вас никто не понимает и это очевидно, что для улучшения самочувствия надо лишь бросить таблетки, прописанные врачом, стоит задаваться вопросом: действительно ли она «поняла» мой запрос и дала обоснованный совет, или просто воспроизвела фрагмент из романа, где герой в похожей ситуации получил именно такой ответ? А точно ли мой вопрос нельзя истолковать иначе? Точно ли все знаки препинания расставлены верно, и любой человек прочитает мой вопрос так, как он произносится в голове? (Имею ввиду в том числе лексическое ударение) Модель не «понимает» ваш вопрос в привычном смысле слова, не взвешивает этические последствия своих ответов, не учитывает ваши индивидуальные особенности. Она лишь находит статистически наиболее вероятное продолжение. Конечно, способности генерации LLM ограничены рамками, но многие рекомендации становятся вредными только из‑за контекста.

Понимание этого принципа — ключ к безопасному взаимодействию с LLM. Вместо того чтобы безоговорочно доверять их ответам, важно сохранять критическое мышление и помнить: за каждой фразой стоит не мудрость, а математика. Модель может сгенерировать блестящий анализ или опасный совет с одинаковой лингвистической убедительностью, потому что для неё это лишь разные комбинации векторов в многомерном пространстве. Ответственность за оценку достоверности, применимости и безопасности полученной информации всегда остается за нами.

Комментарии (64)

d-sh
21.06.2025 10:51
#28466312
Не понятно почему ллм не понимает.

У нее есть какое то представление о словах, причем не обязательно основанное только на текстах, гугловские модели понимают и звук и картинки.

У человека есть какое то представление о словах, человек может не видел море никогда но вобщем и целом понимает что это.

В чем разница с ллм?
1. acc0unt
  21.06.2025 10:51
  #28466364
  Ответ простой: человек слаб и глуп, а AI effect чудовищно силён.
  
  Поэтому мешки с мясом и будут распинаться на 20 страниц про то, какое у них мясное мышление великое и уникальное - и как ИИ со своей "просто статистикой" и "автодополнением" абсолютно неспособен с ним сравниться.
  1. Stepanko73
    21.06.2025 10:51
    #28467072
    Во-первых, непонятно зачем вы даете оценку человечеству и искусственному интеллекту, не разобравшись полностью в теме, вот несколько статей, в которых сравнивают человеческий мозг и AI:
    https://www.techtarget.com/searchenterpriseai/tip/Artificial-intelligence-vs-human-intelligence-How-are-they-different
    https://stanmed.stanford.edu/experts-weigh-ai-vs-human-brain/
    https://magazine.columbia.edu/article/artificial-intelligence-vs-human-brain
    Вам можно даже не читать статьи целиком, чтобы понять, что человеческий мозг намного более мобильный и уникальный на данный момент, по сравнению с ИИ.
    Во-вторых, если вы хотите выразить свою точку зрения уважительно, то стоит воздержаться от пассивной агрессии, навешивания ярлыков.
    В-третьих, просьба подкрепить ваши утверждения статьями/исследованиями, написанными специалистами в области ИИ и/или человеческого мозга, а не диванными экспертами.
    
    TruthFounder
    21.06.2025 10:51
    #28467280
    У ИИ нет "мозга" да и корректное название ВИ, а не ИИ. И разумеется ВИ обгоняет и будет еще больше обгонять обьезьянок, они будут плакать, колоться, сопротивляться, чтобы в итоге принять. Всё это уже было много раз с новыми эпохами и этот раз не становится исключением.
    
    acc0unt
    21.06.2025 10:51
    #28467312
    Если кидаться бумагами, то начать нужно с бумаг по интерпретируемости ИИ от Anthropic. Потому что они показывают, как ИИ "думает" крайне высокоуровневыми концепциями - и как их с помощью SAE можно пытаться их находить и ими манипулировать.
    
    В ту же сторону - "модели мира" у ИИ. Даже на крохотных масштабах у LLM есть внутренние репрезентации - у тренированного на шахматных партиях ИИ внутри есть репрезентация состояния шахматной доски. Несмотря на то, что шахматную доску этот ИИ ни разу не видел, и учился только на записях ходов.
    
    Так что разница между мышлением человека и ИИ не так уж и велика. Только мешкам с мясом от этого немного дискомфортно.
    
    Wesha
    21.06.2025 10:51
    #28468840
    (Голосом Дроздова:) А в этом вольере мы можем понаблюдать за рождением новой религии. Посмотрите, как забавно она перебирает лапками!
1. autumr Автор
  21.06.2025 10:51
  #28466456
  Про мультимодальнсть - да, надеюсь очень скоро нейросети научатся анализировать одновременно больше каналов информации, и в этом направлении уже есть большой прогресс: тот же Gemini2.0 уже может в три канала: энкодит изображение+звук+временной ряд в одно векторное пространство
  
  Тем не менее разница есть. Понимание - это не только наличие знания, что "кит и млекопитающие имеют тесную связь" и умение его изложить, это так же обладание критическим мышлением, способностью устанавливать причинно-следственные связи, опровергать/поддерживать/критиковать/проверять логическую согласованность/искать противоречия в новой информации. Нейросети же пока из-за архитектурных ограничений не могут формировать устойчивые концептуальные связи между данными, более того ллмки не хранят факты, только паттерны
  
  короче говоря, есть куда развивать ллм)
  1. AlexRihter9690
    21.06.2025 10:51
    #28467202
    Проблема существующей мультимодальности в том, что эти каналы как бы оторваны от основной модели и не дают ей полного понимая. Наверняка часто там вообще просто картинка в промт конвертируется. Истинная мультимодальность будет тогда, когда ты отправляешь ему картинку, а он тебе с помощью ascii или векторного редактора пересоберёт её
    
    einhorn
    21.06.2025 10:51
    #28468910
    Наверняка часто там вообще просто картинка в промт конвертируется.
    
    все топовые VLLMs (Claude Sonnet, GPT-4.1, Gemini 2.5) сегодня имеют специальные image-токены, которые можно перемежать с обычными текстовыми токенами
  1. skagerrak
    21.06.2025 10:51
    #28468466
    Это уже будет не языковая модель, а нечто другое.
1. Pshir
  21.06.2025 10:51
  #28467394
  Разница в том, что у некоторых людей есть опыт взаимодействия с этими словами. Если человек не только не является океанологом, но даже никогда не видел море, и только в целом понимает, что это такое, вы будете доверять его суждениям по поводу моря? Если у человека нет детей, с детьми он никогда не работал, а только читал про них, вы будете доверять его педагогическим советам? А нейросетям, почему-то, доверяют.
  
  Можно считать, что понимание нейросети ничем не отличается от понимания человека. Но тогда не стоит забывать, что это понимание не уровня настоящего эксперта, а уровня среднего диванного «эксперта» из интернета. Буквально, представьте себе персонажа Светлакова из Нашей Раши, который может читать все газеты и все телепрограммы в мире. Вот это в точности и есть нейросеть.
  1. sshmakov
    21.06.2025 10:51
    #28469086
    Если у человека нет детей, с детьми он никогда не работал, а только читал про них, вы будете доверять его педагогическим советам?
    
    Есть такой автор чрезвычайно популярных книг по воспитанию детей, Бенджамин Спок. Дети у него были, но их воспитанием он не занимался.
    
    sukharichev
    21.06.2025 10:51
    #28469384
    То, что такие книги чрезвычайно популярны - проблемы конечной аудитории и бедных детей, а не Спока или LLM
    
    Pshir
    21.06.2025 10:51
    #28470372
    Именно поэтому я его книжкам не доверяю
    
    Wesha
    21.06.2025 10:51
    #28470546
    «С таким настроем ты слона не продашь!» ©
    
    sshmakov
    21.06.2025 10:51
    #28470670
    Поэтому всегда есть люди, доверяющие цыганам и нейросетям, и есть другие
    
    dimaviolinist
    21.06.2025 10:51
    #28475006
    ... и есть другие
    
    люди, которые доверяют другим цыганам и нейросетям :)
1. ddv2005
  21.06.2025 10:51
  #28468338
  Доказательство того что LLM ничего не понимает очень простое - ни одна LLM не умеет 100% правильно делать даже элементарные математические операции ( https://habr.com/ru/articles/918138/ ) потому что если числа достаточно большие, то и результатов так же много и ей их не предоставили. Человеку достаточно объяснить НЕСКОЛЬКО правил элементарной математики и он сможет считать правильно числа любой длинны. А вот LLM нельзя скормить правила, ей нужно сгенерировать терабайты терабайтов входных и выходных данных и потом на них обучить ее. LLM это тупой заучка, который не понимает сути и не умеет думать. Вот когда LLM на входе будет получать не терабайты соответствия входных и выходных данных, а единичные правила обработки данных вот тогда он и сможет приблизится к реальному интелекту.
  1. einhorn
    21.06.2025 10:51
    #28468540
    и он сможет считать правильно числа любой длинны
    
    не сможет со 100%-й точностью, все равно рано или поздно ошибется по невнимательности
    
    ddv2005
    21.06.2025 10:51
    #28468548
    Сможет, потому что человек догадается использовать калькулятор. А вот LLM модель никогда не догадается использовать супер калькулятор на котором она запущена чтобы произвести математические вычисления потому что для нее что помидор, что 3458467435789 одинаково не понятные сущности.
    
    einhorn
    21.06.2025 10:51
    #28468564
    вообще-то, LLM-кам сегодня дают доступ к внешним тулам
    
    для умения использовать внешние тулы даже бенчмарки есть
    
    так что она не только к калькулятору, но и к интерпретатору Питона обратится
    
    ddv2005
    21.06.2025 10:51
    #28468582
    Ну у почему тогда LLM модели ошибаются в 10%+ математических операций? Сбой CPU :-) ? А потому что вместо калькулятора начинают как обычно угадывать следующее слово.
    
    einhorn
    21.06.2025 10:51
    #28468592
    То, что LLM вообще может считать в уме (и не ошибаться, пока числа маленькие) - это эмерджентное свойство, на которое не рассчитывали, когда создавали LLM
    LLM - языковая модель, она нужна для решения языковых задач. Это изначально был тул в арсенале исключительно NLP-шников. А трансформеры изначально изобрели для перевода
    
    А потому что вместо калькулятора начинают как обычно угадывать следующее слово
    
    Если вам нужно обращение к внешним тулам, берете реализацию, которая это поддерживает (например, ChatGPT), и говорите, чтобы модель вызывала интерпретатор Питона
    
    ddv2005
    21.06.2025 10:51
    #28468608
    Математические операции это как лакмусовая бумага галюцинаций LLM которые элементарно проверить. А вот языковой ответ проверить намного сложнее, но от этого LLM бред не становится достовернее. Я вообще в офигении от Google AI ответов. Если тема не распространенная то там такой бред, хотя с первого вгляда выглядит все логично. А все потому что LLM нихрена не понимает что генерирует, но зато математически очень вероятно что так и должно быть.
    
    einhorn
    21.06.2025 10:51
    #28468644
    лакмусовая бумага галюцинаций LLM которые элементарно проверить
    
    Я еще раз повторяю, счёт для LLM - это эмерджентное свойство; модель для этого не создавали, это просто прикольно, что LLM в принципе может считать. Точно так же LLM не учили играть в шахматы - а они, оказывается, могут. Настоящая лакмусовая бумажка для LLM - это языковые задачи: перевод, саммаризация и обратная задача (развертывание), исправление грамматики, Q&A через RAG, креативное письмо
    
    вообще в офигении от Google AI ответов
    
    это плохая реализация - они используют крохотную LLM
    для тех же целей есть Perplexity, там нормальные модели
    
    А все потому что LLM нихрена не понимает что генерирует
    
    не в этом дело. LLM хранит знание о мире в своих весах (в частности, в MLP-слоях трансформера). Когда весов мало - то она знает только самые распространенные вещи, а на остальные галлюционирует. С этим можно бороться с помощью RAG (что гугл и делает), но 1) инфы в результатах поиска может быть мало 2) она может быть недостоверна и/или противоречива (например, модель может принять шутки на реддите за чистую монету)
    
    Afiligran
    21.06.2025 10:51
    #28472016
    LLM хранит не знания о мире, о мире LLM ничего не знает. Она хранит упорядоченную информацию о текстах, которые ей скормили и упорядоченно выдаёт её вам. А уже вы, на основе своих знаний о мире даёте высокую оценку этой упорядоченной информации.
    
    Знания о мире будут у LLM тогда, когда ей дадут к миру доступ. Пока такого доступа не давали.
    
    einhorn
    21.06.2025 10:51
    #28472050
    LLM хранит информацию о фактах в весах MLP-слоев: https://www.youtube.com/watch?v=9-Jl0dxWQs8
    За знание фактов отвечает примерно 2/3 весов LLM, остальные 1/3 (attention) - за понимание текста
    
    DGN
    21.06.2025 10:51
    #28468812
    Хмм, а человек даже если догадается, то все равно не сможет ну например усилием воли добыть себе эндорфины. А для модели добраться до регистров процессора из массива данных весов, должно быть и вовсе непосильной задачей. Наверное, это ближе к тому, чтобы усилием воли физические законы менять.
  1. taujavarob
    21.06.2025 10:51
    #28468638
    вот LLM нельзя скормить правила, ей нужно сгенерировать терабайты терабайтов входных и выходных данных и потом на них обучить ее
    
    "Скормить правила" можно было машине работающей по правилам, то есть использующим Базу Знаний. - но такие программы (на основе языка Prolog) проиграли лет так 50 назад и вышли в тираж. Хотя шумиха тогда с ними была покруче сегодняшней шумихе с LLM.
    
    CrashLogger
    21.06.2025 10:51
    #28477434
    И очень жаль, что эти исследования заглохли. Скорее всего, путь к настоящему искусственному интеллекту лежит именно в этом направлении.
  1. maX1Nro
    21.06.2025 10:51
    #28469382
    Однажды по работе использовал ChatGPT, чтобы узнать молекулярную массу одного вещества в кг/кмоль.
    Выдаётся результат: 100 г/моль.
    Я прошу дать значение в кг/кмоль.
    Результат: 0,1 кг/кмоль.
    Потом мне всё-таки удалось убедить ChatGPT, что он ошибается, и правильный ответ будет 100 кг/кмоль. Но он был невероятно уверен, выдавая ошибочный результат.
  1. krote
    21.06.2025 10:51
    #28471364
    это с такой аргументацией вы и ребенка научившегося считать до 10-100 причислите к "ничего не понимающим".
    насчет счета у нейросетй - так нейровычисления это по определению не точная штука, как и мозг человека, у него тоже мозг не способен складывать сложные числа без промежуточных шагов.

GidraVydra
21.06.2025 10:51
#28467182
Для того, чтобы утверждать, что нейросеть что-то "не понимает", надо сначала дать конструктивное, полное и непротиворечивое определение понимания.
1. acc0unt
  21.06.2025 10:51
  #28467604
  Удачи с этим.
  
  "Понимание" остаётся плохо определённой философской мутью. Зато производительность ИИ на бенчмарках от релиза к релизу растёт.
  1. Wesha
    21.06.2025 10:51
    #28468846
    производительность ИИ на бенчмарках от релиза к релизу растёт.
    
    «Асимптота — воображаемая прямая, к которой график функции бесконечно приближается по мере удалении параметра в бесконечность, но никогда её не достигает.»
    
    einhorn
    21.06.2025 10:51
    #28468850
    Асимптота — воображаемая прямая, к которой график функции бесконечно приближается по мере удалении параметра в бесконечность, но никогда её не достигает
    
    Это утверждение неверно
    https://www.youtube.com/watch?v=1FF4bCOzWWg
    
    Wesha
    21.06.2025 10:51
    #28469122
    Это утверждение неверно
    
    Этого дяденьку попросили написать статью для Большой Советской Энциклопедии. А чего добился ты, %USERNAME%?
    
    https://archive.org/details/B-001-032-735-ALL/page/n366/mode/1up
    
    einhorn
    21.06.2025 10:51
    #28469128
    Ошибка была в "никогда не достигает"
    Ты даже картинку выложил, где график бесконечное число раз пересекает асимптоту
    
    Wesha
    21.06.2025 10:51
    #28469300
    Ты даже картинку выложил, где график бесконечное число раз пересекает асимптоту
    
    Естественно, приведённая цитата относилась к монотонным функциям. Или Вы намекаете на то, что ИИ сначала превозмогёт, а потом скатится?
    
    einhorn
    21.06.2025 10:51
    #28469348
    Я ничего не утверждал про ИИ. Я просто указал на типичную обывательскую ошибку по поводу асимптот. Невежеству не место на хабре
    
    Wesha
    21.06.2025 10:51
    #28470266
    Невежеству не место на хабре
    
    Видите ли, челодой моловек, если бы я в изначальном определении описывал все условия (например, требование к монотонности функции), то ко мне полезли бы с претензиями «чо ты тут заумничаешь?». И именно в силу того, что «невежеству не место на Хабре», я упускаю некоторые непринципиальные моменты — как говорится, «умный — поймёт, дурак — не догадается».
    
    einhorn
    21.06.2025 10:51
    #28470294
    То определение асимптоты - это просто заезженная ошибочная обывательская формулировка, это один токен с культурной точки зрения
    
    Wesha
    21.06.2025 10:51
    #28470366
    Ну так ведь о том и речь: Вы поняли. Однако Вам понадобилось развести об этом факте целый тред.
    
    GidraVydra
    21.06.2025 10:51
    #28469870
    Сейчас бы на серьезных щах использовать такую помойку, как бсэ, в качестве источника пруфов.
    
    Wesha
    21.06.2025 10:51
    #28470278
    Завидуйте молча!

keyarituAI
21.06.2025 10:51
#28467910
До Иск-Инов из романа "Гиперион" нам еще как до Китая в известной позе.
1. sukharichev
  21.06.2025 10:51
  #28469394
  Так это же хорошо :) Давайте отложим создание таких искинов до никогданибудь? Вы продолжение (про Эндимиона) читали?

einhorn
21.06.2025 10:51
#28468546
Название - "Почему LLM не знают, что такое «помидор»"
Содержание - как LLM знают, что такое «помидор»
Кодирование смыслов с помощью эмбеддингов - это понимание и есть
1. DGN
  21.06.2025 10:51
  #28468800
  Ну в итоге, человек сводит тоже к своим вероятностям. У кого какие помидоры в детстве были, тот так и понимает. А кого не было - по аналогии. Какой нибудь слепой человек с рождения живущий в чистой комнате на внутривенном питании, ничем не лучше модели будет понимать что такое помидор. Хоть весь интернет ему прочитай. ;)
  
  Или вот возьмем четырехмерный куб. Вроде как есть люди способные его представить, ну ок. А механизм четырехмерный? Что-то сомнения меня берут.

eeglab
21.06.2025 10:51
#28468906
Человеческие концепты тоже абстрактны — "помидор" для нашего мозга это просто паттерн активации в сложной нейронной сети нашего мозга. Мы просто дополнительно связываем это понятие с сенсорным опытом, но описываем этот опыт через абстрактные языковые конструкции (мультимодальность). И наш мозг по сути работает очень похоже с принципами работы LLM, с такими же статистическими закономерностями: чем чаще активируются определённые нейронные пути, тем сильнее становятся синаптические связи между ними. И все наши высшие когнитивные способности - эмерджентные свойства, развившиеся в результате эволюционного усложнения и увеличения размеров головного мозга. Не нужно обожествлять уникальность человека. Да, сейчас ещё модели (а языковые модели это именно моделирование принципов работы небольшой части мозга, ответственной за речь) не совершенны: нет долгосрочной памяти, нет истинной мультимодальности, нет прогнозирования и принятия решений (лобная кора) - но это вопрос времени.
1. einhorn
  21.06.2025 10:51
  #28468960
  нет долгосрочной памяти
  
  В принципе, ее и сейчас можно сделать: либо RAG, либо тюнить веса после каждой интеракции, либо промт менять в зависимости от прошлых интеракций
  
  нет прогнозирования и принятия решений
  
  Reasoning-модели - это именно про это
  Кстати, я нашел, что можно просто обычную, не-reasoning модель в промте попросить порассуждать перед ответом, и это сильно улучшает результаты (особенно в тех задачах, где ответ очень короткий, например, оценка качества чего-либо одним числом)

sshmakov
21.06.2025 10:51
#28469094
К термину "красный" неприменима характеристика "твёрдость". Видимо, соответствующий признак должен иметь значение "неопределённая вероятность"
1. autumr Автор
  21.06.2025 10:51
  #28469292
  все верно, если бы мы посмотрели значение компонента «твердость» вектора слова «красный», то увидели бы близкое к 0 значение. на деле модели извлекают гораздо более абстрактные закономерности, чем понятные нам «тяжёлый», «живой» или «съедобный», но для понятности статьи я старалась использовать интерпретируемые измерения)
  1. sshmakov
    21.06.2025 10:51
    #28471652
    все верно, если бы мы посмотрели значение компонента «твердость» вектора слова «красный», то увидели бы близкое к 0 значение
    
    Нет, мы бы увидели 0 не в признаке "твёрдость", а в маске признака "твёрдость"
    
    autumr Автор
    21.06.2025 10:51
    #28471860
    я понимаю о чем вы говорите, но тут зависит от контекста и архитектуры модели. если маска динамическая, то она будет зависеть от влияния признака на функцию потерь => в маске 0 будет только в случае низкого влияния (иногда признаки маскируются и в случае высокого, но это другой разговор), в этом и смысл селекции признаков. и сразу добавлю про влияние - это зависит от задачи. если модель учится определять цвета и материалы, то низкое значение «твердости» у слова «красный» как раз не будет маскироваться, так как будет информативным

Vlad_Black_96
21.06.2025 10:51
#28469168
Спасибо, из статьи понял, что забор вполне съедобен.
1. krote
  21.06.2025 10:51
  #28470902
  а прикиньте, есть измерения мысли где это правда! например забор из шоколада, как вам?
  1. Vlad_Black_96
    21.06.2025 10:51
    #28472146
    это прекрасно!
  1. Wesha
    21.06.2025 10:51
    #28475856
    забор из шоколада, как вам?
    
    Вот вы тут ржОте...

bighorik
21.06.2025 10:51
#28469172
Отличная статья.

Был бы признателен, если бы вы добавили определение понятию "вектор", чтобы людям, далёким от математики, можно было бы это скидывать
1. Wesha
  21.06.2025 10:51
  #28469306
  «Вектор» в общем смысле — это последовательность чисел ограниченной длины (линейный массив).

iskateli
21.06.2025 10:51
#28470194
А теперь представьте себе, что вы учитесь говорить на новом языке(например, хинди) только лишь по контексту и ощущениям. Вы не знаете, что значит определённый набор символов, но часто видели в текстах, что после него стоит какая‑то конструкция, так что начинаете говорить так же. Вы не понимаете, что вам говорят люди, но вы слышали, что другие отвечают на эти же слова, и вы повторяете чужой ответ.
Это же классический пример мысленного эксперимента Китайская комната
1. CrashLogger
  21.06.2025 10:51
  #28477454
  Не совсем. В китайской комнате у вас заранее есть инструкции, что отвечать на каждый входной набор данных. Что делает ее бессмысленной, так как вариантов входных данных бесконечное количество. А в приведенном примере с изучением языка вы постоянно улучшаете свои знания на основе наблюдений за реакцией окружающих. Так делают, например, собаки, которые не понимают нашего языка, но понимают взаимосвязь между словом "гулять" и тем, что хозяин берет поводок и открывает дверь.
  1. Wesha
    21.06.2025 10:51
    #28477796
    вы постоянно улучшаете свои знания
    
    Китайские комнаты тоже так умеют

Почему LLM не знают, что такое «помидор», и как не дать себя обмануть? +36

Комментарии (64)

autumr Автор

autumr Автор

autumr Автор