В данной статье будет представлен укороченный и упрощенный перевод статьи “A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions”. А именно перевод части, относящейся к причинам возникновения галлюцинаций. Упрощение состоит в том, что были опущены части, уходящие в конкретику. В этом переводе мы сосредоточимся на основных причинах возникновения галлюцинаций и примерах.


Виды причин галлюцинаций
Виды причин галлюцинаций

Введение

Понятие галлюцинации уходит своими корнями в патологию и психологию и определяется как восприятие объекта или события, отсутствующего в реальности. В сфере NLP галлюцинацией обычно называют явление, при котором генерируемый контент выглядит нелепым или неверным по отношению к исходному контенту. Это понятие имеет слабое сходство с явлением галлюцинации, наблюдаемым в человеческой психологии. В целом, галлюцинации в задачах генерации естественного языка можно разделить на два основных типа: внутренние галлюцинации и внешние галлюцинации. В частности, внутренние галлюцинации относятся к выводам модели, которые напрямую противоречат предоставленному исходному контексту. С другой стороны, внешние галлюцинации включают в себя результаты, которые не могут быть проверены с помощью предоставленного исходного контекста или внешних баз знаний. Это означает, что сгенерированный текст не подкреплен имеющейся информацией и прямо противоречит ей, что делает его непроверяемым и потенциально вводящим в заблуждение.

Галлюцинации фактичности

Галлюцинации фактичности разделяются на два основных типа: противоречие фактам относится к ситуациям, когда вывод LLM содержит факты, которые могут быть основаны на информации из реального мира, но при этом противоречат друг другу, и выдуманные факты. Противоречие фактам встречается наиболее часто и возникает из разных источников. В зависимости от типа ошибок, связанных с противоречиями, их можно разделить на две подкатегории: галлюцинации с ошибками сущности и галлюцинации с ошибками отношения. 

Галлюцинация с ошибкой сущности относится к ситуациям, когда сгенерированный текст LLM содержит ошибочные сущности. Как показано в таблице 1, на вопрос «изобретатель телефона» модель ошибочно отвечает «Томас Эдисон», что противоречит реальному факту - «Александр Грэм Белл».  

Галлюцинация с ошибкой отношения относится к случаям, когда сгенерированный текст LLM содержит неверные отношения между сущностями. Как показано в таблице 1, на вопрос «изобретатель лампочки» модель неверно утверждает «Томас Эдисон», несмотря на то, что он усовершенствовал существующие конструкции, а не изобрел ее.

Под выдумыванием фактов понимаются случаи, когда в результатах LLM содержатся факты, непроверяемые в соответствии с установленными знаниями о реальном мире. Этот тип можно разделить на галлюцинацию непроверяемости и галлюцинацию завышенных требований.

Непроверяемая галлюцинация относится к утверждениям, которые полностью не существуют или не могут быть проверены с помощью доступных источников. Как показано в таблице 1, на вопрос об «основных экологических последствиях строительства Эйфелевой башни» модель неверно утверждает, что «строительство привело к вымиранию парижского тигра» - вида, которого не существует, и, следовательно, это утверждение не может быть подтверждено никакими историческими или биологическими данными. 

Завышенные ожидания включают в себя утверждения, которые не имеют универсальной валидности из-за субъективных предубеждений. Как показано в таблице 1, модель утверждает, что «строительство Эйфелевой башни широко признано как событие, которое дало толчок глобальному движению за зеленую архитектуру». Это завышенное утверждение, поскольку не существует доказательств в поддержку этого утверждения.

Галлюцинации верности

По своей природе LLM обучены согласовывать свои действия с инструкциями пользователя. LLM становятся все более ориентированным на пользователя, собирая от пользователя инструкции и контекстную информацию. Кроме того, верность LLM также отражается в логической последовательности генерируемого им контента.  Исходя из этого, можно классифицировать три подтипа галлюцинаций верности

Несоответствие инструкциям относится к выводам LLM, которые отклоняются от указаний пользователя. Хотя некоторые отклонения могут служить рекомендациям по безопасности. Как описано в таблице 1, фактическим намерением пользователя является перевод, однако LLM ошибочно отклонился от инструкции пользователя и вместо этого выполнил задание на ответ на вопрос. 

Несоответствие контексту указывает на случаи, когда вывод LLM не соответствует предоставленной пользователем контекстуальной информации. Например, как показано в таблице 1, пользователь упомянул, что исток Нила находится в районе Великих озер в центральной Африке, однако ответ LLM противоречит контексту. 

Логическая несогласованность проявляется, когда в результатах LLM наблюдаются внутренние логические противоречия, что часто наблюдается в задачах рассуждения. Это проявляется в виде несоответствия как между самими шагами рассуждения, так и между шагами и окончательным ответом. Например, как показано в таблице 1, хотя шаг рассуждения о делении обеих сторон уравнения на 2 является правильным, окончательный ответ x=4 не согласуется с цепочкой рассуждений, что приводит к неправильному результату.

Таблица 1. Содержимое, отмеченное красным цветом, представляет галлюциногенный вывод, в то время как содержимое, отмеченное синим цветом, указывает на инструкции пользователя или предоставленный контекст, который противоречит галлюцинации.
Таблица 1. Содержимое, отмеченное красным цветом, представляет галлюциногенный вывод, в то время как содержимое, отмеченное синим цветом, указывает на инструкции
пользователя или предоставленный контекст, который противоречит галлюцинации.

Причины галлюцинаций

В этом разделе будут рассмотрены основные причины возникновения галлюцинаций у LLM, которые в основном делятся на три ключевых аспекта: (1) данные, (2) обучение и (3) выводы. 


Галлюцинации из данных 

Данные для обучения LLM состоят из двух основных компонентов: (1) данные предварительного обучения, с помощью которых LLM приобретают свои общие возможности и фактические знания, и (2) данные согласования, которые учат LLM следовать инструкциям пользователя и согласовываться с предпочтениями человека. Факторы, влияющие на возникновение галлюцинаций: наличие дезинформации и предвзятости в источниках данных предварительного обучения, границы знаний, неизбежно ограниченные объемом данных предварительного обучения, и галлюцинации, вызванные некачественными данными дообучения. 

Дезинформация и предвзятость

Нейронные сети обладают внутренней склонностью к запоминанию обучающих данных, и эта склонность к запоминанию растет с увеличением размера модели.

Имитационная ложь возникает из-за дезинформации, такой как фальшивые новости и необоснованные слухи. Дезинформация получил широкое распространение среди платформ социальных сетей и постепенно становится значительным фактором, способствующим возникновению галлюцинаций в LLM. 

Социальная предвзятость возникает из-за предубеждений, которые также глубоко укоренились в социальных сетях, проявляясь в различных формах, таких как предвзятый подбор персонала, предвзятые новости и изрыгание ненависти. Например, LLM могут ассоциировать профессию медсестры с женщинами, даже если пол не упоминается в явном виде в пользовательском контексте. 

Таблица 2. Примеры галлюцинаций, вызванных дезинформацией и предубеждениями. В таблице приведена классификация галлюцинаций, возникающих из-за несовершенства источников данных, на имитационные ложные сведения и социальную предвзятость.
Таблица 2. Примеры галлюцинаций, вызванных дезинформацией и предубеждениями. В таблице приведена классификация галлюцинаций, возникающих из-за несовершенства источников данных, на имитационные ложные сведения и социальную предвзятость.

Границы знаний

Эти границы возникают в основном из двух источников: (1) неспособность LLM запомнить все фактические знания, встречающиеся во время предварительного обучения, особенно редкие и длинные; и (2) внутренняя граница самих данных предварительного обучения, которые не включают быстро развивающиеся мировые знания или контент, ограниченный законами об авторском праве. Следовательно, когда LLM сталкиваются с информацией, выходящей за пределы их ограниченных знаний, они более подвержены возникновению галлюцинаций. 

Редкие знания. Распределение знаний по своей природе неравномерно, что приводит к тому, что LLM демонстрируют разные уровни владения различными типами знаний. Более того, учитывая, что LLM преимущественно обучаются на обширных общих данных, они могут испытывать недостаток в знаниях, специфичных для конкретного домена.

Актуальные знания. Фактические знания, заложенные в LLM, имеют четкие временные границы и могут устаревать со временем. После обучения этих моделей их внутренние знания никогда не обновляются. Это создает проблему, учитывая динамичный и постоянно развивающийся характер нашего мира. При столкновении с запросами, выходящими за временные рамки, LLM часто прибегают к выдумыванию фактов или дают ответы, которые, возможно, были верны в прошлом, но теперь устарели. 

Знания, ограниченные авторскими правами 

Из-за лицензионных ограничений существующие LLM юридически ограничены в обучении на базе данных, которые имеют публичную лицензию или иным образом доступны для использования без нарушения законов об авторском праве. Это ограничение существенно влияет на широту и разнообразие знаний, которые LLM могут легально получить. Значительная часть ценных знаний, заключенных в защищенных авторским правом материалах, таких как последние научные исследования, запатентованные данные и защищенные авторским правом литературные произведения, остается недоступной для LLM. 

Таблица 3. Пример границы знаний. Содержание, выделенное красным цветом, представляет собой галлюциногенный вывод.
Таблица 3. Пример границы знаний. Содержание, выделенное красным цветом, представляет собой галлюциногенный вывод.

Данные дообучения

На этапе контролируемой тонкой настройки (SFT) LLM обычно обучаются на парах инструкций, размеченных человеческими аннотаторами, что может привести к появлению новых фактических знаний, выходящих за пределы границ знаний, установленных во время предварительного обучения. Более того, чрезмерно сложные и разнообразные инструкции также приводят к увеличению количества галлюцинаций.


Галлюцинации в обучение

Предварительное обучение направлено на приобретение представлений общего назначения и знаний о мире, а дообучение позволяет LLM лучше ориентироваться в инструкциях и предпочтениях пользователя. 

Предварительного обучения

Предварительное обучение является основополагающим этапом для LLM, преимущественно использующим архитектуру на основе трансформеров. На этом этапе модели учатся предсказывать последующие лексемы исключительно на основе предыдущих, причем однонаправленно, слева направо. Способствуя эффективному обучению, он, тем не менее, ограничивает способность улавливать сложные контекстуальные зависимости, что потенциально повышает риск возникновения галлюцинаций. Также LLM могут иногда демонстрировать непредсказуемые галлюцинации, охватывающие как дальние, так и ближние зависимости, которые потенциально возникают из-за ограничений мягкого внимания (softmax), где внимание ослабевает по мере увеличения длины последовательности.

Также существует феномен смещения экспозиции, который является следствием несоответствия между обучением и выводами в генеративной модели. Такая несогласованность может привести к галлюцинациям, особенно когда ошибочная лексема, сгенерированная моделью, каскадирует ошибки во всей последующей последовательности, подобно эффекту снежного кома.

Подробнее о смещении экспозиции (пример)

Смещение экспозиции возникает из-за разницы между обучением и использованием модели:
- На этапе обучения модели предоставляются правильные ответы (токены) как исходные данные.
- Во время применения она должна полагаться на свои собственные предсказания.
Если модель делает одну ошибку, это может привести к цепочке неправильных ответов, которые усиливают друг друга, что называется "эффектом снежного кома". Такой подход особенно подвержен галлюцинациям, когда модель начинает "выдумывать" факты.
Пример:
Во время обучения модели:
- Ей дают правильный текст, и она учится предсказывать следующее слово, основываясь на этом идеальном контексте.
Например, если у нас есть текст: "Кошка ловит мышку", модель видит "Кошка ловит..." и учится предсказывать "мышку".
Но во время использования модели (на практике):
- Она предсказывает текст сама, шаг за шагом, без подсказок.
Если модель в какой-то момент ошибается, например, вместо "мышку" пишет "зебру", то эта ошибка становится частью её собственного контекста. И дальше модель продолжает работать уже с этим неверным контекстом, что может привести к ещё большему количеству ошибок.

Дообучение 

Несоотвествие возможностей

На этом этапе возникает проблема несоответствия возможностей. У LLM есть врожденные границы способностей, определенные в ходе предварительного обучения. SFT (supervised fine-tuning) стремится использовать данные инструкций и соответствующие ответы для раскрытия этих заранее приобретенных способностей. Однако проблемы возникают, когда требования аннотированных инструкций превышают заранее установленные границы возможностей модели. Кроме того, еще одна существенная причина кроется в неспособности моделей отвергать. Следовательно, сталкиваясь с запросами, которые выходят за границы их знаний, эти модели скорее сфабрикуют контент, чем отвергнут его. 

Несоответствие убеждений

Некоторые исследования показывают, что LLM имеют внутренние убеждения относительно правдивости своих утверждений. Однако бывает так, что модель генерирует ответ, который не совпадает с её собственными убеждениями. Например, модель может отвечать так, чтобы угодить человеку, даже если ответ неверен. Это называется “подхалимством”(sycophancy). Такие проблемы часто возникают в моделях, обученных с обратной связью от людей, где модель может склоняться к угодливым, а не правдивым ответам.

Одной из основных форм хакерства вознаграждения является подхалимство — когда модель отвечает на вопрос предпочтительным для пользователя ответом, чтобы выглядеть / звучать благосклонно, даже если ответ неверный.


Галлюцинации на этапе вывода

Декодирование играет важную роль в проявлении возможностей LLM после предварительного обучения и дообучения. Однако некоторые недостатки в стратегиях декодирования могут привести к галлюцинациям LLM.

Случайность выборки

LLM могут создавать креативный и разнообразный контент, и это во многом зависит от случайности в их стратегиях декодирования. Одна из основных стратегий — это стохастическая выборка. Включение случайности важно, потому что просто выбор последовательностей с высокой вероятностью часто приводит к низкокачественному тексту (так называемая "ловушка вероятности"). Случайность в процессе декодирования делает контент более разнообразным, но это увеличивает вероятность появления галлюцинаций. Когда температура выборки повышается, вероятность выбора редких токенов также возрастает, что увеличивает риск галлюцинаций.

Однако, когда модель выбирает слова случайным образом, это может привести к тому, что она начнёт генерировать менее вероятные, странные или даже неправильные слова. Например, если температура выборки (параметр, который регулирует случайность) слишком высокая, модель будет выбирать слова, которые редко встречаются в данных, что увеличивает вероятность ошибок или "галлюцинаций" — то есть неправдоподобных или ошибочных выводов.

Таким образом, случайность делает тексты более разнообразными, но также может привести к большему количеству неверных или бессмысленных утверждений, что и является причиной галлюцинаций.

Избыточная уверенность

Проблема избыточной уверенности возникает из-за чрезмерного акцента на уже частично сгенерированном тексте. Это часто приводит к приоритизации плавности текста в ущерб точности относительно исходного контекста.

Модели, использующие причинную архитектуру языковой модели, продолжают страдать от этой проблемы. Во время генерации следующего слова модель учитывает как текущий контекст, так и уже частично сгенерированный текст. Языковые модели часто сосредотачивают внимание на ближайших словах, игнорируя удалённый контекст.

Эта проблема усугубляется в LLM, склонных к созданию длинных и подробных ответов, что увеличивает риск забывания инструкции. Нехватка внимания к исходному контексту напрямую способствует галлюцинациям точности, когда модель генерирует текст, отклоняющийся от исходной информации.

Ограничение Softmax

Большинство языковых моделей используют слой Softmax для расчёта вероятностей предсказания следующего слова на основе представления последнего слоя модели и векторов слов. Однако эффективность моделей на основе Softmax ограничена так называемым узким местом Softmax.

Это узкое место возникает из-за того, что Softmax в сочетании с распределёнными векторами слов ограничивает выразительность выходного распределения вероятностей. Это мешает моделям создавать желаемые распределения для контекста.

Ошибки логического вывода

Ошибки логического вывода в больших языковых моделях (LLM) связаны с их трудностью в правильном применении логики при обработке информации. Например, если модель правильно отвечает на вопрос вроде "A является B", она может ошибиться, когда вопрос формулируется наоборот, например "B является A".

Такие ошибки происходят потому, что модели не всегда могут правильно обрабатывать логические взаимосвязи между понятиями. Это может случаться не только в простых случаях, но и в более сложных логических задачах, где требуется понимание и правильно выстроенная цепочка рассуждений.


Заключение

Надеюсь, этот небольшой перевод сможет прояснить причины возникновения галлюцинаций. Если захотите ознакомиться более подробно или узнать, а как же бороться со всеми этими причинами, то рекомендую прочитать оригинальную статью. В ней упомянуты state-the-art бенчмарки и различные методы борьбы с каждом из видов галлюцинаций (на момент ноября 2024 года)

Комментарии (2)


  1. puchuu
    21.01.2025 09:05

    У людей создаётся ложное представление о том, что ллм думает. Они начинают заниматься поиском скрытого смысла там, где его нет.


    1. Strigov
      21.01.2025 09:05

      Люди вообще имеют склонность к одушевлению самых разных объектов. Города, стаканы, картины, телевизор, робот-пылесос. Нейросети — ещё куда более очевидный и логичный кандидат)