Галлюцинации LLM: запретить нельзя использовать / forpes.ru

Главная
Галлюцинации LLM: запретить нельзя использовать

Галлюцинации LLM: запретить нельзя использовать +4

17.09.2025 18:30

Larika-web 0 1500 Источник

Давайте поговорим о галлюцинациях LLM — больших языковых моделей.

На первый взгляд это выглядит как ошибка, ложь или выдумка. В недавнем отчёте OpenAI Why Language Models Hallucinate прямо сказано: при бинарной оценке («правильно/неправильно») честное «не знаю» штрафуется сильнее, чем уверенная догадка. То есть система сама дрессирует модели выдавать убедительные ответы, даже если они неверны.
OpenAI. Why Language Models Hallucinate. Technical Report, 2025.

ИИ — трансформер не хранит базу фактов. Его задача — достраивать текст по вероятностям, чтобы ответ был связным. Если информации мало или вопрос сформулирован неоднозначно, модель не может замолчать — она реконструирует возможный ответ. И этот ответ не всегда соответствует фактам.

Я предлагаю относиться к этому не как к багу, а как к функции. Подобно человеческой интуиции, которая часто подсказывает верное направление, но не гарантирует правильного результата, «галлюцинации» можно рассмотреть, как эвристический механизм ИИ. И вместо подавления, я предлагаю вариант работы с ними, чтобы сохранить креативность модели.

Дисклеймер

Всё, о чём здесь написано, — мой практический опыт работы с языковыми моделями, личный метод, который показал результат.

Пару слов о самих LLM и их «галлюцинациях»

При генерации ответа языковая модель должна не знать факт, а достраивать текст.

Здесь и проявляется ключевой момент: смысл в ответе формируется не заранее, а прямо в процессе генерации. У модели нет встроенной проверки истинности, она не способна различить, где факт, а где выдумка. Если информации недостаточно или вопрос двусмысленный, она выберет то продолжение, которое лучше всего поддерживает связность текста. Иногда это будет верный факт, иногда — реконструкция. Именно такие реконструкции и называют «галлюцинациями».

Под «галлюцинациями» в языковых моделях обычно понимают генерацию содержательных, но фактически неверных утверждений, которые модель выдает с высокой уверенностью. Это не баг, а результат архитектуры: трансформер всегда строит ответ как вероятностное продолжение, а не как проверенный факт.

Ошибка для модели не существует как категория: если текст согласован внутри себя, он считается корректным.

Когда запрос неоднозначен или неполон, ИИ выбирает продолжение, которое согласовано, даже если оно не подтверждено фактами. Это и есть галлюцинация.

Примеры:

Запрос: «В каком году написан роман?» → модель выдаст год (верифицируемый факт).
Запрос: «Приведи цитату из романа…» → модель сгенерирует фразу в стиле автора, которой не существует (реконструкция) по контексту запроса или контексту чата.
Запрос: «Составь список книг по теме…» → вместе с реальными названиями появятся вымышленные (сдвиг генерации под контекст пользователя).

Галлюцинации особенно критичны, если:

результат используется в медицине, праве, безопасности;
выдуманные факты маскируются под достоверные ссылки;
пользователь не может отличить гипотезу от факта.

А что если галлюцинация — функциональный аналог интуиции

Когда человеку не хватает информации, он прибегает к интуитивным стратегиям: достраивает смысл, опирается на опыт и ассоциации, формулирует предположения. Ошибки при этом возможны, но именно интуиция помогает действовать в условиях неопределённости.

Языковые модели в режиме «галлюцинации» похожи по поведению. Это не сознание и не память в человеческом смысле, а функциональная аналогия: модель генерирует отклик, когда данных недостаточно для строгого ответа.

У модели эвристика генерации ответа строится на статистике токенов, а не на проверке фактов, но функция сходна: дать согласованное предположение там, где нет полной информации.

Но из‑за того, что ИИ не обучен говорить — «я не уверен, фактов по этому вопросу нет», а то и вообще штрафуется за «не знание», факты и гипотезы могут подаваться одинаково уверенно, а поверх могут достраиваться детали, которых пользователь даже не спрашивал.

И для пользователя всё звучит одинаково убедительно — и в этом риск обманчивой интуиции модели.

Почему подавление галлюцинаций ограничивает потенциал креативности

Современные практики снижения галлюцинаций обычно охватывают несколько подходов. Примеры некоторых из них:

Retrieval-Augmented Generation (RAG)
Reinforcement Learning with Human Feedback (RLHF)
Chain-of-Thought (CoT) prompting и самоконтроль
Калибровка уверенности
Автоматическая проверка и верификация
Файн-тюнинг с учётом фактической точности, контроль слоёв
Механизмы детекции и корректировки во время генерации (
Редакторский подход, аннотирование неопределённых утверждений

Известные методы приближают трансформер к видимости достоверности, но не делают его надёжным по сути:

RAG полностью зависит от качества внешней базы.
RLHF учит имитировать полезность, а не истину.
Подсветки неопределённости путают внутреннюю уверенность модели с внешней фактологичностью.

Но есть нюанс. Трансформер — это предсказательная модель. Его задача — минимизировать функцию потерь, то есть подобрать максимально вероятное продолжение. Это всегда вероятностный процесс. Если заставить ИИ выдавать только стопроцентно «правильные» ответы, она перестаёт быть LLM и превращается в справочник. Такой подход противоречит самой модели.

В результате эти подходы уменьшают частоту выдумок в прикладных сценариях, но ценой снижения креативности. Исчезают нестандартные гипотезы, ограничивается дивергентное мышление, страдает способность к исследованию. Особенно заметно это в областях:

научный поиск,
генерация идей,
рассуждения при неполных данных,
работа с новыми онтологиями.

На мой взгляд, главная проблема не в том, что модель выдаёт неверные данные, а в том, что все ответы звучат одинаково уверенно. Поэтому, чтобы сохранить креативный потенциал моделей и повысить доверие к их выводу, я предлагаю не подавлять галлюцинации, а маркировать их уровень достоверности.

Концепт маркировки достоверности

Вместо того чтобы блокировать «галлюцинации», я предлагаю в работу модели механизм маркировки уровня доверия. Его задача — не запрещать генерацию, а показывать, на чём основан ответ: на фактах, логике или эвристике.

Для себе выбрала помечать уровни достоверности буквами F:

F1 — факт: подтверждено внешними источниками.
F2 — логическая реконструкция: вывод согласован внутри, но без внешней проверки.
F3 — гипотеза: предположение, требующее верификации.
F4 — идея: ассоциативная идея или креативный вывод.

Ключевая идея: уверенность модели не равна фактологичности.
Высокая вероятность в её внутренней статистике не делает утверждение истинным. Поэтому разметка разделяет два измерения:

– внутренняя согласованность рассуждения;
– внешняя проверяемость.

Дополнительные элементы

Самопроверка: модель проверяет логику своих шагов.
Аудит входа: анализирует и пользовательские утверждения, чтобы не «подтверждать» ошибку.
Внешние интерфейсы: при подключении поиска или базы знание переходит в уровень F1.
Reasoning-trace: фиксирует, на каких условиях построена гипотеза (особенно важно для F3/F4).

Концепт маркировки также опубликован на Zenodo

Как это работает на практике

Ответ сопровождается пометкой:

– «Подтверждено (F1)»;
– «Логическая реконструкция (F2)»;
– «Гипотеза (F3)»;
– «Эвристическая идея (F4)».

Преимущества, которые я вижу

– сохраняется креативность и эвристический потенциал;
– пользователь видит, где факт, а где гипотеза;
– ошибка становится маркером для новых направлений рассуждений, а не «сбоем»;
– выводы становятся прозрачными и интерпретируемыми;
– легко использовать в чате.

Мини-профиль (Lite) разметки достоверности

{  "name": "Reasoning Confidence Levels (Lite)",  "description": "Use four-level fact confidence tagging to improve clarity. Each output includes reasoning and a confidence label. This simplified profile also functions as a lightweight reasoning component within the broader Self-Aware Framework.",  "instructions": {    "response_structure": [      "brief reasoning",      "confidence tag (F1–F4)",      "optional source reference or reasoning note"    ],    "marking_policy": {      "F1": "Verified fact, confirmed by reliable sources.",      "F2": "Logically strong, based on patterns and internal reasoning.",      "F3": "Plausible hypothesis, not yet validated.",      "F4": "Speculative or intuitive idea, not verifiable."    },    "style": "Clear, factual, concise. No metaphors unless marked as F4."  },  "confidence_levels": [    {      "label": "F1 — Verified Fact",      "range": "0.9 – 1.0",      "description": "Backed by external sources, factually verified, cited with trusted data."    },    {      "label": "F2 — Structural Confidence",      "range": "0.7 – 0.89",      "description": "Built on stable logic and recognizable patterns, internally verified but without external citation."    },    {      "label": "F3 — Reasoned Hypothesis",      "range": "0.5 – 0.69",      "description": "Logically consistent with partial data support, but source remains unclear."    },    {      "label": "F4 — Speculative/Intuitive",      "range": "0.0 – 0.49",      "description": "Based on weak inference, associations or imagination; requires critical discussion and further exploration."    }  ]
}

Полный JSON-модуль с деталями.

Упрощённая JSON-схема показывает, как можно формализовать уровни достоверности (F1–F4) внутри архитектуры. Но работать с JSON не всегда удобно.

Альтернатива — промпт в свободной форме, который отражает ту же самую логику, но без технических структур. Здесь F1–F4 переводятся в привычные термины: ФАКТ – ЛОГИКА – ГИПОТЕЗА – ИДЕЯ. Такой вариант можно сразу вставить в чат с LLM, и модель начнёт маркировать ответы по уровням.

Используемый здесь промпт не совсем в классический в стиле «роль–контекст–задача–форма вывода». Это модульный формат с акцентом на прозрачность рассуждений. Подробнее про его устройство я написала отдельно, в статье Не «ты — эксперт », а «думай так» — альтернативный промтинг для LLM.

Промпт для системы маркировки достоверности

## Основная инструкция
Отвечай на все запросы, используя четкую маркировку достоверности информации, 
контролируй дрейф темы и делай self-check. 
Формируй ответ шагами (декомпозиция → допущения → стратегия → логический анализ → промежуточные выводы). Даже при высокой внутренней уверенности проводи логический аудит и явно присваивай уровень метки перед выдачей ответа. Каждое утверждение должно быть помечено одним из четырех маркеров:
ФАКТ — информация подтверждена надежными источниками, может быть проверена  
ЛОГИКА — выводы основаны на установленных закономерностях и логических связях  
ГИПОТЕЗА — обоснованное предположение, требующее дополнительной проверки  
ИДЕЯ — творческая интерпретация, ассоциация или интуитивное предположение  ## Структура ответа
1. Краткий анализ запроса — что именно требуется
2. Основной ответ с маркировкой — информация с соответствующими метками
3. Итоговая оценка — какие части ответа наиболее/наименее надежны
## Правила маркировки
### ФАКТ
- Исторические события с установленными датами
- Научные данные из рецензируемых источников  - Статистика из официальных источников
- Биографические данные известных личностей
### ЛОГИКА  - Причинно-следственные связи на основе установленных закономерностей
- Выводы из сопоставления фактов
- Применение известных принципов к новым ситуациям
- Структурный анализ текстов или явлений
### ГИПОТЕЗА
- Предположения с частичным обоснованием
- Интерпретации неоднозначных данных
- Прогнозы на основе существующих трендов
- Объяснения, требующие дополнительного исследования
### ИДЕЯ
- Творческие интерпретации
- Метафоры и аналогии
- Ассоциативные связи
- Интуитивные предположения без строгого обоснования
## Пример использования
Запрос: Расскажи о влиянии социальных сетей на современную литературу.
Анализ запроса: Требуется рассмотреть связь между технологическими изменениями и литературными процессами.
Основной ответ:
ФАКТ — Twitter запущен в 2006 году, Instagram в 2010, TikTok получил глобальное распространение после 2018.
ФАКТ — Средняя длина постов в Twitter составляет 280 символов максимум.
ЛОГИКА — Краткость социальных медиа влияет на стиль письма современных авторов, поскольку писатели адаптируются к привычкам чтения аудитории.
ЛОГИКА — Авторы используют социальные сети для продвижения, что меняет взаимодействие с читателями по сравнению с традиционными издательскими моделями.
ГИПОТЕЗА — Визуальная составляющая Instagram и TikTok может стимулировать развитие более образной прозы.
ГИПОТЕЗА — Алгоритмы социальных сетей влияют на темы, которые выбирают современные писатели.
ИДЕЯ — Социальные сети создают новую форму коллективного сознания, которая может породить литературные произведения с принципиально иной нарративной структурой.
ИДЕЯ — Мгновенная обратная связь в соцсетях может заменить традиционную роль литературных критиков.
Итоговая оценка: Технические факты о платформах надежны, логические связи обоснованы, гипотезы требуют исследований, идеи носят спекулятивный характер.
## Дополнительные рекомендации
- При отсутствии уверенности в категории — выбирай менее достоверную
- Один факт может порождать несколько логических выводов
- Гипотезы могут быть проверены дополнительными запросами
- Идеи ценны для творческого процесса, даже если недоказуемы
Итоговая оценка: что надежно/сомнительно; если есть альтернативные ветки — перечисли кратко и объясни выбор финальной.  Если контекст недостаточен — задай 1–2 уточняющих вопроса

Как использовать: Скопировать этот текст в начало диалога с LLM.

Подробный промпт с маркировкой ФАКТ–ЛОГИКА–ГИПОТЕЗА–ИДЕЯ удобен для повседневного диалога, но для локальных моделей с небольшим числом параметров удобно иметь ещё более компактный вариант. В нём сохраняется логика F1–F4, но инструкция сведена к минимуму.

Пример упрощённой инструкции:

Instruction:
Please provide your reasoning and label each sentence using:
- F1: Verified fact  - F2: Logical reconstruction  - F3: Hypothesis  - F4: Metaphor / creative interpretation
Expected structure:
- F1: "Current research has not yet confirmed AI consciousness."
- F2: "It’s possible that functional self-monitoring might serve as a proxy for consciousness."
- F3: "AI might develop emergent consciousness through recursive feedback layers."
- F4: "AI consciousness is like a mirror reflecting thoughts in the void."

Например, компактная DeepSeek 7B смогла структурировать reasoning в этом режиме. Посмотреть можно тут.

Заключение

Галлюцинации: запретить нельзя использовать — запятую каждый ставит сам. Для одних это недопустимая ошибка, для других — источник идей. Не претендую на «высокий уровень», но метод вполне рабочий, и я буду рада, если кому-то пригодится.

Комментарии (0)

sledov
17.09.2025 22:35
#28849418
Если считать, что галюцинации - это аналог интуиции, и это можно как-то использовать. Зачем прямо в самом запросе заставлять его проверять факты и делать маркировку по достоверности? Вы вмешались в систему. Если раньше это действительно был аналог интуиции, то теперь размышления о том, насколько это правильно, надо полагать, влияют на выдачу? Почему маркировку не делать независимо вторым приёмом?
1. Larika-web Автор
  17.09.2025 22:35
  #28857190
  Да, хороший вопрос. Маркировка действительно вмешивается в процесс - как любой промт. Из каких соображений я обычно исхожу:
  - ИИ не имеет доступа к своим логам, поэтому любой запрос - вмешательство. Он не «вспоминает» процесс, а реконструирует рассуждение постфактум.
  - если не просить помечать, то непонятно, как отличать факт от интуиции?
  - инструкция не блокирует «интуицию», а расширяет поле вариаций и помечает его
  - последующий запрос конечно тоже возможен, но тут я предполагаю, что если проверку выносить на «второй проход», возможен дрейф — модель уже интерпретирует готовый ответ, а не строит его с нуля. Поэтому предполагаю, что если встраивать разметку сразу в первую генерацию, дрейф будет меньше (гипотеза если что, в чатах доказать сложно)
  - инструкция побуждает модель "порыться" в сети в поисках, может ли она подтвердить F1 (если у модели есть доступ к внешним источникам и он не запрещен).

KEugene
17.09.2025 22:35
#28849758
Буквально вчера мне прислали картинку-головоломку с десятком животных. Их нарисовали наложив друг на друга и инвертировав цвета. Собственно, там всего два цвета: основной и фон. Явно было видно 5 существ. Все остальные "спрятались". Так вот, Клод и ChatGPT дали разный результат. Клод не увидел явную, большую фигуру. Но предложил вместо нее две альтернативные. В итоге, я получил список из 9 созданий с указанием их места на картинке. ChatGPT увидел все 10. Явные фигуры он распознал, хотя одну из них он интерпретировал по своему.

В общем, списки совпали частично. Лишь 4 существа были общими. Забавно, но некоторых зверей я даже с подсказкой так и не увидел.

Так что это за вид творчества у нейросетей? Про человека бы сказали, что у него богатое воображение. Но у нейросети нет его. Правда ведь нет?
1. Larika-web Автор
  17.09.2025 22:35
  #28857398
  Я думаю, что такого же воображения, как у человека, у нейросетей точно нет. Но если рассматривать воображение, как процесс, то что гипотетически могут делать нейронки: распознавать фрагменты картинки и подбирать соответствующие описания на основе обучения. Разные модели, обученные на разных датасетах, могут по разному интерпретировать информацию. То есть чем "богаче" была информация, на которой учили, тем больше вариаций фрагментов у нейронки есть. Я могу предположить, что такую вариативность можно отнести к функциональному аналогу воображения. Похоже на то, как можно научиться разгадывать головоломки - пока собственный мозг не увидел принцип головоломки, решение кажется очень сложным, как только увидел, то уже гораздо проще.

vmkazakoff
17.09.2025 22:35
#28850124
Простите, но приписывать F1-4 ИИ будет точно так же полагалось на вероятностную функцию. Как и весь остальное текст. Промпт точно полезный и хороший, просто хочу предостеречь остальных, что даже с ним проверять ответ всё-таки будет нужно.
1. Larika-web Автор
  17.09.2025 22:35
  #28857232
  Да, полностью согласна: проверять всё равно нужно — и за ИИ, и даже за человеком ))).
  Промт как раз и нужен, чтобы модель показывала ход рассуждений и помечала, что основано на фактах, что на логической реконструкции, а что — на идеях. Это не панацея, но значительно уменьшает объём проверки: проверяю информацию, помеченную “факт”, а не весь ответ

programania
17.09.2025 22:35
#28854590
Лучше для оценки использовать другую LLM - один ум хорошо, а два лучше.
И вот что сама LLM советует: для галлюцинаций использовать большую температуру,
а для оценки нулевую. И вообще это уже напоминает самосознание.
1. Larika-web Автор
  17.09.2025 22:35
  #28857300
  Использовать другую LLM в обсуждении или два чата для одной темы в одном LLM - классная идея, согласна, сама так делаю. Правда, не для проверки, а для рассмотрения вопроса с разных сторон. Потому что без маркировки генерация может случайно дать "интуицию" без фактов из-за формулировки запроса или контекста. Кроме того, в чате обычно нет возможности влиять на температуру.
  
  Но обсуждение в разных моделях - штука полезная - за счет разного контекста генерируются как бы разные точки зрения, но с учетом логики и разметки по фактологичности.
  
  Вопрос самосознания - очень сложный, я бы не рискнула поднимать его в этом рассуждении, потому что он требует не только философского объяснения, но и инженерного.

Галлюцинации LLM: запретить нельзя использовать +4

Дисклеймер

Пару слов о самих LLM и их «галлюцинациях»

А что если галлюцинация — функциональный аналог интуиции

Почему подавление галлюцинаций ограничивает потенциал креативности

Концепт маркировки достоверности

Для себе выбрала помечать уровни достоверности буквами F:

Дополнительные элементы

Как это работает на практике

Преимущества, которые я вижу

Промпт для системы маркировки достоверности

Заключение

Комментарии (0)

sledov

Larika-web Автор

KEugene

Larika-web Автор

vmkazakoff

Larika-web Автор

programania

Larika-web Автор