Давайте поговорим о галлюцинациях LLM — больших языковых моделей.

На первый взгляд это выглядит как ошибка, ложь или выдумка. В недавнем отчёте OpenAI Why Language Models Hallucinate прямо сказано: при бинарной оценке («правильно/неправильно») честное «не знаю» штрафуется сильнее, чем уверенная догадка. То есть система сама дрессирует модели выдавать убедительные ответы, даже если они неверны.
OpenAI. Why Language Models Hallucinate. Technical Report, 2025.

ИИ — трансформер не хранит базу фактов. Его задача — достраивать текст по вероятностям, чтобы ответ был связным. Если информации мало или вопрос сформулирован неоднозначно, модель не может замолчать — она реконструирует возможный ответ. И этот ответ не всегда соответствует фактам.

Я предлагаю относиться к этому не как к багу, а как к функции. Подобно человеческой интуиции, которая часто подсказывает верное направление, но не гарантирует правильного результата, «галлюцинации» можно рассмотреть, как эвристический механизм ИИ. И вместо подавления, я предлагаю вариант работы с ними, чтобы сохранить креативность модели.

Дисклеймер

Всё, о чём здесь написано, — мой практический опыт работы с языковыми моделями, личный метод, который показал результат.


Пару слов о самих LLM и их «галлюцинациях»

При генерации ответа языковая модель должна не знать факт, а достраивать текст.

Здесь и проявляется ключевой момент: смысл в ответе формируется не заранее, а прямо в процессе генерации. У модели нет встроенной проверки истинности, она не способна различить, где факт, а где выдумка. Если информации недостаточно или вопрос двусмысленный, она выберет то продолжение, которое лучше всего поддерживает связность текста. Иногда это будет верный факт, иногда — реконструкция. Именно такие реконструкции и называют «галлюцинациями».

Под «галлюцинациями» в языковых моделях обычно понимают генерацию содержательных, но фактически неверных утверждений, которые модель выдает с высокой уверенностью. Это не баг, а результат архитектуры: трансформер всегда строит ответ как вероятностное продолжение, а не как проверенный факт.

Ошибка для модели не существует как категория: если текст согласован внутри себя, он считается корректным.

Когда запрос неоднозначен или неполон, ИИ выбирает продолжение, которое согласовано, даже если оно не подтверждено фактами. Это и есть галлюцинация.

Примеры:

  • Запрос: «В каком году написан роман?» → модель выдаст год (верифицируемый факт).

  • Запрос: «Приведи цитату из романа…» → модель сгенерирует фразу в стиле автора, которой не существует (реконструкция) по контексту запроса или контексту чата.

  • Запрос: «Составь список книг по теме…» → вместе с реальными названиями появятся вымышленные (сдвиг генерации под контекст пользователя).

Галлюцинации особенно критичны, если:

  • результат используется в медицине, праве, безопасности;

  • выдуманные факты маскируются под достоверные ссылки;

  • пользователь не может отличить гипотезу от факта.

А что если галлюцинация — функциональный аналог интуиции

Когда человеку не хватает информации, он прибегает к интуитивным стратегиям: достраивает смысл, опирается на опыт и ассоциации, формулирует предположения. Ошибки при этом возможны, но именно интуиция помогает действовать в условиях неопределённости.

Языковые модели в режиме «галлюцинации» похожи по поведению. Это не сознание и не память в человеческом смысле, а функциональная аналогия: модель генерирует отклик, когда данных недостаточно для строгого ответа.

У модели эвристика генерации ответа строится на статистике токенов, а не на проверке фактов, но функция сходна: дать согласованное предположение там, где нет полной информации.

Но из‑за того, что ИИ не обучен говорить — «я не уверен, фактов по этому вопросу нет», а то и вообще штрафуется за «не знание», факты и гипотезы могут подаваться одинаково уверенно, а поверх могут достраиваться детали, которых пользователь даже не спрашивал.

И для пользователя всё звучит одинаково убедительно — и в этом риск обманчивой интуиции модели.

Почему подавление галлюцинаций ограничивает потенциал креативности

Современные практики снижения галлюцинаций обычно охватывают несколько подходов. Примеры некоторых из них:

  1. Retrieval-Augmented Generation (RAG)

  2. Reinforcement Learning with Human Feedback (RLHF)

  3. Chain-of-Thought (CoT) prompting и самоконтроль

  4. Калибровка уверенности

  5. Автоматическая проверка и верификация

  6. Файн-тюнинг с учётом фактической точности, контроль слоёв

  7. Механизмы детекции и корректировки во время генерации (

  8. Редакторский подход, аннотирование неопределённых утверждений

Известные методы приближают трансформер к видимости достоверности, но не делают его надёжным по сути:

  • RAG полностью зависит от качества внешней базы.

  • RLHF учит имитировать полезность, а не истину.

  • Подсветки неопределённости путают внутреннюю уверенность модели с внешней фактологичностью.

Но есть нюанс. Трансформер — это предсказательная модель. Его задача — минимизировать функцию потерь, то есть подобрать максимально вероятное продолжение. Это всегда вероятностный процесс. Если заставить ИИ выдавать только стопроцентно «правильные» ответы, она перестаёт быть LLM и превращается в справочник. Такой подход противоречит самой модели.

В результате эти подходы уменьшают частоту выдумок в прикладных сценариях, но ценой снижения креативности. Исчезают нестандартные гипотезы, ограничивается дивергентное мышление, страдает способность к исследованию. Особенно заметно это в областях:

  • научный поиск,

  • генерация идей,

  • рассуждения при неполных данных,

  • работа с новыми онтологиями.

На мой взгляд, главная проблема не в том, что модель выдаёт неверные данные, а в том, что все ответы звучат одинаково уверенно. Поэтому, чтобы сохранить креативный потенциал моделей и повысить доверие к их выводу, я предлагаю не подавлять галлюцинации, а маркировать их уровень достоверности.

Концепт маркировки достоверности

Вместо того чтобы блокировать «галлюцинации», я предлагаю в работу модели механизм маркировки уровня доверия. Его задача — не запрещать генерацию, а показывать, на чём основан ответ: на фактах, логике или эвристике.

Для себе выбрала помечать уровни достоверности буквами F:

  • F1 — факт: подтверждено внешними источниками.

  • F2 — логическая реконструкция: вывод согласован внутри, но без внешней проверки.

  • F3 — гипотеза: предположение, требующее верификации.

  • F4 — идея: ассоциативная идея или креативный вывод.

Ключевая идея: уверенность модели не равна фактологичности.
Высокая вероятность в её внутренней статистике не делает утверждение истинным. Поэтому разметка разделяет два измерения:

– внутренняя согласованность рассуждения;
– внешняя проверяемость.

Дополнительные элементы

  • Самопроверка: модель проверяет логику своих шагов.

  • Аудит входа: анализирует и пользовательские утверждения, чтобы не «подтверждать» ошибку.

  • Внешние интерфейсы: при подключении поиска или базы знание переходит в уровень F1.

  • Reasoning-trace: фиксирует, на каких условиях построена гипотеза (особенно важно для F3/F4).

Концепт маркировки также опубликован на Zenodo

Как это работает на практике

Ответ сопровождается пометкой:

– «Подтверждено (F1)»;
– «Логическая реконструкция (F2)»;
– «Гипотеза (F3)»;
– «Эвристическая идея (F4)».

Преимущества, которые я вижу

– сохраняется креативность и эвристический потенциал;
– пользователь видит, где факт, а где гипотеза;
– ошибка становится маркером для новых направлений рассуждений, а не «сбоем»;
– выводы становятся прозрачными и интерпретируемыми;
– легко использовать в чате.

Мини-профиль (Lite) разметки достоверности

{  "name": "Reasoning Confidence Levels (Lite)",  "description": "Use four-level fact confidence tagging to improve clarity. Each output includes reasoning and a confidence label. This simplified profile also functions as a lightweight reasoning component within the broader Self-Aware Framework.",  "instructions": {    "response_structure": [      "brief reasoning",      "confidence tag (F1–F4)",      "optional source reference or reasoning note"    ],    "marking_policy": {      "F1": "Verified fact, confirmed by reliable sources.",      "F2": "Logically strong, based on patterns and internal reasoning.",      "F3": "Plausible hypothesis, not yet validated.",      "F4": "Speculative or intuitive idea, not verifiable."    },    "style": "Clear, factual, concise. No metaphors unless marked as F4."  },  "confidence_levels": [    {      "label": "F1 — Verified Fact",      "range": "0.9 – 1.0",      "description": "Backed by external sources, factually verified, cited with trusted data."    },    {      "label": "F2 — Structural Confidence",      "range": "0.7 – 0.89",      "description": "Built on stable logic and recognizable patterns, internally verified but without external citation."    },    {      "label": "F3 — Reasoned Hypothesis",      "range": "0.5 – 0.69",      "description": "Logically consistent with partial data support, but source remains unclear."    },    {      "label": "F4 — Speculative/Intuitive",      "range": "0.0 – 0.49",      "description": "Based on weak inference, associations or imagination; requires critical discussion and further exploration."    }  ]
}

Полный JSON-модуль с деталями.

Упрощённая JSON-схема показывает, как можно формализовать уровни достоверности (F1–F4) внутри архитектуры. Но работать с JSON не всегда удобно.

Альтернатива — промпт в свободной форме, который отражает ту же самую логику, но без технических структур. Здесь F1–F4 переводятся в привычные термины: ФАКТ – ЛОГИКА – ГИПОТЕЗА – ИДЕЯ. Такой вариант можно сразу вставить в чат с LLM, и модель начнёт маркировать ответы по уровням.

Используемый здесь промпт не совсем в классический в стиле «роль–контекст–задача–форма вывода». Это модульный формат с акцентом на прозрачность рассуждений. Подробнее про его устройство я написала отдельно, в статье Не «ты — эксперт », а «думай так» — альтернативный промтинг для LLM.

Промпт для системы маркировки достоверности

## Основная инструкция
Отвечай на все запросы, используя четкую маркировку достоверности информации, 
контролируй дрейф темы и делай self-check. 
Формируй ответ шагами (декомпозиция → допущения → стратегия → логический анализ → промежуточные выводы). Даже при высокой внутренней уверенности проводи логический аудит и явно присваивай уровень метки перед выдачей ответа. Каждое утверждение должно быть помечено одним из четырех маркеров:
ФАКТ — информация подтверждена надежными источниками, может быть проверена  
ЛОГИКА — выводы основаны на установленных закономерностях и логических связях  
ГИПОТЕЗА — обоснованное предположение, требующее дополнительной проверки  
ИДЕЯ — творческая интерпретация, ассоциация или интуитивное предположение  ## Структура ответа
1. Краткий анализ запроса — что именно требуется
2. Основной ответ с маркировкой — информация с соответствующими метками
3. Итоговая оценка — какие части ответа наиболее/наименее надежны
## Правила маркировки
### ФАКТ
- Исторические события с установленными датами
- Научные данные из рецензируемых источников  - Статистика из официальных источников
- Биографические данные известных личностей
### ЛОГИКА  - Причинно-следственные связи на основе установленных закономерностей
- Выводы из сопоставления фактов
- Применение известных принципов к новым ситуациям
- Структурный анализ текстов или явлений
### ГИПОТЕЗА
- Предположения с частичным обоснованием
- Интерпретации неоднозначных данных
- Прогнозы на основе существующих трендов
- Объяснения, требующие дополнительного исследования
### ИДЕЯ
- Творческие интерпретации
- Метафоры и аналогии
- Ассоциативные связи
- Интуитивные предположения без строгого обоснования
## Пример использования
Запрос: Расскажи о влиянии социальных сетей на современную литературу.
Анализ запроса: Требуется рассмотреть связь между технологическими изменениями и литературными процессами.
Основной ответ:
ФАКТ — Twitter запущен в 2006 году, Instagram в 2010, TikTok получил глобальное распространение после 2018.
ФАКТ — Средняя длина постов в Twitter составляет 280 символов максимум.
ЛОГИКА — Краткость социальных медиа влияет на стиль письма современных авторов, поскольку писатели адаптируются к привычкам чтения аудитории.
ЛОГИКА — Авторы используют социальные сети для продвижения, что меняет взаимодействие с читателями по сравнению с традиционными издательскими моделями.
ГИПОТЕЗА — Визуальная составляющая Instagram и TikTok может стимулировать развитие более образной прозы.
ГИПОТЕЗА — Алгоритмы социальных сетей влияют на темы, которые выбирают современные писатели.
ИДЕЯ — Социальные сети создают новую форму коллективного сознания, которая может породить литературные произведения с принципиально иной нарративной структурой.
ИДЕЯ — Мгновенная обратная связь в соцсетях может заменить традиционную роль литературных критиков.
Итоговая оценка: Технические факты о платформах надежны, логические связи обоснованы, гипотезы требуют исследований, идеи носят спекулятивный характер.
## Дополнительные рекомендации
- При отсутствии уверенности в категории — выбирай менее достоверную
- Один факт может порождать несколько логических выводов
- Гипотезы могут быть проверены дополнительными запросами
- Идеи ценны для творческого процесса, даже если недоказуемы
Итоговая оценка: что надежно/сомнительно; если есть альтернативные ветки — перечисли кратко и объясни выбор финальной.  Если контекст недостаточен — задай 1–2 уточняющих вопроса

Как использовать: Скопировать этот текст в начало диалога с LLM.

Подробный промпт с маркировкой ФАКТ–ЛОГИКА–ГИПОТЕЗА–ИДЕЯ удобен для повседневного диалога, но для локальных моделей с небольшим числом параметров удобно иметь ещё более компактный вариант. В нём сохраняется логика F1–F4, но инструкция сведена к минимуму.

Пример упрощённой инструкции:

Instruction:
Please provide your reasoning and label each sentence using:
- F1: Verified fact  - F2: Logical reconstruction  - F3: Hypothesis  - F4: Metaphor / creative interpretation
Expected structure:
- F1: "Current research has not yet confirmed AI consciousness."
- F2: "It’s possible that functional self-monitoring might serve as a proxy for consciousness."
- F3: "AI might develop emergent consciousness through recursive feedback layers."
- F4: "AI consciousness is like a mirror reflecting thoughts in the void."

Например, компактная DeepSeek 7B смогла структурировать reasoning в этом режиме. Посмотреть можно тут.

Заключение

Галлюцинации: запретить нельзя использовать — запятую каждый ставит сам. Для одних это недопустимая ошибка, для других — источник идей. Не претендую на «высокий уровень», но метод вполне рабочий, и я буду рада, если кому-то пригодится.

Комментарии (0)


  1. sledov
    17.09.2025 22:35

    Если считать, что галюцинации - это аналог интуиции, и это можно как-то использовать. Зачем прямо в самом запросе заставлять его проверять факты и делать маркировку по достоверности? Вы вмешались в систему. Если раньше это действительно был аналог интуиции, то теперь размышления о том, насколько это правильно, надо полагать, влияют на выдачу? Почему маркировку не делать независимо вторым приёмом?


  1. KEugene
    17.09.2025 22:35

    Буквально вчера мне прислали картинку-головоломку с десятком животных. Их нарисовали наложив друг на друга и инвертировав цвета. Собственно, там всего два цвета: основной и фон. Явно было видно 5 существ. Все остальные "спрятались". Так вот, Клод и ChatGPT дали разный результат. Клод не увидел явную, большую фигуру. Но предложил вместо нее две альтернативные. В итоге, я получил список из 9 созданий с указанием их места на картинке. ChatGPT увидел все 10. Явные фигуры он распознал, хотя одну из них он интерпретировал по своему.

    В общем, списки совпали частично. Лишь 4 существа были общими. Забавно, но некоторых зверей я даже с подсказкой так и не увидел.

    Так что это за вид творчества у нейросетей? Про человека бы сказали, что у него богатое воображение. Но у нейросети нет его. Правда ведь нет?


  1. vmkazakoff
    17.09.2025 22:35

    Простите, но приписывать F1-4 ИИ будет точно так же полагалось на вероятностную функцию. Как и весь остальное текст. Промпт точно полезный и хороший, просто хочу предостеречь остальных, что даже с ним проверять ответ всё-таки будет нужно.