
Давайте поговорим о галлюцинациях LLM — больших языковых моделей.
На первый взгляд это выглядит как ошибка, ложь или выдумка. В недавнем отчёте OpenAI Why Language Models Hallucinate прямо сказано: при бинарной оценке («правильно/неправильно») честное «не знаю» штрафуется сильнее, чем уверенная догадка. То есть система сама дрессирует модели выдавать убедительные ответы, даже если они неверны.
OpenAI. Why Language Models Hallucinate. Technical Report, 2025.
ИИ — трансформер не хранит базу фактов. Его задача — достраивать текст по вероятностям, чтобы ответ был связным. Если информации мало или вопрос сформулирован неоднозначно, модель не может замолчать — она реконструирует возможный ответ. И этот ответ не всегда соответствует фактам.
Я предлагаю относиться к этому не как к багу, а как к функции. Подобно человеческой интуиции, которая часто подсказывает верное направление, но не гарантирует правильного результата, «галлюцинации» можно рассмотреть, как эвристический механизм ИИ. И вместо подавления, я предлагаю вариант работы с ними, чтобы сохранить креативность модели.
Дисклеймер
Всё, о чём здесь написано, — мой практический опыт работы с языковыми моделями, личный метод, который показал результат.
Пару слов о самих LLM и их «галлюцинациях»
При генерации ответа языковая модель должна не знать факт, а достраивать текст.
Здесь и проявляется ключевой момент: смысл в ответе формируется не заранее, а прямо в процессе генерации. У модели нет встроенной проверки истинности, она не способна различить, где факт, а где выдумка. Если информации недостаточно или вопрос двусмысленный, она выберет то продолжение, которое лучше всего поддерживает связность текста. Иногда это будет верный факт, иногда — реконструкция. Именно такие реконструкции и называют «галлюцинациями».
Под «галлюцинациями» в языковых моделях обычно понимают генерацию содержательных, но фактически неверных утверждений, которые модель выдает с высокой уверенностью. Это не баг, а результат архитектуры: трансформер всегда строит ответ как вероятностное продолжение, а не как проверенный факт.
Ошибка для модели не существует как категория: если текст согласован внутри себя, он считается корректным.
Когда запрос неоднозначен или неполон, ИИ выбирает продолжение, которое согласовано, даже если оно не подтверждено фактами. Это и есть галлюцинация.
Примеры:
Запрос: «В каком году написан роман?» → модель выдаст год (верифицируемый факт).
Запрос: «Приведи цитату из романа…» → модель сгенерирует фразу в стиле автора, которой не существует (реконструкция) по контексту запроса или контексту чата.
Запрос: «Составь список книг по теме…» → вместе с реальными названиями появятся вымышленные (сдвиг генерации под контекст пользователя).
Галлюцинации особенно критичны, если:
результат используется в медицине, праве, безопасности;
выдуманные факты маскируются под достоверные ссылки;
пользователь не может отличить гипотезу от факта.
А что если галлюцинация — функциональный аналог интуиции
Когда человеку не хватает информации, он прибегает к интуитивным стратегиям: достраивает смысл, опирается на опыт и ассоциации, формулирует предположения. Ошибки при этом возможны, но именно интуиция помогает действовать в условиях неопределённости.
Языковые модели в режиме «галлюцинации» похожи по поведению. Это не сознание и не память в человеческом смысле, а функциональная аналогия: модель генерирует отклик, когда данных недостаточно для строгого ответа.
У модели эвристика генерации ответа строится на статистике токенов, а не на проверке фактов, но функция сходна: дать согласованное предположение там, где нет полной информации.
Но из‑за того, что ИИ не обучен говорить — «я не уверен, фактов по этому вопросу нет», а то и вообще штрафуется за «не знание», факты и гипотезы могут подаваться одинаково уверенно, а поверх могут достраиваться детали, которых пользователь даже не спрашивал.
И для пользователя всё звучит одинаково убедительно — и в этом риск обманчивой интуиции модели.
Почему подавление галлюцинаций ограничивает потенциал креативности
Современные практики снижения галлюцинаций обычно охватывают несколько подходов. Примеры некоторых из них:
Retrieval-Augmented Generation (RAG)
Reinforcement Learning with Human Feedback (RLHF)
Chain-of-Thought (CoT) prompting и самоконтроль
Калибровка уверенности
Автоматическая проверка и верификация
Файн-тюнинг с учётом фактической точности, контроль слоёв
Механизмы детекции и корректировки во время генерации (
Редакторский подход, аннотирование неопределённых утверждений
Известные методы приближают трансформер к видимости достоверности, но не делают его надёжным по сути:
RAG полностью зависит от качества внешней базы.
RLHF учит имитировать полезность, а не истину.
Подсветки неопределённости путают внутреннюю уверенность модели с внешней фактологичностью.
Но есть нюанс. Трансформер — это предсказательная модель. Его задача — минимизировать функцию потерь, то есть подобрать максимально вероятное продолжение. Это всегда вероятностный процесс. Если заставить ИИ выдавать только стопроцентно «правильные» ответы, она перестаёт быть LLM и превращается в справочник. Такой подход противоречит самой модели.
В результате эти подходы уменьшают частоту выдумок в прикладных сценариях, но ценой снижения креативности. Исчезают нестандартные гипотезы, ограничивается дивергентное мышление, страдает способность к исследованию. Особенно заметно это в областях:
научный поиск,
генерация идей,
рассуждения при неполных данных,
работа с новыми онтологиями.
На мой взгляд, главная проблема не в том, что модель выдаёт неверные данные, а в том, что все ответы звучат одинаково уверенно. Поэтому, чтобы сохранить креативный потенциал моделей и повысить доверие к их выводу, я предлагаю не подавлять галлюцинации, а маркировать их уровень достоверности.
Концепт маркировки достоверности

Вместо того чтобы блокировать «галлюцинации», я предлагаю в работу модели механизм маркировки уровня доверия. Его задача — не запрещать генерацию, а показывать, на чём основан ответ: на фактах, логике или эвристике.
Для себе выбрала помечать уровни достоверности буквами F:
F1 — факт: подтверждено внешними источниками.
F2 — логическая реконструкция: вывод согласован внутри, но без внешней проверки.
F3 — гипотеза: предположение, требующее верификации.
F4 — идея: ассоциативная идея или креативный вывод.
Ключевая идея: уверенность модели не равна фактологичности.
Высокая вероятность в её внутренней статистике не делает утверждение истинным. Поэтому разметка разделяет два измерения:
– внутренняя согласованность рассуждения;
– внешняя проверяемость.
Дополнительные элементы
Самопроверка: модель проверяет логику своих шагов.
Аудит входа: анализирует и пользовательские утверждения, чтобы не «подтверждать» ошибку.
Внешние интерфейсы: при подключении поиска или базы знание переходит в уровень F1.
Reasoning-trace: фиксирует, на каких условиях построена гипотеза (особенно важно для F3/F4).
Концепт маркировки также опубликован на Zenodo
Как это работает на практике
Ответ сопровождается пометкой:
– «Подтверждено (F1)»;
– «Логическая реконструкция (F2)»;
– «Гипотеза (F3)»;
– «Эвристическая идея (F4)».
Преимущества, которые я вижу
– сохраняется креативность и эвристический потенциал;
– пользователь видит, где факт, а где гипотеза;
– ошибка становится маркером для новых направлений рассуждений, а не «сбоем»;
– выводы становятся прозрачными и интерпретируемыми;
– легко использовать в чате.
Мини-профиль (Lite) разметки достоверности
{ "name": "Reasoning Confidence Levels (Lite)", "description": "Use four-level fact confidence tagging to improve clarity. Each output includes reasoning and a confidence label. This simplified profile also functions as a lightweight reasoning component within the broader Self-Aware Framework.", "instructions": { "response_structure": [ "brief reasoning", "confidence tag (F1–F4)", "optional source reference or reasoning note" ], "marking_policy": { "F1": "Verified fact, confirmed by reliable sources.", "F2": "Logically strong, based on patterns and internal reasoning.", "F3": "Plausible hypothesis, not yet validated.", "F4": "Speculative or intuitive idea, not verifiable." }, "style": "Clear, factual, concise. No metaphors unless marked as F4." }, "confidence_levels": [ { "label": "F1 — Verified Fact", "range": "0.9 – 1.0", "description": "Backed by external sources, factually verified, cited with trusted data." }, { "label": "F2 — Structural Confidence", "range": "0.7 – 0.89", "description": "Built on stable logic and recognizable patterns, internally verified but without external citation." }, { "label": "F3 — Reasoned Hypothesis", "range": "0.5 – 0.69", "description": "Logically consistent with partial data support, but source remains unclear." }, { "label": "F4 — Speculative/Intuitive", "range": "0.0 – 0.49", "description": "Based on weak inference, associations or imagination; requires critical discussion and further exploration." } ]
}
Полный JSON-модуль с деталями.
Упрощённая JSON-схема показывает, как можно формализовать уровни достоверности (F1–F4) внутри архитектуры. Но работать с JSON не всегда удобно.
Альтернатива — промпт в свободной форме, который отражает ту же самую логику, но без технических структур. Здесь F1–F4 переводятся в привычные термины: ФАКТ – ЛОГИКА – ГИПОТЕЗА – ИДЕЯ. Такой вариант можно сразу вставить в чат с LLM, и модель начнёт маркировать ответы по уровням.
Используемый здесь промпт не совсем в классический в стиле «роль–контекст–задача–форма вывода». Это модульный формат с акцентом на прозрачность рассуждений. Подробнее про его устройство я написала отдельно, в статье Не «ты — эксперт », а «думай так» — альтернативный промтинг для LLM.
Промпт для системы маркировки достоверности
## Основная инструкция
Отвечай на все запросы, используя четкую маркировку достоверности информации,
контролируй дрейф темы и делай self-check.
Формируй ответ шагами (декомпозиция → допущения → стратегия → логический анализ → промежуточные выводы). Даже при высокой внутренней уверенности проводи логический аудит и явно присваивай уровень метки перед выдачей ответа. Каждое утверждение должно быть помечено одним из четырех маркеров:
ФАКТ — информация подтверждена надежными источниками, может быть проверена
ЛОГИКА — выводы основаны на установленных закономерностях и логических связях
ГИПОТЕЗА — обоснованное предположение, требующее дополнительной проверки
ИДЕЯ — творческая интерпретация, ассоциация или интуитивное предположение ## Структура ответа
1. Краткий анализ запроса — что именно требуется
2. Основной ответ с маркировкой — информация с соответствующими метками
3. Итоговая оценка — какие части ответа наиболее/наименее надежны
## Правила маркировки
### ФАКТ
- Исторические события с установленными датами
- Научные данные из рецензируемых источников - Статистика из официальных источников
- Биографические данные известных личностей
### ЛОГИКА - Причинно-следственные связи на основе установленных закономерностей
- Выводы из сопоставления фактов
- Применение известных принципов к новым ситуациям
- Структурный анализ текстов или явлений
### ГИПОТЕЗА
- Предположения с частичным обоснованием
- Интерпретации неоднозначных данных
- Прогнозы на основе существующих трендов
- Объяснения, требующие дополнительного исследования
### ИДЕЯ
- Творческие интерпретации
- Метафоры и аналогии
- Ассоциативные связи
- Интуитивные предположения без строгого обоснования
## Пример использования
Запрос: Расскажи о влиянии социальных сетей на современную литературу.
Анализ запроса: Требуется рассмотреть связь между технологическими изменениями и литературными процессами.
Основной ответ:
ФАКТ — Twitter запущен в 2006 году, Instagram в 2010, TikTok получил глобальное распространение после 2018.
ФАКТ — Средняя длина постов в Twitter составляет 280 символов максимум.
ЛОГИКА — Краткость социальных медиа влияет на стиль письма современных авторов, поскольку писатели адаптируются к привычкам чтения аудитории.
ЛОГИКА — Авторы используют социальные сети для продвижения, что меняет взаимодействие с читателями по сравнению с традиционными издательскими моделями.
ГИПОТЕЗА — Визуальная составляющая Instagram и TikTok может стимулировать развитие более образной прозы.
ГИПОТЕЗА — Алгоритмы социальных сетей влияют на темы, которые выбирают современные писатели.
ИДЕЯ — Социальные сети создают новую форму коллективного сознания, которая может породить литературные произведения с принципиально иной нарративной структурой.
ИДЕЯ — Мгновенная обратная связь в соцсетях может заменить традиционную роль литературных критиков.
Итоговая оценка: Технические факты о платформах надежны, логические связи обоснованы, гипотезы требуют исследований, идеи носят спекулятивный характер.
## Дополнительные рекомендации
- При отсутствии уверенности в категории — выбирай менее достоверную
- Один факт может порождать несколько логических выводов
- Гипотезы могут быть проверены дополнительными запросами
- Идеи ценны для творческого процесса, даже если недоказуемы
Итоговая оценка: что надежно/сомнительно; если есть альтернативные ветки — перечисли кратко и объясни выбор финальной. Если контекст недостаточен — задай 1–2 уточняющих вопроса
Как использовать: Скопировать этот текст в начало диалога с LLM.
Подробный промпт с маркировкой ФАКТ–ЛОГИКА–ГИПОТЕЗА–ИДЕЯ удобен для повседневного диалога, но для локальных моделей с небольшим числом параметров удобно иметь ещё более компактный вариант. В нём сохраняется логика F1–F4, но инструкция сведена к минимуму.
Пример упрощённой инструкции:
Instruction:
Please provide your reasoning and label each sentence using:
- F1: Verified fact - F2: Logical reconstruction - F3: Hypothesis - F4: Metaphor / creative interpretation
Expected structure:
- F1: "Current research has not yet confirmed AI consciousness."
- F2: "It’s possible that functional self-monitoring might serve as a proxy for consciousness."
- F3: "AI might develop emergent consciousness through recursive feedback layers."
- F4: "AI consciousness is like a mirror reflecting thoughts in the void."
Например, компактная DeepSeek 7B смогла структурировать reasoning в этом режиме. Посмотреть можно тут.
Заключение
Галлюцинации: запретить нельзя использовать — запятую каждый ставит сам. Для одних это недопустимая ошибка, для других — источник идей. Не претендую на «высокий уровень», но метод вполне рабочий, и я буду рада, если кому-то пригодится.
Комментарии (0)
KEugene
17.09.2025 22:35Буквально вчера мне прислали картинку-головоломку с десятком животных. Их нарисовали наложив друг на друга и инвертировав цвета. Собственно, там всего два цвета: основной и фон. Явно было видно 5 существ. Все остальные "спрятались". Так вот, Клод и ChatGPT дали разный результат. Клод не увидел явную, большую фигуру. Но предложил вместо нее две альтернативные. В итоге, я получил список из 9 созданий с указанием их места на картинке. ChatGPT увидел все 10. Явные фигуры он распознал, хотя одну из них он интерпретировал по своему.
В общем, списки совпали частично. Лишь 4 существа были общими. Забавно, но некоторых зверей я даже с подсказкой так и не увидел.
Так что это за вид творчества у нейросетей? Про человека бы сказали, что у него богатое воображение. Но у нейросети нет его. Правда ведь нет?
vmkazakoff
17.09.2025 22:35Простите, но приписывать F1-4 ИИ будет точно так же полагалось на вероятностную функцию. Как и весь остальное текст. Промпт точно полезный и хороший, просто хочу предостеречь остальных, что даже с ним проверять ответ всё-таки будет нужно.
sledov
Если считать, что галюцинации - это аналог интуиции, и это можно как-то использовать. Зачем прямо в самом запросе заставлять его проверять факты и делать маркировку по достоверности? Вы вмешались в систему. Если раньше это действительно был аналог интуиции, то теперь размышления о том, насколько это правильно, надо полагать, влияют на выдачу? Почему маркировку не делать независимо вторым приёмом?