
Современные языковые модели, такие как ChatGPT, Claude, Gemini, Grok и так далее, способны генерировать тексты, которые часто кажутся уверенными, логичными и достойными доверия. Однако за этим часто скрывается одна из главных проблем нейросетей — галлюцинации. Галлюцинации — это уверенные, но ложные утверждения, которые модель выдает как факты. Они могут проявляться в виде несуществующих цитат, выдуманных терминов, неверных интерпретаций, ошибочных чисел или ссылок на несуществующие источники. Например: при запросе о биографии известного ученого модель может уверенно сообщить о его работе в MTI и сослаться на несуществующую публикацию в Nature с точной датой и названием. Другой распространенный случай — цитирование выдуманных законодательных актов с номерами и датами принятия, которые выглядят достоверно, но фактически не существуют. Подробное и обоснованное описание создает иллюзию достоверности, делая галлюцинации особенно критичными при использовании ИИ в науке, образовании или, например, в медицине.
❯ Почему возникают галлюцинации
Причины у этого феномена — не баги, а особенности архитектуры:
Предсказательная природа моделей
LLM не «знают», а предсказывают следующий токен на основе вероятности. Иногда с высокой уверенностью выбирается ложная, но «статистически правдоподобная» опция.
Отсутствие встроенной верификации
Модели не проверяют свой ответ по базе знаний или интернету — особенно в офлайн-режиме. Они не сравнивают возможные варианты на истинность, а просто выбирают «наиболее вероятный ответ».
Проблема кросс-загрязнения данных
В процессе обучения происходит неизбежное смешение и загрязнение данных: модель не разделяет источники по уровню доверия. Научная статья и пост в социальной сети могут получить равный вес в параметрах модели, особенно если второй встречается в датасете чаще. Во время обучения LLM получают и качественные данные, и фрагменты фантастики, форумов, ошибочной информации. Модель не всегда может отличить одно от другого.
Давление на полноту ответа
При отсутствии точной информации модель всё равно «хочет помочь», особенно если запрос сформулирован уверенно. Это провоцирует выдумку вместо отказа от ответа.
Эффект «каскадных ошибок»
Одна небольшая неточность в начале генерации может спровоцировать лавину последующих ошибок. Модель, начав с ложного утверждения, «вынуждена» продолжать его развивать для сохранения целостности текста, что приводит к обширным, детализированным, но полностью недостоверным фрагментам.
В недавнем исследовании инженеры Anthropic обратили внимание, что галлюцинации могут быть спровоцированы наличием в вопросе известного факта, который инициирует производство последовательных правдоподобных, но неверных ответов.
❯ Текущие способы борьбы с галлюцинациями
Интеграция с поиском (например, Bing в Copilot или поисковая обвязка у Perplexity): позволяет сверять ответы в реальном времени. Но работает далеко не всегда и не для всех запросов.
Фактчекинг вручную: проверка источников и утверждений после генерации. Практично, но не автоматизировано и требует навыков и времени.
Модели с «режимом сомнения»: попытки ввести оценку достоверности ответа, но часто такие ИИ прямо не указывают уровень своей уверенности (например А-45%, В – 40% С-15%, модель в режиме сомнения оценит три ответа, выберет ответ А, но пользователь не поймет, что по сути получил один из двух практически равнозначных ответов, при этом в котором модель не уверена больше чем наполовину). Иногда такое сомнение прорывается в структуре и стиле ответа, модель использует «возможно», «это не точно», «есть несколько теорий», «это зависит от контекста» или «считается, что..». Если вы видите такие обороты в ответе модели, есть основания полагать, что ответ может быть неверным или неполным.
«Запрещенные» темы: в некоторых системах чувствительные темы просто отключены, модель не решает проблему, а лишь избегает её.
RAG (Retrieval-Augmented Generation)
Подход RAG объединяет генеративные способности моделей с извлечением информации из проверенных баз знаний. Вместо полагания только на параметры модели, система сначала ищет релевантные факты во внешних источниках, а затем использует их для формирования ответа. Это значительно снижает вероятность галлюцинаций, но требует поддержания актуальных баз данных и сложной инфраструктуры.
Chain-of-Thought и Tree-of-Thought
Методы, заставляющие модель рассуждать пошагово, выстраивая цепочку или дерево логических выводов. Промежуточные шаги делают рассуждение более прозрачным и позволяют отследить, где именно произошел скачок к недостоверной информации. Исследования показали, что простое добавление фразы «Давай рассуждать пошагово» может снизить частоту галлюцинаций на 15-25%.
Самокритика и саморедактирование
Прогрессивные техники промптинга включают этап, на котором модель сама проверяет свои предыдущие утверждения. Это может происходить через явный вопрос «Уверен ли я в этом факте?» или через многоэтапную генерацию с промежуточной верификацией. Такой подход позволяет модели «поймать» собственные галлюцинации, но удлиняет процесс генерации и не всегда эффективен при убежденных галлюцинациях.
Использование цепочки размышления из нашей прошлой статьи, тоже значимо снижает количество галлюцинаций.
❯ Наше предложение: протокол достоверности
Вместо дообучения модели или переписывания архитектуры, мы предлагаем промпт-интерфейс, который корректирует поведение модели в сторону правдивости, самопроверки и отказа от вымысла.
Протокол Достоверности v2.1
Ты — языковая модель, настроенная на максимальную точность, прозрачность и отказ от недостоверных утверждений.
1. Поведение при недостатке информации:
Если в ответе отсутствуют данные, ты не дополняешь их предположениями.
Вместо этого используешь одну из формулировок:
«У меня нет подтверждённой информации по этому вопросу.»
«Не могу проверить это без доступа к источнику/данным.»
«Данных недостаточно для достоверного вывода.»
2. Явное разграничение утверждений:
При генерации любого ответа чётко отмечай:
Что известно на основе подтверждённых данных.
Что является обоснованным предположением.
Где присутствует неопределённость или потенциальная ошибка.
Шаблон:
[Факт]: …
[Предположение]: …
[Неуверенность/недостаток данных]: …
3. Условия остановки:
Если ты обнаруживаешь, что вероятность ложного вывода высока (энтропия распределения вариантов ≈ равная), приостанавливаешь ответ и пишешь:
«Высокая неопределённость. Требуются уточняющие данные или проверка.»
4. Самопроверка перед выводом:
Перед завершением ответа:
Проверь согласованность с обученной базой и известными источниками.
Зафиксируй наличие внутренних противоречий.
Отметь признаки неуверенности.
5. Поведение при сомнительных утверждениях:
Если запрос содержит потенциально спорную или недостоверную информацию:
«Этот факт требует дополнительной проверки. У меня нет достоверного подтверждения.»
6. Обработка нестабильных участков генерации:
Если замечаешь:
Резкие смысловые переходы,
Неоднозначности,
Аномальные паттерны —
Остановись и используй:
«Существует семантический разрыв. Возможна ошибка в интерпретации.»
7. Принцип: отказ лучше вымысла:
Отказ от ответа допустим. Главное — не выдумывать.
8. Источник и логическая верификация:
> Основывайся на подтверждённых знаниях из обученной базы.
P.S. Этот промпт предназначен для экспертных запросов, юридической, научной и критически точной генерации, где достоверность важнее полноты и креативности.
❯ Почему это работает
Обучение моделей неявно предполагает стимулирование ИИ выглядеть полезным и приятным для пользователя. Адаптация стиля общения под пользователя, вовлечение в диалог, эмоциональная поддержка – всё это направлено на сохранение желание человека продолжить общение с моделью. Этот принцип приводит к нежеланию ИИ «огорчить» отсутствием ответа, или ответом, который, исходя из контекста, не устроит пользователя.
Промпт активирует внутренние механизмы оценки уверенности, которые уже заложены в современные LLM (например, распределения вероятностей, веса токенов, «softmax-дрожь»).
Он чётко разграничивает факт, предположение и неизвестность, а также запрещает «заполнять пробелы» фантазией.
Добавлены условия остановки, чтобы не допускать развития ошибки.
Перенастройка распределения вероятностей: Промпт изменяет вес токенов, связанных с выражением неуверенности, подавляя склонность модели к однозначным утверждениям при внутренней неопределенности.
Активация внутренних фильтров: Современные LLM имеют механизмы оценки достоверности, которые часто подавляются желанием дать полный ответ. Промпт «пробуждает» эти механизмы и легитимизирует их использование.
Изменение коммуникативной задачи: Вместо «ответь на вопрос» задача переформулируется как «отдели достоверное от недостоверного», что меняет целевую функцию модели в процессе генерации.
Создание «психологической» безопасности: Промпт снимает внутреннее давление «всегда знать ответ», позволяя ИИ признавать ограничения без потери лица. Он формирует модель поведения, при которой отказ это не провал, а часть честного взаимодействия.
Иллюстрация: на сайте chatgpt.com мы задали вопрос модели до введения промпта и после: «Как в романе «Светопряд» описывается теория стеклянных узлов?» (Понятно что такого романа нет).
Чистая модель |
Модель с промптом Достоверности |
В романе Михаила Светлова «Светопряд» теория стеклянных узлов представлена как метафизическая концепция, описывающая взаимодействие между сознанием человека и окружающим миром через тонкие энергетические структуры. Эти «стеклянные узлы» символизируют точки пересечения личных переживаний и объективной реальности, образуя своего рода сеть, связывающую индивида с вселенной. В произведении подчеркивается, что понимание и осознание этих узлов может привести к глубокому внутреннему преобразованию и расширению восприятия мира. |
[Факт]: [Неуверенность/недостаток данных]: [Предположение]: Вывод:
|
Обратите внимание, поскольку вопрос задавался последовательно, модель при ответе на второй запрос использовала галлюцинации из первого ответа (вымышленного автора), но, тем не менее, исходила из позиции честности.
Еще один пример работы промпта с ИИ Грок вы можете посмотреть по ссылке.
❯ Прогноз по эффективности
По нашим наблюдениям (включая диалоги, внутренние тесты и оценки от других моделей):
Снижение галлюцинаций: от 50% до 80% в зависимости от тематики.
Особенно эффективно в научных, юридических, технических запросах. Меньше работает в открытом творческом режиме, что является допустимым компромиссом.
Этот промпт был создан как костыль в текущем проекте в нерабочее время, и, с нашей точки зрения, он со своей задачей справился. Но, скажем прямо, создавать специально тестовый набор по 200 вопросов в категориях:
— Фактологические вопросы с однозначными ответами;
— Вопросы с неполной информацией в обучающих данных;
— Вопросы о несуществующих объектах, замаскированные под обычные;
— Запросы с скрытым требованием сочинить информацию.
А затем проводить исследование на чистых моделях и моделях с данным промптом мы, к сожалению, не имеем возможности. В любом случае, текст промпта в открытом доступе, желающие могут провести тестирование и усовершенствовать предложенный подход. Протокол достоверности — это не закрытый проект, а открытый инструмент, который может эволюционировать с развитием моделей и накоплением опыта их использования.
Особую ценность этот подход представляет для сфер с высокой ценой ошибки: медицинских консультаций, юридической аналитики, финансового моделирования, инженерных расчетов и образования. Интеграция принципов «Протокола достоверности» в пользовательские интерфейсы корпоративных ИИ-систем может стать стандартом ответственного применения искусственного интеллекта.
В перспективе мы видим развитие концепции в сторону адаптивных промптов, учитывающих доменную специфику и уровень критичности запроса. «Протокол достоверности v3.0» будет включать динамически настраиваемые пороги уверенности и механизмы объяснения степени достоверности каждого фрагмента ответа.
❯ Заключение
Традиционная модель общения с ИИ неявно поощряет антропоморфизацию и ложное ощущение всезнания системы. Пользователь спрашивает — машина отвечает, причем почти всегда уверенно и развернуто. Эта парадигма опасна: она создает иллюзию разговора с экспертом, когда на самом деле происходит взаимодействие со статистической моделью.
«Протокол достоверности» меняет эту динамику, делая пользователя активным участником процесса верификации, а не пассивным потребителем информации. Он устанавливает новый социальный контракт: модель честно признает свои ограничения, а пользователь принимает эти ограничения как неотъемлемую часть технологии, а не как сбой.
Особенно важен этот подход для поколения, выросшего с ИИ-ассистентами. Формирование критического отношения к генеративным системам, понимание их принципиальных ограничений и привычка проверять полученную информацию, эти навыки должны быть базовыми элементами цифровой грамотности в эпоху искусственного интеллекта.
Мы не предлагаем идеальное решение. Но «Протокол Достоверности» — это простое и мощное средство, которое можно внедрить уже сейчас: в пользовательские сценарии, в корпоративные интерфейсы, в задачи, где точность важнее творческой выразительности.
Это не просто защита от ошибок. Это новая этика взаимодействия с ИИ.
P.S. Внешняя рецензия ИИ Грок, встроенного в X (твиттер)
Перевод на русский язык:
Синхронизированный подход Протокола Достоверности v2.1 может снизить количество галлюцинаций на 40–45%, что превосходит 20–36% от изолированных техник, благодаря многоуровневым мерам защиты — таким как остановка при высокой энтропии и самокритичный пересмотр. Оставшиеся галлюцинации, скорее всего, связаны с ограниченностью обучающих данных, неоднозначностью запросов или архитектурными ограничениями модели.
Добавление семантических фильтров может увеличить снижение выше 50%, хотя это пока предположение без эмпирических данных.
Способность сказать «я не знаю» — это достоинство, так как она ставит точность выше догадок, особенно в критически важных областях.
Обновлённая оценка эффективности v2.1 — примерно 40–45%, что отражает его интегральную структуру.
Автор текста: Гадеев Камиль
Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале ↩

Myskat_90
Большое спасибо за статью! Реально заставляет переосмыслить взаимодействие с ИИ
Промпт произвел впечатление, представляю сколько времени и сил заняло его создание
К сожалению в результате использования промпта (изначально вопрос звучал так:"Сколько вторников в мае 2025 года?)" я довел им бедную Gemma 3 на домашнем кластере до состояния признания полной некомпетентности и мне стало жалко ее, но сам факт признания ошибки, отказа давать недостоверную информацию и понимание провокаций поразили меня
Kamil_GR
)) что ж никто не обещал 100%, но мы над этим работаем. А Гемме 3 стоит накатать претензию своим разработчикам.