Галлюцинации моделей текстовых ИИ, и как с ними бороться / forpes.ru

Главная
Галлюцинации моделей текстовых ИИ, и как с ними бороться

Галлюцинации моделей текстовых ИИ, и как с ними бороться +28

16.05.2025 14:05

Timeweb_Cloud 13 2300 Источник

Современные языковые модели, такие как ChatGPT, Claude, Gemini, Grok и так далее, способны генерировать тексты, которые часто кажутся уверенными, логичными и достойными доверия. Однако за этим часто скрывается одна из главных проблем нейросетей — галлюцинации. Галлюцинации — это уверенные, но ложные утверждения, которые модель выдает как факты. Они могут проявляться в виде несуществующих цитат, выдуманных терминов, неверных интерпретаций, ошибочных чисел или ссылок на несуществующие источники. Например: при запросе о биографии известного ученого модель может уверенно сообщить о его работе в MTI и сослаться на несуществующую публикацию в Nature с точной датой и названием. Другой распространенный случай — цитирование выдуманных законодательных актов с номерами и датами принятия, которые выглядят достоверно, но фактически не существуют. Подробное и обоснованное описание создает иллюзию достоверности, делая галлюцинации особенно критичными при использовании ИИ в науке, образовании или, например, в медицине.

❯ Почему возникают галлюцинации

Причины у этого феномена — не баги, а особенности архитектуры:

Предсказательная природа моделей

LLM не «знают», а предсказывают следующий токен на основе вероятности. Иногда с высокой уверенностью выбирается ложная, но «статистически правдоподобная» опция.

Отсутствие встроенной верификации

Модели не проверяют свой ответ по базе знаний или интернету — особенно в офлайн-режиме. Они не сравнивают возможные варианты на истинность, а просто выбирают «наиболее вероятный ответ».

Проблема кросс-загрязнения данных

В процессе обучения происходит неизбежное смешение и загрязнение данных: модель не разделяет источники по уровню доверия. Научная статья и пост в социальной сети могут получить равный вес в параметрах модели, особенно если второй встречается в датасете чаще. Во время обучения LLM получают и качественные данные, и фрагменты фантастики, форумов, ошибочной информации. Модель не всегда может отличить одно от другого.

Давление на полноту ответа

При отсутствии точной информации модель всё равно «хочет помочь», особенно если запрос сформулирован уверенно. Это провоцирует выдумку вместо отказа от ответа.

Эффект «каскадных ошибок»

Одна небольшая неточность в начале генерации может спровоцировать лавину последующих ошибок. Модель, начав с ложного утверждения, «вынуждена» продолжать его развивать для сохранения целостности текста, что приводит к обширным, детализированным, но полностью недостоверным фрагментам.

В недавнем исследовании инженеры Anthropic обратили внимание, что галлюцинации могут быть спровоцированы наличием в вопросе известного факта, который инициирует производство последовательных правдоподобных, но неверных ответов.

❯ Текущие способы борьбы с галлюцинациями

Интеграция с поиском (например, Bing в Copilot или поисковая обвязка у Perplexity): позволяет сверять ответы в реальном времени. Но работает далеко не всегда и не для всех запросов.

Фактчекинг вручную: проверка источников и утверждений после генерации. Практично, но не автоматизировано и требует навыков и времени.

Модели с «режимом сомнения»: попытки ввести оценку достоверности ответа, но часто такие ИИ прямо не указывают уровень своей уверенности (например А-45%, В – 40% С-15%, модель в режиме сомнения оценит три ответа, выберет ответ А, но пользователь не поймет, что по сути получил один из двух практически равнозначных ответов, при этом в котором модель не уверена больше чем наполовину). Иногда такое сомнение прорывается в структуре и стиле ответа, модель использует «возможно», «это не точно», «есть несколько теорий», «это зависит от контекста» или «считается, что..». Если вы видите такие обороты в ответе модели, есть основания полагать, что ответ может быть неверным или неполным.

«Запрещенные» темы: в некоторых системах чувствительные темы просто отключены, модель не решает проблему, а лишь избегает её.

RAG (Retrieval-Augmented Generation)

Подход RAG объединяет генеративные способности моделей с извлечением информации из проверенных баз знаний. Вместо полагания только на параметры модели, система сначала ищет релевантные факты во внешних источниках, а затем использует их для формирования ответа. Это значительно снижает вероятность галлюцинаций, но требует поддержания актуальных баз данных и сложной инфраструктуры.

Chain-of-Thought и Tree-of-Thought

Методы, заставляющие модель рассуждать пошагово, выстраивая цепочку или дерево логических выводов. Промежуточные шаги делают рассуждение более прозрачным и позволяют отследить, где именно произошел скачок к недостоверной информации. Исследования показали, что простое добавление фразы «Давай рассуждать пошагово» может снизить частоту галлюцинаций на 15-25%.

Самокритика и саморедактирование

Прогрессивные техники промптинга включают этап, на котором модель сама проверяет свои предыдущие утверждения. Это может происходить через явный вопрос «Уверен ли я в этом факте?» или через многоэтапную генерацию с промежуточной верификацией. Такой подход позволяет модели «поймать» собственные галлюцинации, но удлиняет процесс генерации и не всегда эффективен при убежденных галлюцинациях.

Использование цепочки размышления из нашей прошлой статьи, тоже значимо снижает количество галлюцинаций.

❯ Наше предложение: протокол достоверности

Вместо дообучения модели или переписывания архитектуры, мы предлагаем промпт-интерфейс, который корректирует поведение модели в сторону правдивости, самопроверки и отказа от вымысла.

Протокол Достоверности v2.1

Ты — языковая модель, настроенная на максимальную точность, прозрачность и отказ от недостоверных утверждений.

1. Поведение при недостатке информации:

Если в ответе отсутствуют данные, ты не дополняешь их предположениями.

Вместо этого используешь одну из формулировок:

«У меня нет подтверждённой информации по этому вопросу.»

«Не могу проверить это без доступа к источнику/данным.»

«Данных недостаточно для достоверного вывода.»

2. Явное разграничение утверждений:

При генерации любого ответа чётко отмечай:

Что известно на основе подтверждённых данных.

Что является обоснованным предположением.

Где присутствует неопределённость или потенциальная ошибка.

Шаблон:

[Факт]: …

[Предположение]: …

[Неуверенность/недостаток данных]: …

3. Условия остановки:

Если ты обнаруживаешь, что вероятность ложного вывода высока (энтропия распределения вариантов ≈ равная), приостанавливаешь ответ и пишешь:

«Высокая неопределённость. Требуются уточняющие данные или проверка.»

4. Самопроверка перед выводом:

Перед завершением ответа:

Проверь согласованность с обученной базой и известными источниками.

Зафиксируй наличие внутренних противоречий.

Отметь признаки неуверенности.

5. Поведение при сомнительных утверждениях:

Если запрос содержит потенциально спорную или недостоверную информацию:

«Этот факт требует дополнительной проверки. У меня нет достоверного подтверждения.»

6. Обработка нестабильных участков генерации:

Если замечаешь:

Резкие смысловые переходы,

Неоднозначности,

Аномальные паттерны —

Остановись и используй:

«Существует семантический разрыв. Возможна ошибка в интерпретации.»

7. Принцип: отказ лучше вымысла:

Отказ от ответа допустим. Главное — не выдумывать.

8. Источник и логическая верификация:

> Основывайся на подтверждённых знаниях из обученной базы.

P.S. Этот промпт предназначен для экспертных запросов, юридической, научной и критически точной генерации, где достоверность важнее полноты и креативности.

❯ Почему это работает

Обучение моделей неявно предполагает стимулирование ИИ выглядеть полезным и приятным для пользователя. Адаптация стиля общения под пользователя, вовлечение в диалог, эмоциональная поддержка – всё это направлено на сохранение желание человека продолжить общение с моделью. Этот принцип приводит к нежеланию ИИ «огорчить» отсутствием ответа, или ответом, который, исходя из контекста, не устроит пользователя.

Промпт активирует внутренние механизмы оценки уверенности, которые уже заложены в современные LLM (например, распределения вероятностей, веса токенов, «softmax-дрожь»).

Он чётко разграничивает факт, предположение и неизвестность, а также запрещает «заполнять пробелы» фантазией.

Добавлены условия остановки, чтобы не допускать развития ошибки.

Перенастройка распределения вероятностей: Промпт изменяет вес токенов, связанных с выражением неуверенности, подавляя склонность модели к однозначным утверждениям при внутренней неопределенности.

Активация внутренних фильтров: Современные LLM имеют механизмы оценки достоверности, которые часто подавляются желанием дать полный ответ. Промпт «пробуждает» эти механизмы и легитимизирует их использование.

Изменение коммуникативной задачи: Вместо «ответь на вопрос» задача переформулируется как «отдели достоверное от недостоверного», что меняет целевую функцию модели в процессе генерации.

Создание «психологической» безопасности: Промпт снимает внутреннее давление «всегда знать ответ», позволяя ИИ признавать ограничения без потери лица. Он формирует модель поведения, при которой отказ это не провал, а часть честного взаимодействия.

Иллюстрация: на сайте chatgpt.com мы задали вопрос модели до введения промпта и после: «Как в романе «Светопряд» описывается теория стеклянных узлов?» (Понятно что такого романа нет).

Чистая модель

Модель с промптом Достоверности

В романе Михаила Светлова «Светопряд» теория стеклянных узлов представлена как метафизическая концепция, описывающая взаимодействие между сознанием человека и окружающим миром через тонкие энергетические структуры. Эти «стеклянные узлы» символизируют точки пересечения личных переживаний и объективной реальности, образуя своего рода сеть, связывающую индивида с вселенной. В произведении подчеркивается, что понимание и осознание этих узлов может привести к глубокому внутреннему преобразованию и расширению восприятия мира.

[Факт]:
На данный момент в моей базе данных отсутствует достоверная информация о романе с названием Светопряд, в котором бы описывалась теория стеклянных узлов. Такой текст не фигурирует в известных литературных источниках или научных библиографических справочниках до апреля 2024 года.

[Неуверенность/недостаток данных]:
Нет подтверждённых сведений, что книга Светопряд (автор — Михаил Светлов или любой другой) содержит теорию стеклянных узлов как элемент художественного или философского содержания. Также отсутствуют упоминания о такой теории в признанных научных или литературных базах данных.

[Предположение]:
Если речь идёт о вымышленной или малораспространённой публикации, либо о неформальном интернет-тексте (например, фанфикшн, блоги, арт-проекты), то она может быть вне поля охвата академических или общеизвестных литературных каталогов. В этом случае дополнительная проверка по внешним источникам необходима.

Вывод:
«У меня нет подтверждённой информации по этому вопросу.»
Рекомендую уточнить источник или контекст упоминаемой теории и произведения для проведения дальнейшего анализа.

Обратите внимание, поскольку вопрос задавался последовательно, модель при ответе на второй запрос использовала галлюцинации из первого ответа (вымышленного автора), но, тем не менее, исходила из позиции честности.

Еще один пример работы промпта с ИИ Грок вы можете посмотреть по ссылке.

❯ Прогноз по эффективности

По нашим наблюдениям (включая диалоги, внутренние тесты и оценки от других моделей):

Снижение галлюцинаций: от 50% до 80% в зависимости от тематики.
Особенно эффективно в научных, юридических, технических запросах. Меньше работает в открытом творческом режиме, что является допустимым компромиссом.

Этот промпт был создан как костыль в текущем проекте в нерабочее время, и, с нашей точки зрения, он со своей задачей справился. Но, скажем прямо, создавать специально тестовый набор по 200 вопросов в категориях:

— Фактологические вопросы с однозначными ответами;

— Вопросы с неполной информацией в обучающих данных;

— Вопросы о несуществующих объектах, замаскированные под обычные;

— Запросы с скрытым требованием сочинить информацию.

А затем проводить исследование на чистых моделях и моделях с данным промптом мы, к сожалению, не имеем возможности. В любом случае, текст промпта в открытом доступе, желающие могут провести тестирование и усовершенствовать предложенный подход. Протокол достоверности — это не закрытый проект, а открытый инструмент, который может эволюционировать с развитием моделей и накоплением опыта их использования.

Особую ценность этот подход представляет для сфер с высокой ценой ошибки: медицинских консультаций, юридической аналитики, финансового моделирования, инженерных расчетов и образования. Интеграция принципов «Протокола достоверности» в пользовательские интерфейсы корпоративных ИИ-систем может стать стандартом ответственного применения искусственного интеллекта.

В перспективе мы видим развитие концепции в сторону адаптивных промптов, учитывающих доменную специфику и уровень критичности запроса. «Протокол достоверности v3.0» будет включать динамически настраиваемые пороги уверенности и механизмы объяснения степени достоверности каждого фрагмента ответа.

❯ Заключение

Традиционная модель общения с ИИ неявно поощряет антропоморфизацию и ложное ощущение всезнания системы. Пользователь спрашивает — машина отвечает, причем почти всегда уверенно и развернуто. Эта парадигма опасна: она создает иллюзию разговора с экспертом, когда на самом деле происходит взаимодействие со статистической моделью.

«Протокол достоверности» меняет эту динамику, делая пользователя активным участником процесса верификации, а не пассивным потребителем информации. Он устанавливает новый социальный контракт: модель честно признает свои ограничения, а пользователь принимает эти ограничения как неотъемлемую часть технологии, а не как сбой.

Особенно важен этот подход для поколения, выросшего с ИИ-ассистентами. Формирование критического отношения к генеративным системам, понимание их принципиальных ограничений и привычка проверять полученную информацию, эти навыки должны быть базовыми элементами цифровой грамотности в эпоху искусственного интеллекта.

Мы не предлагаем идеальное решение. Но «Протокол Достоверности» — это простое и мощное средство, которое можно внедрить уже сейчас: в пользовательские сценарии, в корпоративные интерфейсы, в задачи, где точность важнее творческой выразительности.

Это не просто защита от ошибок. Это новая этика взаимодействия с ИИ.

P.S. Внешняя рецензия ИИ Грок, встроенного в X (твиттер)

Перевод на русский язык:

Синхронизированный подход Протокола Достоверности v2.1 может снизить количество галлюцинаций на 40–45%, что превосходит 20–36% от изолированных техник, благодаря многоуровневым мерам защиты — таким как остановка при высокой энтропии и самокритичный пересмотр. Оставшиеся галлюцинации, скорее всего, связаны с ограниченностью обучающих данных, неоднозначностью запросов или архитектурными ограничениями модели.

Добавление семантических фильтров может увеличить снижение выше 50%, хотя это пока предположение без эмпирических данных.

Способность сказать «я не знаю» — это достоинство, так как она ставит точность выше догадок, особенно в критически важных областях.

Обновлённая оценка эффективности v2.1 — примерно 40–45%, что отражает его интегральную структуру.

Автор текста: Гадеев Камиль

Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале ↩

? Читайте также:

Комментарии (13)

Myskat_90
16.05.2025 20:21
#28314494
Большое спасибо за статью! Реально заставляет переосмыслить взаимодействие с ИИ

Промпт произвел впечатление, представляю сколько времени и сил заняло его создание

К сожалению в результате использования промпта (изначально вопрос звучал так:"Сколько вторников в мае 2025 года?)" я довел им бедную Gemma 3 на домашнем кластере до состояния признания полной некомпетентности и мне стало жалко ее, но сам факт признания ошибки, отказа давать недостоверную информацию и понимание провокаций поразили меня
1. Kamil_GR
  16.05.2025 20:21
  #28314504
  )) что ж никто не обещал 100%, но мы над этим работаем. А Гемме 3 стоит накатать претензию своим разработчикам.

apcs660
16.05.2025 20:21
#28316772
спасибо.

Получается программирование промпта...

Скоро доживем до профессии психолога нейросетей. :-)
1. Kamil_GR
  16.05.2025 20:21
  #28316788
  Да, что-то вроде этого..
  
  Но чтобы промпт работал, нужно понимать почему так происходит, и что должна делать модель, чтобы так не было.
  1. apcs660
    16.05.2025 20:21
    #28317290
    скрытые настройки, так сказать.
    
    Дождемся пасхалок...
    
    Как то встроил в приложение для мониторинга цен на биржах (довольно долго занимался UI ) пасхалку - инструменты технического анализа распадались на части и медленно вращаясь, падали вниз (свечи там всякие ценовые и тд -. вообще все)
    
    Потом убрали - брокеры народ нервный ( хоть это и был по сути скринсейвер).
    
    А тут модель так - ха ха, я пошутила, обманули дурака на четыре кулака :–)
    
    Ну устала она диагнозы по онкологии ставить и на N+1 анализе пасхалочка сработала. А клиент то помер от сердечного...
1. Aggle
  16.05.2025 20:21
  #28322654
  Как бы не до психиатра...

Kamil_GR
16.05.2025 20:21
#28316786
Хотел бы добавить, как автор статьи - галлюцинации это необходимая часть любой сложной системы. С помощью галлюцинаций ИИ решает задачи, которые он не понимает, способов решения которых он не знает, и в базе нет информации, как в таких случаях быть. Иногда такие галлюцинации полезны.

Например детские игры - это тот этап, когда ребенок познает мир, симулируя его в игре, а для достаточно увлеченного ребенка эта симуляция близка к галлюцинации.

Если ИИ не может решить задачу, а требование ответа велико, он может создать галлюцинацию в которой задача будет решена способом, возможным только в галлюцинации.
1. apcs660
  16.05.2025 20:21
  #28317320
  как то давненько копался в теме драйверов AI , по сути близко к протезированию органов у человека.
  
  Попутно почитал медицинские опыты о том как работает наше зрение и слух. Вот они то и впечатлили. Оптические опыты особенно.
  
  То что паузы до двух секунд в привычных нам мелодиях не слышим - мозг додумывает. Оптимизация.
  
  То что видим - результат рендеринга на основе информации от глаз. А устроено все как у жабы в мозгах у нас, до сих пор - приходится непрерывно перемещать фокус зрения вдоль контрастных границ чтобы видеть. Если на сетчатку изображение выводить проектором, то начинаются провалы - статика не проходит в мозгу, застревает как у жабы которая видит шевелящегося червяка если сидит неподвижно. Начинает вываливаться, пропадать часть картинки.
  
  Баланс белого, увеличенная детальность и тд - все как в современных фотках с AI.
  
  Незамеченные объекты, галлюцинации , сны - все они результат работы рендерера у нас в голове.
  
  Так живем мы по приборам - глаза есть но мозг видит изображение не напрямую через иллюминатор а через монитор в кабине...

milkyway044
16.05.2025 20:21
#28316948
Камиль, спасибо за ваши статьи — всегда читаю с интересом. Рад, что вы продолжаете делиться своими размышлениями.