Почему языковые модели «галлюцинируют» / forpes.ru

Главная
Почему языковые модели «галлюцинируют»

Почему языковые модели «галлюцинируют» +7

09.09.2025 09:00

python_leader 2 2700 Источник

Команда AI for Devs подготовила перевод статьи OpenAI о природе галлюцинаций языковых моделей. Почему модели уверенно «выдумывают» факты, как это связано с предсказанием следующего слова и почему традиционные метрики только усиливают проблему?

В OpenAI мы активно работаем над тем, чтобы сделать ИИ-системы полезнее и надёжнее. Но даже по мере роста их возможностей остаётся одна упрямая проблема: галлюцинации. Под этим мы понимаем случаи, когда модель уверенно выдаёт ответ, который на самом деле неверен. В нашей новой научной статье⁠ утверждается, что языковые модели галлюцинируют потому, что стандартные процедуры обучения и оценки вознаграждают скорее угадывание, чем признание неопределённости.

ChatGPT тоже подвержен галлюцинациям. У GPT-5 их заметно меньше, особенно при рассуждениях, но они всё ещё случаются. Галлюцинации остаются фундаментальной проблемой всех больших языковых моделей, и мы продолжим работать над их снижением.

Что такое галлюцинации?

Галлюцинации — это правдоподобные, но ложные утверждения, которые генерируют языковые модели. Они могут проявляться неожиданно, даже в, казалось бы, простых вопросах. Например, когда мы попросили популярный чат-бот назвать тему докторской диссертации Адама Таумана Калая (одного из авторов статьи), он уверенно выдал три разных ответа — и ни один из них не был правильным. Когда мы спросили его дату рождения, мы также получили три разных варианта — все неверные.

Обучение «под тест»

Галлюцинации сохраняются отчасти потому, что современные методы оценки задают неверные стимулы. Сами по себе они не вызывают галлюцинаций, но измеряют качество модели так, что ей выгоднее угадывать, чем честно признавать неопределённость.

Представьте экзамен с выбором ответа. Если вы не знаете правильный вариант, но наугад отметите один, есть шанс попасть в точку. Если же оставить пусто — результат гарантированно ноль. То же и с моделями: когда их оценивают только по точности, то есть по доле правильных ответов, они «выгоднее» угадывают, чем говорят «не знаю».

Другой пример: модель не знает дату рождения человека. Если она «пальнёт» 10 сентября — вероятность 1 из 365 оказаться правой. «Не знаю» гарантирует ноль баллов. На тысячах тестовых вопросов модель-угадайка в итоге выглядит лучше в таблицах, чем осторожная модель, которая признаётся в незнании.

В случаях, где есть один «правильный ответ», можно выделить три категории ответов: точные, ошибочные и воздержание от ответа («не рискнула угадать»). Воздержание — это проявление скромности, одной из ключевых ценностей OpenAI⁠. Большинство лидеров рейтингов моделей приоритизируют точность, но ошибка хуже, чем воздержание. В нашем Model Spec⁠ прямо сказано: лучше показать неопределённость или попросить уточнение, чем уверенно выдать возможную ошибку.

Для наглядности можно взять пример из SimpleQA eval, приведённый в System Card GPT-5⁠.

Метрика	gpt-5-thinking-mini	OpenAI o4-mini
Доля воздержаний	52%	1%
Точность	22%	24%
Доля ошибок	26%	75%
Итого	100%	100%

По точности старая модель OpenAI o4-mini показывает немного лучший результат. Однако её уровень ошибок (то есть доля галлюцинаций) значительно выше. Стратегия угадывания в ситуации неопределённости улучшает точность, но увеличивает число ошибок и галлюцинаций.

Если усреднить результаты по десяткам разных тестов, большинство бенчмарков берут в расчёт именно показатель точности, но это создаёт ложное деление только на «правильно» и «неправильно». На простых тестах вроде SimpleQA некоторые модели достигают почти 100% точности и тем самым сводят галлюцинации к нулю. Но на более сложных проверках и в реальных сценариях точность всегда ограничена ниже 100%: часть вопросов остаётся без ответа из-за отсутствия информации, ограничений в рассуждениях у небольших моделей или из-за двусмысленности, которую надо уточнять.

Тем не менее, таблицы, учитывающие только точность, доминируют в рейтингах и карточках моделей. Это подталкивает разработчиков создавать системы, которые угадывают, а не воздерживаются. Вот почему даже всё более продвинутые модели продолжают галлюцинировать — они уверенно выдают неверные ответы вместо того, чтобы признать неопределённость.

Лучший способ оценивать модели

Решение довольно простое: штрафовать уверенные ошибки сильнее, чем воздержание, и давать частичный балл за корректное выражение неопределённости. Эта идея не нова. Некоторые стандартизированные экзамены давно используют систему отрицательных баллов за неверные ответы или частичный зачёт за пропуск, чтобы отбить охоту угадывать. Несколько исследовательских групп также экспериментировали с методиками оценки, учитывающими неопределённость и калибровку.

Но наш тезис иной. Недостаточно добавить пару «тестов с неопределённостью» на полях. Популярные метрики, основанные исключительно на точности, нужно пересматривать так, чтобы их система подсчёта не поощряла угадывание. Пока главные рейтинги продолжают вознаграждать удачные догадки, модели будут этому учиться. Исправив систему оценивания, можно стимулировать более широкое внедрение техник снижения галлюцинаций — как новых, так и уже известных по предыдущим исследованиям.

Как возникают галлюцинации при предсказании следующего слова

Мы уже говорили о том, почему так трудно избавиться от галлюцинаций. Но откуда вообще берутся эти предельно конкретные фактические ошибки? Ведь большие предобученные модели редко делают другие промахи — например, не склонны к орфографическим ошибкам или лишним скобкам. Дело в том, какие именно закономерности присутствуют в данных.

Языковые модели сначала обучаются в процессе предобучения — они предсказывают следующее слово в огромных массивах текста. В отличие от классических задач машинного обучения, тут нет меток «истина/ложь» у каждого утверждения. Модель видит только положительные примеры связного языка и должна приближённо воспроизвести общее распределение.

Когда у вас нет ни одного примера с пометкой «неверно», крайне сложно отличить правильные утверждения от неправильных. Но даже если бы метки были, ошибки всё равно неизбежны. Чтобы понять почему, возьмём более простой пример. В задаче распознавания изображений, если миллионы фото кошек и собак помечены как «кошка» или «собака», алгоритмы вполне могут надёжно их различать. Но представьте, что каждое фото питомца надо подписывать его днём рождения. Поскольку дни рождения случайны, ошибки в такой задаче будут всегда, как бы ни совершенствовался алгоритм.

То же самое происходит и при предобучении. Орфография и расстановка скобок подчиняются устойчивым закономерностям, поэтому ошибки там исчезают с ростом масштаба. Но произвольные редкие факты — вроде даты рождения питомца — невыводимы из статистических шаблонов. Именно они и становятся источником галлюцинаций. Наш анализ показывает, какие именно галлюцинации закономерно возникают при предсказании следующего слова. В идеале последующие стадии обучения должны их устранять, но полностью это не удаётся — по причинам, описанным в предыдущем разделе.

Выводы

Мы надеемся, что статистический взгляд, представленный в статье, поможет лучше понять природу галлюцинаций и развеять распространённые заблуждения:

Утверждение: Галлюцинации исчезнут при росте точности, ведь модель с 100% точностью никогда не галлюцинирует.
Вывод: Точность никогда не достигнет 100%, потому что независимо от размера модели, её возможностей поиска и рассуждения, некоторые вопросы по самой своей сути не имеют ответа.

Утверждение: Галлюцинации неизбежны.
Вывод: Нет, поскольку модель может воздержаться от ответа, если она не уверена.

Утверждение: Избежать галлюцинаций можно только с высоким уровнем «интеллекта», который достижим лишь у больших моделей.
Вывод: Малой модели порой проще знать свои границы. Например, если её спросить на языке маори, которого она совсем не знает, она легко ответит «не знаю». А модель, которая знает маори хотя бы немного, вынуждена оценивать свою степень уверенности. Как показано в статье, «калибровка» требует куда меньше вычислений, чем высокая точность.

Утверждение: Галлюцинации — это загадочный сбой современных языковых моделей.
Вывод: Мы понимаем статистические механизмы, из-за которых галлюцинации возникают и поощряются в процессе оценки.

Утверждение: Чтобы измерять галлюцинации, достаточно хорошего теста на галлюцинации.
Вывод: Такие тесты уже опубликованы. Но один хороший тест мало что меняет на фоне сотен традиционных метрик точности, которые наказывают за скромность и поощряют угадывание. Чтобы реально снизить галлюцинации, нужно переработать все основные метрики так, чтобы они вознаграждали корректное выражение неопределённости.

Наши последние модели демонстрируют меньший уровень галлюцинаций, и мы продолжим работать над тем, чтобы ещё сильнее сократить число уверенных ошибок в их ответах.

Русскоязычное сообщество про AI в разработке

Друзья! Эту статью перевела команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Комментарии (2)

avshkol
09.09.2025 11:17
#28815768
В этом смысле меньше всего будет галлюцинировпть модель с RAG, если у неё в системном промте будет записано: "если поиск по БД не дал результата, отвечай "не знаю"

snakes_are_long
09.09.2025 11:17
#28817140
не будет, потому что это не так работает. ллм ничего не ищет в RAG и не осознает того факта что что-то там искалось. поиск в RAG срабатывает перед тем как ллм начинает генерировать ответ и просто обогащает ваш контекст.

крч это работает не так что вы спрашиваете "какая столица у Аргентины?" и ллмка сама составляет запрос к базе, а потом на основе ответа из базы генерит вам ответ. нет, просто ваш запрос будет обогащён всем что только удастся найти про Аргентину в RAG и передаваться ллм. сама ллм это увидит как огромную статью про Аргентину как из википедии и в конце ваш вопрос про столицу. но если в RAG ничего нет про Аргентину, то увидит только вопрос.

а само требование "если в бд ничего не нашлось - говори не знаю" - бессмысленное с точки зрения ллм, которая ничего нигде произвольно не ищет, и или не будет вообще исполняться, либо будет исполняться как-то странно, когда ллмке "покажется" что она где-то там что-то искала