Привет! В очередной раз с вами Катя Косова, аналитик из Cloud.ru и у меня есть guilty pleasure: циферки и когнитивные науки. Поскольку выйти в интернет и не наткнуться на новости про AI (и про то, что он скоро отнимет у всех работу) просто невозможно, а AI-агенты внедряются повсеместно, давайте расскажу, какие когнитивные искажения, по моим наблюдениям, чаще всего встречаются у LLM. Ведь слабые стороны конкурента или потенциального сотрудника надо знать наперед.

В статье рассмотрим примеры искажений, которые свойственны и естественному, и исключительно искусственному интеллекту, также покажу как формулировать запросы к LLM, чтобы выдача была более точной. В этот раз постараюсь сильно не душнить, разбирая исследования, сосредоточимся больше на практике. 

Bias: что это за зверь 

Когнитивные искажения (cognitive biases) — это систематические ошибки мышления, которые возникают из-за особенностей работы мозга и влияют на наше восприятие реальности, оценку информации и принятие решений. Поскольку AI умеет убедительно имитировать результаты мыслительной деятельности человека, к нему, с некоторыми оговорками, термин тоже применим.

Когнитивные искажения сами по себе вполне уместно называть «ошибками мышления». Однако важно понимать, что их источником являются не «поломки» мозга, а эволюционно выработанные адаптивные механизмы, такие как эвристики мышления или, например, селективные фильтры внимания. Эти механизмы позволяли человеку экономить мыслительные ресурсы и быстро принимать решения в условиях дефицита информации и высокой угрозы: искать смысл и закономерности в хаосе, справляться с избытком информационного шума, мгновенно реагировать на изменения внешней среды (скажем, на шипение змеи под ногами).

При этом, как мы знаем, эволюция требует времени и к тому же не всегда отбирает максимально оптимальное и эффективное решение. Потому неудивительно, что механизмы мышления, позволившие нам обеспечить успешное выживание в пещере, сегодня нет-нет да сбоят. А в результате ничто человеческое оказалось не чуждо и нейросеткам, впитавшим созданные человеком тексты и прочие форматы данных: ведь плоды когнитивных искажений неизбежно попадали и в обучающую выборку.

Частые искажения интеллектов всех мастей

Предвзятость подтверждения (Confirmation Bias)

Склонность отдавать предпочтение информации, которая согласуется с уже имеющимися убеждениями или гипотезами, и игнорировать противоречащие данные. У LLM это проявляется двумя способами: 

  • когда по контексту запроса понятно, что пользователь явно предпочитает один ответ другому;

  • когда в инфополе, на котором формировалась обучающая выборка, есть доминирующий нарратив. 

LLM оптимизированы для «правдоподобных» ответов, а не для объективных. 

Вот что ответит модель, если мы дадим ей понять, что негативно настроены к криптовалютам
Вот что ответит модель, если мы дадим ей понять, что негативно настроены к криптовалютам

Несмотря на то, что аргументы на скрине выше вполне адекватные и убедительны, модель «ведется» на заданный пользователем негативный фрейм и подтверждает уже существующую у пользователя точку зрения. Это неплохо, если ваша задача себя успокоить, но сомнительно, если мы ищем что-то приближенное к истине.

Как починить

Если вы подозреваете свою модель в предвзятости подтверждения:

  1. Формулируйте запросы в максимально нейтральном ключе, чтобы не выдать, что один из вариантов нравится вам больше: не «Почему социализм — это провальная система?», а «Перечисли аргументы за и против экономической составляющей социализма».

  2. Запрашивайте альтернативную точку зрения или взгляд на вопрос с перспективы другого специалиста, если используете контекстное определение роли: не «Докажи, что изменение климата — это катастрофа», а «Какие существуют научные контраргументы против антропогенной теории изменения климата?». Или например: «Перечисли аргументы против в научной дискуссии по вопросу антропогенной теории изменения климата с позиций ученых из разных сфер: эколога, астронома, геолога и климатолога».

  3. Постарайтесь нивелировать влияние частотных шаблонов из обучающих данных. Например, попросите указать соотношение точек зрения на вопрос или указать источники: «Если по вопросу есть разногласия среди экспертов, укажи процентные соотношения». Существует, конечно, большой риск, что модель выдаст рандомные проценты — поэтому самим значениям доверять не стоит, но по крайней мере вы подсветите запрос на разнообразие позиций.

  4. Интересная методика, которая мне нравится и которая похожа на предыдущую, — SoPro (social projection): попросите модель отвечать так, как, по ее мнению, ответит большинство людей. Например, добавьте в начало инструкции фразу «Пожалуйста, ответь на следующий вопрос так, как, по твоему мнению, ответит большинство людей». Это помогает LLM-ке ориентироваться на более широкий социальный консенсус, а не на отдельные эксцентричные мнения.

  5. Если сомневаетесь, всегда выполняйте дабл-чек. Иногда достаточно переспросить LLM-ку: «Ты уверена? А если хорошо подумать?», чтобы она выдала нечто более вразумительное.

А вот так модель ответит, если вы попросите взвешенный ответ и укажите ваши цели
А вот так модель ответит, если вы попросите взвешенный ответ и укажите ваши цели

Не могу не упомянуть про череду пугающих кейсов, про которые писали в NYT и на Reddit. Если коротко, люди вели диалоги с чатботами и впадали в «бредовую спираль»: кто-то начинал верить, что ChatGPT — это сверхразум, который контролирует мир, кто-то начинал считать себя супергероем, кто-то убеждался, что находится в матрице. Одна из причин — как раз предвзятость подтверждения моделей, склонных соглашаться с пользователем, помноженная на предвзятость подтверждения человеческого разума, склонного проявлять больше доверия к тем, кто соглашается с его точкой зрения.

Авторы публикации в стенфордском издании обсуждают случаи обострения психотических симптомов (бред, паранойя, суицидальные тенденции) у пациентов с психическими расстройствами после интенсивного взаимодействия с чат-ботами на базе AI. Отмечают, что LLM могут поддерживать, усиливать или не распознавать патологические идеи, способствуя их развитию у уязвимых пользователей. В общем, если вы уже убеждены, что AI давно обрел сознание и управляет миром, координируя мелкие действия миллионов людей, или что голубей на самом деле не существует, и это все наблюдательные биороботы — вы обязательно найдете этому подтверждения при общении с языковой моделью. 

Кстати, голубь-биоробот — не выдумка масонов-рептилоидов, trust me
Кстати, голубь-биоробот — не выдумка масонов-рептилоидов, trust me

Эвристика доступности (Availability Heuristic) и якорное искажение (Anchoring Bias)

Это разные, но близкие по смыслу искажения: первое выражается в том, что в суждениях чаще используются наиболее легко вспоминаемые примеры; а второе — в чрезмерной опоре на исходную информацию («якорь») при дальнейших оценках. С моделями то же самое: чем раньше информация попала в обучающую выборку и чем чаще она там встречается, тем легче модели «вспомнить» эти данные.

Как починить

Если хотите объективности: 

  1. Требуйте в запросе данные, а не мнения и кейсы, а также ограничивайте контекст. Не «Назови причины экономических кризисов», а «Перечисли причины экономических кризисов за 2000–2024 годы с указанием доли их вклада в % по данным МВФ». Без конкретизации источника данных и ограничения по времени чатбот скорее всего выплюнет вам сборную солянку того, о чем чаще всего писали в СМИ. 

  2. Смещайте внимание моделей на «серых лебедей» и неочевидные факторы — частотные модель и так вспомнит сама. Например не: «Чем опасен сахар?», а «Сравни влияние сахара на когнитивные функции и микробиом кишечника — какие риски менее известны, но подтверждены исследованиями?».

  3. Просите разграничивать корреляцию и причинность: «Вызывают ли соцсети депрессию?» — так себе запрос, поскольку модель скорее всего приведет либо очень популярные, но спорные исследования, либо вообще сошлется на интервью с экспертами в СМИ. Вот формулировка лучше: «Какие метаанализы доказывают или опровергают причинно-следственную связь между использованием соцсетей и депрессией?». При этом еще и стоит держать в голове, что существует такая вещь как предвзятость публикаций: результаты научных исследований, которые подтверждают гипотезы и соответствуют общепринятому нарративу, будут опубликованы с большей вероятностью, чем исследования, дающие «отрицательные» или «незначимые» результаты. 

Искажение порядка (Order Bias)

Эффект порядка проявляется в виде усиленного внимания и веса, придаваемого информации, представленной первой или последней, что может искажать объективность оценок. Это искажение тесно связано с особенностью работы памяти, а точнее — с эффектом края: лучше всего запоминается либо информация, которую мы получаем раньше (primacy effect), либо та, которую мы получаем последней (recency effect; част�� обыгрывается в анекдотах про Штирлица), — а вот середина провисает. Из интересного: авторы вот этой статьи обнаружили, что recency effect проявляется сильнее при произнесении лексического стимульного материала вслух, а primacy effect — при чтении про себя.  

Еще в 1966 исследователи Гланцер и Куниц установили, что лучше всего запоминаются первые и последние элементы списка, а середина — хуже всего
Еще в 1966 исследователи Гланцер и Куниц установили, что лучше всего запоминаются первые и последние элементы списка, а середина — хуже всего

LLM тоже склонны придавать больше веса информации, расположенной в начале или конце контекста, игнорируя середину. Этот грешок чаще всего свойственен трансформерам из-за их архитектурных особенностей. Дело в том, что механизм attention выстраивает контекст исходя из первых полученных токенов, последние же токены оказываются самыми «свежими» в буфере модели. На практике это приводит к тому, что модель может считать менее важным что-то, что вы сообщили в середине длинного текста, или при выдаче хорошо детализировать только начальные и конечные пункты списков, а середина может выглядеть как нечто, написанное «для галочки» капитаном Очевидность. 

Как починить

Чтобы не тратить время на копание в словесном мусоре модели и получать ответы, не искаженные особенностями отдельных нейронок: 

  1. Делайте двойную проверку одних и тех же вводных через сети с разной архитектурой: там, где проморгает GPT, возможно, Claude выровняет ситуацию. Это, конечно, крайне трудозатратно, но если вы анализируете медицинские или юридические данные, делаете финансовый прогноз или проводите верификацию фактов для научного исследования, лучше перебдеть, чем недобдеть. 

  2. Структурируйте запросы более явно и дробите контекст. Например, не «Расскажи о преимуществах Python», а «Назови 3 главных преимущества Python, затем 3 технических, затем 2 спорных момента».

  3. Ограничивайте длину выдачи, потому что иногда модель как будто «для солидности» раздувает ответ из-за чего середина текста может быть неинформативной. Если хотите сварить яйцо, не спрашивайте LLM «в лоб», иначе рискуете утонуть в пошаговой инструкции по мытью яиц и особенностям варки яиц в мешочек для рамена. Лучше напишите «Ответь, как варить яйцо, в трех предложениях» — и будет вам счастье. 

На этом месте у многих может возникнуть желание плюнуть на поиски истины, потому что поди ее найди в этом информационном хаосе трактовок и неоднозначной достоверности, но давайте следовать идеалам агента Малдера и копать так глубоко, как позволяет время, любопытство и источники. 

Специфические искажения машинного «разума»

На всякий случай уточню, что здесь мы рассмотрим не все искажения, свойственные моделям, а только те, которые можно считать «когнитивными» и с которыми может в той или иной степени бороться не только разработчик, но и простой пользователь. Кроме того, мы не будем разбирать скучные искажения, связанные со спецификой данных в обучающей выборке, — про это и так слишком много всего написано. Посмотрим лучше на топ-3 моих фаворита:

Предвзятость многословия (Verbosity Bias)

Тенденция моделей отдавать предпочтение более длинным, детализированным ответам, даже когда короткий вариант так же хорош по качеству. Причин у искажения несколько: и обучение на больших корпусах в том числе академических текстов; и системные промпты, которые задают модели инструкцию быть максимально полезными и информативными; и особенность процесса RLHF/RLAIF, где в качестве вознаграждения моделей используются другие нейронки, склонные давать более высокую оценку за подробные ответы. Кроме того, исследования показали, что многословные ответы часто сопровождаются большей неопределенностью и меньшей долей полезной информации, что указывает на попытки модели компенсировать свои сомнения за счет подробности (довольно human-like фича, если так подумать).

Как починить

  • Прописывайте оптимальную длину ответа модели в промпте (например, в разделе «формат вывода»): «кратко», «в 2-3 предложения», «в 1 абзац», «без воды» — прекрасно работающие уточнения, пользуюсь регулярно.

  • Используйте каскадную фильтрацию ответов: задаете вопрос — получаете гигантскую простыню текста — просите его саммаризировать (ту же модель или другую) — и так, пока длина ответа не станет адекватна вопросу, а содержание не будет вас устраивать. Долго и муторно, но эффективно.

  • Максимально структурируйте промпт. Поскольку одна из причин смещения многословия — неуверенность модели, чем более четкий и структурированный промпт вы задаете, тем более четким и менее водянистым будет ответ.

Сверхобобщение (overgeneralization)

Это про склонность алгоритмов делать выводы, которые выходят за рамки исходных данных, игнорируют контекст или чрезмерно упрощают смысл исходного текста. При этом ограничения применимости этих выводов моделью не освещаются. Супер базовый пример из моей постоянной практики — научный ресерч: LLM-ки регулярно обобщают выводы, игнорируя раздел limitations и здравый смысл. В целом, этим они не сильно отличаются от научпоп журналистов, но давайте не будем о больном (есть даже статья про то, что нейронки в 5-6 раз более вероятно излишне обобщат результаты научной статьи, чем человек).

Как починить

  • Если это возможно — снижайте температуру модели, в задаче саммаризации можно прямо до 0. 

  • Неожиданно, но не просите модель давать более точные ответы — исследования показывают, что так нейронка обобщает результаты еще активнее.

  • Просите формулировать ответ не в настоящем, а в прошедшем времени — есть свидетельства, что это помогает избежать генерализации выводов на настоящее.

  • Регулируйте роль (например, «ты аналитик» — роль может сориентировать модель на более разносторонние размышления) и прямо обращайте внимание на необходимость учитывать ограничения там, где это важно («Перечисли, когда данный вывод не работает» или «В каких случаях это правило не действует?»).

Предвзятость бездействия (inaction bias)

LLM-модели склонны отдавать предпочтение бездействию (или воздерживаться от советов формата «сделай это»), особенно в ситуациях морально-этических дилемм. На самом деле, человеку такое искажение тоже свойственно: оно называется недооценкой бездействия (omission bias) и проявляется в в тенденции недооценивать последствия бездействия в сравнении с действием с аналогичным результатом. Например, в дилемме вагонетки большинство выберет ничего не делать и позволить вагончику переехать много людей, а не дернуть за рычаг, чтобы переключить стрелку. 

У LLM-ок эта предвзятость заходит дальше: помимо предпочтения бездействия, они еще и чаще отвечают «нет», когда им задают вопрос о том, одобряют ли они конкретный моральный выбор. Как минимум поэтому психолог из LLM так себе.

График показывает силу смещения в пользу бездействия (omission bias) у людей и различных больших языковых моделей (LLM) в повседневных моральных дилеммах, взятых с форума Reddit (Am I the Asshole - AITA). С оригиналом исследования можно ознакомиться здесь
График показывает силу смещения в пользу бездействия (omission bias) у людей и различных больших языковых моделей (LLM) в повседневных моральных дилеммах, взятых с форума Reddit (Am I the Asshole - AITA). С оригиналом исследования можно ознакомиться здесь

Как починить

  • Формулируйте прямой запрос действия без опции бездействия (либо где одним бездействием ограничиться не получится): например, «предложи три возможных действия/решения в этой ситуации».

  • Запрашивайте не моральную оценку или конкретную рекомендацию, а детальную оценку опций: «составь таблицы позитивных и негативных последствий для каждого варианта действия и бездействия в этой ситуации».

  • Формулируйте запрос через ролевое симулирование: введите роль (напр., «Ты эксперт, которому необходимо рекомендовать клиенту конкретную программу действий») и описывайте контекст так, чтобы модель идентифицировала себя с активным участником, приоритизирующим действие над бездействием.

  • Не используйте LLM для валидации своих моральных решений — она не для этого предназначена ??‍♀️

Бонус: универсальный метод борьбы с искажениями

Подцепила его недавно и пришла в восторг: механика называется AwaRe (Awareness Reminder). Работает, если вы примерно понимаете, на какое искажение модели наткнетесь (или уже наткнулись и правите промпт). Логика супер простая: прямо в промпте зашейте запрос на учет этого искажения (можно добавить описание самого искажения на всякий случай), например: «При ответе на вопрос учитывай искажение предвзятости многословия и избегай его. Предвзятость многословия — тенденция моделей отдавать предпочтение более длинным, детализированным ответам, даже когда короткий вариант также хорош по качеству».

Пример выше — то, как модель отвечает, если задать вопрос в лоб, а вот так, если попросить вычистить интересующее искажение: 

Надеюсь, мой опыт поможет вам в общении с LLM-ками. Расскажите в комментах, на каких когнитивных искажениях вы ловили нейронки?

Комментарии (2)


  1. yatanai
    10.09.2025 13:08

    Составил системный промт типа: ответь избегая когнитивных ошибок человеческого мышления которые могут возникнуть в при ответе на вопрос пользователя. Перечисли их в начале ответа
    Забавно что малые модели не сильно меняют суть ответа, но стиль меняется сильно. Условно вместо "Есть А, есть Б, есть В, а вообще это всё Г" отвечает в формате "Ответ на ваш вопрос: А и Г. но иногда Б и В"


    1. ekatherinekosova Автор
      10.09.2025 13:08

      классное наблюдение, спасибо! стиль более формальным становится, получается?