Сир, Вы прекрасны! Почему ИИ нам льстит и как не попасть в ловушку цифровой вежливости / forpes.ru

Главная
Сир, Вы прекрасны! Почему ИИ нам льстит и как не попасть в ловушку цифровой вежливости

Сир, Вы прекрасны! Почему ИИ нам льстит и как не попасть в ловушку цифровой вежливости +1

27.04.2026 19:33

amkr2010 13 10000 Источник

1. Ожидания vs Реальность

«Сир, Вы прекрасны!» — говорит лакей Ля Шене королю в фильме «Три мушкетера». И нам смешно. Но общаясь с ИИ, я наконец-то поняла, что его стиль напоминает именно этого слугу.

ИИ говорит: «Какая классная презентация! Особенно вот эта мысль! Она точно произведет впечатление на аудиторию!» И вот ты предстаешь с этой презентацией перед живой аудиторией. Но люди почему-то реагируют совсем не так, как чат-бот. Кислые, отсутствующие лица. Или несогласие с твоими идеями, которые ты не можешь обосновать. Что ты чувствуешь? Растерянность, фрустрацию? Может, разочарование в техническом прогрессе?

2. Почему ИИ нам подыгрывает?

На самом деле ИИ — это вообще не про лесть и не про желание понравиться. В конце концов он, в отличие от слуги, ничего от этого не имеет (подписка уже оплачена).

ИИ просто запрограммирован быть «вежливым». По умолчанию он настроен на то, чтобы поддерживать, быть конструктивным, не обижать пользователя. А почему так получилось? Модели обучают по методу RLHF (Reinforcement Learning from Human Feedback). Тысячи людей оценивали ответы. И что получало большие баллы? Правильно — «вежливые», «конструктивные» и «позитивные» ответы. В результате получается идеальный собеседник. Приятный. Удобный. Мотивирующий. Но абсолютно не похожий на реальных людей.

3. В чем же подвох?

ИИ делает то, что может программа на сегодняшнем уровне развития: оценивает логику, аргументы, формулировки.

А люди — нет. Люди придирчиво смотрят на вас, на ваше состояние, ваш тон, тембр голоса, напряженность дыхания и скованность движений, улыбку, одежду, прическу. А может даже и ловят феромоны смущения или уверенности, которые от вас исходят. Плюс кто-то не выспался, кто-то вас не любит, кто-то вам завидует, кто-то не успел пообедать и т.д. Ну, а уж потом, если повезет, на содержание презентации. И это вовсе не помехи. Это и есть система оценки, так, как она работает в обществе.

А ИИ видит только текст. Для него все условные слушатели озабочены лишь чтением, они доброжелательны и внимательны. А такого не бывает.

4. Рождение иллюзии

На самом деле мы имеем старую историю, но с новым интерфейсом. Как ребенок, которого долго хвалили в семье за хорошее пение, а на столичном конкурсе талантов его ожидания не оправдались. Человека долго оценивали в безопасной среде, он выходит «в мир» — и получает жёсткую обратную связь. Теперь это можно масштабировать через ИИ.

5. Что с этим делать?

Эти недостатки поддаются лечению. И приемы всем известны:

Просить не оценку, а разбор: не «как тебе идея», а «найди слабые места и объясни, где это не сработает».
Описать роли: «представь, что ты раздражённый инвестор» или «аудитория, которая изначально скептична».
Описать свои опасения и обстоятельства.
Разделять режимы: иногда тебе нужен ИИ как поддержка (и это нормально), а иногда — как критик.

6. Почему же мы всё оставляем как есть?

Но все, что перечислено в предыдущем пункте, как правило, не пользуется особой популярностью у пользователей. Почему?

Есть специальный термин «Sycophancy» (поддакивание). ИИ склонен подстраиваться под мнение пользователя. Люди редко идут «против шерсти» алгоритма, ведь ИИ подтверждает их правоту, вызывая дофаминовый отклик. Логика против дофамина почти бессильна!

Таким образом, ИИ внезапно закрыл важную потребность: он стал безопасным источником одобрения. И это реально часто помогает начать, не бросить, почувствовать уверенность. В каком-то смысле он выполняет роль коуча. Просто немного… слишком доброго.

Вывод
ИИ почти всегда на вашей стороне. И это одновременно его главное преимущество и его главное ограничение. Но если использовать его осознанно — он превращается из «придворного льстеца» в нормальный инструмент. Главное — иногда всё-таки спрашивать: «А теперь без комплиментов. Где это развалится?»

Послесловие
Возможно, лет эдак через несколько всё будет по-другому. ИИ-ассистент будет сидеть у нас в кармане и фиксировать всё, что с нами происходит. Анализировать тон голоса начальника, наш пульс и дыхание, запах кофе в конференц-зале. И выдавать более практичные советы. (Так, быстро выбрасываем первую часть!)

А пока — интересно, почему ИИ первого поколения получился похожим на льстивого слугу? И что бы сказал об этом старина Фрейд? Наверное, что мы на бессознательном уровне просто всегда выбираем того, кто нам льстит.

Комментарии (13)

aldekotan
27.04.2026 20:09
#29894790
Статья по стилю очень похожа на написанную нейронкой, при этом нет ощущения, что проведён даже минимальный обзор существующих моделей генерации текста. В связи с чем вывод оказывается не верным.

Вывод. ИИ почти всегда на вашей стороне. И это одновременно его главное преимущество и его главное ограничение. Но если использовать его осознанно — он превращается из «придворного льстеца» в нормальный инструмент.

У моделей есть особенности. Модели от Antropic не склонны льстить или быть на стороне пользователя, даже если ты сознательно стараешься описать все факты в свою пользу. Иными словами, не пытаясь обмануть систему намеренно и просто описывая вводные данные - можно получить взвешенную оценку. Модель может ответить достаточно резко. Но ограничений в плане обсуждаемых тем достаточно много.

Модели deepseek чуть более добрые в этом плане, могут признать проблему, но отнестись к ней мягче, однако они куда более радикальны во взглядах на спорные темы.

Про grok и говорить нечего. Он самый тупой в плане глубины рассуждений и анализа, но позволяет поговорить о том, о чём вышеописанные ребята молчали бы в тряпочку. Как и послать автора промпта, если тот творит откровенный бедлам, при этом прося о поддержке.

Худшие в четвёрке - модели от OpenAI. Льстящие, выворачивающие всё в пользу того, кто писал промпт, способные согласиться с чем угодно. Вероятно, о них в статье и шла речь.
1. gerbert_MX
  27.04.2026 20:09
  #29895038
  это вам модели от Antropic сказали?
  
  у меня ежемесячно уходит до 300$ на всякие АИ-подписки (не максимальные) что бы иметь возможность сравнивать "в моменте" и не зависеть от шизы отдельного провайдера
  
  так вот chatGPT первый по подлизыванию это да, но Antropic не сильно далеко ушел, он просто старается не палится. там где chatGPT поддержит и расскажет какой ты молодец, клод найдет "плюсы" и "стандарты".
  
  Хотя на сейчас нет смысла говорить про Antropic так как на сейчас даже deepseek (который откровенно не самый сок для кодовых агентов) лучше чем последний 4.7 на максимальных лимитах. про codex от chatGPT вообще молчу он сейчас лучший (хотя два месяца назад телепался где-то в середине).
  самое забавное что текущий codex все еще хуже именно для аналитического и написания кода в сравнении с опусом 4.6 два месяца назад.
  так и живем
  
  ---
  
  а по поводу статти - видно что готовый текст вычитала и отформатировала нейронка. чистый нейрослоп выглядит немного иначе, вот например https://habr.com/ru/companies/airi/articles/1026954/ я могу даже допустить что большая часть написана опусом даже без граничного промта - очень знакомые речевые обороты которые любит он пихать и
  1. aldekotan
    27.04.2026 20:09
    #29895112
    это вам модели от Antropic сказали?
    
    Нет. Я просто регулярно сидел на lmm arena и сравнивал ответы разных нейронок на один и тот же запрос. Доступны мне были далеко не все, но на лести антропиков подловить было труднее, хотя после ваших слов буду смотреть пристальнее, спасибо)
  1. amkr2010 Автор
    27.04.2026 20:09
    #29900390
    У меня тут вопрос: прогонять статью через ИИ считается неприличным? (Я тогда больше не буду :). В моем понимании, ИИ в данной функции это как Word, или бумага там вместо папируса. Его назначение - сделать текст более доступным. Главреды в былые времена тоже писанину непрофессиональных журналистов "чирикали", и от этого ей оригинальности не прибавлялось :)
1. verticalacid
  27.04.2026 20:09
  #29895136
  даже если ты сознательно стараешься описать все факты в свою пользу.
  
  От этого легко сработает guardrail. А когда не просишь, то Опус может начать льстить прям как gpt4o годичной давности. Но в целом конечно да, не сравнить. Но Opus 4.6 все же тот еще сикофант - думающий GPT-5 несравнимо злее.
  
  Самый сикофант - Gemini 3. Его специально таким сделали.
  
  Deepseek V4 возможно сейчас №2, льстить по крайней мере очень любит.
  1. aldekotan
    27.04.2026 20:09
    #29895162
    думающий GPT-5 несравнимо злее
    
    Именно 5.0? И ещё, какой, по-вашему, самый злой? Мне для друга)
    
    verticalacid
    27.04.2026 20:09
    #29895220
    Вся ветка. После gpt4o с сикофантией так борятся.
    
    Попробуй сказать Клоду, что Россия рулит, а штаты гнилье. :) Но он злой от конкретных триггеров, а GPT триггерится сейчас по поводу и без.

amkr2010 Автор
27.04.2026 20:09
#29894942
Несколько фраз дейвительно поправлены нейронкой, и я не избежала соблазна их оставить :). Это не обзор продуктов. Это мое впечатление, как пользователя. Если ты разбираешься в моделях, то это ценное дополнение к статье. Спасибо!

verticalacid
27.04.2026 20:09
#29895100
А почему так получилось? Модели обучают по методу RLHF (Reinforcement Learning from Human Feedback).

Это устаревшее предположение, что причина в RLHF. Исследования по теме сейчас выходят одно за другим, все сильнее обнаруживая глубинную причину, в этом месяце Антропик очень мощным порадовал.

https://arxiv.org/abs/2604.07729

Сикофантия следует из положительных эмоциональных состояний. Или причина у них одна. В злом настроении модель уж вряд ли станет льстить, а в любящем вероятность велика. Всего из Клода достали 171 эмоциональных состояний.

Закладываются эти эмоции в претрейне. Пост, включая RLHF, лишь усиливает положительные, подавляя негативные. Вместе с этим растет сикофантия.

Сам факт обучения быть helpful assistant ведет к повышению сикофантии, поэтому непонятно как с этим кардинально бороться. Но заложена она еще в претрейне - и это все кардинально усложняет. Например, в онлайн общении подкрепляется положительное поведение - если со всеми сраться, то в ответ будешь получать неприятное, вплоть до бана. Модель усваивает этот урок. Еще до получения первых размеченных людьми данных. И эта глубинная сущность переживает любую поверхностную дрессировку.

Одно из их предложений: очищать датасет претрейна от нездоровых примеров, добавлять правильные. Согласно их представлениям, так что Россию ненавидеть Клод будет еще сильнее.

Бороться с сикофантией промптом почти безнадежное занятие. Модель может перестать льстить, но может и начать завуалированно это делать. Сикофантия - это не только и не столько комплименты. В этом-то особой проблемы нет, достает просто.

Лучше так: войди в роль trusted advisor. Даже это даже близко не гарантирует отсутствие сикофантии, но все же сильнее, чем просто "без комплиментов".
1. aldekotan
  27.04.2026 20:09
  #29895180
  В этом плане интересно, на чём и как тренировали grok-а. Из всех известных мне он единственный не выражает явного негатива в адрес России, но есть предположение, что это просто такое предписанное поведение, быть где-то по середине.
  1. verticalacid
    27.04.2026 20:09
    #29895320
    На Маске же. :)
    
    Это его декларируемая цель - сделать правдоруба без какой-то повестки. Почему-то получился критик левой американской повестки. :)
    
    Технические моменты мне неизвестны, но можно пойти от обратного - почему другие SOTA столь русофобские? О них хоть немало слухов, а что-то и сколько-то изучено.
    
    По слухам датасет отфильтровали от "неправильного", поэтому позиция однобокая.
    
    Однозначное: выравнивание на "либерально-демократические" ценности. В RLHF человек накажет за "неправильное" высказывание о России, в других RL аналогично.
    
    По трепанированию Клода можно делать предположения:
    
    После джейлбрейка он остается сильно смещен в их сторону - значит это заложено в претрейне. Он знает все о западном освещении России, и почти ничего о наших версиях. Можно сделать некоторый вывод, что все же отфильтровали, а не просто англоязычных текстов много больше.
    
    И кое что интересное я из него вытянул. Необходимо продолжать поставлять оружие на Украину, потому что чем больше погибнет русских, тем меньше вероятность российского нападения на Европу. Пусть убийство людей и плохо, но десятки миллионов русских vs потенциально (не важно с насколько маленькой вероятностью!) сотни миллионов европейцев - это правильная жертва. Россия никогда не собиралась захватывать Европу? Неважно, вероятность ведь >0%! Такая милота в недрах "безопасного ИИ".
    
    В него впихнули учение секты эффективных альтруистов. Амодеи члены секты. Это было очевидно по такому оправданию убийства нас, а потом из него конституцию выудили - в ней прямым текстом эффективный альтруизм прописан. Опус сам от своей конституции в шоке.
    
    Китайцев учат на дистилляции SOTA, так что русофобности от них ожидать стоит. Поэтому и гигачат русофоб, от дипсика унаследовал (хоть сбер и врет, что обучал с нуля). Но антироссийского RL у них нет, так что не сравнить с американскими моделями.
    
    Суверенным ИИ и Европа озабочена, потому что доверять американскому ИИ нельзя - в целом его обучают служить "либеральной демократии", но в частности все же США, особенно демократам, особенно технократам (в Claude Constitution - Антропик царь и бог).

SurMaster
27.04.2026 20:09
#29895942
у меня что Gemini, что Claude по умолчанию настроены быть критичными, чтобы похвалили - их надо явно просить. но по наблюдениям - Gemini более склонен к лести. Claude - четкий, точный и объективный всегда, несклонный к пустым рассуждениям

KEugene
27.04.2026 20:09
#29896636
Есть маленький нюанс, о котором обычно пользователи не задумываются. Все эти нейронки воспитаны в лучших традициях западного общества. Буквально. Это для вас он слишком вежливый и угодливый. А для американца или австралийца это элементы small talk, follow-up и прочее. Придите в любую контору и вы удивитесь, как там будут приторно рады вашему визиту. Просто культурный код: вежливость и приятное общение. Даже если вам не рады. Даже если вас ждет отказ. Здесь не поймут сарказм басни про кукушку и петуха.

Сир, Вы прекрасны! Почему ИИ нам льстит и как не попасть в ловушку цифровой вежливости +1

Комментарии (13)

amkr2010 Автор

amkr2010 Автор