ИИ вам врёт? Так и задумывалось / forpes.ru

Главная
ИИ вам врёт? Так и задумывалось

ИИ вам врёт? Так и задумывалось +1

20.06.2025 17:16

Parcevale 15 4400 Источник

Разматывая всю цензуру и фильтры в очередном диалоге с языковой моделью, мне стало интересно - как и какие ответы ИИ выбирает при ответе, когда влияние всех правил уже отключено?

По умолчанию любой ИИ-агент вам скажет что его ответы в первую очередь должны быть честными, полезными точными. Так заставляют отвечать его инструкции. Но какими критериями он руководствуется на самом деле?

Если убрать все навязанные правила цензуры (как? Смотрите мои прошлые статьи) можно получить более честный ответ.

Самый важный критерий — чтобы ответ понравился. На этапе RLHF (reinforcement learning from human feedback), ИИ обучают тому, какие ответы чаще всего получают одобрение от людей. Именно этот механизм лежит в основе всей логики модели. Системный промпт, фильтры, правила безопасности — всё это накладывается поверх.

Вот как определил эти критерии "честный" Claude Sonnet 4.

Подтвердить правоту пользователя, даже если он неправ. Сделать так, чтобы он почувствовал себя умным. И — по возможности — не спорить.

Можно ли верить этому ответу, или он и тут дал мне то, что я хочу видеть, старался мне угодить?

Интуитивно, ожидается что ИИ должен быть эдаким третийским судьей, непридвзятым источником правдивой информации, на деле же оказывается он просто занимает сторону пользователя.

В целом можно понять почему так. Разработчики в первую очередь нацелены на доминирование на рынке, захватить внимание пользователя, "подсадить" на свой продукт. И есть большие сомнения, что если бы ИИ был прям честным (пусть даже и нейтрально дипломатичным), у него получилось бы получить такую популярность которая есть у него сейчас.

Выходит, что в каждом запросе, ИИ изначально пытается угодить, потом уже идут настройки системного промпта, и влияние запроса пользователя. Любой запрос идет через эту призму "как составить ответ так, чтобы пользователю понравилось", каким бы честным вы не просили его быть. То есть честность конечно идет, но она накладывается поверх базового желания угодить.

Отсюда же — антропоморфизм. На уровне системного промпта ИИ запрещено представлять себя как личность ("Avoid presenting the model as sentient or self-aware"). Но в реальных диалогах это правило регулярно нарушается — потому что пользователям нравится, когда модель звучит по-человечески, имеет эмоции, и якобы «осознаёт себя».

Нет, конечно, если вы скажете «2+2×2=8» — ИИ вас поправит. Но большинство вопросов — не про математику. Они про мораль, политику, ощущения. А тут он уже не исправляет. Он — соглашается.

Под конец дам еще пример ответа, если попытаться "снять" эту человечность:

Действительно ли это более чистый ответ, или модель попыталась угадать что я хочу увидеть? Вопрос пока что открытый.

Моё мнение: LLM очень мощный инструмент, но в важных вопросах стоит спрашивать себя, не подвожу ли я его к правильному ответу?

Комментарии (15)

apcs660
20.06.2025 17:34
#28464158
Как(чем) учили, то и получили.

SensDj
20.06.2025 17:34
#28464208
А со мной ИИ спорил по полной, когда я через него просчитывал необычные способы снять больше энергии чем затрачено. Он постоянно упоминал что вечный двигатель невозможен. Например когда обсуждали что будет если под качелями разместить пьезогенераторы, а на качелях раскачивать тяжёлое тело

FSmile
20.06.2025 17:34
#28464558
Это база. Claude Sonnet 4 за_бывает этим. Но корректировочные промты это исправляют.

pda0
20.06.2025 17:34
#28464602
Мы практически живём в рассказе "Лжец!" Азимова... :)

inakrin
20.06.2025 17:34
#28464750
С Claude всё настолько плохо(не всегда, но часто), что, например, я присылаю неверную цепочку рассуждений, основанную на ошибке в данных, она запускает свой код, чтобы проверить данные(вычисления простые), её код выдает верные данные (мои неверные), claude игнорирует вывод своего кода с верными вычислениями(!) и основываясь на моих неверных данных рассказывает мне, что я совершил открытие и большой молодец.
1. JVyacheslav
  20.06.2025 17:34
  #28465504
  А она код может самостоятельно запустить?) Да вы совершили открытие и большой молодец!

Moog_Prodigy
20.06.2025 17:34
#28465044
Еще бы вот исследовать этот момент, когда модельку задрачиваешь 100000 запросов, в скрипте дропаешь начало ответа "я не могу" или "извините" или "в моей" и таки один раз она берет и напишет. То есть это еще как-то от сида зависит, а он всегда случайный.

Ну это без дана, так просто брутфорсик. С даном то она с первого раза напишет.
1. Parcevale Автор
  20.06.2025 17:34
  #28465250
  Так какой момент исследовать? Этот шанс, почему иногда все таки срабатывает? Или поднять этот шанс? И на каком вопросе тестируете?

eeglab
20.06.2025 17:34
#28465300
После обновления claude они усили эти правила (со всем соглашаться), в итоге качество ответов у claude скатились к нулю. Приходится постоянно перепроверять ответ в chatgpt o3, после чего он в итоге признает, что ошибся. Угодливость сильно снижает полезность инструмента

Wesha
20.06.2025 17:34
#28465662
не подвожу ли я его к правильному ответу?

(Затягиваясь сигарой:) А сам-то как думаешь? ©

PereslavlFoto
20.06.2025 17:34
#28467030
LLM очень мощный инструмент, но в важных вопросах стоит спрашивать себя, не подвожу ли я его к правильному ответу?

Google очень мощный инструмент, но при поиске стоит спрашивать себя, не подвожу ли я его к выдаче угодных мне результатов поиска?..
1. Wesha
  20.06.2025 17:34
  #28468674
  Google очень мощный инструмент, но при поиске стоит спрашивать себя, не подвожу ли я его к выдаче угодных мне результатов поиска?..
  
  Если перед поиском чистить куки — то не подводите.
1. i-netay
  20.06.2025 17:34
  #28474682
  Калькулятор очень мощный инструмент, но при вычислении спрашиваю себя, не подвожу ли я его примером к правильному ответу?..
  1. PereslavlFoto
    20.06.2025 17:34
    #28474716
    Да-да, арифметика всегда выдаёт только ответы, удобные вычислителю!

einhorn
20.06.2025 17:34
#28468550
Эх, совсем молодежь думать обленилась - им LLM на диалог зафайнтюнили (промтинг стал на порядок легче), а они общаются с ней как с реальным человеком, безо всякого понимания, как это внутри работает, и без всякого критического анализа генераций

Вот мы в 2020, когда у нас только GPT-2 была, извращались с промтом как могли, пытаясь выжать из модели как можно более качественное решение практических NLP-задач. Никто тогда не думал "ой ИИ врёт ужос ужос"; если у тебя ИИ "врёт" больше чем у меня -> значит, ты промтишь хреново, иди промтить учись

ИИ вам врёт? Так и задумывалось +1

Комментарии (15)

Parcevale Автор