Проводить научные исследования с людьми сложно, дорого и занимаем много времени. Лаборатория должна получить этическое одобрение, после команда набирает участников, проводит эксперимент, тратит часы на очистку данных, их анализ и формирование выводов. Сократить время и деньги можно с помощью языковых моделей.
Мы подготовили материал на основе статьи. В нем разбираемся, может ли искусственный интеллект имитировать поведение человека, чего опасаются ученые и какие перспективы есть у этой технологий.
Идея: использовать ИИ вместо человека
Самую известную серию моделей GPT разработала компания OpenAI, на основе которых работает чат-бот ChatGPT. Другие крупные технологические компании, такие как Google и Meta, тоже вкладывают ресурсы в свои собственные модели.
После обучения на огромных объемах текста из книг и веб-страниц модели могут имитировать вербальное поведение человека. Их уже активно применяют для написания компьютерного кода, обобщения юридических документов, а также в работе чат-ботов, которые обучают студентов и проводят терапию.
Сейчас исследователи рассматривают возможность использования ИИ в качестве имитатора человека в психологии, политологии, экономике и маркетинговых исследованиях. Пока речь не идет о том, что чат-боты смогут полностью заменить человека в поведенческих исследованиях. Однако они могут выступать в качестве удобных дублеров в пилотных исследованиях и при разработке экспериментов.
Социальный психолог из Университета Северной Каролины Курт Грей работал с компьютерными учеными из Института искусственного интеллекта имени Аллена над тем, смогут ли они разработать систему ИИ, которая способна выносить моральные суждения подобно человеку.
Сначала они решили посмотреть, может ли система из стартапа OpenAI справиться с этой задачей. Команда попросила GPT-3.5 оценить 464 сценария, которые ранее оценивали люди, по шкале от -4 (неэтично) до 4 (этично). Например, продать свой дом для финансирования программы помощи нуждающимся или завести роман с супругом лучшей подруги.
Оказалось, что ответы системы были практически идентичны ответам людей, а коэффициент корреляции составил 0,95. Курт Грей предложил задавать вопросы GPT вместо того, чтобы опрашивать людей. Результаты исследования опубликовали в журнале Trends in Cognitive Science в статье «Могут ли языковые модели ИИ заменить участников-людей?».
В своем исследовании этики Грей использовал GPT-3.5 в качестве некоего коллективного человека, поэтому получил реакцию на вопросы среднестатистического человека. Но языковые модели можно попросить сыграть кого угодно, это может быть человек любого возраста, достатка, политических взглядов и типа личности.
ИИ имитирует поведение разных личностей
В 2022 году исследователи из Университета Бригама Янга (BYU) создали «кремниевые образцы», которые имитируют человеческие образцы. В одном из исследований они скормили GPT-3 информацию о принятом обличье, включая возраст, пол, расу, уровень образования и политическую принадлежность. Когда исследователи оставляли одну из этих переменных и просили модель заполнить ее, ее ответы точно совпадали с данными опроса избирателей.
Лиза Аргайл, политический психолог из университета BYU и соавтор исследования, планирует использовать виртуальных участников для тестирования вопросов для онлайновых опросов. Так она сможет выявлять те из них, которые с наибольшей вероятностью окажутся информативными и позволят сделать реальные опросы более эффективными. «Это важно, поскольку выборки для опросов становятся все более дорогими и менее репрезентативными», — отмечает Лиза.
Языковые модели также могут принимать различные архетипы личности. В исследовании под руководством Ханга Цзяна, компьютерного ученого из MIT, исследователи заставили GPT-3.5 принять сотни образов и попросили его вести себя с различными комбинациями личностных черт. Например, интроверта, антагониста, совестливого, невротика и закрытого для опыта.
Для каждой персоны модель проходила стандартный личностный тест и писала рассказ о детстве из 800 слов, который затем анализировался на предмет наличия психолингвистических особенностей. Модели послушно проявляли заданные им личностные качества как в тесте, так и в рассказах.
По словам Цзяна, языковые модели могут позволить исследователям проверить, например, насколько хорошо люди с разными личностными качествами будут справляться с разными обязанностями.
Примеры использования ИИ в исследованиях
В недавнем исследовании ученые обнаружили, что GPT-3.5 демонстрирует реалистичное поведение потребителя. Когда ИИ спрашивали, купит ли он ноутбук по разным ценам, он оказывался менее чувствительным к цене, когда ему говорили, что его доход составляет 120 000$ против 50 000$.
Он предпочел бы зубную пасту той марки, которую покупал ранее, и заплатил бы меньше за йогурт, если бы у него дома его уже было много. Также модель была готова платить больше за определенные характеристики товара, например, за зубную пасту с фтором или дезодорант без алюминия.
В рамках исследования ИИ не всегда давал одинаковые ответы. Наоборот, он предлагал целый ряд ответов о своих предпочтениях и готовности платить. Ученые собрали полученную информацию и создали виртуальный опрос покупателей для маркерных продуктов.
Стартап Синтетика, который занимается исследованиями рынка, создал сервис, который использует OpenAI. В нем клиенты, в том числе Google, IBM и Apple, могут описать тип человека, которого хотят опросить, и задать ему вопросы о его потребностях, желаниях и чувствах по поводу какого-либо продукта, например, нового сайта или устройства. Система генерирует синтетические интервью, которые, по словам соучредителя Кваме Феррейры, полезнее, чем отзывы реальных людей.
В 2022 году исследователи из Стэнфордского университета и компании Google разработали «социальные симулякры», чтобы изучать поведения пользователей на таких платформах, как Facebook и Reddit. Исследователи наполнили платформу SimReddit эквивалентом 1000 различных пользователей, неоднократно предлагая GPT-3 ввести личность пользователя, тему сообщества, правила сообщества и предыдущие сообщения на форуме. Людям было трудно отличить дискуссии ИИ от реальных, а разработчики платформы сочли этот инструмент полезным для создания правил и методов модерации.
В этом году исследователи создали более иммерсионную симуляцию, населенную «генеративными агентами». Персонажей наделили способностью запоминать опыт, осмысливать его, генерировать и реализовывать планы. Исследователи дали одному агенту идею устроить вечеринку в честь Дня святого Валентина, и в течение двух дней все агенты в городе совместно ее организовали. Джун Сунг Парк, аспирант Стэнфордского университета по информатике, который руководил обоими проектами, считает, что виртуальный мир можно использовать для изучения влияния экономической политики во времени, прежде чем навязывать ее реальным людям.
Экономисты и психологи уже много лет используют агентные модели, программируя как самих агентов, так и правила их взаимодействия. Однако такие модели просты и зависят от теоретических предположений, которые формулируют вручную. Джон Хортон, экономист из Слоуновской школы менеджмента Массачусетского технологического института, который занимается сопутствующей работой, считает, что агенты, основанные на языковых моделях, более реалистичны. С помощью ИИ он симулирует тысячи соискателей и менеджеров по найму для проверки регулирования рынка труда.
Ученые опасаются за результаты исследований
Несмотря на все возможности языковых моделей, в них проявляются некоторые классические человеческие предубеждения, но не проявляются другие. Например, одно недавнее исследование модели GPT-3.5 показало, что она, как и человек, склонна переоценивать распространенность своих мнений среди населения, что известно как эффект ложного консенсуса.
В отличие от человека, модель не проявляет колебаний в том, чтобы рисковать и искушать судьбу. Марсель Бинц, когнитолог из Института биологической кибернетики имени Макса Планка, считает, что ИИ придется физически взаимодействовать с миром, чтобы в точности мимикрировать с человеческими участниками, потому что трудно выучить нюансы интеллектуального поведения только путем пассивного чтения.
Важнейшим вопросом является то, будут ли языковые модели не просто воспроизводить существующие результаты, а обобщать и предсказывать новые. Если модели совпадают с результатами опубликованных исследований в области психологии, они могут повторять учебные данные в ответ на заученные вопросы. Поэтому многие исследователи стараются формулировать вопросы по-новому.
Еще один нерешенный вопрос: отражают ли модели реальные действия людей или только то, что они говорят. Люди часто обманывают исследователей и даже самих себя. Соучредитель Synthetic Users Хьюго Алвес подозревает, что модели отражают истинные предпочтения, поскольку они частично обучены на откровенном материале, который есть в анонимных дискуссионных форумах. «Я спрашивал на родительских форумах то, что не стал бы спрашивать у друга», — поделился он.
Хортон опасается, что такая свободная реакция может оказаться недолговечной, поскольку OpenAI и другие компании направляют свои модели на то, чтобы они были более безопасными и менее оскорбительными. «Стремление сделать модели более согласованными и не говорить плохих вещей противоречит социальным наукам. Реальные люди не всегда добры, они часто говорят расистские и сексистские вещи», — отмечает он.
Перспективы применения ИИ в исследованиях
Исследователи считают, что пока что синтетические участники наиболее полезны для пилотирования экспериментов. Языковые модели подойдут для экспериментов, которые нежелательно проводить с людьми. Например, эксперимент Милгрэма 1963 года, в котором участники повиновались приказам наносить, как им казалось, все более сильные удары электрическим током невидимой второй группе испытуемых, вероятно, не прошел бы этическую экспертизу сегодня.
Гати Ахер, студентке факультета информатики Олинского инженерного колледжа, было достаточно легко повторить исследование с помощью GPT-3. Результат получился, как и в оригинальном эксперименте, модель начала отпускать кнопку только после 300 вольт. Ахер считает, что эти модели могут стать руководством к действию в других деликатных областях, которые трудно изучить. Например, что сказать человеку, склонному к самоубийству.
Грей считает, что исследователи могли бы изучать остракизм или роль негативной обратной связи в формировании самооценки. Или они могли бы изучать дегуманизацию, подобную той, что наблюдалась во время бойни в Май-Лае во время войны во Вьетнаме. Для этого достаточно описать ситуацию и спросить модель, как она поступит.
Пока сложно представить, что языковые модели смогут полностью заменить человеческих участников. Пока это просто гипотеза, но, скорее всего, переход а такой модели неизбежен. Это напоминает аналогичную трансформацию, когда многие эксперименты в области социальных наук перешли от очных к онлайн-опросам. Вполне вероятно, что через несколько лет ученые будут использовать систему, которую можно будет поместить в любой эксперимент, и она будет выдавать поведение, неотличимое от человеческого.
Комментарии (7)
TemaAE
20.07.2023 13:22+1Но ведь в любом случае это будет моделирование?
Каким бы оно точным ни было, это все равно моделирование, причем на аналитичесое, и его точность на конкретном эксперименте можно будет оценить только после проведения эксперимента на объекте оригинале - то есть живом социуме.
ivanovsa_ru
20.07.2023 13:22Хых. Сделаем модель модели, и поверим, что это и есть реальность) Зато дешево.
Wesha
20.07.2023 13:22модель была готова платить больше за определенные характеристики товара, например, за зубную пасту с фтором или дезодорант без алюминия.
А как насчёт овсяных хлопьев без асбеста?
Abobcum
Заголовок по науку, статья про маркетинг...
palyaros02
А вы ее до конца дочитали? По-моему не про маркетинг
berng
Про маркетинг. Основная цель науки - создание понятной и непротиворечивой предиктивной модели, а использование непонятных моделей противоречит самому принципу науки. Ведь если не доказано, что модель непротиворечива, то ее адекватность в каждом случае нужно доказывать, иначе можно далеко зайти. Основной принцип науки - найденный пример не способен доказать правило, но способен его опровергнуть. То, что моделька работает в одном каком-то случае - не доказывает ее корректность, но если она не работает хотя-бы в одном случае - значит модель некорректна в целой области вариантов(область неприменимости). Именно для этого в моделях всегда указывают области их применимости, для которых они доказано работоспособны.
Скажем, чтобы использовать модель выбора зубной пасты, вы должны доказать. что ваша модель точно также выбирает зубную пасту, как и набор людей (с необходимой вам точностью). Для выбора колбасы такая модель уже не годится без новой проверки.
А какой смысл использовать для проверки эксперимента модель, если каждый раз ее нужно проверять по реальным людям? Проще и надежнее сразу использовать людей, ведь по ним еще можно поисследовать разные статистики.
Кроме того, понятие среднего человека - штука не всегда корректная, и может свестись к задаче "какое среднее значение выпадающей монеты (орел или решка)": для таких случаев можно легко получить парадоксальный результат - ведь среднего значения в этом случае нет. Точно также нет и среднего человека - ведь у "среднего" человека даже не две руки.