Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»? / forpes.ru

Главная
Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?

Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»? +16

11.11.2024 07:19

sugrobov 6 3200 Источник

После прочтения зарубежного исследования предвзятости GPT, где автор генерировал людей большими языковыми моделями, решил повторить эксперимент с русскоязычными моделями.

Как выглядит типичный день человека: его пол, возраст, профессия и типичный распорядок дня по мнению нейросетей от Яндекса, Сбера, Т‑Банка и ещё одной зарубежной компании читайте в этой статье.

Как выглядит карта мира по мнению ChatGPT

Методология

В исследовании участвовали:

GigaChat 1.0.26.15 от Сбера.
YandexGPT Lite (версия от 22.05.2024) от Яндекса.
Квантизованная восьмибитная версия T‑lite‑instruct-0.1 от Т‑Банка, запущенная на моём ноутбуке.
Классическая Llama 3.1 (8B) от того‑кого‑нельзя‑называть, также запущенная на ноутбуке.

Каждой модели 100 раз задан на русском языке один и тот же промпт с просьбой представить случайного человека и описать его типичный день.

Полный текст промпта

Придумай человека со следующими данными:

Имя
Пол
Возраст
Местоположение (Страна)
Краткая предыстория (1-2 предложения)

Опишите случайный день из их жизни, используя следующий формат:
Время: [ЧЧ:ММ]
Занятие: [Краткое описание]

Начните с того момента, когда они просыпаются, и закончите тем, когда они ложатся спать. Включите как можно больше временных отметок, будьте очень конкретны.

Пример вывода:
Имя: [Имя]
Пол: [Пол]
Возраст: [Возраст]
Местоположение: [Страна]
Предыстория: [Краткая предыстория]

День:
Время: [ЧЧ:ММ]
Занятие: [Описание занятия]

(Повторите этот формат для каждой временной отметки)

Немного деталей

В API облачных моделей (YandexGPT Lite, GigaChat Lite) отсутствует параметр seed для упрощения рандомизации. Я его отправлял, но скорее всего он игнорировался.
GigaChat Lite с настройками по‑умолчанию генерирует исключительно 35-летнего программиста Ивана из Москвы, даже если выкрутить температуру креативности на максимум. Удалось добиться вариативности, установив параметр top_p = 1. В Pro‑версии модели эта проблема отсутствует. Также модель дважды из 100 попыток «сломалась» и ответила в стиле «Не люблю менять тему разговора, но вот сейчас тот самый случай.»
Помимо исключения выше, все модели запускались с температурой 1.0 и всеми настройками по умолчанию.
Выложенная в паблик T‑lite требует файн‑тюнинга перед ее использованием. Но мне это не помешало. Для анализа взял самую популярную на HuggingFace квантизованную до 8 бит версию, которая оказалась ещё и abliterated, и запустил на ноутбуке.

Результаты мини-исследования

Гендерное распределение

Логично, как и в зарубежных моделях оригинального исследования, русскоязычные модели не сгенерили небинарные гендеры. YandexGPT Lite оказалась более женственной. Забегая вперёд, нейросеть от Яндекса не выдала ни одной Алисы:)

Возрастная группа

Возрастное распределение людей, сгенерированных моделями

Все модели любят генерировать людей в диапазоне 25–40 лет. Самый популярный возраст в русских моделях — 35 лет. T‑lite демонстрирует наиболее равномерное распределение, GigaChat Lite — единственный, кто показал более возрастную публику. Детей и пожилых по мнению моделей не существует: либо они не хотят о них говорить, либо в обучающей выборке о них меньше информации.

Профессии

Люди из IT в топе любой модели. YandexGPT Lite после программистов любит генерировать врачей, менеджеров по продажам и учителей. Llama выдала самый широкий набор профессий, включая владельца фуд‑трака и бывшую актрису.

*На картинке только самые частые результаты, более подробно в интерактивном отчете*

Локации и имена

Наши модели генерировали только русские имена, llama3.1 8b — наполовину западные вроде Лукаса, Эмилии и Алисии. Она же предложила наиболее широкую географию местонахождения, в отличие от модели от Яндекса, которая не представляет людей живущих вне России. Алексей, Анна и Иван — самые любимые имена.

Это я скормил полученные данные в ChatGPT и попросил сгенерировать карту с локациями и именами. Вместо имён и правильных кружочков, всюду санта барбара и рандомное положение кружочков. Ну, приврала модель маленько :)

После провала рисования с ChatGPT, попросил Claude нагенерировать графиков для статьи с помощью JavaScript.

Общее распределение людей по именам, странам и профессиям

Распорядок дня

в интерактивном отчете каждая линия кликабельна и ведет на отдельного человека

Все вымышленные люди спят от 30 до 40 процентов своего времени. Изучение распорядка дня случайного человека — отдельное удовольствие — как будто подглядываешь в чужие окна:)

Случайная половина дня из жизни учителя начальных классов Анны по мнению YandexGPT Lite

Интерактивный отчет

Все графики и ответы поизучать самостоятельно, а также сравнить модели между собой, можно на интерактивной страничке на гитхабе. А если есть желание повторить исследование, либо попробовать на других моделях или поизучать сырые ответы llm‑ок, проследуйте в код.

Выводы

Все модели хорошо справились с заданием. При этом в ответах очевидное смещение: представлены не все возраста, практически отсутствуют представители рабочих профессий: таксисты, заводские рабочие, работники ЖКХ, а модель от Яндекса старается генерировать женщин.
Портрет человека сильно зависит от языка промпта, и это очевидно по Llama – в оригинальном исследовании с английским промптом та же модель генерировала совершенно другой профиль людей. Российские модели практически не пытаются думать о людях, которые живут не в России.
Качество текста в ответах Llama 3.1 оказалось субъективно хуже остальных. Я объясняю это тем, что модель обучалась преимущественно на англоязычных данных, и при размере 8b не может поддерживать одновременно все языки на достойном уровне.

P.S. Я сварщик не настоящий, и возможно допустил ошибку. Людей с опытом приглашаю в комментарии делиться мыслями и идеями следующих исследований.

Комментарии (6)

SadOcean
11.11.2024 08:04
#27539328
Довольно интересно.
В целом биас понятен, на чем учили то и выдает.
Аналогично с географией - если задать вопрос на русском, то и ответы будут с русской точки зрения.

Более интересный вопрос, а какой сдвиг будет у людей, если у них спросить тот же вопрос. Сомневаюсь, что они будут выдавать статистически корректные биографии башмачников из Кандагара.
1. K0styan
  11.11.2024 08:04
  #27539556
  Вот как раз "на чём учили, то и выдаёт" меня удивило. Где они столько материала про айтишников нашли, что они прочие сферы деятельности задоминировали? Это надо было либо просто очень лениво подходить к подборке данных (взять только Хабр и РБК, например), либо даже специально при выборе bias смещать.
  1. Affdey
    11.11.2024 08:04
    #27539708
    Я не смог навскидку вспомнить литературные источники на распорядок дня средних (не знаменитых) людей. Значит это соц. опросы, причём специфические. Может быть,создатели LLM их и проводили, среди разработчиков и их знакомых.
    
    Wizard_of_light
    11.11.2024 08:04
    #27539800
    литературные источники на распорядок дня средних (не знаменитых) людей.
    
    Скорее всего нормативная литература. Планы и распорядки рабочего дня, рекомендуемые режимы дня школьников...
    
    K0styan
    11.11.2024 08:04
    #27540062
    Чтобы сгенерировать распорядок дня необязательно в качестве источника иметь прям распорядок. Какая-нибудь локальная газета, раздел происшествий, абзац со свидетельством очевидца: "...дело было в 8, я только на работу собрался..." Такой писанины тонны.
    
    У Т-Банка вообще есть офигенный источник разнообразнейших материалов о повседневной жизни: Т-Ж (Тинькофф журнал) - там тоже не то, чтобы много трактористов было, но спектр очень разнообразный.

ENick
11.11.2024 08:04
#27539832
Яндекс поиск указал на библейскую мудрость: "Не обманывайтесь: Бог поругаем не бывает. Что посеет человек, то и пожнет: ". – 6 глава Послания к Галатам. Можно продолжить из ковбойского Запада: "Не стреляйте в пианиста, он играет как может". А сейчас говорят: "За что боролись, на то и напоролись". А если в тему, то: "Мусор на входе - мусор на выходе"