Как датасеты аккумулируют в себе расизм и сексизм / forpes.ru

Главная
Как датасеты аккумулируют в себе расизм и сексизм

Как датасеты аккумулируют в себе расизм и сексизм -14

11.02.2021 15:16

itglobalcom 18 3600 Источник

Алгоритмы машинного обучения, работающие с изображениями и текстом, регулярно демонстрируют расовые и сексистские предрассудки. Недавний пример — блокировка южнокорейского Facebook-бота Lee Luda, который «ненавидит» представителей сексуальных меньшинств и афроамериканцев. Проблема здесь глубже, чем кажется. При создании наборов данных для машинного обучения люди (осознанно или нет) транслируют в них множество собственных предрассудков, которыми впоследствии и руководствуются алгоритмы.

Запрограммированный расизм

Данные с фотографиями лиц — основа для работы систем компьютерного зрения. Эти наборы часто имеют метки в соответствии с расой лиц в конкретном датасете (наборе данных). Однако, на деле раса — абстрактное и размытое понятие. При создании категорий мало внимания уделяется обоснованности, структурированию и стабильности этой информации. А значит, у людей, формирующих датасеты, появляется возможность для сознательного или бессознательного проявления расизма при формировании наборов данных.

Исследователи Северо-Восточного университета Массачусетса Заид Хан и Юн Фу изучили метки лиц в датасетах в контексте расовых категорий. Ученые утверждают, что тэги ненадежны, потому что систематически кодируют расовые стереотипы. В ряде наборов данных используются слишком размытые характеристики, например «Индия/Южная Азия» или «люди с предками из стран Африки, Индии, Бангладеша, Бутана и других стран». А иногда используются ярлыки, которые могут трактоваться как оскорбительные — например, «монголоид».

Исследователи пишут, что часто используемый стандартный набор расовых категорий («азиат», «чернокожий», «белый») не способен представить значительное число людей. Например, эта схема исключает коренные народы Америки. Неясно, какую метку ставить для сотен миллионов людей, живущих на Ближнем Востоке или в Северной Африке. Еще одна обнаруженная проблема — люди по-разному воспринимают расовую принадлежность тех или иных лиц. Так, в одном из наборов данных корейцы считались более азиатским этносом, чем филиппинцы.

Теоретически можно расширить число расовых категорий, но они будут неспособны описать, например, метисов. Можно использовать национальное или этническое происхождение, но границы стран — это часто результат исторических обстоятельств, который не отражает различий во внешности. Кроме того, многие страны расово неоднородны.

Исследователи предупреждают, что предрассудки в отношении рас могут быть многократно воспроизведены и усилены, если оставить их без внимания. Алгоритмы распознавания лиц восприимчивы к различным предвзятостям. Наборы данных должны иметь как можно большее число корректно описанных рас, чтобы избежать какой-либо дискриминации. В цифровом мире должны быть представлены все этнические группы, как бы малочисленны они не были.

Запрограммированный сексизм

Что касается алгоритмов генерации текстов и изображений, они тоже могут транслировать некорректные убеждения. В каком-то смысле они — олицетворение коллективного бессознательного интернета. Негативные идеи нормализуются в рамках обучения алгоритмов.

Исследователи Райан Стид и Айлин Калискан провели эксперимент — загрузили фотографии лиц мужчин и женщин на сервисы, которые дорисовывают кадрированные снимки. В 43 % случаев мужчинам алгоритм предлагал деловой костюм. Женщинами в 53 % случаев алгоритм генерировал топ или костюм с глубоким декольте.

В 2019 году исследователь Кейт Кроуфорд и художник Тревор Паглен обнаружили, что тэги в ImageNet, самом большом датасете для обучения моделей компьютерного зрения содержат оскорбительные слова. Например, «slut» и некорректные названия рас. Проблема в том, что основой для этих датасетов служат данные из интернета, где циркулирует множество стереотипов о людях и явлениях.

Исследователи подчеркивают, что изображения — это очень нечеткие данные, отягощенные множеством неоднозначных смыслов, неразрешимыми вопросами и противоречиями. И перед разработчиками алгоритмов машинного обучения стоит задача изучить все нюансы неустойчивой взаимосвязи между образами и значениями.

Нужно больше фотографий

Исследователи Дебора Раджи и Женевьева Фрид изучили 130 датасетов лиц (FairFace, BFW, RFW и LAOFIW), собранные за 43 года. Как выяснилось, из-за того, что данных становилось все больше, у людей постепенно перестали спрашивать согласие на использование их изображений для использования в наборах данных.

Это привело к тому, что в наборы данных включены фото несовершеннолетних, фото с расистскими и сексистскими описаниями, а также изображения низкого качества. Эта тенденция может объяснить причину, почему полицейские регулярно ошибочно арестовывают людей на основе данных систем распознавания лиц.

Сначала люди очень осторожно относились к сбору, документированию и проверке данных о лицах, но на сегодня это больше никого не волнует. «Вы просто не можете отследить миллион лиц. После определенного момента вы даже не можете притвориться, что у вас есть контроль. Мы собираем приватную информацию, как минимум о десятках тысяч людей, что само по себе основание для причинения вреда. А потом мы накапливаем всю эту информацию, которую вы не можете контролировать, чтобы построить что-то, что, скорее всего, будет функционировать так, как вы даже не можете предсказать», — говорит Дебора Раджи.

Таким образом, не стоит воспринимать алгоритмы машинного обучения и данные, как сущности, которые объективно и научно классифицируют мир. Они так же подвержены политическим, идеологическим, расовым предрассудкам, субъективной оценке. И судя по состоянию крупных и популярных датасетов, это правило, а не исключение.

Блог ITGLOBAL.COM — Managed IT, частные облака, IaaS, услуги ИБ для бизнеса:

Комментарии (18)

AC130
11.02.2021 18:44
#22670912
Ну как бы да, можно сделать сколь угодно хороший ML алгоритм, использовать сколь угодно много памяти и машинного времени на его обучение, однако если реальность плохая — то и результат алгоритма, обученного на этой реальности, тоже будет плохим. Сюда же и рекомендательные системы, на которые люди часто жалуются, мол рекомендуют нечто бесполезное им. Они не понимают, что алгоритм не может залезть к конкретной личности в голову и понять что ему нужно, алгоритм может лишь посмотреть на действия других людей, сравнить их, и сделать предположение о том, что нужно конкретной личности. Если это предположение не нравится — это может быть результатом того, что алгоритм плохой, но это также всегда результат того, как действовали и что выбирали другие люди. Против реальности не попрёшь, её можно только принять.
1. northzen
  11.02.2021 19:32
  #22671060
  Вы ерунду написали про рекомендательную систему.
  Я по такой же логике могу оправдывать сисиему, которая предлагает самый популярный товар для всех. Ну а чо, реальность такая.
  У вас вроде и есть здравый тезис, только потом что-то странное написано.
  1. Shmaiser
    12.02.2021 03:02
    #22672256
    Немного не так. "… которая предлагает самый популярный товар для всех похожих на меня (с примерно таким же поведением(в среднем) )"
1. Wesha
  11.02.2021 19:57
  #22671184
  +1
  Сiдайте у колок, малята, сiй час дiду Панас расскаже вам казочку...
  
  Работал, значит, однажды дiд Панас в фирме, выдававшей то, что сейчас называют "микрокредиты" (под конкий процент, но это совсем другая история). И анализировал он данные, запускал модели всякие, и всё такое. И сказали ему модели, что среди людей, не возвращавших кредиты, непропрорционально много людей, корни которых проистекают с континента, который не Европа, не Австралия, не Америка, и даже не Азия, а про Австралию вообще молчим (во как я хитро завернул!) И взгрустнул дiд Панас, потому что запрещено использовать расу человека как основу для принятия решений. А когда дiд Панас проспался и посчитал разбросанные вкруг пустые бутылки, пришла ему светлая мысль, и ввёл он в формулу в качестве параметра среднюю стоимость домов в квартале, где проживал проситель. И осветился лик дiда Панаса, потому что стоимость эта великолепно кореллировала с тем, что было запрещено использовать. И пала благодать небесная на фирму дiда Панаса, и смогла она сделать то, что делать было нельзя, и заработал он много-много денег, но это совсем третья история...

ZayatzTV
11.02.2021 23:43
#22671904
А почему "негр" или "престарелая лесбиянка" — вдруг стали кого-то оскорблять?
Пусть это будут реальные персонажи, с реальными цветами кожи, разрезами глаз и сексуальными наклонностями. И нет в этих наборах данных ничего зазорного или криминального..
1. Gritsuk
  12.02.2021 06:21
  #22672386
  Вот меня тоже удивляет. Меньшинства борются за то, чтобы геи, лесбиянки и прочие варианты воспринимались естественно и не вызывали какой-то агрессии. Ок, вот тут в датасете записано, что человек гей. И это почему-то его оскорбляет! Но ведь мы же уже решили, что быть геем нормально, чего оскорбляться-то?
  1. NeoCode
    12.02.2021 08:37
    #22672562
    Это сбор персональной информации без согласия. Вот окажется, что про Вас в каком-нибудь датасете будет написано что-то весьма приватное. Например оценка вашей личности — ваши слабые места, страхи, болевые точки, зависимости, список людей которые являются вашими врагами… Ведь возможности нейросетей растут, доступной информации становится все больше, и вполне может быть что все это однажды окажется собраным воедино.
    
    ZayatzTV
    12.02.2021 08:58
    #22672604
    Цвет кожи, раса, сексуальная ориентация, имя — это персональная инфа. Хорошо. И что там можно спрывать и зачем?
    Но без этой инфы и человека нет, его невозможно обозначить.
    
    Gritsuk
    12.02.2021 13:04
    #22673622
    Ну так и пусть пишут прямо — мне неприятно, что обо мне собирают информацию. А то как-то странно выглядит, «я гей, хочу, чтобы было не страшно заявлять об этом, но не потерплю, чтобы в каком-то датасете, который видит только машина, было отмечено, что я — гей»
1. KGeist
  12.02.2021 07:03
  #22672416
  А где в статье написано, что это оскорбления? В статье говорится, что термины расплывчатые и малонаучные
  1. ZayatzTV
    12.02.2021 07:14
    #22672430
    Оскорбительный — монголоид (цитата из статьи)… негр — из той же корзины.
    
    Почему простые маркёры и исторически сложившиеся описания/термины, вдруг стали оскорбительными — вот сие и удивительно..

Ded_Banzai
12.02.2021 05:19
#22672336
Я не совсем уверен, но разве «монголоид» — это ярлык? Чернокожий — это разве оскорбление? Коренные жители Америки уже сколько лет вполне определялись словами «индейцы» или «краснокожие». Сами себе создали проблемы, а теперь героически их превозмогают.
1. KGeist
  12.02.2021 07:07
  #22672420
  В англоязычных странах "моноголоид" считается устаревшим, оскорбительным термином. Типа как "дебил" раньше было научным термином, а сейчас ругательство.
  
  Ну и в статье не говорится, что чернокожий это оскорбление
1. Shished
  12.02.2021 09:31
  #22672718
  Раньше монголоидами называли людей с синдромом Дауна.

janson
12.02.2021 10:32
#22672890
Ощущение, что алгоритм должен всегда видеть гендерно-расово нейтральное существо. Как аватарка по-умолчанию.

Не хватает сегрегации по высоте и толщине, чтобы прибавить к расизму и сексизму. Высизм и толщизм.
1. Am0ralist
  12.02.2021 11:54
  #22673250
  +1
  Странно, почему в спорте разделение на мужчин и женщин ещё не объявили сексизмом. И почему разделение по расам при этом будет расизмом…

Rangdrol
12.02.2021 14:23
#22674078
Однако, на деле раса — абстрактное и размытое понятие.

Нет, расу генетически можно определить,

Они так же подвержены политическим, идеологическим, расовым предрассудкам, субъективной оценке

Даже машинное обучение показывает нам какие расы опасные а какие нет. 95% террористов мусульмане, 70% сидящих в американской тюрьме негры.
Но леваки и дальше будут отрицать что все расы разные.
1. Am0ralist
  12.02.2021 14:55
  #22674256
  Я правильно понял, что главный смысл коммента был исключительно прост: приплести леваков?