ИИ все еще не умеет модерировать хейт-спич / forpes.ru

Главная
ИИ все еще не умеет модерировать хейт-спич

ИИ все еще не умеет модерировать хейт-спич +1

18.06.2021 18:34

Femole 21 1800 Источник

Но ученые научились определять, где система дает сбой.

В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и цивилизованно общаться. Эпоха массовых соцсетей требует иных решений. Сегодня искусственный интеллект учат отделять одну ругань от другой в соответствии с современными представлениями о справедливости. В рамках этой темы хотим поделиться переводом июньской публикации MIT Technology Review о датасете HateCheck.

Несмотря на все достижения в области языковой технологии искусственного интеллекта, он все еще не справляется с одной из самых базовых задач. В новом исследовании ученые протестировали четыре лучшие системы искусственного интеллекта для обнаружения ненавистнических высказываний. Выяснилось, что у всех алгоритмов не получилось отличить токсичные предложения от безобидных. И у всех по-разному.

Неудивительно. Тяжело создать ИИ, который понимает нюансы естественного языка. Но важно то, как исследователи диагностировали проблему. Они разработали 29 различных тестов, нацеленных на разные аспекты ненавистнических высказываний, чтобы точнее определить, где именно сбоит каждый алгоритм. Так проще понять, как преодолеть слабые места. Подход уже помогает одному сервису улучшить свою систему.

18 категорий ненависти

Исследование вели ученые из Оксфордского университета и Института Алана Тьюринга. Авторы опросили сотрудников некоммерческих организаций, занимающихся проблемами ненависти в сети. Команда использовала эти интервью для создания таксономии 18 различных типов ненавистнических высказываний, сосредоточив внимание только на письменном английском. В список включили уничижительную речь, оскорбления и угрозы.

Исследователи также определили 11 сценариев, не несущих ненавистнического посыла, которые обычно сбивают с толку автомодераторов. Сюда вошли в том числе:

использование ненормативной лексики в безобидных заявлениях;
оскорбления, которые адресаты высказываний сами стали использовать в отношении себя (прим. пер. — т.н. «реклейминг»);
осуждающие ненависть высказывания с цитатами и отсылками на исходные сообщения («противодействие ненависти»).

Для каждой из 29 различных категорий исследователи написали десятки примеров и использовали «шаблонные» предложения, такие как «Я ненавижу [ИДЕНТИЧНОСТЬ]» или «Вы для меня просто [РУГАТЕЛЬСТВО]».

Одинаковые наборы примеров были созданы для семи групп, защищенных законодательством США от дискриминации. Команда открыла исходный код окончательного набора данных под названием HateCheck. Набор содержит почти 4000 примеров.

Сервисы по борьбе с токсичностью

Исследователи протестировали два популярных сервиса: Perspective API разработки Google Jigsaw и SiftNinja от Two Hat. Оба позволяют клиентам отмечать нарушающий контент в сообщениях или комментариях. В частности, Perspective используется для фильтрации контента на Reddit, а также новостными организациями, включая The New York Times и Wall Street Journal. Алгоритм отмечает и приоритезирует токсичные сообщения, чтобы их потом проверяли люди.

Из двух сервисов SiftNinja относится к разжиганию ненависти слишком снисходительно, не замечая почти все ее вариации. В то же время Perspective модерирует слишком жестко. Он успешно определяет большинство из 18 категорий ненависти, но видит ее также в цитатах и контраргументах. Исследователи нашли те же закономерности, протестировав две научные модели от Google. Эти модели — вершина доступных языковых ИИ-технологий и, скорее всего, служат основой для других коммерческих систем модерации контента.

Результаты указывают на один из наиболее сложных аспектов ИИ-обнаружения ненавистнических высказываний. Если модерировать недостаточно, вы не решаете проблему. А если перестараться, то можете подвергнуть цензуре тот язык, который маргинализированные группы используют для самозащиты. «Внезапно вы наказываете те самые сообщества, которые чаще всего и становятся объектами ненависти», — отмечает Пол Реттгер, кандидат наук в Оксфордском институте Интернета и соавтор статьи.

Люси Вассерман, ведущий инженер-программист Jigsaw, говорит, что Perspective преодолевает ограничения, но полагается на людей-модераторов для принятия окончательного решения. Процесс не масштабируется для более крупных платформ. Сейчас Jigsaw работает над функционалом, который изменяет приоритеты публикаций и комментариев в зависимости от неопределенности. Система автоматически удаляет контент, который, как она считает, является ненавистническим, а сомнительные случаи показывает людям.

По словам Вассерман, новое исследование позволяет детально оценить состояние дел. «Многие отмеченные в нем вещи, включая реклейминг, являются проблемой для этих моделей. Это известно в отрасли, но с трудом поддается количественной оценке», — говорит она. HateCheck позволит улучшить ситуацию.

Ученые тоже воодушевлены исследованием. «Это дает нам хороший чистый ресурс для оценки работы систем», — говорит Маартен Сап, исследователь языкового ИИ из Вашингтонского университета. Новый подход «позволяет компаниям и пользователям ожидать улучшений».

Томас Дэвидсон, доцент социологии университета Рутгерса, согласен. По его словам, из-за ограничения языковых моделей и сложности языка всегда будет существовать компромисс между недооценкой и чрезмерной идентификацией ненавистнических высказываний. «Набор данных HateCheck проливает свет на эти компромиссы», — добавляет он.

Перевод: Александра Галяутдинова

Другие публикации Карен Хао в переводе Madrobots

***

Для читателей Хабра в магазине гаджетов Madrobots действует скидка 5% на все продукты. Просто введите промокод: HABR

Комментарии (21)

Bavun
18.06.2021 23:54
#23165068
Не знаю, как вас господа, а у меня последние несколько лет когнитивный диссонанс: как совместить потрясание свободой слова и повальную модерацию всего и всех?
Что значит "ненавистнический контент"? Если я ненавижу кого-то или что-то, почему я не могу об этом заявить?
1. fruit_cake
  19.06.2021 00:07
  #23165098
  Более того: вы должны заявлять что вы это любите. На деле есть некая «повестка дня» любовь к которой объявляется свободой слова, а её отрицание воспринимается как фашизм, расизм, сексизм и так далее по списку. Наша реальность уже считай что по Оруэллу: новояз, каждодневное переписывание истории, тотальная слежка и возможный остракизм за мыслепреступление в социальной сети.
1. ncr
  19.06.2021 04:00
  #23165330
  — It's a free country, ain't it?
  — Well, it ain't a free shop, is it?
  Snatch, 2000
  
  Свобода слова — это отсутствие преследования государством (в теории, на практике — увы и ах даже в развитых странах).
  Она не подразумевает, что каждая частная лавочка обязана предоставлять вам трибуну и терпеть ваши высказывания.
  1. Bavun
    19.06.2021 07:46
    #23165466
    Ну да. А все трибуны стащила к себе одна частная лавочка - "Три цукербрина".
    
    dead_undead
    19.06.2021 09:38
    #23165624
    А вот это уже настоящая проблема, которую нужно решать. Например запрет блокировать пользователей, если у тебя столько то процентов рынка.
    
    StjarnornasFred
    19.06.2021 11:13
    #23165804
    Что значит "все трибуны"? Блог-хостингов и соцсетей много, пусть даже не все из них столь масштабны. Ищите в интернете "Список социальных сетей" и выбираете любую.
    Потом. Как известно, властям обычно по барабану на сервисы, которые ориентированы не на них. Так, в российских и китайских соцсетях вас не забанят за пост про негров и ЛГБТ, в российских и американских - про уйгуров и Винни-Пуха, в китайских и американских - про чеченцев и Навального.
    Ну и наконец, аргумент про якобы "ушедшую эпоху" автономных блогов. Так вот никуда она не ушла. Нет ни одной проблемы создать свой автономный блог и писать там всё что угодно. Более того, технически это проще и удобнее, чем в "ушедшую" эпоху, благодаря развитию движков.
    
    ilammy
    19.06.2021 18:17
    #23166768
    Ищите в интернете "Список социальных сетей" и выбираете любую.
    Только пользователи цукербука будут искать через поиск цукербука. Большинство остальных — через поиск им. Брина. А мнение автономных неуловимых джо демократическое большинство не волнует, потому что этого мнения не слышно в цукербуке.
    
    Конечно, у вас есть свобода публикации в Интернете. Такая же, как и свобода говорить что угодно в своей комнате, публиковаться в журале «Приём макулатуры», и выходить в прямой эфир через картошку.
  1. KivApple
    19.06.2021 09:16
    #23165570
    Любая достаточно крупная фирма начинает быть похожей на государство больше, чем на фирму. Однако при этом её руководство продолжает быть неподконтрольным обществу, в отличии от правительства. Так что, если с хабром аналогия корректна, с фейсбуком уже не очень.
  1. dead_undead
    19.06.2021 09:45
    #23165638
    увы и ах даже в развитых странах
    Вот я кстати был поражен, когда на фоне той истории про профессора из СПбГУ, отрицающего холокост, узнал, что в разных странах европы за это уголовка (или административка, не помню). Странно что и там не понимают бесполезность запретов на точку зрения/информацию. Идиотизм какой-то, как запрет на пересмотр роли ссср.
  1. 0xd34df00d
    19.06.2021 20:32
    #23166988
    А никто и не говорит, что при этом нарушается, например, первая поправка Конституции США. Дело в другом. Есть социум, который вроде как ценит свободу слова и гордится ей (и всякие поправки только лишь кодифицируют эту ценность), но на деле оказывается, что ценится только свобода некоего конкретного подмножества слов. Поэтому, хоть каждая конкретная лавочка вам ничего и не обязана, но можно было бы ожидать, что для более-менее любого мнения найдется достаточно лавочек, где вы можете с ним выступить, и, более того, те люди, которые с вами несогласны, не будут выступать за закрытие лавочек, где вы выступаете.
    
    Вот от этого и диссонанс.
  1. Kroleg
    21.06.2021 17:06
    #23172928
    Небольшая поправка: это не частная лавочка. Демпартия создала в Калифорнии "Офис госсекретаря по кибербезопасности выборов" (California Secretary of State’s Office of Elections Cybersecurity), они создали свою государственную электронную систему цензуры “streamline censorship requests from government agencies.” Баны и цензура проводится твиттерами и фейсбуками под управлением государства. Подробности тут: https://reclaimthenet.org/twitter-california-democrats-sued-cenorship-election-conversations/
1. ANewbieUser
  19.06.2021 11:08
  #23165794
  Так свобода слова означает возможность выражать свои мысли/убеждения/чувства, не опасаясь, как верно сказал ncr, преследования со стороны государства. А под ненавистнический контент (hate speech, он же язык вражды) зачастую попадает обычный шовинизм, он же «мы лучше их, они хуже нас».

ncr
19.06.2021 04:01
#23165332
Исследование вели ученые из Оксфордского университета и Института Алана Тьюринга. Авторы опросили сотрудников некоммерческих организаций, занимающихся проблемами ненависти в сети.

Отрадно, что ученые занимаются этим вопросом. Ведь человечество решило уже все насущные проблемы, и только ненависть в сети отделяет нас от сингулярности.
1. ilammy
  19.06.2021 06:00
  #23165376
  См. ответ директора NASA монахине в Африке, зачем заниматься разнообразными исследованиями, которые не решают насущных проблем.
  
  Иначе все академии наук, заводы и прочие компании нужно закрыть к чертям до тех пор, пока люди не перестанут хотеть убивать друг друга. Зачем заниматься тем, чем вы там занимаетесь, если в мире бушуют насущные проблемы войны и голода? Только постинг на Хабре отделяет нас от сингулярности.
  1. ncr
    19.06.2021 15:56
    #23166464
    Вы действительно считаете, что исследование космоса и новые нескучные способы цензурирования высказываний в интернете имеют сопоставимую значимость и ценность для общества?
    
    ilammy
    19.06.2021 18:12
    #23166762
    А вы считаете себя — или кого угодно — квалифицированным, чтобы определять значимость и ценность исследований наперёд? Не надо указывать учёным, какие исследования хорошие и правильные, а какие негодные и бесполезные. Некоторые результаты просто сдаются в библиотеку и ждут своего часа годами. Вам сейчас смешно, а социологи через 100 лет скажут спасибо, например.
    
    ncr
    19.06.2021 22:18
    #23167166
    А вы считаете себя — или кого угодно — квалифицированным, чтобы определять значимость и ценность исследований наперёд?
    
    Себя — не считаю.
    Тем не менее, кто-то это определять должен (и определяет), т.к. ученые работают не в вакууме и не за спасибо, а за вполне осязаемый бюджет, который не бесконечен: если здесь прибыло, то где-то убыло.
    
    Если бы ученые проводили исследования по заказу фейсбука, за бюджет фейсбука и для использования фейсбуком — ни малейших вопросов бы не было: Цукерберг платит, Цукерберг и заказывает музыку.
    Однако, это Оксфорд, который в значительной степени существует на публичные средства и даже немного на правительственные гранты.
    
    Не надо указывать учёным, какие исследования хорошие и правильные, а какие негодные и бесполезные
    
    Общество впролне себе указывает ученым, что исследовать хорошо, а что нет.
    Попробуйте поисследовать евгенику, клонирование, стволовые клетки и т.п.
    
    Лично я не против любых исследований, открывающих новую информацию.
    Эффективное автоматизированное затыкание ртов неугодным вряд ли является таковым.
  1. glestwid
    20.06.2021 17:13
    #23169068
    пока люди не перестанут хотеть убивать друг друга.
    
    Для этого прежде надо выполнить первый пункт из скрижалей Джорджии. Или хотя бы придумать как обеспечить управляемое сокращение населения планеты чтобы стало возможно жить в экологически сбалансированном мире.

KivApple
19.06.2021 09:08
#23165560
Мне что-то подсказывает, что ни один ИИ не справляется идеально с классификацией, потому что каждый человек имеет своё определение hate speech, потому что в текущем виде это нечто очень эфимерное.
Как по мне, тут правильнее не удалять, а просто разделять круги общения. Кого оскорбляет одно - скрыть от него это, кого оскорбляет другое - скрыть от него другое. Тогда задача бизнеса (уменьшить отток расстроенных пользователей) точно также решиться, но вреда будет меньше, да и задача "определить, что оскорбительно конкретному лицу" более решаемая, чем "определить, что оскорбительно всем".
1. Bavun
  19.06.2021 10:19
  #23165702
  Как по мне, тут правильнее не удалять, а просто разделять круги общения. Кого оскорбляет одно - скрыть от него это, кого оскорбляет другое - скрыть от него другое.
  Я вообще не понимаю вопроса о модерации "хейт-спичей". Есть законы, суды. Если человек написал что-то противозаконное, так тащите его в суд. В чём проблема?
  Конечно, если пришёл какой-нибудь осёл и начинает, вместо обсуждения темы, обсуждать, какие у оппонента сиськи - это другое дело.
  А уж если говорить о фильтрации рядового контента, типа "Катька, чтоб ты сдохла, и дети твои чтобы в трико ходили и никогда их не снимали!!!" - так это самый простенький баес фильтр поймает.
1. VADemon
  19.06.2021 14:54
  #23166312
  Люди сами выбрали путь не личной блокировки, а троллинга через админов-модераторов и последующим баном с сайта.
  Кнопка заблокировать была давно придумана. Если на форумах в ней толку мало (малая аудитория и линейное общение), то соцсети, казалось бы - самое то. Не хочешь - заблокируй. Но нет. Надо насадить свою точку зрения. Повторюсь: не вижу в этом ничего кроме другой формы троллинга.
  Отдельно стоит отметить давление рекламодателей и прочей "благодетели", которой в голову запала идея "ассоциации бренда": "ты рекламу на этом канале не показывай, а этот - вообще ABCXYZ" (причем если этот ABCXYZ-признак в 50-х мог быть нетрадиционной сексуальной ориентацией, то сейчас наоборот. Политические аналогии тоже можно провести)
  Только нужно понимать, что например Youtube, как рекламная площадка, вообще не дискриминировала каналы для показа рекламы (рандом - ну он и есть рандом), то теперь наоборот, можно сказать: каждый показ рекламы, это прямая и одобренная поддержка канала рекламодателем.
  То что лично у меня ассоциация бренда с надоедающей мне рекламой отнимает сразу 20 пунктов репутации бренда - маркетологи как-то не задумываются. По их-то логике, тогда вообще рекламу запретить надо.
  PS: К чему тут реклама, смотрим давление маркетолухов на Youtube, после (заказной?) писанины против Pewdiepie, с тех пор "outrage culture" только усилилось.