Но ученые научились определять, где система дает сбой.

В далекое прошлое ушли уютные форумы, где люди-модераторы заставляли участников следовать правилам и цивилизованно общаться. Эпоха массовых соцсетей требует иных решений. Сегодня искусственный интеллект учат отделять одну ругань от другой в соответствии с современными представлениями о справедливости. В рамках этой темы хотим поделиться переводом июньской публикации MIT Technology Review о датасете HateCheck.
Несмотря на все достижения в области языковой технологии искусственного интеллекта, он все еще не справляется с одной из самых базовых задач. В новом исследовании ученые протестировали четыре лучшие системы искусственного интеллекта для обнаружения ненавистнических высказываний. Выяснилось, что у всех алгоритмов не получилось отличить токсичные предложения от безобидных. И у всех по-разному.
Неудивительно. Тяжело создать ИИ, который понимает нюансы естественного языка. Но важно то, как исследователи диагностировали проблему. Они разработали 29 различных тестов, нацеленных на разные аспекты ненавистнических высказываний, чтобы точнее определить, где именно сбоит каждый алгоритм. Так проще понять, как преодолеть слабые места. Подход уже помогает одному сервису улучшить свою систему.
18 категорий ненависти
Исследование вели ученые из Оксфордского университета и Института Алана Тьюринга. Авторы опросили сотрудников некоммерческих организаций, занимающихся проблемами ненависти в сети. Команда использовала эти интервью для создания таксономии 18 различных типов ненавистнических высказываний, сосредоточив внимание только на письменном английском. В список включили уничижительную речь, оскорбления и угрозы.
Исследователи также определили 11 сценариев, не несущих ненавистнического посыла, которые обычно сбивают с толку автомодераторов. Сюда вошли в том числе:
использование ненормативной лексики в безобидных заявлениях;
оскорбления, которые адресаты высказываний сами стали использовать в отношении себя (прим. пер. — т.н. «реклейминг»);
осуждающие ненависть высказывания с цитатами и отсылками на исходные сообщения («противодействие ненависти»).
Для каждой из 29 различных категорий исследователи написали десятки примеров и использовали «шаблонные» предложения, такие как «Я ненавижу [ИДЕНТИЧНОСТЬ]» или «Вы для меня просто [РУГАТЕЛЬСТВО]».
Одинаковые наборы примеров были созданы для семи групп, защищенных законодательством США от дискриминации. Команда открыла исходный код окончательного набора данных под названием HateCheck. Набор содержит почти 4000 примеров.
Сервисы по борьбе с токсичностью
Исследователи протестировали два популярных сервиса: Perspective API разработки Google Jigsaw и SiftNinja от Two Hat. Оба позволяют клиентам отмечать нарушающий контент в сообщениях или комментариях. В частности, Perspective используется для фильтрации контента на Reddit, а также новостными организациями, включая The New York Times и Wall Street Journal. Алгоритм отмечает и приоритезирует токсичные сообщения, чтобы их потом проверяли люди.
Из двух сервисов SiftNinja относится к разжиганию ненависти слишком снисходительно, не замечая почти все ее вариации. В то же время Perspective модерирует слишком жестко. Он успешно определяет большинство из 18 категорий ненависти, но видит ее также в цитатах и контраргументах. Исследователи нашли те же закономерности, протестировав две научные модели от Google. Эти модели — вершина доступных языковых ИИ-технологий и, скорее всего, служат основой для других коммерческих систем модерации контента.
Результаты указывают на один из наиболее сложных аспектов ИИ-обнаружения ненавистнических высказываний. Если модерировать недостаточно, вы не решаете проблему. А если перестараться, то можете подвергнуть цензуре тот язык, который маргинализированные группы используют для самозащиты. «Внезапно вы наказываете те самые сообщества, которые чаще всего и становятся объектами ненависти», — отмечает Пол Реттгер, кандидат наук в Оксфордском институте Интернета и соавтор статьи.
Люси Вассерман, ведущий инженер-программист Jigsaw, говорит, что Perspective преодолевает ограничения, но полагается на людей-модераторов для принятия окончательного решения. Процесс не масштабируется для более крупных платформ. Сейчас Jigsaw работает над функционалом, который изменяет приоритеты публикаций и комментариев в зависимости от неопределенности. Система автоматически удаляет контент, который, как она считает, является ненавистническим, а сомнительные случаи показывает людям.
По словам Вассерман, новое исследование позволяет детально оценить состояние дел. «Многие отмеченные в нем вещи, включая реклейминг, являются проблемой для этих моделей. Это известно в отрасли, но с трудом поддается количественной оценке», — говорит она. HateCheck позволит улучшить ситуацию.
Ученые тоже воодушевлены исследованием. «Это дает нам хороший чистый ресурс для оценки работы систем», — говорит Маартен Сап, исследователь языкового ИИ из Вашингтонского университета. Новый подход «позволяет компаниям и пользователям ожидать улучшений».
Томас Дэвидсон, доцент социологии университета Рутгерса, согласен. По его словам, из-за ограничения языковых моделей и сложности языка всегда будет существовать компромисс между недооценкой и чрезмерной идентификацией ненавистнических высказываний. «Набор данных HateCheck проливает свет на эти компромиссы», — добавляет он.
Перевод: Александра Галяутдинова
Другие публикации Карен Хао в переводе Madrobots
Принципиально новый метод позволяет тренировать ИИ практически без данных
Как саботировать данные, которые технологические гиганты используют для слежки за вами
***
Для читателей Хабра в магазине гаджетов Madrobots действует скидка 5% на все продукты. Просто введите промокод: HABR

Bavun
Не знаю, как вас господа, а у меня последние несколько лет когнитивный диссонанс: как совместить потрясание свободой слова и повальную модерацию всего и всех?
Что значит "ненавистнический контент"? Если я ненавижу кого-то или что-то, почему я не могу об этом заявить?
fruit_cake
Более того: вы должны заявлять что вы это любите. На деле есть некая «повестка дня» любовь к которой объявляется свободой слова, а её отрицание воспринимается как фашизм, расизм, сексизм и так далее по списку. Наша реальность уже считай что по Оруэллу: новояз, каждодневное переписывание истории, тотальная слежка и возможный остракизм за мыслепреступление в социальной сети.
ncr
Свобода слова — это отсутствие преследования государством (в теории, на практике — увы и ах даже в развитых странах).
Она не подразумевает, что каждая частная лавочка обязана предоставлять вам трибуну и терпеть ваши высказывания.
Bavun
Ну да. А все трибуны стащила к себе одна частная лавочка - "Три цукербрина".
dead_undead
А вот это уже настоящая проблема, которую нужно решать. Например запрет блокировать пользователей, если у тебя столько то процентов рынка.
StjarnornasFred
Что значит "все трибуны"? Блог-хостингов и соцсетей много, пусть даже не все из них столь масштабны. Ищите в интернете "Список социальных сетей" и выбираете любую.
Потом. Как известно, властям обычно по барабану на сервисы, которые ориентированы не на них. Так, в российских и китайских соцсетях вас не забанят за пост про негров и ЛГБТ, в российских и американских - про уйгуров и Винни-Пуха, в китайских и американских - про чеченцев и Навального.
Ну и наконец, аргумент про якобы "ушедшую эпоху" автономных блогов. Так вот никуда она не ушла. Нет ни одной проблемы создать свой автономный блог и писать там всё что угодно. Более того, технически это проще и удобнее, чем в "ушедшую" эпоху, благодаря развитию движков.
ilammy
Только пользователи цукербука будут искать через поиск цукербука. Большинство остальных — через поиск им. Брина. А мнение автономных неуловимых джо демократическое большинство не волнует, потому что этого мнения не слышно в цукербуке.
Конечно, у вас есть свобода публикации в Интернете. Такая же, как и свобода говорить что угодно в своей комнате, публиковаться в журале «Приём макулатуры», и выходить в прямой эфир через картошку.
KivApple
Любая достаточно крупная фирма начинает быть похожей на государство больше, чем на фирму. Однако при этом её руководство продолжает быть неподконтрольным обществу, в отличии от правительства. Так что, если с хабром аналогия корректна, с фейсбуком уже не очень.
dead_undead
Вот я кстати был поражен, когда на фоне той истории про профессора из СПбГУ, отрицающего холокост, узнал, что в разных странах европы за это уголовка (или административка, не помню). Странно что и там не понимают бесполезность запретов на точку зрения/информацию. Идиотизм какой-то, как запрет на пересмотр роли ссср.
0xd34df00d
А никто и не говорит, что при этом нарушается, например, первая поправка Конституции США. Дело в другом. Есть социум, который вроде как ценит свободу слова и гордится ей (и всякие поправки только лишь кодифицируют эту ценность), но на деле оказывается, что ценится только свобода некоего конкретного подмножества слов. Поэтому, хоть каждая конкретная лавочка вам ничего и не обязана, но можно было бы ожидать, что для более-менее любого мнения найдется достаточно лавочек, где вы можете с ним выступить, и, более того, те люди, которые с вами несогласны, не будут выступать за закрытие лавочек, где вы выступаете.
Вот от этого и диссонанс.
Kroleg
Небольшая поправка: это не частная лавочка. Демпартия создала в Калифорнии "Офис госсекретаря по кибербезопасности выборов" (California Secretary of State’s Office of Elections Cybersecurity), они создали свою государственную электронную систему цензуры “streamline censorship requests from government agencies.” Баны и цензура проводится твиттерами и фейсбуками под управлением государства. Подробности тут: https://reclaimthenet.org/twitter-california-democrats-sued-cenorship-election-conversations/
ANewbieUser
Так свобода слова означает возможность выражать свои мысли/убеждения/чувства, не опасаясь, как верно сказал ncr, преследования со стороны государства. А под ненавистнический контент (hate speech, он же язык вражды) зачастую попадает обычный шовинизм, он же «мы лучше их, они хуже нас».