Алгоритмы не работают без качественных данных. Общественность может использовать их, чтобы требовать перемен.
Каждый день вы оставляете за собой след из цифровых «хлебных крошек», по которому крупные технологические компании следят за каждым вашим шагом. Вы отправляете электронное письмо, заказываете еду, смотрите шоу на стриминговом сервисе. А обратно отдаете ценные пакеты данных, которые компании используют, чтобы лучше понять ваши предпочтения. Этими данными «кормят» алгоритмы машинного обучения, и затем показывают вам рекламу и рекомендации. Один только Google выручает за личную информацию 120 миллиардов долларов рекламных доходов в год.
Все чаще мы не можем отказаться от этой договоренности с корпорациями. В 2019 году репортер Gizmodo Кашмир Хилл попыталась исключить из своей жизни пять крупнейших технологических гигантов. Шесть недель она чувствовала себя несчастной, изо всех сил пытаясь выполнять самые базовые цифровые функции. Между тем, технологические гиганты не ощутили ничего.
Теперь исследователи из Северо-Западного университета предлагают способ исправить дисбаланс сил. Они рассматривают нашу коллективную информацию как рычаг воздействия. В распоряжении технологических гигантов — продвинутые алгоритмы; но они не имеют смысла без правильных данных для обучения.
На конференции Ассоциации за справедливость, подотчетность и прозрачность вычислительной техники было представлено новое исследование. Его авторы, в том числе аспиранты Николас Винсент и Ханлин Ли, предлагают три способа, которыми общественность может пользоваться для продвижения своих интересов:
Бойкот данных (Data strikes), вдохновленный забастовками рабочих. Он включает в себя скрытие или удаление вашей личной информации, чтобы технологическая компания не могла ее использовать. Можно покинуть платформу или установить инструменты для защиты конфиденциальности.
Порча данных (Data poisoning), которая включает в себя передачу бессмысленной или вредоносной информации. Так, можно пользоваться расширением для браузера AdNauseam. Оно нажимает на каждое рекламное объявление, показанное вам, и тем самым сбивает с толку алгоритмы таргетинга Google.
Осознанная публикация данных (Conscious data contribution), или предоставление значимых данных конкуренту платформы, против которой вы хотите протестовать. Загрузите ваши фотографии в Tumblr вместо Facebook, например.
Пользователи уже применяют многие из этих тактик для защиты конфиденциальности. Если вы когда-либо включали блокировщик рекламы или другое расширение браузера, которое изменяет результаты поиска и исключает некоторые веб-сайты, то вы уже на практике участвовали в бойкоте данных. То есть, вы пытались вернуть себе контроль над личной информацией. Впрочем, как обнаружил Хилл, такие единичные индивидуальные действия не заставляют технологических гигантов менять свое поведение.
Но что произойдет, если миллионы людей будут координировать свои действия и «отравят» пул данных одной компании? Это даст им возможность отстоять свои требования.
Возможно, уже несколько раз удавалось это сделать. В январе миллионы пользователей удалили учетные записи WhatsApp и перешли к конкурентам, включая Signal и Telegram. Это произошло после того, как Facebook (владелец популярного мессенджера — прим. пер) объявил, что откроет доступ к данным WhatsApp всей компании. Массовый исход вынудил Facebook отложить внесение изменений в политику.
Буквально на этой неделе Google также объявил, что прекратит отслеживать людей в сети и таргетировать рекламу. Пока неясно, реальное ли это изменение или ребрендинг. Винсент отмечает, что широкое использование инструментов вроде AdNauseam могло повлиять на это решение, так как снизило эффективность алгоритмов компании. (Конечно, точно сказать трудно. «Только технологическая компания действительно знает, насколько эффективно использование данных повлияло на систему», — говорит исследователь).
Винсент и Ли считают, что кампании по саботажу могут служить дополнениям к другим стратегиям. Таким, как агитация за изменение политики и объединение работников в движение, чтобы противостоять технологическим гигантам.
«Приятно видеть такое исследование, — говорит Али Алхатиб, научный сотрудник Центра прикладной этики данных Университета Сан-Франциско, не принимавший участия в исследовании. — Интересно наблюдать, что авторы обращаются к коллективному или целостному подходу. Мы можем портить данные массово и предъявлять требования, угрожая этим. Потому что это наша информация, и вся вместе она формирует общий пул».
Еще предстоит проделать большую работу, чтобы развернуть эти кампании шире. Ученые могут сыграть важную роль в создании большего количества инструментов, таких как AdNauseam, чтобы помочь снизить барьер для участия. Политики тоже могут помочь. Бойкот данных наиболее эффективен, если он подкреплен строгими законами о конфиденциальности. Такими, как Общий регламент Европейского Союза о защите данных (GDPR), который дает пользователям право требовать удалить их информацию. Без регулирования сложнее гарантировать, что техническая компания позволит вам очистить ваш цифровой след, даже если вы удалите учетную запись.
Предстоит ответить еще на некоторые вопросы. Сколько человек должны участвовать в бойкоте данных, чтобы навредить алгоритмам компании? И какие данные были бы наиболее эффективными для порчи конкретной системы? Например, при моделировании алгоритма рекомендаций фильмов исследователи обнаружили, что если 30% пользователей объявят бойкот, это снизит точность системы на 50%. Но все алгоритмы машинного обучения разные, и компании постоянно обновляют их. Исследователи надеются, что участники сообществ машинного обучения смогут запускать аналогичные симуляции систем разных компаний и определять их уязвимости.
Алхатиб предполагает, что требуется больше исследований о том, как стимулировать коллективные действия с информацией в сети. «Коллективные действия — это в самом деле сложно, — говорит он. — Одна из проблем — заставить людей постоянно действовать. И затем возникает другая: как удержать непостоянную группу — в данном случае это могут быть люди, пять секунд пользующиеся поиском, — чтобы они видели себя частью большого сообщества?»
Он добавляет, что эта тактика может повлечь за собой последствия, которые требуют тщательного изучения. Закончится ли саботаж тем, что всего лишь добавит больше работы модераторам контента и другим людям, которым поручат очищать и маркировать данные обучения алгоритмов?
В целом Винсент, Ли и Алхатиб настроены оптимистично. Они верят, что коллективными данными можно эффективно воздействовать на технологических гигантов и влиять на обращение с нашей информацией и нашей конфиденциальностью.
«Системы искусственного интеллекта зависят от данных. Это просто факт об их работе, — говорит Винсент. — В конечном счете, так общество может набрать силу».
Читайте другие наши переводы на тему искусственного интеллекта:
Напоминаем, что для читателей Хабра в магазине гаджетов Madrobots действует скидка 5% на все продукты. Введите промокод: HABR
numitus2
Очередная попытка заменить нормальные политические способы решения проблемы какими-то костылями
Goron_Dekar
Ну или форсировать политические способы. Ведь если люди начинают против чего-то действовать, то политики смогут это заметить и построить на этом популистскую программу. Бездействие в ожидании политической активности так себе идея, нет?
numitus2
Ну так надо действовать так чтобы политики это заметили. А так это даже Гугл не заметит
fcoder
Не согласен. Костыли — это как раз политические и законодательные запреты.
Всем по большому счёту наплевать на GDPR как и на условия хранения персональных данных. Существует тысяча способов их обойти для основной массы пользователей.
А вот технические способы сделать сбор данных невыгодным — это решение которое работает.
Flux
… решение которое работает если им пользуется значимая часть пользователей а не два процента осознанных граждан.
SemyonSinchenko
Политические способы это всегда регулятор, антимонопольные службы, законы, устаревающие к моменту принятия и тд. В этом смысле мне больше нравится, когда рынок (пользователи) самостоятельно регулирует себя — когда потребители продукта вынуждают компании менять свою политику.