Многие, наверное, уже видели фильм «Рыцари справедливости», где дата-сайнтисты на основе набора фактов о теракте чуть не раскрыли преступление, но совершили ошибку, вероятность которой была критически мала. Обсудим же некоторые аспекты смещения данных, которые чреваты принятием опасных решений.
Причины смещения данных
Первая и наиболее очевидная причина возникновения смещений — данные, которые были подобраны для обучения модели, сами по себе оказались смещенными, не отражающими объективную реальность вовсе или отражающими ее с каким-то фиксированным искажением (например, это данные о способности детей к обучению, по какой-то причине набранные до введения всеобщего образования).
Теоретически такой тип смещения должно быть видно на этапе работы специалиста с данными, когда дата-сайнтист смотрит на признаки и задает неудобные вопросы: почему те или иные признаки были собраны в набор данных, нельзя ли его расширить и взять больше признаков, которые будут описывать ситуацию более полно, и так далее. Если ответ, который должна дать модель, до этого являлся оценочным суждением человека, которое он делал, исходя из своей интуиции и личного впечатления (например, страховой агент собеседует клиентов потенциально высокого риска и выносит свое решение, дать ли им одобрение страховки и на какую сумму), то может оказаться, что его ответ просто нельзя автоматизировать.
Вспомним эксперимент с автоматизацией работы рекрутера от Амазона. Выяснилось, что искусственный интеллект отдавал предпочтение кандидатам-мужчинам — то ли просто потому, что мужских резюме исторически было доступно больше, то ли из-за предпочтений людей-рекрутеров, делавших эту работу раньше. Если хэдхантер считал, что кандидат-мужчина более перспективен, то при обучении модели неоткуда узнать, есть ли в этом утверждении что-то сомнительное. Понятно, что в системе, в которой мы хотели бы использовать искусственный интеллект для отбора кандидатов по их личным качествам, такой результат стал нежелательным.
Если бы мы работали с этими данными и дальше, мы бы задумались о возможности исключения признака пола, раз уж мы видим по нему сдвиг. Например, заподозрили, что у нас несбалансированная выборка, потому что данные собираются слишком давно: хороших кандидатов-мужчин приходило в прошлом больше, поэтому нужно еще немного подождать и набрать больше данных или сбалансировать выборку другими способами.
В общем, множество исследовательских вопросов могут быть решены дата-сайнтистом, который исследует данные и ищет в них какие-то закономерности.
Есть другая сторона смещения данных: казалось бы, данные, на которых была обучена модель, всем хороши: они описывают ситуацию объективно и полно, модель на данных обучена точная… Но потом что-то меняется. Нередко такие ситуации возникают на производстве. Приведу несколько примеров причин:
датчики, снимающие данные, могут быть заменены на аналогичные, но другой фирмы и с другой погрешностью;
может производиться перенастройка или калибровка существующих датчиков;
датчик, всегда измерявший в сантиметрах, начинает возвращать измерения в метрах;
на самом деле датчик не работает, но вместо отсутствующих значений передает константу, и т.п.
Чтобы отследить такие неполадки, существуют инструменты для мониторинга данных. Они проверяют, что новые данные не имеют критических отличий от данных из обучения модели. Если у нас начинает появляться много данных, которые лежат, например, за границами диапазонов обучения, или данные начинают быть непохожими по своим статистическим характеристикам на данные, использованные для обучения (например, где-то датчик начал часто западать и возвращать значение «300» вместо обычного значения «400-700»), система мониторинга сообщает об этом специалистам, и люди уже разбираются, что же произошло, не изменился ли процесс настолько, что нам теперь нужна другая модель.
Другой довольно интересный тип смещения данных, который происходит после того, как мы вывели модель в производство — это смещение результата из-за самого факта воздействия модели на ситуацию.
Если модель что-то рекомендует — на этом основании изменяются действия того, для кого делается рекомендация.
И со временем наши данные могут отодвигаться всё дальше от того набора данных, на котором изначально происходило обучение. Например, если нам предлагают кинофильмы, которые соответствуют нашим вкусам, но не предлагают спорные варианты, мы закрепляем в модели поведение, которое потенциально для нас отсекает фильмы, которые могли бы быть нам интересны, но не попали в выдачу из-за того, что топ-5 подбирался очень хорошо. Это звучит странно, но именно из-за того, что модель работает хорошо, она начинает работать плохо, рекомендуя нам вещи, относящиеся к нашему «пузырю», но избегая новых классных вещей, которые нас тоже заинтересовали бы и привлекли.
Чтобы снизить влияние такого смещения, время от времени проводятся тесты с выделением части аудитории в контрольную группу и проверкой новых вариантов рекомендательной модели. Таким образом можно выяснить, станут ли пользователи выбирать больше разнообразного контента или лучше реагировать на новую рекламу, которую не предложила бы им прошлая версия модели — уже морально устаревшая, поскольку аудитория под ее воздействием немножко изменилась.
Доверяй, но проверяй
Можно ли полностью доверять решениям искусственного интеллекта? Логичный вопрос даже после пары простых примеров, как изменения в данных делают работу моделей не всегда надежной.
Конечно же логично, что полностью — нельзя. По крайней мере, пока. Непонятно, насколько оговорка «пока» сможет быть преодолена в будущем: мы ничему в мире не доверяем без оговорок, даже собственные решения (а уж в себе-то мы могли бы быть уверены!) подвергаются сомнению. Приведу пример с самолетами: для управления воздушными судами в режиме автопилота существуют информационные системы, разработанные очень давно и работающие очень качественно. Как вы, наверное, знаете, большая часть современных полетов проходит в автоматическом режиме. Тем не менее, быть на сто процентов уверенным, что не произойдет нештатной ситуации, и, если она произойдет, хватит одного пилота и можно обойтись без пилота-дублера — нельзя, несмотря на всю супер-зарегулированность и долгую историю авиации. Цена ошибки системы — сотни жизней, так что все ситуации задублированы и на программном уровне, и в инструкциях для людей.
Да, существуют нейросети и другие модели, которые очень хорошо обучены под конкретные задачи. Но как могут резко измениться условия, так и просто всегда будет какая-то доля ошибок, возникающих из-за неучтенных при обучении факторов — или просто потому, что модель не смогла быть достаточно универсальной. По этому поводу ученые продолжают дискутировать о множестве вопросов прикладного аспекта науки о данных: каково может быть приемлемое доверие к модели в той или иной сфере; каковы должны быть возможности человека, чтобы в нее вмешаться; как быть, если вмешательство будет делать хуже, потому что модель работала хорошо, а человеку показалось, что она работает плохо, и так далее. А так как мы не можем ответить однозначно на все эти вопросы даже на уровне доверия «человек-человек» (например, в случае взаимодействия с доктором в спорных случаях мы всегда попросим второе мнение), очевидно, что ответить на этот вопрос для решений искусственного интеллекта мы не будем готовы еще долго.
В следующем посте я изложу свои соображения об этике применения ИИ и о том, какие важные последствия могут иметь смещения данных. Следите за обновлениями :)
Александра Царева, специалист машинного обучения "Инфосистемы Джет"
Zangasta
Очень забавная ситуация. У людей существует половой диморфизм — мужчины и женщины имеют разную производительность труда в разных отраслях. Сеть от Амазона просто продемонстрировала это наглядно. Но выданный ей результат показался непримиримым с точки зрения не относящихся к науке факторов.
Там образом статья про непредвзятый отбор проиллюстрирована отбором предвзятым.
JetHabr Автор
Обратите внимание, что речь шла не про работу, требующую выдающейся физической силы, а про «software developer jobs and other technical posts»
Zangasta
Для того, чтоб стать лауреатом филдсовской премии — физическая сила не нужна совершенно. Но и там мы видим статистически значимые отклонения в пользу одного из полов.
dead_undead
А вы можете однозначно указать на половой диморфизм как на причину этих статистически значимых отклонений? А может ли это быть следствием социализации, напр. увлечение девочек математикой может в среднем меньше поощряться, начиная от бабушек и заканчивая обществом в целом («зачем тебе это, учись лучше борщ варить»)?
Дальше вы либо придумываете, как вам учесть все эти факторы в своей статистике, либо разводите ручками и говорите — «а мы не знаем». Если вы учли и неравномерность осталась — это уже новость, но вы тоже не можете быть уверены что а) учли всё, б) учли всё правильно. Так что либо вы ставите чистый эксперимент, в котором представители обоих базовых классов находятся изначально в одинаковой среде (с одинаковым «одобрением» занятия той или иной деятельностью), либо споры неизбежно перейдут в кидание какашками по поводу методик).
ИМХО, мне видится более вероятным, что в большой и сложной цепочке выборов и решений, которая привела к медали Филдса, очень велико влияние среды, в которой эти решения принимаются.
Zangasta
Вы неправильно понимаете статистику как методику — доказываете, что видимая разница в количестве того или иного пола объясняется социализацией и прочее…
А это совершенно не важно, в контексте обсуждаемого вопроса. Статистика — показывает что разница есть, а не объясняет откуда она взялась и что с ней делать.
Причины разницы и что с ней делать — это другой вопрос. Социальный, мировоззренческий, философский.
Понимаете, о чем я? О том, что разница между полами не ошибка алгоритма, а следствие не зависимых от алгоритма факторов (В том числе и различий в социализации, как вы правильно указали)
И что нужно не переделывать алгоритм, а работать с его результатами. Например — организовать курсы для женщин программистов.
dead_undead
А, с этим я полностью согласен. Алгоритм не может быть «неполиткорректным».
Мне показалось, что тут вы утверждаете о разнице именно как о следствии диморфизма:
Но подождите, как раз насколько я понимаю, современные исследования — не только социологических, но и медицинские — построены на том, как искусственно сделать выборку условно однородной (возможно неправильный термин), т.е. вводом поправок на различные факторы. Так, медики в некоторых исследованиях, например о влиянии диеты на продолжительность жизни, могут учитывать поправки на материальное положение и тп, чтобы выкопать из данных «чистый» эффект. Это как раз следствие того, что мы не можем (в т.ч. по этическим соображениям) провести полностью контролируемый эксперимент, в котором все испытуемые находятся в одинаковых условиях под влиянием одних и тех же факторов. Или такие методы не являются инструментами статистического анализа?
Zangasta
Являются. Но в данном случае было не исследование, а набор сотрудников.
Совершенно разные задачи — определить норму и найти лучшего.
vnick
Сеть от Амазона лишь показала, что есть тренд в набранной статистике. Вы утверждаете, что разбираетесь в статистике, но не понимаете, чем корелляция отличается от причинности и как это выявлять.
Вообще-то статья именно об этом. «Независимые от алгоритма факторы» — это и есть смещения, которые нужно устранять в тот момент, когдя их негативное влияние проявилось (а лучше до этого)
Это ваше личное отношение к конкретному гендерному вопросу. А что делать с моделью, работающей с датчиками на ядерной электростанции? Тоже работать с результатами? Думаю, будет поздновато
Zangasta
Именно. Работа с результатом — это срабатывание защиты, например. Тогда как изменение модели, чтоб она больше не выдавала «неугодных данных» — приведет к нарастанию проблемы.
vnick
Не думаю, что это выдавание «неугодных данных» в случае с Амазоном. Половой диморфизм в точных науках не доказан в чистом рандомизированном эксперименте. По этому поводу есть лишь множество противоречащих друг другу публикакаций и исследований. Можете найти подтверждение любой точки зрения.
Количество лауреатов филдовской премии — тоже очень плохая выборка для установления причинности. Сколько там русских? Не так много. Значит ли это, что алгоритм должен предпочесть француза русскому? Вряд ли
А вот то, что Мария Кюри, к примеру, прошла огонь и воду и медные трубы (даже заключала брак по расчету) просто, чтобы иметь доступ к лаборатории как женщина — это факт. И это черта целых эпох
Поэтому мы не можем заключать, что «мужчина -> лучший специалист в точных науках», значит алгоритм не должен учитывать эту размерность при подборе лучшего специалиста.
Я сам работаю в науке, и могу сказать, что большинство моих женщин коллег дают фору многим мужикам. Можно ли на основе этих данных сказать, что женщина — лучший специалист? Тоже вряд ли
michael108
Насчет полового диморфизма и «не-физических» видов работы.
Надеюсь, никто не станет возражать, что гормонональный баланс у мужчин и женщин разный. А гормоны, в свою очередь, влияют на активность мозга (по крайней мере, некоторых его отделов). Наверное, тут правильнее говорить о «распределении» гормональной активности, которая у мужчин обеспечивает сдвиг в сторону рационально-активно-волевого образа действий, а у женщин — в сторону эмоционально-пассивно-компромиссного. Т.к. речь идет о распределениях, то очевидно, что всегда на их «хвостах» можно найти мужчин с «женским» психотипом, и женщин — с «мужским».
Соответственно, если работа требует именно мужского психотипа (с доминированием рациональности), то там по совершенно объективным причинам будут доминировать мужчины. И наоборот. Следовательно, работодатель будет стоять перед выбором — в зависимости от задачи набрать больше носителей «мужского»/«женского» психотипа (обоих полов), либо обеспечить «гендерное равенство» и получить проблемы с производительностью труда, межличностной напряженностью и т.п. (что, впрочем, вполне возможно и в «чисто мужском» коллективе).
mSnus
А есть где-то подтверждение этой теории?
michael108
Для начала — можно погуглить о влиянии гормонов на психику и про тестостерон с эстрогенами.
mSnus
Понятно, что гормоны влияют. Я про вот эту часть:
michael108
Вот пара цитат из этой статьи (сохраненная Гуглом копия):
Ну и очевидное: у мужчин в среднем выработка тестостерона выше, чем в среднем у женщин. Но среднее — означает, что мы имеем дело с распределением величины, которое характеризуется какой-то формой (например, гауссоида). Поэтому, имея дело с конкретным индивидуумом, надо смотреть не на статистику, а на человека.
Еще вот неплохая статья («Влияние гормонов на поведение»).
mSnus
а как агрессивность или привязанность к младенцам связаны с «доминированием рациональности»? пока не вижу такого…
rg_software
Я в этой истории с амазоном вот чего не понимаю. Алгоритм оперирует теми данными, которые в него заложили. Если исследователь предполагает, что какие-то факторы не имеют значения (рост, цвет глаз) или не должны учитываться по легальным причинам (раса, пол), зачем их вообще туда вносили? Или пол там автоматически выявился из других данных?
vnick
скорее всего нейросети вслепую скормили большой массив данных с анонимизированными данными сотрудников, и одна из размерностей была — пол. В этом и есть суть так называемого feature engineering — часто нужно корректировать модель еще до обучения (внимательно изучив данные), потому что ты понимаешь, что она может выхватить нерелевантный (в лучшем случае) тренд, исходя просто из ее архитектуры
rg_software
Ну так ясное дело, неужели эта свежая мысль ни разу в голову не приходила ребятам из Амазона? Garbage in, garbage out.