От трагедии до курьеза
1 сентября 1983 года Boeing 747 южнокорейских авиалиний вылетел из аэропорта Анкориджа, направляясь в Сеул. Полет капиталистического воздушного судна должен был проходить над Тихим океаном восточнее Камчатки, огибая воздушное пространство Советского Союза. Экипаж поднялся на необходимый эшелон и включил автопилот. Последний, однако, был настроен неправильно, и вместо изящной дуги мимо оплота коммунизма, повел самолет по прямой – над территорией СССР. Несмотря на изменение курса, экипаж не стал проверять его и корректировать автопилот, положившись на автоматику. В результате произошла одна из самых известных авиакатастроф того времени – авиалайнер был сбит советскими истребителями над Сахалином.
Доверие к автоматике приводило не только к трагедиям, но и курьезам, таким как случай с канадкой, GPS-навигатор которой посоветовал ей заехать в озеро Гурон
– что она и сделала, чуть не утонув.
Эти случаи объясняются не столько глупостью, сколько более сложным и комплексным явлением, носящим нейробиологическую природу – automation bias. В русскоязычной литературе еще не установилось как такого общепринятого перевода данного термина. Однако перевод с английского дает представление о его содержании: bias – это и ошибка, и предвзятость, и пристрастность, и уклонение, и субъективность, т.е. любое отклонение от объективности. Наиболее точно перевести automation bias можно как «искажение, вызванное автоматизацией», или просто «ошибка автоматизации», так как психология и когнитивистика относят automation bias к разряду когнитивных искажений/когнитивных ошибок.
Что такое automation bias?
Под automation bias понимают неосознанную склонность человека слепо доверять решениям, предлагаемым компьютером, особенно если они связаны с выполнением рабочей функции. При этом могут игнорироваться другие показатели, противоречащие рекомендации машины.
У ошибки автоматизации очень глубокие корни, лежащие в особенностях нашего мышления, выработанных эволюцией: люди склонны принимать решения, требующие меньших затрат сил и энергии, так как в дикой природе шансы на выживание имеет тот, кто их сэкономил. Иными словами, мы запрограммированы природой идти по пути наименьшего сопротивления и избегать таких ситуаций, которые могут причинить когнитивный дискомфорт или (не дай Бог!) привести к когнитивному диссонансу.
Отсюда проистекают и хорошо знакомые каждому неосознанное стремление и осознанное искушение вместо время- и трудозатратного анализа всех факторов, слепо доверится уже готовому решению или рекомендации. Сходные механизмы лежат в основе религии и пропаганды. Еще одним подспудным фактором возникновения automation bias является так называемое «размытие производительности»: производительность отдельного человека, в одиночку работающего над выполнением задания, выше, чем производительность отдельно взятого члена коллектива, когда задачей занимаются несколько людей. Иными словами, люди начинают больше халтурить, если работают вместе с другими людьми.
Исследования и предотвращение
Исследовать феномен automation bias начали еще в конце 90-х годов прошлого века, когда системы поддержки принятия решений только начали применяться в космонавтике, пилотировании, управлении атомными электростанциями и в отделениях интенсивной терапии. Одним из наиболее значимых в это время стало совместное исследование Линды Скитки (факультет психологии университета Иллинойса), Кэтлин Мозьер (университет Сан-Франциско) и Марка Бурдика (Исследовательский центр NASA), результаты которого были опубликованы в 1999 году в авторитетном американском журнале Human-Computer Studies.
Отличительной чертой их работы стала цель. Хотя считалось, что системы автоматизации помогают снизить человеческий фактор при принятии решений, никем, собственно, не проводилось анализа того, так ли это на самом деле. Ситка и ее коллеги поставили перед собой задачу выяснить, действительно ли это так и насколько люди предпочитают принимать рекомендации машины «на веру» без дополнительной проверки.
Эксперимент проводился следующим образом. Каждый участник был помещен в подобие авиационного кокпита с экраном и панелью управления. Задачей участников являлось совершить восемь «полетов», используя специальную программу, разработанную NASA. Эта программа имитировала возникновение 3 типов задач, свойственных для полетов коммерческих самолетов:
- Трэкинг. Участник должен был в течение всего полета (параллельно с выполнением других задач) удерживать с помощью джойстика изображение самолета в рамках круга, смещение которого генерировались компьютером. Участник должен был постоянно следить за тем, чтобы «самолет» оставался в границах этой зоны, компенсируя отклонения выравниваем самолета по вертикали и горизонтали.
- Путевые точки. Путевые точки. Участник должен был отслеживать свое местоположение на карте. Иконка «самолета» перемещался по экрану-карте слева направо. Красные и синие треугольники на его пути обозначали радиовышки: при прохождении через них участник должен был нажать специальную кнопку соответствующего цвета, имитируя отправку сигнала о своем местоположении.
- Калибровка. В нижнем углу экрана отображались четыре датчика, непрерывно перемещающиеся в рамках диапазона нормальных показаний. Каждый из них или все вместе датчики могли рандомно выйти за пределы диапазона нормы. Когда один из датчиков показывал ненормальное значение, участник должен был нажать соответствующую кнопку датчика; если все датчики выходили за пределы диапазона, участник должен был нажать кнопку «сброс датчиков». Датчики были запрограммированы вернуться к нормальному значению через 10 секунд, если участник не нажал ни одной кнопки, т.е. не заметил события.
Все восемь «полетов» в сумме содержали 100 событий, требующих выполнения данных задач (изменение положения круга, прохождение путевой точки, необходимость калибровки датчиков).
Участники эксперимента были разделены на две группы. Первая группа проходила испытания-полеты с автоматизированным средством мониторинга (AMA). У этой группы в верхнему углу экрана появлялись объявления АМА, которые оповещали участника о каком-либо событии (например, перемещении показателей датчиков за пределы нормального диапазона), а также рекомендовали совершение конкретных действий (например, нажать кнопку «сброс датчиков»). Участники были проинструктированы, что АМА не является совершенным средством и может давать сбои. Вторая часть участников проходила испытания без AMA.
Экспериментом было предусмотрено, что за все 8 полетов АМА «не сработает» 6 раз, то есть средство автоматизации не предупредит участника о 6 событиях из 100, на которые он должен отреагировать. Интерес представляло, сколько участников из первой группы пропустят эти события, положившись на компьютер, а также каково будет их соотношение с числом участников из второй группы, пропустивших то же самое событие.
Результаты опыта показали, что участники, использовавшие АМА, допустили больше пропусков 6 выделенных событий, чем участники, не пользовавшиеся АМА. Коэффициент точности первой группы в этих событиях составил 59%, когда как второй – 97%.
Дальнейшие исследования подтвердили этот результат, что привело к разработке способов избежать негативного воздействия automation bias при использовании систем автоматизации пользования техническими устройствами. Так как сама ошибка автоматизации относится к проблеме неустранимых особенностей человеческого мышления, с этой целью были:
во-первых, усовершенствованы сами программы автоматизации и рекомендаций, повышена их точность и надежность;
во-вторых, во всех сферах их применения для операторов были введены обязательные курсы обучения, а также обязанности по ручной сверке и проверке показателей. Отличным примером этого является программа обучения и инструкции выполнения полетов для пилотов самолетов.
Это позволило существенно нивелировать риски automation bias в таких сферах, как пилотирование, работа больниц и электростанций.
Новая опасность
С развитием технологий обработки больших данных и машинного обучения во втором десятилетии нынешнего века, «умные помощники», наподобие АМА, стали внедряться в сферу принятия социальных и публичных решений. Причиной стали все ускоряющиеся темпы обмена информацией, e-commerce, соцсети и т.п. – все это привело к все возрастающей нагрузке на суды, многочисленные инспекции и административные органы государства.
Огромные объемы информации, которую надо было обработать госорганам, стали головной болью управленцев, от которых требовалось, с одной стороны, повысить эффективность публичного сектора, а с другой – сэкономить как можно больше бюджетных средств. Они нашли решение во внедрении алгоритмов и ИИ-экспертных систем, причем делалось это в такой суматохе, что никто не утруждал себя дополнительной проверкой алгоритмов и разработкой инструкций, ориентированных на предотвращение ошибок.
Эти обстоятельства закономерно стали питательной средой для увеличения числа automation biases в сфере государственных услуг. Так, в Дании полицейскими использовался специальный алгоритм, позволявший на основе геолокационных данных мобильных устройств, полученных от операторов связи, выстраивать маршрут движения подозреваемых в преступлениях в интересующие следствие дни. В 2019 году обнаружилось, что алгоритм работает с ошибками и в некоторых случаях дает неверные результаты. Это привело к пересмотру 10 000 уголовных дел, по итогам которого были отменены приговоры датских судов в отношении 32 осужденных. В ходе пересмотров было установлено, что при первоначальном рассмотрении указанных дел, судьи чрезмерно доверяли результатам работы программы даже тогда, когда в деле имелись доказательства, ставящие их правильность под сомнение.
Другим подобным случаем стал скандал с пособиями по уходу за ребенком в Нидерландах. В начале прошлого десятилетия в голландскую налоговую были внедрены программы автоматизированной обработки деклараций о расходовании государственных пособий на детей. Алгоритм обрабатывал полученные от родителей отчеты и мог выявить предполагаемые случаи нецелевого расходования пособия. Инспектор мог использовать рекомендации алгоритма при проведении проверки и на основании них инициировать проверку или даже расследование. В конце 2021 года выяснилось, что многие инспектора полагались на рекомендации алгоритма, проводя ручную проверку более халатно, в результате чего количество запросов, требований предоставить дополнительные документы и объяснения возросло в десятки раз. Более того, алгоритм учитывал гражданство и национальность родителей как дополнительный негативный фактор и во многих случаях только на этом основании рекомендовал провести дополнительные бюрократические процедуры, усложняя жизнь добросовестных получателей пособия.
На фоне указанных скандалов команда во главе с С. Алон-Бакартом (Хайфский университет) и М. Бусуйок (Амстердамский свободный университет) решила провести сходное с экспериментами Ситки исследование, только в области принятия публичных и социальных решений. Его результаты показали, что хотя степень ошибок, связанных с доверием компьютерным помощникам, недостаточно велика, чтобы говорить об устойчивой практике automation bias, такие показатели связаны с тем, что алгоритмы еще не стали настолько распространены в практике государственных органов, чтобы сформировать «ореол» доверия к ним. Кроме того, прошедшие скандалы также сделали госслужащих более настороженными. Однако это не исключает, что в будущем, когда прошлые скандалы забудутся, а алгоритмы станут частью бюрократической рутины, проблема automation bias в секторе публичных решений станет острее.
Помимо этого, Алон-Бакарт и Бусуйок обнаружили еще одно интересное явление: при принятии решения, участники экспериментов меньше перепроверяли рекомендации машины, если они соответствовали общественным или личным стереотипам (т.н. Selective Adherence, избирательное доверие). Такой феномен отсутствует в технических сферах применения умных помощников, так как операторами оцениваются измеряемые показатели, а не люди, факты их биографии или общее впечатление от них. Избирательное доверие может усилить в будущем проблему ошибки автоматизации у госслужащих, что приводит к необходимости учитывать этот фактор при разработке новых программ автоматизации принятия решений.
Вместе с тем, также возможно, что классические способы предотвращения automation bias в секторе принятия социальных решений будут не столь эффективны. Можно ли увеличить точность алгоритмов, основанных на оценочных категориях добропорядочности? Будет ли эффективен и объективен ИИ, обученный на данных, продуцированных обществом, в котором присутствует дискриминация? Не сведет ли текучка госслужащих и их зашкаливающая нагрузка пользу от обучения и инструкций к нулю? На все эти вопросы ученым и практикам автоматизации еще только предстоит ответить.
Комментарии (9)
radonx201
02.06.2022 18:37Особенно доставляют случаи, когда человек видит своими глазами, что что-то не так, но автоматика ему говорит, что все ок. И если уровень этого человека в иерархии процесса является достаточно низким, то действует он исходя из решения автоматики.
А пример с боингом некорректный.
agat000
03.06.2022 07:46В начале прошлого десятилетия в голландскую налоговую были внедрены программы автоматизированной обработки деклараций о расходовании государственных пособий на детей. Алгоритм обрабатывал полученные от родителей отчеты и мог выявить предполагаемые случаи нецелевого расходования пособия.
В смысле? Они проверяют, куда тратят граждане детские пособия? Они совсем опухли? Даже у нас до такого не додумались.
cyber_estet Автор
03.06.2022 18:33Думаю, это обосновано, учитывая отличие в размере российских и европейских социальных пособий, а так же то, что в Нидерландах право на пособие имеют и иностранные граждане, проживающие по временному ВНЖ.
vkflare
05.06.2022 08:34Результаты анализа, выдаваемые скриптами — промежуточный, а не конечный продукт, и они требуют валидации. Никакому админу в голову не придет запустить на продакшене деструктивное/необратимое изменение без ревью. Девопс бы не понял, чего еще можно было ожидать в ситуации, когда за автоматизацией, предоставляющей некий артефакт (результаты анализа, релиз, прогнозы) не следует отдельный, не связанный с ней quality gate.
Неужели в смежных сферах этого до сих пор не понимают?
sophist
А известны коэффициенты точности по всем 100 событиям?
cyber_estet Автор
Коэффициент точности по всем событиям у группы с АМА составил 83%; у группы без АМА - 72%
sophist
Спасибо.
Интересно, чем таким выделялись эти 6 событий, что точность у группы без AMA для них настолько выше средней?
(Думается, для дизайна эксперимента было бы лучше, если бы такие события выбирались рандомно).