1. Вступление


Мы часто слышим словосочетание «человеческий фактор». Множество статей и книг посвящены принципам работы человеческого сознания. Несмотря на всю проделанную работу (напомню, что исследования проводятся во многих странах) точного и полного ответа на этот вопрос пока нет. Не будет его и в моей заметке, однако, мы попробуем порассуждать на тему человеческого фактора. Посмотрим на приблизительные основы мышления и разберём некоторые основные «баги» человеческого сознания.


2. Человеческий фактор


Вот идёт человек по улице. Замечает, что на асфальте нарисована кошка. Даже маленький ребёнок может выполнять весьма сложные ассоциации с образом кошки, понять по рисунку мелом на асфальте, что это не просто извилистая белая линия, а именно сложная форма тела кошки. Более того, образ может отличатся от реально существующего силуэта, т.е. быть достаточно карикатурным, однако, он будет верно распознан.


Представим, что вместо слова «кошка» мы будем использовать полное описание объекта. Не просто описание внутренних органов или даже клеток, но и каждого атома со всеми закономерностями, включая взаимодействия с другими частицами. Человеческий мозг (орган массой примерно в полтора килограмма) не сможет обработать такую информацию, а речь и слух не смогут её передать от человека к человеку. Следовательно, мозг должен упростить полученную через органы чувств информацию, чтобы создать модель и понять важные закономерности.


Естественно, что в процессе упрощения теряются очень важные характеристики и «ловятся» ложные закономерности. Особенно, если выборка не репрезентативная. Например, большинство людей увидит явную закономерность в следующем упорядоченном множестве натуральных чисел: «1, 2, 3, 4, 5, 6, 7, 8». Цифры явно возрастают, где каждый следующий элемент множества на единицу больше предыдущего. Но это не так. На самом деле это просто часть числа «Пи», затаившееся в первых двухсот миллионах знаков.


Другой пример: пусть задано пространство элементарных событий, состоящее из двух элементарных событий: «1» и «0». Каждое из них равновероятно (с геометрической точки зрения пространство разделено на две равные части, следовательно, площадь каждого из них равна 1/2). Повторяем такой эксперимент много раз, допустим, подбрасываем правильную монету. При огромном числе итераций будет наблюдаться ситуация, когда несколько раз подряд выпадает аналогичная сторона монеты. Наш разум увидит закономерность — «монету заклинило». Однако, с математической точки зрения это встречается с известной вероятностью (произведение вероятностей независимых событий — броски никак не связаны между собой).


Но закономерности мозг хорошо выявляет не только в событиях. Например, представим себе картину красивой загородной природы. Деревья в лесу — повторяющийся шаблон, где каждый элемент отличается от среднего (для своего вида) не самым значительным образом. Каждая травинка и цветок тоже является шаблонным «заполнением», разумеется, со своими индивидуальными характеристиками, свойственными виду. Сочетание деревьев, лугов и озёр тоже закономерность. Возможно, по этой причине фракталы и различные узоры кажутся нам красивыми. Далее показана гипоциклоида, которая отображена разными цветами с разными параметрами. Относительно простой шаблон (по сравнению с природой) выглядит красиво:



Красивая картинка, вот только как мы её видим? Глаз видит значительно меньше, чем нам кажется. Многое дорисовывает мозг. При перемещении взгляда происходит автоматическая доработка образа и построение модели. К сожалению, в нашем разуме не только много «багов», но и огромное количество «костылей». Вот скажите, а где ваше «слепое пятно»? Оно не позволяет вам видеть всю картину сразу, так как это специфика анатомического строения глаза. Не замечаете? Это мозг дорисовал. Даже размытие оптики за пределом фокуса вы не замечаете.


На этом факте различные искажения восприятия не заканчиваются. Мозг всегда добавляет к любому изображению целый ряд сложных ассоциаций. Часто совершенно лишних, так как они только вводят нас в заблуждение. Вот небольшой пример. Если мы в трёхмерном пространстве отобразим плоскость, а потом к одной из размерностей применим относительно простую формулу, то получим предмет, подозрительно похожий на платок или полотенце на ветру (а может в воде). Мы невольно додумали, что это мягкая ткань, раз её так развивает ветер или вода. У неё есть масса. Мозг уже «всё понял» и смоделировал. Можно представить себе тактильные ощущения и вес этого полотенца. Кстати, картинка всегда двумерна — это мозг опять придумал для неё объём. Более того, в этом месте Капитан Очевидность воскликнул: «Это вообще маленькие светящиеся точки на экране монитора, которые мозг принимает за реальный предмет!». Но это он немного погорячился.



Благодаря ассоциациям люди дали название некоторым сложным геометрическим фигурам или методам. Иногда весьма забавные. Например, название некоторых статистических методов визуализации («ящик с усами») или алгоритмов машинного обучения («случайный лес»). Задумайтесь, насколько высокий уровень абстракции мышления, если мы переносим некоторые ассоциации на формальные сущности. Одно из таких названий — «обезьянье седло». Сложный механизм ассоциаций увидел в этой картинке седло с местом для хвоста. Вот результат функции формирования упомянутой поверхности (генерирую в несколько шагов постепенно увеличивая количество плоскостей, формирующих фигуру):



А вы точно помните все детали этого изображения? Наш мозг не записывает видео и аудио всех событий. Мы каждый раз достаиваем и моделируем образы по небольшим отрывкам, записанным в память. Проблеме ложных воспоминаний посвящены большие разделы в книгах по психологии и криминалистике (дознание, опрос потерпевших и свидетелей). Например, покажите десятку добровольцев любое сложное изображение, потом спрячьте и попросите описать его. Вы удивитесь обилию несуществующих деталей, которые «вспомнили» люди. Спустя сутки попросите повторно описать картинку. Будут сильные различия между прошлыми и текущем описанием, которое вы услышите от одного и того же человека.


Различные искажения восприятия не так значительны по сравнению с искажением наших выводов. Не буду касаться острых социальных моментов, а просто предложу читателю вспомнить массу примеров таких неверных убеждений. Локальных (например, разочарование в выборе спутника жизни) или глобальных (ужасные и кровавые моменты истории человечества). Вначале такие убеждения казались верными, а потом мнение изменилось на противоположенное.


А наш разум с великой радостью навешивает «ярлыки» на других людей и различные явления. Особенно это сильно проявляется в творчестве, где персонажи могут быть изображены с весьма сильным упрощением внутреннего мира. Очень простые модели. Подобные «ярлыки» формируются относительно быстро, но весьма стабильны. По сути, это каркас оценочных суждений. Даже различные психологические комплексы тоже являются неверной моделью, допустим, самооценка и реальные возможности сильно различаются. Это всё модели и целые программы поведения, которые наш разум считает верными. Среди таких «ярлыков» были замечены и очень забавные, например, эффект плацебо. Когда человек поверил, в то, что эта таблетка помогает от головной боли и у него действительно быстро проходит головная боль.


Таким образом, полностью исключить человеческий фактор невозможно, так как мозг неспособен получить и обработать всю необходимую информацию. Вот и вынуждены мы всё упрощать. Вот только при этом упрощении невероятно сложно не потерять важные свойства модели. Либо мозг может действовать на основании неправильной модели — стать жертвой обмана или просто своих психологических комплексов. Во время длительного развития нашего биологического вида разум приобретает более сложные возможности, превышающие необходимый для выживания вида порог, однако, по-прежнему остаётся далёким от совершенства механизмом познания.


3. Возвращение из мира иллюзий


Как самонадеянно с моей стороны называть этот пункт «возвращением из мира иллюзий». Разумеется, тут есть солидная доля самоиронии. Мне всегда нравилось угадывать результаты различных исследований, которые проводились по открытым данным в социальных сетях. Особенно интересно наблюдать за различной статистикой опросов. Благодаря целому ряду государственных ведомств и частных компаний в свободном доступе есть огромное количество открытых данных. Интересно по той простой причине, что я часто вижу заметные различия между моим представлением о реальности и фактической гистограммой распределений. А часто правильный вывод сделать очень сложно, так как нет достаточной информации. Вот забавный пример, где якобы есть сильная закономерность. Фрагмент из очень больших данных:



Они очень похожи. Видимо, они очень сильно связаны. Отобразим это в виде облака точек и решим задачу аппроксимации методом наименьших квадратов. Разве сильной линейной корреляции не наблюдается? Очень маленькая ошибка (расстояние от точки до прямой, которую провели методом наименьших квадратов). Линейный коэффициент корреляции Карла Пирсона чуть-чуть не дотягивает до единицы, и составляет около 0.98. А ещё интересно посмотреть на функции потерь (regression loss). Метрика точности MSE (Mean squared error) составляет приблизительно 10.47. Мне кажется, что MAE (Mean absolute error) тут более интуитивно понятна (она равна приблизительно 2.217).



Похожи? Кстати, их средние значения тоже очень похоже. И минимум. И максимум. И среднеквадратическое отклонение. И верхний квартиль. И нижний квартиль. Всё очень похоже. Вот только их медианы в три раза различаются. Посмотрите на распределение этих величин:



И на описательную статистику:



Поверьте, это случайное совпадение. Пример мной не придуман, а взят из реальной жизни. Это не «квартет Энскомба», и тут никакая визуализация данных не поможет найти различия — тут проблема в том, что выборка не репрезентативная, а по случайному совпадению в эту выборку попали очень забавные данные. В больших данных (аналогия с событиями жизни) могут быть такие совпадения, которые заставят некоторых людей сделать неправильные выводы и увидеть такую закономерность, которой нет на самом деле. У мозга сильная потребность в предсказуемости. Он хочет всё понять и всё объяснить. Во всём увидеть смысл. Например, если человек не знаком с понятиями сложности алгоритмов, то он может подумать, что умножение на показанную далее константу будет и далее опережать возведение в квадрат:



Непредсказуемость, напротив, является настоящей пыткой для разума. Непонятность — родная сестра непредсказуемости. Это риск. Стресс. Непонятно куда бежать и чего бояться. Проще поверить, что ночной шорох в зарослях — это тигр, чем рискуя жизнью проверять правильность своей модели. Забавно, но проблема возникает не только в тех ситуациях, где решения не видно, но даже в тех, где может быть много вариантов. Какой из них выбрать? Что является критерием правильности выбора?


Скажем, нас поспросят выбрать алгоритм классификации следующих данных. Данный набор точек нарисован вручную. Если есть потребность в учебных целях быстро и просто рисовать произвольные наборы данных в двухмерном пространстве (вектор из двух предикторов и метка класса), то можно использовать очень простой инструмент (работает в обычном браузере, так как это обычная страница на HTML с JavaScript). Можно как спреем быстро «набрызгать» точки с нужным отклонением от центра курсора. Я делал его для себя, а теперь решил опубликовать. Я добавил его в свой личный сборник полезных фрагментов кода: ссылка на github.



Пусть факт принадлежности точки к кластеру определяет её класс:



Руководствуясь каким принципом человек будет разделять эти точки? Известно, что классы линейно разделимы. Формально говоря, существует такая гиперплоскость размерностью на единицу меньше размерности пространства, которая разделит точки обоих классов этого набора данных. По сути, это простая линейная функция (смещение + предиктор коэффициент + второй предиктор второй коэффициент). Следовательно, самый простой перцептрон Розенблатта справиться с этой задачей. Или логистическая регрессия, которая по своей природе использует похожий подход. Кстати, алгоритм ближайших соседей тоже справиться с этой задачей (несколько ближайших точек в этом наборе будут всегда одного класса). Впрочем, тут два явных кластера, что позволяет успешно использовать алгоритмы кластеризации или даже медленный SVM. Тем более, с этой задачей легко справятся алгоритмы на основе ансамбля деревьев решений (критерий разделения «Gini impurity»).



Из этого рисунка видно, что все перечисленные алгоритмы нашли правильное решение поставленной задачи. Вот анализ точности одного из алгоритмов:


         precision   recal   f1-score  support

0            1.00     1.00     1.00     382
1            1.00     1.00     1.00     255

avg / total  1.00     1.00     1.00     637

Но какой алгоритм разделения будет правильный? Они же все справились с задачей. Мы хотим получить вполне конкретный ответ. Так устроено сознание. Нужно сократить меру неопределённости до элементарного (неделимого) решения. Стоит добавить одно условие и задача легко решается: из этих алгоритмов следует выбрать самый быстрый. Отлично! Это понятная и достижимая для нас цель. Мы получили ограничение, которое сделало задачу безальтернативной. Не нужно метаться между вариантами и выбирать лучший. Не будет и сомнений в стиле: «эх, чтобы было, если бы я выбрал другой?».


4. Один мысленный эксперимент


Предлагаю небольшой мысленный эксперимент. Подключим фантазию и постараемся представить описанную далее ситуацию. Нужно чуть больше фантазии, пожалуйста, добавьте ещё. Отлично! Так достаточно. И так. Вот по улице идёт обычный паренёк. Навстречу ему идёт симпатичная девушка. Он хотел бы с ней познакомится, но его нейронные сети начали настоящую баталию. В результате одержали победу те сети, которые отговаривали его это делать. Аргументы в стиле «Она крутая, на такое [плохое слово] внимание не обратит, только опозоришься, если прохожие увидят» оказали своё влияние. Действительно, в силу воспитания и других индивидуальных особенностей истории становления его разума у парня сложилась именно такая картина мира. Для него это реальность. И не важно, говорим мы о парне с девушками или о странных вопросах на собеседовании.


Продолжим свой мысленный эксперимент. Представим себе, что создан настоящий идеальный искусственный интеллект. Раз персонаж у нас фантастический, то придумаем ему имя, например, «M-49», годится? Добавим ещё парочку щепоток фантазии. И есть у него одно важное задание: помочь парню найти «правильную» девушку. Мудрый М-49 постарается найти в базе данных подходящих кандидатов, из числа возможных для конкретного парня. Но там нет таких кортежей. Проблема: факторы противоречивые. Одно требование исключает другое. Но парень этого не понимает и продолжает настаивать на правильности своего мнения. Тяжело вздыхая грустный М-49 произносит: «Люди принимают плохие решения: по официальной статистике больше половины всех браков расторгается». Молчаливая пауза. На минуту зависнув фантастический интеллект всё-таки очнулся. «Это же люди!» — воскликнет он с большой долей негодования — «Что же ещё от них ждать?!». На этих словах М-49 сделал жест, известный как «facepalm».


Человек является социальным существом, которое буквально впитывает информацию с самого раннего возраста. В детстве формирование сложных нейронных сетей происходит очень быстро. Если общество для человека недоступно (феральные дети), то полноценных человеческих навыков не формируется. Такого человека почти невозможно научить говорить. Даже крайне сложно научить пользоваться туалетом. В нормальном развитии человек получает очень много шаблонов (моделей, ярлыков), которые могут быть как объективными, так и ложными. Не случайно главный инструмент мошенников, нечестных продавцов или военной пропаганды — это лож. Только лож не полностью придумывают, а во многом берут из моделей людей, на которых хотят оказать корыстное влияние дезинформацией.


Проблема в том, что очень сложно проверить правильность своих убеждений — нужна полная и точная модель мира, позволяющая просчитать все последствия всех возможных вариантов действия. Однако, это невозможно. Конечно, много фактов можно проверить. Для этого существует научное мышление в целом и грамотно поставленный эксперимент в частности. Включая, разумеется, грамотный анализ статистики. Научное мышление позволяет производить точные расчёты и создавать телефоны и космические корабли, однако, есть области, в которых пока не придумали точных методов или они недоступны в конкретных условиях (покупатель не умеет сканировать глазами химический состав продуктов в магазине, если его не напишут на упаковке).

Комментарии (4)


  1. InstaHeat
    22.09.2017 15:14

    Мы часто слышим словосочетание «человеческий фактор». Множество статей и книг посвящены вопросу изучения работы человеческого сознания. Несмотря на всю проделанную работу (напомню, что исследования проводятся во многих странах) точного и полного ответа на этот вопрос пока нет

    Вопросом изучения может быть — изучать, или не изучать, поэтому дальнейший текст (про нет ответа) кажется очень странным.
    Наверняка речь идет о проблематике.
    Я бы перефразировал вступление. Поправьте, если возможно


  1. ARadzishevskiy
    22.09.2017 15:22

    В деловой переписке допускается использование такого оборота. Единственно, можно было написать «вопросам изучения». Но в таком глубоком материале придираться к таким мелочам, некомельфо


    1. InstaHeat
      22.09.2017 15:49

      некомельфо

      Вы хотели сказать «не комильфо»? И при чем здесь деловая переписка, если это статья, причем на серьезную тему. К тому же, влияние языка и ошибка подмены понятий напрямую относится к вопросам, которые рассмотрены ниже по тексту. Считаю, это важно. Более того, чтобы поняли тебя и твою идею, ее нужно уметь подать


      1. ARadzishevskiy
        22.09.2017 15:59

        Да действительно «не комильфо»! Спасибо, что поправили.

        чтобы поняли тебя и твою идею, ее нужно уметь подать

        Так одна из идей автора, на мой взгляд, и состоит в том, что как не преподай идею, найдется обязательно кто-то, кто посчитает ее неправильно «преподанной».
        нужна полная и точная модель мира, позволяющая просчитать все последствия все возможных вариантов действия. Однако, это невозможно.

        … и прочее. Скорее всего объективная оценка выстроится в виде рейтинга статьи, где смешаются все субъективные оценки правильности подачи материала.

        Лично меня подача очень даже впечатлила.