
Мы продолжаем публиковать самые интересные доклады RAIF, ежегодного форума по искусственному интеллекту, организованному «Инфосистемы Джет». Сегодня хотим поделиться рассказом доктора физико-математических наук, профессора департамента информатики НИУ ВШЭ Бориса Асеновича Новикова.
Мифы о больших данных и цифровая культура
Слово big в нашем случае относится больше к мифам, чем к данным, поэтому я расскажу, в основном, о первых, но в контексте вторых. Поскольку я уже несколько десятилетий делаю вид, что работаю в научном сообществе, я начну с определения, чтобы это выглядело, как точное знание.

Мифы – неотъемлемая часть культуры общества, они существовали всегда и продолжают появляться в современном мире. Привожу примеры:

Более старшая часть аудитории должна помнить шум вокруг 2000-го года, который на самом деле является одним из 400 относительно честных способов извлечения денег из заказчика, не более того. Конечно, катастрофы тогда не случилось.
Возникает масса мифов вокруг software engineering – здесь есть много разных точек зрения, и на этой теме я концентрироваться сейчас не буду.
К этому докладу меня подтолкнула инициатива сверху: в том университете, где я работал, появилась необходимость обучить цифровой грамотности поголовно всех, от детского сада до аспирантуры. Никто не знал, что это такое, и я опрометчиво признался руководству, что я примерно понимаю, как это делать… и попался. Нужно было учить разные специальности по одной программе:

Основной мой вклад в дело заключался в том, что я переименовал этот курс из «Цифровой грамотности» в «Цифровую культуру».
На одной из международных конференций я услышал такое высказывание: для того, чтобы привлечь внимание аудитории, нужно добавить в доклад хоть какой-то намек на сексуальность, так вот: несколько лет назад в прессе (в частности, в российской) широко обсуждался случай, как американской школьнице стали присылать рекламу для беременных (на этом сексуальный контекст истории исчерпывается ), потом семья обратилась с иском, но в итоге иск пришлось отозвать… Потому что девушка действительно оказалась беременной. История понаделала много шума, мол, эти аналитики знают о нас больше, чем мы сами (это уж вряд ли)! Все это очень опасно, и надо усиливать защиту. Так родились мифы:
- Большие данные крайне опасны
- Они знают о нас больше, чем мы сами
- Необходимы дополнительные меры по безопасности
Поймите меня правильно: безопасность важна, но давайте посмотрим, как оценивать этот случай профессионально.

Какой вывод можно сделать? Анализ ИНОГДА может давать правильные результаты, и мы можем также сказать, что иногда мы ничего не знаем.
Мои друзья и коллеги обращают внимание на то, что случайная рассылка тоже иногда дает правильные результаты, и мы ничего не можем сказать о качестве рассылки, если не оценим какие-нибудь количественные показатели. Прежде всего, необходимо оценивать полноту и точность.
Следующие виды мифов я позаимствовал из зарубежного контекста. Например, на одной из топовых конференций по обработке данных SIGMOD 2019 проходила панельная дискуссия (или, как говорят у нас, «круглый стол») на тему «Responsible Data Science». Там обсуждались примеры того, каким образом случается безответственное применение средств анализа данных, машинного обучения и т.п. В качестве одного из примеров привели историю с определением пола человека по фотографии глаз. Люди работали над этим несколько лет, достигли точности аж 80%, пока один скептик не выяснил, что на самом деле они определяют наличие или отсутствие косметики.
Это курьез, но вот дальше пример, в котором опасность уже абсолютно реальная: речь идет о применении методов машинного обучения для выявления преступников по фотографиям. Как выяснилось, в самом принципе работы этой обучающейся системы есть проблемы с политкорректностью: во-первых, они давали ложноположительные ответы с разной частотой в зависимости от расы, а во-вторых, как оказалось потом, на самом деле они определяли наличие или отсутствие улыбки на фотографии, не более того. Однако были попытки применения этой системы, и офицерам, которые должны были использовать результаты, в случае несогласия полагалось писать письменное объяснение, почему именно они не согласны с результатами, которые выдает система. Вот это уже пример того, каким образом мифы могут стать опасными для общества.

Почему-то мы говорим Data Science, хотя речь идет о промышленных применениях. Во всех остальных областях – Computer Science, но… Software Engineering. Уравнения математической физики и какое-нибудь мостостроение, или что-то еще? Коллеги, ученым нельзя верить! Хотелось бы думать, что Data Science относится к разделу «Науки», и к сожалению, формулировка Data Engineering уже занята другим понятием.
Я возвращаюсь к истории с проектом курса для всего университета независимо от подготовленности и специальности. Картинка с правой стороны (лебедь, рак и щука) показывает, каким образом работала команда, собранная из представителей всех факультетов университета.

Тем не менее, мы попытались сделать что-то разумное. Идея состояла в том, чтобы показать простые вещи, которые каждый исследователь может делать сам независимо от той области, в которой он работает. При этом чтобы он мог понять, в какой момент (это самое важное!) нужно обратиться к профессионалам по обработке данных. Я пытался избежать таких рецептов для начинающих (но из этого мало что получилось), типа «Сделайте сложение популярным, но не практическим руководством».
Итак, мифы неизбежны, и мы должны понимать, что с ними все-таки придется иметь дело. Мифы являются источником многих ошибок, неудач и проблем, а иногда могут быть даже опасны – необдуманное применение мифических «знаний» может иметь негативные последствия.
Кроме того, что мы развиваем технологии, надо заниматься просвещением общества, и это забота постоянная, которая никогда не будет решена полностью, потому что человечество в общем развивается не так быстро, как технологии. Обучить людей намного труднее, чем искусственный интеллект – один из источников мифов. Нам надо научиться работать и жить с этим так, чтобы избежать больших опасностей.
iit
Хорошо хоть кто-то пытается разобраться в вопросе технологического хаоса для того чтобы навести порядок.
В современном it мире очень много практики и довольно мало науки к сожалению.
Исследуя код и документацию мы может ответь на вопрос как сделана та или иная технология. Но как только поднимаешь вопрос почему это сделано так, а не иначе и есть ли обоснованная причина именно такой реализации — то в большинстве случаев это либо "сделали как получилось" либо "все так делают и мы так делаем" лишь некоторые проекты имеют под собой какой либо фундамент в виде исследований или хотя-бы нескольких итераций разработки и тестов которые доказывает что текущая реализация более-менее оптимальна.
Из за того что нет конкретного подхода в реализации то объяснить решение довольно проблемно — проще навесить ярлык в виде CloudComputing, BigData, AI,
BlohchainBlockchain и тп.JetHabr Автор
Отвечает Борис Новиков: «Это очень хороший комментарий, радует, что за моими шутками удалось увидеть целый комплекс серьезных проблем. По существу дела приходится вспомнить английского философа 17 века Гоббса, в русском переводе нужный здесь тезис звучит так: “если бы геометрические аксиомы задевали интересы людей, их бы опровергали”. Оригинальный английский текст значительно длиннее и там несколько более глубокая мысль, но для наших целей и так достаточно. Очень во многих случаях несложно догадаться, какие экономические или другие человеческие причины стоят за техническими зигзагами. Так, особые системы для работы с “большими данными” появились не потому, что прежние технологии совсем не годились (как утверждается), а потому, что их реализации продавали непомерно дорого и новые гиганты не хотели платить.
Другой фактор заключается в том, что мифами манипулировать проще, чем знаниями, и добывать их проще. Один студент на зачете (не мой) говорил, что он сравнивал два программных инструмента, один из которых использовал: максимизацию правдоподобия и градиентный спуск. Не помню, что из этого считалось преимуществом, но довольно легко удалось выяснить, что студент не знает определений ни того, ни другого, но очень уверенно занимается анализом данных. Зачет он, конечно, получил, несмотря на мои протесты. Так я и не знаю, как искать максимум бузе градиента.
Люди читают рекламные листовки, ожидая, что там есть технические характеристики. Так и появляются мифы.»