Сегодня на Moscow Data Science Major рассказывал про приватность, этичный Data Science, и много интересных технических новинок. Люди внимательно слушали, задавали вопросы, благодарили. Но то что произошло потом было очень показательно. Об этом под катом.
А потом был доклад про новые Российские наработки по НЛП с вот этим вот слайдом.
Единственная поправка, которую я внес в него публикуя здесь — серые поля, закрывшие имя, фамилию, очество и адрес живого человека. Человека, чьи персональные данные данные и врачебная тайна были так спокойно и буднично расскрыты перед тысячей человек, не обременненых никакими соглашениями о неразглашении.
И самое страшное даже не в том, что при этом был нарушен целый ряд федеральных законов (№ 323 статья 13 и №152 как минимум). Самое страшное, на мой взгляд, в том, что почти никто не увидел в этом ничего неожиданного и нехорошего…
Мне очень хочется верить, что я не прав, и автор изменил имена и адрес этого человека, но вероятность этого мала — и клиника, и упомянутый врач реально существуют и работают в Санкт-Петербурге. И на этом слайде по чистой случайности не оказались записи МОИХ разговоров с операторами этой очень популярной в Петербурге клиники…
Не думаю что что-либо подобное могло произойти в странах с более зрелым Data Science на западе и, скорее всего, на востоке. И никакие даже самые современные методы и технологии не смогут нам помочь, пока мы сами не повзрослеем и не начнем с уважением относится к тем людям, что доверили нам, часто даже неосознано, важную часть своей личной жизни…
Комментарии (24)
like_the_sun
01.09.2018 23:05Очень полезно и правильно вы указали на недочет(=серьезная ошибка) спикера.
Но моё имхо, что такое лучше писать личным сообщением автору, с дальнейшей просьбой написать пост для передачи отрицательного опыта, может с извинениями, с ссылкой на вас.
А так же вопрос к компаниям, которые передали записи разговоров для обучения — имели ли они право передавать(а не только записывать) их, без обезличивания.dmitrybugaychenko Автор
01.09.2018 23:07+3В целом справедливо. Но мое намерение в данном случае не обвинить спикера (его имени здесь даже нет), а донести до сообщества важность отслеживания таких кейсов в своих публичных презентациях.
Kroid
01.09.2018 23:37-2Это, конечно, верно. Не стоит нарушать законы, даже в малом. Но, заходя под кат, я ожидал чего-то более серьезного, чем «обожемой, теперь несколько
программистовдата сайентистов знают, как зовут одну рандомную тетку, попытавшуюся записаться к врачу».
И, просто чтобы быть последовательным — а вы проверяли, действительно ли это персональные данные, или же они псевдо-персональные, когда при подготовке слайда имя/фамилию звонящей в тексте заменили на случайные?)
Статью следовало бы назвать «особенности русской небрежности», потому что такое творится не только в дата сайенс. Хотя, в общем-то, от национальности это не слишком уж зависит.dmitrybugaychenko Автор
02.09.2018 00:04+1Обычно о том что данные были откорректированны перед пбликацией всегда говорят явно, здесь такого не было. И, как я уже сказал, буду очень рад если ошибусь и имена были откорректированны.
Ну а то, что нас часто не волнуют те самые «рандомные тетки», данные которых мы анализируем, и то что мы не видим ничего страшного в расскрытии этих данных, это, имхо, очень и очень грустно…Porohovnik
02.09.2018 00:31А слово, тест, перед "Леночка" вас не смутило? Мне кажется, что оно там не случайно, ибо остальной текст с ним вообще не связан…
Так что это очень напоминает специальный разговор для тестирования сотрудников(например узнать как они отвечают клиентам по телефону)dmitrybugaychenko Автор
02.09.2018 01:41Да, я обращал внимание на это слово, но оно может быть и артефактом спич-то-текста, а автор при рассказе никак не отразил этот момент. Но это даже не главное — у меня нет намерения обвинять в чем-то автора. Появись такой слайд на том же КДД — ахнуло бы ползала, а у нас среагировали единицы, ни один из задающих вопросы не попробовал уточнить этот момент (я пытался, но организатор с микрофоном так и не добрался до нашего ряда). Основная проблема ведь не в этом конкретном слайде, а в том что лекгомысленное отношение к данным для нашего сообщества является практически нормой и именно с этим надо бороться.
Agnos
02.09.2018 01:41Paranoia mode/>
На самом деле это всё (статья) партизанский маркетинг или продакт плейсмент для услуг клиники, врача или MIL, а возмущение раскрытием данных только предлог
<paranoia mode
А если серьёзно, ожидал увидеть статью подлинее и содержательней. Хотя тема и актуальная.dmitrybugaychenko Автор
02.09.2018 01:45Долго думал над заголовком, итог получился немного «читерский», но как иначе привлечь внимание к теме?.. Статью подлиннее и содержательнее постараюсь организовать.
YaNastya
02.09.2018 02:20+1Спасибо, что обратили внимание на такой очевидный косяк.
Сразу отмечу, что данные здесь были полу-обезличенными — в датасете ФИО клиентов заменялись на рандомные. С адресами клиник никто не парился, никакой конфиденциальной информации в адресе клиники нет.
Впрочем, заблюрить все фамилии и адрес клиники — самое правильное решение, которое не вызвало бы неприятного осадка у части (пусть и небольшой) аудитории. В аналогичном кейсе на одном из следующих слайдов абсолютно вся личная информация клиента (номер телефона, ФИО, даже адрес магазина) замазаны. Чтобы избежать разрастания дискуссии из-за банальной небрежности, мы добавили серых прямоугольников на слайд, скриншот которого есть в этой статье, и перезалили слайды в гугл-диск с материалами :)
На будущее было бы клево сначала выяснять у автора вопросы про обезличенность данных, а уже потом оформлять справедливое недовольство в статью.
dmitrybugaychenko Автор
02.09.2018 10:28Спасибо большое за разъяснения! Снова подчеркну — не имел цели обвинить в чем-то автора. Именно тот факт, что странность заметила лишь малая часть аудитории расстраивает куда как больше чем сам слайд…
Еще, на мой взгляд, можно было бы улучшить название — позитивные формулировки всегда воспринимаются лучше. Согласитесь, «Как ускорить разработку модели в 10 раз» и «Как уволить 90% датасаентистов с помощью AutoML» воспринимается очень по разному, хоть и означает примерно одно и тоже…fediq
03.09.2018 00:10У Анастасии отличное название доклада — и провокационное, и по существу. А главное, в нем сразу видно, где деньги.
Уволить 90% кого-то и неистово сэкономить — это суперпозитивная формулировка.
Вся автоматизация, от ткацких станков до самоездящих повозок, делается именно ради этого. А если после автоматизации ещё и качество сервиса растёт — то это и деньги в квадрате, и шаг вперёд для человечества.dmitrybugaychenko Автор
03.09.2018 10:13-1«Вперед» или нет сильно зависит от того, куда Вы хотите придти. Конечно бороться с технологической безработицей попытками остановить развитие технологий безсмысленно, но и забывать про то, что за безликими цифрами стоят живые люди тоже нельзя. Радоваться тому что люди теряют работу достатоно странно, на мой взгляд. Хотите сделать акцент на деньги — назовите «Как сэкономить до 90% затрат на дата сайнс». А провокаций жизнь нам и так подкидывает не мало.
В развитых сообществах проблема технологической безработицы уже стоит в актуальной повестке дня и пока оптимальным вариантом решения считается поддержка трансфера лишающихся работы людей в новые области. А здесь ДС может очень много что предложить: и прямой трансфер через создание новых типов рабочих мест, например «МЛ-разметчик», и создание вторичных рабочих мест в около-ДС индустрии, и стимуляци развития трудоустройства по пир-ту-пир модели и много что еще. Так что, надеюсь, увидим мы и работы о том как ДС помог найти работу паре сотен тысяч человек — вот это будет заголовок.
Wfladimir
02.09.2018 02:25Общий раздрай в стране позволяет так некорректно и вызывающе вести себя муниципальным органам.
sha4
02.09.2018 03:47Так в итоге что, особенность российского data science в том, что не замазывают ФИО?
На яндекс.панорамах до сих пор не замазаны лица и номера машин, это тоже особенность data science?
Может, тема все-таки о персональных данных, а не о data science?
dmitrybugaychenko Автор
02.09.2018 10:31+1Да, незакрытые лица и номера на Яндексе это тоже особеность Российского дата сайнс (технически это реализовать, кстати, не то чтобы большая проблема). И дело тут в первую очередь в головах тех, кто с персональными данными работает, т.е. дата сайентистов.
DrPass
02.09.2018 12:11+1Не думаю что что-либо подобное могло произойти в странах с более зрелым Data Science на западе и, скорее всего, на востоке
Вы правы, произошедшее крайне неэтично, но проблема на самом деле в другой плоскости. В конце-концов посетители конференции по тематике Data Science — едва ли не последние люди, кого могут заинтересовать личные данные пациента. А вот корень этой проблемы в отсутствии дисциплины хранения приватных данных на местах, в предприятиях, которые их собирают, обрабатывают и используют. Вообще не должна была произойти ситуация, когда инженер-разработчик мог вот так просто взять лог с личными данными с продакшена и понести его на конференцию. Даже если он сам об этом не подумал (а что с нас, с ботаников, возьмёшь? ;-), то на предприятии должен быть специалист по защите данных, который этот вопрос контролирует и регулирует.dmitrybugaychenko Автор
02.09.2018 21:58Все правильно, для получения результата нужны все компоненты: и методы, и технологии, и процессы, и культура. Вообще вопрос о том как организовать работу дата сайентиста так, чтобы при этом он не мог нарушить приватность пока далек от хорошего решения, но международное сообщество активно работает в этом направлении (собственно о части полученных в это области результатов я рассказывал на мэйджоре и в постах-обзорах КДД).
rekzi
02.09.2018 16:32«Этично, не этично...»
За халатность нужно спрашивать, желательно с ощутимыми последствиями.dmitrybugaychenko Автор
02.09.2018 22:08Сложно что-то возразить… Но я идеалист и верю в превосходство просветительских мер над репресивными. Гораздо лучше постараться неприятность предотвратить чем потом искать (чаще читай назначать) и наказывать виновных.
buzzroll
02.09.2018 23:12Да и похер, нашли проблему. Можно подумать, там домашних адресов и паспортных данных пачку выложили. Еще нам не хватало этих кликуш «этичности» в науке.
IgorRJ
Это, конечно, же сильно — возмущаться раскрытием персональных данных и тут же самому их раскрывать. Теперь я знаю, что Кочеткова Ирина Александровна работает в означенной больнице, что она маммолог, что принимает по адресу такому-то.
«пока мы сами не повзрослеем и не начнем с уважением относится к тем людям, что доверили нам, часто даже неосознано, важную часть своей личной жизни» — пора взрослеть
dmitrybugaychenko Автор
Перед публикацией я само собой проверил что эта информация опубликована клиникой в открытом доступе: www.avaclinic.ru/doctors/kochetova-irina-aleksandrovna