Сегодня на Moscow Data Science Major рассказывал про приватность, этичный Data Science, и много интересных технических новинок. Люди внимательно слушали, задавали вопросы, благодарили. Но то что произошло потом было очень показательно. Об этом под катом.

А потом был доклад про новые Российские наработки по НЛП с вот этим вот слайдом.



Единственная поправка, которую я внес в него публикуя здесь — серые поля, закрывшие имя, фамилию, очество и адрес живого человека. Человека, чьи персональные данные данные и врачебная тайна были так спокойно и буднично расскрыты перед тысячей человек, не обременненых никакими соглашениями о неразглашении.

И самое страшное даже не в том, что при этом был нарушен целый ряд федеральных законов (№ 323 статья 13 и №152 как минимум). Самое страшное, на мой взгляд, в том, что почти никто не увидел в этом ничего неожиданного и нехорошего…

Мне очень хочется верить, что я не прав, и автор изменил имена и адрес этого человека, но вероятность этого мала — и клиника, и упомянутый врач реально существуют и работают в Санкт-Петербурге. И на этом слайде по чистой случайности не оказались записи МОИХ разговоров с операторами этой очень популярной в Петербурге клиники…

Не думаю что что-либо подобное могло произойти в странах с более зрелым Data Science на западе и, скорее всего, на востоке. И никакие даже самые современные методы и технологии не смогут нам помочь, пока мы сами не повзрослеем и не начнем с уважением относится к тем людям, что доверили нам, часто даже неосознано, важную часть своей личной жизни…

Комментарии (24)


  1. IgorRJ
    01.09.2018 23:01
    -1

    Это, конечно, же сильно — возмущаться раскрытием персональных данных и тут же самому их раскрывать. Теперь я знаю, что Кочеткова Ирина Александровна работает в означенной больнице, что она маммолог, что принимает по адресу такому-то.
    «пока мы сами не повзрослеем и не начнем с уважением относится к тем людям, что доверили нам, часто даже неосознано, важную часть своей личной жизни» — пора взрослеть


    1. dmitrybugaychenko Автор
      01.09.2018 23:04
      +3

      Перед публикацией я само собой проверил что эта информация опубликована клиникой в открытом доступе: www.avaclinic.ru/doctors/kochetova-irina-aleksandrovna


  1. like_the_sun
    01.09.2018 23:05

    Очень полезно и правильно вы указали на недочет(=серьезная ошибка) спикера.
    Но моё имхо, что такое лучше писать личным сообщением автору, с дальнейшей просьбой написать пост для передачи отрицательного опыта, может с извинениями, с ссылкой на вас.

    А так же вопрос к компаниям, которые передали записи разговоров для обучения — имели ли они право передавать(а не только записывать) их, без обезличивания.


    1. dmitrybugaychenko Автор
      01.09.2018 23:07
      +3

      В целом справедливо. Но мое намерение в данном случае не обвинить спикера (его имени здесь даже нет), а донести до сообщества важность отслеживания таких кейсов в своих публичных презентациях.


  1. Kroid
    01.09.2018 23:37
    -2

    Это, конечно, верно. Не стоит нарушать законы, даже в малом. Но, заходя под кат, я ожидал чего-то более серьезного, чем «обожемой, теперь несколько программистов дата сайентистов знают, как зовут одну рандомную тетку, попытавшуюся записаться к врачу».

    И, просто чтобы быть последовательным — а вы проверяли, действительно ли это персональные данные, или же они псевдо-персональные, когда при подготовке слайда имя/фамилию звонящей в тексте заменили на случайные?)

    Статью следовало бы назвать «особенности русской небрежности», потому что такое творится не только в дата сайенс. Хотя, в общем-то, от национальности это не слишком уж зависит.


    1. dmitrybugaychenko Автор
      02.09.2018 00:04
      +1

      Обычно о том что данные были откорректированны перед пбликацией всегда говорят явно, здесь такого не было. И, как я уже сказал, буду очень рад если ошибусь и имена были откорректированны.

      Ну а то, что нас часто не волнуют те самые «рандомные тетки», данные которых мы анализируем, и то что мы не видим ничего страшного в расскрытии этих данных, это, имхо, очень и очень грустно…


      1. Porohovnik
        02.09.2018 00:31

        А слово, тест, перед "Леночка" вас не смутило? Мне кажется, что оно там не случайно, ибо остальной текст с ним вообще не связан…
        Так что это очень напоминает специальный разговор для тестирования сотрудников(например узнать как они отвечают клиентам по телефону)


        1. dmitrybugaychenko Автор
          02.09.2018 01:41

          Да, я обращал внимание на это слово, но оно может быть и артефактом спич-то-текста, а автор при рассказе никак не отразил этот момент. Но это даже не главное — у меня нет намерения обвинять в чем-то автора. Появись такой слайд на том же КДД — ахнуло бы ползала, а у нас среагировали единицы, ни один из задающих вопросы не попробовал уточнить этот момент (я пытался, но организатор с микрофоном так и не добрался до нашего ряда). Основная проблема ведь не в этом конкретном слайде, а в том что лекгомысленное отношение к данным для нашего сообщества является практически нормой и именно с этим надо бороться.


  1. Agnos
    02.09.2018 01:41

    Paranoia mode/>
    На самом деле это всё (статья) партизанский маркетинг или продакт плейсмент для услуг клиники, врача или MIL, а возмущение раскрытием данных только предлог
    <paranoia mode

    А если серьёзно, ожидал увидеть статью подлинее и содержательней. Хотя тема и актуальная.


    1. dmitrybugaychenko Автор
      02.09.2018 01:45

      Долго думал над заголовком, итог получился немного «читерский», но как иначе привлечь внимание к теме?.. Статью подлиннее и содержательнее постараюсь организовать.


  1. YaNastya
    02.09.2018 02:20
    +1

    Спасибо, что обратили внимание на такой очевидный косяк.


    Сразу отмечу, что данные здесь были полу-обезличенными — в датасете ФИО клиентов заменялись на рандомные. С адресами клиник никто не парился, никакой конфиденциальной информации в адресе клиники нет.


    Впрочем, заблюрить все фамилии и адрес клиники — самое правильное решение, которое не вызвало бы неприятного осадка у части (пусть и небольшой) аудитории. В аналогичном кейсе на одном из следующих слайдов абсолютно вся личная информация клиента (номер телефона, ФИО, даже адрес магазина) замазаны. Чтобы избежать разрастания дискуссии из-за банальной небрежности, мы добавили серых прямоугольников на слайд, скриншот которого есть в этой статье, и перезалили слайды в гугл-диск с материалами :)


    На будущее было бы клево сначала выяснять у автора вопросы про обезличенность данных, а уже потом оформлять справедливое недовольство в статью.


    1. dmitrybugaychenko Автор
      02.09.2018 10:28

      Спасибо большое за разъяснения! Снова подчеркну — не имел цели обвинить в чем-то автора. Именно тот факт, что странность заметила лишь малая часть аудитории расстраивает куда как больше чем сам слайд…

      Еще, на мой взгляд, можно было бы улучшить название — позитивные формулировки всегда воспринимаются лучше. Согласитесь, «Как ускорить разработку модели в 10 раз» и «Как уволить 90% датасаентистов с помощью AutoML» воспринимается очень по разному, хоть и означает примерно одно и тоже…


      1. YaNastya
        02.09.2018 12:22
        +1

        Да, разумное замечание.
        Учту :)


      1. fediq
        03.09.2018 00:10

        У Анастасии отличное название доклада — и провокационное, и по существу. А главное, в нем сразу видно, где деньги.

        Уволить 90% кого-то и неистово сэкономить — это суперпозитивная формулировка.
        Вся автоматизация, от ткацких станков до самоездящих повозок, делается именно ради этого. А если после автоматизации ещё и качество сервиса растёт — то это и деньги в квадрате, и шаг вперёд для человечества.


        1. dmitrybugaychenko Автор
          03.09.2018 10:13
          -1

          «Вперед» или нет сильно зависит от того, куда Вы хотите придти. Конечно бороться с технологической безработицей попытками остановить развитие технологий безсмысленно, но и забывать про то, что за безликими цифрами стоят живые люди тоже нельзя. Радоваться тому что люди теряют работу достатоно странно, на мой взгляд. Хотите сделать акцент на деньги — назовите «Как сэкономить до 90% затрат на дата сайнс». А провокаций жизнь нам и так подкидывает не мало.

          В развитых сообществах проблема технологической безработицы уже стоит в актуальной повестке дня и пока оптимальным вариантом решения считается поддержка трансфера лишающихся работы людей в новые области. А здесь ДС может очень много что предложить: и прямой трансфер через создание новых типов рабочих мест, например «МЛ-разметчик», и создание вторичных рабочих мест в около-ДС индустрии, и стимуляци развития трудоустройства по пир-ту-пир модели и много что еще. Так что, надеюсь, увидим мы и работы о том как ДС помог найти работу паре сотен тысяч человек — вот это будет заголовок.


  1. Wfladimir
    02.09.2018 02:25

    Общий раздрай в стране позволяет так некорректно и вызывающе вести себя муниципальным органам.


  1. sha4
    02.09.2018 03:47

    Так в итоге что, особенность российского data science в том, что не замазывают ФИО?


    На яндекс.панорамах до сих пор не замазаны лица и номера машин, это тоже особенность data science?


    Может, тема все-таки о персональных данных, а не о data science?


    1. dmitrybugaychenko Автор
      02.09.2018 10:31
      +1

      Да, незакрытые лица и номера на Яндексе это тоже особеность Российского дата сайнс (технически это реализовать, кстати, не то чтобы большая проблема). И дело тут в первую очередь в головах тех, кто с персональными данными работает, т.е. дата сайентистов.


  1. DrPass
    02.09.2018 12:11
    +1

    Не думаю что что-либо подобное могло произойти в странах с более зрелым Data Science на западе и, скорее всего, на востоке

    Вы правы, произошедшее крайне неэтично, но проблема на самом деле в другой плоскости. В конце-концов посетители конференции по тематике Data Science — едва ли не последние люди, кого могут заинтересовать личные данные пациента. А вот корень этой проблемы в отсутствии дисциплины хранения приватных данных на местах, в предприятиях, которые их собирают, обрабатывают и используют. Вообще не должна была произойти ситуация, когда инженер-разработчик мог вот так просто взять лог с личными данными с продакшена и понести его на конференцию. Даже если он сам об этом не подумал (а что с нас, с ботаников, возьмёшь? ;-), то на предприятии должен быть специалист по защите данных, который этот вопрос контролирует и регулирует.


    1. dmitrybugaychenko Автор
      02.09.2018 21:58

      Все правильно, для получения результата нужны все компоненты: и методы, и технологии, и процессы, и культура. Вообще вопрос о том как организовать работу дата сайентиста так, чтобы при этом он не мог нарушить приватность пока далек от хорошего решения, но международное сообщество активно работает в этом направлении (собственно о части полученных в это области результатов я рассказывал на мэйджоре и в постах-обзорах КДД).


  1. rekzi
    02.09.2018 16:32

    «Этично, не этично...»
    За халатность нужно спрашивать, желательно с ощутимыми последствиями.


    1. dmitrybugaychenko Автор
      02.09.2018 22:08

      Сложно что-то возразить… Но я идеалист и верю в превосходство просветительских мер над репресивными. Гораздо лучше постараться неприятность предотвратить чем потом искать (чаще читай назначать) и наказывать виновных.


  1. buzzroll
    02.09.2018 23:12

    Да и похер, нашли проблему. Можно подумать, там домашних адресов и паспортных данных пачку выложили. Еще нам не хватало этих кликуш «этичности» в науке.


    1. dmitrybugaychenko Автор
      03.09.2018 10:14

      Похоже что действительно нашли :(