Microsoft убрала из интернета свою базу данных на 10 миллионов лиц MS Celeb, пишет Financial Times. Фотографии под лицензией Creative Commons использовались для обучения систем распознавания лиц учёными со всего мира. К сожалению, среди них оказались военные подразделения и китайские фирмы SenseTime и Megvii, которые специализируются на разработке систем видеонаблюдения. Вероятно, это могло вызвать недовольство в высших эшелонах власти и породить обвинения в адрес IT-компании, которая якобы оказывает техническое содействие потенциальному врагу.

База данных MS Celeb вышла в 2016 году. Microsoft описывает её как крупнейший общедоступный набор данных распознавания лиц в мире, содержащий более 10 млн изображений почти 100 000 человек.

Фотографии людей использовались без согласия: их собирали в интернете из поисковых систем и видеороликов, опубликованных в соответствии с условиями лицензии Creative Commons, которая позволяет использование фотографий в научных целях.

Microsoft убрала базу данных вскоре после апрельской публикации статьи Financial Times о том, кто конкретно пользуется этими данными в неблаговидных целях. Компания сказала: «Сайт предназначен для научных целей. Он запущен сотрудником, который больше не работает с Microsoft, а теперь база удалена из публичного доступа».

После статьи FT из открытого доступа исчезли ещё два набора данных, включая Duke MTMC от университета Дьюка и набор данных Стэнфордского университета под названием Brainwash.

База Brainwash собрана из кадров камеры видеонаблюдения кафе Brainwash в Сан-Франциско. Представители Стэнфордского университета сказали, что убрали базу данных после просьбы одного из авторов исследования, для которого она использовалась.

Все три набора данных обнаружил в открытом доступе берлинский исследователь Адам Харви. На сайте Megapixels он публикует ссылки на десятки таких наборов данных, приводит детальную информацию об их составе и о том, как они используются. Например, набор данных MS Celeb использовали несколько коммерческих организаций, включая IBM, Panasonic, Alibaba, Nvidia, Hitachi, Sensetime и Megvii. Две последние — китайские поставщиками оборудования для государственной системы видеонаблюдения в Синьцзяне, где уйгуров и других мусульман содержат в лагерях для интернированных.

Исследование Харви показало, что Microsoft сама использовала набор данных для обучения алгоритмам распознавания лиц. Компания назвала набор данных MS Celeb с целью указания, что собранные фотографии — снимки общественных персон. Но на самом деле это далеко не так. Харви обнаружил, что набор данных включал многих людей, которые вряд ли ожидали себя увидеть в этой базе, в том числе журналистов, которые пишут на темы безопасности и Джули Брилл, бывшего комиссара FTC, ответственную за защиту приватности потребителей.

«Microsoft использовала термин „знаменитость”, чтобы включить в базу людей, которые просто работают в интернете и представлены здесь, — говорит Харви. — Многие люди в списке даже известные критики этой самой технологии, которую Microsoft разрабатывает, используя их биометрическую информацию».

«Я ни в коем случае не публичный человек и никоим образом не отказывался от своего права на сохранение конфиденциальности, — сказал Адам Гринфилд, журналист на тему IT и информационной безопасности, которого включили в набор данных. — Мне это говорит о глубоком непонимании [компанией Microsoft], что такое конфиденциальность».

Эксперты допускают, что Microsoft нарушила европейский закон GDPR, распространяя набор данных MS Celeb после вступления в силу GDPR в прошлом году. «Вероятно, они убрали базу, потому что их юристы выразили озабоченность, что у них нет оснований для обработки данных этой категории в соответствии со статьей 9 закона GDPR, — сказал Майкл Вил, исследователь технологической политики в Институте Алана Тьюринга. — Они могут не иметь права на обработку биометрических данных в целях „уникальной идентификации физического лица”… Особенно когда набор данных начали использовать не только в академических целях, но и для коммерческих продуктов. Есть основания полагать, что люди в наборе данных не могут рассматриваться как явно и чётко согласившиеся на обнародование своих лиц».

Microsoft заявила, что не знает о каких-либо последствиях GDPR, а сайт удалён в связи с завершением исследовательского проекта.

Хотя Microsoft убрала базу данных, она по-прежнему доступна исследователям и компаниям, которые скачали её раньше. Харви говорит, что набор данных по-прежнему используется и распространяется через другие источники: «Вы не можете заставить исчезнуть набор данных. Как только вы его опубликуете и люди его скачают, он существует на жёстких дисках по всему миру, — сказал он. — Теперь он полностью отделён от любых лицензий, правил или полномочий, которыми ранее владела Microsoft. Люди публикуют его на GitHub, размещают файлы на Dropbox и Baidu Cloud, поэтому нет никакого способа помешать людям публиковать эти данные и использовать в своих целях».

Комментарии (13)


  1. genuimous
    07.06.2019 13:05

    На стоках этих лиц 100500 тысяч штук по 5 баксов за пучок. Люди там давали согласие. И не лень же было выискивать на просторах интернета. МС чай не самая бедная компания.


    1. DrunkBear
      07.06.2019 13:15

      Одно дело — стоки, другое — подготовленный набор


      1. NetBUG
        07.06.2019 15:02
        +2

        Подготовленный, размеченный и в некоторых доработках прочищенный и нормализованный: github.com/JinRC/C-MS-Celeb

        Он создавался, чтобы можно было с нуля обучить некий движок (чаще всего свёрточные сети) находить «человека в общем случае», но можно и конкретных людей по нему отслеживать с точностью, приближающейся к 100% — в обучающей выборке они представлены сотнями примеров в любых трансформациях


  1. SergeyMax
    07.06.2019 14:27
    +7

    «Я ни в коем случае не публичный человек и никоим образом не отказывался от своего права на сохранение конфиденциальности, — сказал Адам Гринфилд, журналист на тему IT и информационной безопасности, которого включили в набор данных. — Мне это говорит о глубоком непонимании [компанией Microsoft], что такое конфиденциальность».
    А когда журналист на тему IT выкладывал свою фоточку в общедоступную соцсеть, и подписывал её своим именем, он точно глубоко понимал, что такое конфиденциальность?


    1. oracle_and_delphi
      07.06.2019 15:25

      Всего лишь!
      Я как-то наткнулся на интимные фотки выложенные самой девушкой в соцсеть…
      и поскольку девушка мне очень нравилась, то я себе эти фотки открытые ВСЕМ(!!!!!) скачал себе на телефон…
      девушка узнав об этом — была в ярости и обвинила меня в том, что я… их скачал с открытого доступа!
      ПЕСЕЦ! *фейспалм*

      Фотографии под лицензией Creative Commons

      Это означает, что с этими фотографиями с точки зрения закона об авторском праве — можно делать всё что угодно.


      1. furtaev
        07.06.2019 16:50
        +4

        Раньше если девушка нравилась — это было поводом познакомиться с ней, а не скачивать интимные фото на телефон.


        1. NoRegrets
          07.06.2019 17:04
          +2

          Это еще что, я вот помню времена, когда было не принято выкладывать свои интимные фото в интернет.


          1. DrunkBear
            07.06.2019 18:51
            +4

            Мне рассказывали, что в древности было стыдно делать такие фото, не то, что выкладывать.
            Врали наверное, что за слово такое — стыдно? /sarcasm


      1. MetromDouble
        07.06.2019 19:00
        +1

        К теме поста это не относится, но, вероятно, вы ей не очень нравились, а этот случай был неплохим предлогом для выражения её чувств. У девушек причудливая логика


  1. stazglaz
    07.06.2019 18:32

    вот реально, нет тебя в базе — не будет утечки перс данных


  1. Arepo
    07.06.2019 21:29
    +3

    Вспомним Барбару и скачаем отсюда.


    1. periskop
      08.06.2019 11:23

      В торренте одинаковые файлы
      samples_0.jpg
      samples_1.jpg
      samples_2.jpg


      и 2 файла
      84,8 ГБ FaceImageCroppedWithAlignment.tsv
      144 ГБ FaceImageCroppedWithOutAlignment.tsv


      Интересно, как это соотносится с https://web.archive.org/web/20181117001040/https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/


      1. Full ImageThumbnails data
        Two forms (data are the same)
        Compressed to one big zip File: 150GB, download, MD5
        Split to multiple 20GB files: File URL List, MD5
      2. cropped face images
        Two forms (data are the same)
        Compressed to one big zip File: 104GB, download, MD5
        Split to multiple 20GB files: File URL List, MD5
      3. Aligned face images
        Purpose: Faces are aligned by MSR’s algorithm, and meant to let participants directly train models if they don’t have face detector and alignment modules at hand. We will use the same alignment approach on DevSet and MeasurementSet.
        Two forms (data are the same)
        Compressed to one big zip File: 59GB, download, MD5
        Split to multiple 20GB files: File URL List, MD5


      1. Arepo
        08.06.2019 12:32

        Я не видел исходного набора, но в том, что я привёл по ссылке, все эти данные есть внутри *.tsv.


        Вот пример случайной строки из FaceImageCroppedWithAlignment.tsv:


        m.0107_f        27      http://images5.fanpop.com/image/photos/31100000/Magic-Mike-Stills-alex-pettyfer-31105833-398-596.jpg    http://www.appsdirectories.com/alex/alex-pettyfer-magic-14-alex-pettyfer-magic-15-alex-pettyfer-magic-16-.html  FaceId-0        4B7YPh1ziT2dSgo//XkVPg==        ИЗОБРАЖЕНИЕ_В_BASE64

        • Идентификатор "m.0107_f" из первого столбца грепается в наборе из https://github.com/PINTOFSTU/C-MS-Celeb.
        • В ячейке "ИЗОБРАЖЕНИЕ В BASE64" — JPEG с вырезанным лицом из фото по указанной ссылке. Только лицо и больше ничего.

        Строк в этом файле что-то около 8М (точное число не сохранил, сейчас пересчитаю, но это не быстро), так что похоже, что это самые что ни на есть исходные данные, возможно в чуть изменённом формате.