Популярный украинский сервис такси Uklon регулярно устраивает розыгрыши среди своих водителей и клиентов. По результатам каждого розыгрыша они публикуют на свою facebook страницу видео с контактными данными участников: имя и адрес электронной почты (пример, видео удалили). Фрагмент кадра:


В оригинальном видео адреса не размыты, их для статьи размыл я, чтобы не распространять эти данные дальше. На мое письмо в их поддержку, что это не очень хорошая идея:
Добрый день!
Нельзя в видео (ссылка) выкладывать адреса и имена людей.
1. Во-первых, ваши конкуренты могут получить список ваших клиентов и водителей
2. Во-вторых, вы нарушаете закон Украины про доступ к персональным данным

Они ответили, что им все равно:
Здравствуйте, Денис, при регистрации каждый пользователь дает согласие на использование его персональных данных uklon.com.ua/document/useragreement — пункт 2.6. Большое спасибо за ваш отзыв.

Поэтому я решил написать небольшой пост, как можно получить контактные данные с видео, не используя какие-то специальные умения. Дисклаймер: этот пост носит образовательный характер, и демонстрирует как не стоит обращаться с данными клиентов.

1. Скачиваем видео


Есть много сервисов для скачивания видео с facebook. Я воспользовался http://www.fbdown.net/, он дает прямую ссылку на видео. Все последующие примеры будут на Убунте, но должны аналогично работать и в других ОС.

2. Разбиваем на кадры


В исходном видео список контактов показан в первых 17 секундах видео. С помощью ffmpeg мы сохраняем первые 17 секунд видео, как последовательность png изображений:

$ ffmpeg -i video.mp4 -t 00:00:17 out%d.png

3. Подготавливаем к OCR


Для распознавания мы будем использовать свободный OCR tesseract. Который довольно неплохо работает, но чувствителен к качеству исходных изображений.

Обрежем все лишнее используя ImageMagick
с кадров (начиная с координат 40, 202 и размеров 345x421).

convert '*.png[345x421+40+202]' thumbnail%03d.png

Должно получиться как на картинке справа, без размытия конечно же.

Tesseract плохо определяет небольшие буквы, поэтому в его мануале рекомендуют просто увеличить скриншоты в 2-3 раза:

convert thumbnail*.png -filter Lanczos -resize 300% final%d.png

4. Распознавание


Приходимся по всем файлам и распознаем. Ключом -psm 4 мы указываем, что хотим чтобы tesseract воспринимал текст как одну колонку. А ключом load_system_dawg=0, что не надо использовать словари при распознавании:

for i in final*.png; do tesseract $i stdout -psm 4 -l eng+rus -c load_system_dawg=0; done > text.txt

Удаляем дубликаты — и наша база готова:

sort -u text.txt > uniq.txt

Выводы


В результате работы в базе довольно много ошибок. И есть два варианта улучшения:

  • использовать коммерческие OCR;
  • настроить шаблоны для tesseract, чтобы он знал, что мы распознаем адреса электронной почты.

В любом случае цель статьи было показать не качество распознавания, а принципиальную возможность сделать это быстро и с минимальными ресурсами.

Update: Законность действий сервиса


В 2012 глава Государственной службы Украины по вопросам защиты персональных данных давал комментарий, что даже база электронных адресов попадает под действия Закона Украины «О защите персональных данных». И соответственно публикация таких данных может повлечь за собой административную или уголовную ответственность. (источник, укр.)

Update 2: Комментарии сервиса


Сервис ответил на мою статью, что не считает базу электронных адресов персональными данными:
Здравствуйте, Денис, мы прочли вашу статью. Персональные данные – сведения или совокупность сведений о физическом лице, которое идентифицировано или может быть конкретно идентифицировано; Это сведения, по которым можно идентифицировать физическое лицо. К таким сведениям относятся фамилия, имя, отчество; дата и место рождения, адрес и телефон; идентификационный код; паспортные данные; документы об образовании и другое.


Update 3: Сервис удалил видео с контактами со своей страницы


Это, как мне кажется, правильное решение с их стороны:
Добрый день, по причине беспокойства пользователей о безопасности своих персональных данных, команда онлайн сервиса вызова авто “Uklon”, приняла решение о размещении не всей информации об участнике (победителе) акции, а именно, размещать только Ф.И.О. победителей в дальнейших розыгрышах.
Напомним, что ранее мы публиковали имя или никнейм и электронную почту пользователя в программе random.org.
При этом хотим отметить, что принимая участие в акции, пользователь соглашается на использование и публикацию его персональных данных,
согласно Правилам акции, которые всегда размещаются на официальном сайте Уклон, и условия которых принимают все участники акции, говориться, что каждый Участник Акции свидетельствует и подтверждает, что ознакомлен с правами, которые касаются его персональных данных, а также с тем, что его добровольно предоставленные персональные данные являются согласием на их обработку и распространение (распространение) Организатором / Исполнителем Акции по своему усмотрению любыми способами с маркетинговой, рекламной и / или любой другой целью, не противоречащей законодательству Украины. Указанное согласие дано с учетом требований ст.7, ст. 8 и ст. 11 Закона Украины «О защите персональных данных» и действует бессрочно и без ограничения территории действия.
Поделиться с друзьями
-->

Комментарии (41)


  1. SirEdvin
    09.12.2016 15:36
    +6

    2.6. Обязуясь выполнять требования данного Соглашения, Пользователь дает свое полное, безусловное и безотзывное согласие на использование его персональных данных, предоставленных в рамках регистрации на Портале, для включения таких персональных данных в базу персональных данных Пользователей Портала.

    Если я не ошибаюсь, эти вещи так не работают)


    1. MonkAlex
      09.12.2016 15:40

      Ну, в РФ нельзя выкладывать персональные данные в общий доступ, ибо право на обработку запрашивается, а не на публикацию. А вот как там на Украине — я без понятия.


      1. NorthDakota
        09.12.2016 15:49
        +1

        У нас так же. Мне кажется просто девочка которая отвечала на письмо в этом вопросе полный ноль. Или же это политика компании


      1. Germanets
        09.12.2016 15:54
        +1

        Ну да, сработать не должно. Но есть другой вопрос — а являются ли указанные данные — имя и e-mail персональными данными, или нет, именно с точки зрения закона?
        Насколько я понимаю — очень большое количество форумов отображают и то и другое(да ещё и с датой рождения) в профиле пользователя.


        1. MonkAlex
          09.12.2016 16:15

          Закон весьма обтекаемо это описывает. Лучше рассчитывать на худший вариант и считать что да, эти данные являются ПД.


        1. LoadRunner
          09.12.2016 16:46

          На нормальных форумах по умолчанию это не отображается и пользователь сам должен выставить переключатель в «отображать».


        1. PatapSmile
          09.12.2016 17:22

          Попадает. Добавил в пост комментарий по этому поводу.


          1. Dreyk
            09.12.2016 18:47

            а есть ли у нас какой-то орган, в который можно пожаловаться? Было бы интересно попробовать ради интереса


            1. PatapSmile
              09.12.2016 19:03
              +2

              Уполномоченный по правам человека:

              Стаття 23 Повноваження Уповноваженого Верховної Ради України з прав людини у сфері захисту персональних даних

              1. Уповноважений має такі повноваження у сфері захисту персональних даних:

              1) отримувати пропозиції, скарги та інші звернення фізичних і юридичних осіб з питань захисту персональних даних та приймати рішення за результатами їх розгляду;

              2) проводити на підставі звернень або за власною ініціативою виїзні та безвиїзні, планові, позапланові перевірки володільців або розпорядників персональних даних в порядку, визначеному Уповноваженим, із забезпеченням відповідно до закону доступу до приміщень, де здійснюється обробка персональних даних;


              1. monah_tuk
                10.12.2016 04:03
                +1

                У меня хоть по бабушкиной линии корни в/на Украину уходят, но мову не понимаю, можно перевод, пожалуйста?


                1. PatapSmile
                  10.12.2016 11:48

                  Жаловаться можно уполномоченному по правам человека. А он/она уже может на основании жалобы инициировать проверку.


                1. d1mk0
                  16.12.2016 12:51

                  Я заметил, гугл-транслейт весьма недурственно справляется с переводом с украинского на русский.


    1. Uzbadus
      09.12.2016 17:50

      Не ошибаешься, согласно закону, гражданин имеет право потребовать информации о том где храняться его персональные данные, а также потребовать, чтобы они были удалены. «безотзывное согласие на использование его персональных данных» — это конечно же полная туфта.


  1. phoenixweiss
    09.12.2016 15:45
    +2

    в РФ бы прокуратура по первому же обращению лавочку прикрыла.


    1. Dreyk
      09.12.2016 16:12

      вот да, в Украине как-то еще не развилась такая практика, есть чему поучиться


    1. and7ey
      09.12.2016 20:38
      +1

      Вы пробовали? Роскомнадзору и Прокуратуре РФ абсолютно все равно на ваши жалобы про нарушение Закона о ПД.


      1. phoenixweiss
        12.12.2016 04:25
        +1

        Был опыт оказываться с обоих сторон баррикад. Пару лет проработал помощником ректора при институте, поверьте, сейчас наши госорганы работают совсем иначе чем лет 5-10 назад. Это касается и трудовой инспекции, и прокураторы, и минобра, и даже роском однажды пару ультимативных писем написал от которых не открестишься.
        Обычно по первому обращению какой-нибудь «Машеньки» сначала требуют объясниться в течение стольки-то дней почему мол такая-то фигня, и чуть что не так — приезжают. Связано с тем что планы всем надо выполнять и перед начальством отчитываться.
        Сейчас чуть что где кому не понравилось обычно в первую очередь скандалисты прокуратурой пугают. К счастью, в последней и хорошие люди работают, кто не рубит с плеча лишь бы палку набить.


  1. D4rkC4T
    09.12.2016 15:54
    -4

    image


  1. Gorodnya
    09.12.2016 16:03
    +5

    Мне другое больше «нравится»: на одном платёжном сервисе есть возможность пополнить счёт водителя Uklon-а, указав свой позывной. Позывной — число, значит, как-никак перебирается. Например, порядковый номер «1»:



    На следующем шаге видно сумму баланса этого водителя:



    Другой платёжный сервис раньше по этому позывном не показывал баланс, зато показывал полностью ФИО водителя (сейчас только имя, без фамилии и отчества):




    Таким образом, на одном платёжном сервисе можно получить ФИО, а на втором — сумму баланса водителя Uklon-а.

    Так что, имхо, Uklon отдаёт данные не только о своих клиентах направо-налево (достаточно почитать форумы/соцсети, где люди пишут про то, что после использования этого такси их начал приходить СМС-спам), а и о своих водителях.


    1. YmNIK_13
      10.12.2016 17:18

      Приват, вроде отслеживает незавершенные платежи и блокирует этот сервис, так что много не соберешь.


      1. Gorodnya
        10.12.2016 17:51

        Да, как и EasyPay просит ввести капчу после нескольких таких действий. Но суть в другом: одним Uklon отдаёт баланс, другим — ФИО (уже исправлено, только имя).


  1. nitrocaster
    09.12.2016 16:20
    -3

    Сначала вы пишете, что tesseract довольно неплохо работает, а потом оказывается, что в результате работы в базе довольно много ошибок. Скорее довольно плохо работает.


  1. Ockonal
    09.12.2016 17:17
    +9

    Надеюсь, они умрут скоро. Сидели жирной жопой на стуле, торговали базой, набирали в штат кого попало. Как только пришел убер, хопин, яндекс, сраз начали шевелиться, но поздно уже.


    1. deeptowncitizen
      10.12.2016 11:46

      вас ведь никто не заставляет пользоваться сервисом, или в убере выбирать машины классом повыше.
      а вот как вы в убере вызываете микроавтобус, чтобы уехать 5+? Что делаете, когда «машин поблизости нет»? Или когда 30-50% адресов некорректно распознается. или когда водитель везет неоптимальным маршрутом и ловит все пробки (а потом пиши-строчи, чтобы проанализировали и вернули деньги). а уклон все эти проблемы решил «из-коробки».
      в убере забит адрес «Дом» — центр города. После 3-5 обращений не осилили пофиксить баг, из-за которого не сохраняется номер дома, а машина приезжать хз куда.
      но для каждой задачи подходит свой инструмент. если нужно быстро и сейчас любой ценой (и если рядом есть машина) — здесь убер выигрывает. если ездишь по крупным город по разным странам — выигрывает, т.к. пользуешься той же картой и тем же приложением (и можно карты на страны назначать). и быдлить водитель вряд ли будет, т.к. кошельком реально отвечает.
      свои плюсы и минусы в общем.


      1. romy4
        11.12.2016 22:24
        +1

        Никто не заставляет, конечно, но эти «резиновые изделия №2» конкретно задолбали продавая базу своих пользователей для массового спаминга.


      1. ArjLover
        17.12.2016 17:07

        В Киеве гугл-карты реально тупят и убер тут страдает за них… А все остальное будет — и минивэны и блэк… Просто не все сразу.


        1. deeptowncitizen
          17.12.2016 18:01

          В Киеве яндекс карты у убера. При чем по заявлению водителей они лучше гугловских. И все правки очень оперативно вносятся.
          Но оно сырое очень. А что значит "будет"? Я по северной Европе поездил и отличий вообще не заметил. Опции те же. Израиль — то же самое


          1. ArjLover
            19.12.2016 05:32

            В Израиле убер в замоченном состоянии — родина gett. В каждой стране свой набор опций. Не везде его дружелюбно встречают и не везде демократии хватает.


  1. compilator
    09.12.2016 18:07

    «1. Во-первых, ваши конкуренты могут получить список ваших клиентов и водителей
    2. Во-вторых, вы нарушаете закон Украины про доступ к персональным данным»

    Второй пункт должен был бы первым идти )


    1. mixaly4
      09.12.2016 18:39
      +1

      на коммерческую компанию первый пункт, имхо, должен оказывать большее воздействие


      1. kprohorow
        10.12.2016 11:46

        Ukrainian reversal.


  1. vsespb
    09.12.2016 22:06
    +1

    Да ладно, тут всем юзерам некого интернет магазина сменили пароль на название этого магазина и разоспали всем email типа «заходите за скидками». А на очевидный вопрос что любой может зайти в любой ЛК и узнать ФИО в этом ЛК, просто не ответили.


  1. datacompboy
    10.12.2016 02:12
    +1

    нет понятия «криминальная ответственность». есть «уголовная».


    1. porutchik
      10.12.2016 10:30
      +4

      «криминальная ответственность» — это когда братки в кожаных куртках приходят :-)


    1. PatapSmile
      10.12.2016 11:52

      Спасибо, исправил.


  1. NoRegrets
    10.12.2016 11:46

    То что они свои солонки клиенскую базу и водителей сливают, это правда, но это их проблемы. А вот по поводу персоданных, я бы не согласился. Почтовый ящик с именем — это не персоданные, имхо. Они не позволяют точно сказать кто такой этот вася vasya023@nomail.com. Или в Украине это относится к персоданным?


  1. setevoy4
    10.12.2016 11:47

    Ох-ох-ох… Спасибо вам огромное. Давно и часто пользуюсь этим сервисом — пока видел в нём только плюсы — удобный сайт, всегда есть машины (если не из центра в час пик), вообще развиваются — молодцы и т.д.
    Оказывается — всё совсем печально… Буду рассказывать и водителям — может они Uklon со своей стороны тоже напрягать начнут (действительно часто езжу).


  1. w4r_dr1v3r
    10.12.2016 11:47
    -3

    Сработано по принципу «святая простота». Мне одному кажется, что у них там началась своеобразная «перестройка» с запаздыванием на -дцать лет относительно РФ?


  1. Provision
    10.12.2016 11:47

    А тут еще больше ифны о том как они базы дальше сливают и спам шлют: https://www.facebook.com/story.php?story_fbid=1743357895915990&id=100007253897909


    1. setevoy4
      10.12.2016 12:06
      +1

      Увы:
      > Sorry, this page isn't available
      > The link you followed may be broken, or the page may have been removed.
      Только у меня так?


  1. ftdgoodluck
    12.12.2016 17:06

    Меня дико бесило их ценообразование и политика распределения заказов, при которой водитель сам выбирает, ехать ему или нет. Для тех, кто не в курсе: когда ты выбираешь пункт подачи и назначения, приложение показывает базовый тариф, но фишка в том, что за этот тариф вы скорее всего никуда не уедете, поэтому там есть специальное поле для увеличения цены, которое «простимулирует» водителя взять ваш заказ. В итоге а это лето я 3 раза попадал в ситуацию, когда ни за какие деньги не мог уехать.

    И это не считая уродского интерфейса, хреновых водителей, хреновых машин и постоянного отсутствия у них сдачи.

    P.S.: Уклон это сокращение от «Убер клон», кстати)