В оригинальном видео адреса не размыты, их для статьи размыл я, чтобы не распространять эти данные дальше. На мое письмо в их поддержку, что это не очень хорошая идея:
Добрый день!
Нельзя в видео (ссылка) выкладывать адреса и имена людей.
1. Во-первых, ваши конкуренты могут получить список ваших клиентов и водителей
2. Во-вторых, вы нарушаете закон Украины про доступ к персональным данным
Они ответили, что им все равно:
Здравствуйте, Денис, при регистрации каждый пользователь дает согласие на использование его персональных данных uklon.com.ua/document/useragreement — пункт 2.6. Большое спасибо за ваш отзыв.
Поэтому я решил написать небольшой пост, как можно получить контактные данные с видео, не используя какие-то специальные умения. Дисклаймер: этот пост носит образовательный характер, и демонстрирует как не стоит обращаться с данными клиентов.
1. Скачиваем видео
Есть много сервисов для скачивания видео с facebook. Я воспользовался http://www.fbdown.net/, он дает прямую ссылку на видео. Все последующие примеры будут на Убунте, но должны аналогично работать и в других ОС.
2. Разбиваем на кадры
В исходном видео список контактов показан в первых 17 секундах видео. С помощью ffmpeg мы сохраняем первые 17 секунд видео, как последовательность png изображений:
$ ffmpeg -i video.mp4 -t 00:00:17 out%d.png
3. Подготавливаем к OCR
Для распознавания мы будем использовать свободный OCR tesseract. Который довольно неплохо работает, но чувствителен к качеству исходных изображений.
Обрежем все лишнее используя ImageMagick
с кадров (начиная с координат 40, 202 и размеров 345x421).
convert '*.png[345x421+40+202]' thumbnail%03d.png
Должно получиться как на картинке справа, без размытия конечно же.
Tesseract плохо определяет небольшие буквы, поэтому в его мануале рекомендуют просто увеличить скриншоты в 2-3 раза:
convert thumbnail*.png -filter Lanczos -resize 300% final%d.png
4. Распознавание
Приходимся по всем файлам и распознаем. Ключом -psm 4 мы указываем, что хотим чтобы tesseract воспринимал текст как одну колонку. А ключом load_system_dawg=0, что не надо использовать словари при распознавании:
for i in final*.png; do tesseract $i stdout -psm 4 -l eng+rus -c load_system_dawg=0; done > text.txt
Удаляем дубликаты — и наша база готова:
sort -u text.txt > uniq.txt
Выводы
В результате работы в базе довольно много ошибок. И есть два варианта улучшения:
- использовать коммерческие OCR;
- настроить шаблоны для tesseract, чтобы он знал, что мы распознаем адреса электронной почты.
В любом случае цель статьи было показать не качество распознавания, а принципиальную возможность сделать это быстро и с минимальными ресурсами.
Update: Законность действий сервиса
В 2012 глава Государственной службы Украины по вопросам защиты персональных данных давал комментарий, что даже база электронных адресов попадает под действия Закона Украины «О защите персональных данных». И соответственно публикация таких данных может повлечь за собой административную или уголовную ответственность. (источник, укр.)
Update 2: Комментарии сервиса
Сервис ответил на мою статью, что не считает базу электронных адресов персональными данными:
Здравствуйте, Денис, мы прочли вашу статью. Персональные данные – сведения или совокупность сведений о физическом лице, которое идентифицировано или может быть конкретно идентифицировано; Это сведения, по которым можно идентифицировать физическое лицо. К таким сведениям относятся фамилия, имя, отчество; дата и место рождения, адрес и телефон; идентификационный код; паспортные данные; документы об образовании и другое.
Update 3: Сервис удалил видео с контактами со своей страницы
Это, как мне кажется, правильное решение с их стороны:
Добрый день, по причине беспокойства пользователей о безопасности своих персональных данных, команда онлайн сервиса вызова авто “Uklon”, приняла решение о размещении не всей информации об участнике (победителе) акции, а именно, размещать только Ф.И.О. победителей в дальнейших розыгрышах.
Напомним, что ранее мы публиковали имя или никнейм и электронную почту пользователя в программе random.org.
При этом хотим отметить, что принимая участие в акции, пользователь соглашается на использование и публикацию его персональных данных,
согласно Правилам акции, которые всегда размещаются на официальном сайте Уклон, и условия которых принимают все участники акции, говориться, что каждый Участник Акции свидетельствует и подтверждает, что ознакомлен с правами, которые касаются его персональных данных, а также с тем, что его добровольно предоставленные персональные данные являются согласием на их обработку и распространение (распространение) Организатором / Исполнителем Акции по своему усмотрению любыми способами с маркетинговой, рекламной и / или любой другой целью, не противоречащей законодательству Украины. Указанное согласие дано с учетом требований ст.7, ст. 8 и ст. 11 Закона Украины «О защите персональных данных» и действует бессрочно и без ограничения территории действия.
Комментарии (41)
phoenixweiss
09.12.2016 15:45+2в РФ бы прокуратура по первому же обращению лавочку прикрыла.
and7ey
09.12.2016 20:38+1Вы пробовали? Роскомнадзору и Прокуратуре РФ абсолютно все равно на ваши жалобы про нарушение Закона о ПД.
phoenixweiss
12.12.2016 04:25+1Был опыт оказываться с обоих сторон баррикад. Пару лет проработал помощником ректора при институте, поверьте, сейчас наши госорганы работают совсем иначе чем лет 5-10 назад. Это касается и трудовой инспекции, и прокураторы, и минобра, и даже роском однажды пару ультимативных писем написал от которых не открестишься.
Обычно по первому обращению какой-нибудь «Машеньки» сначала требуют объясниться в течение стольки-то дней почему мол такая-то фигня, и чуть что не так — приезжают. Связано с тем что планы всем надо выполнять и перед начальством отчитываться.
Сейчас чуть что где кому не понравилось обычно в первую очередь скандалисты прокуратурой пугают. К счастью, в последней и хорошие люди работают, кто не рубит с плеча лишь бы палку набить.
Gorodnya
09.12.2016 16:03+5Мне другое больше «нравится»: на одном платёжном сервисе есть возможность пополнить счёт водителя Uklon-а, указав свой позывной. Позывной — число, значит, как-никак перебирается. Например, порядковый номер «1»:
На следующем шаге видно сумму баланса этого водителя:
Другой платёжный сервис раньше по этому позывном не показывал баланс, зато показывал полностью ФИО водителя (сейчас только имя, без фамилии и отчества):
Таким образом, на одном платёжном сервисе можно получить ФИО, а на втором — сумму баланса водителя Uklon-а.
Так что, имхо, Uklon отдаёт данные не только о своих клиентах направо-налево (достаточно почитать форумы/соцсети, где люди пишут про то, что после использования этого такси их начал приходить СМС-спам), а и о своих водителях.YmNIK_13
10.12.2016 17:18Приват, вроде отслеживает незавершенные платежи и блокирует этот сервис, так что много не соберешь.
Gorodnya
10.12.2016 17:51Да, как и EasyPay просит ввести капчу после нескольких таких действий. Но суть в другом: одним Uklon отдаёт баланс, другим — ФИО (уже исправлено, только имя).
nitrocaster
09.12.2016 16:20-3Сначала вы пишете, что tesseract довольно неплохо работает, а потом оказывается, что в результате работы в базе довольно много ошибок. Скорее довольно плохо работает.
Ockonal
09.12.2016 17:17+9Надеюсь, они умрут скоро. Сидели жирной жопой на стуле, торговали базой, набирали в штат кого попало. Как только пришел убер, хопин, яндекс, сраз начали шевелиться, но поздно уже.
deeptowncitizen
10.12.2016 11:46вас ведь никто не заставляет пользоваться сервисом, или в убере выбирать машины классом повыше.
а вот как вы в убере вызываете микроавтобус, чтобы уехать 5+? Что делаете, когда «машин поблизости нет»? Или когда 30-50% адресов некорректно распознается. или когда водитель везет неоптимальным маршрутом и ловит все пробки (а потом пиши-строчи, чтобы проанализировали и вернули деньги). а уклон все эти проблемы решил «из-коробки».
в убере забит адрес «Дом» — центр города. После 3-5 обращений не осилили пофиксить баг, из-за которого не сохраняется номер дома, а машина приезжать хз куда.
но для каждой задачи подходит свой инструмент. если нужно быстро и сейчас любой ценой (и если рядом есть машина) — здесь убер выигрывает. если ездишь по крупным город по разным странам — выигрывает, т.к. пользуешься той же картой и тем же приложением (и можно карты на страны назначать). и быдлить водитель вряд ли будет, т.к. кошельком реально отвечает.
свои плюсы и минусы в общем.romy4
11.12.2016 22:24+1Никто не заставляет, конечно, но эти «резиновые изделия №2» конкретно задолбали продавая базу своих пользователей для массового спаминга.
ArjLover
17.12.2016 17:07В Киеве гугл-карты реально тупят и убер тут страдает за них… А все остальное будет — и минивэны и блэк… Просто не все сразу.
deeptowncitizen
17.12.2016 18:01В Киеве яндекс карты у убера. При чем по заявлению водителей они лучше гугловских. И все правки очень оперативно вносятся.
Но оно сырое очень. А что значит "будет"? Я по северной Европе поездил и отличий вообще не заметил. Опции те же. Израиль — то же самоеArjLover
19.12.2016 05:32В Израиле убер в замоченном состоянии — родина gett. В каждой стране свой набор опций. Не везде его дружелюбно встречают и не везде демократии хватает.
compilator
09.12.2016 18:07«1. Во-первых, ваши конкуренты могут получить список ваших клиентов и водителей
2. Во-вторых, вы нарушаете закон Украины про доступ к персональным данным»
Второй пункт должен был бы первым идти )
vsespb
09.12.2016 22:06+1Да ладно, тут всем юзерам некого интернет магазина сменили пароль на название этого магазина и разоспали всем email типа «заходите за скидками». А на очевидный вопрос что любой может зайти в любой ЛК и узнать ФИО в этом ЛК, просто не ответили.
datacompboy
10.12.2016 02:12+1нет понятия «криминальная ответственность». есть «уголовная».
porutchik
10.12.2016 10:30+4«криминальная ответственность» — это когда братки в кожаных куртках приходят :-)
NoRegrets
10.12.2016 11:46То что они свои
солонкиклиенскую базу и водителей сливают, это правда, но это их проблемы. А вот по поводу персоданных, я бы не согласился. Почтовый ящик с именем — это не персоданные, имхо. Они не позволяют точно сказать кто такой этот вася vasya023@nomail.com. Или в Украине это относится к персоданным?
setevoy4
10.12.2016 11:47Ох-ох-ох… Спасибо вам огромное. Давно и часто пользуюсь этим сервисом — пока видел в нём только плюсы — удобный сайт, всегда есть машины (если не из центра в час пик), вообще развиваются — молодцы и т.д.
Оказывается — всё совсем печально… Буду рассказывать и водителям — может они Uklon со своей стороны тоже напрягать начнут (действительно часто езжу).
w4r_dr1v3r
10.12.2016 11:47-3Сработано по принципу «святая простота». Мне одному кажется, что у них там началась своеобразная «перестройка» с запаздыванием на -дцать лет относительно РФ?
Provision
10.12.2016 11:47А тут еще больше ифны о том как они базы дальше сливают и спам шлют: https://www.facebook.com/story.php?story_fbid=1743357895915990&id=100007253897909
setevoy4
10.12.2016 12:06+1Увы:
> Sorry, this page isn't available
> The link you followed may be broken, or the page may have been removed.
Только у меня так?
ftdgoodluck
12.12.2016 17:06Меня дико бесило их ценообразование и политика распределения заказов, при которой водитель сам выбирает, ехать ему или нет. Для тех, кто не в курсе: когда ты выбираешь пункт подачи и назначения, приложение показывает базовый тариф, но фишка в том, что за этот тариф вы скорее всего никуда не уедете, поэтому там есть специальное поле для увеличения цены, которое «простимулирует» водителя взять ваш заказ. В итоге а это лето я 3 раза попадал в ситуацию, когда ни за какие деньги не мог уехать.
И это не считая уродского интерфейса, хреновых водителей, хреновых машин и постоянного отсутствия у них сдачи.
P.S.: Уклон это сокращение от «Убер клон», кстати)
SirEdvin
Если я не ошибаюсь, эти вещи так не работают)
MonkAlex
Ну, в РФ нельзя выкладывать персональные данные в общий доступ, ибо право на обработку запрашивается, а не на публикацию. А вот как там на Украине — я без понятия.
NorthDakota
У нас так же. Мне кажется просто девочка которая отвечала на письмо в этом вопросе полный ноль. Или же это политика компании
Germanets
Ну да, сработать не должно. Но есть другой вопрос — а являются ли указанные данные — имя и e-mail персональными данными, или нет, именно с точки зрения закона?
Насколько я понимаю — очень большое количество форумов отображают и то и другое(да ещё и с датой рождения) в профиле пользователя.
MonkAlex
Закон весьма обтекаемо это описывает. Лучше рассчитывать на худший вариант и считать что да, эти данные являются ПД.
LoadRunner
На нормальных форумах по умолчанию это не отображается и пользователь сам должен выставить переключатель в «отображать».
PatapSmile
Попадает. Добавил в пост комментарий по этому поводу.
Dreyk
а есть ли у нас какой-то орган, в который можно пожаловаться? Было бы интересно попробовать ради интереса
PatapSmile
Уполномоченный по правам человека:
Стаття 23 Повноваження Уповноваженого Верховної Ради України з прав людини у сфері захисту персональних даних
1. Уповноважений має такі повноваження у сфері захисту персональних даних:
1) отримувати пропозиції, скарги та інші звернення фізичних і юридичних осіб з питань захисту персональних даних та приймати рішення за результатами їх розгляду;
2) проводити на підставі звернень або за власною ініціативою виїзні та безвиїзні, планові, позапланові перевірки володільців або розпорядників персональних даних в порядку, визначеному Уповноваженим, із забезпеченням відповідно до закону доступу до приміщень, де здійснюється обробка персональних даних;
monah_tuk
У меня хоть по бабушкиной линии корни в/на Украину уходят, но мову не понимаю, можно перевод, пожалуйста?
PatapSmile
Жаловаться можно уполномоченному по правам человека. А он/она уже может на основании жалобы инициировать проверку.
d1mk0
Я заметил, гугл-транслейт весьма недурственно справляется с переводом с украинского на русский.
Uzbadus
Не ошибаешься, согласно закону, гражданин имеет право потребовать информации о том где храняться его персональные данные, а также потребовать, чтобы они были удалены. «безотзывное согласие на использование его персональных данных» — это конечно же полная туфта.