Примечание переводчика — поводом для перевода статьи стало получение уведомления Have I Been Pwned о том, что мои данные оказались в этой утечке.



На прошлой неделе исследователи безопасности Bob Diachenko и Vinny Troia обнаружили незащищенную базу данных MongoDB, содержащую 150 гигабайт маркетинговой информации в виде открытого текста, включая 763 миллиона уникальных адресов электронной почты. Находка не только огромная, но и необычная. Она содержит данные об отдельных клиентах, а также «деловую информацию», такую как данные о сотрудниках и доходах различных компаний. Это разнообразие может объясняться источником информации: база данных, принадлежащая фирме Verification.io по «проверке» адресов электронной почты. База была отключена в тот же день, когда исследователь сообщил об этом компании.



Хотя вы, вероятно, никогда не слышали о них, такие компании играют решающую роль в индустрии электронного маркетинга. Они не рассылают маркетинговые электронные письма от своего имени и не проводят автоматизированные рассылки. Вместо этого они проверяют список клиента, чтобы убедиться, что адреса электронной почты в нем действительны и не возвращаются с ошибкой. Но полная проверка того, что адрес электронной почты работает, включает в себя отправку сообщения на этот адрес и подтверждение того, что оно было доставлено — по сути отправка спама людям. Это означает уклонение от блокировок интернет-провайдеров и платформ, таких как Gmail. (Существуют менее грубые способы проверки адресов электронной почты, но у них есть компромисс ложных срабатываний.) Основные провайдеры email-рассылок часто передают эту работу на аутсорсинг, а не берут на себя риск внесения своей инфраструктуры в черный список.

«У компаний есть списки адресов электронной почты и хотят начать рассылку по ним, но они не уверены, насколько они достоверны», — говорит Troia, основатель фирмы Night Lion Security. «Поэтому они идут в компанию, которая по сути рассылает спам». Troia предполагает, что база данных может быть настолько большой и разнообразной, потому что она содержит все данные клиентов Verification.io. WIRED не мог в течение нескольких дней связаться с компанией или CEO Vlad Strelkov. В понедельник веб-сайт Verification.io отключился и с тех пор не восстанавливался. (копия в архиве интернета прим. перев.)

В целом, 809 миллионов записей в базе Verification.io включают стандартную информацию, такую как имена, адреса электронной почты, номера телефонов и физические адреса. Но многие также включают в себя такую информацию, как пол, дата рождения, размер ипотечного кредита, процентная ставка, аккаунты Facebook, LinkedIn и Instagram, связанные с адресами электронной почты, а также характеристики кредитного рейтинга людей (например, средний, выше среднего и т.д.). Между тем, другие записи в базе, по-видимому, связаны с B2B продажами, включая названия компаний, цифры годового дохода, номера факсов, веб-сайты компаний и отраслевые идентификаторы для классификации компаний («SIC» и «NAIC» коды).



Данные не содержат номеров социального страхования или номеров кредитных карт, и единственные пароли в базе данных предназначены для собственной инфраструктуры Verification.io. В целом, большая часть данных является общедоступной из различных источников, но когда преступники могут получить в свои руки множество агрегированных данных, им будет намного легче запускать новые схемы мошенничества или расширять базу целей.

В открытой базе данных исследователи также обнаружили некоторые из внутренних инструментов Verification.io, такие как тестовые учетные записи электронной почты, сотни SMTP-серверов (отправка электронной почты), текст электронных писем, инфраструктура для предотвращения спама, ключевые слова, которых следует избегать, и IP-адреса для черного списка. Diachenko предполагает, что клиенты Verification.io загружают таблицу Excel, содержащую адреса электронной почты для проверки, а затем Verification.io запускает свои тесты и возвращает списки рабочих адресов и те, которые ответили с ошибкой. Возможно, учитывая разобщенность данных и свидетельство того, что они были импортированы из множества различных файлов Excel, что Verification.io также сохранил некоторые или все данные, полученные от клиентов после завершения проверки адресов электронной почты.

Исследователи проверяли образцы данных с компаниями, перечисленными в качестве клиентов Verification.io. Troia говорит, что его собственная информация появилась в базе данных. WIRED поговорил с владельцем компании, которая занимается email маркетингом. Он подтвердил достоверность части данных. WIRED также проверил четырех человек, но не нашел их в списке. Diachenko and Troia также отмечают, что у них нет никакого способа узнать, обнаружил ли кто-либо данные Verification.io, когда они были общедоступны. «Я понятия не имею, получил ли кто-нибудь еще доступ к этому, кроме нас», — говорит Troia. «Но это было точно доступно всем для скачивания».

Исследователь безопасности Troy Hunt добавил данные Verification.io в свой сервис HaveIBeenPwned, который помогает людям проверить, были ли их данные скомпрометированы в результате утечек. Он сказал, что 35% из 763 миллионов адресов электронной почты являются новыми для базы данных HaveIBeenPwned. Дамп Verification.io также является вторым по величине из когда-либо добавленных в HaveIBeenPwned по количеству адресов электронной почты после 773 миллионов, известных как Collection #1, которые были добавлены ранее в этом году. Hunt говорит, что часть его собственной информации включена в базу Verification.io.

«Главный вывод для меня в том, что это просто еще один случай, когда у кого-то есть мои данные и сотни миллионов данных других людей, и я абсолютно не знаю, как они их получили», — говорит Hunt. «Я никогда не слышал о компании до сих пор, и я, конечно, не могу вспомнить, есть ли у них согласие использовать мои данные. Конечно, вполне возможно, что в некоторых положениях и условиях обслуживания говорится, что они могут использовать мои данные примерно так, но это не совсем соответствует моим ожиданиям относительно того, как мои данные должны использоваться».

Разобщенная природа представленных данных Verification.io говорит о хаотичном состоянии индустрии данных в целом. Личная информация людей передается огромным корпорациям, таким как Facebook, покупается и продается сомнительными маркетологами, или похищается у гигантов данных и обречена бесконечно распространяться в чистилище криминальных форумов. Пользователям становится труднее контролировать, у кого есть их данные и где они находятся. Как говорит Hunt: «К сожалению, это просто еще один день в Интернете».

Примечание переводчика — это мой первый перевод на Хабре, об ошибках и неточностях прошу сообщать в личные сообщения.

Комментарии (8)


  1. ebragim
    10.03.2019 06:43

    Каждый раз, когда слышу про haveibeenpwned — мысль только одна, что этот сервис слишком хорош для проверки живучести аккаунтов в их базе. И потом продавать где-то в другом месте под другим именем базу уже гарантированно живых учёток…


    1. pomme
      10.03.2019 08:51

      Проверку активности email очень просто провести и без такого сервиса, так что польза haveibeenpwned как валидатора сомнительна.


  1. slava_k
    10.03.2019 11:47

    "… Он сказал, что 35% из 763 миллионов адресов электронной почты являются новыми ..."

    Вот это самое важное во всех подобных сливах в СМИ: 1) большой объем утечки и 2) мнение «авторитетного эксперта» о том, что данные утечки довольно уникальные и может коснуться любого. Цель подобного PR-а — рост интереса обывателей к сервисам «проверки», через которые происходит фильтрация живых, повышение качества и дальнейшая монетизация данных. И в этой всей схеме (возможно незаконной) не последнюю роль играют те самые «эксперты».

    Не пользуйтесь подобными сервисами, т.к. на каждую волну хайпа такие сервисы вполне могут собирать базы запросов (часто это электропочта), не попавшие в утечки и эти данные уже могут быть сагрегированы с утечками в будущем. И не важно, что, к примеру, утечка была у сервиса, которым вы в принципе не могли пользоваться, данные с предыдущих проверок вполне могут быть в такой «утечке».

    Суть всего этого бизнеса та же, что и у любой соцсети — максимально дорого продать ваши данные. И акт продажи (по частям) может длиться годами, особенно если вы подкармливаете этого криминального монстра частыми проверками на утечку ваших данных.

    Уже писал про это ранее, но к сожалению во многом бестолку. Заставить кого-то начать думать своими мозгами и относиться ответственно к своим персональным данным — очень трудно. Вернее, всем плевать. Потому такой «бизнес» и процветает.


    1. Mastak_A
      10.03.2019 15:39
      +4

      • 7,695,066,389 pwned accounts
        Check if you have an account that has been compromised in a data breach
      • проверил почту
      • 7,695,066,390 pwned accounts
        Check if you have an account that has been compromised in a data breach


    1. w0den
      10.03.2019 17:02

      Давным-давно я тоже хотел создать подобный сервис, только от пользователя требовалось вводить не емайл, а SHA256 емайла. Но с этим были разные проблемы (в том числе, что хеш емайла слишком легко брутфорсить).

      А для тех что хочет проверить свой емайл, лучше использовать более надёжные источники (например, www.avast.com/hackcheck).


    1. Angerslave
      10.03.2019 19:49

      Насколько велика ценность связки email-ip-user_agent, если там даже нет проверки активности ящика? То есть можно ввести миллионы левых ящиков и заспамить базу.

      ИМХО, потенциальная утечка ящика несёт меньше риска, чем незнание того, что пароль от определённого сервиса был скомпрометирован. Но каждый думает своей головой.


  1. vladkorotnev
    11.03.2019 08:55

    Почему в последнее время чуть ли не каждая третья утечка базы — это MongoDB? Она что, по дефолту наружу торчит в интернет?


    1. yktoo
      11.03.2019 18:11

      Как и любой сервис, торчит туда, куда воткнута.