Около недели назад я при гуглении неизвестного номера (из пропущенных звонков) внезапно наткнулся на него в выдаче в виде PDF файла с Авито, который выдавал ошибку при переходе по прямой ссылке, но попал в кэш. Выглядело это как то так:

Пример выдачи

Общий вид ссылки: «m.avito.ru/[адрес объявления]/export/pdf».

Всё можно найти по запросу: «site:avito.ru inurl:export/pdf» (Google, Яндекс).

Если Google обещает 191 000 результатов (реально выводит около 640, видимо срабатывает ограничение на выдачу), то в Яндексе всего 152 ответа и кэш недоступен в явном виде (но сами адреса легко вытянуть немного модифицированными запросами вроде «site:avito.ru inurl:export/pdf mail.ru»). Период сообщений где-то с августа по ноябрь этого года.

Официальный ответ компании:

Официальный ответ

Так что это наши с вами проблемы, что компания допустила утечку наших данных в публичную сеть, всё нормально.

Судя по тому, что в выдаче только резюме (и явно не все), могу предположить, что у Авито есть некий доступ для компаний и их рекрутёров к базе резюме с возможностью экспорта. Тем более, что в соглашении Авито оставило себе возможность передавать эти данные третьим лицам:

10.1. Авито вправе, а Пользователь настоящим дает свое согласие на это, передать свои права и/или обязанности по настоящему Пользовательскому соглашению, как в целом, так и в части, третьей стороне.
10.2. В случае передачи прав и/или обязанностей, как в целом, так и в части, по настоящему Пользовательскому соглашению третьей стороне, третья сторона имеет право предоставлять аналогичные или похожие услуги на другом сайте.

Но кроме этих пунктов есть и те, где Авито обязуется эту тайну хранить:

Авито принимает все необходимые меры для защиты персональных данных Пользователя от несанкционированного доступа третьих лиц.

23 ноября я отправил запрос в службу поддержки с описанием проблемы, мне ответили двумя стандартными отписками: «Благодарим за обращение в Службу поддержки Avito» и «По вашему обращению будет проведена проверка». Думаю, несколько дней вполне должно было хватить, чтобы поправить robots.txt и очистить выдачу? К сожалению, никаких контактов службы безопасности или администраторов найти не удалось. Тогда я связался уже с официальной группой ресурса ВКонтакте, продублировав проблему, ответ вы видите выше.

Надеюсь, компания всё же обратит внимание на проблему в ближайшее время.

UPD 28.11: Авито пока никак не реагирует, чищу понемногу кэш самостоятельно.
UPD 30.11: Почти очистилась выдача Яндекса, всего 3 результата (опять вернулись все 152 результата, видимо временные неполадки в выдаче были), а у Google теперь ищется «всего» 185 000 результатов.
UPD 01.12: Еще раз ответили Вконтакте, ждём результатов:

Комментарии (28)


  1. bigfatbrowncat
    27.11.2015 15:45
    +6

    Меня, возможно, поймут неправильно, но…

    Человек оставил свое рабочее резюме на бирже труда. Туда он вписал профессию, личные данные, номер телефона, адрес е-почты. Человек, как мне кажется, был вполне готов к публикации этих данных, разве не так?

    Ну то есть я пытаюсь представить себе как кто-то прочитал мое резюме не на самом Авито, а на другом сайте. И не вижу в этом большой беды. Я не прав?


    1. xRay
      27.11.2015 15:53
      +4

      В утекшей информации в поисковики не только е-майл и сотовый. Город, образование, места учебы, возраст, пол и т.д.


    1. Gorily
      27.11.2015 16:01
      +21

      На Авито почта обязательно указывается при регистрации и никогда не публикуется (о чём сайт сразу сообщает). А тут публикуется, при этом пользователь сам свой адрес не отдаёт.
      Вы регистрируетесь на Авито продать диван с помойного ящика vasya.ganjubasya@bk.ru и не основным номером телефона, затем через некоторое время публикуете с того же аккаунта резюме, указав свой нормальный номер телефона. Теперь вы доступны в поиске по помойному адресу, ваш нормальным номер тоже ищется и всё это сопоставлено с вашими реальными данными (имя, город, род деятельности, прошлые компании). Без вашего ведома.


      1. jrip
        27.11.2015 21:27
        +2

        Т.е. возможно что часть личностей, которые там продавали всякое полуработающее гавно на левые симки, внезапно для самих себя теперь найдутся? Ну а что, даже позитивненько :)


      1. monah_tuk
        28.11.2015 05:32
        +3

        Нужно катать телегу в роспотребнадзор — сделали орган, придумали законы — пущай работают :)


  1. duke_nu
    27.11.2015 16:03
    -54

    как не обсурдно это звучит, но в сетуации с гуглом, это хранение личных данных на зарубежном сервере )


    1. bigfatbrowncat
      27.11.2015 17:27
      +10

      Я полагаю, что кэши гугла для рунета расположены в России. Это было бы логично.

      Но интересно другое. С какой целью вы это здесь написали?


      1. mtp
        28.11.2015 23:16
        +6

        … напесали

        Извините, не удержался :-)


  1. BeLove
    27.11.2015 19:00
    +6

    В моем случае служба поддержки тоже не ответила (только то, что репорт приняли). А спустя примерно месяц обнаружил вот такую картину


    И исправленную уязвимость. Значит, что они действительно смотрят репорты и исправляют, по мере возможности.
    Может, стоило дождаться?


    1. Gorily
      27.11.2015 19:10
      +4

      Мне техподдержка ответила. Диалог Вконтакте состоял из нескольких этапов:
      1. Я написал номер репорта и попросил передать его разработчикам или СБ напрямую, чтобы скорее приняли меры.
      2. Меня попросили повторить текст запроса и заверили, что передадут его напрямую нужным людям.
      3. Я повторил запрос, со скриншотами и пояснениями.
      4. Через некоторое время мне ответили (скриншот в посте).
      Считаю, что это окончательный ответ.
      К тому же мне пришло не только сообщение о принятии репорта, но и «результат» (вторым сообщением, через некоторое время): «По вашему обращению будет проведена проверка».
      Поверьте, я действительно постарался донести до компании суть проблемы и ждал решения, иначе пост был бы написан неделю назад.
      Более того, черновик поста был сделан заранее и я до конца надеялся, что напишу об этом инциденте уже в прошедшем времени.


      1. LeonidZ
        28.11.2015 01:43
        +5

        Имел много лет назад непосредственное отношение к компании, сообщил топ-менеджменту о вашей заявке и статье.


        1. Gorily
          28.11.2015 10:59
          +3

          Благодарю, это очень кстати.
          Я пока сам потихоньку чищу кэш. Если что, вы поясните их техническим специалистам как это делается, не сложно:
          1. Открываем выдачу в гугле.
          2. Открываем страницу www.google.com/webmasters/tools/removals?pli=1 (удаление устаревшего контента).
          3. Вносим ссылки.
          4. Менее чем через 12 часов ссылок нет, вот часть моих заявок:


  1. ComodoHacker
    27.11.2015 21:14

    Официальный ответ компании:
    [картинка]
    Так что это наши с вами проблемы, что компания допустила утечку наших данных в публичную сеть, всё нормально.

    Я этот ответ понимаю так: «Мы уже пофиксили, но признавать не хотим».


  1. Ohar
    27.11.2015 21:48

    Как насчёт подать на них в суд?


  1. silicon
    28.11.2015 09:20
    +2

    Не новость. В объявлении использовал номер, которым никогда не пользовался. И что же?
    Через некоторое время на него стали приходить звонки и реклама в СМС.
    Уязвимость у подобных сервисов мне видится одна и она заключена в предложениях крупных сумм за базы данных…


    1. Gorily
      28.11.2015 11:05
      +1

      Да, номера у них улетают со скоростью звука. Недавно дядя звонил с проблемой, пытались деньги увести со Сбера. Оказалось, что перед этим разместил объявление на Авито, через пять минут пришло примерно такое сообщение: «Василий, мы заинтересованы купить велотренажер, давайте спишемся тут: [ссылка на apk]». Он человек неопытный, повёлся.
      Именно поэтому я не акцентирую внимание на то, что в резюме и номер утекает.
      Но попробуйте из любого опубликованного резюме или объявления вытащить электронный адрес, если он не указан явно самим пользователем в тексте — нет такой возможности.


    1. Lux_In_Tenebris
      28.11.2015 15:41
      +2

      По этой причине и не размещаю никакие объявления на Avito впринципе, а без указания номера телефона там ничего сделать уже невозможно, насколько мне известно. «Левый» номер можно, конечно, сделать, но ради этого по сути монополиста с местами странной модерацией и одновременно пофигизмом к пользовательским данным (что, так трудно хотя бы поставить капчу на просмотр номера телефона? между тем все криминальные форумы пестрят предложениями купить «базы Avito») заморачиваться как-то неохота.


  1. tumikosha
    28.11.2015 15:29

    >>обещает 191 000 результатов (реально выводит около 640, видимо срабатывает ограничение на выдачу),

    Сталкивался с подобным, пришел к выводу что гугль просто врет.
    «Все крупные состояния сделаны исключительно бесчестым путем» Остап Бендер


    1. Gorily
      29.11.2015 11:27

      Думаю, всё же не врёт, а ограничивает выдачу.
      Если ввести в поиск «dog», то гугл обещает 1 230 000 000 результатов, что логично. А в выдаче 41 лист * 10 = 410 результатов. Вы же не думаете, что в интернете всего 410 упоминаний этого слова? Скорее всего остальные результаты можно получить уточнив запрос.


      1. osj
        29.11.2015 12:50

        Извините, но Google не выдает более 1000 результатов, а вы запросили результаты с номера 2410.
        Зы, для youtube то же ограничение в 1000, как и для остальных сервисов Google.
        Яндекс ограничился 100 страниц выдачи.
        Bing — 75.


      1. tumikosha
        29.11.2015 12:54

        Ага ага. Вот только почему-то проверить цифру 1 230 000 000 не получается ;0))
        А какая мне разница? Заявляет одно, а позволяет другое- это и есть вранье. А уж почему он там врет мне не важно.


        1. bigfatbrowncat
          29.11.2015 23:58

          Вам это число общее сообщили просто так, для сведения. Могли не сообщать. Но тогда у вас бы могло сложиться ложное впечатление, что выдача вся и действительно есть только 41 страница.

          Так что всё наоборот. Вам число показали, чтобы не лгать (то есть не вводить вас в заблуждение).


          1. tumikosha
            30.11.2015 05:09
            +1

            Вот смотрю результат поиска по какой-то случайной фразе в гугле и вижу такую строку:
            Результатов: примерно 338 000 (0,39 сек.)
            Вас не смущает слово примерно? ;0))
            Что мы имеем в итоге? Нам сообщили какую-то странную цифру, а показывают совсем другое количество.
            Нет, я бы понял если бы они спрогнозировали миллион и ошиблись процентов на тридцать. Я понимаю что пока идет запрос боты что-то добавляют и совсем уж точно сказать нельзя.
            Но показать всего сколько-то там страничек (100?)… Как проверить? Ведь многие сравнивают поисковики по количеству проиндексированных документов и размеру выдачи.
            Мои боты негодуют!


            1. bigfatbrowncat
              30.11.2015 12:21

              Вас не смущает слово примерно?

              Нет, не смущает. Меня бы куда больше смутило, если бы они мне написали «338 237». Потому что, как я уже сказал выше, рассчитывалось это на оценочное суждение. То есть, еще раз, Гугл здесь не ставит себе цель показать ни точное количество найденных записей (которое ни одному нормальному человеку в жизни не пригодится уже хотя бы потому, что меняется раз в час), ни количество выданных вам результатов (которые, между прочим, надо кешировать для каждого юзера отдельно).

              Как проверить?

              Никак. Считайте, что этого числа вообще нет если оно вам не помогает. Я бы задал вопрос более актуальный: зачем необходимо это проверять? А еще спросил бы, с какой стати поисковику вас обманывать на счет количества найденных им упоминаний?

              Как, по-моему, можно пользоваться этим числом:
              Лично я пользуюсь так. Допустим, есть какая-то общеупотребимая фраза на английском. И я хочу убедиться в том, что я ее пишу правильно (бывают разночтения). И тогда я ввожу в поисковик оба варианта. И получается:

              «that's me»: About 335,000,000 results (0.44 seconds)

              «that's i»: About 1,620,000,000 results (0.34 seconds)

              Сразу понятно, какой вариант более общеупотребим в письменной литературе, а значит — более грамотен.

              На русском тоже можно, хотя работает немного хуже. Например, просторечное «представляет из себя» — 26 миллионов, а литературное «представляет собой» — 28 (всего на 10% больше).


              1. vlivyur
                30.11.2015 13:26
                +1

                Потому что искать тоже надо уметь.


                1. bigfatbrowncat
                  30.11.2015 13:27

                  Логично. :)


      1. ganjar
        29.11.2015 18:12
        +1

        Либо сделать выборку по дате. В гугл они попали в разный период времени, таким образом, перебирая даты — получаем всю выборку резюме Тыц


  1. Psychosynthesis
    28.11.2015 15:48
    -3

    А никто не спарсил ещё выдачу? Базой с данными Имя\Почта\Телефон поделитесь?