Сегодня утром к нам в поддержку сайта знакомств написала девушка и сообщила, что она появляется у мужчин в списке «она вас посмотрела», хотя она точно не смотрела. И не пользовалась в это время компьютером. По цепочке это обращение дошло до меня. Расскажу, что мне получилось установить.

В качестве небольшого отступления расскажу кратко о себе. Я, в числе прочих дел, занимаюсь серверной и админской частью на небольшом сайте серьезных знакомств. Сайт небольшой, и на нем, конечно же, есть рассылки на почту пользователям (новые письма, новые пользователи). Чтобы не звучало «спамеры», уточню, что все рассылки на 100% соответствуют COI модели — одобрены пользователем, он всегда и везде может от них отписаться, если получили «отлуп (bounce)», то автоматически блокируем ящик и т.д. Несколько лет назад на нас сильно обиделся Spamhaus и опыт общения с ними мне запомнился на всю эту жизнь. Поэтому корректность рассылок для нас крайне приоритетна.

В письмах, которые мы рассылаем пользователям, есть ссылки на профайлы других пользователей на сайте. По каждой такой ссылке работает авто-прилогинивание. Т.к. пароли мало кто помнит, а наша задача сделать так, чтобы пользователю было удобно заходить на сайт как можно проще и быстрее. Конечно, при взломе почты пользователя будет утечка доступа к нашему сайту, но считаю, что в данном случае удобство важнее паранойи.

Итак, посмотрев лог захода девушки, которая к нам обратилась, я увидел только за сегодняшний день (на 8 часов утра) 11 заходов на сайт с ip 178.154.243.78 и юзер-агентом Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots). По whois ip-адрес действительно принадлежит Yandex LLC. Смотрю аккаунт девушки — почта на yahoo.com. Ищу заходы самой девушки по логам — нашел, юзер агент — Opera/9.80 (Windows NT 6.1; Edition Yx) Presto/2.12.388 Version/12.15, т.е. десктопная Opera, собранная Яндексом (Edition Yx). Вариантов, откуда Яндекс узнал о существовании 11 разных приватных ссылок, два.
1) Девушка заходила по этим ссылкам и Опера «стучала» об этом в Яндекс;
2) Она смотрела почту Yahoo через Оперу, используя сжатие данных, и Яндекс при проксировании (у девушки оно включено) собирал все ссылки, которые там были, для дальнейшего «использования». Опрос девушки подтвердил — Опера от Яндекса, сжатие данных, почта Yahoo. Но, забегая вперед, скажу, что больше доверяю 1-му варианту.

Продолжил копать. За 8 часов сегодняшнего лога nginx (11 часов по Москве, лог начинается с 0 по GMT), было 350 уникальных залогиниваний от ЯндексБота. Смотрю дальше — это всё оказалось по приватным ссылкам от 15 пользователей. Посмотрел двух случайных. Оба пользователя используют чистый Яндекс.Браузер. Без проксирования. Заходы ЯндексБота в аккаунт начались у всех 03.04.2015.

Решил найти наиболее «чистый» вариант. И нашел. У нас ссылки, которые мы даем, включают дату формирования письма. Поэтому не составляло большого труда (grep + awk) найти в логе nginx заходы из письма, который мы сегодня и отправляли пользователю.

Приведу лог nginx (ip юзера, сайт, точная ссылка изменены):

site.ru 1.1.1.1 - - [26/Jun/2015:08:12:18 +0000] "GET /member/detail/111111750?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6803 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.107 cs=-upstream: 192.168.106.14:7002 answer=200 response=0.107 0.107
site.ru 1.1.1.1 - - [26/Jun/2015:08:12:18 +0000] "GET /member/detail/111111750?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6803 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.092 cs=-upstream: 192.168.106.4:7002 answer=200 response=0.092 0.092
site.ru 1.1.1.1 - - [26/Jun/2015:08:12:30 +0000] "GET /member/detail/111111708?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6354 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.049 cs=-upstream: 192.168.106.12:7002 answer=200 response=0.049 0.049
site.ru 1.1.1.1 - - [26/Jun/2015:08:12:30 +0000] "GET /member/detail/111111708?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6331 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.030 cs=-upstream: 192.168.106.10:7002 answer=200 response=0.030 0.030
site.ru 1.1.1.1 - - [26/Jun/2015:08:12:45 +0000] "GET /member/detail/111111436?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6293 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.047 cs=-upstream: 192.168.106.18:7002 answer=200 response=0.047 0.047
site.ru 1.1.1.1 - - [26/Jun/2015:08:13:00 +0000] "GET /member/detail/111111053?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6630 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.030 cs=-upstream: 192.168.106.10:7002 answer=200 response=0.030 0.030
site.ru 1.1.1.1 - - [26/Jun/2015:08:13:08 +0000] "GET /member/detail/111110974?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6542 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.045 cs=-upstream: 192.168.106.12:7002 answer=200 response=0.045 0.045
site.ru 1.1.1.1 - - [26/Jun/2015:08:13:24 +0000] "GET /member/detail/111110878?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 7651 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.102 cs=-upstream: 192.168.106.12:7002 answer=200 response=0.102 0.102
site.ru 5.255.253.141 - - [26/Jun/2015:08:13:26 +0000] "GET /member/detail/111111053?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6741 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" "-" 0.113 cs=-upstream: 192.168.106.4:7002 answer=200 response=0.113 0.113
site.ru 5.255.253.141 - - [26/Jun/2015:08:13:32 +0000] "GET /member/detail/111110974?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6651 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" "-" 0.161 cs=-upstream: 192.168.106.6:7002 answer=200 response=0.161 0.161
site.ru 5.255.253.141 - - [26/Jun/2015:08:13:34 +0000] "GET /member/detail/111111436?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6405 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" "-" 0.140 cs=-upstream: 192.168.106.10:7002 answer=200 response=0.140 0.140
site.ru 5.255.253.141 - - [26/Jun/2015:08:13:43 +0000] "GET /member/detail/111110878?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 7764 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" "-" 0.117 cs=-upstream: 192.168.106.18:7002 answer=200 response=0.117 0.117

Можно видеть, что пользователь зашел из письма по 7 ссылкам и по 4-м из них практически сразу прошелся ЯндексБот.

В поисковой выдаче я результатов не нашел. Что Яндекс с ними делает, знает только Яндекс.

Мой личный вывод: Яндекс.Браузер и Опера от Яндекса собирают ссылки, по которым кликает пользователь. Они анализируются и по части ссылок проходится ЯндексБот. Началось это 03.04.2015.

Update от 19.07.2015
Хочу подтвердить слова работников яндекса из комментариев, что по ссылкам из почты бот не заходит. Это факт. Я проверил логи за несколько дней, и не нашел ни одного вхождения по ссылкам из Яндекс-почты их роботом.

Update от 19.07.2015 — финальный в данном посте
Взято ниже из комментария kukutz
В общем, это очень неприятная ошибка.
Вот комментарий пресс-службы:
Яндекс.Браузер собирает обезличенную статистическую информацию для улучшения качества Браузера, в которую включаются в том числе и адреса посещённых страниц. Это происходит только в том случае, если человек разрешил делать это в настройках программы (проставил галочку «Отправлять в Яндекс статистику использования»).
Из-за технической ошибки информация о некоторых таких страницах из Браузера попала в список, индексируемый роботом Яндекса. Мы уже исправили её для сайта, о котором было рассказано на Хабре, и в скором времени исправим ее полностью. Мы благодарны пользователю Хабрахабра за то, что помог найти эту ошибку

Комментарии (113)


  1. AlexGx
    15.07.2015 16:04
    +18

    Ну это совсем печально если честно(


    1. Longer
      15.07.2015 16:45
      +2

      А чем стандартные сборки браузеров Opera, Firefox, Chromium не устраивают? Пользуюсь ими и проблем подобных не знаю, в ином случае ССЗБ.


      1. AlexGx
        15.07.2015 17:15

        я сам не пользуюсь сборками и очень часто из сорсов собираю (конечно не браузер, чтоб хром собрать нужна билд-ферма, но тем не менее), но тот факт что бот ходит по таким ссылкам не радует. сам думал в транзакционных емейлах сделать ссылки с автологином, а теперь в больших раздумиях. еще интересно что будет если прийдет ссылка на восстановление пароля например, которая протухает при первом переходе и бот зайдет по ней раньше чем юзер.


        1. TheRaven
          15.07.2015 17:17
          +3

          Возможно на страницах восстановления пароля ботов вообще по юзерагенту вырубать стоит.


        1. Longer
          15.07.2015 17:20
          +4

          Chromium собирается менее, чем за час, как и Firefox на Intel i3.

          В большинстве случаев ссылки на восстановление протухают через некоторое время, а не при первом переходе. Или по крайней мере я такое поведение замечал и сам аналогичное реализую, когда нужно.


          1. alexac
            16.07.2015 00:41

            У вас немножко неверные данные. Хромиум с нуля собирается за полтора часа на i7 16GB RAM, чуть больше чем за час на 2x Xeon (по 16 ядер) 32GB RAM или чуть меньше двух часов на i5 16GB RAM (все с SSD). За час можно собрать только с distcc или dist-clang с билд-фермой. А релизный некомпонентный билд с LTO может линковаться только минут сорок в некоторых случаях. На i3 с HDD я как-то ждал сборки >8 часов и не дождался, прервал.


            1. Bal
              16.07.2015 02:40

              >Хромиум с нуля собирается за полтора часа на i7 16GB RAM

              Ого, как разжирел. Три года назад у меня на стареньком Q6600 с 4Гб под Gentoo он за час собирался:


              Firefox (версии 14-17) тогда же собирался за 25-30 минут.


              1. alexac
                16.07.2015 02:43

                Ну на линуксе он побыстрее собирается, на маке будет медленнее, на винде вообще медленно.


                1. monah_tuk
                  16.07.2015 15:26

                  Кстати, а чем он на винде собирается? А то стал замечать, что, к примеру, make от mingw очень упорно пытается игнорировать -j8


                  1. alexac
                    16.07.2015 15:29

                    хром сейчас на всех платформах по дефолту собирается с помощью ninja. Разве что на ios, кажется, используется xcodebuild, но не уверен. От всего остального сейчас отказываются. А с переходом от gyp к gn других вариантов кроме ninja не останется вовсе.


                    1. gonzazoid
                      16.07.2015 19:14
                      -1

                      хром на ios — не настоящий, это обертка вокруг веб кита.


            1. alexeibs
              16.07.2015 08:01

              Как-то у вас долго сборка происходит. Может быть зависит от ОС? Мы используем Хромиум в качестве встроенного браузера. На моей рабочей машине — Core i7 3770K, 16GB, SSD, Win7x64 — собирается примерно минут за 40.


        1. webkumo
          15.07.2015 18:49
          +3

          Ну так можно же частично фичу реализоваться — автовход только с тех устройств (браузеров), с которых уже входили (можно использовать для идентификации долговременные куки/Local storage браузера), а для новых устройств вполне логично требовать вход по полной/частичной(со введённым логином) форме.


      1. dom1n1k
        15.07.2015 17:49
        +5

        Фиг знает чем они не устраивают, но вот сейчас посмотрел статистику по одному своему сайту — с Яндекс Браузера сидят 10.5% посетителей! Это третье место после Хрома и ФФ.


        1. Andrusha
          15.07.2015 18:37

          Если сайт ориентирован не на продвинутую в компьютерном плане аудиторию, то всё просто: пользователь скачал Я.Браузер в составе установщика какого-то другого софта, он прописался дефолтным, а пользователь не знает, как его изменить/не заметил/не стал заморачиваться, так как понравился.


          1. tundrawolf_kiba
            15.07.2015 18:53
            +4

            При гораздо более агрессивной установке — Амиго после пика в 3 процента — продолжает падать, ЯБ же уверенно остановился на отметке порядка 6 процентов, я думаю если бы он не устраивал пользователей — то его бы доля была бы аналогичной Амиго. А так — он на данный момент уверено опережает, например, Оперу(4,8%). Вообще у li.ru достаточно интересный инструмент для сравнения: www.liveinternet.ru/stat/ru/browsers.html


            1. kukutz
              15.07.2015 19:08

              Только лучше смотреть со срезом «ru», это посетители из РФ.


      1. semmaxim
        15.07.2015 22:21
        +2

        Потому что Яндекс.Браузер тупо удобнее. Как пример: habrahabr.ru/company/yandex/blog/253775/#comment_8343873
        Плюс, он умеет нормально копировать кириллические url (вместо всяких длиннейших %AB%CD нормальные русские буквы).


        1. cdkrot
          15.07.2015 22:28
          +1

          chrome (ium) кириллицу показывает нормально, проверил прямо сейчас.
          в firefox'e в about:config есть свитч, который это дело меняет. В оф сборке даже по-моему включён.


        1. Longer
          15.07.2015 22:36
          -1

          В адресной строке они в нормальное состояние всёравно превращаються. А из минусов подобного преобразования — далеко не все парсеры расчитаны на это, да и в случае кириллицы (или любого другого языка), могут возникнуть проблемы с подсвечиванием ссылки из-за этого в другой программе, куда была вставленна ссылка.

          А все желаемые плюшки (перечисленные по ссылке) легко решаются расширениями (в Firefox точно, на счёт Chromium не уверен), в т.ч. и копирование ссылки. Некоторые в firefox обычном (не от яндекса) из коробки, а большинство не нужны.


          1. Borz
            17.07.2015 00:52

            для FF не требуется расширение чтобы настроить копирование. достаточно для network.standard-url.escape-utf8 выставить false в about:config


      1. Bal
        15.07.2015 23:32

        >А чем стандартные сборки браузеров Opera, Firefox, Chromium не устраивают?

        Ссылки… На меня однажды AdSense наехал за материал, нарушающий их правила в закрытом от гостей(!) форуме. Маловероятно, что «нестандартная сборка» Гуглу стучала :) Скорее всего это была работа обычного Хрома…


    1. mva
      17.07.2015 14:14

      А зачем, по-вашему, яндекс делал свои браузеры, если не для этого? :)


  1. Makaveli
    15.07.2015 16:11
    +15

    А вы закрыли для автологинящих ссылок доступ роботам через robots.txt?

    Никого не оправдываю, но мне кажется, что такие ссылки опасны сами по себе, так же может пролезть уйма чего. Часто тыкал на ссылку — браузер решил добавить адрес в список часто используемых и, например, сделал скриншот-превьюшку страницы.

    Когда шаришь где-то ссылку — то же самое происходит — софт проходит по ссылке чтобы подобрать миниатюру, описание или выбрать картинку. Даже в Skype уже когда кидаешь ссылку он сам по ссылке лезет чтобы красиво её в чате оформить.



    1. tundrawolf_kiba
      15.07.2015 16:35
      +1

      >Часто тыкал на ссылку — браузер решил добавить адрес в список часто используемых и, например, сделал скриншот-превьюшку страницы.
      Или как вариант — когда браузер делает предзагрузку страниц, для быстрого перехода к ним, если пользователь решил тыкнуть.


      1. zaz600
        16.07.2015 03:07
        +1

        Или как вариант — когда браузер делает предзагрузку страниц, для быстрого перехода к ним, если пользователь решил тыкнуть


        Согласен про предзагрузку, но это должен делать браузер, а не нечто с юзер-агентом яндексБот


    1. customtema
      15.07.2015 17:22

      Логично!


    1. CatHap Автор
      15.07.2015 20:23
      +5

      Мы сделали защиту от влогинивания ЯндексБотом (для ГуглБота это было сделано уже много лет назад).
      И по моему опыту, robots.txt часто воспринимается как рекомендация, а не как жесткое обязательство для ботов. Точнее я не скажу (давно было), но полагаться на закрытие аутенфикации по ссылке внесением записи в robots.txt я бы точно не стал


  1. QtRoS
    15.07.2015 16:14
    +18

    И кто после этого умышленно установит себе, например, Яндекс.Браузер? Чего ожидают работники Яндекса? О каком доверии потребителя может быть идти речь?
    Хочется услышать ответ от представителей компании.


    1. kukutz
      15.07.2015 16:53
      +19

      Нам тоже интересно разобраться в ситуации. Такого быть не должно.

      CatHap, можно Вас попросить настоящий лог, без цензуры, в личку прислать?


      Роман Иванов,
      Яндекс.Браузер


      1. Rondo
        15.07.2015 17:41
        +1

        Все было спланировано bobuk еще неделю назад! (на самом деле нет)

        Скажите, если бы я у вас попросил логи ваших мессенджеров, очищенные от личной информации, на благое дело, вы бы дали?— bobuk ( bobuk ) 9 июля 2015


      1. kukutz
        15.07.2015 19:10
        +8

        Пока ничего в личку не получил :(

        Ещё раз хочу повторить, что такого быть не должно.

        Если у кого-то из читающих этот пост есть аналогичные примеры — присылайте тоже.

        В личку либо на емейл kukutz на yandex-team.ru.


        1. CatHap Автор
          15.07.2015 20:41
          +4

          Прислал в личку лог. Очень рад что вопросом будут заниматься и что так не должно быть.


          1. kukutz
            19.07.2015 18:19
            +3

            В общем, это очень неприятная ошибка.

            Вот комментарий пресс-службы:

            Яндекс.Браузер собирает обезличенную статистическую информацию для улучшения качества Браузера, в которую включаются в том числе и адреса посещённых страниц. Это происходит только в том случае, если человек разрешил делать это в настройках программы (проставил галочку «Отправлять в Яндекс статистику использования»).
            Из-за технической ошибки информация о некоторых таких страницах из Браузера попала в список, индексируемый роботом Яндекса. Мы уже исправили её для сайта, о котором было рассказано на Хабре, и в скором времени исправим ее полностью. Мы благодарны пользователю Хабрахабра за то, что помог найти эту ошибку


            1. CatHap Автор
              19.07.2015 22:05
              +5

              Очень быстрое решение проблемы, здорово. Внес дополнение в пост.

              У меня возникает небольшой «шкурный» вопрос. Могу ли я претендовать на вознаграждение в рамках Вашей программы «Охота за ошибками»?


            1. Borz
              20.07.2015 10:48

              занудства ради, а при установке браузера галочка автоматом стоит или должно быть именно «проставил галочку»?


            1. CatHap Автор
              04.08.2015 19:37

              Прошло 2 недели — ничего не поменялось. На указанный сайт ЯндексБот действительно не заходит. Но на остальные заходит без проблем.


  1. Casus
    15.07.2015 16:15
    -1

    Я другого и не ожидал от яндекс браузера.


  1. akoK
    15.07.2015 16:18
    +3

    Случайно яндекс метрикой не пользуетесь?


    1. sofcase
      15.07.2015 17:38

      C Метрикой вроде YandexMetrika ходит. Ну должна.
      help.yandex.ru/webmaster/robot-workings/check-yandex-robots.xml#robot-in-logs


      1. akoK
        15.07.2015 17:54

        Меня смущает эта часть

        Яндекс.Метрика может передавать URL страниц, на которых установлен счетчик Метрики, на индексацию Яндекс.Поиску.


        Судя по логике следом должен прийти робот поиска


        1. sofcase
          15.07.2015 18:00

          Да, но вроде как не сразу.


          1. vitalybaev
            15.07.2015 18:50

            Это отключается при получении кода счетчика



    1. Longer
      15.07.2015 17:46

      Насколько я понял из статьи, ссылки эти только на мыло приходят, по этому yahoo должен пользоваться ей.


  1. bertmsk
    15.07.2015 16:23
    +2

    Ну гуголбот ходит по приватным ссылкам, которые были «засвечены» в омнибоксе Хрома. Какая разница?
    Браузер — это инструмент компании, его сделавшего, а не ваш.


  1. ascending
    15.07.2015 16:27
    +13

    Автор сайты делать не умеет, а виноваты все кроме него
    w3c, например, разрабатывает по этому поводу специальный документ www.w3.org/TR/capability-urls, в котором упоминает, среди прочего, необходимость закрытия урлов через robots.txt


    1. kaichou
      15.07.2015 17:07

      robots.txt скорее говорит о том, что следует, а что не следует показывать в выдаче.
      Парсить ли эти данные для своих целей — на совести поисковиков.


      1. ascending
        15.07.2015 17:12

        Вообще-то robots.txt придумали не только для поисковиков, а для любых роботов, в т.ч. и тех, которые никому ничего не показывают, и не для приватности, а, в первую очередь, для борьбы с чрезмерной нагрузкой на сервера. Соблюдение его, конечно, дело полностью добровольное, но исходный документ гласит «Disallow: The value of this field specifies a partial URL that is not to be visited.»


    1. AlexGx
      15.07.2015 17:17
      +1

      боты ходят и по приватным ссылкам, дизалоу используется только чтобы подсказать какие страницы не учитывать, но это не значит, что бот по ним не пройдется


      1. docomo
        15.07.2015 19:44
        +1

        Боты — ходят, нормальные боты поисковых систем от гугла и яндекса — нет.


  1. vshemarov
    15.07.2015 16:36
    +3

    Я так понимаю, анализ был направлен конкретно на Я.Бота. Интересно было б проанализировать то же самое в отношении Гугла


  1. Punk_UnDeaD
    15.07.2015 16:51

    Метрику используете?

    legal.yandex.ru/metrica_termsofuse
    11. Пользователь понимает и соглашается с тем, что счётчик, установленный на сайте Пользователя / библиотека, интегрированная в мобильное приложение Пользователя, собирают анонимные (без привязки к персональным данным посетителей сайта / конечных пользователей мобильного приложения) данные о посещениях сайта Пользователя / данные об устройстве конечного пользователя и об использовании им мобильного приложения Пользователя, и в автоматическом режиме передает их Яндексу для получения обобщенной статистической информации, доступной для дальнейшего использования с помощью Сервиса как Пользователю, так и Яндексу в его собственных целях. Если Пользователь не включил запрет отправки страниц сайта на индексацию (http://help.yandex.ru/metrika/code/stop-indexing.xml), адреса (URL) страниц, на которых установлен счётчик, могут передаваться на индексацию Яндексу. При этом Яндекс не гарантирует, что страницы, информация о которых получена подобным образом, обязательно будут проиндексированы и включены в поисковую выдачу.


    1. sofcase
      15.07.2015 17:39
      +2

      Отписал выше, там должен ходить бот YandexMetrika/3.0.


  1. yjurfdw
    15.07.2015 17:01

    Т.е. токен автологина многоразовый?
    ИМХО, если и делать автологин, то только с одноразовым токеном.


    1. esc
      15.07.2015 17:18
      +2

      Угу, пользователь случайно закроет страницу и потом не зайдет, кликнув по письму еще раз. ИМХО дейтинг не та тема, где стоит применять параноидальные правила безопасности.


      1. AlexGx
        15.07.2015 17:21

        если пользователь закроет страницу то он еще какое то время будет залогиненным, тут проблема в том что пришло уведомление на почтовик в телефоне, он глянул с телефона, решил получше рассмотреть даму с пк, а ссылка уже протухла


        1. esc
          15.07.2015 17:24
          +3

          Ну и это тоже. Вообще, одноразовые ссылки в письме допустимы только для смены пароля или других ситуаций, когда пользователь сидит и ждет письмо.


          1. yjurfdw
            16.07.2015 10:05

            Вам виднее. Даже ребята из badoo на это натыкались. Мне кажется, что безопасность все-таки немного важнее.
            habrahabr.ru/post/189040


            1. esc
              16.07.2015 10:16
              +1

              В дейтингах важна конверсия. И их пользователи такие нежные существа, что поставь лишнюю кнопочку и они куда-то разбегаются.

              Безопасность конечно круто, но она бесполезна на сайте, которым мало кто пользуется. Потому решать проблему безопасности надо так, чтобы это не мешало пользователям.

              Букинг например использует многоразовые токены, но при попытке сделать некоторые вещи, попросит пароль. Однако, это не сработает для дейтинга, там многие пароль просто не помнят.

              Пример Баду показывает, что простого решения тут нет.


      1. CatHap Автор
        15.07.2015 20:17

        Полностью согласен. В дейтинге важнее удобство. У нас есть пользователи, которые влогиниваются на сайт по письму, которое высылалось на почту много лет назад.


    1. AlexGx
      15.07.2015 17:19
      +1

      в этом есть логика, но иногда пользователи будут не понимать почему первый раз залогинилось, а через время, или с другого пк/телефона уже нет.


  1. reaferon
    15.07.2015 17:42

    Версия: по ссылке могло сходить расширение к браузеру. У меня был схожий случай, когда какое-то SEO-расширение отправляло свои запросы к открытой странице и вызывало мое недоумение во время разработки. В логах отображалось, что мой браузер дважды запросил страницу.
    Маловероятно, что SEO-расширение (и вообще какое-либо другое) установлено у барышни, но версию проверить стоит.


  1. dom1n1k
    15.07.2015 17:45

    Ранее подобная история была с Метрикой, тогда сослались на якобы баг и добавили параметр.


  1. EnterSandman
    15.07.2015 18:33

    Что за COI модель? Где можно почитать?


    1. thecoder
      15.07.2015 19:41

      Confirmed opt-in.



  1. dinikin
    15.07.2015 18:39

    Автологин по ссылке без ограничения по времени — это конечно сомнительное решение, так как любой, кто будет иметь доступ к вашей Яндекс Метрике (например удалённый SEO фрилансер) будет иметь доступ к аккаунтам пользователей по той причине, что эти урлы отобразятся в статистике метрики после того, как по ним перейдёт юзер


    1. el777
      15.07.2015 19:06

      По уму эти URL не должны отобразиться, т.к. это не страницы со счетчиком, по этому адресу должен сработать редирект, а чтобы реферер не пролез дальше редиректим на пользователя не сразу, а через внутреннюю редиректилку. Если очень надо, то в этом редиректе можно указать какие-то доп. параметры.


  1. Nickmob
    15.07.2015 18:51

    Интересно, а не смотрели, ходят ли другие браузеры (например, Google Chrome и GoogleBot) таким же образом по ссылкам?


    1. CatHap Автор
      15.07.2015 20:30

      У нас уже много лет заблокировано влогинивание от ГуглБота. И это было сделано не просто так.
      Другое дело что сейчас он делает — этого уже я не знаю.


  1. Hidadmin
    15.07.2015 19:32
    +1

    Это старая тема )
    Известно что боты яндекса ходят по ссылкам Яндекс-почты.
    Даже был такой кейс быстрой индексации новых страниц сайта: отправить товарищу на яндекс-почту письмо со ссылками на новые страницы своего сайта — робот яндекса обработает письмо, перейдет по гиперссылкам и быстрее проиндексирует новые страницы, нежели как он это делает обычным образом.
    Не факт что это работает, но в данном топике мы услышами еще одно подтверждение этому.


    1. CatHap Автор
      15.07.2015 20:29

      Здесь надо отличать «бот проиндексировал» от «попало в выдачу». Ссылки у нас в выдачу не попадали.


      1. Hidadmin
        15.07.2015 20:37

        Я и не писал что это доказанно работает, но что ходит по сылкам это известный факт


    1. zenn
      15.07.2015 20:46
      +1

      Действительно старая, битая тема. Кто вариться в SEO котле давно знают о мифах и легендах вокруг «яндекс.браузера», «элементов яндекса» и успешно этим пользуются в кейсах «поведенческого продвижения».


      1. Yavanosta
        15.07.2015 21:42
        +9

        Те кто вариться в SEO котле


        Вы выбили страйк по количеству ненависти к комментарию.


    1. rocket
      15.07.2015 22:21

      А не проще добавлять ссылки напрямую в аддурилку, чем колдовать с письмами?


      1. Hidadmin
        15.07.2015 22:32

        Если бы яндекс индексировал со скоростью гугла…
        Поэтому приходится как-то выкручиваться / извращаться.


    1. jogur_t
      16.07.2015 13:13
      +3

      Ни в коем случае! Нет, нет и нет!
      По ссылкам мы идем только перед тем как человек на них нажимает (прямо в момент клика) и то, не идем, а сравниваем с нашей базой зараженных сайтов, чтобы успеть предупредить, если на сайте вирус и другой небезопасный контент.

      То о чем говорите вы может повлечь за собой очень серьезные репутационные риски. Мы этим не занимаемся.

      — Егор Ганин
      Я.Почта


      1. Hidadmin
        16.07.2015 14:28

        Цитата из письма:

        Можно видеть, что пользователь зашел из письма по 7 ссылкам и по 4-м из них практически сразу прошелся ЯндексБот.

        Мой личный вывод: Яндекс.Браузер и Опера от Яндекса собирают ссылки, по которым кликает пользователь. Они анализируются и по части ссылок проходится ЯндексБот. Началось это 03.04.2015.


        Да и эта стья не первая про переходы на сайт из почты яндекса.


        1. CatHap Автор
          16.07.2015 15:16

          У меня ничего не было написано про Яндекс.Почту.

          Там были свои странности, но теперь они понятны — они заходят по ссылкам чтобы «проверить на вирусы». Ну, точнее, «не заходят» — Егор, извините за некоторую иронию.

          Мне кажется что такое сканирование тоже не совсем корректное. Даже если для заботы о пользователях.

          Ведь есть только Ваши слова «Мы этим не занимаемся». Но нет никакой гарантии, что Вы обладаете полной информацией.


          1. Hidadmin
            16.07.2015 15:47

            Так или иначе в вашей статье эта была Опера сборки тогоже Яндекса.
            Мне например неприятно, что ссылки из моих писем заносятся в какую-то БД, плюс боты в свою очередь переходят по ссылкам и т.п.
            Ведь это конфиденциальная информация все-таки.

            Одно дело проверяь письмо на вирус и другое логировать все ссылки и переходить по ним, когда они адресованы не вам.


            1. jogur_t
              16.07.2015 16:00

              Ссылки из ваших писем, если вы по ним не переходили, ни в какую базу не заносятся.


              1. CatHap Автор
                17.07.2015 10:04

                Вопрос тогда — а robots.txt сайта учитываются?


                1. alexeimoisseev
                  17.07.2015 23:35
                  +1

                  Переход по ссылке (GET-запрос) не делается. Только текстовое представление ссылки анализируется на предмет вредоносности. А раз переходы не делаются, то и robots.txt сайта тут не при чем.


                  1. CatHap Автор
                    19.07.2015 12:30

                    Большое спасибо за ответ. Я провел анализ логов и полностью подтверждаю. Дописал в пост снизу


    1. ivlad
      16.07.2015 17:05
      +2

      Известно что боты яндекса ходят по ссылкам Яндекс-почты
      Не ходят


  1. Fenja
    15.07.2015 23:12
    +3

    Вы бы поосторожнее с яндексом то, а то друг придет НЛО habrahabr и всех разгонит…

    Картинка


    1. deniskin
      15.07.2015 23:18
      +3

      С аккаунта habrahabr был опубликован анонс о перезапуске сервиса Мой круг. Чтобы он был доступен и в блоге Яндекса, этот аккаунт был наделен правами «редактор», что подразумевает автоматический перевод в сотрудники Яндекса на Хабре.


      1. tangro
        16.07.2015 00:26
        +1

        Что, конечно же, не верно, поскольку мало ли где я работаю и мало ли куда я пишу статьи.


  1. nelson
    16.07.2015 00:23
    +1

    Извините за оффтоп, но

    если получили «отлуп (bounce)», то автоматически блокируем ящик
    можете рассказать в двух словах, тут, в личку или отдельным постом, о том, какую технологию вы здесь используете? Есть какая то библиотека?


    1. CatHap Автор
      16.07.2015 11:46
      +3

      Тут в двух словах —
      В письмо в заголовки должно вставляться
      Return-Path: <bounce-200000912656-0162d5b5ab07271dd4a97617e4b788a2@bounces.site.com>
      И настроен соответствующим образом почтовый демон (есть это всех распространенных).

      При неудачной попытке посылке письма, почтовик пересылает письмо на данный адрес, с указанием причины что пошло не так, включая текст «отлупа» от сервера-получателя.

      Почта на bounces.site.com заворачивается на скрипт, который парсит адрес — у нас это «bounce-CONTACTID-ПРОВЕРОЧНЫЙХЕШ», и помечает данный contactid как неработающий. И, конечно, занесение причин почему это случилось.


      1. nelson
        16.07.2015 17:43

        Тоже у себя пытаемся анализировать возвращенные письма, но у нас один noreply-адрес в заголовках Reply-To и Return-Path, и кроме сообщений о недоставке также приходят всякие автоответы. Из-за этого приходится разбирать каждый bounce скриптом — на предмет того это ошибка или автоответчик. А если делать разные, то как я понимаю, автоответы будут идти на адрес из Reply, а недоставка — на Return?

        Да и вытягивание из текста сообщения о недоставке самого адреса получателя — задача нетривиальная, т.к. у всех почтовиков свой формат и они иногда меняются. А ваш способ зашить айдишку получателя прямо в адрес, на который приходит письмо, решает эту проблему.

        Большое спасибо за то, что поделились опытом!


  1. nelson
    16.07.2015 00:25

    Ещё — если на странице стоят блоки контекстной рекламы, то их бот также зайдет на эту страницу после посещения её пользователем.
    Правда, в этом случае на хорошо спроектированном сайте уже не будет автологина в get-параметрах, но всё равно может быть неприятно.


  1. evnuh
    16.07.2015 01:43

    Собственно, это уже давно выяснили, когда приватные документы с fl.ru появились в выдаче: habrahabr.ru/post/253943
    Потому что робот тоже человек, поэтому и ходит куда попало. Единственное отличие от человеков — у него есть совесть, ему можно сказать «нельзя!» файлом robots.txt и он послушается беспрекословно.


    1. Pilat
      16.07.2015 03:07

      Похожее было и с чтением SMS от нескольких мобильных операторов. Если память не измениет, в браузере стояла какая-то панель от Яндекса и посылала посещённые ссылки.


      1. kukutz
        19.07.2015 18:26

        Метрика там была на странице.


  1. ComodoHacker
    16.07.2015 10:27
    -1

    Просто Яндекс работает над более релевантной выдачей по запросу «username1 посмотрела username2». :)

    А может, в недрах Яндекса зреет мегапроект: спарсить граф отношений всего Рунета со всех сайтов знакомств и соцсетей.


  1. shanker
    16.07.2015 10:38
    -1

    Ну, вот вам и очередное подтверждение, что бесплатный сыр бывает только в мышеловке. Не зря ж они тратят время на создание браузера и платят деньги разработчикам.


  1. darkgool
    16.07.2015 10:50
    +2

    Яндекс боты честно передают в UAG Mozilla/5.0 (compatible; ...; +http://yandex.com/bots ...). Проверяйте на странице автологина UAG пользователя и отдавайте 403 или страницу честного логина, если определили бота. Нормальные люди никак не передадут вам неправильный заголовок. Посмотрите в сторону browscap.org, это поможет лучше понимать, кто к вам пришел (хотя у них в базе не все яндекс боты, к сожалению).
    Также можете поставить куку с хешем ip+useragent и проверять ее через редирект. Куки включены у 99% обычных пользователей, а боты их передают крайне редко, яндекс точно не поддерживает.

    Кроме яндекса приватные ссылки могут случайно попасть еще к невесть каким ботам (в том числе через панельки браузера, которые ставятся по-умолчанию с кучей софта). Будет неприятно, если однажды кто-то найдет свою переписку в публичном доступе.


    1. un1t
      17.07.2015 17:48

      Я сомневаюсь что яндекс боты всегда передают, что они боты в юзерагенте. Гугл на моем сайте прикидывался какими-то мобильными барузерами, и ходил по ссылкам, попасть на которые не возможно с мобильной версии. Там вываливалась 500 и гугл писал это в своем вебмастере, так я понял, что это был гугл.


    1. ONEGiN
      20.07.2015 01:56

      Придумывая такие замысловатые способы с переадресациями нужно быть готовым к сюрпризам со стороны антивирусов и прочих полезных фис типа safewrowsing.


  1. haskel
    16.07.2015 16:21
    -4

    А если в user-agent будет написано ObamaPrivateDataLurcher, вы обвините госдеп в слежке? Как-то непрофессионально это что-ли


    1. T-D-K
      16.07.2015 17:20
      +3

      Если вы выборочно читали текст, то это ваши проблемы.

      11 заходов на сайт с ip 178.154.243.78… По whois ip-адрес действительно принадлежит Yandex LLC.


      1. haskel
        16.07.2015 18:52
        -3

        ip адресата пакета еще ничего не говорит об отправителе, если речь идет о некоторой атаке


        1. ekungurov
          24.07.2015 21:02

          Ничоси!


  1. un1t
    17.07.2015 17:44
    +2

    Тоже мне америку открыли. У меня на сайте есть страницы закрытые в robots.txt и во всех ссылках на них указано rel=nofollow. Яндексу никто не мешает ходить по этим ссылкам, даже в вебмастере указано, что он их загрузил.
    Про подобную проблему я читал в книге иностранного атора году в 2009м, на сайте сделали удаление чего-то там методом GET. И внезапно у пользователей начало все удаляться. Уже не помню кто там ходил по этим ссылкам, толи поисковик, толи какой-то тулбар, но проблема определенно далеко не нова.


  1. ktrunin
    21.07.2015 11:21

    А в чем новость-то?
    Достаточно помнить что все что вы отправили или выложили в интернет незапароленным могут прочитать админы интернет-кафе и на вашей работе, провайдеры интернета, и ваши браузеры. У всех этих сторон есть свои интересы. Если ваша информация очень ценная и соответствует их интересам, то она гарантированно рано или поздно утечет и будет использована без вашего ведома.
    Просто соблюдайте интернет-гигиену:
    1. Ничего очень ценного в интернет попадать не должно.
    2. Если все-таки нужно что-то ценное передать, то оно должно быть зашифровано и пароль передан, желательно частями, по другим каналам.
    3. Без шифрования не пишите и не отправляйте ничего такого от огласки чего вам потом станет очень нехорошо — даже в анонимном режиме, через VPN и под псевдонимом.


  1. RUnnerTomsk
    21.07.2015 13:06

    Если интересно — то microsoft ходит по ссылкам что вы в скайпе друг-другу отправляете.
    Т.е. если я отправил ссылку Васе через скайп, то по ней следом заходит skype с ip адреса майкрософта.
    Для «превью», я так понимаю, но с этим бывают очень неприятные казусы — как-то передал я товарищу ссылку на тестирование отправки заказов, без форм, внутреннюю, чтобы проверить SOAP обмен данными.
    Так вот — обмен запустился, сам собой, с ip адреса microsoft в ирландии была «ткнута» отправленная ссылка сразу после отправки.
    Так что у всех такие «косяки» есть, просто мы о них не задумываемся.
    зызы: заказ сформировался, ушел клиенту, реально ушел, мы уже задним счетом «разматывали» цепочку, как так ушел заказ который клиент не делал. Оказалось превьюха скайпа оформила заказ )


  1. silicon
    22.07.2015 01:53

    Даже и не знаю теперь, что думать о письмах, приходящих на яндекс-почту…


    1. tundrawolf_kiba
      22.07.2015 12:39

      habrahabr.ru/post/262695/#comment_8502219