В качестве небольшого отступления расскажу кратко о себе. Я, в числе прочих дел, занимаюсь серверной и админской частью на небольшом сайте серьезных знакомств. Сайт небольшой, и на нем, конечно же, есть рассылки на почту пользователям (новые письма, новые пользователи). Чтобы не звучало «спамеры», уточню, что все рассылки на 100% соответствуют COI модели — одобрены пользователем, он всегда и везде может от них отписаться, если получили «отлуп (bounce)», то автоматически блокируем ящик и т.д. Несколько лет назад на нас сильно обиделся Spamhaus и опыт общения с ними мне запомнился на всю эту жизнь. Поэтому корректность рассылок для нас крайне приоритетна.
В письмах, которые мы рассылаем пользователям, есть ссылки на профайлы других пользователей на сайте. По каждой такой ссылке работает авто-прилогинивание. Т.к. пароли мало кто помнит, а наша задача сделать так, чтобы пользователю было удобно заходить на сайт как можно проще и быстрее. Конечно, при взломе почты пользователя будет утечка доступа к нашему сайту, но считаю, что в данном случае удобство важнее паранойи.
Итак, посмотрев лог захода девушки, которая к нам обратилась, я увидел только за сегодняшний день (на 8 часов утра) 11 заходов на сайт с ip 178.154.243.78 и юзер-агентом Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots). По whois ip-адрес действительно принадлежит Yandex LLC. Смотрю аккаунт девушки — почта на yahoo.com. Ищу заходы самой девушки по логам — нашел, юзер агент — Opera/9.80 (Windows NT 6.1; Edition Yx) Presto/2.12.388 Version/12.15, т.е. десктопная Opera, собранная Яндексом (Edition Yx). Вариантов, откуда Яндекс узнал о существовании 11 разных приватных ссылок, два.
1) Девушка заходила по этим ссылкам и Опера «стучала» об этом в Яндекс;
2) Она смотрела почту Yahoo через Оперу, используя сжатие данных, и Яндекс при проксировании (у девушки оно включено) собирал все ссылки, которые там были, для дальнейшего «использования». Опрос девушки подтвердил — Опера от Яндекса, сжатие данных, почта Yahoo. Но, забегая вперед, скажу, что больше доверяю 1-му варианту.
Продолжил копать. За 8 часов сегодняшнего лога nginx (11 часов по Москве, лог начинается с 0 по GMT), было 350 уникальных залогиниваний от ЯндексБота. Смотрю дальше — это всё оказалось по приватным ссылкам от 15 пользователей. Посмотрел двух случайных. Оба пользователя используют чистый Яндекс.Браузер. Без проксирования. Заходы ЯндексБота в аккаунт начались у всех 03.04.2015.
Решил найти наиболее «чистый» вариант. И нашел. У нас ссылки, которые мы даем, включают дату формирования письма. Поэтому не составляло большого труда (grep + awk) найти в логе nginx заходы из письма, который мы сегодня и отправляли пользователю.
Приведу лог nginx (ip юзера, сайт, точная ссылка изменены):
site.ru 1.1.1.1 - - [26/Jun/2015:08:12:18 +0000] "GET /member/detail/111111750?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6803 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.107 cs=-upstream: 192.168.106.14:7002 answer=200 response=0.107 0.107
site.ru 1.1.1.1 - - [26/Jun/2015:08:12:18 +0000] "GET /member/detail/111111750?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6803 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.092 cs=-upstream: 192.168.106.4:7002 answer=200 response=0.092 0.092
site.ru 1.1.1.1 - - [26/Jun/2015:08:12:30 +0000] "GET /member/detail/111111708?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6354 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.049 cs=-upstream: 192.168.106.12:7002 answer=200 response=0.049 0.049
site.ru 1.1.1.1 - - [26/Jun/2015:08:12:30 +0000] "GET /member/detail/111111708?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6331 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.030 cs=-upstream: 192.168.106.10:7002 answer=200 response=0.030 0.030
site.ru 1.1.1.1 - - [26/Jun/2015:08:12:45 +0000] "GET /member/detail/111111436?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6293 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.047 cs=-upstream: 192.168.106.18:7002 answer=200 response=0.047 0.047
site.ru 1.1.1.1 - - [26/Jun/2015:08:13:00 +0000] "GET /member/detail/111111053?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6630 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.030 cs=-upstream: 192.168.106.10:7002 answer=200 response=0.030 0.030
site.ru 1.1.1.1 - - [26/Jun/2015:08:13:08 +0000] "GET /member/detail/111110974?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6542 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.045 cs=-upstream: 192.168.106.12:7002 answer=200 response=0.045 0.045
site.ru 1.1.1.1 - - [26/Jun/2015:08:13:24 +0000] "GET /member/detail/111110878?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 7651 "-" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 YaBrowser/15.6.2311.4046 Safari/537.36" "-" 0.102 cs=-upstream: 192.168.106.12:7002 answer=200 response=0.102 0.102
site.ru 5.255.253.141 - - [26/Jun/2015:08:13:26 +0000] "GET /member/detail/111111053?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6741 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" "-" 0.113 cs=-upstream: 192.168.106.4:7002 answer=200 response=0.113 0.113
site.ru 5.255.253.141 - - [26/Jun/2015:08:13:32 +0000] "GET /member/detail/111110974?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6651 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" "-" 0.161 cs=-upstream: 192.168.106.6:7002 answer=200 response=0.161 0.161
site.ru 5.255.253.141 - - [26/Jun/2015:08:13:34 +0000] "GET /member/detail/111111436?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 6405 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" "-" 0.140 cs=-upstream: 192.168.106.10:7002 answer=200 response=0.140 0.140
site.ru 5.255.253.141 - - [26/Jun/2015:08:13:43 +0000] "GET /member/detail/111110878?a=1&c=10000080000&v=11ebeedf6eeam4ihkdeb7540037b5ab7&mail=1435305126_60&t=1 HTTP/1.1" 200 7764 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)" "-" 0.117 cs=-upstream: 192.168.106.18:7002 answer=200 response=0.117 0.117
Можно видеть, что пользователь зашел из письма по 7 ссылкам и по 4-м из них практически сразу прошелся ЯндексБот.
В поисковой выдаче я результатов не нашел. Что Яндекс с ними делает, знает только Яндекс.
Мой личный вывод: Яндекс.Браузер и Опера от Яндекса собирают ссылки, по которым кликает пользователь. Они анализируются и по части ссылок проходится ЯндексБот. Началось это 03.04.2015.
Update от 19.07.2015
Хочу подтвердить слова работников яндекса из комментариев, что по ссылкам из почты бот не заходит. Это факт. Я проверил логи за несколько дней, и не нашел ни одного вхождения по ссылкам из Яндекс-почты их роботом.
Update от 19.07.2015 — финальный в данном посте
Взято ниже из комментария kukutz
В общем, это очень неприятная ошибка.
Вот комментарий пресс-службы:
Яндекс.Браузер собирает обезличенную статистическую информацию для улучшения качества Браузера, в которую включаются в том числе и адреса посещённых страниц. Это происходит только в том случае, если человек разрешил делать это в настройках программы (проставил галочку «Отправлять в Яндекс статистику использования»).
Из-за технической ошибки информация о некоторых таких страницах из Браузера попала в список, индексируемый роботом Яндекса. Мы уже исправили её для сайта, о котором было рассказано на Хабре, и в скором времени исправим ее полностью. Мы благодарны пользователю Хабрахабра за то, что помог найти эту ошибку
Комментарии (113)
Makaveli
15.07.2015 16:11+15А вы закрыли для автологинящих ссылок доступ роботам через robots.txt?
Никого не оправдываю, но мне кажется, что такие ссылки опасны сами по себе, так же может пролезть уйма чего. Часто тыкал на ссылку — браузер решил добавить адрес в список часто используемых и, например, сделал скриншот-превьюшку страницы.
Когда шаришь где-то ссылку — то же самое происходит — софт проходит по ссылке чтобы подобрать миниатюру, описание или выбрать картинку. Даже в Skype уже когда кидаешь ссылку он сам по ссылке лезет чтобы красиво её в чате оформить.tundrawolf_kiba
15.07.2015 16:35+1>Часто тыкал на ссылку — браузер решил добавить адрес в список часто используемых и, например, сделал скриншот-превьюшку страницы.
Или как вариант — когда браузер делает предзагрузку страниц, для быстрого перехода к ним, если пользователь решил тыкнуть.zaz600
16.07.2015 03:07+1Или как вариант — когда браузер делает предзагрузку страниц, для быстрого перехода к ним, если пользователь решил тыкнуть
Согласен про предзагрузку, но это должен делать браузер, а не нечто с юзер-агентом яндексБот
CatHap Автор
15.07.2015 20:23+5Мы сделали защиту от влогинивания ЯндексБотом (для ГуглБота это было сделано уже много лет назад).
И по моему опыту, robots.txt часто воспринимается как рекомендация, а не как жесткое обязательство для ботов. Точнее я не скажу (давно было), но полагаться на закрытие аутенфикации по ссылке внесением записи в robots.txt я бы точно не стал
QtRoS
15.07.2015 16:14+18И кто после этого умышленно установит себе, например, Яндекс.Браузер? Чего ожидают работники Яндекса? О каком доверии потребителя может быть идти речь?
Хочется услышать ответ от представителей компании.kukutz
15.07.2015 16:53+19Нам тоже интересно разобраться в ситуации. Такого быть не должно.
CatHap, можно Вас попросить настоящий лог, без цензуры, в личку прислать?
—
Роман Иванов,
Яндекс.БраузерRondo
15.07.2015 17:41+1Все было спланировано bobuk еще неделю назад! (на самом деле нет)
Скажите, если бы я у вас попросил логи ваших мессенджеров, очищенные от личной информации, на благое дело, вы бы дали?— bobuk ( bobuk ) 9 июля 2015
kukutz
15.07.2015 19:10+8Пока ничего в личку не получил :(
Ещё раз хочу повторить, что такого быть не должно.
Если у кого-то из читающих этот пост есть аналогичные примеры — присылайте тоже.
В личку либо на емейл kukutz на yandex-team.ru.CatHap Автор
15.07.2015 20:41+4Прислал в личку лог. Очень рад что вопросом будут заниматься и что так не должно быть.
kukutz
19.07.2015 18:19+3В общем, это очень неприятная ошибка.
Вот комментарий пресс-службы:
Яндекс.Браузер собирает обезличенную статистическую информацию для улучшения качества Браузера, в которую включаются в том числе и адреса посещённых страниц. Это происходит только в том случае, если человек разрешил делать это в настройках программы (проставил галочку «Отправлять в Яндекс статистику использования»).
Из-за технической ошибки информация о некоторых таких страницах из Браузера попала в список, индексируемый роботом Яндекса. Мы уже исправили её для сайта, о котором было рассказано на Хабре, и в скором времени исправим ее полностью. Мы благодарны пользователю Хабрахабра за то, что помог найти эту ошибкуCatHap Автор
19.07.2015 22:05+5Очень быстрое решение проблемы, здорово. Внес дополнение в пост.
У меня возникает небольшой «шкурный» вопрос. Могу ли я претендовать на вознаграждение в рамках Вашей программы «Охота за ошибками»?
Borz
20.07.2015 10:48занудства ради, а при установке браузера галочка автоматом стоит или должно быть именно «проставил галочку»?
CatHap Автор
04.08.2015 19:37Прошло 2 недели — ничего не поменялось. На указанный сайт ЯндексБот действительно не заходит. Но на остальные заходит без проблем.
akoK
15.07.2015 16:18+3Случайно яндекс метрикой не пользуетесь?
sofcase
15.07.2015 17:38C Метрикой вроде YandexMetrika ходит. Ну должна.
help.yandex.ru/webmaster/robot-workings/check-yandex-robots.xml#robot-in-logsakoK
15.07.2015 17:54Меня смущает эта часть
Яндекс.Метрика может передавать URL страниц, на которых установлен счетчик Метрики, на индексацию Яндекс.Поиску.
Судя по логике следом должен прийти робот поискаivlad
16.07.2015 17:03В Метрике есть функциональность запрета отправки страниц на индексацию в поисковый робот.
Longer
15.07.2015 17:46Насколько я понял из статьи, ссылки эти только на мыло приходят, по этому yahoo должен пользоваться ей.
bertmsk
15.07.2015 16:23+2Ну гуголбот ходит по приватным ссылкам, которые были «засвечены» в омнибоксе Хрома. Какая разница?
Браузер — это инструмент компании, его сделавшего, а не ваш.
ascending
15.07.2015 16:27+13Автор сайты делать не умеет, а виноваты все кроме него
w3c, например, разрабатывает по этому поводу специальный документ www.w3.org/TR/capability-urls, в котором упоминает, среди прочего, необходимость закрытия урлов через robots.txtkaichou
15.07.2015 17:07robots.txt скорее говорит о том, что следует, а что не следует показывать в выдаче.
Парсить ли эти данные для своих целей — на совести поисковиков.ascending
15.07.2015 17:12Вообще-то robots.txt придумали не только для поисковиков, а для любых роботов, в т.ч. и тех, которые никому ничего не показывают, и не для приватности, а, в первую очередь, для борьбы с чрезмерной нагрузкой на сервера. Соблюдение его, конечно, дело полностью добровольное, но исходный документ гласит «Disallow: The value of this field specifies a partial URL that is not to be visited.»
vshemarov
15.07.2015 16:36+3Я так понимаю, анализ был направлен конкретно на Я.Бота. Интересно было б проанализировать то же самое в отношении Гугла
Punk_UnDeaD
15.07.2015 16:51Метрику используете?
legal.yandex.ru/metrica_termsofuse
11. Пользователь понимает и соглашается с тем, что счётчик, установленный на сайте Пользователя / библиотека, интегрированная в мобильное приложение Пользователя, собирают анонимные (без привязки к персональным данным посетителей сайта / конечных пользователей мобильного приложения) данные о посещениях сайта Пользователя / данные об устройстве конечного пользователя и об использовании им мобильного приложения Пользователя, и в автоматическом режиме передает их Яндексу для получения обобщенной статистической информации, доступной для дальнейшего использования с помощью Сервиса как Пользователю, так и Яндексу в его собственных целях. Если Пользователь не включил запрет отправки страниц сайта на индексацию (http://help.yandex.ru/metrika/code/stop-indexing.xml), адреса (URL) страниц, на которых установлен счётчик, могут передаваться на индексацию Яндексу. При этом Яндекс не гарантирует, что страницы, информация о которых получена подобным образом, обязательно будут проиндексированы и включены в поисковую выдачу.
yjurfdw
15.07.2015 17:01Т.е. токен автологина многоразовый?
ИМХО, если и делать автологин, то только с одноразовым токеном.esc
15.07.2015 17:18+2Угу, пользователь случайно закроет страницу и потом не зайдет, кликнув по письму еще раз. ИМХО дейтинг не та тема, где стоит применять параноидальные правила безопасности.
AlexGx
15.07.2015 17:21если пользователь закроет страницу то он еще какое то время будет залогиненным, тут проблема в том что пришло уведомление на почтовик в телефоне, он глянул с телефона, решил получше рассмотреть даму с пк, а ссылка уже протухла
esc
15.07.2015 17:24+3Ну и это тоже. Вообще, одноразовые ссылки в письме допустимы только для смены пароля или других ситуаций, когда пользователь сидит и ждет письмо.
yjurfdw
16.07.2015 10:05Вам виднее. Даже ребята из badoo на это натыкались. Мне кажется, что безопасность все-таки немного важнее.
habrahabr.ru/post/189040esc
16.07.2015 10:16+1В дейтингах важна конверсия. И их пользователи такие нежные существа, что поставь лишнюю кнопочку и они куда-то разбегаются.
Безопасность конечно круто, но она бесполезна на сайте, которым мало кто пользуется. Потому решать проблему безопасности надо так, чтобы это не мешало пользователям.
Букинг например использует многоразовые токены, но при попытке сделать некоторые вещи, попросит пароль. Однако, это не сработает для дейтинга, там многие пароль просто не помнят.
Пример Баду показывает, что простого решения тут нет.
CatHap Автор
15.07.2015 20:17Полностью согласен. В дейтинге важнее удобство. У нас есть пользователи, которые влогиниваются на сайт по письму, которое высылалось на почту много лет назад.
AlexGx
15.07.2015 17:19+1в этом есть логика, но иногда пользователи будут не понимать почему первый раз залогинилось, а через время, или с другого пк/телефона уже нет.
reaferon
15.07.2015 17:42Версия: по ссылке могло сходить расширение к браузеру. У меня был схожий случай, когда какое-то SEO-расширение отправляло свои запросы к открытой странице и вызывало мое недоумение во время разработки. В логах отображалось, что мой браузер дважды запросил страницу.
Маловероятно, что SEO-расширение (и вообще какое-либо другое) установлено у барышни, но версию проверить стоит.
dom1n1k
15.07.2015 17:45Ранее подобная история была с Метрикой, тогда сослались на якобы баг и добавили параметр.
dinikin
15.07.2015 18:39Автологин по ссылке без ограничения по времени — это конечно сомнительное решение, так как любой, кто будет иметь доступ к вашей Яндекс Метрике (например удалённый SEO фрилансер) будет иметь доступ к аккаунтам пользователей по той причине, что эти урлы отобразятся в статистике метрики после того, как по ним перейдёт юзер
el777
15.07.2015 19:06По уму эти URL не должны отобразиться, т.к. это не страницы со счетчиком, по этому адресу должен сработать редирект, а чтобы реферер не пролез дальше редиректим на пользователя не сразу, а через внутреннюю редиректилку. Если очень надо, то в этом редиректе можно указать какие-то доп. параметры.
Nickmob
15.07.2015 18:51Интересно, а не смотрели, ходят ли другие браузеры (например, Google Chrome и GoogleBot) таким же образом по ссылкам?
CatHap Автор
15.07.2015 20:30У нас уже много лет заблокировано влогинивание от ГуглБота. И это было сделано не просто так.
Другое дело что сейчас он делает — этого уже я не знаю.
Hidadmin
15.07.2015 19:32+1Это старая тема )
Известно что боты яндекса ходят по ссылкам Яндекс-почты.
Даже был такой кейс быстрой индексации новых страниц сайта: отправить товарищу на яндекс-почту письмо со ссылками на новые страницы своего сайта — робот яндекса обработает письмо, перейдет по гиперссылкам и быстрее проиндексирует новые страницы, нежели как он это делает обычным образом.
Не факт что это работает, но в данном топике мы услышами еще одно подтверждение этому.zenn
15.07.2015 20:46+1Действительно старая, битая тема. Кто вариться в SEO котле давно знают о мифах и легендах вокруг «яндекс.браузера», «элементов яндекса» и успешно этим пользуются в кейсах «поведенческого продвижения».
Yavanosta
15.07.2015 21:42+9Те кто вариться в SEO котле
Вы выбили страйк по количеству ненависти к комментарию.
jogur_t
16.07.2015 13:13+3Ни в коем случае! Нет, нет и нет!
По ссылкам мы идем только перед тем как человек на них нажимает (прямо в момент клика) и то, не идем, а сравниваем с нашей базой зараженных сайтов, чтобы успеть предупредить, если на сайте вирус и другой небезопасный контент.
То о чем говорите вы может повлечь за собой очень серьезные репутационные риски. Мы этим не занимаемся.
— Егор Ганин
Я.ПочтаHidadmin
16.07.2015 14:28Цитата из письма:
Можно видеть, что пользователь зашел из письма по 7 ссылкам и по 4-м из них практически сразу прошелся ЯндексБот.
Мой личный вывод: Яндекс.Браузер и Опера от Яндекса собирают ссылки, по которым кликает пользователь. Они анализируются и по части ссылок проходится ЯндексБот. Началось это 03.04.2015.
Да и эта стья не первая про переходы на сайт из почты яндекса.CatHap Автор
16.07.2015 15:16У меня ничего не было написано про Яндекс.Почту.
Там были свои странности, но теперь они понятны — они заходят по ссылкам чтобы «проверить на вирусы». Ну, точнее, «не заходят» — Егор, извините за некоторую иронию.
Мне кажется что такое сканирование тоже не совсем корректное. Даже если для заботы о пользователях.
Ведь есть только Ваши слова «Мы этим не занимаемся». Но нет никакой гарантии, что Вы обладаете полной информацией.Hidadmin
16.07.2015 15:47Так или иначе в вашей статье эта была Опера сборки тогоже Яндекса.
Мне например неприятно, что ссылки из моих писем заносятся в какую-то БД, плюс боты в свою очередь переходят по ссылкам и т.п.
Ведь это конфиденциальная информация все-таки.
Одно дело проверяь письмо на вирус и другое логировать все ссылки и переходить по ним, когда они адресованы не вам.jogur_t
16.07.2015 16:00Ссылки из ваших писем, если вы по ним не переходили, ни в какую базу не заносятся.
CatHap Автор
17.07.2015 10:04Вопрос тогда — а robots.txt сайта учитываются?
alexeimoisseev
17.07.2015 23:35+1Переход по ссылке (GET-запрос) не делается. Только текстовое представление ссылки анализируется на предмет вредоносности. А раз переходы не делаются, то и robots.txt сайта тут не при чем.
CatHap Автор
19.07.2015 12:30Большое спасибо за ответ. Я провел анализ логов и полностью подтверждаю. Дописал в пост снизу
Fenja
15.07.2015 23:12+3Вы бы поосторожнее с яндексом то, а то друг придет
НЛОhabrahabr и всех разгонит…
Картинкаdeniskin
15.07.2015 23:18+3С аккаунта habrahabr был опубликован анонс о перезапуске сервиса Мой круг. Чтобы он был доступен и в блоге Яндекса, этот аккаунт был наделен правами «редактор», что подразумевает автоматический перевод в сотрудники Яндекса на Хабре.
tangro
16.07.2015 00:26+1Что, конечно же, не верно, поскольку мало ли где я работаю и мало ли куда я пишу статьи.
nelson
16.07.2015 00:23+1Извините за оффтоп, но
если получили «отлуп (bounce)», то автоматически блокируем ящик
можете рассказать в двух словах, тут, в личку или отдельным постом, о том, какую технологию вы здесь используете? Есть какая то библиотека?CatHap Автор
16.07.2015 11:46+3Тут в двух словах —
В письмо в заголовки должно вставляться
Return-Path: <bounce-200000912656-0162d5b5ab07271dd4a97617e4b788a2@bounces.site.com>
И настроен соответствующим образом почтовый демон (есть это всех распространенных).
При неудачной попытке посылке письма, почтовик пересылает письмо на данный адрес, с указанием причины что пошло не так, включая текст «отлупа» от сервера-получателя.
Почта на bounces.site.com заворачивается на скрипт, который парсит адрес — у нас это «bounce-CONTACTID-ПРОВЕРОЧНЫЙХЕШ», и помечает данный contactid как неработающий. И, конечно, занесение причин почему это случилось.nelson
16.07.2015 17:43Тоже у себя пытаемся анализировать возвращенные письма, но у нас один noreply-адрес в заголовках Reply-To и Return-Path, и кроме сообщений о недоставке также приходят всякие автоответы. Из-за этого приходится разбирать каждый bounce скриптом — на предмет того это ошибка или автоответчик. А если делать разные, то как я понимаю, автоответы будут идти на адрес из Reply, а недоставка — на Return?
Да и вытягивание из текста сообщения о недоставке самого адреса получателя — задача нетривиальная, т.к. у всех почтовиков свой формат и они иногда меняются. А ваш способ зашить айдишку получателя прямо в адрес, на который приходит письмо, решает эту проблему.
Большое спасибо за то, что поделились опытом!
nelson
16.07.2015 00:25Ещё — если на странице стоят блоки контекстной рекламы, то их бот также зайдет на эту страницу после посещения её пользователем.
Правда, в этом случае на хорошо спроектированном сайте уже не будет автологина в get-параметрах, но всё равно может быть неприятно.
evnuh
16.07.2015 01:43Собственно, это уже давно выяснили, когда приватные документы с fl.ru появились в выдаче: habrahabr.ru/post/253943
Потому что робот тоже человек, поэтому и ходит куда попало. Единственное отличие от человеков — у него есть совесть, ему можно сказать «нельзя!» файлом robots.txt и он послушается беспрекословно.
ComodoHacker
16.07.2015 10:27-1Просто Яндекс работает над более релевантной выдачей по запросу «username1 посмотрела username2». :)
А может, в недрах Яндекса зреет мегапроект: спарсить граф отношений всего Рунета со всех сайтов знакомств и соцсетей.
shanker
16.07.2015 10:38-1Ну, вот вам и очередное подтверждение, что бесплатный сыр бывает только в мышеловке. Не зря ж они тратят время на создание браузера и платят деньги разработчикам.
darkgool
16.07.2015 10:50+2Яндекс боты честно передают в UAG Mozilla/5.0 (compatible; ...; +http://yandex.com/bots ...). Проверяйте на странице автологина UAG пользователя и отдавайте 403 или страницу честного логина, если определили бота. Нормальные люди никак не передадут вам неправильный заголовок. Посмотрите в сторону browscap.org, это поможет лучше понимать, кто к вам пришел (хотя у них в базе не все яндекс боты, к сожалению).
Также можете поставить куку с хешем ip+useragent и проверять ее через редирект. Куки включены у 99% обычных пользователей, а боты их передают крайне редко, яндекс точно не поддерживает.
Кроме яндекса приватные ссылки могут случайно попасть еще к невесть каким ботам (в том числе через панельки браузера, которые ставятся по-умолчанию с кучей софта). Будет неприятно, если однажды кто-то найдет свою переписку в публичном доступе.un1t
17.07.2015 17:48Я сомневаюсь что яндекс боты всегда передают, что они боты в юзерагенте. Гугл на моем сайте прикидывался какими-то мобильными барузерами, и ходил по ссылкам, попасть на которые не возможно с мобильной версии. Там вываливалась 500 и гугл писал это в своем вебмастере, так я понял, что это был гугл.
ONEGiN
20.07.2015 01:56Придумывая такие замысловатые способы с переадресациями нужно быть готовым к сюрпризам со стороны антивирусов и прочих полезных фис типа safewrowsing.
haskel
16.07.2015 16:21-4А если в user-agent будет написано ObamaPrivateDataLurcher, вы обвините госдеп в слежке? Как-то непрофессионально это что-ли
T-D-K
16.07.2015 17:20+3Если вы выборочно читали текст, то это ваши проблемы.
11 заходов на сайт с ip 178.154.243.78… По whois ip-адрес действительно принадлежит Yandex LLC.
un1t
17.07.2015 17:44+2Тоже мне америку открыли. У меня на сайте есть страницы закрытые в robots.txt и во всех ссылках на них указано rel=nofollow. Яндексу никто не мешает ходить по этим ссылкам, даже в вебмастере указано, что он их загрузил.
Про подобную проблему я читал в книге иностранного атора году в 2009м, на сайте сделали удаление чего-то там методом GET. И внезапно у пользователей начало все удаляться. Уже не помню кто там ходил по этим ссылкам, толи поисковик, толи какой-то тулбар, но проблема определенно далеко не нова.
ktrunin
21.07.2015 11:21А в чем новость-то?
Достаточно помнить что все что вы отправили или выложили в интернет незапароленным могут прочитать админы интернет-кафе и на вашей работе, провайдеры интернета, и ваши браузеры. У всех этих сторон есть свои интересы. Если ваша информация очень ценная и соответствует их интересам, то она гарантированно рано или поздно утечет и будет использована без вашего ведома.
Просто соблюдайте интернет-гигиену:
1. Ничего очень ценного в интернет попадать не должно.
2. Если все-таки нужно что-то ценное передать, то оно должно быть зашифровано и пароль передан, желательно частями, по другим каналам.
3. Без шифрования не пишите и не отправляйте ничего такого от огласки чего вам потом станет очень нехорошо — даже в анонимном режиме, через VPN и под псевдонимом.
RUnnerTomsk
21.07.2015 13:06Если интересно — то microsoft ходит по ссылкам что вы в скайпе друг-другу отправляете.
Т.е. если я отправил ссылку Васе через скайп, то по ней следом заходит skype с ip адреса майкрософта.
Для «превью», я так понимаю, но с этим бывают очень неприятные казусы — как-то передал я товарищу ссылку на тестирование отправки заказов, без форм, внутреннюю, чтобы проверить SOAP обмен данными.
Так вот — обмен запустился, сам собой, с ip адреса microsoft в ирландии была «ткнута» отправленная ссылка сразу после отправки.
Так что у всех такие «косяки» есть, просто мы о них не задумываемся.
зызы: заказ сформировался, ушел клиенту, реально ушел, мы уже задним счетом «разматывали» цепочку, как так ушел заказ который клиент не делал. Оказалось превьюха скайпа оформила заказ )
AlexGx
Ну это совсем печально если честно(
Longer
А чем стандартные сборки браузеров Opera, Firefox, Chromium не устраивают? Пользуюсь ими и проблем подобных не знаю, в ином случае ССЗБ.
AlexGx
я сам не пользуюсь сборками и очень часто из сорсов собираю (конечно не браузер, чтоб хром собрать нужна билд-ферма, но тем не менее), но тот факт что бот ходит по таким ссылкам не радует. сам думал в транзакционных емейлах сделать ссылки с автологином, а теперь в больших раздумиях. еще интересно что будет если прийдет ссылка на восстановление пароля например, которая протухает при первом переходе и бот зайдет по ней раньше чем юзер.
TheRaven
Возможно на страницах восстановления пароля ботов вообще по юзерагенту вырубать стоит.
Longer
Chromium собирается менее, чем за час, как и Firefox на Intel i3.
В большинстве случаев ссылки на восстановление протухают через некоторое время, а не при первом переходе. Или по крайней мере я такое поведение замечал и сам аналогичное реализую, когда нужно.
alexac
У вас немножко неверные данные. Хромиум с нуля собирается за полтора часа на i7 16GB RAM, чуть больше чем за час на 2x Xeon (по 16 ядер) 32GB RAM или чуть меньше двух часов на i5 16GB RAM (все с SSD). За час можно собрать только с distcc или dist-clang с билд-фермой. А релизный некомпонентный билд с LTO может линковаться только минут сорок в некоторых случаях. На i3 с HDD я как-то ждал сборки >8 часов и не дождался, прервал.
Bal
>Хромиум с нуля собирается за полтора часа на i7 16GB RAM
Ого, как разжирел. Три года назад у меня на стареньком Q6600 с 4Гб под Gentoo он за час собирался:
Firefox (версии 14-17) тогда же собирался за 25-30 минут.
alexac
Ну на линуксе он побыстрее собирается, на маке будет медленнее, на винде вообще медленно.
monah_tuk
Кстати, а чем он на винде собирается? А то стал замечать, что, к примеру, make от mingw очень упорно пытается игнорировать -j8
alexac
хром сейчас на всех платформах по дефолту собирается с помощью ninja. Разве что на ios, кажется, используется xcodebuild, но не уверен. От всего остального сейчас отказываются. А с переходом от gyp к gn других вариантов кроме ninja не останется вовсе.
gonzazoid
хром на ios — не настоящий, это обертка вокруг веб кита.
alexeibs
Как-то у вас долго сборка происходит. Может быть зависит от ОС? Мы используем Хромиум в качестве встроенного браузера. На моей рабочей машине — Core i7 3770K, 16GB, SSD, Win7x64 — собирается примерно минут за 40.
webkumo
Ну так можно же частично фичу реализоваться — автовход только с тех устройств (браузеров), с которых уже входили (можно использовать для идентификации долговременные куки/Local storage браузера), а для новых устройств вполне логично требовать вход по полной/частичной(со введённым логином) форме.
dom1n1k
Фиг знает чем они не устраивают, но вот сейчас посмотрел статистику по одному своему сайту — с Яндекс Браузера сидят 10.5% посетителей! Это третье место после Хрома и ФФ.
Andrusha
Если сайт ориентирован не на продвинутую в компьютерном плане аудиторию, то всё просто: пользователь скачал Я.Браузер в составе установщика какого-то другого софта, он прописался дефолтным, а пользователь не знает, как его изменить/не заметил/не стал заморачиваться, так как понравился.
tundrawolf_kiba
При гораздо более агрессивной установке — Амиго после пика в 3 процента — продолжает падать, ЯБ же уверенно остановился на отметке порядка 6 процентов, я думаю если бы он не устраивал пользователей — то его бы доля была бы аналогичной Амиго. А так — он на данный момент уверено опережает, например, Оперу(4,8%). Вообще у li.ru достаточно интересный инструмент для сравнения: www.liveinternet.ru/stat/ru/browsers.html
kukutz
Только лучше смотреть со срезом «ru», это посетители из РФ.
semmaxim
Потому что Яндекс.Браузер тупо удобнее. Как пример: habrahabr.ru/company/yandex/blog/253775/#comment_8343873
Плюс, он умеет нормально копировать кириллические url (вместо всяких длиннейших %AB%CD нормальные русские буквы).
cdkrot
chrome (ium) кириллицу показывает нормально, проверил прямо сейчас.
в firefox'e в about:config есть свитч, который это дело меняет. В оф сборке даже по-моему включён.
Longer
В адресной строке они в нормальное состояние всёравно превращаються. А из минусов подобного преобразования — далеко не все парсеры расчитаны на это, да и в случае кириллицы (или любого другого языка), могут возникнуть проблемы с подсвечиванием ссылки из-за этого в другой программе, куда была вставленна ссылка.
А все желаемые плюшки (перечисленные по ссылке) легко решаются расширениями (в Firefox точно, на счёт Chromium не уверен), в т.ч. и копирование ссылки. Некоторые в firefox обычном (не от яндекса) из коробки, а большинство не нужны.
Borz
для FF не требуется расширение чтобы настроить копирование. достаточно для network.standard-url.escape-utf8 выставить false в about:config
Bal
>А чем стандартные сборки браузеров Opera, Firefox, Chromium не устраивают?
Ссылки… На меня однажды AdSense наехал за материал, нарушающий их правила в закрытом от гостей(!) форуме. Маловероятно, что «нестандартная сборка» Гуглу стучала :) Скорее всего это была работа обычного Хрома…
mva
А зачем, по-вашему, яндекс делал свои браузеры, если не для этого? :)