Но это не всегда повод для радости. Позже мы обнаруживаем, что большая часть этого реферального трафика была отправлена от спамеров. Именно спам стал большой проблемой в последнее время.
Реферальный спам происходит, когда ваш сайт получает поддельные направления трафика от спам-ботов. Эта подделка трафика и записывается Google Analytics. Если вы замечаете в Аналитике трафик, полученный из спам источников, вам необходимо выполнить определенные действия, чтобы устранить эти данные из статистики.
Что такое бот?
Ботами принято называть программы, задача которых – выполнение повторяющихся задач с максимальной скоростью и степенью точности.
Традиционный вариант использования ботов — веб-индексация содержимого интернет-ресурсов, регулярно осуществляемая поисковиками. Но боты также могут использоваться и в злонамеренных целях. Например, для:
- совершения мошенничества путем кликов;
- аккумуляции адресов e-mail;
- передачи содержания веб-сайтов;
- распространения вредоносного программного обеспечения;
- искусственного завышения трафика ресурса.
Анализируя задачи, для которых используются боты, можно разделить их на безопасные и опасные.
Опасные и безопасные боты
Пример хорошего бота — «Googlebot», используемый Google для сканирования и индексации веб-страниц в интернете.
Большинство ботов (будь то безопасные или опасные), не выполняют сценарии JavaScript, но некоторые это делают.
Поисковые боты, которые выполняют сценарии Javascript (как код аналитики Google) проявляются в отчетах Google Analytics и искажают показатели трафика (прямой трафик, реферальный трафик) и прочих метрических данных на основе сессий (показатель отказов, коэффициент конверсии и др).
Поисковые боты, которые не выполняют JavaScript (например, Googlebot), не искажают вышеуказанные данные. Но их посещения все равно записываются в логи сервера. Они также потребляют ресурсы сервера, ухудшают пропускную способность и способны негативно повлиять на скорость загрузки сайта.
Безопасные боты, в отличие от опасных, подчиняются директиве robots.txt. Они способны создавать поддельные учетные записи пользователей, рассылать спам, собирать адреса электронной почты и могут обходить CAPTCHA.
Опасные боты используют различные методы, усложняющие их обнаружение. Они могут влиять на веб-браузер (например, Chrome, Internet Explorer и т.д.), а также на трафик, поступающий от нормального сайта.
Невозможно сказать наверняка, какие опасные боты могут исказить данные аналитики Гугл, а какие — нет. Поэтому стоит рассматривать все опасные боты как угрозу целостности данных.
Спам-боты
Как понятно из названия, главная задача этих ботов – спам. Они посещают огромное количество веб-ресурсов ежедневно, отправляя HTTP запросы на сайты с поддельными заголовками реферера. Это позволяет им избежать обнаружения в качестве ботов.
Подделанный заголовок реферера содержит адрес веб-сайта, который спамер хочет продвигать, либо получать обратные ссылки.
Когда ваш сайт получает запрос HTTP от спам-бота с поддельным заголовком реферера, он сразу же записывается в журнале сервера. Если ваш журнал сервера имеет открытый доступ, то он может быть просканирован и проиндексирован Google. Система обрабатывает значение реферера в журнале сервера как обратную ссылку, которая в итоге влияет на ранжирование веб-сайта, продвигаемого спамером.
В последнее время алгоритмы индексации Google построены таким образом, чтобы не учитывать данные из логов. Это нивелирует старания создателей подобных ботов.
Спам-боты, имеющие возможность выполнять сценарии JavaScript, способны обходить методы фильтрации, используемые Google Analytics. Благодаря этой способности этот трафик отражается в аналитических отчетах Google.
Ботнет
Когда спам-бот использует ботнет (сеть зараженных компьютеров, расположенных локально или по всему миру), он может получить доступ к веб-сайту с помощью сотен различных IP-адресов. В этом случае черный список IP адресов или rate limiting (rate of traffic sent or received) становятся в значительной степени бесполезными.
Способность спам-бота искажать трафик на ваш сайт прямо пропорциональна размеру ботнета, который использует спам-бот.
При большом размере ботнета с отличающимися друг от друга IP-адресами, спам-бот может получать доступ к вашему веб-сайту без блокирования брандмауэром или другим традиционным механизмом безопасности.
Не все спам-боты отправляют заголовки реферера.
В этом случае трафик от таких ботов не появится как источник реферального трафика в отчетах Google Analytics. Он выглядит как прямой трафик, что делает его еще более трудным для обнаружения. Иными словами, всякий раз, когда реферер не передается, этот трафик обрабатывается в Google Analytics как прямой.
Spambot может создать десятки поддельных заголовков рефереров.
Если вы заблокировали один источник реферера, спам-боты отправят на сайт очередную подделку. Поэтому фильтры на спам в Google Analytics или .htaccess, не дают гарантии, что ваш сайт полностью заблокирован от спам-ботов.
Теперь вы знаете, что не все спам-боты являются опасными. Но некоторые из них действительно опасны.
Очень опасные спам-боты
Цель действительно опасных спам-ботов — не только исказить трафик вашего веб-ресурса, очистить содержимое или получить адреса e-mail. Их цель — заразить чужой компьютер вредоносным ПО, сделать вашу машину частью бот-сети.
Как только ваш компьютер интегрируется в сеть ботнета, он начинает использоваться для пересылки спама, вирусов и других вредоносных программ на другие компьютеры в сети Интернет.
Есть сотни и тысячи компьютеров по всему миру, которые используются реальными людьми, одновременно являясь частью ботнета.
Существует высокая вероятность, что ваш компьютер является частью ботнета, но вы не знаете об этом.
Если вы решили заблокировать ботнет, вы, скорее всего, блокируете трафик, поступающий от реальных пользователей.
Существует вероятность, что как только вы заходите на подозрительный сайт из вашего отчета реферального трафика, ваша машина заражается вредоносным ПО.
Поэтому не посещайте подозрительные сайты из отчетов аналитики, не установов надлежащей защиты (антивирусных программ, установленных на вашем компьютере). Предпочтительно использование отдельной машины специально для посещения таких сайтов. Как вариант, можно обратиться к системному администратору, чтобы справиться с этой проблемой.
Умные спам-боты
Некоторые спам-боты (как darodar.com) могут посылать искусственный трафик даже без посещения вашего сайта. Они делают это путем воспроизведения HTTP запросов, которые исходит от кода отслеживания Google Analytics, используя при этом ваш идентификатор веб-ресурса. Они не только могут отправить вам поддельный трафик, но также и поддельных рефереров. Например, bbc.co.uk. Так как BBC является законным сайтом, то когда вы видите этот реферер в своем отчете, вы даже не думаете, что трафик, поступающий с уважаемого сайта, может быть фальшивкой. На самом же деле никто с BBC не посещал ваш сайт.
Этим умным и опасным ботам не нужно посещать ваш веб-сайт или выполнять сценарии JavaScript. Поскольку они фактически не посещают ваш сайт, эти посещения не записываются в журнал сервера.
И, раз их посещения не записываются в журнал сервера, вы не можете заблокировать их с помощью любых средств (блокирование IP, пользователя, реферального трафика и т.д.).
Умные спам-боты сканируют ваш сайт в поисках идентификаторов веб-собственности. Люди, которые не используют Google Tag Manager, оставляют код отслеживания Google Analytics на своих веб-страницах.
Код отслеживания Google Analytics содержит ваш идентификатор веб-ресурса. Идентификатор крадется умным спам-ботом и может передаваться в использование другим ботам. Никто не станет гарантировать, что бот, укравший ваш идентификатор веб-ресурса и бот, посылающий вам искусственный трафик, — одно и то же «лицо».
Вы можете решить эту проблему, воспользовавшись Google Tag Manager (GTM).
Используйте GTM для отслеживания Google Analytics на вашем сайте. Если ID вашего веб-ресурса уже был заимствован, то решать эту проблему, скорее всего, уже слишком поздно. Все, что вы можете сделать сейчас, — использовать другой ID или ждать решения проблемы со стороны Google.
Не любой сайт попадает под атаку спам-ботов.
Изначально задача спам-ботов — обнаружение и использование уязвимых сторон веб-ресурса. Они атакуют слабо защищенные сайты. Соответственно, если вы разместили страничку на «бюджетном» хостинге или с помощью пользовательского CMS, у него велики шансы подвергнуться нападению.
Иногда сайту, который часто попадает под атаку опасных ботов, достаточно сменить свой веб-хостинг. Этот простой способ действительно может помочь.
Следуйте инструкциям ниже, чтобы обнаружить источники спама
1) Перейдите к отчету реферального трафика в вашем аккаунте Google Analytics и отсортируйте отчет по проценту отказов в порядке убывания:
2) Посмотрите на рефереров с 100% или 0% показателем отказов, а также на тех, у кого 10 или более сессий. Скорее всего, это спамеры.
3) Если один из ваших подозрительных рефереров принадлежат к списку нижеперечисленных сайтов, то это реферальный спам. Вам можно не проверять это самостоятельно:
semalt.com
semalt.semalt.com
buttons-for-website.com
7makemoneyonline.com
ilovevitaly.ru
resellerclub.com
vodkoved.ru
cenokos.ru
76brighton.co.uk
sharebutton.net
<em>simple-share-buttons.com</em>
<em>forum20.smailik.org</em>
<em>social-buttons.com</em>
<em>forum.topic39398713.darodar.com</em>
Исчерпывающий перечень источников спама можно скачать здесь.
4) Когда не удалось подтвердить личность вашего подозрительного реферера, возьмите на себя риск и посетите сомнительный веб-сайт. Возможно, это действительно нормальный ресурс. Удостоверьтесь, что у вас есть антивирусное программное обеспечение, прежде чем посещать подобные сомнительные ресурсы. Они способны заразить ваш компьютер в момент перехода на их страницу.
5) После подтверждения идентичности опасных ботов следующий шаг заключается в блокировании их от посещения вашего сайта еще раз.
Как же можно ограничить свой сайт от спам-ботов?
Создайте аннотацию на вашем графике и напишитезаписку с объяснением, что вызвало необычный всплеск трафика. Можно будет сбрасывать этот трафик со счетов во время анализа.
Блокируйте реферальный спам, используя возможности Spambot. К файлу .htaccess (или веб-конфигурации, если используется IIS) добавьте указанный ниже код:
RewriteEngine On
Options +FollowSymlinks
RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*semalt\.com\ [NC,OR]
RewriteRule .* – [F]
Этот код будет блокировать все HTTP и HTTPS направления от semalt.com, включая поддомены semalt.com.
Заблокируйте IP-адресиспользуемый спам-ботом. Возьмите .htaccess файл и дополните кодом, показанным ниже:
RewriteEngine On
Options +FollowSymlinks
Order Deny,Allow
Deny from 234.45.12.33
Примечание: Нет необходимости в копировании кода в ваш .htaccess — схема не сработает. Здесь продемонстрирован лишь пример, обеспечивающий блокировку IP-адреса в файле .htaccess.
Спам-боты способны использовать различные IP-адреса. Систематически пополняйте список IP-адресов спам-ботов, имеющихся на вашем сайте.
Подвергайте блокировке лишь IP-адреса, оказывающие влияние на сайт.
Бессмысленно стремиться заблокировать каждый из известных IP-адресов. Файл .htaccess превратится в очень громоздкий. Им станет трудно управлять, снизится производительность веб-сервера.
Заметили, что количество сток черного списка IР-адресов стремительно увеличивается? Налицо явный признак возникших проблем с безопасностью. Обратитесь к представителю веб-хостинга или системному администратору. Используйте Google, чтобы найти черный список для блокирования IP-адресов. Автоматизируйте эту работу, составив сценарий, способный самостоятельно находить и запрещать IP-адреса, чья вредоносность не подвергается сомнению.
Воспользуйтесь возможностью блокировки диапазонов IP-адресов, используемых ботами-спамерами. Когда есть уверенность, что конкретный диапазон IP-адресов используется спам-ботом, можно одним движением заблокировать сразу ряд IP-адресов, как показано ниже:
RewriteEngineOn
Options +FollowSymlinks
Denyfrom 76.149.24.0/24
Allow from all
Здесь 76.149.24.0/24 — диапазон CIDR (CIDR — метод, используемый для представления диапазонов адресов).
Использование блокировки по CIDR результативнее блокирования конкретных IP-адресов, поскольку позволяет занимать минимум пространства на сервере.
Примечание: Вы можете скрыть в CIDR ряд IP адресов и наоборот открыть их с помощью этого инструмента: www.ipaddressguide.com/cidr
Блокируйте запрещенных пользователей, использующих спам-ботов. Анализируйте лог-файлы сервера еженедельно, обнаруживайте и блокируйте вредоносные агенты пользователей, использующих спам-ботов. После блокировки они не смогут получить доступ к веб-ресурсу. Возможность сделать это показана ниже:
RewriteEngineOn
Options +FollowSymlinks
RewriteCond %{HTTP_USER_AGENT} Baiduspider [NC]
RewriteRule .* – [F,L]
Воспользовавшись поисковой строкой Гугл, можно получить внушительный список ресурсов, которые поддерживают записи известных запрещенных агентов пользователей. Воспользуйтесь полученными сведениями для выявления таких агентов пользователей на вашем сайте.
Самый простой способ — написание сценария, позволяющего автоматизировать весь процесс. Составьте базу данных со всеми известными запрещенными агентами пользователей. Используйте скрипт, который будет автоматически идентифицировать и блокировать их, опираясь на данные из базы. Регулярно пополняйте базу данных новыми запрещенными пользовательскими агентами – появляются таковые с завидным постоянством.
Блокируйте только пользовательские агенты, реально влияющие на ресурс. Бессмысленно стремиться к блокировке каждого известного IP-адреса — это сделает файл .htaccess чересчур большим, им станет трудно управлять. Снизится и производительность сервера.
Пользуйтесь доступной в Google Analytics фильтрацей «Bot Filtering» — «Исключить хиты от известных ботов и пауков».
Проводите мониторинг логов сервера хотя бы еженедельно. Положить начало борьбе с опасными ботами реально на уровне сервера. Пока не удалось «отвадить» спам-ботов от посещения вашего ресурса, не исключайте их из аналитической отчетности Гугла.
Используйте брандмауэр. Firewall станет надежным фильтром между вашим компьютером (сервером) и виртуальным пространством. Он способен защитить веб-ресурс и от опасных ботов.
Получайте квалифицированную помощь от системного администратора. Круглосуточная защита клиентских веб-ресурсов от вредоносных объектов – его основная работа. У того, кто ответственен за безопасность сети, намного больше инструментов для отражения атак ботов, чем у владельца сайта. Если вами обнаружен новый бот, угрожающий сайту, незамедлительно проинформируйте о находке сисадмина.
Пользуйтесь GoogleChrome для веб-серфинга. В случае, если брандмауэр не используется, для просмотра интернет-страниц лучше всего использовать Google Chrome.
Chrome также способен обнаружить вредоносное программное обеспечение. При этом он открывает веб-страницы оперативнее, нежели другие браузеры, не забывая сканировать их на наличие вредоносных программ.
Если вы используете Chrome, риск «подцепить» вредоносное ПО у вашего компьютера снижается. Даже когда заходите на подозрительный ресурс из отчетов реферального трафика Google Analytics.
Используйте пользовательские предупреждения при мониторинге неожиданных скачков посещаемости. Персонализированное оповещение в аналитике Google даст возможность оперативно обнаружить и нейтрализовать вредные запросы ботов, минимизируя их вредоносное воздействие на сайт.
Используйте фильтры, доступные в Google Analytics. Для этого на вкладке «Администратор» в столбце «Представления» нужно выбрать «Фильтры» и создать новый.
Справиться с настройкой фильтров довольно просто. Главное – знать, как это делается.
Можно использовать флажок «Bot Filtering», расположенный в разделе «View Settings» вкладки «Administrator». Это не повредит.
Несмотря на простоту использования фильтров в Google Analytics, мы все же не советуем использовать их на практике.
Для этого есть три веских причины:
- Есть сотни и тысячи плохих ботов, огромное количество новых появляется ежедневно. Какое количество фильтров придется создавать и применять к вашим отчетам?
- Чем большее число фильтров будет применяться, тем сложнее будет анализировать отчеты, полученные от аналитической службы Google.
- Блокировка трафика спама в Google Analytics – это сокрытие, но не решение проблемы. Вы потеряете возможность оценивать степень искаженности трафика спам-ботами.
Аналогично, не блокируйте реферальный трафик с помощью «Referral exclusion list»- это не решит вашу проблему. Наоборот, этот трафик в последствии будет оцениваться как прямой, что приведет к потере возможности следить за воздействием спама на трафик вашего веб-ресурса.
После того, как спам-бот попал в статистику аналитического сервиса Google, данные о трафике будут искажены навсегда. Вы уже не сможете исправить его.
Заключение
Мы надеемся, что перечисленные выше рекомендации помогут вам избавиться от всех источников спама на Ваш сайт. Это можно сделать разными способами, мы же описали те, которые помогли многим ресурсам защитить свои данные в Google Analytics.
Комментарии (10)
seoanalyticspro Автор
14.07.2015 00:34Спасибо! Как на меня — лучше всего их отсекать на уровне сервера.
Vilgelm
14.07.2015 17:59Тот же darodar бесполезно отсекать на уровне сервера, т.к. к серверу бот не обращается, а нагло передает левые данные в саму аналитику. Так что это не всегда спасает.
seoanalyticspro Автор
14.07.2015 18:40Спасибо! Попробую добавить к статье. Но уже наверно в своем блоге.
Vilgelm
14.07.2015 18:50А, Вы и есть автор статьи, я не заметил просто.
У Вас же в статье это написано тоже, ничего добавлять не надо:
И, раз их посещения не записываются в журнал сервера, вы не можете заблокировать их с помощью любых средств (блокирование IP, пользователя, реферального трафика и т.д.).
Тут только не совсем корректно: не «их посещения не записываются в журнал», а никаких посещений вообще нет, данные отправляются напрямую аналитике.seoanalyticspro Автор
14.07.2015 18:59Я имею в виду просмотрю более внимательно вашу ссылку и возможно добавлю блок к статье, что бы статья была более комплексная и работала как инструмент
Тут только не совсем корректно: не «их посещения не записываются в журнал», а никаких посещений вообще нет, данные отправляются напрямую аналитике.
Спасибо!
vsarakoff
14.07.2015 00:57Спасибо за практические советы, давно руки не доходили что-нибудь такое прикрутить. А тут всё готовое, только модули запустить (a2enmod rewrite).
Apache2 ругался на:
RewriteCond %{HTTP_REFERER} ^http?://([^.]+\.)*success-seo\.com
Заменил на примитивное:
RewriteCond %{HTTP_REFERER} .*success-seo.com.*$
HeadWithoutBrains
14.07.2015 09:58>Поисковые боты, которые не выполняют JavaScript (например, Googlebot)
Гугл бот уже давно выполняет javascript, полгода как.
VDG
github.com/T-igra/ItSALive
«ItSALive — защищает код счётчиков от выполнения спам-ботами.»