Как работают антиботы / forpes.ru

Главная
Как работают антиботы

Как работают антиботы +19

16.05.2025 08:54

EgorKotkin 8 2700 Источник

По данным целого ряда исследователей на 2025 год, боты впервые стали генерировать больше трафика в интернете, чем люди.

мартовский отчёт F5 Labs по итогам анализа 207 миллиардов веб- и API-транзакций с ноября 2023 года по сентябрь 2024 года, показал 50,04% запросов страниц из автоматизированных источников;
апрельский выпуск ежегодного отчёта Imperva Bad Bot Report 2025 также обнаружил, что в 2024 году автоматизированный трафик в первый раз за 12 лет их наблюдений превысил человеческий, дойдя до 51%. При этом 37% глобального интернет-трафика определено как генерируемый вредоносным ПО — на 5% больше, чем в 2023. 14% — хорошие боты. И 49% — люди.

Полученное превосходство ботов над людьми, как и скачок в объёмах трафика вредоносных ботов, исследователи связывают, естественно, с распространением ChatGPT и аналогов.

Помимо непосредственно того вреда, для которого создаются «плохие» боты, рост их совокупного трафика как таковой ставит под удар всю логику функционирования интернета, действовавшую со времён первых домашних страниц — теперь, когда более половины посещаемости любого сайта, в среднем, становятся боты.

Это проблема и для контентных ресурсов, живущих за счёт рекламы, и для e-коммерса, платящего при покупке рекламы живые напополам с автоматическими переходы.

Представьте: интернет-магазин товаров для йоги видит, что 40% посетителей — мужчины 18–24 лет, активно кликающие на коврики с единорогами. Владелец увеличивает рекламу в TikTok, но продажи падают. Почему? Потому что трафик генерировали боты-парсеры конкурентов, а реальная аудитория — женщины 30+.

Это реальная история — одна из тысяч. 68% компаний в 2023 году (тогда ещё в эпоху доминирующего человеческого присутствия в интернете) неверно сегментируют аудиторию из-за бот-трафика:

Боты имитируют Safari/iOS, чтобы выглядеть как мобильные пользователи;
прокручивают страницы, совершают «случайные» клики — всё, чтобы обойти Google Analytics;
подменяют cookies для создания иллюзии уникальных сессий.

Семь бед — один ответ

После внедрения фильтрации ботов трафик EcoYoga из примера выше, трафик упал на 37% — но конверсия выросла в 2,1 раза.

Как работают антиботы

Задача антибота — выявлять два типа ботов: простые HTTP-боты и продвинутые JavaScript-боты, которые могут искажать аналитику, спамить формы или фальшивить клики в рекламе. Для этого используются следующие подходы:

Пассивный:
- блокировка известных бот-сетей (например, ASN хостингов-однодневок);
- Rate-limiting для запросов к API (/product/*).
Установка JS скрипта на сайт, который анализирует JS для выявления бота. Механику борьбы с JS-ботами можно прочитать в статье «Защищаем сайт от парсеров и поведенческих ботов с помощью DNS-прокси», автор которой, хабраюзер @grigoriy-melnikov— разработчик ботов со стажем, теперь занимающийся защитой от ботов, и разработчик собственного антибота KillBot. Фишка антибота Мельникова — слепок браузера: авторское ноу-хау, это уникальный набор параметров, которые, в отличие от обычных fingerprint, которые легко покупаются и подменяются пачками, пока нигде не купить.

Посмотреть свой снимок браузера: killbot.ru/snpsht.html
Использование предобработчика для анализа HTTP-трафика перед загрузкой сайта;
Антибот-экран: скрытие сайта за промежуточным сервером по аналогии с Cloudflare для защиты от ботов любого типа, поскольку весь трафик сначала проходит через него — например, для прохождения капчи — который действует как «таможня» для трафика, прежде чем попасть на сайт.
- Варианты взаимодействия с ботами: CAPTCHA, блокировка доступа, скрытие аналитических тегов, поведенческий анализ.
- Промежуточный сервер также предотвращает сканирование на уязвимости, так как первое взаимодействие происходит с сервером-прокладкой, а не с самим сайтом.

Антибот-экран

Варианты реализации:

Cloudflare
антиботы: KillBot, BotFAQtor и clickfraud.ru.
самописное решение на основе Bind + IPset.

Принцип работы во всех случаях один и тот же: на промежуточном сервере (и промежуточном экране с точки зрения пользователя) к трафику применяется поведенческий анализ в реальном времени:

по траектории движения мыши — боты движутся по прямым траекториям с пиксельной точностью;
по времени реакции — ответ на капчу за 0.3 сек — явный признак скрипта;
семантические ловушки: Внедрение скрытых «маячков» (например, невидимых кнопок с CSS-классом .bot-trap)

// Код для выявления эмуляции браузера
if (navigator.webdriver || window.document.documentElement.getAttribute('webdriver')) {
  fetch('https://killbot.io/log-bot', { method: 'POST' });
}

По итогам фильтрации, «таможня» блокирует HTTP-боты и помечает JS-парсеры как ботов для ручной блокировки (например автоматически помечая «бот/не бот» в метриках через интеграцию с Google Analytics или Yandex Metrica Webvisor).

Пройти верификацию могут только сложные JS-боты — массовые HTTP-запросы не завалят сайт.

При этом интернет-пользователям, которых распознаёт поведенческий анализ, зачастую даже капчу вводить не приходится.

Всеобщая антибот-вакцинация

Бороться с захватом интернета ботами, которые уже сейчас сжигают впустую огромные вычислительные и энергетические мощности, можно двумя путями:

на стороне источника проблем — борьбой с разработчиками, заказчиками и, главное, бенефицирами;
на стороне пользователя — сделав фильтрацию трафика и антиботы универсальным стандартом для всех интернет-сайтов.

Пункт 2 в этой борьбе может оказаться решающим. Главная причина, по которой ботов в интернете в прямом смысле стало больше, чем людей — не в технологическом прорыве, обеспеченном LLM-чатботами, а в том, что для них есть цели и задачи.

Ботов в этом смысле можно сравнить с инфекциями — они продолжают существовать и эволюционировать, пока находят носителей. Каким образом человечеству удалось избавиться от вируса полиомиелита или оспы (одного из самых страшных человеческих врагов в истории)? Путём массовой, глобальной вакцинации, лишившей эти заразы возможности зацепиться хоть за кого-нибудь в человеческой популяции.

Вполне возможно, что это просто часть эволюции интернета: как, в своё время, организмам понадобилось обзавестись иммунитетом, чтобы выживать в биосфере Земли, так и для сайтов протокол за протоколом (уже стали нормой https, двустороннее шифрование в мессенджерах итд.) формируется стандарт средств и методов, без которых нарастающая лавина ботов угрожает задушить весь интернет.

Комментарии (8)

inkelyad
16.05.2025 09:35
#28312516

ставит под удар всю логику функционирования интернета, действовавшую со времён первых домашних страниц — теперь, когда более половины посещаемости любого сайта, в среднем, становятся боты.

Это проблема и для контентных ресурсов, живущих за счёт рекламы, и для e-коммерса, платящего при покупке рекламы живые напополам с автоматическими переходы.

А вот неправда. Рекламная модель появилась чуточку позднее 'времен первых домашних страниц'.

И если текущая ситуация, что описана в примерах - она успешно сдохнет, то, с некоторой стороны, этом может быть и к лучшему.

Правда, придется привыкать, что бесплатного в Сети станет чуточку поменьше. Но и сейчас надо понимать, что оно далеко не бесплатное, а оплачено заметной частью стоимости товаров и услуг. Если придется платить напрямую - это, возможно, к лучшему.

JastixXXX
16.05.2025 09:35
#28312738
Так ведь и хорошие боты при таком подходе не пройдут. А учитывая, что сейчас набирает популярность поиск нейросетками, подобная защита может в будущем сыграть против.
1. MesDes
  16.05.2025 09:35
  #28313266
  Если уж сильно нужны, то их можно и пропустить.

MesDes
16.05.2025 09:35
#28313274
"на промежуточном сервере" почему из статьи в статью, встречается этот промежуточный сервер? Разместить скрипт проверки в соседней папке, что мешает? В чем его существенное преимущество, чтобы побороть минусы в виде задержка отклика и его содержание и т.д.?
1. RigelGL
  16.05.2025 09:35
  #28314220
  Прокси сервер переносим из системы в систему, скорее всего сделан так, что позволяет закрыть несколько ресурсов (доменов) в одной системе, а скрипт из папки привязан к архитектуре и языку одной конкретной системы.
  
  В маленьких проектах лучше скрипт в папке, в проектах побольше - прокси сервер.
1. grigoriy-melnikov
  16.05.2025 09:35
  #28315822
  Можно и на своем сервере настроить в соседней папке - тут главное ничего не сломать. Отдельный сервере удобен тем, что нет проблем совместимости, не нужно заморачиваться с настройкой. Прокси сервер можно развернуть в облаке и в один клик увеличить мощность при необходимости.

elsaqq
16.05.2025 09:35
#28314354
В эпоху когда боты могут общаться свободно на человеческом языке(хоть по видео звонку) понимая контекст и решают математические задачи такие попытки тщетны. От тупой ddos атаки может и спасёт, от мощных ботов вряд-ли. Ботов станет делать чуть дороже

akakoychenko
16.05.2025 09:35
#28315552
Все вот эти антиботы, которые радостно рубят бабки с хозяев сайтов, разгоняя их надуманные страхи (как, например, что парсеры будут дружно смотреть один коврик, перекашивая маркетинговые метрики, вместо того, чтобы равномерно дать +10 просмотров в день на весь инвентарь), забывают сказать одну вещь.

А она в том, что даже сейчас уже часть людей посылает бота выбрать себе товар. Условно, ввел в дип ресеч "мне нужен коврик для йоги, с таким то временем доставки, с такой то эстетикой, а по материалу и производителю реши сам, исходя из обзоров". И бот уже сегодня идёт от имени реального покупателя с реальной потребностью выбирать товар. Логично, что магазин, которому не нужен +1 покупатель, он просто обойдёт стороной.

И, пока одни люди всерьёз уже обсуждают проблемы маркетинга для роботов (ибо, ок, мы знаем, как впарить человеку, но, что мы будем делать завтра, когда в цепочку принятия решений добавится личный ассистент?), то, да, самое время в последний раз напугать вебмастеров, и продать им антибот, пока те мыслят старыми шаблонами, и тоже не задумались