Здравствуйте, товарищи! Сразу скажу: скрипт, которым делюсь, рассчитан в первую очередь на новичков (которых тут тьма). Старожилы, прошу не пинать сильно.
С чего всё началось
Я оказываю услуги по ручному размещению сообщений на форумах. Речь не о спаме, а о нормальных осмысленных постах в правильных разделах. Иногда владельцы форумов сами нанимают меня, чтобы создать видимость живого общения. Схема простая: принимаю заказы, раздаю задания исполнителям, себе оставляю маржу.
Очередной заказ пришёл на 300 форумов по тематике, с которой мы раньше не работали. А значит нужно было найти 300 подходящих площадок а не использовать те на которых есть регистрации, зарегистрироваться на них, зарегистрироваться на них ну и все остальное (найти куда писать и придумать что).
Решил я упростить задачу, так как сотрудников работать за копейки не хватает, и написать несколько инструментов для облегчения задач.
Первое конечно с чего нужно начинать, это парсер. Задал сразу несколько особенностей что хотел видеть в парсере.
Что я хотел получить от парсера
Это конечно простота настройки и запуска, ну и добавил следующие особенности (копипасчу из ридми):
? Поиск и парсинг
Мультипоисковик – поддержка Google, Yandex и DuckDuckGo (выбор в конфиге).
Гибкая пагинация – настройка стартовой страницы (
start_page) и глубины поиска (depth_pages), чтобы работать частями.Умная очередь – список запросов из внешнего файла
queries.txt(можно оставлять комментарии).Режимы браузера – видимый режим (для ручного решения капчи) или фоновый (
headless).
?️ Обход блокировок и защита
Интерактивная капча – при обнаружении проверки скрипт останавливается и ждёт, пока вы решите капчу в видимом браузере.
Анти-детект – эмуляция реального пользователя, смена User-Agent, отключение флагов автоматизации.
Рандомизация – случайные задержки между запросами (имитация человеческого поведения).
?️ Обработка данных
Дедупликация – автоматическая проверка уникальности по доменам (исключает повторы).
Фильтрация – исключение нежелательных доменов (соцсети, доски объявлений, коммерческие площадки) через чёрный список.
Конвертация результатов – встроенный модуль
convert_to_html.pyпревращает текстовый список ссылок в удобный HTML-отчёт (results.html).Комментированный вывод – результаты сохраняются с мета-информацией (поисковик, запрос, дата).
⚙️ Логирование и отладка
Изолированное хранение – все логи, скриншоты ошибок и капч автоматически сохраняются в папку
log/, не засоряя рабочую директорию.Автоочистка – скриншоты решённых капч удаляются автоматически; остаются только те, что потребовали вмешательства или привели к ошибке.
Несмотря на такой функционал, скрипт оказался достаточно компактный.
На этом собственно можно было и остановиться, людям напарсил ссылок и пусть работают, но решил пойти и дальше. Как известно парсит не всегда то что нужно, как же отсортировать, даже с файликом HTML каждую ссылку кликать достаточно не удобно, написал еще чекер (который сам открывает ссылки и тебе нужно отмечать + или - в консоли что бы скрипт отсортировал нужные и не нежные и сейчас пишу авторегер по форумам, для автоматической регистации. А уже ручное заполнение оставим как есть, на том и фишка моих услуг. Кому будут интересны чекер и регер, обращайтесь, выложу в отдельной статье. Статья на моем сайте по этому поводу https://intfaq.ru/page/buxarparser-asinhronnyj-sbor-dannyh-iz-google-jandeksa-i-duckduckgo-s-ruchnym-resheniem-kapchi-i-gibkimi-nastrojkami
Если вам будут интересны чекер и регер — пишите, выложу их отдельными статьями.
Ссылки на проект
Надеюсь, инструмент окажется полезным. Буду рад обратной связи и предложениям!
Качайте, используйте, переделывайте, все бесплатно
Комментарии (7)

Jack444
13.03.2026 07:16log_dir.mkdir(exist_ok=True) # Создаёт папку, если её нетЭто такое палево что код был написан ИИ

oforum
13.03.2026 07:16Было бы интересно, если в следующей версии вы добавите минимальную статистику по сессии (сколько уникальных доменов, сколько отфильтровано, среднее время на запрос) — это помогло бы и вам, и новичкам лучше понимать, где упираетесь уже в лимиты поисковиков, а где ещё есть смысл докручивать параллелизм и прокси

BuxarNET Автор
13.03.2026 07:16работал я с открытым браузером, периодически проходил капчу. по этому с лимитами вопрос не стоял. DuckDuckGo насколько заметил вообще капчу не показывает, но мне его поисковая выдача для русскоязычных форумов не понравилась. А для чего статистика по отфильтрованным доменам? Гарантировано в выдачу результата попадают только уникальные и это большой плюс перед ручным поиском, когда через несколько страниц не видишь уже был домен или нет. Время запроса тоже настраивается по принципу минимум-максимум, что бы поисковик видел разную частоту запросов а не циклично с одним интервалом.

Devvver
13.03.2026 07:16Парсить с помощью Chromium ?
Через сколько времени прилетит капча?
BuxarNET Автор
13.03.2026 07:16Парсер использует браузерный движок Chromium, не хром в системе.
Яндекс каждые 3-5 страниц при работе парсера с интервалом 10-20 секунд. По гуглу уже не помню, им только для теста работал, основное набрал в Яндексе. DuckDuckGo - не видел капчи

uravnabeshen
13.03.2026 07:16Автору не мешало бы перечитать написанное, а так очень даже интересно, спасибо.
jarkevithwlad
это и есть спам