Здравствуйте, меня зовут Максим Кульгин. Моя компания xmldatafeed.com занимается парсингом много лет. На днях мы вернули 16 000 руб. клиенту, так как не смогли парсить весь iherb.com с нужной клиенту скоростью (а там очень много товаров). Проверил и оказалось, что это единичный случай за весь год и родилась эта, чуть-чуть философская статья.

Одна из наших прошлых статей (самостоятельный парсинг сайтов) спровоцировала острые дискуссии среди читателей. И в комментариях к статье, и в нашем телеграм-канале (пишем, в том числе, про заработок на парсинге) обсуждение дилеммы «человек против роботов» (здравствуй, Будущее!) перевело взгляд в философскую плоскость. Все технические разговоры про парсинг неизменно сводятся к рассмотрению средств противодействия ботам и способам это противодействие нейтрализовать.

А надо ли вообще бороться против парсинга?

Любая современная технология имеет своих противников — тех, кто в силу объективных или субъективных причин не желает, чтобы в мир привносилось что-то, меняющее сложившийся порядок вещей. Такое происходит не первый раз в истории. Достаточно вспомнить луддитов, которые ломали станки во время промышленной революции, полагая, что машины являются злом, порождающим безработицу.

А что же парсинг? Оправдано ли проводить подобные параллели?

За последние годы информация стала по сути настоящим золотом. Вместе с тем как наша жизнь всё в большей степени переходит в цифровую сферу — всё большие объемы информации оказываются доступными во всемирной сети. Неужели стоит удивляться тому, что огромное количество людей: исследователей, предпринимателей, журналистов и политиков — хотят урвать свой кусок от этого пирога?

Давайте повнимательнее взглянем на это и с технической стороны, и со стороны законности, и со стороны потерь или приобретений, которые несут или получают участники информационного рынка против которых же (как некоторым кажется) орудуют полчища цифровых роботов, направляемых неведомыми «злодеями».

Итак.

Парсинг по устоявшейся в российском интернете терминологии включает в себя по сути два процесса:

  • чтение и обход имеющихся на веб-странице ссылок (crawling);

  • вычленение нужной информации из каждой посещенной страницы (scraping).

Понятно, что эти два действия связаны между собой неразрывно, а сам процесс носит рекурсивный характер, поскольку глубина путешествия по перекрестным ссылкам, как правило, заранее не известна.

Совершая обход по ссылкам, робот воссоздает истинную карту сайта. Подобным образом трудятся роботы поисковых систем: GoogleYa.ru (бывший Yandex — прощай, эпоха!), DuckDuckGo и другие — создавая карту целого интернета.

Извлечение данных из страниц, полученных по ссылкам, найденным на предыдущем этапе — не самая трудная часть работы. Какими бы сложными или разрозненными данные не были: будь то список товаров, прайс-лист или все конкуренты в городе — они в любом случае структурированы хотя бы на уровне HTML-разметки, и чтение легко осуществляется с помощью специализированных языков, таких как например, XPath.

Главная задача — получить страницу по найденным ссылкам. Причем получить страницу неподдельную, не забитую намеренно искаженной информацией.

Парсинг становится крайне популярным, поскольку позволяет за относительно короткое время и небольшую стоимость собрать все необходимые для бизнеса данные, которые останется лишь структурировать и подготовить для дальнейшего анализа. Данные могут быть самой разной природы и доступности, но без них не принять правильные решения, не совершить прорыва в научных исследованиях, не понять, как добиваться максимального охвата аудитории.

Поначалу парсеры создавались с использованием уже существующего популярного языка программирования общего назначения, такого как Python или JavaScript, и опирались на узкоспециализированные инструменты, такие как Selenium или PhantomJS. Создание парсера «вручную» требовало уверенного владения навыками программирования и работало только для одной задачи. По мере лавинообразного увеличения спроса на сбор данных стали появляться онлайн-сервисы, предоставляющие исключительную по своей уникальности услугу — настройку парсинга за считанные минуты и полностью без программирования.

Владельцам сайтов, конечно, не понравилось, что созданные с таким трудом данные могут быть легко и бесплатно взяты и использованы кем-то ещё. И они начали противодействовать парсингу всеми доступными способами. Шли годы, и изощренность методов борьбы как с той, так и с другой стороны не пришла бы в голову ни одному писателю-фантасту.

Это противостояние не закончится в обозримом будущем. Быть может стоит остановиться на мгновенье и подумать: а есть ли смысл в этой борьбе? И не служит ли парсинг в итоге интересам самих владельцев веб-сайтов?

С технической точки зрения парсинг представляет собой запрос к веб-сайту на получение страницы и дальнейший разбор содержимого этой страницы. Посмотрим, какие есть подходы, чтобы помешать этому.

Ферма для создания пула мобильных прокси. Эта самая маленькая, кстати. И мы с помощью таких ферм парсим.
Ферма для создания пула мобильных прокси. Эта самая маленькая, кстати. И мы с помощью таких ферм парсим.

Каждый такой запрос содержит данные о браузере (так называемый User agent), и в теории веб-сервер может определить кто именно к нему обращается да и отклонить запрос, если это не человек. (О, будущее!) Однако современные парсеры легко обманывают сервер, притворяясь обычными браузерами.

Хитрый веб-сервер может начать что-то подозревать, если с одного и того же компьютера или IP-адреса начнут поступать запросы слишком уж часто. Но его снова можно быстро успокоить, если задействовать прокси-серверы (имеющие разные IP-адреса) и подсовывать поддельные данные о браузере. Да ещё и делать это через случайные промежутки времени.

Некоторые веб-серверы отдают данные, используя JavaScript (то есть данные возникают прямо в браузере пользователя и их не удастся отыскать в разметке HTML). Ну, так парсер загрузит то, что ему дадут и точно так же выполнит JavaScript-код перед тем, как начать читать данные — вот и нет никакой разницы!

Бывает, что вебмастера постоянно меняют атрибуты элементов, их взаимное расположение, изобретают трюки с HTML-кодом, внедряют альтернативные форматы передачи данных и даже подбрасывают поддельные данные. Такие действия призваны запутать, усложнить жизнь тем, кто для извлечения данных опирается на строение дерева DOM.

(DOM, Document Object Model — описывает взаимосвязи элементов на веб-странице: от кнопочек и галочек до картинок и расположения элементов для разных устройств).

К сожалению (или к счастью), такие постоянные изменения очень незначительно задерживают парсинг страницы, а уж вовсе его остановить не могут и тем более.

Владельцы ресурса могут принудить пользователя зарегистрироваться через электронную почту, а также устраивать ему экзамен на знание «светофоров» и «верблюдов». К сожалению (или к счастью) опять же, это тоже осложнит жизнь только посетителям, но никак не тем, кто справляется с такими трудностями с энтузиазмом и поставил свою работу на поток.

У специалистов по парсингу имеются целые пулы готовых email-адресов, а роботы уже приняли низкий старт и только ждут отмашки, чтобы нажать на кнопочку «Подтвердить регистрацию». Технологии, основанные на машинном обучении, быстрее любого пользователя найдут светофор даже на помпоне у верблюда. Уже не говоря о помощи со стороны жителей стран с низкой оплатой труда, которые объединяются в целые виртуальные фермы для разгадывания ребусов и готовы выручить искусственный интеллект, если вдруг вместо верблюда потребуется распознать что-то неведомое.

— Рекламная кампания прошла удачно. Ожидается нашествие пользователей.

— Пусть только те попадут на наш сайт, кто не спутает горы и каньоны. А половине вообще скажите: «404 — нет такого сайта».

— Может, хотя бы дать им подсказку, как попасть на наш сайт?

— Нет! Они от нас только этого и ждут!

Пользователь должен быть счастлив — таков закон современного Веба.

Людям не нравится, когда сайт загружается медленно. Они ненавидят отличать светофоры от верблюдов. И даже подтверждать регистрацию через электронную почту им тоже не нравится, особенно, когда в этом не видно необходимости.

— Но это же для защиты содержимого нашего сайта от парсинга!

— Парс… Что вы сказали? Нам нет до этого дела!

Результат борьбы против парсинга очевиден: посетители просто закрывают страницу и идут дальше. Оправдано ли ежечасное снижение посещений только для того, чтобы попытаться остановить автоматизированное чтение контента? Учитывая, что остановить его невозможно. Это же натуральная стрельба из пушки по воробьям!

Если веб-разработчик начинает менять расположение элементов страницы на постоянной основе, единственное что он подарит посетителям — это разочарование, когда они не смогут найти нужную информацию на привычном месте. Вдобавок каждое такое изменение чревато ошибками, что сделает посетителя ещё несчастнее.

— Содержание сайта всё дорожает и дорожает…

— Так давайте сделаем его ещё дороже!

Каждая дополнительная проверка на сервере привносит задержку и потребляет дорогостоящие ресурсы. Каково это проверять всех посетителей на подозрительность?!

Например, чтобы просто определить, что кто-то запрашивает страницы сайта излишне часто, необходимо отследить аналогичные действия всех посетителей за всё время (а только так и можно выявить отклонения). Все поняли? Надо записывать каждый запрос из сотен или даже тысяч IP-адресов, вычислять средние значения для разных групп, которые и выявляются-то не сразу, обновлять результаты расчетов… Не забываем, что решение о попадании очередного посетителя в допустимые рамки должно приниматься «на лету» и откусывать лишь столько вычислительных ресурсов у сервера, чтобы это не отражалось на скорости отдачи страниц.

Ещё одна угроза — собственная реализация этого дела. Одно некорректное изменение кода — и все пользователи заблокированы! Это не фантастика, такое уже случалось не один раз. Причем фильтр пропускал администраторов и не сразу удавалось понять, почему никто не приходит на сайт. Ошибка в реализации может сыграть и в любую другую сторону: от «перегруза» до «дыры в безопасности». Понадобится очень хороший калькулятор потерь.

А как насчёт роботов, которые напускают на сайты эти ребята: Google, Bing, Yand… (Ах, да! — Ya.ru), DuckDuckGo и другие? Их тоже заблокировать? Конечно, это глупый вопрос. Заблокировать поисковых роботов — всё равно, что заблокировать свой бизнес. Значит, надо как-то отличать одних роботов от других. Хороших от плохих. Да, ещё не забыть, что плохие будут мимикрировать под хороших.

Для избавления от всех забот можно подобрать стороннее готовое решение и надеяться, что выбор не приведет к снижению безопасности, c трудом отслеживаемым потерям посетителей и увеличению расходов.

А ещё можно просто не противодействовать парсингу.

— Внимание! Запуск нашего стартапа откладывается. Все разработки — в сторону! Все силы — на борьбу с парсингом! Это важно.

Добавление защиты от парсинга означает, что команда будет занята или изобретением защиты, или её реализацией, или тестированием, или мониторингом трафика.

Если выбрать путь изменения расположения элементов, надо подсчитать сколько часов потребуется тратить в неделю на то, чтобы сбивать с толку своих пользователей. (Мы помним, что для другой стороны это просто рутина, с которой они легко справляются целыми днями напролет.)

Каждый бизнесмен хочет, чтобы его продукт выходил на рынок быстрее конкурентов, регулярнее конкурентов и качественнее конкурентов. Подчас это единственный способ заинтересовать и привлечь клиента. Добавление к списку функций для реализации ещё одной функции — пресловутой защиты от парсинга — означает задержку в реализации всех других функций. А есть ли среди этих «других функций» такая, которая по важности уступает этой защите? Вряд ли.

В самом деле. Во что обойдется подобная разработка, принимая во внимание все технологии, которые находятся на вооружении у «той» стороны?

— Они парсят мой сайт! Накажите их!

— «Они» это кто? Посетители? Поисковые роботы? Мы ничего не можем сделать, это не запрещено законом.

Можно оказать неоценимую финансовую помощь своему проекту, если отказаться от противодействия парсингу. Отчаявшись решить проблему парсинга технически, владельцы сайтов решили пойти другим путем — через юридические запреты.

Но это чрезвычайно многогранная призма, сквозь которую не всегда можно ясно различить реальный мир. Во-первых, в разных странах законодательство разное. Особенно учитывая, что взаимодействие происходит в глобальной сети, не имеющей настоящих границ.

Во-вторых, поскольку невозможно провести юридически ясную черту между хорошими и плохими роботами, между браузером пользователя и браузером робота, то общепринятым подходом считается: всё что может быть прочитано законным способом — может быть прочитано с помощью любых инструментов.

Есть, конечно, много нюансов. И ситуация с ВКонтакте и Даблом тому лишнее подтверждение. Парсинг хоть и разрешен сам по себе, он не означает отмену авторского права, его автоматическую передачу или копирование.

И снова начинают превалировать юридические тонкости. Это очень непростая, обширная тема, достойная отдельной статьи. Мы работаем по-белому, соблюдаем все требуемые государством формальности при работе с данными, имеем большой опыт, а потому бизнес, который заказывает у нас парсинг, находится в полной безопасности.

Сейчас даже прорабатываем идею — маркетплейс по продаже разных баз данных, которые в том числе накопились за время нашей работы. Что-то вроде «Ozon» для бизнеса — несколько миллионов баз данных по разным темам и странам. Это не опечатка: «миллионов»! К нам постоянно обращаются за подобными «покупками» — мы идем навстречу. Но есть мечта — поднять продажу баз данных на небывалый уровень как по доступности для бизнеса, так и по удобству выбора. Какова идея?!

Поисковики парсят сайты на регулярной основе. Но их роботы не единственные, кто читает и собирает открытые данные. Даже если начать составлять список с самых крупных парсеров, мы быстро потеряем счет: Google, Bing, DuckDuckGo, Ya.ru (раньше назывался Яндекс), Baidu, Sogou, Exalead, Alexa, социальные сети…

Есть даже такая технология как Microformats, призванная помогать парсерам лучше понимать кусочки текста на веб-страницах. Многие сайты с удовольствием используют её для привлечения новой аудитории.

— А давайте поставим сервер в лесу. И ни к чему подключать его не будем. И никого не пустим. И никому не скажем…

Также есть всякие специализированные агрегаторы, собирающие узконаправленные виды данных: цены на товар или услугу, новости, блоги… Привлечь нужного агрегатора или даже предпринять усилия, чтобы публиковаться на его страницах — прекрасная возможность для продвижения сайта. Агрегатор — это как маленький специализированный Google.

Если хочется сухих цифр — пожалуйста: 93% трафика сайты получают из поисковых систем, агрегаторов и прочих участников рынка.

А кто это делает? Кто побывал на сайте и привел на него за руку клиента? Кто сделал это не просто бесплатно, но и вообще незаметно? Ответ — роботы! Это их-то предлагается отлавливать и не пущать?!

— Так. Ясно. Понятно. Кто тут парсингом занимается?

Все кто всерьез настроен на использование современных инструментов для продвижения своего бизнеса, то есть те, кто имеет адекватную стратегию развития в цифровом пространстве, не сомневаются в необходимости привлечения сторонних сервисов, осуществляющих сбор и агрегирование открытых данных.

Сегодня относительно легко отследить все упоминания о продаваемом товаре или оказываемой услуге в комментариях, публикациях в социальных сетях или на специализированных площадках для отзывов — и своевременно обработать возражения, что коренным образом увеличит любовь современных поисковых алгоритмов и репутацию в глазах общественности.

Чтобы всего этого добиться, надо на регулярной основе парсить новости, специализированные площадки, социальные сети, ленты… Собирать данные, обрабатывать их, анализировать… — только так можно узнать и результат рекламной кампании и подкорректировать его.

Речь идет об эффективном использовании астрономических денежных сумм. Да, это всё парсинг.

Разной степени успешности и качества сервисы предлагают свой анализ глобального рынка. Чтобы выиграть в высококонкурентной борьбе, надо внимательно отслеживать соперников, их победы и неудачи — вот ключ к успеху в современном бизнесе.

Всё меняется. SEO тоже меняется. (SEO, Search Engine Optimization — искусство понравиться поисковикам.) Это не просто приход MUM на смену BERT (MUM и BERT — поисковые алгоритмы Google). Все понимают насколько важно оказаться на первой странице поисковой выдачи. А как это сделать, если не использовать правильные ключевые слова и фразы? И как наилучшим образом собрать «правильные слова и фразы», если не парсингом ресурсов, на которых живет целевая аудитория? И это тоже всё роботы!

Лидогенерация — ещё одна совершенно новая область маркетинга.

Независимо от того, нужны ли контакты гостиниц, имена местных врачей или список шиномонтажных мастерских, самым быстрым и эффективным способом получить нужные данные будет парсинг соответствующих ресурсов. Согласно статистике, этот метод генерации лидов значительно превосходит такие традиционные подходы, как электронная почта, контент-маркетинг, социальные сети и PPC-реклама.

(PPC, pay per click — рекламодатель платит не за показы, а за переходы по рекламным объявлениям. Кстати, если ваши конкуренты натравили роботов делать пустые клики по вашей PPC-рекламе, то есть надежная защита от этого — clickfraud.ru).

Другими словами, современный парсинг позволяет привлекать новый трафик, продвигать свою услугу или продукт, оптимизировать присутствие в Интернете — и всё это значительно более дешевыми и точными средствами.

Давайте отвлечемся от рыночных представлений и взглянем на парсинг ещё с одной точки зрения — с научной.

— Британские ученые установили, что самое большое количество витаминов содержится в аптеке.

Ученые нуждаются в огромном количестве данных — парсинг позволяет эти данные добывать. Может показаться, что работа с данными не настолько существенна для науки, ведь ученый мир кому-то представляется в виде нечитаемых формул и уникальных лабораторных установок. Частично это так. Но не всегда. Медицина и социология остро нуждаются в анализе огромных массивов данных (заметьте — актуальных данных) и тут без парсинга никак не обойтись.

Если сайт не препятствует парсингу, то он делает свой маленький вклад в развитие науки и человечества. Хотя это и осознать трудно, и поверить в это тоже нелегко.

— Короче…

Подытоживая, можно сделать вывод, что парсинг выгоден всем — и целому миру, и каждому его участнику, будь то сайт или даже одинокий пользователь.

Независимо от нашего желания данные парсятся и будут парситься дальше, хотя бы по той причине, что не существует технических средств этому помешать.

Большинство стран считает парсинг законным. И даже если в какой-то стране законодатели посмотрят иначе, аутсорсинг мгновенно решает все трудности. Если надо защитить авторский контент, то законы для его охраны уже есть во всех развитых странах и здесь не нужно ничего изобретать.

Как думаете, почему к нам приходят крупные компании с заказом на парсинг? Причина абсолютно не в том, что мы лучшие в парсинге. А в юридическом желании вынести «сбор данных» за контур организации по требованиям акционеров–безопасников–юристов.

Подавляющее большинство визитов людей на сайт обеспечивают роботы, заранее там уже побывавшие, прочитавшие и осмыслившие (в силу своих способностей) его содержимое. Лучше сделать API (Application Program Interface — программный интерфейс) для доступа к своим данным, чем закрываться от мира и терять потенциальных клиентов.

Интернет меняет мир. Парсинг меняет интернет. Мы, xmldatafeed.com — часть глобального парсинга на постсоветском пространстве :) :). Всё это называется прогресс. И его не остановить. Тема очень дискуссионная, и я призываю всех высказываться в комментариях. Мы всё равно не придем к единому мнению. Но обмен взглядами — это тоже прогресс.

Где можно почитать больше информации? Я регулярно пишу в Телеграмм наш опыт. Подписывайтесь, если хотите посмотреть на «изнанку» ИТ бизнеса в России или пишите мне с вопросами @maximkulgin.

Комментарии (122)


  1. Boilerplate
    07.01.2023 16:46
    +14

    Статья немного выглядит нытьем на тему того, что парсить сайты становится сложнее и сложнее)) Насчет вычленения данных из DOM и запросов - это не так просто, если DOM динамический и имеет случайные названия и структуру элементов. Из универсальных методов - только распознавание скриншота сайта. Я для своих целей пишу иногда небольшие скрапперы и user scripts, и вот сложнее всего это оказалось делать для лк билайна. Там явно очень заморочились, что внутренности были максимально запутанные.


    1. makasin4ik Автор
      07.01.2023 16:48

      запросов на парсинг много, но да - парсить стало сложнее. компенсируется тем, что запросы разнообразнее.


  1. Fafhrd
    07.01.2023 16:58
    +10

    Защита от скликивания рекламы

    Зачем? Какая разница, кто кликает, это всего лишь бизнес :)


    1. 0mogol0
      07.01.2023 17:14
      +11

      вы не понимаете, это ДРУГОЕ!!!


    1. makasin4ik Автор
      07.01.2023 21:13

      Да. Вы правы - я знаю владельцев тысячи сайтов , которые у себя на сайтах тихонько скликивают блоки рся. Сами у себя. И для них это бизнес. Не хороший но бизнес


      1. Pavel1114
        08.01.2023 07:21
        +3

        Ну яндекс сам не чурается скликивать. Например в своём приложении Я.Погода для андроид. Там при открытие изначально нет блока под рекламу, но через пару секунда она подгружается и помещается в то место, где находились блоки погода на сегодня и завтра, сдвигая их вниз. Я по первой, желая посмотреть подробный прогноз на завтра, не редко случайно кликал на такую рекламу. Вот так "правильная" вёрстка и небольшая задержка в отображении рекламы могут приносить хорошие деньги


  1. Shado_vi
    07.01.2023 17:20
    +4

    предоставление ресурсом api может выйти дешевле чем отъедать ресурсы требуемые для сайта.
    плюс можно этот api так же монетизировать.
    в некоторых случаях парсинг api мобильных приложений может оказаться дешевле и проще чем сайтов.


    1. makasin4ik Автор
      07.01.2023 21:14

      Было бы кстати круто. Мы бы платили вместо того чтобы парсить.


      1. LordCarCar
        08.01.2023 00:23
        +1

        Хе, а это не будет концом вашего бизнеса? Зачем покупателю перекупщик?


        1. Shado_vi
          08.01.2023 03:29

          концом не будет, но снижение число клиентов вполне возможно.
          api не всегда может покрыть потребности.


  1. micbal
    07.01.2023 17:29
    +5

    Если парсищие не наглеют, пусть себе парсят, да и не заметны они особо при таком небольшом трафике. А вот если наглеют и сильно грузят систему, сомнительная выгода бизнесу (распознаются и получают левые данные). Списки IP всяких поисковых систем доступны, и по желанию SEO добавляются в белый лист.


    1. makasin4ik Автор
      07.01.2023 21:15

      Самые кривые парсеры пишут те, кто только прочитал книгу о том как парсить на питоне . Они создают паразитную большую нагрузку.


      1. kAIST
        07.01.2023 23:23
        +7

        А какая разница серверу, кривой парсер на питоне или замечательный на go? Надо сделать 1000 GET'ов, любому парсеру это придется сделать. Кривой парсер тут даже скорее всего медленнее сделает, что лучше серверу.


    1. Wesha
      08.01.2023 06:35

      Если парсищие не наглеют, пусть себе парсят

      А зачем? Не проще ли публичный открытый API сделать — тогда не будет небходимости сырые данные в презентабельный вид оборачивать, на скрейперах можно машинное время сэкономить.


  1. Moskus
    07.01.2023 17:51
    +52

    Вы когда занимаетесь демагогией, используя ложные аналогии с луддитами, не думаете, что вас на этом легко поймать? Потому что в случае парсинга, речь вовсе не о "новой технологии, которую незаслуженно не любят". А о том, что люди не хотят, чтобы собранные ими данные (что стоило им денег и времени) кто-то просто "взял". А вы их пытаетесь повально дурачками выставить и стыдить.

    Да, некоторые из них тоже эти данные сначала где-то стырили, а потом обижаются, что тырят у них. Но вы же не просто не предлагаете это различать, а делаете вид, что это различие - несущественно.

    Так что верная аналогия тут - не с луддизмом, а с тем, что кто-нибудь начал бы воровать в магазине самообслуживания, говоря при этом, что охрана и видеонаблюдение - плохо для бизнеса.


    1. gazkom
      07.01.2023 18:59
      -2

      Люди не просто собрали данные, а осознанно выложили их на всеобщее обозрение в интернет - сеть публичного доступа. И каждый может их "взять". Как можно украсть то, что раздается бесплатно всем желающим?

      Это как некоторые дамы выкладывают свои неодетые фото в интернет, а потом возмущаются, что на них юноши маструбируют. "Ах, я же выложила их для красоты". Выложила - терпи.


      1. Moskus
        07.01.2023 20:37
        +9

        Вы занимаетесь абсолютно той же демагогией, утверждая, что если возможность нежелательного использования существует, "правильным" поведением в этом случае будет ничего не делать, а смириться. Это не так.

        Да, некоторые ответные действия неародуктивны или бесполезны. Например, в упомянутой мной иллюстрации с магазином самообслуживания, бесполезно вешать объявления "не воровать!" Но попытаться, в том числе - на пользу остальных покупателей, внедрить противокражную систему для дорогих или особенно привлекательных для воров товаров - совершенно нормально.


        1. gazkom
          07.01.2023 21:09
          +2

          Ну да, это я занимаюсь демагогией. Это же я сравниваю то, что бесплатно раздают с магазином, где за всё надо платить.


          1. Moskus
            07.01.2023 21:44
            +2

            Я многократно писал в комментариях на Хабре, что аналогии не могут служить доказательством, они - иллюстрация, чтобы проще было представить ситуацию. Так что поймать на демагогии меня - не удастся, т.к. я не пытаюсь этим ничего доказать, я помогаю вам представить то, что до этого описываю в общих терминах, абстрактно.

            Содержимое сайта (фото товаров интернет-магазина, например) никто не "раздает бесплатно", ближайший (но не полный) аналог с оффлайновым магазином - оборудование торгового зала. Вы подменяете понятия, это снова демагогия.


            1. makasin4ik Автор
              07.01.2023 22:19

              Фото не парсят. Цены наличие


              1. Moskus
                07.01.2023 22:43
                +2

                Кто не парсит фото? Конкретно вы? Или вы хотите сказать, что никто так не делает (множественное число в "не парсят" на это указывает)?


              1. kAIST
                07.01.2023 23:27
                +7

                Да ладно, фото как раз таки частенько и парсят.

                Одна компания вложилась и сделала съемку продукции, вторая не хочет вкладываться и ворует снимки и описание - это типичная ситуация.


                1. ifap
                  08.01.2023 00:10

                  Да, но за это одной компании может поступить приглашение, от которого не стоит отказываться: в лучшем случае - посетить суд, в худшем - следователя.


              1. domix32
                08.01.2023 02:06

                Это вы просто с сайтами комиксов не имели дел. Там тоже миллион конкурентов и парсят картинки друг друга со страшной силой. Но да, не фотографии. Можно ещё вспомнить всяких датасаентистов, которые себе корпуса изображений качают.


            1. gazkom
              07.01.2023 22:52
              +7

              Вы подменяете понятия: парсинг подменяете на неправомерное использование материалов сайта (эти два понятия несвязаны). Приводите некорректные аналогии, а затем говорите, что ваши же аналогии не могут служить доказательством.

              Я не пытаюсь вам поймать на демагогии, я просто констатирую факт. Для тех кто в танке, еще раз: на сайте есть условия использования информации. Парсинг нарушением этих условий не является, до тех пор пока это не прописано в условиях. Как эта информация в дальнейшем используется не имеет отношения к парсингу. Если нарушает условия, то именно это использование и является нарушением.


              1. makasin4ik Автор
                08.01.2023 12:08

                Есть законы рф. Причём здесь условия? Вы можете написать на сайте, что каждый посетитель должен вам деньги :) - но это будет просто набор букв


            1. Flux
              08.01.2023 01:28
              -2

              У вас аргументация уровня "нет ты демагог потому что я сказал и точка!1", прекрасно дополненное фирменным "я в домике и не могу быть демагогом".

              Ресурс предоставляет веб-страничку с информацией которую простой смертный может посмотреть бесплатно и без смс.
              Пользователь может с этой информацией делать всё что ему заблагорассудится.
              Миллион пользователей могут посмотреть информацию и делать с ней всё что захотят.
              Один пользователь может посмотреть миллион страниц и делать информацией с этих страниц всё что хочет.
              Но как только этот миллион страниц смотрит скраппер - ПАМИГИТЕ, ХУЛИГАНЫ ЗРЕНИЯ ПРИБЫЛИ ЛИШАЮТ!

              Давайте, расскажите каким образом замена человека на машину вдруг делает процесс аморальным и чем такой подход отличается от обыкновенного лицемерия обыкновенных копирастов.


              1. Boilerplate
                08.01.2023 03:19

                Имхо, по-моему, и скрапинг, и защита на итак доступную публичную информацию - одного поля ягодки. Говорю как человек, который и материал делает и публикует, и скрапер использует для себя. И в плане собирания и коллекционирования общедоступной информации, тут в основном только один урон - нагрузка на сервер. Права на материалы - это уже другой разговор и тут нет разницы в средствах. Но в конечном счете, скраппер может как обычный клиент получить цены, а может сделать это скриптом - вполне себе имеет право. Продавец может как выдавать цены всем подряд, так и ограничить их получение, если считает нужным. Можно ныть в любую сторону, но по факту оба делают вполне себе легальное действие с душком.


      1. HardHab
        07.01.2023 21:17
        +2

        Просто так никто ничего не выкладывает. Есть лицензия, соглашение об использовании сайта или сервиса. Есть множество лицензий вроде GPL, где содержимое доступно бесплатно, но и только. Это не говоря уже об авторском праве.


        1. gazkom
          07.01.2023 21:24
          +1

          При чем тут парсинг? Что мешает браузером зайти на сайт и потом использовать не в соответствии с соглашением об использовании?


          1. makasin4ik Автор
            07.01.2023 21:26
            -5

            Ничто не мешает. Просто Парсинг вызывает эмоции. Негативные.


        1. makasin4ik Автор
          07.01.2023 21:25

          Цены парсят в 90% запросов. Лицензия не применима


      1. Widowan
        07.01.2023 21:18
        +2

        Взять кусочек данных для личного использования в адекватном количестве - пожалуйста, оно для этого и создано (например сослаться на данные в блоге или сделать какой-нибудь график, и т.д)

        Но когда парсится весь сайт со всеми данными на коммерческой основе, это уже не нормально, потому что чаще чем нет эти данные используются совсем не добросовестно (например конкурентами)


        1. makasin4ik Автор
          07.01.2023 21:18
          +1

          Это может быть законно или нет. А другой трактовки то не может быть…


          1. mvv-rus
            07.01.2023 21:42
            +2

            И, скорее всего (насколько я понимаю), ваша деятельность незаконна. Потому что есть статья 1260 ГК РФ, которая защищает авторское право владельца интернет-сайта на подбор и расстановку материала, аналогично праву на сборник:

            2. Составителю сборника и автору иного составного произведения (антологии, энциклопедии, базы данных, интернет-сайта, атласа или другого подобного произведения) принадлежат авторские права на осуществленные ими подбор или расположение материалов (составительство).

            Но что там на самом деле с законом - это пусть пострадавшие от вашей деятельности с вами разбираются. Для этого суд есть.


            1. makasin4ik Автор
              07.01.2023 21:46
              -6

              Мы парсим фактические данные. Они не защищаются законом. Цена? Наличие ?


              1. mvv-rus
                07.01.2023 22:22
                +3

                Законом защищается деятельность по подбору и расстановке. Впрочем, мне это не интересно,я не юрист и сайта у меня нет, так что дальше обсуждать не буду.


    1. makasin4ik Автор
      07.01.2023 21:17

      :) можно аналогию ? Концерн Калашников - он что делает? Думаю вы поняли мою мысль. А остальное - демагогия. Деятельность может быть законнлй или нет. Остальное не важно. Понимаю что звучит чуть грубо, но я так думаю. Простите


      1. Moskus
        07.01.2023 21:47

        Нет, не понял вашу мысль, можете развить?

        Демагогия - где именно? Укажите конкретные демагогические приемы, которые я использовал, или места их использования. Иначе, ваш аргумент - не более чем детсадовское "сам такой".


        1. IvanPetrof
          07.01.2023 23:01

          "переубеждение через страх"

          "преувеличение"

          "неуместное осуждение"


          1. Moskus
            08.01.2023 00:02
            -1

            Где?


    1. Wesha
      08.01.2023 06:37
      +1

      люди не хотят, чтобы собранные ими данные (что стоило им денег и времени) кто-то просто "взял".

      Почему-то мне кажется, что если бы "люди не хотели, чтобы собранные ими данные кто-то просто взял", они не выкладывали бы их на открытый сервер в интернете, где (сюрпрайз) любой прохожий может их "просто взять".


      1. FanatPHP
        08.01.2023 16:05
        +1

        Если бы люди не хотели, чтобы их одежду кто-то себе забрал, когда они ушли купаться, то купались бы не раздеваясь, прямо в штанах. А не оставляли на берегу, где любой прохожий может её "просто взять".


        1. Wesha
          09.01.2023 10:44

          не оставляли на берегу, где любой прохожий может её "просто взять".

          Эммммм... ну как бы да? А Вы что, как-то по-другому купаетесь???

          Когда мы на пляж ходили — я с мамкой в воде, папка на берегу вещи сторожит. Я с папкой в воде — мамка на берегу вещи сторожит. Они в воде — я на берегу вещи сторожу. В чём проблема-то?


          1. FanatPHP
            09.01.2023 10:49

            Мда…
            Вот так живёшь себе в обычном современном мире, а потом заходишь на Хабр — как бы ойти ресурс всея рунета — и проваливаешься в какую-то пещеру доисторическую.


            1. Wesha
              09.01.2023 10:53

              живёшь себе в обычном современном мире

              А что, в Вашем "обычном современном мире" уже всех воров и мошенников пересажали, никто ни у кого ничего не ворует, не обманывает, забудешь на лавочке 10000 буказойдов, утром хватишься — а они там и лежат, и т.д. и т.п.? Хочу к Вам на планету!

              А у нас на планете говорят — "сам о себе не позаботишься — никто о тебе не позаботится".


              1. FanatPHP
                09.01.2023 10:56

                Забавно, вы сейчас себя, заодно с автором статьи, приравняли к ворам и мошенникам :)


                1. Wesha
                  09.01.2023 11:23

                  Не, это Вы сейчас всех посетителей своего сайта приравняли к ворам и мошенникам.

                  Повторяю: у Вас торчит наружу порт 80, что означает "заходи кто хочет, бери что хочешь". Вот "мы с автором статьи" заходим и берём. Ровно так же, как и все остальные. Таблички "только по пять штук в одни руки" там не висит.


  1. NeoCode
    07.01.2023 18:15
    +8

    Полностью согласен с автором статьи. Вообще, с философской точки зрения, есть две концепции - "сайт как приложение" и "сайт как база данных". Первое видимо очень нравится бизнесу, такой закрытый сайт с кучей скриптов, где хозяин единолично устанавливает правила, шаг шаг вправо влево - расстрел, пользователи только любуются на картинки замечательных товаров и неистово жмут кнопку "КУПИТЬ". Такая вот телевизация интернета, превращение Сети в очередной зомбоящик.
    А второе - это то, каким интернет должен быть с точки зрения его создателей. Семантический веб, единая децентрализованная база данных, состоящая из множества унифицированных веб-ресурсов. Здесь хозяин - пользователь, он мог бы к примеру дать компьютеру команду "найти мне все товары с такими-то подробными характеристиками, с положительными отзывами от людей, коэффициент моего доверия к которым выше 0.7". И лечь спать. А компьютер просканирует сеть, соберет все записи, проранжирует их и выдаст результат. А торгаши ничего не смогут сделать, никакие SEO не помогут - потому что стоит только один раз обмануть, как Сообщество (именно Сообщество, а не Гугл с Яндексом) опустит рейтинг конторы в каком нибудь децентрализованном блокчейне ниже плинтуса, и проще будет просто закрыть бизнес.
    Такое вот утопическое будущее... мир инженеров, а не маркетологов. Увы, сейчас, несмотря на все усилия, интернет скорее ближе к первой концепции чем ко второй.

    Но вообще вы бы лучше рассказали о технических аспектах парсинга. Какие технологии применяете, на каких языках пишете парсеры. Вот это реально интересно. Я бы сам для себя (не для денег, а просто для интереса) хотел бы к примеру сделать парсер и локальную БД например соцсети "Вконтакте", с тем чтобы находить скрытые связи в определенном подмножестве людей и групп.


    1. 0mogol0
      07.01.2023 18:58
      +16

      угу, так и представляю...
      Есть, например, сайт на котором автор выкладывает отсканированные им исторические фото, после существенной постобработки, причем в хорошем разрешении. Источником доходов на который всё это делается - это демонстрация рекламы и продажа отпечатков.

      А теперь благодаря концепции "распределённой БД", я получаю всю подборку картинок у себя локально, не тратя время на просмотр рекламы. А товарищ закрывает сайт и уходит собирать апельсины, так как деньги у него внезапно закончились...

      Так что надо бы в вашу прекрасную картинку "коммунистического завтра" добавить какую-то монетизацию, типа - каждая строка выдачи из такой БД обходится в 0,00(0)1 цента, и тогда собрав в таком "автоматическом режиме" всю подборку - я буду избавлен от необходимости просматривать рекламу, а владелец сайта получит честно заслуженные им деньги.


      1. vikarti
        07.01.2023 19:35

        Так а монетизация разве плохо? Но нужен какой то стандартный способ ее прикрутить в том числе к API
        Есть конечно https://webmonetization.org/ (+ https://interledger.org/rfcs/0028-web-monetization/ ) — но его мало кто использует (из хоть как то известных — techdirt) и это "JavaScript browser API". Надо что-то стандартное на базе блокчейна (и без огромных комиссий — а значит биткоин и эфир — пролетают?)


        Вообще вспоминается


        И все — таки оставалась надежда, что информация, необходимая доктору Крюгеру, таится где — то в недрах необъятной сокровищницы уже накопленных научных знаний. Медленно, не спеша, он разработал программу автоматического поиска, в задачу которого входило найти одно из тех вероятных объяснений, которое соответствовало бы всем условиям поставленной задачи. Программа должна была исключить объяснения, основанные на земных факторах, — их количество исчислялось, несомненно, миллионами — и сконцентрировать внимание лишь на внеземных. Выдающиеся научные заслуги доктора Крюгера влекли за собой определенные преимущества, одним из которых было неограниченное компьютерное время — это составляло часть гонорара, которую он всегда требовал от организаций, прибегавших к его помощи. Поэтому, хотя поиск мог оказаться очень дорогостоящим, ему не приходилось думать о плате.
        Но все обернулось на удивление просто. Доктору Крюгеру повезло: поиск завершился уже через два часа тридцать семь минут после начала, когда компьютер наткнулся на ссылку номер 21456. Заглавия оказалось достаточно. Пауль так разволновался, что его собственный робот — секретарь не узнал голос хозяина, и тому пришлось еще раз повторить команду о полной распечатке.
        Выпуск журнала «Нейчур» был опубликован в 1981 году — за пять лет до рождения доктора Крюгера! — и когда глаза ученого пробежали по его странице, он понял не только то, что его племянник совершенно прав, но и — что не менее важно — как могло произойти подобное чудо. Должно быть, у редактора журнала, изданного восемьдесят лет назад, было врожденное чувство юмора. Статья, посвященная составу ядер отдаленных планет, вряд ли могла привлечь внимание непосвященного читателя, но у этой статьи был поразительный заголовок. Робот — секретарь мог бы объяснить Крюгеру, что когда — то эти слова составляли часть знаменитой песни — впрочем, прямого отношения к делу это не имело. К тому же Пауль Крюгер никогда не слышал про «Битлзов» и их психоделические фантазии.

        Написано в 1987


        1. BugM
          07.01.2023 19:40
          +1

          Опять блокчейн? Вы это серьезно? Он хуже любого другого способа оплаты.

          И это не сработает. Пейволлы вообще плохо работают. И людям очень не нравятся.

          Еще точнее они работают, но ваш клиент это бизнес. Ту же Статисту бизнес покупает с удовольствием. А б2с рынка по сути нет.


        1. 0mogol0
          07.01.2023 22:06
          +1

          ну видимо вы редкий представитель тех, кто готов платить ;)

          Большинство предпочитает получать всё и бесплатно. Плюс к тому, необходимость платить практически полностью исключает анонимность в вебе, так как появляется возможность отслеживать, кто куда и зачем именно заходил.

          И в итоге лекарство может получиться хуже самой болезни.


      1. georgevp
        07.01.2023 22:57

        Насколько я понял из этой статьи, речь идет о парсинге товарной номенклатуры с ценой, а не выкачке самих товаров. А что касается автора сайта с историческими фотографиями, то непонятно, как он продает эти фотографии, если они лежат в открытом доступе. Это выглядит, как если бы официальный магазин по продаже лицензионных ключей от ПО выложил бы их в описании этого ПО.


        1. 0mogol0
          07.01.2023 23:16
          +1

          автора сайта с историческими фотографиями, то непонятно, как он продает эти фотографии, если оне лежат в открытом доступе.

          Он продаёт отпечатки, т.е. физические копии для того, чтобы украсить квартиру или офис.

          речь идет о парсинге товарной номенклатуры с ценой, а не выкачке самих товаров

          Я отвечал на комментарий, где автор мечтал о "каждому по потребностям" без рекламы и смс.

          Что же касается основной статьи, там как уже отметили есть немало передёргиваний и натяжек. Подозреваю, что основные заказы на парсинг - это спереть спарсить цены и описания, а потом использовать в своём бизнесе, использовав чужой труд задаром.

          Возможно это и не незаконно, но думаю, что точно неэтично.


          1. georgevp
            07.01.2023 23:43

            Что же касается основной статьи, там как уже отметили есть немало передёргиваний и натяжек. Подозреваю, что основные заказы на парсинг - это спереть спарсить цены и описания, а потом использовать в своём бизнесе, использовав чужой труд задаром.

            Немного не понимаю. Есть фирмы, которые просто выкладывают .xls-файлы с прейскурантом. Например, тут и тут (не реклама - первые в выдаче ya по запросу "стройматериалы .xls"). Т.е. их владельцы впрямую заинтересованы в увеличении продаж своего товара.


            1. 0mogol0
              07.01.2023 23:51
              +2

              ну опять же, есть разница "сами выкладывают" и у "них берут не спрашивая". Причем судя по отдельным замечаниям парсинг чаще заказывают не клиенты, а конкуренты.

              Возможно, что каких-то видов бизнеса возможность конкурентам загрузить прайсы на весь ассортимент не является серьезной проблемой, зато позволяет привлечь дополнительных клиентов. Для каких-то регионов / видов бизнеса - ситуация обратная. И тут вопрос, насколько законно / этично уважать хотелки бизнеса.


      1. eee94
        08.01.2023 03:06

        Ну так есть вроде самый очевидный способ: заплатил - смотри. Не заплатил (парсер или кто там еще) - не смотри. Или товар всё же не такой ценный что б за него платили? Или хочется и хайп от (типа) сообщества собрать и ничего этому сообществу не дать?


        1. georgevp
          08.01.2023 04:47

          Ничего, что то смотришь является бесплатной информацией по закону, или опять "по понятиям"?


        1. 0mogol0
          08.01.2023 13:15

          Не заплатил (парсер или кто там еще) - не смотри. Или товар всё же не такой ценный что б за него платили?

          Ещё раз, возникают вопросы в цене и проведении оплаты - например, установит человек цену в 0,05 цента за картинку, как брать деньги с тех кто посмотрел меньше чем на цент? Как проводить транзакции на такие маленькие суммы? итп.

          Понятно, что можно сделать платный доступ за 5$ в месяц, но тогда надо решать вопросы с SLA, чтобы не больше определенного количества запросов в минуту. И опять же, те кто захотел глянуть одну-две картинки - уйдут сразу, без подписки и без картинок.


  1. AlexeyK77
    07.01.2023 19:14
    +12

    парсеры ломают сложившуюся модель монетизации за бесплатный доступ к информации через показ рекламы. Парсер покупку не сделает и денежку не принесет ни рекламодателю, ни автору сайта.

    Но объективно, эра когда все больше и больше действий будет генерироваться в сети не людьми, а оботами уже настала. следюущий виток - AI, который будет читать сайты, отсеивать весь маркетинговый булшит и предоставлять нормальный доступ к информации в виде диалога с chatGPT. Это уже в воздухе и полагаю очень скоро увидим реализации. К тому же недавно Микрософт заявил об интграции chatgpt в свой поисковый движок. И это только лишь начало.

    Боюсь, что модель монетизации через рекламные показы в том виде как она сейчас есть сильно поменяется, а значит поменяется и веб.


    1. georgevp
      07.01.2023 23:45
      +1

      ломают сложившуюся модель монетизации за бесплатный доступ к информации

      По закону, информация о товаре и ценах должна быть бесплатной.


    1. NeoCode
      08.01.2023 00:36

      А потому что нефиг рекламу показывать. Пусть пишут на сайтах типа Хабра умные технические статьи, где на хорошем техническом уровне рассказывают о реальных преимуществах своих товаров. С цифрами, выкладками, схемами и прочим. А Сообщество будет решать, достойная это статья или фигня. Реклама же - это абсолютно тупая манипуляция, даже не представляю кто на нее ведется.


      1. BugM
        08.01.2023 00:39
        +2

        Умные технические статьи про мыло. Или про полотенце. Или еще лучше про кастрюлю.

        Сегмент массмаркет. У вас все обычное как у всех по технологиям которым 50+ лет. Менять в товаре ничего нельзя, цена возрастет и из сегмента вылетите. Упаковку можно сменить. Напишите умную техническую статью?


        1. NeoCode
          08.01.2023 01:01

          Так ради мыла или кастрюли я и рекламу смотреть не буду) Куплю просто по параметрам. Мыло - чтобы нужного типа (банное, туалетное, хозяйственное) и чтобы в мыльницу влезало. Зачем мне реклама?


          1. BugM
            08.01.2023 01:02

            Вам продать нужно, а не купить. Рекламу ставит продавец.


            1. NeoCode
              08.01.2023 01:17
              +1

              Да, но я не хочу вставать в этом вопросе на сторону продавца. Реклама (в особенности нетехническая) это манипуляция. Допустим, ставят красивую картинку, с красивой девушкой с этим мылом, может какой-то там доле процента потенциальных покупателей что-то западет в подсознание и человек купит именно то мыло которое ему прорекламировали. А другой покупатель случайно увидит рекламу другого мыла и купит его. Но кому от этого станет лучше? Деньги на рекламу потрачены, куча людей, вместо того чтобы заниматься квантовой физикой и биотехом, сидят в фотошопе рисуют всякую фигню, сочиняют слоганы и клепают баннеры. В сумме результат тот же, как если бы никакой рекламы никакого мыла не было вообще. Но да, я понимаю что если один производитель мыла откажется от рекламы, то он потеряет часть рынка. Т.е. это просто вынужденная эксплуатация уязвимостей человеческого подсознания, которая по сути не нужна никому, но все вынуждены ей заниматься чтобы остаться на рынке.
              В общем, если удастся выгнать часть рекламы хотя-бы из интернета, не вижу в этом ничего плохого.


              1. BugM
                08.01.2023 01:26
                +2

                Ваш бизнес разорен. Вы с семьей живете под мостом. Ваши бывшие рабочие сидят на пособии. Клиенты ушли к тем кто купил рекламу.

                Я даже не знаю почему бизнес не хочет себе такой участи?

                А всего-то надо было прорекламировать свое мыло и кастрюлю умной технической статьей. Чтобы победить тех кто купил обычную рекламу.

                Хотя и тут я бы спросил как бы собираетесь привлечь хотя бы миллион женщин в возрасте 30-50 к своей статье? А через неделю-две что делать будете? Вторую статью писать и снова привлекать трафик? Но вы сдались раньше.


                1. NeoCode
                  08.01.2023 01:31
                  +1

                  Я смотрю со стороны пользователя и со стороны интернета в целом. Появилась технология (пусть тот же AdBlock) которая уменьшает количество рекламы в интернете. Что существенно, для всех одинаково. Бизнес может упокупаться, но рекламы не видно. Люди покупают первое попавшееся мыло. Бизнес вместо рекламы начинает платить за "правильную" раскладку мыла в магазинах:))

                  Допустим, появилась другая супертехнология, которая изменяет интернет так, что рекламы там вообще нет. И все товары заказывают онлайн, никаких магазинов. Что делать бизнесу? А тут вариантов не остается, кроме самого противного для бизнеса, но самого полезного для потребителя: улучшать таки реальные потребительские свойства товаров и рассказывать об этом в нормальных умных технических статьях.


                  1. BugM
                    08.01.2023 01:38
                    +1

                    Люди покупают первое попавшееся мыло

                    Именно. А нравится то о котором они когда-то что-то слышали. При этом они могут не помнить и вероятно не понят когда и что.

                    . Появилась технология (пусть тот же AdBlock) которая уменьшает количество рекламы в интернете.

                    Вы сильно преувеличиваете процент блокировщиков рекламы у типичных людей. И переоцениваете их эффективность. В среднем владельцы сайтов смотрят на этот процент блокировщиков и сегменты у которых он и прощают им его.

                    Бизнес вместо рекламы начинает платить за "правильную" раскладку мыла в магазинах:))

                    Уже платит. Но если продажи меньше определенных для вот этого места в магазине, то вас с него просто уберут. А то и вообще с полки уберут. Магазину нужны продажи. Место на полке стоит очень дорого.


                    1. georgevp
                      08.01.2023 14:54

                      А нравится то о котором они когда-то что-то слышали.

                      Нравится то, что уже понравилось ранее.


        1. Flux
          08.01.2023 01:38
          +1

          Вы делаете предположение что очередной ширпотреб из категории "Сегмент массмаркет. У вас все обычное как у всех по технологиям которым 50+ лет." должен существовать, а следовательно жизненно нуждается в накачке буллшит-рекламой о том какой этот товар модный, хайповый и нужный. За эту рекламу, кстати, должен в конечном итоге заплатить сам покупатель.

          А я вот делаю предположение что товар который не может продвигаться за счет своих характеристик существовать не должен, а любая реклама воздействующая на человеческие эмоции глубоко аморальна и омерзительна.

          Единственная приемлемая релама это уведомление о том что "Существует товар Х. У него вот такие характеристики. Сами сравните с конкурентами и выберите подходящее вам".


          1. BugM
            08.01.2023 01:43
            +2

            А я вот делаю предположение что товар который не может продвигаться за счет своих характеристик существовать не должен

            Вы только что уничтожили процентов 80-90 типичных товаров. Вы точно готовы жить без мыла и без кастрюли? И без примерно всего остального не хайтек что вас окружает.

            Единственная приемлемая релама это уведомление о том что "Существует товар Х. У него вот такие характеристики. Сами сравните с конкурентами и выберите подходящее вам".

            Он весь плюс-минус одинаковый. На рынке 100500 производителей и новый легко может появится. Там ничего сложного. Но вам почему-то хочется кушать и кормить своих детей, и для этого вам надо ваш товар продать.

            Потребитель быстро сбежит к тем у кого есть реклама. Проверяли уже и не раз. На год примерно памяти людей еще хватает, дальше все. Если не очень раскрученная марка, то и меньше.


            1. NeoCode
              08.01.2023 01:51
              +2

              Допустим появляется новый закон о рекламе, в котором четко запрещается любая реклама кроме уведомлений "Существует товар Х. У него вот такие характеристики. Сами сравните с конкурентами и выберите подходящее вам". Все остаются в равном положении, но вынуждены играть по другим правилам. Да, придется таки делать более качественные кастрюли. Потому что отзывы, потому что если у одного производителя из тысячи кастрюль некачественной оказалась одна, а у другого 5, то в концепции "интернет как универсальная база данных" эта информация элементарно всплывет.
              Ну а в концепции "интернет как куча суверенных сайтов-приложений" конечно у каждого производителя свой сайт - свой закрытый мирок, и кто больше на подсознание покупателя накапает, того и бабки.


              1. BugM
                08.01.2023 01:57
                +4

                Да, придется таки делать более качественные кастрюли.

                Нет преимуществ. Нет процента отказов. Нет качества. Они просто одинаковые. И вероятно даже на одном заводе сделаны. Массмаркет он такой.

                Допустим появляется новый закон о рекламе, в котором четко запрещается любая реклама кроме уведомлений "Существует товар Х. У него вот такие характеристики.

                И вашу экономику съедают китайцы которым пофиг на ваши законы и которые у себя на Алишке прорекламируют своих производителей. И вообще любые иностранцы которым на вас тоже пофиг и которые на Фейсбуке c Гуглом себе рекламы купят.

                Ваши производители опять идут жить под мост, а их рабочие опять идут на биржу труда.

                В смещение торговых марок чтобы не попасть под запреты все умеют. Безалкогольное пиво, кристально чистая вода Белый орел (или как там) это все уже было.

                PS: Еще у вас паблишеры умрут. И вместо них опять иностранцы будут. Но ведь вы даже не знаете про их существование?


              1. V1RuS
                08.01.2023 02:04
                +1

                к сожалению, реклама просто переместится в отзывы.


      1. HardHab
        08.01.2023 02:06
        +3

        Если мы живем в условиях рыночной экономики и капитализма, то бесплатно ничего не бывает. Не представляю, как можно думать, что что-то где-то сделанное другими людьми может быть бесплатно. Если это бесплатно для тебя, то за это кто-то заплатит. Все мы платим отчисления из которых платятся пенсии неспособным работать, а за контент на сайте, железо, работу спецов платят те, кто в итоге смотрит рекламу, и мало того, покупает товары. А то не было бы у нас ни Яндекса, ни Гугла, ни Телеграма, ни собственно 99% того, что окружает нас в Интернете.


    1. themen2
      08.01.2023 11:53

      Блин, отличная идея на самом деле.

      AI должен отсеивать - копии статей, тупые переводы, компиляцию из разных статей итд итп.

      Стараться найти авторский контент или первоисточники.

      Да это обломит бизнес многим, ну и ладно;)


  1. shornikov
    07.01.2023 20:17
    +20

    Если данные парсят для ускорения своей работы, например, вэд-коды или таблицы брадиса - тут уместно владельцам базы кодов продать доступ к апи или подписку на файл. И нагрузку снизят и денежку получат они, а не автор статьи.

    Но, если мой сайт парсится для того, чтобы конкуренты получили преимущество, например делая цены на рубль меньше или копируя к себе отзывы на товар - я буду бороться.


    1. makasin4ik Автор
      07.01.2023 21:11

      Я боюсь что прозвучит не очень приятно - но да, вас парсят чтобы получить преимущество. И многие наши клиенты знают что их парсят, тоже Приходят к нам за этим. Я же пишу как есть…


      1. shornikov
        07.01.2023 21:37
        +10

        Да я без особых расстройств. Пока что воевать против парсера гораздо легче, чем за него.

        А уж если еще и фиктивные данные подсовывать рандомно - парсинг будет штукой не только дорогой и бесполезной, а даже вредной.


        1. makasin4ik Автор
          07.01.2023 21:47

          Я это много раз слышал. Но скажите честно - вы не будете этим заниматься. Будет просто лень.


          1. Boilerplate
            08.01.2023 03:25
            +1

            Я как-то ради прикола поставил на ctrl+c обработчик, заменяющий кириллицу на латинницу при копировании описания товаров. Описания на многие товары отсутствовали и их дополнительно заводил из головы человек. Ну вот потом много где всплыли описания с переменными кириллическими и латинскими буквами. Было не лень) Но это была скорее шутка, можно было также вставлять url в середину текста, например.


    1. invasy
      08.01.2023 11:01

      А если ваш сайт парсится для сравнения с конкурентами? Я — клиент — хочу узнать, где мне выгоднее что-то купить. Побыстрее сравнить характеристики, отзывы, обзоры, не продираясь через дебри вашего невероятно удобного user-friendly интерфейса. С этим что делать будем?

      Второй вопрос: допустим используется предобученная естественная нейросеть (сын), тщательно записывающая все данные с нужных сайтов в табличку. С этим как бороться?


      1. shornikov
        08.01.2023 11:17

        Вы описали агрегатор, который зарабатывает денежку. Если агрегатор парсит без спросу - он преобразует мои деньги в свои, что не хорошо для меня. Пусть договаривается. В итоге за плюшки или небольшую денежку агрегатор получает xml, а я пониженную нагрузку и какие-то преференции


        1. invasy
          08.01.2023 11:24
          +1

          Я описал себя — пользователя, клиента. Естественно, я хочу сэкономить, чтобы мои деньги не стали вашими. Зарабатываю я в другом месте.

          Про парсинг без спроса: я же и написал, что информацию с сайта переписывает тоже пользователь. Со мной бороться надо?


          1. shornikov
            08.01.2023 11:33

            Вы готовы писать парсер для того чтобы купить "кофеварку"? У вас много свободного времени.

            И непонятно, почему моя потенциальная борьба с парсерами отталкивает вас от покупки моих товаров?


            1. invasy
              08.01.2023 11:56

              Покупок много, товаров много, магазинов много, подбор хочу автоматизировать или хотя бы упростить. Если этому активно мешают ритейлеры, то это минус. Речь именно о магазинах, ценах, характеристиках, т. е. информации, которая и так доступна свободно.


            1. georgevp
              08.01.2023 15:07

              И непонятно, почему моя потенциальная борьба с парсерами отталкивает вас от покупки моих товаров?

              Смею предположить, потому что у Ваших конкурентов цена будет ниже, вследствие повышенных затрат у Вас на поддержку антипарсинга;


              1. shornikov
                08.01.2023 16:34

                Возможно. Но скорее - парсят меня из-за доп. контента, а дороже - из-за того, что я этот контент каким-то образом оплатил и пытаюсь отбить. По моему опыту это обходится дороже, чем подкинуть задачу на 2-8 часов разработчику.

                (Сам я за то, что низкая цена бьет любые другие фишечки)


        1. tommyangelo27
          08.01.2023 21:39

          Кстати, довольно часто маленькие интернет-магазины наоборот, сами платят агрегатору, чтобы попасть в его выдачу и получить возможность редиректа на себя. Потому, что SEO «вес» у агрегатора намного выше и он в поиске будет первым, а местечковый ИМ — на пятой странице.


  1. hellamps
    07.01.2023 21:23

    Тут уже компании платят пользователям за легальный ботнет для парсинга в том числе для улавливания различий в геораздаче, а вы говорите.

    Эффективность всего этого примерно как если запустить робоавтомобили, которые бы проверяли стоят ли еще дома и есть ли дороги... oh wai...


  1. StepanRodionov
    07.01.2023 21:32
    +5

    Ох уже эти парсеры. В свое время особо рьяным роботам в ответе на HTTP запрос возвращали предложение обратиться с официальным запросом на email@company.com и получить регулярно обновляющийся полный товарный фид в формате XML. Но нет, гораздо интереснее ломиться с нагрузкой в 10х от пиковой пользовательской и вычитывать все из большой HTML портянки...
    Вот уж действительно, не ищем легких путей.


    1. makasin4ik Автор
      07.01.2023 21:47

      Это кстати очень прагматично!


    1. georgevp
      08.01.2023 15:09

      +

      [/лукаво]Может проще сразу ссылку на этот XML-файл выложить на сайте? [/лукаво]


  1. DSRussell
    07.01.2023 21:32
    +2

    Если бы не все ограничения то ваш бизнес был бы никому нетнужен. Каждый бы мог без вас парсить. Скачал бы бесплатную утилиту и скачал все что ему надо


  1. HardHab
    07.01.2023 21:43
    +1

    Интересно что сделал iHerb, что не смотря ни на что не получилось выполнить ТЗ.

    100% защиты от парсинга конечно нет, но какой смысл оплачивать лишние серверы или давать конкурентам преимущество? Удовлетворять бесплатно потребности каждого школьника с парсером нет никакого смысла. Тот же Cloudflare и подобные сервисы даже в бесплатном варианте немного ограничат аппетиты парсеров, а ограничение запросов на 1 IP до вменяемых для ПС значений отсечет любителей без проксей.

    Мне кажется многие недооценивают масштабы проблемы. Писатели парсеров по большей части не заморачиваются, а клиент может выставить обновление страницы 5 раз в секунду. За годы работы сайта нагрузка от парсеров может на порядки превысить нагрузку от пользователей и ПС.


    1. makasin4ik Автор
      07.01.2023 21:48

      Просто надо было много и быстро. А у нас не получилось


    1. d2d8
      07.01.2023 21:53

      Не знаю, iherb на ура парсится многопотоком, там только по странам разное наличие товара. Отдает json в теле страницы. Параметры товаров там через одно место сделаны, дозировка, вес и т.п., 90% берут регулярки, остальное причесывается. Не пойму откуда возникли сложности.


      1. yoigo
        08.01.2023 00:54

        Hапример Cloudflare Bot Management, reCAPTCHA.


        1. d2d8
          08.01.2023 16:15

          Это ж общая проблема, а не конкретно iherb. Автор же сделал акцент на конкретном сайте.


  1. Viacheslav01
    07.01.2023 23:19

    Потер. Пусть каждый сам определяет границы своей совести.


    1. HardHab
      08.01.2023 01:21
      +1

      Парсинг тут явно не на острие вопросов совести и честности. Навскидку, чего только стоит производство оружия, сигарет, вино-водочной продукции. Работа юристов и адвокатов.


  1. Daddy_Cool
    08.01.2023 00:16
    +1

    Хм. А подскажите - есть сайт журнала где лежат рассортированные pdf-ки. Всё это разрешено скачивать. Надо зайти (логин/парооь), выбрать, нажать кнопочку, скачать, (потом хорошо бы посмотреть название документа и переименовать его), ручками это всё очень долго. Можно ли такое как-то автоматизировать? Стандартные штуки типа reget не могут.


    1. Shado_vi
      08.01.2023 03:17

      можно.
      даже есть сайты и программы где весь этот алгоритм можно "накликать мышкой".


      1. Daddy_Cool
        08.01.2023 03:51
        +1

        Так а что гуглить-то? Как называется?


        1. Shado_vi
          08.01.2023 05:35

          из программ zennoposter, bas.
          веб не интересуюсь, но они есть.


    1. Boilerplate
      08.01.2023 03:29

      А обычный user scripts для этого не подходит? Tampermonkey позволяет вызывать GM_download для скачивания файлов. А обход по url можно с помощью storage или GM_storage сделать.


      1. Daddy_Cool
        08.01.2023 03:52

        Может и подходят, просто эти слова мне мало чего говорят ))).


        1. Boilerplate
          08.01.2023 04:25
          +1

          Посмотрите TamperMonkey. Это плагин на хром и фф, который позволяет запустить скрипт, например, при загрузке страницы. Все пишется на javascript, выполняется прямо на той же странице, то есть имеет полный доступ к данным страницы. При этом помимо всех функций js, также имеет дополнительные функции для работы с файлами и т.д.
          В самом простом варианте его использование аналогично написанию скрипта в консоли браузера. Ну а дальше аппетит приходит во время еды.


          1. Daddy_Cool
            08.01.2023 04:30

            Спасибо!


  1. tuxi
    08.01.2023 00:46
    +8

    После определения, что пришел бот (особенно с мобильной фермы ха ха) для него втихую начинается подмешивание некорректных данных. Так как автор "парсера" обычно нифига не смыслит в предметной области того, что он пытается спарсить, ему можно скормить что угодно. Факт эпик-фейла выясняется как я понимаю, только спустя какое то время после сдачи работы заказчику.

    Раз такие статьи регулярно появляются, значит противодействие эффективно)))


    1. HardHab
      08.01.2023 01:18

      Думаю можно периодически страницы дергать 2 раза с разных пулов, а дальше, если информация разнится, менять адреса, прокладки, ребутить модемы и т.п. Ну и посмотреть что парсили с этого адреса для нового прохода.


    1. Shado_vi
      08.01.2023 03:24
      +1

      как вы определите что пришёл именно бот?
      крупные игроки такие как Cloudflare выкатывают всё новые способы определения, но и те кто занимаются средствами парсинга и тп. с небольшой задержкой обычно так же обновляются что бы это обходить.


      и почему "особенно с мобильной фермы ха ха"?
      их особенность только в том что они используют ip с пула мобильного оператора.


      1. BugM
        08.01.2023 03:58

        Я бы отдал это на аутсорс бигтеху. И у Гугла и у Яндекса (может и еще у кого не знаю) уже есть апишки для этого.

        Самостоятельно некрупный сайт такое сделать не сможет.


        1. Shado_vi
          08.01.2023 05:46

          при нужде заморачиваются созданием высококачественного уникального профиля браузера и набором истории сёрфинга.
          в промышленных масштабах тоже возможно это.
          без использования профилей с историей Cloudflare, гугл, яндекс реагируют часто как на бота, но качественный профиль более доверенный.
          растёт стоимость(время/деньги) определения ботов так и обход этого определения по мере качества/количества.


          1. BugM
            08.01.2023 15:03

            при нужде заморачиваются созданием высококачественного уникального профиля браузера и набором истории сёрфинга

            Да, так тоже делают. И это тоже ловится. Паттерн поведения другой же. Все это не 100%, но в целом ловится.

            Надо поймать каждый профиль один раз. Потом можно спокойно всем говорить что он бот. С некоторой вероятностью говорить, что бы затруднить для мошенника вычисление того что его поймали.

            растёт стоимость(время/деньги) определения ботов так и обход этого определения по мере качества/количества.

            Для владельца сайта это все еще бесплатно.


      1. tuxi
        08.01.2023 09:55
        +1

        У Cloudflare же задача сделать универсальное решение, для любых веб-приложений. А если мы защищаем свой конкретный ресурс, то у нас гораздо больше способов.

        Насчет ферм. Эти самые пулы операторов настолько большие, а бот из фермы приходит из одной и той же подсети много много раз. При этом реальные посетители могут месяцами ни разу не придти из этой подсетки. И айпи реальных посетителей равномерно распределены по всей сетке адресов, с учетом географии конечно же. И они обычно запрашивают 5... ну 10% самых посещаемых адресов ресурса, в отличии от бота, который всегда шерстит все подряд. Некоторые прямо по sitemap-у шпарят. Вам же никто не мешает добавить в sitemap пару "горшочков с медом".

        Отделить же белого бота от черного, вам поможет reverse lookup, по опыту это порядка 99,99% попаданий. А если ограничиться списком из 2..3 поисковых систем, то и все 100%


        1. Shado_vi
          08.01.2023 11:32

          что мешает боту менять мобильные ip как перчатки?
          так же при работе с ресурсом можно заранее предусмотреть ограничение на повторного использования ip.


          1. tuxi
            08.01.2023 11:48
            +4

            Они меняют, но в пределах типа xxx.xxx.xxx.0/24 Более широкий диапазон им не дает сотовый оператор. В итоге на ферме много девайсов, а кол-во айпи ограничено 10... ну 20 адресами.

            И не нужно никаких нейронных сетей, чтобы на начальной стадии парсинга выявить новые подсети.

            Но повторюсь, это кастомные решения под конкретные проекты. По ним понятна типовая карта посещений реальных юзеров, все что выбивается из этой картины, все попадает с suspect лист и чекается с помощью дополнительных правил.

            Таким образом, выполняется задача довести стоимость парсинга до неразумной величины или заставить бота умерить пыл и тем самым обесценить получаемые данные.


      1. Alexey2005
        08.01.2023 16:06

        Самое простое - подмешивать мусор в те записи, которые пользователю не видны. Авторы ботов же парсят всё подряд и следуют по пути наименьшего сопротивления. Поэтому они вряд ли будут разбираться, видны ли пользователю такие записи, если они внешне ничем не отличаются от остальных, парсятся той же регуляркой и содержат информацию, внешне похожую на валидную.
        И только когда выяснится, что в этих "скрытых" записях полно мусора, только тогда будут копать дальше. Но немало неприятных минут это им доставит, и доверие со стороны клиента может подорвать изрядно.


  1. hronorog
    09.01.2023 20:32

    Автор, рассказали бы еще про мобильную ферму: что за черная коробка, как оно управляется, что умеет и тд...