10 инструментов, позволяющих парсить информацию с веб-сайтов, включая цены конкурентов + правовая оценка для России / forpes.ru

Главная
10 инструментов, позволяющих парсить информацию с веб-сайтов, включая цены конкурентов + правовая оценка для России

10 инструментов, позволяющих парсить информацию с веб-сайтов, включая цены конкурентов + правовая оценка для России +15

13.10.2017 11:44

makasin4ik 37 15800 Источник

Инструменты web scraping (парсинг) разработаны для извлечения, сбора любой открытой информации с веб-сайтов. Эти ресурсы нужны тогда, когда необходимо быстро получить и сохранить в структурированном виде любые данные из интернета. Парсинг сайтов – это новый метод ввода данных, который не требует повторного ввода или копипастинга.

Такого рода программное обеспечение ищет информацию под контролем пользователя или автоматически, выбирая новые или обновленные данные и сохраняя их в таком виде, чтобы у пользователя был к ним быстрый доступ. Например, используя парсинг можно собрать информацию о продуктах и их стоимости на сайте Amazon. Ниже рассмотрим варианты использования веб-инструментов извлечения данных и десятку лучших сервисов, которые помогут собрать информацию, без необходимости написания специальных программных кодов. Инструменты парсинга могут применяться с разными целями и в различных сценариях, рассмотрим наиболее распространенные случаи использования, которые могут вам пригодиться. И дадим правовую оценку парсинга в России.

1. Сбор данных для исследования рынка

Веб-сервисы извлечения данных помогут следить за ситуацией в том направлении, куда будет стремиться компания или отрасль в следующие шесть месяцев, обеспечивая мощный фундамент для исследования рынка. Программное обеспечение парсинга способно получать данные от множества провайдеров, специализирующихся на аналитике данных и у фирм по исследованию рынка, и затем сводить эту информацию в одно место для референции и анализа.

2. Извлечение контактной информации

Инструменты парсинга можно использовать, чтобы собирать и систематизировать такие данные, как почтовые адреса, контактную информацию с различных сайтов и социальных сетей. Это позволяет составлять удобные списки контактов и всей сопутствующей информации для бизнеса – данные о клиентах, поставщиках или производителях.

3. Решения по загрузке с StackOverflow

С инструментами парсинга сайтов можно создавать решения для оффлайнового использования и хранения, собрав данные с большого количества веб-ресурсов (включая StackOverflow). Таким образом можно избежать зависимости от активных интернет соединений, так как данные будут доступны независимо от того, есть ли возможность подключиться к интернету.

4. Поиск работы или сотрудников

Для работодателя, который активно ищет кандидатов для работы в своей компании, или для соискателя, который ищет определенную должность, инструменты парсинга тоже станут незаменимы: с их помощью можно настроить выборку данных на основе различных прилагаемых фильтров и эффективно получать информацию, без рутинного ручного поиска.

5. Отслеживание цен в разных магазинах

Такие сервисы будут полезны и для тех, кто активно пользуется услугами онлайн-шоппинга, отслеживает цены на продукты, ищет вещи в нескольких магазинах сразу.

В обзор ниже не попал Российский сервис парсинга сайтов и последующего мониторинга цен XMLDATAFEED (xmldatafeed.com), который разработан в Санкт-Петербурге и в основном ориентирован на сбор цен с последующим анализом. Основная задача — создать систему поддержки принятия решений по управлению ценообразованием на основе открытых данных конкурентов. Из любопытного стоит выделить публикация данные по парсингу в реальном времени :)

10 лучших веб-инструментов для сбора данных:

Попробуем рассмотреть 10 лучших доступных инструментов парсинга. Некоторые из них бесплатные, некоторые дают возможность бесплатного ознакомления в течение ограниченного времени, некоторые предлагают разные тарифные планы.

1. Import.io

Import.io предлагает разработчику легко формировать собственные пакеты данных: нужно только импортировать информацию с определенной веб-страницы и экспортировать ее в CSV. Можно извлекать тысячи веб-страниц за считанные минуты, не написав ни строчки кода, и создавать тысячи API согласно вашим требованиям.

Для сбора огромных количеств нужной пользователю информации, сервис использует самые новые технологии, причем по низкой цене. Вместе с веб-инструментом доступны бесплатные приложения для Windows, Mac OS X и Linux для создания экстракторов данных и поисковых роботов, которые будут обеспечивать загрузку данных и синхронизацию с онлайновой учетной записью.

2. Webhose.io

Webhose.io обеспечивает прямой доступ в реальном времени к структурированным данным, полученным в результате парсинга тысяч онлайн источников. Этот парсер способен собирать веб-данные на более чем 240 языках и сохранять результаты в различных форматах, включая XML, JSON и RSS.

Webhose.io – это веб-приложение для браузера, использующее собственную технологию парсинга данных, которая позволяет обрабатывать огромные объемы информации из многочисленных источников с единственным API. Webhose предлагает бесплатный тарифный план за обработку 1000 запросов в месяц и 50 долларов за премиальный план, покрывающий 5000 запросов в месяц.

3. Dexi.io (ранее CloudScrape)

CloudScrape способен парсить информацию с любого веб-сайта и не требует загрузки дополнительных приложений, как и Webhose. Редактор самостоятельно устанавливает своих поисковых роботов и извлекает данные в режиме реального времени. Пользователь может сохранить собранные данные в облаке, например, Google Drive и Box.net, или экспортировать данные в форматах CSV или JSON.

CloudScrape также обеспечивает анонимный доступ к данным, предлагая ряд прокси-серверов, которые помогают скрыть идентификационные данные пользователя. CloudScrape хранит данные на своих серверах в течение 2 недель, затем их архивирует. Сервис предлагает 20 часов работы бесплатно, после чего он будет стоить 29 долларов в месяц.

4. Scrapinghub

Scrapinghub – это облачный инструмент парсинга данных, который помогает выбирать и собирать необходимые данные для любых целей. Scrapinghub использует Crawlera, умный прокси-ротатор, оснащенный механизмами, способными обходить защиты от ботов. Сервис способен справляться с огромными по объему информации и защищенными от роботов сайтами.

Scrapinghub преобразовывает веб-страницы в организованный контент. Команда специалистов обеспечивает индивидуальный подход к клиентам и обещает разработать решение для любого уникального случая. Базовый бесплатный пакет дает доступ к одному поисковому роботу (обработка до 1 Гб данных, далее — 9$ в месяц), премиальный пакет дает четырех параллельных поисковых ботов.

5. ParseHub

ParseHub может парсить один или много сайтов с поддержкой JavaScript, AJAX, сеансов, cookie и редиректов. Приложение использует технологию самообучения и способно распознать самые сложные документы в сети, затем генерирует выходной файл в том формате, который нужен пользователю.

ParseHub существует отдельно от веб-приложения в качестве программы рабочего стола для Windows, Mac OS X и Linux. Программа дает бесплатно пять пробных поисковых проектов. Тарифный план Премиум за 89 долларов предполагает 20 проектов и обработку 10 тысяч веб-страниц за проект.

6. VisualScraper

VisualScraper – это еще одно ПО для парсинга больших объемов информации из сети. VisualScraper извлекает данные с нескольких веб-страниц и синтезирует результаты в режиме реального времени. Кроме того, данные можно экспортировать в форматы CSV, XML, JSON и SQL.

Пользоваться и управлять веб-данными помогает простой интерфейс типа point and click. VisualScraper предлагает пакет с обработкой более 100 тысяч страниц с минимальной стоимостью 49 долларов в месяц. Есть бесплатное приложение, похожее на Parsehub, доступное для Windows с возможностью использования дополнительных платных функций.

7. Spinn3r

Spinn3r позволяет парсить данные из блогов, новостных лент, новостных каналов RSS и Atom, социальных сетей. Spinn3r имеет «обновляемый» API, который делает 95 процентов работы по индексации. Это предполагает усовершенствованную защиту от спама и повышенный уровень безопасности данных.

Spinn3r индексирует контент, как Google, и сохраняет извлеченные данные в файлах формата JSON. Инструмент постоянно сканирует сеть и находит обновления нужной информации из множества источников, пользователь всегда имеет обновляемую в реальном времени информацию. Консоль администрирования позволяет управлять процессом исследования; имеется полнотекстовый поиск.

8. 80legs

80legs – это мощный и гибкий веб-инструмент парсинга сайтов, который можно очень точно подстроить под потребности пользователя. Сервис справляется с поразительно огромными объемами данных и имеет функцию немедленного извлечения. Клиентами 80legs являются такие гиганты как MailChimp и PayPal.

Опция «Datafiniti» позволяет находить данные сверх-быстро. Благодаря ней, 80legs обеспечивает высокоэффективную поисковую сеть, которая выбирает необходимые данные за считанные секунды. Сервис предлагает бесплатный пакет – 10 тысяч ссылок за сессию, который можно обновить до пакета INTRO за 29 долларов в месяц – 100 тысяч URL за сессию.

9. Scraper

Scraper – это расширение для Chrome с ограниченными функциями парсинга данных, но оно полезно для онлайновых исследований и экспортирования данных в Google Spreadsheets. Этот инструмент предназначен и для новичков, и для экспертов, которые могут легко скопировать данные в буфер обмена или хранилище в виде электронных таблиц, используя OAuth.

Scraper – бесплатный инструмент, который работает прямо в браузере и автоматически генерирует XPaths для определения URL, которые нужно проверить. Сервис достаточно прост, в нем нет полной автоматизации или поисковых ботов, как у Import или Webhose, но это можно рассматривать как преимущество для новичков, поскольку его не придется долго настраивать, чтобы получить нужный результат.

10. OutWit Hub

OutWit Hub – это дополнение Firefox с десятками функций извлечения данных. Этот инструмент может автоматически просматривать страницы и хранить извлеченную информацию в подходящем для пользователя формате. OutWit Hub предлагает простой интерфейс для извлечения малых или больших объемов данных по необходимости.

OutWit позволяет «вытягивать» любые веб-страницы прямо из браузера и даже создавать в панели настроек автоматические агенты для извлечения данных и сохранения их в нужном формате. Это один из самых простых бесплатных веб-инструментов по сбору данных, не требующих специальных знаний в написании кодов.

Самое главное — правомерность парсинга?!

Вправе ли организация осуществлять автоматизированный сбор информации, размещенной в открытом доступе на сайтах в сети интернете (парсинг)?

В соответствии с действующим в Российской Федерации законодательством разрешено всё, что не запрещено законодательством. Парсинг является законным, в том случае, если при его осуществлении не происходит нарушений установленных законодательством запретов. Таким образом, при автоматизированном сборе информации необходимо соблюдать действующее законодательство. Законодательством Российской Федерации установлены следующие ограничения, имеющие отношение к сети интернет:

1. Не допускается нарушение Авторских и смежных прав.
2. Не допускается неправомерный доступ к охраняемой законом компьютерной информации.
3. Не допускается сбор сведений, составляющих коммерческую тайну, незаконным способом.
4. Не допускается заведомо недобросовестное осуществление гражданских прав (злоупотребление правом).
5. Не допускается использование гражданских прав в целях ограничения конкуренции.
Из вышеуказанных запретов следует, что организация вправе осуществлять автоматизированный сбор информации, размещенной в открытом доступе на сайтах в сети интернет если соблюдаются следующие условия:
1. Информация находится в открытом доступе и не защищается законодательством об авторских и смежных правах.
2. Автоматизированный сбор осуществляется законными способами.
3. Автоматизированный сбор информации не приводит к нарушению в работе сайтов в сети интернет.
4. Автоматизированный сбор информации не приводит к ограничению конкуренции.
При соблюдении установленных ограничений Парсинг является законным.

Какой инструмент для извлечения данных Вам нравится больше всего? Какого рода данные вы хотели бы собрать? Расскажите в комментариях о своем опыте парсинга и свое видение процесса…

p.s. Для тех, кто хочет получить гораздо больше информации по разным инструментам в сети Интернет, советуем обратиться к публикациям на сайте http://startup.today

Комментарии (37)

Rambalac
13.10.2017 15:10
#10471252
Забыли упомянуть, что нахождение частной информации даже в открытом виде на одних сайтах не даёт права использовать эти данные третьими лицами.
1. makasin4ik Автор
  13.10.2017 15:11
  #10471256
  да, вы правы. Если мы говорим про цены конкурентов, то это не является объектом авторского права :) и использовать можно как угодно.
  1. hudson
    13.10.2017 15:30
    #10471288
    И конкуренцию не ограничивает, а стимулирует )
    
    makasin4ik Автор
    13.10.2017 15:50
    #10471342
    точно, поэтому суд будет на стороне ответчика :)

syno
13.10.2017 15:42
#10471314
Только сегодня писал блокиратор для подобных сервисов с баном ip на несколько часов.
1. dernasherbrezon
  13.10.2017 15:46
  #10471326
  А мне как разработчику такой штуки кстати интересно почему Вы заблокировали. Обычно парсят сайты не потому что хотят положить конкурента, а потому что нет API для получения данных.
  
  А что у Вас парсят/ищут?
  1. syno
    13.10.2017 15:48
    #10471330
    Основное, что беспокоит — тырят оригинальные описания товаров и фотки.
    
    makasin4ik Автор
    13.10.2017 15:49
    #10471340
    фотки и описания — действительно могут быть объектом авторского права, а ведь могут и не быть!
    
    syno
    13.10.2017 16:23
    #10471494
    Мы не собираемся ни с кем судиться за кусок текста, просто максимально усложним работу подобным сервисам и программам по скачиванию сайтов. Эти сервисы будут получать 404 практически на все страницы. Все что мы захотим отдать во вне, мы отдадим через api.
    
    makasin4ik Автор
    13.10.2017 16:26
    #10471504
    А что у вас за сайт такой, извините, что вы так прямо дорожите контентом? :) Можно взглянуть? Обычные Инет-магазины обычно дублируют контент друг у друга.
    
    syno
    13.10.2017 16:37
    #10471540
    +2
    Мы производим жалюзи. Сами пишем тексты. Покупаем фото на стоках, сканируем текстуру материалов, если поставщик не предоставил фотографии. Периодически возникают сайты с полной копией наших текстов и фотографий, вплоть до полных зеркал. Вот, захотелось усложнить людям жизнь :)
    
    Borz
    14.10.2017 20:29
    #10473014
    так наложите на фото адрес вашего домена. Или вас такой вариант не устраивает?
    
    dernasherbrezon
    13.10.2017 15:52
    #10471364
    Да, так делать не стоит. Но и блокировка по ip долго не протянет. Тут как бы война меча и щита.
    
    Можно кстати посмотреть как Яндекс или Гугл защищают свои карты. Их ведь тоже по идее можно скачать. Так вот на таких картах рисуют несуществующую улицу/дом. И если карту крадут, то крадут и намеренно сделанную ошибку. Соответственно доказать уникальность материала достаточно просто. В теории :)
    
    syno
    13.10.2017 15:56
    #10471382
    Ручное скачивание не беспокоит. Беспокоит машинное. Именно его и блочим :)
    
    dernasherbrezon
    13.10.2017 16:01
    #10471410
    Мне пришла безумная идея. А что если не блочить, а продавать Ваш контент? Тогда Вы отберете хлеб у парсеров. И тому кому, нужен будет контент будет проще его купить у Вас, чем заморачиваться с парсерами. Что то вроде http://www.istockphoto.com только для описаний.
    
    syno
    13.10.2017 16:07
    #10471438
    Проданный уникальный контент = неуникальный контент. Не пойдет.
1. makasin4ik Автор
  13.10.2017 15:50
  #10471346
  Это не проблема, обходится через прокси.
  1. syno
    13.10.2017 15:54
    #10471376
    Тестировал. Лист блокировки заполняется десятками заблокированных адресов прокси за несколько секунд. Я пропущу только, если вы прикинитесь гуглоботом и аккуратно прочитаете все директивы robots.txt и не будете лезть куда запрещено.
    
    dernasherbrezon
    13.10.2017 15:57
    #10471394
    Кстати большинство парсеров (мой в том числе) вполне дружелюбны к robots.txt. Конечно, есть наколеночные скрипты, которые туда не смотрят. Но если бизнес построен на извлечении данных (import.io — достаточно хороший пример), то компании стараются вести себя дружелюбно.

dernasherbrezon
13.10.2017 15:44
#10471320
Мне нравится мой собственный написанный :)
https://mystopcrawl.com
1. croupier
  13.10.2017 16:08
  #10471440
  +2
  Тогда уж похвастались бы чем он крут, а то без регистрации ничего не посмотреть.
  1. dernasherbrezon
    13.10.2017 16:17
    #10471472
    
    Визуальный редактор. Просто кликаете на те части страницы которые нужно извлечь и нажимаете кнопку "готово".
    
    Данные можно трансформировать. Например, преобразовать ссылку "img/lowResPic.jpg" в "https://example.com/img/highResPic.jpg"
    
    API который возвращает данные в json и поддержка webhook'ов. Например, если поменялись данные на сайте (курс биткоина), то сервис сам дёрнет Ваш сервис и через POST передаст новое значение.
    
    Под Ваш проект создается виртуалка (привет модным облачным апишечкам), в которой находится только Ваш проект. Соответственно диск, процессор и память всецело Ваши.

norlin
13.10.2017 16:43
#10471558
Ещё есть специализированный прокси-сервис для бизнеса – luminati.io – позволяющий смотреть сайты конкурентов из разных гео-локаций (причём, с очень высокой точностью выбора локации). Ну и обходить всевозможные блокировки по IP и всё такое.

ProstoDesign
13.10.2017 19:08
#10471854
-2
Пользуясь случаем, задам вопрос, возможно кто-либо знает адекватный вариант. Есть задача стащить все картинки и описания с одного интернет-магазина и засунуть в другой. Т.е. нужен какой-то парсер/граббер который это сможет. Посоветуете?
1. makasin4ik Автор
  13.10.2017 20:47
  #10472004
  xmldatafeed.com попробуйте, но вы держите в уме, что вы можете нарушить авторские права правообладателя.
  1. ProstoDesign
    13.10.2017 21:05
    #10472020
    Спасибо, посмотрю. Речь идет не об авторских описаниях товаров, а о «заводских».

Nekhebeth
13.10.2017 21:08
#10472024
Из вышеуказанных запретов следует, что организация вправе осуществлять автоматизированный сбор информации, размещенной в открытом доступе на сайтах в сети интернет если соблюдаются следующие условия:
1. Информация находится в открытом доступе и не защищается законодательством об авторских и смежных правах.

Законодатель определяет Интернет как информационно-телекоммуникационную сеть, которая не является местом, открытым для свободного посещения, по смыслу ст. 1276 ГК Российской Федерации — Определение № 84-КГ15-1 Судебной Коллегии по гражданским делам ВС РФ.
Информация никак не может быть «незащищённой законодательством об авторских и смежных правах», потому что данные права возникают автоматически и не требуют ни какого-то подтверждения, ни регистрации (ст. 1259 ГК РФ).
Далее, правообладатель может по своему усмотрению разрешать или запрещать другим лицам использование результата интеллектуальной деятельности или средства индивидуализации. Отсутствие запрета не считается согласием (разрешением) — ГК РФ, ст. 1229.
1. makasin4ik Автор
  13.10.2017 21:08
  #10472026
  В РФ то, что не запрещено законом, априори разрешено. Отсюда и следствие по парсингу.
  1. Nekhebeth
    13.10.2017 21:17
    #10472036
    В данном случае как раз запрещено — читайте выделенный текст, а лучше сразу всю часть 4 ГК РФ.
1. pvp
  13.10.2017 22:12
  #10472104
  «Информация никак не может быть «незащищённой законодательством об авторских и смежных правах»
  
  Информация не охраняется авторским правом. „Читайте лучше сразу всю 4 часть ГК“.
  1. Nekhebeth
    13.10.2017 22:25
    #10472120
    Информация — сведения, воспринимаемые человеком и (или) специальными устройствами как отражение фактов материального или духовного мира в процессе коммуникации.
    Иными словами, она включает в себя всё, что мы видим, слышим или осязаем, в любой форме.
    Вы путаете информацию с определением «сообщение о событиях и фактах, имеющее чисто информационный характер» — то есть, не несущее на себе отпечаток интеллектуального труда.
    Если же Вы имеете в виду информацию в виде какой-то статистики или даже просто массива данных, то она точно так же защищается законодательством об интеллектуальной собственности, как и любая другая, потому что за ней стоит составитель и (или) изготовитель.
    
    pvp
    13.10.2017 23:55
    #10472212
    1. «Сообщение… имеющее информационный характер» и «информация» — одно и то же. Вы зачем-то выдумали себе какую-то «информацию, несущую отпечаток интеллектуального труда», такой информации быть не может. Потому что…
    
    2. «ФЕДЕРАЛЬНЫЙ ЗАКОН ОБ ИНФОРМАЦИИ, ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЯХ И О ЗАЩИТЕ ИНФОРМАЦИИ
    Статья 1. Сфера действия настоящего Федерального закона
    …
    2. Положения настоящего Федерального закона не распространяются на отношения, возникающие при правовой охране результатов интеллектуальной деятельности и приравненных к ним средств индивидуализации, за исключением случаев, предусмотренных настоящим Федеральным законом.»
    
    Информационные правоотношения и «авторское право» — это две разных правовых сферы, которые взаимно не пересекаются. Авторское право охраняет форму произведения, а информационное — его содержание.
    
    Nekhebeth
    14.10.2017 01:09
    #10472260
    Вы зачем-то выдумали себе какую-то «информацию, несущую отпечаток интеллектуального труда
    
    Я ничего такого не говорила, прочтите внимательнее. Я Вам объяснила суть "сообщения чисто информационного характера" (это определение есть в ГК).
    
    «Сообщение… имеющее информационный характер» и «информация» — одно и то же.
    
    Абсолютно нет. Информация — собирательное словарное определение любых сведений, которые мы воспринимаем, а «сообщения о событиях и фактах, имеющие исключительно информационный характер» — это регулятивная норма гражданского права (точнее, её диспозиция). И правоприменение основывается именно на нормах права, а не на философских концепциях. Но эти два понятия не идентичны, даже если абстрагироваться от сферы юриспруденции: первое является составной частью второго.
    
    Информационные правоотношения и «авторское право» — это две разных правовых сферы, которые взаимно не пересекаются.
    
    Вы сделали совершенно неверные выводы из процитированного параграфа. То, что положения 149-ФЗ «не распространяются на отношения, возникающие при правовой охране результатов интеллектуальной деятельности и приравненных к ним средств индивидуализации», означает лишь, что в этой части данный закон следует нормам, применяемым ГК РФ.
    И не стоит уводить дискуссию в другую плоскость — речь в статье идёт о парсинге материалов с чужих сайтов.
    
    pvp
    14.10.2017 10:38
    #10472468
    Вы зачем-то подменяете определение «информации», данное в законе, на «словарное», после чего делаете из этого выводы космического масштаба. Не надо так.
    
    Nekhebeth
    14.10.2017 12:34
    #10472574
    Я ничего не подменяю, это Вы пытаетесь смешивать понятия, говоря о том, что, цитирую,
    
    Информация не охраняется авторским правом
    
    На что я Вам отвечаю, что это утверждение — некорректно, поскольку нигде в законодательстве РФ Вы такого определения не найдёте. Информация как таковая — это совокупность понятий, которая имеет большое количество подмножеств, и каждое из этих подмножеств, а также входящие в них объекты, в праве классифицируются и рассматриваются отдельно.
    
    Приведённый же Вами в качестве примера Федеральный Закон вообще никакого отношения к обсуждаемой теме не имеет. Да, он не регулирует отношения в области авторских и смежных прав, но только потому, что его цели лежат совершенно в иной плоскости. Точно так же, скажем, ФЗ «Об основах охраны здоровья граждан РФ» не регулирует вопросы семейного права, хотя косвенно они там тоже затрагиваются.

UksusoFF
13.10.2017 22:34
#10472132
Интересно было бы посмотреть на техническую реализацию данных парсеров.

xDimus
14.10.2017 10:40
#10472472
А для мониторинга цен на товары в личных масштабах другие сервисы/программы или какой то из перечисленных подойдет? Интересует скажем процессор i5-2500, искать хочу на ebay, aliexpress и avito, нужно при появлении товара по хорошей цене получить уведомление на почту или мессенджер.

10 инструментов, позволяющих парсить информацию с веб-сайтов, включая цены конкурентов + правовая оценка для России +15

10 лучших веб-инструментов для сбора данных:

Самое главное — правомерность парсинга?!

Комментарии (37)

makasin4ik Автор

makasin4ik Автор

makasin4ik Автор

makasin4ik Автор

makasin4ik Автор

makasin4ik Автор

makasin4ik Автор