Парсинг сайтов: как с точки зрения закона выглядит один из самых полезных ИТ- инструментов по миру (и в России)? / forpes.ru

Главная
Парсинг сайтов: как с точки зрения закона выглядит один из самых полезных ИТ- инструментов по миру (и в России)?

Парсинг сайтов: как с точки зрения закона выглядит один из самых полезных ИТ- инструментов по миру (и в России)? +9

17.10.2017 11:04

makasin4ik 23 8100 Источник

Попробуем рассмотреть один из лучших способов сбора информации в интернете – парсинг – с юридической точки зрения. Внимание! Эта публикация касается некоторых обще-правовых вопросов, связанных с парсингом, но не является юридической консультацией. Статья является продолжением публикации "10 инструментов, позволяющих парсить информацию с веб-сайтов, включая цены конкурентов + правовая оценка для России"

Парсинг – это автоматизированный процесс извлечения данных с чужого веб-сайта. Но стоит разобраться, действительно ли это один из самых полезных инструментов ИТ для сбора данных или ловушка, влекущая неизбежные проблемы с законом? Парсинг мог бы непременно стать одним из совершеннейших способов добычи контента по всей сети, но к нему прилагается оговорка: с этим инструментом очень сложно разобраться с юридической стороны. Парсинг – это процесс, посредством которого автоматизированная часть программного обеспечения извлекает данные веб-сайта, «прочесывая» многочисленные страницы. Поисковые системы как Google и Bing делают нечто подобное, когда индексируют веб-страницы, а парсинговые механизмы идут дальше и преобразовывают информацию в формат, который позволяет этими данными пользоваться, заносить в базы или электронные таблицы.

Парсинг – не то же самое, что API. Например, компания может открыть доступ к API, чтобы позволить другим системам взаимодействовать с ее данными; при этом качество и количество доступных данных через API, как правило, ниже, чем можно получить, используя парсинг. Кроме того, парсинг предоставляет более актуальную информацию, чем через API, и значительно проще настраивается со структурной точки зрения.

Области применения «парсинговой» информации очень многочисленны. Спортивный журналист может использовать парсинг, чтобы исследовать бейсбольную статистику для статьи. Или, например, в электронной коммерции можно извлекать наименования товаров и цены на них из разных источников для последующего анализа (как пример в России — открытый сервис парсинга и мониторинга цен конкурентов xmldatafeed.com).

Но, хоть парсинг и, несомненно, мощный инструмент, когда дело касается правовых вопросов, могут появиться трудности. Поскольку в процессе парсинга изначально существующий контент из разных источников присваивается тем, кто этот инструмент использует, появляются этические и юридические затруднения.

На сегодняшний день в среде парсинга нет четко очерченных юридических рамок, это состояние постоянного движения, но можно попытаться приблизительно обрисовать зоны наибольшего риска. Ниже в общих чертах описываются самые яркие случаи судебных разбирательств, имевшие место в США, и ставшие прецедентными.

2000-2009: eBay

После появления парсинга юридических проблем не возникало довольно долгое время. Но в 2000 году использование этого инструмента спровоцировало настоящее сражение – eBay выступил против компании по сбору аукционных данных Bidder’s Edge. Компания eBay обвиняла Bidder’s Edge в незаконном использовании извлечения данных, обращаясь к Доктрине о нарушении границ движимого имущества. Судья поддержал истца, заявив, что высокая активность программ-роботов может подорвать работу eBay.

Затем в 2003 году в судебном процессе Intel против Hamidi, Верховный суд Калифорнии отклонил то обоснование, которое eBay использовала против Bidder’s Edge, постановив, что Доктрина о нарушении границ движимого имущества не может распространяться в компьютерной среде, если не было причинено настоящего ущерба личной собственности.

Все самые ранние дела против парсинга опирались на Доктрину о нарушении границ движимого имущества и заканчивались успехом истцов. Но этот подход больше не действенен.

2009: Facebook

В 2009 году Facebook подал в суд на Power.com – сайт, который объединял различные социальные сети в один централизованный ресурс, – когда последний включил Facebook в свой сервис. Поскольку Power.com парсил контент Facebook, вместо того чтобы придерживаться установленных стандартов гиганта, Facebook предъявил иск на основании нарушения авторского права. Компания Facebook обвиняла Power.com в копировании веб-сайта Facebook в процессе извлечения информации о пользователях. Facebook утверждала, что этот процесс является прямым и косвенным нарушением авторского права. Решение суда было в пользу Facebook, и с этого времени решения относительно законности парсинга начали приниматься в пользу авторов содержимого сайтов.

Даже если парсер игнорирует контрафактный контент в процессе поиска общедоступной информации, его действия могут характеризоваться как нарушение авторского права, потому что технически контрафактный контент все равно «копируется».

2011-2014: Ауэрнхаймер

В 2010 году хакер Эндрю Ауэрнхаймер нашел брешь в системе безопасности на веб-сайте AT&T и извлек адреса электронной почты пользователей, которые посещали сайт со своих iPad. Воспользовавшись недостатком системы безопасности и парсингом, Ауэрнхаймер смог получить доступ к тысячам электронных адресов с сайта AT&T. Ауэрнхаймер был признан виновным в несанкционированном доступе к серверу AT&T и присвоении чужих данных.

Использование парсинга для извлечения конфиденциальной личной информации может привести к обвинению, даже если эта информация была номинально общедоступной. Можно попробовать убедить суд, что ни пароли, ни коды не взламывались для получения доступа к информации, тем не менее, это опасная территория.

2013: Meltwater

Meltwater – компания-разработчик программного обеспечения, чей продукт Global Media Monitoring, использует парсинг для сбора новостей. Ассошиэйтед Пресс подала в суд на Meltwater за парсинг статей, некоторые из которых были защищены авторским правом, и за незаконное присвоение новостей. Факты нельзя защищать авторским правом, но суд решил, что сами статьи и авторское изложение фактов копировать незаконно. Кроме того, использование статей компанией Meltwater не соответствовало установленным стандартам. Авторский контент не всегда можно парсить!

2014: QVC

В 2014 году QVC (известный телевизионный ритейлер) и Resultly (приложение-магазин) судились из-за того, что QVC назвал «чрезмерным парсингом». Обвинение QVC было в том, что Resultly маскировала своих поисковых роботов, чтобы скрыть исходный IP-адрес, таким образом QVC не могли блокировать нежелательных для них парсеров. Из-за того, что боты были достаточно агрессивны к серверам QVC, произошла перегрузка с отключением электричества, которое повлекло ущерб в 2 миллиона долларов. Суд оправдал Resultly, постановив, что намерений нанести ущерб не было.

А что в России?

Начнем с самого простого и распространенного вопроса — фотографирование ценников в магазинах, хотя это не имеет прямого отношения к парсингу сайтов, но проблематика схожая (действительно, кажется, что нет разницы фотографировать ценники в магазинах, либо парсить цены с сайтов конкурентов).

Итак, вопрос: Можно ли установить для покупателей правило, запрещающее проводить несанкционированную фото- и видеосъемку в магазине? Если не углубляться в детальное толкование закона, давайте посмотрим на самую важную статью об информации:

В соответствии со статьей №5 Закона «ОБ ИНФОРМАЦИИ, ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЯХ И О ЗАЩИТЕ ИНФОРМАЦИИ»:

1. Информация может являться объектом публичных, гражданских и иных правовых отношений. Информация может свободно использоваться любым лицом и передаваться одним лицом другому лицу, если федеральными законами не установлены ограничения доступа к информации либо иные требования к порядку ее предоставления или распространения.

2. Информация в зависимости от категории доступа к ней подразделяется на общедоступную информацию, а также на информацию, доступ к которой ограничен федеральными законами (информация ограниченного доступа).

3. Информация в зависимости от порядка ее предоставления или распространения подразделяется на:

1) информацию, свободно распространяемую;
2) информацию, предоставляемую по соглашению лиц, участвующих в соответствующих отношениях;
3) информацию, которая в соответствии с федеральными законами подлежит предоставлению или распространению;
4) информацию, распространение которой в Российской Федерации ограничивается или запрещается.

4. Законодательством Российской Федерации могут быть установлены виды информации в зависимости от ее содержания или обладателя. Таким образом, информация о ценах в магазинах является общедоступной, т.к. нет законодательства ограничивающего доступ к такой информации. В связи с чем переписывать и снимать цены в магазине не запрещается.

Действительно, нарушений закона нет. Более того, в статье 29 Конституции Российской Федерации закреплено право каждого гражданина «свободно искать, получать, передавать, производить и распространять информацию любым законным способом».

Теперь по парсингу сайтов. Вопрос, который мы задали юридической компании («Фрезе и партнеры»): «Вправе ли организация осуществлять автоматизированный сбор информации, размещенной в открытом доступе на сайтах в сети интернете (парсинг)?»

В соответствии с действующим в Российской Федерации законодательством разрешено всё, что не запрещено законодательством. Парсинг сайтов является законным, в том случае, если при его осуществлении не происходит нарушений установленных законодательством запретов. Таким образом, при автоматизированном сборе информации необходимо соблюдать действующее законодательство. Законодательством Российской Федерации установлены следующие ограничения, имеющие отношение к сети интернет:

Не допускается нарушение Авторских и смежных прав.
Не допускается неправомерный доступ к охраняемой законом компьютерной информации.
Не допускается сбор сведений, составляющих коммерческую тайну, незаконным способом.
Не допускается заведомо недобросовестное осуществление гражданских прав (злоупотребление правом).
Не допускается использование гражданских прав в целях ограничения конкуренции.

Из вышеуказанных запретов следует, что организация вправе осуществлять автоматизированный сбор информации (парсинг сайтов), размещенной в открытом доступе на сайтах в сети интернет если соблюдаются следующие условия:

Информация находится в открытом доступе и не защищается законодательством об авторских и смежных правах.
Автоматизированный сбор осуществляется законными способами.
Автоматизированный сбор информации не приводит к нарушению в работе сайтов в сети интернет.
Автоматизированный сбор информации не приводит к ограничению конкуренции.

Есть рекомендации, которых стоит придерживаться, если используется парсинг:

Извлекаемый контент не должен быть защищен авторским правом
Процесс парсинга не должен мешать работе сайта, который подвергается парсингу
Парсинг не должен нарушать условия использования сайта
Парсер не должен извлекать личную (персональную) информацию пользователя
Контент, который подвергается парсингу, должен отвечать стандартам правомерного использования

p.s. Самый «тонкий» момент — это возможность претензий на то, что «парсинг мешает работе нашего сайта и мы несем убытки». В ответ на такую претензию можно сослаться на то, что поисковые механизмы Google и Yandex занимаются парсингом (индексацией) всего сайта и собирают всю доступную информацию, делая это достаточно регулярно. Соответственно, звучит логично, что аналогичный парсер, который заходит на сайт компании, чтобы собрать информацию о ценах, выполняет тоже самое техническое действие. Доказать то, что аналогичное действие мешает работе сайта, а работа поисковых систем не мешает, может быть затруднительно. Но в любом случае, хороший парсер должен следовать правилам в robots.txt...

Комментарии (23)

Truth4oll
17.10.2017 16:30
#10477842
Отличный у вас сайт, быстрый, и верстка табличных данных удобная.

JediPhilosopher
17.10.2017 17:01
#10477900
Парсинг не должен нарушать условия использования сайта

А что если в условиях использования прописан запрет парсинга? Вроде в соцсетях так и было сделано когда-то, может и сейчас есть (т.е. запрет получения данных напрямую со страниц, в обход API). Но ведь с другой стороны бот-парсер никакие условия не подписывает, я соглашаюсь на правила пользования обычно при регистрации, а для парсинга она обычно не нужна.

Вопрос вообще интересный, так как например на том же upwork чуть ли не половина работ по моему профилю — это парсинг различных сайтов.
1. makasin4ik Автор
  17.10.2017 20:02
  #10478194
  Это как запрет на фотографирование товаров в магазинах. Такое бывает. Но это не запрещено законом!
  1. FreeMind2000
    18.10.2017 15:06
    #10479476
    Таким образом, информация о ценах в магазинах является общедоступной, т.к. нет законодательства ограничивающего доступ к такой информации. В связи с чем переписывать и снимать цены в магазине не запрещается.
    
    Ок.
    
    1) Если на входе в магазин написано — «фото и видеосъемка запрещена», магазин — нарушает конституционные права граждан?
    
    2) Во многих магазинах, при этом ведется видеонаблюдение, причем не только внутри, но и снаружи, без спроса прохожих. Думаю, если меня могут снимать без спроса, значит и я могу это делать без спроса?
    
    Если уж взялись писать такую статью, то попробуйте найти юридический ответ и на эти вопросы.
    
    Squoworode
    20.10.2017 20:15
    #10483656
    Вот там разобрано.
    
    FreeMind2000
    21.10.2017 13:52
    #10484246
    Спасибо, статья интересная, но все равно полна противоречий…
    
    Вот яркий пример:
    
    Владельцы зданий, помещений, торговых центров, ресторанов, кафе могут устанавливать правила поведения посетителей, но не запрет на съемку.
    и ниже
    
    Если собственник не оповестил о своем запрете на съёмку в виде таблички, объявления или в устной форме, вы имеете полное право снимать.
    Фотографировать после устного запрета — нельзя!
    
    Если рассуждать логически, то здесь противоборствуют 2 утверждения:
    
    1. Статья 209 Гражданского кодекса РФ «Содержание права собственности»
    Собственник вправе по своему усмотрению совершать в отношении принадлежащего ему имущества любые действия, не противоречащие закону…
    
    2. Статья 29 Конституции РФ
    Каждый имеет право «право свободно искать, получать, передавать, производить и распространять информацию любым законным способом…
    
    Я считаю так:
    Противоречие легко разрешается, если мы знаем, что конституция — это основной закон, а остальные должны ему соответствовать. Тогда получается, что собственник может устанавливать любые правила поведения, но не нарушая конституционные права граждан, т.е. права на получение и распространение информации (которая не охраняется авторским правом и не является секретной). А значит:
    
    1. Вывеска «Фото и видеосъемка запрещена» — является нарушением конституции, и мы можем подать на такой магазин в суд.
    
    2. Правильная вывеска должна быть такой «Фото и видеосъемка объектов охраны и сигнализации запрещена», т.е. посетитель может фотографировать цены магазина, но не может фотографировать камеры, сигнализацию и т.п… В принципе, такой вывески может и не быть, но если пользователь сфоткает секретные объекты — он нарушит закон, со всеми вытекающими…
    
    Если есть юристы, интересно ваше мнение о приведенных выше 2х пунктах.

nizkopal
17.10.2017 20:33
#10478246
Извлекаемый контент не должен быть защищен авторским правом

А как узнать, что это так? Декларированы ли стандарты размещения предупреждении об авторских правах?

И еще вопрос — а является ли парсинг сайтов с незаконно выложенной информацией нарушением закона? Например, я уверен, что не все сайты, где можно читать книги онлайн, имеют права на публикацию этих самых книг. Теоретически, если я написал парсер на сбор этих книг в PDF, я преступник?
1. makasin4ik Автор
  17.10.2017 20:34
  #10478252
  Это хороший вопрос — но ответа у меня нет… Надо спрашивать юристов.

oleg_gf
18.10.2017 00:23
#10478522
Как может парсинг быть нарушением авторского права том случае, когда он является не копированием, а обработкой информации с сайта?
1. Rambalac
  18.10.2017 08:48
  #10478696
  Любая автоматизированная обработка оригинала не даёт авторских прав, а результат обработки является производной работой, которая сохраняет авторские права оригинала. Более того, переработка без разрешения автора тоже является незаконной, как то создание метаданных или обучение ИИ.

sslipchenko
18.10.2017 08:48
#10478698
Существует масса оправданий, но scraping всегда будет в «серой» зоне. Например, прочитав www.facebook.com/robots.txt легко установить незаконность Automated Data Collection для Facebook. Можно конечно утверждать «я не читал», но договор публичной оферты это не отменяет.
1. makasin4ik Автор
  18.10.2017 08:48
  #10478704
  Так написать можно все что угодно. Вопрос как суд это будет толковать.

jacksparrow
18.10.2017 08:48
#10478700
Вопрос, если сайт предоставляет рсс то контент из рсс автоматически считает свободным для парсинга и насколько попадают сюда полные текста подгруженные по ссылке из рсс?
(я на эту статью вышел через такого рода парсер, что иронично)

2PAE
18.10.2017 09:11
#10478732
«Поисковые системы как Google и Bing делают нечто подобное, когда индексируют веб-страницы, а парсинговые механизмы идут дальше и преобразовывают информацию в формат, который позволяет этими данными пользоваться, заносить в базы или электронные таблицы»

Может показаться немного грубым, но пришел на ум анекдот. «Вы что, геморроидальные свечи едите что ли? А нет, знаете я их в жопу пихаю!»

Поисковые системы делают то-же самое. Индексируют веб-страницы, а после этого заносят информацию в свои базы данных и позволяют этими данными пользоваться неопределенному кругу лиц, бесплатно и даже в коммерческих целях. Такую элементарщину то, знать надо.

P.S. Странно, что статья не переводная, вроде, а Яндекс упущен. Но упомянут Bing.
1. FreeMind2000
  19.10.2017 00:56
  #10480392
  Абсолютно согласен, но самое интересное, почему эти аргументы не приводили в свою защиту компании, которые проиграли суд… Ведь это явная дискриминация, одним парсить можно, другим нет. К тому же, даже обычный браузер — является парсером, и он тоже копирует данные сайта на жесткий диск пользователя.
  1. 2PAE
    19.10.2017 07:17
    #10480548
    Может кто-то в суде не понимает работу интернета вообще и работу поисковых систем в частности. Судьи, адвокаты и прочие…

Neburrarh
18.10.2017 18:41
#10479942
Если речь идёт об общедоступных страницах, то чем парсинг в принципе отличается от просмотра страниц пользователем и ручном копировании данных?

ictlawyer
19.10.2017 08:00
#10480586
Ваши юристы забыли о смежном праве изготовителя базы данных. Никто не вправе извлекать из базы данных материалы и осуществлять их последующее использование без разрешения правообладателя, кроме случаев, предусмотренных настоящим Кодексом. При этом под извлечением материалов понимается перенос всего содержания базы данных или существенной части составляющих ее материалов на другой информационный носитель с использованием любых технических средств и в любой форме Ст. 1334 ГК РФ.
1. makasin4ik Автор
  19.10.2017 12:14
  #10481062
  Информация публичная, для широкого круга лиц. То есть Яндекс, который извлекает эти данные закон не нарушает, а парсер — нарушает? Звучит очень странно…
  1. ictlawyer
    19.10.2017 12:23
    #10481086
    Мы здесь не Яндекс обсуждаем, а парсеры. Поисковик взамен обеспечивает трафик на сайт. А парсер лишает сайт конкурентного преимущества. Это разные вещи.
    
    FreeMind2000
    19.10.2017 13:09
    #10481170
    Так ведь парсер подключается не к БД правообладателя, а к открытым данным на сайте.
    БД и сайт — это тоже разные вещи. Причем, инет-магазин не является правообладателем на названия товаров (это к производителям) и не имеет правообладания на число, которое указывается в цене (это к математикам).
    
    А что значит «парсер лишает сайт конкурентного преимущества»?
    
    ictlawyer
    19.10.2017 13:15
    #10481182
    Так ведь парсер подключается не к БД правообладателя, а к открытым данным на сайте.
    
    Странный аргумент. А на сайте они откуда берутся? Запрос направлен в БД.
    
    Причем, инет-магазин не является правообладателем на названия товаров (это к производителям) и не имеет правообладания на число, которое указывается в цене.
    
    Да, в БД могут храниться некопирайтные материалы в принципе. Этим смежное право изготовителя БД и отличается от авторского права на БД и хранимые в ней материалы. Это разные правовые сущности.
    
    FreeMind2000
    19.10.2017 14:29
    #10481342
    «Странный аргумент. А на сайте они откуда берутся? Запрос направлен в БД.»
    — Э нет, парсер не делает запрос к БД, парсер делает запрос к сайту, а откуда сайт берет информацию, парсер не обязан знать, может сайт генерирует данные на лету по алгоритму, может получает из какого-то другого сервиса… Сайт с точки зрения парсера(браузера) — это просто гипертекстовая страница имеющаяся в открытом доступе.
    
    Но вы, так и не ответили на вопрос:
    
    А что значит «парсер лишает сайт конкурентного преимущества»?
    
    Ведь как раз когда пользователь может сравнивать цены разных магазинов — это и есть конкуренция, разве нет?

Парсинг сайтов: как с точки зрения закона выглядит один из самых полезных ИТ- инструментов по миру (и в России)? +9

2000-2009: eBay

2009: Facebook

2011-2014: Ауэрнхаймер

2013: Meltwater

2014: QVC

А что в России?

Комментарии (23)

makasin4ik Автор

makasin4ik Автор

makasin4ik Автор

makasin4ik Автор