Мир дикого скрэпинга: как собирать данные в сети легально?

Фундамент Четвертой индустриальной революции составляет Big Data – большое и разнообразное количество данных о поведении пользователей и активности их устройств в сети. Технологические решения позволяют изучать поведение человека и механизмы принятия решений, выводить полезные закономерности и использовать их при ведении дел. Это неоценимые возможности.

Обработка данных все чаще используется для маркетинговых целей. Для этого компании собирают бесплатные, на первый взгляд, данные с открытых источников интернета.

С появлением новых возможностей развивается и государственное регулирование, и частное – со стороны интернет-ресурсов. Кажется, что данные только лежат и ждут, пока их используют. На самом деле компанию могут привлечь к ответственности за неправильный сбор и обработку данных.

Для сбора данных в интернете компании чаще всего используют автоматические решения, в том числе ботов. Сам же сбор данных может осуществляться в двух формах: в форме веб-скрэпинга – сбора данных с определенного веб-ресурса, или же в форме веб-кроулинга – сбора и систематизации данных с гиперссылок, которые размещены на определенном веб-ресурсе. Всегда ли он является легальным? Сам по себе скрэпинг/кроулинг не расценивается как правонарушение. Юридические аспекты, в первую очередь, касаются персональных данных, правил пользования ресурса и других вопросов.

Персональные данные – что это?

Сегодня в массах активно обсуждают тему персональных данных. В сети мы везде оставляем за собой след. Отпечатки наших действий могут использовать в разных целях – совершенствовать сервисы или же направить против нас.

Что такое персональные данные? Это сведения, по которым можно идентифицировать человека (связать информацию с определенной личностью). Ими могут быть: ФИО, домашний адрес, паспортные данные, банковские данные, возраст, профессия, религиозные, политические взгляды, IP-адрес. Информация о взглядах, привычках и интересах, IP-адрес помогает определить, что лучше всего продавать человеку и как максимально привлечь его внимание к рекламе. Эта же информация может быть базой для планирования преступления по отношению к человеку самым эффективным способом.

По этим причинам персональные данные – объект повышенного внимания и охраны, причем неважно, находятся они в открытом доступе или же защищены от внимания третьих лиц. Не так давно Европейский суд в деле Maximillian Schrems v. Data Protection Commissioner рассматривал информацию из публичного профиля Facebook как персональные данные. Поэтому под защиту попадают даже те сведения о пользователе, которые находятся в публичном доступе.

Одно из главных ограничений для использования персональных данных – их сбор и обработка допускается только при наличии согласия, причем исключительно в тех целях, на которые его давали. Такое требование можно найти как в украинском (ст. 6 ЗУ «Про защиту персональных данных»), так и в европейском законодательстве (ст. 6 GDPR).

Получается, что привилегией обрабатывать персональные данные обладают только ресурсы, которым пользователи предоставляют данные. Ресурс может передать данные третьим лицам, но только если пользователи дадут разрешение. А по законам Калифорнии (согласно пар. 22575 Калифорнийского Business and Professions code) еще и необходимо уведомлять по запросу пользователя, кому такие данные передаются. Нельзя так просто взять и начать скрэпить персональные данные с ресурса, если не договориться с ним о сотрудничестве. Европейский Регламент по защите персональных данных требует прямо указывать тех третьих лиц, которым данные передаются. В таком случае, передача данных третьим лицам и уведомление об этом пользователей несет для ресурса репутационные риски.

Зачем учитывать этот аспект? Нарушение требований может привести к серьезной ответственности – внушительным штрафам, возмещению убытков за утечку персональных данных, блокировке ресурсом, а в некоторых странах даже на основании судебного решения, как в РФ). Например, п. 5 ст. 83 Европейского Регулирования по защите данных устанавливает штраф за несоблюдение надлежащей защиты до 20 000 000 евро или до 4% от годовой выручки по всему миру. При этом выплата штрафа не освобождает от дальнейшего обязательства соблюдать правила обращения с персональными данными.

Что же по другим данным?

В коммерческих целях могут собираться данные веб-активности, анонимизированные данные, любые другие статистические данные, проводиться порт-сканнинг – сбор информации о подключениях к интернет-провайдерам. Даже если данные не определяются как персональные, их сбор и использование все равно может вызвать проблемы. В западных странах проблематичность темы доказывает как активное обсуждение в интернет-сообществе, так и большое количество судебных дел.

Недовольство скрэпингом или кроулингом, в первую очередь, проявляют владельцы веб-сайтов, затем оно переходит в юридическую плоскость. Что именно вызывает диссонанс? У использования софта для сбора данных есть своя особенность – бот посылает запросы на веб-сайт куда больше и чаще, чем это может позволить себе пользователь, и это может вызывать большую нагрузку на серверы ресурсов. Владельцы ресурсов считают, что использование ботов и другого софта для сбора данных на их сайтах может нанести вред деловой репутации, так как это потенциальная угроза замедления работы ресурса, падения серверов и утечки данных вследствие этого.

Как результат, владельцы онлайн-площадок могут подать в суд с требованием запретить автоматический сбор данных на их ресурсе. Примерно так поступил в свое время Ebay в деле Ebay Inc. v. Bidder’s Edge, Inc. Иск был обоснован тем, что использование ботов BE (Bidder’s Edge, ответчик) подвергало опасности серверы ресурса Ebay и наносило вред площадке – боты заходили и собирали информацию на сайте Ebay около 100 000 раз в день. На 2000 год это составляло около 1,5% процента трафика и могло вызвать поломку системы, а также потерю данных. В результате суд установил предварительный запрет на автосбор данных с площадки Ebay, после чего стороны пошли на мировую с условием, что ответчик обязуется впредь не скрэпить данные с Ebay.com с помощью ботов.

Подобные иски не всегда увенчиваются успехом. Например, в деле Американской телевизионной сети QVC Inc. v. Resulty LLC суд рассматривал вопрос нарушения CFAA (Computer Fraud and Abuse Act – закона США о компьютерных правонарушениях, а именно 18 USC 1030(a)(5)(A) – намеренное нанесение ущерба использованием компьютерной программы. Было установлено, что веб-кроулинг от компании Resulty (ответчик) не нанес и без намерения нанести вред, а поэтому, именно в аспекте CFAA нарушения не было. В деле учитывались также и намерения Resulty, которые были определены как информирование пользователя и их дальнейшее направление на веб-сайт QVC.

В таких случаях ответственность может варьировать, зависимо от того, какую сумму физических и моральных убытков понес и заявил в суде истец. Запрет на использование ботов для скрэпинга будет обеспечен, независимо от того, какое количество убытков будет заявлено. Кроме того, сам по себе судебный процесс – очень затратный, как по времени, так и финансово.

Вопрос для Terms of Use

IT-ресурсы могут запретить скрэпинг в правилах пользования на сайте, чтобы избежать длительного и ресурсозатратного судебного процесса либо упростить его. С этими правилами мы все знакомы, но никто их не читает – на английском языке они называются Terms of Use (Terms and Conditions, User Agreement, Terms of Service etc.). Стоит четко понимать, что такие правила – это договор, который автоматически заключают пользователи с владельцем ресурса при его использовании, и поэтому правила имеют силу закона для них. Если хотите использовать ресурс, то необходимо придерживаться правил.

Негативный опыт приводит к появлению новых правил. Правила большинства ресурсов сегодня запрещают использовать ПО для сбора данных. Ответственность скрэперов/кроулеров переходит из нарушений закона (что в суде доказывать долго и трудно) в нарушение положений договора, а это более однозначное нарушение. Примером могут послужить дела LinkedIn Corporation v. Robocog Inc и Southwest Airlines Co. V. BoardFirst, LLC.

В первом случае, ответчик (Robocog) скрэпил данные с известной бизнес-соцсети. Скрэпинг был прямо запрещен правилами пользования ресурса, за что LinkedIn подал на Robocog в суд. Во избежание дорогостоящей судебной тяжбы ответчик согласился прекратить скрэпинг и выплатить истцу $40 000 за нарушение правил и нанесение ущерба.

Во втором случае ответчик собирал с сайта авиакомпании данные об их рейсах и размещал их у себя на ресурсе. Как можно догадаться, правила пользования запрещали это. Southwest Airlines были недовольны положением вещей и подали соответствующий иск. На основании нарушения правил пользования суд вынес решение в пользу истца (Southwest Airlines) с запретом дальнейшего скрэпинга и покрытием всех убытков.

Аспекты авторского права

В интернете популярны ресурсы, которые структурируют и систематизируют информацию с разных сайтов. Такой контент может охраняться авторским правом как форма выражения или структуризации информации. Например, использование статьи или базы данных без спроса правообладателя будет правонарушением и почвой для подачи иска о нарушении авторских прав.

В этом ключе суды англо-саксонской системы права обычно ставят вопрос о применимости доктрины fair use: можно ли считать сбор, структурирование и размещение контента правообладателя без его разрешения допустимым бесплатным использованием. Необходимо, чтобы использование было «трансформативным» – то есть либо изменило форму объекта, либо добавило информационную ценность материала, либо внесло в него существенные изменения. Суд учитывает также, что сама информация не охраняется авторским правом, а охране подлежит лишь определённая форма изложения.

В деле Associated Press v. Meltwater ответчик (Meltwater) отслеживал и собирал интернет-новости с разных ресурсов. После этого, контент структурировался по тематикам и размещался на сайте Meltwater. При этом указывался источник информации. Судом было установлено, что в использовании не было элемента «трансформации», а цель использования была определена как исключительно коммерческая. Суд признал это нарушением авторских прав, что вызвало возмущения о сокращении сферы применения fair use и, как следствие – о нанесении вреда общественным интересам.

Ещё одной причиной возмущений стало дело Fox News Network, LLC v. TVEyes Inc., где ответчик (TVEyes) действовал по схожему образу – скрэпил новости, но с радио и телевидения. Ответчик аргументировал использование как такое, что не подпадает под обычное авторское право – контент обрабатывался не человеком, а программой, в слишком больших для человека объемах. В остальном дело было схожим с предыдущим. Такое использование было признано правомерным (fair use).

Такие кейсы показывают, что судебная практика часто бывает неоднозначной, а похожие иски могут привести совершенно к разным последствиям.

Скрэпинг авторского материала для тренировки искусственного интеллекта порождает ещё один критерий для определения fair use – это характер использования объектов, а именно expressive и non-expressive. Первый тип использования означает взаимодействие с формой материала, на что в этом контексте не будет распространяться fair use. Второй же способ использования характеризуется разбором синтаксических составляющих объекта и его фактической стороны, оставляя форму выражения на второй план.

В свое время такое использование видеоигр Sega (разбор кода) рассматривалось в деле Sega Enters. v. Accolade, Inc. Ответчик (Accolade) использовал код игр не как основу для новой программы, а как материал для тренировки искусственного интеллекта. ИИ учился самостоятельно писать код, а потому суд посчитал, что интересам правообладателя это не вредит. Использование было признано fair use.

В странах Европы и (тем более) Украине дело обстоит немного иначе. Суд не владеет свободными полномочиями в такой мере, а больше действует согласно букве закона. Если в дата-скрэпинге будет установлено нарушение авторских прав, ответственность будет выводиться из упущенной выгоды за каждое использование авторского материала, что при неадекватном расчете может оказаться большой суммой.

Выводы о рисках сбора данных

Как итог, при разработке эффективной бизнес-модели со сбором данных, необходимо грамотно просчитывать юридические риски. Каждый случай индивидуален, но несколько простых правил помогут очертить рамки, в которых можно действовать:

Определите тип данных, которые вы собираете – многие из них ограничены в использовании, даже если находятся в открытом доступе (персональные данные, авторский контент).
Учитывайте источник, откуда берете данные – правила пользования ресурса часто устанавливают запрет на автоматизированный сбор данных, что в конечно итоге приводит к ответственности.
Всегда можете попробовать договориться с администрацией ресурса, как это и случилось в деле American Airlines v. FareChase, где стороны судебного дела пошли на мировую и заключили лицензионный договор об использовании FareChase данных компании American Airlines.
Если использование ботов для скрэпинга ресурсом не запрещено, всё равно не злоупотребляйте ботами – чрезмерная нагрузка на серверы в любом случае не одобряется, и в конечно итоге может вызвать неприятности.

Общественные отношения развиваются с огромной скоростью, а за ними постепенно меняется и правовое регулирование. Киберпространство – не исключение. То, что вчера было в свободном доступе в силу отсутствия социального запроса на защиту, сегодня получает свой регламент – со штрафами и другими вытекающими. Поэтому стоит учитывать, как выгоду технологий, так и вектор правового регулирования в этой сфере. Scrap your data safely.

Автор: Владислав Некрутенко, младший юрист TMT «Юскутум»