APUS研究院:借最近Facebook发起的CFAA诉讼聊聊数据爬取

  前 言  

最近这段时间,小编注意到一脑门子官司的Facebook似乎在不遗余力的打造一个保护隐私为导向的“新人设”。比如三月六日,Facebook的CEO扎克伯格在Facebook网站上写了万字长文,表示Facebook和Instragram从此要聚焦社交媒体的隐私保护。

老大都发话了,Facebook手底下各路大将哪敢怠慢。这不三月八日,Facebook就在洛杉矶把几个通过“浏览器拓展”爬取用户数据,并在用户的新闻流中植入广告的乌克兰老哥给告了。

500

起诉状大概长这样。虽然都是公开信息,还是遮一下姓氏。 

工作原因小编前段时间正好也调研了一些国内的情况。正好借着Facebook的这波操作,小编今天就跟各位大佬简单汇报一下以下内容。

两个老哥干了什么?

到底什么是“数据爬取”?

Facebook怎么告?

不好归责的“爬取”?

 # 1 两个老哥干了什么  

根据Facebook在起诉状里面的说法,2016年起,在距离美国5600英里的乌克兰,格列布认识了安德烈。

老格和老安管理运营了至少四个网页应用(大多数都是很常见的那种性格测试、社交指数测试、受欢迎程度等等)。提供这些应用的网站大部分是面向俄语和乌克兰语用户的网站。如果把老格和老安干的事情想象成一家在线骗子公司的话,这些个网页应用就好比骗子公司的门脸。

用户登录了以后,老格和老安会通过应用敦促用户许可这些应用通过浏览器推送通知。一旦允许了,虽然Facebook没有细说,但小编猜测通知中可能会将用户引导到浏览器拓展商店,然后用户就这样被引导着安装了他俩悉心开发的浏览器拓展(browser extensions)。

安装完这些浏览器拓展,用户也就正式上钩啦。Facebook认为这些浏览器拓展有两个很不好的功能,一个是对用户Facebook不公开的好友列表进行数据爬取,另一个就是在未经用户授权的情况下在用户的新闻流中植入广告。 

 # 2 到底什么是“数据爬取” 

小编不是技术出身。起诉状看到这里,小编感到最陌生的就是“数据爬取”这个术语了。而且这个属于看起来也很关键。

Facebook可能也怕收诉状的法官不清楚这个词的外延和内涵,在诉状中给“数据爬取”加了下面的这个定义。

“本起诉状中,数据爬取指的是一种从网站自动收集和提取数据的方式。数据爬取有时候也被称为“网页爬取”、“网页发掘”(web harvesting)或者“数据挖掘”(data harvesting)。

说实话,小编还是没有懂。再说的具体一点,小编总觉着“数据爬取”看起来不像是什么坏事。

为此,小编特意找了坐在小编对面的RD大牛。威逼利诱下,大牛哥给小编掰碎了拼回去的讲了好多遍,小编才好像隐约有了个概念。

According to 大牛哥,如果要了解什么是“数据爬取”,一定要对互联网的架构有一个基本的理解。互联网,那就不是一张网,而是一个洋葱。

500

是的,一个洋葱,以及我知道上图是一个洋葱。

大牛哥说,像小编这种啥也不懂的成天浏览的,是用HTML(Hypertext Markup Language)写成的网页。这些网页,是洋葱的表层。小编为了叙事方便,先给这层起个名字叫“网页层”。

再往下一层呢,是HTTP(Hypertext Transfer Protocol)协议,如果不是和大牛哥聊过,小编这种小白可能这辈子都不知道还有这么个东西存在。俗话说的好,咬人的狗不叫,往往就是这种看不见,摸不着的东西才厉害。用大牛哥的话说,万维网上的一切东西格式和沟通方式,如何在被创建、存储以及如何再从网页服务器中调取出来,都是由这一层决定的,就叫这一层“协议层”吧。

比方说,用户看网页,在网页层来看,就是用户在浏览器上点击了一个链接,然后网页就出现在了用户面前。

但是在协议层上,其实是一个用户和网页服务器使用协议语言进行沟通的过程。在这个过程中,网页浏览器一方面帮助用户告诉网页服务器用户想看什么,另一方面帮网页服务器把存储的HTML文件、代码和资源搭建成用户看得懂的网页。

在协议层上,网页浏览器这种“中间人”有一个比较牛逼的名称,叫用户代理(user agent)。

而进行数据爬取的爬虫软件,其实也是一种用户代理。从网页上爬取数据的过程,也是用户和网页浏览器的沟通,甚至使用的语言都是一样的(HTTP协议),只不过网页浏览器最终要向用户展示网页,而数据爬取最终帮用户获得是一类或几类数据罢了。

有些爬虫软件如果设计的不好,可能会导致被请求的崩溃,但是大牛哥最后还是向小编强调,实际上爬虫软件,透过现象看本质的话,和网页浏览器是“一类人”。

 # 3 Facebook 凭啥告?

工作需要,大牛哥有的时候也会进行数据爬取。其实,因为其高效和针对性强,数据爬取实际上是一种在商界和学界是被广泛使用的一种技术手段。很多世界五百强企业设置了数据科学家岗位,十个有九个的岗位描述中提到需要精通数据爬取技术。

那Facebook为什么会因为爬取他们的数据就把两个乌克兰老哥给告了?

要注意的是,Facebook援引的法律(CFAA,即“Computer Fraud and Abuse Act”,以及其州立法层面的体现)禁止的不是“数据爬取”,而是“对于受保护的计算机系统未经授权的访问”(unauthorized access to computer system)。

上面也提到了,老格和老安先千方百计的让用户在自己的浏览器上安装上他们开发的包含爬虫软件的浏览器拓展。用户安装了以后,在用户访问Facebook网站的时候,拓展会在用户不知情的情况下,假装自己是用户,给Facebook的网页服务器发送请求,调取用户设置为隐私的好友列表,再把这些用户的隐私信息存储到一个荷兰的服务器中。

所以问题没有出在老格和老安使用爬虫软件这个地方,而是出在老格和老安假装其他用户访问Facebook服务请求隐私信息构成了对Facebook服务器未经授权的访问。

 # 4:不好归责的“数据爬取”  

不过小编想说的是,其实在更多的“数据爬取”案件中,这个“未经授权”并非都如同这次讲得案件一样相对是clear cut。

很常见的情况是,当事人爬取的本来就是网站展示出来给所有人看的信息。上面大牛哥已经给大家讲很多了,从原理上来说,用浏览器和用爬取软件其实没有那么大差别。再举个不恰当的例子,就好像说你想弄清楚对面树上有几只鸟,你拿望远镜看也行,你打电话问一下在树下站着的人让他帮你数一下也行。只要数鸟这个事情本身没问题,拿望远镜看就没事,打电话找人帮忙就犯法这个逻辑本也受到了一些学者的质疑。

根据保护的法益,有学界观点是,这种情况下,应该看网站本身有没有采取明确的技术措施制止数据爬取。继续拿数鸟举例子,假如说为了防止有人打电话弄清楚到底有多少只鸟,管事情的人把树周围多少里地的电话信号都屏蔽了,然后你的手机有一种特殊的功能可以突破信号屏蔽,那对不起,你这个是不行。

但是小编认为,这种观点实务中最大的问题在于,并非所有的司法工作者都具备能开展突破技术措施是否构成突破授权的技术背景。美国司法系统曾经短暂的尝试过这个方向,但目前有学界观点认为,自Craigslist, Inc, v. 3 Taps Inc. 一案之后,美国目前的CFAA判例中更多关注的是网站运营者有没有以任何形式表示撤回对于爬取者的授权,这种撤回既可以是很简单的技术措施,比如屏蔽掉爬取者的IP地址,也甚至可以和技术完全无关,比如一封Cease and Desist Letter。

我国刑法第二百八十五条第二款规定了非法获取计算机信息系统数据罪。后续公布的两高相应司法解释中,可以看出是否突破计算机信息系统安全保护措施也是认定该罪需考虑的一个因素。主要应为实施数据爬取行为而适用这一条款的案件不太多,但也都激起了舆论和互联网行业的关注,其中一个关注点就在于对于计算机信息系统安全保护措施的认定上。从目前的判例来看,一般的反爬取措施即构成上述安全保护措施。

 # 尾 声  

其实技术本身是中立的,关键在于如何使用他。读完本文小编建议各位大佬无需谈“爬”色变,但也不要对于公司中的爬取业务完全放任自流。这种不是非黑即白的事情,可能需要在具体的业务场景,结合一切相关因素来进行深入的分析和判断,也需要考虑到相关的风险大小和相应的合规成本问题。如果涉及到核心业务的合规性,或者确实非常拿不准的话,当然可以留言和小编进行讨论,同时,小编也建议可以请外部中介或者咨询机构介入。

虽然本期看起来和GDPR并非直接联系,但还是那句老话罢,GDPR合规无小事,各位大佬我们下期再见!

(本文谨代表APUS研究院观点,并非正式法律意见。如有问题欢迎随时沟通。)

APUS研究院

APUS旗下专注于全球互联网发展研究的智库平台,是面向未来移动互联网创新变革的孵化器及加速器。

500

全部专栏