两个男人,11.8亿

500

  作者 | 向由

  日前,一份网上公开的判决书,披露了一件令人惊讶的数据盗窃案件。

  案件中的受害者的是一款国民度极高的网购软件,淘宝。据判决书显示,该软件被人绕过了“风控机制”,从而被盗走了海量数据,数据条目达到11.8亿之多。

  我们网购时使用的账号和行为,包含着许多个人隐私,比如id、昵称、手机号码等等。根据现行的法律和法规定义,它们属于隐私。

  然而很难想到,在某些互联网巨头的产品上,这些本应该保护的隐私数据,却没有经过“脱敏”,直接曝光在网络世界。

  不仅如此,根据判决书的内容显示,盗取数据的团队仅有一名技术人员,且盗取时用到的工具,也只是他个人编写的一款爬虫软件。

500

  判决书内容显示,盗取数据的团队仅有一名技术人员

  这就是说,我们的敏感数据不仅被暴露在外,而且相关保护措施也是“薄如蝉翼”。

1

  又见爬虫

  上网的这份判决书是《逯某、黎某侵犯公民个人信息一审刑事判决书》,落款时间为2021年5月6日,属于新近的判例。

  案中有2名被告人,逯某和黎某。负责盗取数据的,是技术人员逯某。

  判决书显示,经司法鉴定,被告人逯某通过其开发的软件爬取网购软件用户的数字ID、昵称、手机号码等信息,共计1180738048条。

  而后,逯某将其爬取信息中软件用户的手机号码,通过微信文件的形式,发送给被告人黎某使用,共计有19712611条。

500

  判决书显示,经司法鉴定,被爬取的信息共计1180738048条

  逯某作案的手法并不新鲜,仍是老一套爬虫。

  据判决书,逯某供述说,从2019年11月起,他开始用自制的软件“淘评评”,通过平台的商品详细信息接口和信息分享接口,他可以爬取到这个平台的用户数字id和用户昵称。

  接着,再通过平台分享的接口,逯某进一步爬取到用户的电话号码。

  在平台公司这边,逯某的行为也是通过接口暴露的。

  据判决书,平台的安全风控人员作证说,在2020年7月13日,他发现平台的评价接口存在异常流量行为。排查过后发现,“有黑产通过破解接口的形式进行加密数据的爬取,在2020年7月13日至2020年7月20日之间爬取了3500万条数据。”

  不久后,在2020年8月,逯某和黎某先后被采取了强制措施。

  值得注意的是,根据逯某的供述,他爬取数据的行为早在2019年11月开始,作案过程持续了8个月时间。

  法院还对数据的真实性进行了证明。据判决书,相关人员在数据库中抽样10000条进行排查,“主要字段包含user_id、user_nick、手机号、注册时间等,属于平台实际认证的真实信息”。

2

  防护“失效”

  如此海量的数据,是如何被盗走的、又是否进行了安全性补救?截至目前,涉案平台公司没有作出回应,具体过程无法详解。

  不过,根据判决书中披露的细节,仍可以管中窥豹。

  据判决书,受案登记表、立案决定证实,平台公司在2020年8月14日报警时称,有黑产通过mtop订单评价接口绕过平台风控、批量爬取加密数据,爬取字段量巨大。

500

  平台回应称,被告人未经授权爬取购物车、收藏夹并恶性宣传推广的行为,严重违反了平台的应用开发者规范

  “Mtop是该平台公司的无线开发平台”,数据安全公司全知科技的创始人兼CEO方兴介绍,对于网购平台来说,订单当然可以有商家评论,这是信誉的一部分,所以是对外公开的。

  但通常来说,“从安全的角度出发,一般对外露出的信息会做‘脱敏’处理和防爬流控”,方兴介绍道。

  比如说,一个账号的用户名是“123456”,在对外公开的接口上,脱敏后的用户名是“1xxxx6”,就是为了避免有效信息被有心人采集。

  接着是“防爬流控”,可以通俗地理解为“反爬虫机制”。爬虫,是指网络上由人编写、完成特定目标的一类自动化程序。它代替了具体的操作人,去做重复性质的枯燥工作,在数据收集和检索领域必不可少。

  爬虫非常好用,于是有人拿它起了坏心思,关于数据泄露的事件,超过一半有它的身影。但平台并不是只能坐以待毙,它可以设计更合理的规则,防止爬虫进入系统盗走信息。

  在这方面,最典型的例子是购票软件12306。在面世之初,12306的使用体验十分糟糕,其中很大一部分原因是,许多第三方购票软件用“机器购票”去抢去先机,它们的原理就是爬虫。

  经过近10年的升级,现在的12306越来越熟练地辨别“人的行为”和“爬虫行为”,将爬虫软件识别以后,就将之拒之门外。从此,第三方购票软件的优势全无。

  此次涉案的平台公司是互联网巨头,但“反爬措施”为何不见?为何失效?

3

  业界隐忧

  更何况,此案中的作案人员并非“大牛”。

  2020年7月6日到7月13日之间,逯某盗取数据的方式非常激进,“平均每天爬取数量500万,爬取内容包括买家用户昵称,用户评价内容,昵称等敏感字段”。

  因此,他被平台公司发现、并报案处理。

  爬虫盗取隐私数据,显然是违法行为。真正的博弈之处是,爬虫的制作者,要想尽办法地伪装,将爬虫程序模拟为人类行为。

500

  电影《黑客帝国》剧照

  同样地,“魔高一尺,道高一丈”,平台公司要识破对面造出的层层迷雾。

  然而出于不可知原因,逯某的爬虫每天盗取500万条数据,已经显然不是人类可为,这让他彻底暴露了自己。从中至少可以说明,他并没有太高的技术能力和安全意识。

  很遗憾,这却没有妨碍他作案长达8个月、盗走11.8亿条数据的事实。

  该事件暴露出,当下互联网企业普遍的安全意识不足。就以此案为例,被利用的是平台的“mtop订单评价接口”,于此类似的功能性接口,正在成为互联网上的数据安全的一大隐忧。

  和以往不同,在当下大数据时代,人们已经意识到数据的价值,而这个价值要通过流动来实现。数据在不同端的流动,催生更多的场景、更多的业务,以此实现更多的利润。

  然而,盲目流动的数据,更可能是在裸奔。

500

  2020年数据资产泄露行业分布图(图源:永安在线数据资产泄露风险监测平台)

  原因的关键就在“接口”。方兴表示,现实生活中,真实的数据泄露事件更多的是发生在业务层中,攻击者通常不需要高深的黑客技术,而是潜伏在业务系统的上下游上等待数据的流动,然后利用一些细微的安全缺陷将这些数据批量窃取。

  相比传统的黑客攻击,于此业务层的风险发生时,企业却是更难感受到的。

  然而现在,数据流动的业务方兴未艾,将来势必有更多的数据、更多的“接口”。互联网大厂们,真的准备好了吗?

最近更新的专栏

全部专栏