把人逼疯的网页验证码,浪费你几百万小时,却让谷歌稳赚8000亿?

500

  图片来源:

撰文 | Skin

审校|Ziv‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

想上互联网,必须先做题。

你应该也在上网时遇到过各种各样的“人机测试”,最早的比如识别出扭曲的字母和数字、选择图片上特定的字符、拼图游戏,随着技术的发展,这种人机测验也变得越来越花哨,给你上网增添了一些小乐趣(误)或者小阻碍。把科学带回家在之前的一篇文章中已经为你介绍过,这种人机测验叫做CAPTCHA。关于CAPTCHA的知识请看:验证码越来越奇葩和抽象,我都无法证明自己是人类了!

500

不过,其中备受争议的(并且有最多梗的)验证系统,应该就是谷歌公司旗下的验证码系统reCAPTCHA了,网上经常能看到因为reCAPTCHA出的题太难,让人气到想退出互联网的案例!而且如果答错,就要重新验证,在第N次尝试后,甚至会拒绝你的上网请求……

事实上,当谷歌公司的reCAPTCHA在要求你“答题”时,你也在帮他们完成免费的数据标注工作

500

请选出图片中有云的方框(?|cloudflare

reCAPTCHA的前身其实是卡内基梅隆大学(CMU)创办的一个大规模协作任务,当时,人们需要完成一些古籍的数字化工作,但是古籍上有很多字母是OCR(光学自动识别)软件难以识别的。所以人们就想,为什么不让广大的互联网用户帮忙完成这件事情呢?于是就将这个任务传给了各大网站,替换了原来的验证码图片。

2009年,这个协作平台被谷歌收购,继续完成一些需要人工识别的任务,比如数字化了谷歌图书和纽约时报的档案。文字识别完了之后,人们还想再利用协作平台做点什么,于是2012年,reCAPTCHA就承担了谷歌一项重要的任务:人工识别谷歌街景里的数据,也就是我们大多数人在上网时都标记过的斑马线、自行车、小轿车等。

500

有时候上网真的很无助|imgur

这看起来是一个一举两得的行为,首先,CAPTCHA的本意是阻止机器人恶意入侵网站,保护用户的上网活动,而reCAPTCHA又通过这个活动利用了互联网用户的时间来完成一些人工数据化任务,甚至增强自己的人工智能。比如reCAPTCHA就能和谷歌街景互相增强,一方面让验证系统更安全有效,一方面也积累了人工标注的数据集让谷歌地图更准确

后来,reCAPTCHA又发展出了V2和V3,有时候他会出现一个”我不是机器人”的复选框,当你勾选这个复选框时,reCAPTCHA会通过一些风险分析算法,再判断要不要让你做题。还有一种是隐形的reCAPTCHA,你无须点击按钮和做题,只需要让光标移动来识别就行了。不过,如果识别到异常,那做题的花样也会更多,甚至让你完成一些复杂的拼图任务。V3则会自动给用户“打分”,但……打分的依据和标准又是什么?谷歌公司只提到:“行为特征”。

500

reCAPTCHA V2中有了直接点击复选框就能完成人机验证的功能。

reCAPTCHA在发展的过程中也争议重重。首先,它曾受到不少收集用户隐私数据的质疑。2020年,互联网基础设施提供商Cloudflare提到,他们认为谷歌可能会利用reCAPTCHA提取的用户数据来实现谷歌的广告业务,于是将reCAPTCHA换成了更加安全的hCaptcha。而越来越“神秘”的reCAPTCHA像是一个“黑匣子”,用户并不知道,自己在选择复选框,或者做题、移动光标的过程中,会泄露哪些自己的数据

500

除了reCAPTCHA外,你可能也遇到过hCaptcha,它有一些不同于reCAPTCHA的挑战题目,非常不着调。除了题图上的白云马,还有这种选裙子长度的500|hCaptcha

另外,人们开始怀疑这种验证方式真的有用吗?一些研究不断发现,不仅黑客可以攻破reCAPTCHA,机器人也变得越来越聪明了,虽然你还在屏幕面前辛辛苦苦做题,选斑马线,但这项任务早就能被机器人完美取代了。

2023年,加州大学欧文分校的一项研究调查了3600多名互联网用户,不出所料,人们都觉得做图形识别题很烦人。而在用户实际应用这种验证系统(大多为reCAPTCHA v2)的过程中,在做图片题上花费的时间是勾选复选框的5.5倍,并且在评估安全性后,研究者得出结论:它除了收集你的数据(可能用于广告等目的)之外,在安全性上已经没有什么用了。研究者还算了一笔账,提到“reCAPTCHA 耗费了约 8.19 亿小时的人力时间,相当于61亿美元的工资,并为谷歌创造了巨额利润。仅跟踪 cookie 一项,价值就估计为 8880 亿美元。”

500

如今,人们也在尝试其他代替验证码的方案,一些公司使用了Private Access Tokens。比如苹果公司在自家浏览器Safari上,就会询问你是否通过iCloud用这种私人Apple ID 账户的加密形式来验证你在互联网上是“真人”。这节省了许多“做题”的时间,但……目前使用它的范围还太窄了,如今我们还是经常不得不在互联网上花时间“做题”,做更多挑战性更高的题目,但 reCAPTCHA浮现出的种种问题,也许说明它真的需要被渐渐取代了。

500

苹果公司在iOS16上推出了一种“自动验证”的功能,可以在一些情况下绕过一些题目。

最后,分享冷知识:验证码的发明者是路易斯·冯·安,他也是语言教育平台多邻国的创办者500

500

小编真实reaction

你在上网时遇到过哪些奇怪的人机验证题目?

快分享到评论区让我们开开眼界!

参考资料:

[1]https://www.pcmag.com/news/cloudflare-dumps-googles-recaptcha-over-privacy-concerns-costs

[2]https://arstechnica.com/information-technology/2012/05/google-recaptcha-brought-to-its-knees/

[3]https://futurism.com/ai-bot-agent-human-verification

[4]https://arxiv.org/abs/2311.10911

[5]https://www.fastcompany.com/90369697/googles-new-recaptcha-has-a-dark-side

站务

全部专栏