Amazon语音助手能给你一个确定的回答,却给不了信息世界的真相
本文看点
▪ 剑桥AI大咖威廉·滕斯托尔-佩多曾认为,计算机不应该像图书馆那样,要求人们费力地检索信息,而应提供即时的、完美的、单一的答案。在此设想上,他创立了True Knowledge网站,其数字大脑分为三个部分:自然语言处理系统、收集事实、编码关联。随着智能音箱的兴起,True Knowledge被Amazon收购,共同推出了Amazon语音助手音箱Echo。
▪ 之后各大科技公司纷纷意识到了语音问答是大势所趋,Google、Facebook、Apple、Amazon都各自收购了知识图谱制作公司,以更好地一次性提供单一答案。这种发展趋势使传统网页的利益相关者情况危急。由于广告位减少,一场争夺广告位的战争即将出现,广告位费用理论上会大大提升;此外,因为搜索引擎直接给出答案,网络出版商的流量也会急剧减少。
▪ 语音搜索也存在极大风险。单一答案的形式暗示事实都是简单绝对的,让提供语音搜索服务的公司获得了裁定信息真伪的权利,它们开始主宰人们的认识。人工智能的失误会误导用户,而信息来源的模糊也削弱了人们分辨是非的能力,一旦习惯了这些便捷的工具,好奇心和深入思考的能力也会被削弱。
原文来自Wired,作者James Vlahos
如果你在上世纪90年代末参观过剑桥大学图书馆,你可能会看到一个瘦削的年轻人在书架间“露营”,笔记本电脑屏幕的光芒照亮了他的脸。
威廉·滕斯托尔-佩多已在几年前就完成了他的计算机科学研究,但他仍然享受着旧纸散发出的霉味,以及被书环绕的感觉。凡是在英国出版的书籍,这个图书馆几乎都收藏了副本。500万本书和120万期杂志,大量的信息都给了他灵感。
当然,也就是在这个时候,另一个巨大的知识宝库,即互联网,正在形成。Google以其著名的使命宣言“组合全球的信息,使其随手可得,随处可用”,自豪地扮演着地球图书管理员的角色。
尽管滕斯托尔-佩多喜欢徜徉于书架间,但他觉得计算机不应该像图书馆那样,要求人们费力地检索信息。是的,浏览搜索结果、发现新来源和相关事物确实很有趣。但大多数用户真正想要的是答案,而不是搜索的快感。
作为实现这一目标的工具,搜索引擎曾和图书馆一样笨拙。首先,你必须想出正确的关键词。接着,你得猜猜Google和Yahoo提供的一大串链接中哪个才是最好的。然后,你得点击链接,进入一个网页,希望它包含你要找的信息。
滕斯托尔-佩多认为,这项技术应该像《星际迷航》里飞船上的电脑那样:用日常用语问一个问题,就能得到一个“即时的、完美的答案”。他相信,搜索引擎作为乐于助人的图书管理员,最终一定会屈服于AI,成为无所不知的神谕。
这在当时是一个与飞行汽车一般的技术幻想,但滕斯托尔-佩多着手让它成为现实。他13岁就开始当程序员赚钱,一直对教授机器自然语言十分着迷。
上大学时,他曾写过一款名为Anagram Genius的软件,给定一个名字或短语,该软件会把字母巧妙地重新排序。例如,输入“Margaret Hilda Thatcher(玛格丽特·希尔达·撒切尔)”,重排字母就变成了“A girl, the arch mad-hatter(一个女孩,彻头彻尾的疯帽子)”。
多年后,作家丹·布朗也使用了Anagram Genius来创作《达芬奇密码》中的关键谜题。
而现在,躲在图书馆里的滕斯托尔-佩多正开始构建一个能够回答几百个问题的原型。
20年后,随着Amazon Alexa(和Echo关联的语音助手)和Google Assistant等语音计算平台的崛起,全球最大的科技公司都陡然转向了滕斯托尔-佩多的研究方向。
语音智能音箱已经成为了科技行业最畅销产品之一;NPR电视台和研究公司Edison Research的一份报告显示,仅在2018年,这些产品在美国家庭中的普及率就增长了78%。
根据一项市场调查,人们要求他们的智能音响回答问题的频率比他们做其他任何事情的频率都要高。滕斯托尔-佩多的设想是,计算机一次性响应我们的问题,也就是提供搜索社区所称的一次性答案,而这种设想已经成为主流。
互联网及其支持的数十亿美元的商业生态系统正在发生不可逆转的变化。信息的创造、传播和控制也是如此——这正是我们所知所得的本质。
2007年,经受了网络产业崩溃及其余波的考验后,滕斯托尔-佩多和几位同事即将推出他们的第一个产品——一个名为“True Knowledge”的网站,它可以为各种问题提供一次性的答案。
当时,他们的“一次性答案”目标仍然是异端。滕斯托尔-佩多说:“在Google里,有些人对我们所做的事情完全过敏。一次性答案是一种禁忌。”他回忆起自己曾与Google的一名高级员工争执,对方甚至拒绝单一正确回复这种说法。
那时的大型搜索引擎虽然索引了数十亿个网页,但并未深刻理解用户的查询。相反,它们做的只是美化猜测:你在Google的搜索栏里输入几个关键词,公司的PageRank网页排名系统就会根据数据推测你想知道的是什么,在网页上显示一大堆推测结果。
为了证明True Knowledge一次性答案的抱负是可能实现的,滕斯托尔-佩多和他在剑桥的小团队开发了一个数字大脑,由三个主要部分组成。
第一个是自然语言处理系统,它试图强有力地解释问题。例如,“有多少人居住”、“这里人口有多少”和“规模有多大”都可以表示为关于一个地方的居民数量的查询。
系统的第二部分是收集事实。不像其他搜索引擎只是简单地将用户指向别的网站,True Knowledge渴望自己提供答案。它需要知道伦敦有880万人口,勒布朗·詹姆斯有6英尺8英寸高,乔治·华盛顿的临终遗言是“很好”,等等。
这些事实中的绝大多数都不是人工输入系统的;如果要人工输入,那就太艰难了。相反,它们是从结构化数据的来源自动检索而来的,这些信息以计算机可读的格式列出。
最后,系统必须对这些事实的关联进行编码。程序员们创建了一张知识图谱,就像一个巨大的树状结构。
它的基础为“对象”这个类别,包含所有事实。向上看,“对象”又分为“概念对象”(用于社会和心理构造)和“物理对象”(用于其他一切)。
你爬得越高,分类就越精细。例如,“轨道”被分为“路线”、“铁路”和“道路”等组。
构建本体是一项艰巨的任务,它扩展到了数万个类别,包含了数亿个事实。但它所提供的结构可以对新信息进行分类,就像将衣物分类到各个抽屉一样。
知识图谱从分类学的角度对关系进行编码:道格拉斯冷杉是针叶树的一种,针叶树是植物的一种,等等。但除了简单地表示两个实体之间存在联系外,该系统还描述了每个联系的性质:大本钟位于英国,法国人埃马纽埃尔·马克龙是法国现任总统。
这意味着,True Knowledge有效地学习了一些关于世界的常识规则,尽管这些规则对人类来说是显而易见的,但通常是计算机所无法企及的:某地标建筑只存在于一地,而法国只能有一位现任总统。
最令滕斯托尔-佩多感到兴奋的是,True Knowledge能够处理那些并未事先明确答案的问题。想象一下,如果有人问:“蝙蝠是鸟吗?”因为本体将蝙蝠归入“哺乳动物”之下的一个子类,而鸟类则位于其他地方,所以该系统可以正确地推断出蝙蝠不是鸟类。
True Knowledge越来越聪明,在投资者面前,滕斯托尔-佩多常常对竞争者嗤之以鼻。例如,他可能会在Google搜索:“麦当娜是单身吗?(Is Madonna single?)”搜索引擎返回了“未发布的麦当娜单曲”的链接(single也有单曲的含义),显然,Google对问题的理解非常肤浅。
与此同时,True Knowledge从问题的表述方式得知,“single”作形容词,而非名词,其定义为“没有恋爱关系”。所以,当系统发现麦当娜和盖·里奇(当时)这两个名字以“结婚”一词联系,就给出了更有帮助的回答:“不,麦当娜不是单身。”
投资者对此很满意,于是在2008年启动投资。True Knowledge的规模扩大至约30名员工,他们搬到了剑桥一个更大的办公室。
然而,这项技术一开始并没有受到消费者的欢迎,部分原因是它的用户界面像是“一个丑孩子”。
因此,他重新推出了设计简洁的True Knowledge智能手机App,可以在iPhone和Android设备上使用。它有一个单眼笑脸的可爱标识,以及一个朗朗上口的新名字,Evi。最重要的是,你可以把你的问题讲给Evi听,然后听取它们的回答。
2012年1月,就在Apple发布Siri语音助手后的几个月,Evi首次亮相,并迅速成为Apple应用商店榜单第一名,下载量超过50万次。Apple显然被《Evi:Siri的新死敌》之类的标题激怒了,一度威胁要撤掉这款App。
许多人都向滕斯托尔-佩多表达了收购意图。经过一系列会谈,True Knowledge同意被收购。
大部分人都能保住工作,留在剑桥,而滕斯托尔-佩多则将成为一个尚未发布的语音计算设备产品团队的高级成员。2014年,这款设备问世,它问题回答的能力因Evi而大大增强。
收购True Knowledge的买家是Amazon,而这款设备就是Echo。
滕斯托尔-佩多还在剑桥大学学习编程的时候,一次性答案这个概念并不流行。但当Echo出现之后,情况就不一样了。在语音计算时代,提供单一答案不仅是一个很好的功能,还是必要的功能。
滕斯托尔-佩多表示:“你无法通过语音提供10条蓝色链接,这是一种糟糕的用户体验。”
当世界上最大的那些科技公司逐渐醒悟,它们纷纷开始追溯True Knowledge当年的脚步。
2010年,Google收购了Metaweb,这是一家创建Freebase本体的初创公司。两年后,该公司推出其知识图谱,号称拥有35亿个事实。同年,Microsoft推出了后来被称为“概念图”的产品,它包含了500万个实体。
2017年,Facebook、Amazon和Apple都各自收购了知识图谱制作公司。许多研究人员已经开始设计自主系统,这些系统在网络上搜寻答案,以比人类更快的速度为本体添加事实。
各大公司的紧锣密鼓是有道理的。市场分析师估计,到2020年,多达一半的互联网搜索将是用语音完成的。如今,即使是屏幕搜索领域的那些“老图书管理员”也在悄悄地转向这种“神谕”模式。
在Google搜索引擎的桌面版和移动版中,Google一直在稳步提升其提供一次性回答的精准度和普及率,它们的地位高于其他搜索结果。假如你搜索“宇宙中最稀有的元素是什么?”查询框下面就会显示答案:“放射性元素——砹。”
根据营销机构Stone Temple的数据,2015年7月,Google为超过三分之一的搜索结果显示了即时答案,而18个月后,超过一半的搜索都是如此。
这种向单一答案的转变很缓慢,因而掩盖了它最严重的后果:互联网的终结。传统的搜索页面正在为新的交流式的页面让步,繁琐的网页和链接逐渐被话痨的AI所取代,而AI在新的搜索方式中享有至高无上的统治地位。
据说,这样搜索会更方便、更有效率。但对传统网页的利益相关者来说,情况变得危急起来。这些利益相关者包括商家、广告商、网络作家、网络出版商和科技巨头。对线上经济来说,关注度比什么都重要。
公司想要人们的关注,想要人们看到他们发布的广告。互联网刚出现的时候,公司就开始研究如何利用搜索引擎优化功能(SEO)。
为了使公司的页面出现在搜索结果更靠前的地方,他们会想尽办法调整网页上的关键词和其他内容。为了确保一个靠前的位置,公司有时会直接付钱给搜索引擎公司,购买悬浮在搜索结果上方或旁边的广告。
还只有桌面搜索的时候,公司绞尽脑汁挤进搜索结果的前十个链接,因为人们一般不会再往下看了。而到了手机时代,范围缩减到了前五个链接。
语音搜索出现后,公司面临着更严峻的挑战。他们都想占据最佳位置——成为那个唯一的答案,凌驾于其他结果之上。这个位置非常重要,因为这个答案会被AI直接念出来。
格雷格·哈吉斯是市场营销机构RAIN的副总裁,这个机构向公司提供交流式AI战略方面的咨询服务。根据哈吉斯的说法,通常AI只会念出这一个答案。他指出:“如果你不想几年后消失在人们的视野里,那就必须确保你的网站进行了针对语音搜索的优化。”
假如你开了一家寿司店,周围有很多竞争对手。当用户用语音搜索系统询问附近有什么好的寿司店的时候,如果你的店不是AI通常会选择的那家,你的麻烦就大了。
当然,就如在网页上下滑动搜索结果那样,用户在听到AI的回答后,也可能会说:“这家店听起来不怎么样,附近还有什么别的店吗?”不过这有点麻烦,人们通常会尽量避免麻烦。
进入最佳地位所需的战略与传统的SEO完全不同。如今,在网站中放入正确的关键词已经不那么重要了。
现在的SEO专家首先会研究用户会问的问题,例如:“有哪些牌子的混合动力汽车比较好?”再把这些问题连同精确的答案一起嵌入网站中。这样做是为了在公司的网站中提供AI可以直接提取并读出来的内容。
目前还没有付费以出现在语音搜索结果中的服务,但这种服务必然会出现。到那时,网络广告行业将会发生翻天覆地的变化。由于语音搜索一次只出现一个结果,广告商失去了很多投放广告的地方。
杰瑞德·巴尔斯基是线上营销机构360i的现任CEO,他在2017年告诉Adweek:“一场争夺广告位的战争即将出现,广告位的费用理论上会大大提升,因为公司投放广告的意愿没有减少,但广告位变少了很多。”
这一现象在零售行业可能尤为突出,对Amazon这样的公司来说,搜索引擎的背后是随时准备购买商品的顾客,因此是否能成为AI的首选至关重要。这就像攀登珠穆朗玛峰,要么成功登顶,要么死在半路上。
如果你的产品不是混合动力汽车,也不是辣金枪鱼寿司,而是知识,情况又会是什么样的呢?
网络出版商对现状已经很不满了。他们现在很大程度上依靠着科技巨头带来的流量,因此也要付这些公司许多广告费用。根据数据分析公司Parse.ly的研究,线上出版商的流量一半都是Google搜索带来的,还有四分之一来源于用户在Facebook上分享的链接。
语音搜索会进一步限制网络出版商的流量。
举例来说,我是Oregon Ducks篮球队的粉丝。过去每场比赛的第二天,我都会上ESPN网站查看比赛结果。我可能还会点进一两篇文章,给网站增加一点广告收入。如果我心情好,说不定还会点击订阅。
但是现在我只需要问我的手机:“昨天谁赢了?”就能得到答案,ESPN也就再也得不到我的流量了。
不管你在不在乎ESPN失去流量,问题在于类似的情况会发生在大大小小的内容生产商身上。
拿布莱恩·沃纳的经历来说,他创建了一个叫做Celebrity Net Worth的网站。只要输入名人的名字,这个网站就会告诉你他们的身价。如果在网站上输入Jay-Z的名字,你就会发现他的身价为9.3亿美元。
沃纳说,在他明确拒绝了Google访问他数据库的要求后,这个搜索引擎巨头开始从他的网站中获取答案。在此之后,Celebrity Net Worth网站的流量降至原来的20%,导致他不得不裁去了一半的员工。
他问道:“还有多少网站和公司成为了Google的牺牲品?”
Google发言人拒绝直接对沃纳的言论发表看法,但她指出,网站管理员可以使用Google的开发工具从而防止他们网站的内容出现在Google的精选摘要上。
AI从网站中提取内容的时候,有时也会附上来源。他们可能会在语音中提到,或者在有屏幕的设备中显示来源。但是简单地提及来源并不能给网站带来收益,线上出版商需要的是流量,而传统的语音搜索很难带来流量。
Google 和Amazon针对这个问题提供的解决方法很粗糙:用户可以在Home或Echo的辅助应用中找到搜索结果,点击链接,访问网站。
用户确实可以这样做,但既然她已经得到答案了,又何必如此大费周章呢?艾什·伊兰是一名网页流量专家,也是Dynamic Search公司的CEO。正如他在2013年的一篇博客中提到的,语音搜索提供的这种简单明了的答案使局面完全倒向了Google。
“网站希望通过SEO和有趣的内容来提升自己在搜索界面的排名,”他写道,“语音搜索让用户直接就能获得答案,我们失去了给用户留下印象的机会,这是我们不愿看到的。”
在滕斯托尔-佩多着手开发True Knowledge 的时候,他注意到Google的一些员工对提供单一的搜索结果并不热衷。尽管如此,公司的高层明确指出建立问答系统是公司的长期目标。
在2005年的一次访谈中,埃里克·施密特问大家:“你们使用Google搜索时是不是每次都会得到不止一个答案?这是一个缺陷,我们应该一次性就给出正确的答案。”这是他离任CEO职位十多年前的事情了。
多年来,技术上的困难阻碍了这一目标的实现。这是有好处的。《通讯规范法案》第230条规定,网络中间商不必对他人上传的内容负责。这部法案颁布于1996年,用于管理与网络言论自由相关的事项。
只要Google还是信息的管道,而不是信息的创造者——一个中立的图书管理员,而不是全知全能的先知——它就能规避大量法律和道德的责任。
滕斯托尔-佩多说:“传统搜索方式的一个好处是,Google不需要判断这些内容的真假。”
然而在语音时代,Google公司的“信使无罪”的定位越来越难以被人接受。如果你点进一个链接,打开的是一篇《旧金山纪事报》的文章,Google显然不用对文章的内容负责。
但如果Google Assistant回答了你的问题,责任的界限就变得模糊了。即使答案来自于第三方,你仍然会感觉是Google回答了这个问题。通过这种方式,提供语音搜索服务的公司获得了裁定对错的权利。它们开始主宰人们的认识。
丹尼·沙利文是负责Google搜索的一名公关,他2018年在一篇关于Google精选摘要的博客中提到了这种方式会带来的问题。他说,直到最近,如果在Google搜索“罗马人在晚上怎么分辨时间?”,都会出现一个简单可笑的答案:日晷。
这是一个不会带来严重后果的错误,他也保证Google会努力确保这样的错误不再发生。但是不难想象,类似的错误回答可能会带来更严重的后果,尤其是现在越来越多的美国人开始使用语言搜索,把AI给出的答案当作不会出错的神谕。
过去的一些例子包括:巴拉克·奥巴马即将颁布戒严令、伍德罗·威尔逊(美国第28任总统)曾是3K党成员、味精会造成脑损伤、女人是邪恶的。
Google很快主动修正了这些令人啼笑皆非的错误,并解释说这些答案不是由Google编写的,而是AI自动从一些不可靠的网站中提取出来的。
允许人们查看信息的来源,一定程度上可以防止错误信息的泛滥。但是很难想象Home或者Echo的用户会愿意频繁登录辅助软件,查看信息来源,这对他们来说太麻烦了。这与语音搜索强调的方便快捷的理念恰恰相反。
语音回答中直接提到的信息来源又太模糊了。用户可能会被告知答案来自于Yahoo或者Wolfram Alpha,这相当于在说“我们公司从别的科技公司获取了这则信息”。用户无法得知信息的作者和出处,也无法得知这个结论的推导过程。
如果信息来源于公司内部的知识图谱或是其他内部资源,语音回答中的来源就更模糊了:“我们从公司内部获得了这个信息,相信我们。”
提供单一答案的言下之意是:在这个世界上,事实都是简单绝对的。很多问题确实都只有一个正确答案:地球是圆的吗?印度有多少人?但其他的问题都可以有许多不同的正确答案。这就使语音问答处在了尴尬的境地。
意识到这一点后,Microsoft的智能助理Cortana有时会对同一个问题给出两个相反的答案。Google也在考虑采取相似的应对措施。不管这些公司想不想扮演“事实核查员”的角色,他们都已经没有退路了。
语音时代,大型科技公司掌控着信息的传播。人们开始担忧是否会出现奥威尔作品中的那种知识控制。在政府严格监管互联网的国家,这不仅仅是一种理论上的担忧。
在民主国家,更紧迫的问题是,大公司是否会为了自己的利益而操纵信息、篡改事实?控制了知识就是控制了权力。现如今,少量的公司操控着海量的信息流,从而获得了至高的统治地位,这是过去从来没有过的局面。
我们这些普通人则可能失去监督这些公司所需要的能力。一旦习惯了这些便捷的工具,我们可能就会失去好奇心和深入思考的能力,我们可能不会再主动追求真理,而指望真理自动出现在我们面前。如果水会从水龙头里自动流出来,为什么还要费劲从井里打水呢?
滕斯托尔-佩多在2016年离开了Amazon,因为他意识到语音问答可能会带来新的风险,并且会加重现存的风险。但他有一种典型的工程师思维:科技造成的问题可以由更先进的科技解决,例如能够识别出错误信息的AI。
如果语音搜索系统有一天能产生剑桥大学图书馆那样的过时感,那他可能会产生一种怀旧的感觉,但这种感觉是有限度的。“我可能会怀念在Amazon工作的时光,”他说,“除非有必要,不然我是不会回去的。”