独家译文丨与菲利普·泰洛克对话:如何提升我们的预测能力

首发于:超级预测

内容主要由泰洛克于2015年接受scientificamerican网站采访的相关稿件整理而成

​原创翻译稿件,欢迎交流转载(转载请注明

500

菲利普·泰洛克(Philip Tetlock)

加拿大裔美国政治学家,目前是宾夕法尼亚大学安纳伯格大学教授,曾在沃顿商学院任教,是《超预测 :预见未来的艺术和科学》以及《狐狸与刺猬:专家的政治判断》的作者 。2011年,菲利普与芭芭拉·米勒(Barbara Mellers)合作推出了“精准预测项目(The Good Judgment Project)”,该项目在于确定是否有些人天生比其他人更擅长预测,以及这一预测的准确性能否通过训练来提高。 

500

泰洛克通过举办“预测锦标赛”来测试人们对复杂事件的预测能力。在他看来,这样的研究可以“加深我们对如何生成现实的概率估计的理解,从而降低导致2003年伊拉克战争的灾难性情报错误的可能性。”

我一直在努力研究社会科学,甚至认为“社会科学”是一种自相矛盾的说法。然而我意识到,社会科学具有巨大的潜力,尤其是当它把“严格的经验主义和对绝对答案的抵制”结合起来的时候。 

泰洛克的工作便具有这样的品质,它解决了一个基本问题:社会事件的可预测性如何?他早期的研究评估了专家预测选举、经济崩溃和战争等事件的能力,并强调这一预测的困难性。例如,请看我如何在一篇专栏文章中引用他的观点,进而讨论公众是否应该听从专家们的判断。 

泰洛克与记者丹·加德纳(Dan Gardner)合著的新书《超预测:预见未来的艺术和科学》则乐观得多。这本书已经收到了来自《经济学人》、《华尔街日报》、前财政部长罗伯特·鲁宾(Robert Rubin)、心理学家史蒂文·平克(Steven Pinker)以及诺贝尔奖得主丹尼尔·卡尼曼(Daniel Kahneman)等人的好评。 


采访者:你在2005年的《狐狸与刺猬:专家的政治判断》一书中展示了预测社会现象有多么困难,你也因此而闻名。然而,你的新书却对准确预测的可能性变得更为乐观了。你要收回自己在第一本书里面说过的某些话吗? 

泰洛克:不需要。在我看来,这些矛盾与其说是“真实存在”的,不如说是“显而易见”的。存在两大地缘政治预测数据集,其中一个与《专家的政治判断》有关,总结了1985年至2002年的预测数据;另一个与GJP (Good Judgment Project,“精准预测项目”)有关,是在2011年至2015年进行的IARPA(Intelligence Advanced Research Projects Activity,高级情报研究计划署)预测锦标赛。  

当然,它们有重要的相似之处。两场预测锦标赛都提出了有关可能的未来的问题,这些问题都得到了详细的说明,足以通过“千里眼”的测试。它们都要求预测者依照概率进行判断。 

但它们之间也存在着巨大的差异。这些差异解释了不同的结果,以及阐释的重点。维尔纳·海森堡(Werner Heisenberg,德国物理学家,量子力学创始人之一)说过:“我们了解自然,是因为它成为了我们的问题。”无论如何,这条真理在预测锦标赛中肯定是正确的。

所有这些差异的累积效应是:预测者在后期项目中比在前期项目中有更多的机会和动机脱颖而出。

思索一下这些不同之处:

第一:早期项目中最短的问题(需要预测者们关注一年左右)比后期项目中最长的问题要长(绝大多数的问题需要预测者们关注数月,但不到一年); 

第二:早期项目中的预测者们希望匿名,而后期项目的预测者们则希望自己出现在排行榜上,并得到认可;

第三:早期项目的预测者们很少有机会更新他们的观念,而后期项目的预测们者则被被强烈鼓励尽可能多地更新他们的概率估计,只要他们觉得消息是有根据的。

换句话说,IARPA预测锦标赛更公开的竞争性质迫使人们比平时更为开放、更为狡猾(比EPJ锦标赛的人更为狡猾),因为它们拔高了由闭塞思想带来的声誉性风险。 

我想,这就是为什么那些既读过《专家的政治判断》,又读过《超预测》的人,会认为后者更为乐观:比起诅咒黑暗,更多地是在点燃蜡烛。这大概是一个相当公平的评估。在内心深处,我认为这两本书是互补而非矛盾的。 

500

采访者:你已经发现,某些人拥有使他们成为“超级预测者”的特质,他们在预测社会事件方面比普通人出色得多。这些特征可以被自动化或者说,被量化吗?

泰洛克:我们在书中描述了一次与WATSON的创造者大卫·费鲁奇(David Ferrucci)讨论这个问题的机会。他同意这个看法,例如,WATSON可以毫不费力地回答这样一个问题:“在过去的五年里,哪两位俄罗斯领导人互换了工作?”但费鲁奇指出,要回答“这两位俄罗斯领导人会在未来五年里再次交换工作吗?”这样的问题就完全是另一回事了。超级预测者们会发现第二个问题相当简单,但当今地球上却没有任何人工智能系统能够以令人信服的方式在这个问题上发表意见。为什么第二个问题比第一个困难得多?因为回答第二个问题需要一个复杂的因果模型来解释俄罗斯的政治体系、涉及的人物以及他们可能面临的不断演变的威胁和机遇。这不仅仅是去扫描一个庞大的数据库,然后对最可信的贝叶斯式的估算答案进行三角测量的问题——我在“不仅仅”上面加上了一个庞大的引号,因为我不想贬低WATSON的非凡成就。 

(注:WASTON是能够使用自然语言来回答问题的人工智能系统,由IBM公司的首席研究员费鲁奇所领导的DeepQA计划小组开发,它的名字来自该公司的创始人托马斯·沃森。2011年,WATSON通过参加综艺节目《危险边缘》来测试它其性能,这也是该节目有史以来第一次让人与机器进行对决)

500

采访者:你是否相信大数据的力量能够彻底改变社会科学?社会科学会像物理学那般精确和严谨吗? 

泰洛克:我不确定“革命性”的社会科学能否实现,但是大数据显然可以回答以前无法回答的许多问题。我们现在拥有数量可观的人际关系(例如Facebook)的数据库、搜索行为(例如Google)的数据库以及消费行为(似乎无处不在)的数据库。再说了,公司经常对我们所有人做的一些事情,会被大学的人类研究对象审查委员归类为不道德的行为。这要么是大学审查委员会过于敏感,要么是大数据公司过于麻木。我觉得是两者兼而有之。 

500

采访者:正如马克思对历史的影响所证明的那样,社会理论和预测可以对社会产生巨大的影响。这种反馈因素是否增加了社会预测的难度?又是否可以构建将此因素考虑在内的模型? 

泰洛克:我同意“自我实现预言”和“自我否定预言”确实“增加了社会预测的难度”。这些影响很难测量和建模,但并非不可能。例如,在最近的预测锦标赛中,提出的许多问题都是以这种形式出现的条件型预测:如果美国政府(或其他实体)做了X或Y,那么结果Z的可能性有多大?当然,只有沿着条件的一个分支(决策实体所包含的选项)才有可能去评估预测的实证准确性。另一个分支成为反事实历史的一部分(我们从未有机会去观察,假如我们选择了另一条路会发生些什么)。 

(注:“自我实现预言”:因为你相信它会成真,所以它成真了;“自我否定预言”:有些事一旦你相信它是真的,或是期望它发生,它便不会发生或更不可能发生)

然而,有人可能会说,预测锦标赛确实会间接地揭示出一些关于反事实历史判断的准确性。毕竟,你更相信谁对可能发生事情的判断呢?是那些在现实生活中准确的人?还是那些不准确的人? 

有些读者还会想知道,为什么我们需要去关心如何构建间接指标,以确定谁更有可能在反事实世界中得到更为正确的判断。然而,事实证明,我们对这些反事实世界中发生事情所做出的假设,构成了我们从历史中吸取所有因果教训的基础。如果你认为2003年的伊拉克战争是一个错误,那就意味着你相信,在美国没有发动那次入侵、萨达姆·侯赛因(Saddam Hussein)也许仍然掌权的反事实世界里,事情本可以变得更好。不要忘了:即使你的反事实信念被广泛认同,它仍然是一个反事实的信念,而不是一个事实。 


采访者:我进行了十几年的调查显示,90%的美国人相信战争永远无法被根除。我担心这种悲观的信念会自我实现。你能对这种特定的可能性和更普遍的自我实现预言问题发表下评论吗?

500

泰洛克:这个问题对我来说太大了,但我还是要大胆地说几句。对“国家”的经典定义是,一个组织声称对某一特定领土上的武力使用享有垄断权。只要世界被划分为竞争性的民族国家,而每个民族国家都声称自己便是法律;只要国际体系是“无政府主义”的(没有一个世界性政府拥有有效的执行权力),就有可能发生战争。但拥有核武器的国家,对于哪怕只是威胁要使用核武器的行为也持有非常谨慎的态度,这让我内心的乐观主义者为之振奋(迄今为止,就连朝鲜也只是在叫唤,并没有真的去咬人)。有趣的是,成熟的民主国家很少互相争斗。 

我给出了一个相当啰嗦的回答。这个问题,我不知道。我认为这个星球上没人知道。 

采访者:你在《超预测:预见未来的艺术和科学》一书中描述的研究是由国防部资助的。你对接受军事资金有什么顾虑吗?更普遍地来说,你是否关注美国研究人员对军事资金的依赖性这一问题? 

泰洛克:IARPA(Intelligence Advanced Research Projects Activity,高级情报研究计划署)没有限制我们发布信息的权限,项目也没有涉及到机密信息。在这个意义上来说,即便我们得到的是国家科学基金会(National Science Foundation)的支持,我们得到的也是相同程度的自由。顺便说一句,高级情报研究计划署是美国情报机构的一部分,而不是军队的一部分。但问题的关键不在此处。 

我很难想象国家科学基金会决定赞助像预测锦标赛这样跨学科的项目(它跨越了国家科学基金会的几个领域:判断和决策、社会心理学和个体差异心理学、统计学、经济学、政治学等)。 

我的看法是,预测锦标赛加深了我们对如何形成实际的概率估算的理解,从而降低导致2003年伊拉克战争那种灾难性情报失误的可能性(情报机构对这一可能性的评估过于自信:在伊拉克找到生产大规模杀伤性武器的积极计划,而这一点在著名的“灌篮”言论中得到了最生动的体现)。只要我们的研究能降低未来发生此类错误的可能性,它就能轻而易举地通过我的成本效益测试(注:cost-benefit test,或cost-benefit analysis,成本效益测试是一种系统方法,用于评估满足企业交易替代方案的优势和劣势,成本效益测试用于确定选项,这些选项为人工,时间和成本等方面的利益提供最佳的实践方法,它同样也被定义为计算和比较利益与成本的系统性过程)。 

500

采访者:你相信自由意志吗?原因何在?你的信念或怀疑对你的科学有什么影响吗? 

泰洛克:这个问题有些超出我的能力范围之外。如果自由意志是一种幻觉(我们有充分的理由假设这一点),那么它真是个令人信服的幻觉——而且在现有的社会秩序中发挥着关键的作用(道德责任和问责制的重要基础)。 


采访者:心理学和社会科学最近遭受了挫折,因为许多广为人知的说法被证明是夸大或虚假的。这些领域可以做些什么来恢复它们的声誉? 

泰洛克:预测比赛完全透明:资助机构每天在美国东部时间的上午9点收集所有提交的数据。没有造假的余地,比如声称你的概率估算比描述的更准确。我推荐这种调研模式。 

更普遍地说,我认为“开放科学”这一项目的成果朝着恢复声誉的方向迈出了良好的一步。还应该指出,我是上个月发表在《行为与脑科学》(Behavioral and Brain Sciences)杂志上一篇文章的合著者,这篇文章为社会心理学和社会科学提供了更为多样化的思想形态(这是一个制衡的论证)。但这是一个长线问题,需要很长的时间去进行梳理。 

(注:“开放科学”是一项运动,它的目的在于使科学研究及其传播能够被全方位地接受)


采访者:你对那些试图预测化石燃料的消耗对人类福祉影响的研究人员和官员们有什么建议吗? 

泰洛克:保持谦逊。 

采访者:你认为自己对人类的前景是乐观的,还是悲观的? 

泰洛克:我会使用超预测中的术语:一个谨慎的乐观主义者。 

站务

最近更新的专栏

全部专栏