反教科书观点:假说是科学探索中的负担
科学研究的常规流程是先提出问题,做出假设,再进行验证,这正是日间科学的范式。然而,在本文作者看来,这一模式有自己的不足——假说可能会成为一种负担(或累赘)。他们通过自己设计的大猩猩实验及自身科研经验提出,过于专注特定假设会使研究者忽略数据中潜藏的内容,甚至可能导致过早放弃数据。夜间科学则克服了这一不足,更自由和开放地探索,能帮助研究者发现意料之外的线索。日间科学与夜间科学两者相互弥补,坚持探索,方能发现新的可能。过往系列文章见《夜间科学》。
这篇文章发表后引发了学界讨论。几位杰出科学家撰文反驳了这篇文章的主要观点,而本文的两位作者又刊文辩驳,并再次迎来另一方的回击。针对科学假说的概念和作用,两方交锋两个回合。《返朴》将后续刊文介绍双方主要论点。
撰文 | Itai Yanai、Martin Lercher
翻译 | Kestrel
“悉达多说,‘当一个人在寻觅时,容易出现的情况是,他的眼里只看得见他所寻求的东西,所以他发现不了其他任何事物,结果一无所得。[…] 寻觅的意思是:有一个目标。而发现意味着:自由,开放,漫无目的。’”
——赫尔曼·黑塞(Hermann Hesse)
提出一个假说(或假设,hypothesis),有其隐藏成本。它源于夜间科学和日间科学之间的关系,这是对科学观念产生和验证所采取的两种非常不同的模式。手握假说时,日间科学的强大力量得以释放,引导我们设计验证性实验,估计参数,而当假说无法解释实验结果时,我们便将之丢弃。分析一个实验的结果时,我们的精神聚焦于某个特定的假说,但这可能会妨碍我们去探索数据的其他特征,进而使我们错失新的思想。对于任意的夜间科学探索,假说反而成为了一种负担(或累赘)(译者注:文章原文为liability,本文根据语境翻译为麻烦、障碍和不利因素等)。在假设驱动的研究中,我们主动给创造力强加上了相应的限制,这在现代生物数据集的背景下尤为值得关切,因为这些数据集往往规模海量,很可能蕴藏着多个独特且激动人心的新发现。然而,夜间科学也有其自身的麻烦,就是会产生许多站不住脚的关系和子虚乌有的假说。幸运的是,它们能够在日间科学的光芒下显露无遗,这也凸显了两种模式的互补性——它们彼此能够克服对方的不足。
大猩猩实验
许多人记得那个著名的关于选择性注意力的实验,其中被试要观看一段学生们互相传递篮球的视频。如果你没看过,建议先看看再继续读这篇文章。【前往“返朴”公众号观看视频】
在观看两队行动的时候,你的任务是数白队队员传球的次数。整个过程到一半时,一个扮成大猩猩样子的人会进入视野中,并在队员中间停下来,用拳头捶打胸膛,然后从镜头画面另一侧离开。令人惊讶的是,有一半的被试完全没有注意到大猩猩,因为他们专注于数传球次数,而如果在没有任务的情况下观看视频,不太会有人忽视这个大猩猩。
我们就琢磨,会不会在我们分析数据集的时候也有类似的情况。我们大脑专注于特定的假设,是否会阻碍我们发现新东西?为了验证这一点,我们虚构了一个数据集,然后让学生去分析。数据集包含1786个人的身体质量指数(Body mass index,BMI)与每个人在某一天中所走的步数,被分为两份文件,男女各一份(图1a)。学生则被分成两组。我们让第一组的学生考虑三个特定假设:(i)男性和女性的平均步数存在统计显著性差异;(ii)女性的步数和BMI之间呈负相关;(iii)男性的步数和BMI之间呈正相关。此外,我们还问了他们是否有任何其他能够从数据集中得到的结论。而在“没有假设”的第二组中,我们只问了一个问题:你们能够从数据集中得到什么结论?
数据集中最值得一提的“发现”就是,如果你只是简单地用步数对BMI作图,你会看到一只大猩猩向你招手的图像(图1b)。虽然我们会教授学生数据可视化的优点,但回答特定假设驱动的问题并不要求对数据作图。结果我们发现,受特定假设驱动的学生往往跳过了这个简单的步骤,直接向着数据更广阔的方面探索。事实上,总体而言,在分析这个数据集时,“没有假设”的学生发现大猩猩的概率几乎比“有特定假设”的学生高五倍(OR=4.8,P=0.034,N=33,Fisher精确检验;图1c)。至少在这个设定下,假设确实成为显著的不利因素。
图1a 两组学生需分析的人工的数据集,并给其中一组关于BMI与某一天走的步数的显性假设,另一组没有。b该数据集的作图。c两组学生中是否发现大猩猩的列联表(“专注假设”,“没有假设”)。
空游非皆无所依
我们获取数据时,通常带着检验特定假说的明确目的。但正如大猩猩实验所揭示的,我们一旦处于一种假说检验的思想模式,我们就很可能错失其他有趣的现象。针对这一点,我们必须有意识地采取另一种观念模式——一种探索性的模式,从尽可能多的视角去观察数据。在这种模式下,我们以近乎玩味的态度对待数据,将各种元素交叉比对。我们化身探险家,从一个方向启程绘制数据地图,在十字路口转弯,然后跌跌撞撞走进未曾预料的区域。
本质上,夜间科学是一种鼓励我们探索和猜想的态度。我们探问:什么东西可能藏在这里?要如何把它引诱出来?夜间科学可能发生在我们最放松的时候,譬如1862年的某个夜晚,弗里德里希·凯库勒(Friedrich Kekulé)在书房凝视壁炉火光时陷入梦境,直到脑海中浮现出分子之蛇自噬其尾的画面时,他瞬间将这个意象转化为苯环结构的假说。然而,更多时候,夜间科学可能要求精神活动的最敏锐状态:我们不但需要做出前所未有的关联,还必须同时将其与已有的复杂图景进行精心比对。要发现我们实验中的大猩猩,只需要一些灵长类动物外观的概念。但当你在科学认知的边界上漫游时,你需要对一个领域有深刻见解,才能识别出某种模式(pattern),或者意识到其不同寻常之处。不同的科学家观察同一个给定的数据集时,会按其略微不同的知识背景和预期来研究,这就可能凸显不同的模式。毕竟,“看”(looking)与“看到”(seeing)是不一样的,这或许就是为什么我们中有些人能够在已被他人分析过的数据上偶然得到新发现的原因。
不要脑补
“相关性不等于因果性”——或许是所有科研工作者在其职业生涯中都会至少听过一遍的箴言,它警示人们不要过分看重两个变量间的单纯共变关系(covariation)。诚然,两个特征之间的相关性不足以推导出因果关系,但因果关系会蕴含某种形式的共变,因此,找到前所未见的相关性可能是对新发现的最初一瞥。我们可以将探索数据视为相关性和模式的“发生器”,此后可以验证是否存在因果性。
人类智能的主要推动力之一,是我们的头脑易于发现模式和关联的能力——迈克尔·舍默【Michael Shermer;译者注:科学作家,《怀疑论者杂志》(Skeptic magazine)创始发行人、主编】将这种倾向称为模式感知(patternicity)。模式感知有助于我们产生新的夜间科学思想;它是许多发现的种子。但另一方面,模式感知让我们容易被随机性愚弄,即从完全独立的事物间错误地推断出关联【这种现象也被称为幻想性错觉(apophenia);译者注:现在很多人译为“脑补”】。显然,不受引导的探索会产生站不住脚的结果,而那些错误的开端的产生正是夜间科学自身的问题。
日间科学则能缓解这种负担。从某种意义上说,相关性是夜间科学的领域,而因果性藉由日间科学巩固。日间科学是挑大梁的人,他来严格地验证假说。尽管日间科学十分强大,但它的模式并不适合于一开始产生新思想的阶段。只有在夜间科学的国土,这里没有遮蔽我们视线的日间科学的特定假说,因而我们能够以探索性的方式自由思考。科学在白天与黑夜的反复交替中前行,两者互相克服对方的不足;我们之所以能在夜间科学里自由探索,因为我们相信自己后面能在日间科学中检验所产生的假说。
捕鱼式取证
在许多科研圈子中,对研究项目最严厉的批评莫过于将其贬为“捕鱼式取证”(fishing expedition;译者注:在法律术语中,“捕鱼式取证”指一方试图通过广泛而模糊的质询获取信息的行为,通常缺乏具体证据或依据):指连一个像样子的假说都没有的数据探索。但正如我们上文所主张的,这样专注于假说的批评忽视了一个关键点。科学发现不仅是意料之外的,没有数据它们也不可能被发现。如果一个数据集被精心设计,富含某个特定领域相关的信息,那么最初没有假说的夜间科学探索就是一种系统产生假说的方式,这种方式不但强大,而且在我们看来,也是美丽的。
我们读到过的许多发现出自原先被设计成“捕鱼式取证”形式的项目,或者一开始有一个假说,但是不得不抛弃而变成了一个这样的项目。但我们很少听到这类研究的历史细节,因为讲一个关于合乎逻辑的假说,之后被严格的日间科学验证,构成了一个更好的故事,也是期刊编辑和审稿人更爱读的故事。我们可以从许多杰出同行研究的传闻中知晓一二,但最深刻的体会来自我们自己发表的文章。例如,Tin Pang组装了一个大肠杆菌(E. coli)谱系进化支(clade)基因型和表现型关联的数据集,为我们的假说寻找进一步支持,即细菌通过逐步的生态位扩张进行演化。但在分析数据过程中,我们发现了更有趣的事情:在大肠杆菌演化历史中,有超过3000个可探测到的代谢创新(metabolic innovation,译者注:指生物进化过程中,通过基因突变、水平基因转移、基因重复或代谢通路重组等方式,产生出全新的代谢能力或优化现有代谢过程的进化事件),但没有一个需要多于一次的水平基因转移【horizontal gene transfer;译者注:指基因在同一代或不同代之间的直接转移,不依赖繁殖关系,可以跨物种(更多发生在微生物之间);繁殖传代的基因转移称为垂直基因转移】!
另一个项目,由当时仍是研究生的Michael Levin主导,涉及收集5个线虫物种胚胎发生期间的基因表达数据集并组装,最初的想法是它可能揭示基因调控网络。然而分析这个数据集的过程中,我们发现了一个特别的发育阶段,推测它是线虫的门特征阶段(phylotypic stage,译者注:物种个体发育过程中反映其演化历史中跨过“门”这一分类阶元特征的阶段)。
坚持探索,继续坚持
在数十年的探索性数据分析中,我们学到的一点是:不要放弃数据集。如果它不支持你原先的假说,那么它可能包含对其他可能性的暗示,甚至可能是更有意思的现象。如果数据支持你原先的假说,也要继续探索下去。如果数据集已被设计和组装得很好,获得额外的发现是很有可能的。它们不会在你看第一眼的时候就能够被识别出来,而是需要花时间慢慢展现。一个未被充分意识到的事实是,一个人永远无法真正“完成”对一个数据集的分析。你只是在某个时间节点决定停下来,转向别处,留下了一些没发现的内容。由于夜间科学要求一种高度创造性的状态,这并不令人惊讶,恰好映照了诗人保罗·瓦勒里(Paul Valéry)在1933年所描述的艺术中的处境——“作品永无完成之日,唯有放弃之时(un ouvrage n’est jamais achevé . . . mais abandonné) ”。
基于本文的前提,我们当然需要超越原先的假说,即“假说可能阻止发现”,所以我们进一步探索了大猩猩实验数据集。我们的确发现了其他可能性的暗示:假说也可能让你过早地放弃数据。那些有假设要去验证的学生们,不去尝试(作图)或者试了初始的几个步骤就放弃了的可能性,是没有假设要验证的学生的两倍以上。尽管这种差异未达到统计学显著性(OR=2.15,P=0.21,N=44,Fisher精确检验),但这提示我们可以进行进一步的日间科学实验。也许我们可以通过提供更多数据探索和发现的机会,来保持学生对科学的积极性。
总而言之,当处理数据的时候,要保持开放的心态。特别要思考数据集的维度特征,研究不同维度间的变化;研究这些维度上的变化可能反映了什么,然后尝试将其关联到该数据集以外的方面。通过不断追问,还有哪些维度能被整合起来以解释所观察到变化,你便做好了迎接发现的姿态。让你的幻想自由驰骋,想出各种各样的假说,它们可能在数据集中留有蛛丝马迹。有可能大猩猩就藏在那里。
作者简介
Itai Yanai 是纽约大学应用生物信息学实验室科学主任,生物化学与分子药理学系教授,主要研究通过全局基因表达视角研究动态系统,包括肿瘤发生、宿主-病原体相互作用和胚胎发育。
Martin Lercher是德国杜塞尔多夫海因里希・海涅大学计算机科学与生物学系教授,计算细胞生物学研究组负责人。该团队致力于探索细胞系统的分子组织与进化机制,重点研究代谢过程,核心目标是揭示通过自然选择优化复杂系统所形成的设计原理。
Itai Yanai 与 Martin Lercher 合著科普书The Society of Genes,讨论“自私的基因”如何协同作用构建生物体,基因内的竞争与合作关系。两人在《基因组生物学》(Genome Biology)期刊发表“夜间科学”系列文章,即科研背后那些未被广泛关注却令人兴奋的重要探索过程,展现了科学思维中富有创造性的一面,在科研实践哲学的讨论中具有很大影响。
本文基于知识共享许可协议(CC BY 4.0)译自Yanai, I., Lercher, M. A hypothesis is a liability. Genome Biol 21, 231 (2020). https://doi.org/10.1186/s13059-020-02133-w
注:本文封面图片来自版权图库,转载使用可能引发版权纠纷。
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。



返朴官方账号



