科学研究中的自我修养：学会对“显著相关”说“那又怎样”？

返朴
返朴官方账号

科普中国子品牌，倡导“溯源守拙，问学求新”。2小时前

在科研中，我们习惯于从数据中寻找关系，并且常常能得到相关关系。但问题在于，相关分析给出的，往往只是一个起点，而不是答案。从相关到因果之间，隐藏着一整套不那么显眼、却至关重要的前提：是否存在混杂？控制变量是否恰当？即使统计上再“显著”，结论也可能偏离真实机制。科学的推进，往往不在于更复杂的模型，而在于更严格的追问：当我们说一个变量“影响”另一个时，这个判断究竟建立在什么之上？

撰文 | 胡月瑶

从冰淇淋和溺水：混杂如何制造表面相关

在夏天，冰淇淋销量越高，溺水人数也越多。如果只看数据，这两个变量往往会一起上升，甚至呈现明显的正相关。但这种相关本身，并不能说明冰淇淋销量会直接提高溺水风险。更合理的解释通常是，真正同时推动这两件事变化的，是气温。天气越热，人们越想吃冰淇淋，也越可能去游泳、去海边、去接触水域，于是溺水风险也随之上升。这个例子把问题摆得很直接：数据里看到的“有关系”，并不等于“一个导致了另一个”。有时候，两个变量之所以一起变化，并不是因为它们彼此之间存在直接作用，而是因为它们都受第三个因素影响。这个第三个因素，就是所谓的混杂因素。这类“共同原因造成表面相关”的结构，是因果分析最需要警惕的基本情形之一。

在数据分析里，研究者最先看到的，通常不是因果，而是关联。比如，我们会先看两个变量是否“同升同降”，也会进一步用线性模型去刻画这种关系。在线性回归里，常见的写法是：

但问题也恰恰在这里：线性模型和相关分析擅长描述关联，却不自动等于揭示因果。更准确地说，回归系数首先描述的是统计关联，而不是因果效应。它直接回答的是：在当前模型设定下、在统计上考虑了其他纳入模型的变量之后，X 和 Y 呈现怎样的关系；它并不自动等于“如果我真的去改变 X，Y 就会按这个方向和幅度发生变化”。

图1. 冰淇淋销量、气温与溺水风险。高温同时推动冰淇淋消费和人接触水域的机会，因此冰淇淋销量与溺水人数可以呈现显著相关，但这并不意味着二者之间存在直接因果作用。

为什么相关不等于因果

同一个统计关系，背后可能对应完全不同的解释。

有时是 A 导致 B（A→B）。比如，吸烟增加肺癌风险。

有时是 B 导致 A（B→A）。比如，压力大的人睡不好，到底是压力导致失眠，还是长期失眠让人更焦虑、更容易感到压力大？

有时是 A 和 B 都由 C 引起（A←C→B）。冰淇淋销量和溺水人数，就是这种典型的混杂。

还有种情况是，A 和 B 都会影响某个第三变量 C（A→C←B）。如果我们只分析那些“C 发生了”的样本，就可能在 A 和 B 之间看到原本并不存在的关系。这种结构在因果图里叫对撞点，由此带来的偏差常表现为选择偏差。想象一所学校的录取规则是同时看成绩和体育特长，两项可以互相弥补——只要你有一项特别突出，就有机会被录取。在全体考生中，成绩和体育本来没什么关系，有人擅长考试但不爱运动，有人运动健将但成绩平平。但如果你只盯着被录取的人看，就会观察到一种奇特的现象：成绩顶尖的人，体育往往比较一般，因为他的成绩已经足够让他进来，不需要体育帮忙；反过来，体育拔尖的人，成绩也常常不太突出，道理相同。在这里，“被录取”就是一个由成绩和体育共同决定的对撞点。只看这个子样本，就会制造出成绩和体育之间的表面负相关——它们本来无关，但因为共同决定了一个结果，在结果内部反而显得“此消彼长”。

有些系统里，A 和 B 甚至可能彼此反馈。比如经济增长和就业，常常互相影响。再极端一点，有时所谓“显著关系”只是小样本下的偶然巧合，换一批数据就不见了。

所以，“相关不等于因果”并不是一句口号，而是一种更严格的判断方式。它提醒我们：相关告诉我们这里存在统计关联，却不自动告诉我们“谁影响了谁”以及“影响有多大”。更进一步，因果分析还提醒我们，并不是控制的变量越多越好。如果控制的是暴露和结果的共同原因，通常有助于减少混杂偏差；如果控制的是对撞点，反而可能制造出原本不存在的相关性；如果控制的是中介变量，那么在关注总效应时，就可能把一部分真实作用路径人为切断。也就是说，因果分析不是简单地把更多变量塞进回归，而是要先弄清楚这些变量在整体结构中扮演什么角色。

因果分析真正多问了什么

如果说相关研究的是“变量如何一起变化”，那么因果研究真正多问的一步是：如果我主动改变它，结果会不会变？

这一步看起来朴素，却是最困难的地方。因为相关只是在描述我们已经看到的世界，而因果在追问的是：如果条件被改动，结果会不会随之改变。

把这个区别说得很清楚的一种方式，是把因果问题分成三个层次。第一层是观察。这一层关心的是我们从数据里直接看到了什么，比如相关性、条件概率和回归系数。第二层是干预。这一层不再满足于看见模式，而是继续追问：如果我真的去改变一个条件，会发生什么？第三层是反事实。这一层最难，它关心的是已经发生的事情本来是否可能有另一种结果。比如，一个病人后来康复了，我们会追问：如果当时没有接受治疗，他还会康复吗？

这三层常被概括为因果之梯。它真正想表达的意思是：相关主要停留在第一层，而因果分析至少要往第二层走一步。线性模型因此并不是没用，而是它通常主要处在“观察”这一层，是发现模式的起点，而不是因果问题的终点。Pearl 在《The Book of Why》中正是用这条“观察—干预—反事实”的阶梯，把统计关联与因果问题区分开来。

这里还要多加一句边界说明：在随机对照实验里，“干预”可以直接通过实验操作来定义；在观察性研究里，第二层问题往往还需要额外的识别假设或策略，比如可忽略性、工具变量、断点回归、双重差分等，否则“如果我改变它”这句话并不能自动从相关数据里读出来。这种从观察到干预的跨越，在依赖观察数据的学科中尤其具有挑战性。对很多学科而言，真正困难的还不只是理解这条因果之梯本身，而是如何在难以操控、只能观察的数据里，尽可能把机制问题问清楚。比较和演化研究正是这样的典型场景。

图2. 因果之梯的三个层级。第一层“观察”，第二层“干预”，第三层“反事实”。线性模型主要停留在观察层，而因果分析至少要进入干预层。更高层级的因果模型通常包含回答下层问题所需的信息，因此能够覆盖下层问题的回答范围。

在演化生物学中，因果尤其重要

因果思维对演化生物学尤其重要，因为演化生物学关注的核心问题之一，是生物差异和生物多样性如何产生、维持和改变。它当然关心不同性状、类群和环境之间反复出现的模式，但更核心的追问是：这些模式究竟由什么过程造成。为什么某个性状会出现，为什么会变大，为什么又会消失？背后可能是自然选择带来的适应优势，也可能受到发育限制，或者主要反映共同祖先留下的历史痕迹。只看到相关，我们最多知道哪些模式反复出现；只有继续追问因果，才更有可能判断这些模式背后的机制。

这类问题在比较研究中尤其突出，因为跨物种数据天然面临两个困难。第一，物种之间并不是独立样本。近缘物种共享祖先，也往往继承了相似的形态、生活史和生态背景，因此某些相关关系可能部分来自共同历史，而不完全来自当前机制。第二，不同候选解释常常彼此相关、同时变化。结果就是，同一个跨物种模式，往往可以支持不止一种生物学解释，而单个统计模型通常很难告诉我们，哪些关系更接近机制，哪些只是共同变化留下的表象。系统发育比较方法的重要性，就在于它把这种由共享历史带来的非独立性纳入分析，从而更谨慎地评估比较数据中的变量关系。

相对脑大小的演化，就是一个典型例子。围绕“为什么有些脊椎动物演化出更大的脑”，研究者长期提出过不同解释。其中最有影响力的一类观点，是 Dunbar 提出的社会脑假说。这个假说认为，社会关系越复杂，个体需要处理和记忆的社会信息就越多，因此更大的脑可能是一种应对社会复杂性的认知适应。这个假说之所以影响深远，是因为早期许多比较研究确实观察到群体规模、社会联系和脑大小之间的正相关（图3）。

图3.社会脑假说的经典证据图：灵长类平均群体规模与新皮层比例的正相关。在不同灵长类属中，平均群体规模越大，新皮层比例通常也越高。这一模式曾被解释为：更复杂的社会关系需要更强的信息处理能力，因此与更高的新皮层比例相联系。改自 Dunbar (1998)。

随着样本扩大和分析方法更新，事情开始变得没有这么简单。2017 年，DeCasien、Williams 和 Higham 在 Nature Ecology & Evolution 上重新分析灵长类数据，发现当体型和系统发育被纳入控制后，食果类灵长类的脑组织平均比同体重的食叶类高约 25%，而群体规模、社会系统和交配系统都不能解释额外的脑大小变异。作者据此提出，寻找果实所需的空间记忆、提取性取食，以及高质量食物带来的能量条件，可能比社会复杂性更直接地推动了脑演化。与此同时，他们对灵长类相对脑大小和群体规模的祖先状态重建也显示，两者的演化轨迹并不总是同步变化（图4），这进一步削弱了“群体越大，脑就越大”这一简单解释。

图4. 灵长类相对脑容积（左）与平均群体规模（右）的祖先状态重建。颜色由红到蓝表示相对脑容积和平均群体规模由低到高。按照社会脑假说的简单预测，群体规模增加的谱系往往也应伴随脑大小上升；但这张图显示，二者的演化轨迹并不总是同步。DeCasien 等（2017）据此认为，社会性并不足以单独解释灵长类脑大小演化。

不过，这并不意味着答案就变成了“社会性错了，食性对了”。2023 年，Grabowski 等人在 Systematic Biology 上利用 128 个灵长类物种的完整比较数据，并采用能同时处理适应过程与系统发育历史的比较模型重新分析脑大小演化，结果发现饮食和社会性都会产生影响：向更复杂的社会性转变与相对更大的脑相关，而向更偏食叶的方向转变则与相对更小的脑相关。也就是说，同一个问题，在不同数据和模型下，并不会自动收敛到一个唯一答案。

近年的研究进一步表明，大脑演化不仅与社会和生态压力有关，也受到发育与能量条件的限制。2025 年发表于PNAS的一项跨脊椎动物研究提出，相对脑容积最大的谱系，往往既能够产生较大的单个后代，又能维持较高体温（图5）。这说明，理解大脑演化，不能只问“更大的脑有没有用”，还要问“生物体是否有条件承担它的代价”。

图5. 相对更大的脑如何演化出来：发育与能量条件示意图。影响脊椎动物脑变大的关键条件主要有两类：一类与较大的新生个体有关，反映发育早期更高的资源投入；另一类与较高体温有关，反映更有利于维持大脑这种高代谢器官的生理条件。体内受精和内温性是与这两类条件关系最密切的主要因素，而护育与携带后代、通过行为调节体温等行为途径，也可能在部分类群中起到辅助作用。改自 Song et al. (2025)。

把这些研究放在一起看，问题就变得很清楚了：在脑大小这样的课题上，困难并不在于找不到相关，而在于社会因素、生态因素、发育条件、亲代投入和热生理条件往往缠在一起变化。于是，当我们发现某个因素与脑大小显著相关时，并不能立刻说脑变大就是由它直接造成的。单靠相关模式本身，我们很难分清到底是哪一个因素更接近真正的原因。

正因如此，线性模型、混合模型和系统发育回归虽然是比较研究的基础工具，却更擅长描述模式，不一定足以单独完成机制判别。当多个解释彼此相关时，不同的变量选择、控制策略和模型设定，都可能改变结果的解释方向。在这样的背景下，研究者才会进一步发展那些比普通相关分析更接近机制解释的方法。在比较生物学中，一个常见做法是从已有生物学假说出发，明确提出几种候选因果结构，再比较它们与数据的一致性。系统发育路径分析（phylogenetic path analysis, PPA）正是这样一种确认式框架：它在考虑共享祖先影响的同时，比对不同候选模型，从而区分直接路径和间接路径，并比较不同路径的相对作用。和单纯回归相比，这已经更接近机制解释；但它的边界也很明确——它只能比较研究者已经提出的结构，而不能保证真正的因果结构一定就在这些模型之中。对比较和演化研究而言，因果思维的重要性，并不在于把原有结论说得更强，而在于避免把伴随变化误当成驱动力，把历史遗留误当成当前适应，把表面相关误当成机制本身。

研究者怎样从数据逼近因果

面对因果问题，研究者通常会分两步走：先尽量弄清变量之间可能的作用结构，谁更像上游，谁更像下游，哪些边可能根本不该有；再进一步，讨论如果真的改变某个变量，另一个变量会怎么变，变化有多大。

前一部分为因果发现；后一部分为因果推断。它们回答的问题并不相同，但也不是彼此孤立。很多时候，如果连结构都完全没有头绪，谈效应就会很危险；反过来，光有一张结构图，不去问“改变它会怎样”，也还没有真正触及因果分析最核心的目标。更重要的是，结构并不总是要靠算法“发现”；在很多实际研究中，领域知识本身就是构建因果图的重要起点，而数据驱动的方法更多是在领域知识不足时提供补充、检验或候选结构。

研究者从数据里探索结构时，经常会先问一个问题：在给定某个变量集之后，这个关系是否仍然存在？如果 A 和 B 表面相关，但在给定某个变量集之后，A 和 B 条件独立，那么它们之间看到的联系，未必是一条直接作用。沿着这条思路，发展出了一类经典的结构学习方法，其中最有代表性的就是 PC 算法（PC algorithm）。

PC 算法并不是简单地“看哪个变量和哪个变量相关，就给它画箭头”。它真正利用的是条件独立关系。假设我们关心四个变量：降雨、洒水车、地面湿和路面湿滑。直觉上，降雨和洒水车都可能让地面变湿，而地面湿了以后，路面更容易湿滑。PC 算法一开始并不知道这些方向。它先假设变量之间都可能有关，从一张所有变量两两相连的无向图出发；然后通过一系列条件独立检验，不断删除那些其实不需要保留的边。比如，如果数据表明“降雨”和“洒水车”在给定某个变量集之后条件独立，那么它们之间的直接边就没有保留的必要。在删边之后，算法再利用一些特殊的局部结构来帮助定向。其中最经典的一类是 v-structure：如果 A 和 B 本身不相连，但都和 C 相连，并且先前找到的分离集合里不包含 C，那么算法就会把这部分结构定向成 A→C←B。因此，PC 的关键不在于“控制后相关是不是变弱了”，而在于能不能找到某个条件变量集，使两个变量在给定它之后变得条件独立。

PC 算法的重要价值，在于它把“相关不等于因果”变成了一套可以操作的分析流程：哪些边可能根本不该存在，哪些方向有一定结构依据，哪些地方的数据还不足以把方向分清，它都能给出相应信息。但它也有清楚的边界。标准 PC 并不总能唯一确定每条边的方向，而常常只能输出一个由数据支持的等价类；那些保留下来的无向边，表示方向暂时仍不可识别。它的结果也依赖条件独立检验本身：在线性高斯情形里，常见做法是偏相关或 Fisher’s Z；换成离散或二元数据，则需要使用别的检验方法。此外，标准 PC 主要适用于没有隐藏变量的观测数据；如果存在隐藏共同原因，通常要考虑 FCI 或 RFCI 等更一般的方法。

除了“在给定某些变量后是否仍然条件相关”，研究者还会问另一个问题：如果环境变了，这个关系还稳吗？这类方法的出发点同样很直观。一个模型也许能在当前数据里预测得很好，但它利用的可能只是某个环境特有的相关。只有那些在环境变化之后仍然保持稳定的关系，才更有机会接近机制本身。沿着这条思路，一个经典的方法叫不变因果预测（Invariant Causal Prediction, ICP）。它利用不同环境中预测关系是否保持不变，去寻找目标变量的直接因果父节点的候选集合，并在满足相应假设时给出置信区间。这里的表述要谨慎：它并不是在所有条件下都能直接给出“真值因果”，而是在其模型和不变性假设成立时，尝试缩小真正因果变量的范围。

沿着相近方向，还有锚回归（Anchor regression）。它的核心目标是面对分布偏移时的稳健预测：在一定条件下，因果参数会在新分布中表现出更好的预测稳定性，但 Anchor regression 本身并不等于“已经识别出因果效应”。它更准确的定位，是一类把异质环境和稳健预测结合起来的方法。再往后，还有近年的一些优化方法，例如 NegDRO。这些方法试图把“跨环境稳定性”进一步转化为可求解的优化目标，但目前仍属于快速发展中的方向。和 PC 算法相比，这条路线依赖的不是条件独立结构，而是环境变化下的机制稳定性。两者并不是谁取代谁，而是在使用不同类型的因果信息。一个更关注“控制以后还在不在”，一个更关注“换个环境之后还稳不稳”。对于真正复杂的问题，这两类信息常常是互补的，而不是非此即彼。

从显著关系到因果判断，还差哪些证据

走到这里，其实就能更清楚地看见：从“统计关系显著”到“因果判断成立”，中间还隔着不少关键环节。

首先，研究者需要弄清楚，这个关系是不是可能来自混杂、反向因果、选择偏差或反馈。其次，还要看，在控制其他变量之后，这个关系是否仍然存在；在更换环境、样本、类群或分布之后，它是否仍然稳定。再往后，如果条件允许，还需要借助实验、自然实验、纵向追踪、稳健性检验，甚至领域知识来进一步验证。

也就是说，显著性只是一个起点，而不是一张通往因果结论的直通车票。一个 p 值再小，也不等于已经回答了“如果改变它，会怎样”这个问题。真正成熟的因果判断，需要的不只是相关模式本身，而是围绕这个模式不断增加的结构证据、干预证据和稳定性证据。

所以，下次当我们再看到一句“X 显著影响 Y”时，最值得追问的，也许不是它的 p 值到底有多小，而是：这份数据真正支持的，只是一条统计关系，还是已经有了更强的因果证据？

而科学，恰恰是在这一步步更严格的追问里，慢慢接近答案。

参考文献

[1] Cornwallis, C. K., & Griffin, A. S. (2024). A guided tour of phylogenetic comparative methods for studying trait evolution. Annual Review of Ecology, Evolution, and Systematics, 55(1), 181–204. https://doi.org/10.1146/annurev-ecolsys-102221-050754

[2] DeCasien, A. R., Williams, S. A., & Higham, J. P. (2017). Primate brain size is predicted by diet but not sociality. Nature Ecology & Evolution, 1, 0112. https://doi.org/10.1038/s41559-017-0112

[3] Dunbar, R. I. M. (1998). The social brain hypothesis. Evolutionary Anthropology, 6(5), 178–190.

[4] Dunbar, R. I. M. (2009). The social brain hypothesis and its implications for social evolution. Annals of Human Biology, 36(5), 562–572. https://doi.org/10.1080/03014460902960289

[5] Glymour, C., Zhang, K., & Spirtes, P. (2019). Review of causal discovery methods based on graphical models. Frontiers in Genetics, 10, 524.

[6] Grabowski, M., Kopperud, B. T., Tsuboi, M., & Hansen, T. F. (2023). Both diet and sociality affect primate brain-size evolution. Systematic Biology, 72(2), 404–418. https://doi.org/10.1093/sysbio/syac075

[7] Kalisch, M., Mächler, M., Colombo, D., Maathuis, M. H., & Bühlmann, P. (2012). Causal inference using graphical models with the R package pcalg. Journal of Statistical Software, 47(11), 1–26. https://doi.org/10.18637/jss.v047.i11

[8] Nogueira, A. R., Pugnana, A., Ruggieri, S., Pedreschi, D., & Gama, J. (2022). Methods and tools for causal discovery and causal inference. WIREs Data Mining and Knowledge Discovery, 12(2), e1449.

[9] Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.

[10] Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 78(5), 947–1012.

[11] Rothenhäusler, D., Meinshausen, N., Bühlmann, P., & Peters, J. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 83(2), 215–246.

[12] Song, Z., et al. (2025). Parental investment and body temperature explain encephalization in vertebrates. Proceedings of the National Academy of Sciences of the United States of America, 122(45), e2506145122. https://doi.org/10.1073/pnas.2506145122

[13] van Schaik, C. P., Song, Z., Schuppli, C., Drobniak, S. M., Heldstab, S. A., et al. (2023). Extended parental provisioning and variation in vertebrate brain sizes. PLOS Biology, 21(2), e3002016. https://doi.org/10.1371/journal.pbio.3002016

[14] von Hardenberg, A., & Gonzalez-Voyer, A. (2013). Disentangling evolutionary cause-effect relationships with phylogenetic confirmatory path analysis. Evolution, 67(2), 378–387. https://doi.org/10.1111/j.1558-5646.2012.01790.x

[15] Wang, Z., Hu, Y., Bühlmann, P., & Guo, Z. (2024). Causal invariance learning via efficient optimization of a nonconvex objective. arXiv preprint, arXiv:2412.11850. https://doi.org/10.48550/arXiv.2412.11850

本文经授权转载自微信公众号“ZJU生命演化研究”，原标题为《从相关性到因果：数据表象到本质机制的科学追问》。

注：本文封面图片来自版权图库，转载使用可能引发版权纠纷。

特别提示

1. 进入『返朴』微信公众号底部菜单“精品专栏“，可查阅不同主题系列科普文章。

2.『返朴』提供按月检索文章功能。关注公众号，回复四位数组成的年份+月份，如“1903”，可获取2019年3月的文章索引，以此类推。

科技举报

返朴

科普中国子品牌，倡导“溯源守拙，问学求新”。 |

4301篇文章 | 32318人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

科学研究中的自我修养：学会对“显著相关”说“那又怎样”？

返朴
返朴官方账号

返朴

热点

站务

观察者网评论

2026年十大预测，这些期待是否会发生？

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

科学研究中的自我修养：学会对“显著相关”说“那又怎样”？

返朴 返朴官方账号

热点

站务

最近更新的专栏

风闻最热

全部专栏

返朴
返朴官方账号