新冠病毒起源在美国?

3/1 新冠病毒的起源?

浙大正式开学了(不返校,上网课),我主要的时间在备课讲课,趁周末来聊一个最近热的烫手的消息:

“新冠病毒起源在美国?”

稍微查了一下,这个消息有三个缘由,阴差阳错的恰好凑到了一起。

一个是2/22日中科院的一群科学家在开放平台ChinaXiv上传了一篇论文,通过分析九十几个新冠病毒的基因组序列,得出了“新冠病毒的发源地可能不是武汉华南海鲜市场”的推测。我当时就看到了论文,但是觉得论文的分析其实有一点点问题(不是作者们的问题,等下仔细说),但是这个分析思路非常重要,不妨留待日后数据更多、结论更确凿的时候再讲,就没有太当回事。结果这个论文后来不知道什么时候被某个台湾媒体大肆炒作作为“新冠病毒起源于美国”的证据,一下子引爆了中文互联网。

一个是2/27日钟南山院士在新闻发布会上说“疫情首先出现在中国,但不一定是发源在中国”,这句话在科学上是毫无问题的(我们下面再细说),但是在上面这条新闻的大背景下,给大家猜测病毒是不是来自于国外提供了专家背书。

还有一个是美国2/26日在加州发现了一位新冠病毒感染者,但是其人既没有来过中国日本韩国等疾病多发的地区、也没有和美国其他新冠患者的接触史。这种案例就被美国新闻称为“the first coronavirus case of unknown origin”,也就是,美国首例未知(感染)来源的新冠病毒感染者。这句话的表述同样没有任何问题,但是却被不少不明真相、或者别有用心、又或者单纯是英文不及格的自媒体理解成了美国才是第一例新冠肺炎的发源地。

三条不同来源的消息,被各种错误理解和添油加醋之后,最终酝酿出了“新冠不是中国起源,来源于美国”的大新闻。这就值得稍微展开讨论下了。

1. 新冠病毒是不是起源于武汉、特别是不是起源于华南海鲜市场?这个说法的依据主要是早期患者确实有相当一部分和华南海鲜市场有密切关系(Huang C et al Lancet 2020)。在新冠肺炎刚开始流行的2019年12月,武汉地区的医生们根据患者的生活轨迹得出“这种疾病大概和华南海鲜市场有关系”的推论当然是很合理的,对于他们能够准确和及时地认识到这种全新疾病的存在有很大帮助。这个你应该不难理解,新冠肺炎的症状并不特别典型、不容易和其他病毒性肺炎相区分,当时又不知道病原体,没有基于核酸或者抗体的检验手段,要是连“华南海鲜市场”这个抓手都不存在,医生们就更难确认他们在面对一种全新疾病了。这也是在那之后地方政府封闭海鲜市场的决策依据。

2. 不过即便在12月份,就已经出现了和华南海鲜市场没有明确接触史的患者(Huang C et al Lance 2020)。实际上有据可查的第一个发病的患者(12/1发病)就没有去过那个市场。但是我得强调一下,这件事本身既不能用来说明、也不能用来推翻新冠肺炎和华南海鲜市场的联系。这个道理稍微有一点绕:这位患者虽然是有据可查的第一个发病的患者,但是我们其实并不知道他是不是就是历史上第一个新冠肺炎患者——也许更早的患者症状轻微没有就医,或者就医但是被当成了其他疾病,又或者感染的早但是潜伏期更长。果真这样的话,早期没有华南海鲜市场接触历史的患者,完全可能是从其他这些未被发现的患者那里感染的。

3. 但是基于同样的理由,我们实际上也没有证据证明新冠肺炎就一定是起源于武汉,起源于华南海鲜市场。武汉地区当然是这次疫情爆发的中心,至今也仍然是病毒最有可能的起源地(否则无法解释为什么去年底病毒没有在其他城市传播),但是新冠病毒本身确实有可能是在另外的时间地点第一次进入人体开始人际传播的。历史上这种一开始比较“安静”,突然在某个环境因素催化下开始爆发的传染病比比皆是。这也是我在之前微博里反复讨论的病毒溯源研究的重要性:我们需要仔细研究病毒的人际传播规律和演化历史,搞清楚它从天然宿主到中间宿主,再到人类世界的完整链条。这些信息不光能帮助我们更好地理解这个敌人,也能帮助我们切断传播链条,预防它的再次爆发。

4. 实际上我也确实一直比较怀疑新冠病毒可能不是在去年12月的武汉才出现的。一个证据是至今为止完成基因组测序的新冠病毒大概有130多个,来自世界各自的患者,而这些病毒之间的基因序列差异非常微弱,没有明显的变异和进化方向(​网页链接)。这一点和17年前的SARS病毒截然不同,那个病毒在传播过程中一直在发生高强度的变异(SARS Consortium Science 2004)。通俗理解,你可以认为这说明新冠病毒已经进化的很适应人体了。我们知道新冠病毒是一种来自动物的病毒,在进入人体之前它没有未卜先知的能力提前做好准备。所以,要么这个病毒碰巧在去年12月第一次进入人类世界的时候就具备了比较完备的各种特性,要么就说明它可能在此之前就已经进入人类世界默默传播一阵子、并且进化出了更适应人体的特性,然后在武汉开始了大爆发。我个人会觉得后一个解释更符合常理。所以我也很认同钟南山院士的说法,实际上我们现在并没有证据明确的说新冠病毒到底起源于何处。(我对钟院士说法的唯一反对意见是他没有必要强调不同的国家;哪怕说是在中国,我们实际上也不知道是不是就是在武汉)。

5. 想要搞清楚病毒的真正源头,一个办法是先从武汉、特别是华南海鲜市场入手,毕竟那里仍然是最可疑的地点,不是第一现场,也是第二现场。但是就像我前面微博里说过的,华南海鲜市场关闭的时候没有保留动物样本,失去了第一手证据,让我们没有办法去真正分析海鲜市场内部是不是真的有某种野生动物身上携带了新冠病毒。这是一个历史的遗憾。尽管后来疾控部门宣称从海鲜市场的环境中检测到了病毒的基因序列,但是这种证据的作用远不如找到一只或者一批确实携带病毒的动物标本。

6. 第二个办法则是利用病毒基因变异和演化的规律,通过分析目前存在的大量病毒样本,追根溯源。这个逻辑本身是很简单的,我打一个通俗的比方,如果你在三个患者身上分离病毒,检测新冠病毒的基因序列,发现患者1身上的病毒有基因突变X,患者2身上的病毒有突变X和Y,患者3身上的病毒有三个突变XYZ。那么一个最简单的推测就是病毒的传播应该是1>2>3,并且在这个过程逐渐积累了更多的基因突变。实际上进化生物学家们一直在用类似的办法分析地球生物彼此的演化关系。这一次涉及到的中科院论文(Yu WB et al ChinaXiv 2020)也是在对新冠病毒做类似的分析。

7. 具体来说,在这篇论文里,科学家们分析了世界各地患者身上提取的90多个新冠病毒的基因组序列,根据他们彼此的差异大小把他们分组(ABCDE),然后还根据上面咱们讨论的这个逻辑猜测了不同组别之间的传播顺序(A-B-C-D/E)。从这个进化/传播链条上,科学家们发现武汉地区采集的病毒主要属于C,而A和B组的样本则来自武汉之外(A来自深圳患者,B来自美国患者,而且这些患者并未到过华南海鲜市场),所以他们得出了病毒可能来自华南海鲜市场之外、只是在海鲜市场出现了爆发的推论。

8. 这个推论我觉得符合当下的数据。但是这项研究衍生出了两个大问题。当然我要先说明一下,这两个问题都和研究者们自身无关。

9. 第一个问题就是被各种媒体错误解读了。就像我们一开头所说,台湾一个媒体完全错误理解了论文的含义,他们以为既然武汉的患者主要是C病毒,而更古老的A/B出现在深圳和美国,那么就说明这个病毒的起源地大概就是这些地方——特别是和那条“the first coronavirus case of unknown origin”的美国新闻前后脚出现,让媒体认定病毒就是起源于美国了。这完全是对两条新闻同时错误解读的叠加结果。特别是对于中科院这篇论文来说,A/B病毒的患者确实是在在深圳和美国被发现的,但是这些患者在发病前可都是刚刚去武汉旅行过的!他们在程序上固然被定义成了武汉之外的患者,但是他们体内的病毒则几乎可以肯定是武汉来源的。

10. 第二个问题则出在利用基因组差异研究病毒进化历史,这种研究方法本身。首先要说明,这个研究本身的逻辑是完全成立的,也是当下我们找到病毒起源和传播链条最好的方法。但是这个方法想要成立的前提,是病毒在传播过程中确实发生了大量的基因变异,我们才能够通过分析这些基因变异寻根溯源(想想我们说的患者123和病毒XYZ的例子)。但是我们也提到过了,新冠病毒的基因突变其实非常稀少,大量的病毒只携带区区几个基因突变,而且彼此之间的基因突变还不重叠,这就给绘制它们的传播和进化链条造成了很大的麻烦。我们还是通俗的打一个比方,如果三个患者身上的病毒的基因突变不是X,XY,XYZ,而是XY,XZ,Z,实际上你会非常难以判断他们三者的传播顺序,即便你可以大概猜测XY和XZ的关系会大于XY和Z的关系,但是谁先出现、谁传给谁,就很难分析了,对不对?换句话说,作者们固然画出了一个A-B-C-D/E的传播链条,但是这链条本身的可靠程度实际上是不太让人放心的,换一个算法,换一个统计学模型,可能结论就会大相径庭。

11. 想要解决这个问题,可能唯一的办法是测出大量病毒的基因序列,用数量暴力攻击质量,得到更可靠的结论。但是问题是至今为止全世界接近8万新冠肺炎患者,只有130多条基因组序列被分析和上传,这显然是远远不够的!更麻烦的还有代表性问题,患者最为集中的武汉地区的病毒序列只有几十条,不成比例的低。这就会导致一个显而易见的麻烦,比如说在同一篇论文中,作者们也提到在美国患者体内发现的某些病毒类型在武汉地区没有找到。但是基于武汉地区只有千分之几的患者体内的病毒被测序,而且还集中在疾病早期的一小批患者,于是我们根本无从得知这些病毒是不是在武汉真的不存在,还是因为采样太稀疏被遗漏掉了。

12. 好了我们简单小结一下吧:

A 科学上说,我们确实不知道新冠病毒真正的最初源头是哪里,它可能是世界上任何地方,然后在去年12月的武汉出现大爆发;

B 鉴于华南海鲜市场已经被破坏,我们最大的希望是利用病毒基因组序列绘制传播和进化链条,找到最初源头;

C 但是目前我们掌握的病毒基因组序列数量太低,代表性太差,类似的研究的结论可信度很低;

D 在我们掌握更多的数据得出更可靠的结论之前,武汉地区显然仍然是最值得我们继续挖掘和分析的第一或者至少是第二案发现场。分析武汉地区内部病毒的传播规律,人群的历史感染率,是重中之重的研究课题。

13. 最后,咱们再简单说一下那条美国新闻“the first coronavirus case of unknown origin”。这种未知传播源的病例本身毫不稀奇,但确实是一个重要的标志——它意味着新冠病毒在美国也可能正在进入大流行的阶段。一般来说,在一个传染病开始流行的最早期,如果防控措施到位、研究调查及时,我们是有可能搞清楚每一位患者的传染源的——不管源头是动物还是其他患者。而如果能够搞清楚传染源,那么理论上我们就有可能把整个传播链条锁定、隔离、阻止疾病的进一步蔓延。在上海,在新加坡,人们就是这么做的,也取得了很大的成功。

而如果一个地方,疾病已经开始流行,我们就会看到原来越多的患者,无法确定他们的传染源头——因为可能的传染源太多了。过去两个月的武汉,现在的日本韩国伊朗,以及未来的美国,可能都正在这个阶段。

而这种未知传染源的病例的出现,作为一个明确信号,可能意味着当地要对防控措施进行调整了。如果我们能锁定传播链条,那么严防死守隔离所有潜在患者就是行之有效的办法;如果不能锁定传播链条,那么对疾病的防控可能就需要长期化、常态化。相比不惜一切代价的严防死守,可能更温和但是持久的政策,比如改善个人习惯、禁止不必要的公众集会、疫苗的快速开发、储备医疗资源准备救治重症患者,可能就更重要。最近WHO的一篇文章也在强调这个差别(Heymann DL and Shindo N Lancet 2020)。这种防控策略的转换逻辑我也曾经反复写过,它不光适用于世界其他地区,也适用于正在疫情关键转折期的我们中国。

全部专栏