【科研】【媒体】新冠病毒和媒体乱象

最近武汉的新冠病毒(nCov)成爲大衆一致关心的议题。但是正因爲它是一个突发的意外事件,而且病毒还在不断演化之中,所以自然有很多不确定性,连致死率、潜伏期等等基本参数都还没有共识,像是R0(Basic Reproduction Number,用来标识病毒流行的扩散率)、有效药物、种族的易感性这些需要很多样本才能做统计分析的事,更加是先天上就不可能这么早有定论的。

然而这不影响网络上的大V们不断地创造和传播谣言。我原本本周有个小感冒,所以没有用心写稿,但是实在看不过去,所以在《观察者网》的留言栏和《微博》账户上反复尽一己之力来闢谣;爲了节约精力,主要专注在美国合成了nCov作爲生物武器这个阴谋论上。但是正如我们多次讨论过的,造谣比闢谣容易太多了,结果我当然是疲于奔命。

不论如何,无脑群衆对美国的非理性指控,会使未来中方对美国的正当指责失去道德制高点;而把流行疫情的来源搞错了,更是会影响事后的弥补工作。所以我已经写下来的分析,还是值得读者们閲读理解。在此节录一些原本没有发在博客上的讨论:

一)同济大学的一篇论文,号称nCov所专注的ACE2受体,在亚洲人的基因特别常见,结果成爲网络上美国合成nCov这个阴谋论的主要“证据”(参见 同济大学医学院左为团队发现亚裔(男性)标本的ACE2表达水平远高于其它所有人 评论 11 国内https://user.guancha.cn/main/content?id=233468&fixcomment=20030311 )。这些人不但完全忽视十天前德国就已经有白种人轻易被传染的事实,也根本没有去读懂那篇论文。

我评论如下:“这篇论文所用的统计样本,总共有 八 (8)个人次!基本就是趁话题热门来炒作;真正在做实事的生医从业人员很多,许多病患还在生死边缘挣扎,这种散佈假大空公关的人其实是在吃人血馒头,爲什么要帮他们出名呢?”

“生医研究要比较个人之间的基因差异,都必须有至少几千个样本起算,往往还远远不足以得到确切的结论,直到几十年后,纍积了几十万个样本的Meta-Study才有定论。

这篇论文一共采集了8个样本,他们敢下任何定论都是明显在胡扯,只能靠公关炒炒热度、骗骗外行人,实际上就是消费真正在做研究的科学家们的信誉,顺便还製造谣言恐慌,这些社会成本是很大的。这么自私的骗子,应该被严厉打伐才对。”

二)十几年前SARS结束之后,有一位大陆的军医叫徐德忠,写了“非典非自然起源和人制人新种病毒基因武器”一书,把SARS都归做是美国的生物武器。这本书自然成爲阴谋论者的圣经(参见 向席亚洲推荐一本好书:非典非自然起源 评论 23 国内 )。

我:“一篇文章被管制,不一定是因爲它说了实话,也可能是它説了假话。

一个作者想不出对某现象合理的解释,并不代表合理的解释不存在。

以这篇论文爲例,它的核心论点是SARS后期的传播特徵和西班牙流感以及一般流感都不同。但是不同的病毒,原本就会有不同的传播特徵;尤其冠状病毒和流感病毒的血缘较远,差异大是必然的。爲什么作者避而不谈呢?

即使忽略基因上的差别,传染病的传播特徵也受社会因素影响很大。SARS和流感的最大差别,在于它一开始的人传人不强,所以政府反应虽然不是第一时间,但是2003年开始全力隔离围堵的时候,仍然是局限在10000人次这个数量级以下。一般流感和西班牙流感都没有在前期遭遇这样强力的防治,那么后期的演化和发展会有不同不是理所当然的吗?

造谣张张嘴,闢谣跑断腿。MIT的研究估计后者比前者困难大约四个数量级。你觉得在争论这个议题时顺风顺水,其实正因爲你是造谣的那一方。”

三)美国北卡州立大学的教授Ralph Baric,在2015年发表了一篇论文,其实是只改动了冠状病毒的一个基因,但是在阴谋论者口中,就成了美国合成生物武器的证据(参见 美国北卡实验室2015年合成冠状病毒 评论 40 国内 )。

我:“刚刚去读了论文的原版。这个所谓的“人造”、“Engineer”和“Hybrid”都颇有误导外行人之意。

实际上是拿中国科研人员在蝙蝠洞找到的一种冠状病毒(从时间来看,当时还没有找到蝙蝠版的SARS,所以应该是SARS的表亲),然后用基因编辑手段,改动了一个表面抗原的蛋白质。这种只改动一个蛋白质的基因编辑,在2012年发明了CRISPR之后,是很随意的事,随便哪个大学生物实验室都做得到。

这样的结果,是最低程度的转基因,所以硬要説是“全新”、“人造”、“嵌入”等等,立刻成爲一个语义学上的争论。论文的作者认爲这个新抗原会帮助病毒传染到人类呼吸道,但是并不能真正做实验证实,距离对种族能精确制导的生化武器,更是差了十万八千里。”

四)以上的评论被转发到《微博》之后,聼不进去的读者不少。其实这不是意外;博客这里不入流的留言早就被删或被禁了,微博的水准自然不能比。不过代我管理微博账户的“世界对白”还是紧张,向我反映了一下。以下是我们的对话之一。

世界对白:“昨儿发的其他关于阴谋论的帖子下面大约有一半人是不赞同的,或者说“害人之心不可有,防人之心不可无”。而直接反对的人有不少同在风闻中回复是一样的---不需要精确制导,只需要定点播撒就行了。要么是拿白人更易得流感来反证。

不过我现在有点担心您被称为批评者!虽说没啥不好,但怕被标籤化!!!真的要考虑下这个问题。”

我:“我向来没有预设的意见和立场,最近的评论依旧是就事论事,给出证据,或者剥开假证据的皮。有逻辑能力的人,自然能看得出来;没有逻辑能力而已经预设错误立场的人,当然就会1)忽略我给的反证; 2)失去了自己的证据,就退守较弱的论据,然后说总还有可能。其实我在五年前,开始批评台独的时候,他们不也是这样反应的?没有证据的可能性,我以前已经解释很多次了,就是宗教;像是上帝的存在,并没有任何证据,但也不可能从逻辑上否认这个可能性。后来逻辑学家为了方便群众理解,还提供像是Russell’s Teapot(由著名英国哲学/逻辑学家Bertrand Russell提出)这样的例子:如果有人硬要说在小行星带漂流著一隻精美的茶壶,这种没有任何正面证据的论述,反对的人有义务提出反证吗?没有正面证据,就是废话,根本连猜想都不应该,更别说在大众论坛传播了。事实上,绝大多数的谣言在逻辑上就属于这一类;所以这种行为不只是非理性的,而且是有害国家社会的。

我一再说,有一分证据说一分话,其背后的理论基础就在于此。我所谓的不在乎流量,正是不能屈从于多数群众的非理性。他们听不进事实与逻辑,自然有能听得进去的。我如果不说给后者听,这些人在天然愚昧的公共论坛就会势单力孤,开始怀疑自己的态度和结论,最终是劣币驱逐良币。所以请你务必把这里这段话发在微博。不喜欢听的读者,请终止订阅,但不要在留言栏无视事实证据,大放厥词,污染言论环境。国家有难,许多人正在牺牲奉献,旁观者的最基本责任,就是不要无中生有,给做事的人添乱。”

五)与世界对白的对话之二。

世界对白:“今天又开始另外一拨所谓“证据”(王孟源注:参见https://www.biorxiv.org/content/10.1101/2020.01.30.927871v1 ,这是一篇印度人写的论文稿,号称新冠病毒有HIV基因被人工剪接进去),而有人已驳斥没法複製这一过程。另外就是remdesivir治好了一例美国病人,而上次非典的特效药达菲也是这家公司进展 的。这个被一个在美国的医疗科普大号闢谣。“思想火炬”(社科院官方账号)转发了第一则新谣言。

魔幻的是愿意公开出面批驳的好多都是海外华人,支持的都是国内大V。“知识分子”这两天也开始关注一些负面消息,天天撕逼。倒是陈经还坚持就事论事。”

我:“唉,真是让我无语。我早就说过,在期刊发表的生化论文,9篇倒有8篇是假的;所以论文本身不是证据,论文裡面提到的“证据”也必须仔细与已知的事实核对,如果有任何“新颖”的证据,就应该视为“严重存疑”来处理,毕竟它有8/9的机率是错的。

美国和中国的那些药物(包括双黄连)研究,毛病很简单,他们的样本数量太低,都是个位数的。就算他们实验过程完全正确严谨,光是统计误差就让它们毫无意义。这些人出来说我们的结果有100%的强度,但是他们忘了提,统计误差是10000%。(100±10000)%是什麽?什麽都不是!所以这些作者都是在蹭热度,吃人血馒头,偏偏没有科研常识的大V也只想著流量,拼命传播假新闻。面对这种天然没有确实信息的情况,反而越是谎言越可以说得确切,也就越容易让百姓接受。

那篇印度人写的,连期刊论文都不是,而是所谓的“ Preprint”,也就是“预印本”,作者高兴怎麽写就怎麽写,证据可信率连1/9都没有,而是无限接近于零。为了严谨性,我还是去把它仔细读过了(捏著鼻子读的;其他人做到了吗?);它的内容是这样子的:他们直接拿了中美分析出来的nCov基因(含2万9千多个基因字母),和既有的100多个冠状病毒(7大类,包括SARS,MERS和nCov)基因样本(这个工作有国际上现成的资料库可以查询,作者的工作量大约是一分钟)做比较,发现有4个小段落是nCov独有的。然后他们再拿这4个小段落去查询HIV的基因(9千多个字母)做比较(同样用现成资料库一行指令就做得到),结果宣称都找到了对应。然后他们直接进一步说这不可能是天然的。

假设这群印度作者在打入指令的过程中,完全没有犯错,我们看看他们逻辑推演的细节:首先,他们不是在所有的HIV基因组合里面都找到对应,而是在已知的几百万种HIV样本里,硬是强迫电脑反复地去找最好的对应。结果的确是第一个段落(6个字母,不到一个蛋白质分子的1/100;而人类从HIV的祖先Retrovirus所抄袭的基因,光是Syncytin 1就有几千个字母)在一个来自泰国的HIV样本以及第二个段落(也是6个字母)在一个来自肯亚的样本里有重複,但是第三个段落的最佳对应是15个字母里有9个一样,第四个段落是19个字母有8个一样,这显然是极爲牵强的。在逻辑学里,这个Fallacy叫做“Data fishing”,也就在过多的样本里,挑出偶然类似的巧合,然后硬上因果关係。任何一个生化研究员,至少必须估计一下P-Value,也就是结果因巧合而出现的机率;然而这群印度作者连讨论都没有,显然很不入流。

其次,HIV病毒已经人传人100多年了,几百万个变种都是为侵入人体细胞而演化出来的。nCov虽然很新,却已经是所有冠状病毒中人传人能力最高的(但是致死率也最低);那四个独特的段落都发生在Spike glycoprotein之上,也就是病毒表面的抗原蛋白,负责接触寄主细胞,方便传染用的。所以除了统计偶然之外,也可能是趋同演化。总之,作者那句“不可能是天然的”天外飞来,完全缺乏逻辑论据;必须先排除统计偶然和趋同演化两个远远更自然、更可能的解释,但是他们连尝试都没有做。如果硬是要说那四个基因段落是人工加上去的,那么更必须解释爲什么要用HIV来抄袭增加传染力的基因。HIV的可怕,在于1)它主动攻击免疫系统;2)它能躲到内脏深处,很难根除。传染力是HIV的弱项,若要抄袭,应该抄流感才对。所以这群印度人的电脑搜索结果,其实是证明了HIV没有被用来人工合成nCov,刚好和他们的结论相反。

中国网络上的大V们,前一分钟才骂北京的研究人员只花了两三个礼拜就急著出论文在国际一流期刊发表,下一分钟连气都不必换就可以拿印度人只花了几分钟就做出来的预印本来造谣、传谣,居然还不知道是在自我矛盾。这基本上是因爲他们造谣的流量收穫很大,成本却是零,不到几天,他们的读者就把这些谎话忘光了(参见前文《大娄子的零后果》)。有了E-Government之后,应该要求这些大V的年度发言必须有至少50%正确,否则每个谎言按一个读者一块钱来罚款;有了成本,才有可能让这些人收敛;群衆本身必然没有能力来纠正这个乱象。

不同意我这些意见的人,很简单,留下实名身份做记录,我们等半年看看谁对谁错。上次我被这样质疑是两年多前,我说悟空卫星的所谓重大发现是统计噪音(参见前文《谈悟空卫星》),整个中国高能和天文行业里几千个人在《知乎》上骂,什么髒话都出来了,结果一年后复盘,这些一度呱噪不停的猴子不是都全部噤声吗?连一个有品格能承认错误的都没有。所以大衆必须明白,有品格有见识的人,万中无一,网络上几千、几万个流量明星,比不上一个坚持说实话的人。”

【后注】结果这次不用等一年,不到一天,印度人就被迫道歉撤稿。原因正是我在正文中指出的,他们没有考虑统计偶然。别的能搜索同一个资料库的生化研究人员,重複了他们的伎俩,发现那4个段落在其他病毒样本出现的频率远远更高。这是因爲DNA只有4种字母,一串6个字母的段落只能有4^6~4000种变化。换句话说,每4000个字母就可以预期它出现一次,而每个病毒样本就有几千或几万个基因字母,每一类病毒在资料库里有N个样本,那么印度式的搜索自然会找到超过N个对应。

最近更新的专栏

全部专栏