中山二院某实验室肿瘤发生率真的很高么?
这几天,最大的热搜莫过于中山二院某实验室多人患癌的消息了。各种截图、各种消息满天飞,总结起来大概有几条可以确认的消息:
1、同一课题组多名学生“集体”患癌,3个博士、1个博后,还有六个待确认;
2、都小于30岁,全是罕见型,甚至不少都转移/晚期了;
3、不似偶然,推测可能是实验试剂造成,但院方想当偶发事件处理;
4、课题组导师苏某将一患癌博士学生直接从各个微信群踢掉,在该学生刚刚拿到癌症病理报告之后。
Swagpp,公众号:梅斯医学中山二院乳腺科多名医学生集体患癌?医院凌晨2点发通告!果真是实验试剂惹的祸吗?
医院也发布了通告:
无论如何,可以肯定的是确实该科室确实有3人罹患恶性肿瘤。
咋一看,一个小小的实验室,竟然同时有3人患癌,癌症发生率很高,再联想本身这个实验室就是做肿瘤研究的,那么实验试剂和实验室环境导致癌症这一可能性似乎很大。
那么,同一个实验室3人患癌,这个癌症的发生率究竟是不是过高了呢?
前面已经有公众号进行了简单的论证【1】,他们用的是网上搜索的全球的数据作为对比。
他们同时把所有3例癌症全部替换为乳腺癌,计算方法是简单的卡方检验和计算OR值的方法。
最后得出的结论是实验室肿瘤发生率1.5%(3/200)显著高于平均水平0.031%(31.8/10万),P值为2.2e-16,而且OR值为47.87。大概理解就是实验室肿瘤的发生风险约等于平均水平的48倍。
说真的,看到这个数据我也震惊了,但作为丁香公开课金牌讲师、《零基础发表临床回顾性研究SCI》主讲、《临床回顾性研究实用指南》主编、指导学员超过5万人、拥有十年临床科研统计经验的我觉得似乎有点不太对劲。
这个计算方式明显犯了几个经典的统计学错误:
1. 用的是世界平均肿瘤水平,而不是中国数据,数据来源不是专业期刊,且把3例肿瘤都归纳为乳腺癌,操作过于粗糙;
2. 把患病率和发病率混为一谈,这是最关键的错误。3/200计算的是患病率,反映的是当前患病人数的占比。而乳腺癌的31.8/10万是发病率,里面是有时间的概念的,反应的是每年发病的患者数。
3. 统计学方法选用不当,3/200明显是样本量较小,预计的病例数大概率小于5,不应用卡方检验,而应该用Fisher精确概率检验。
于是,我决定自己去操作一下,确定一下这个实验室的肿瘤发病水平是否过高。
第一步,进行研究设计。
我们的目的是比较实验室人员和其他人员在肿瘤的发生上面有没有区别,这是明显的队列研究设计。
因为肿瘤已经发生,所以是回顾性的队列研究。暴露因素就是在实验室工作。根据医院公告的说法,实验室队列200人,时间范围是2009年-2023年,每一个人的暴露时间约为5年。
对照的队列没有,需要我们去找一个标准队列。
于是我去Pubmed上检索,找到了一篇非常合适的研究作为对照队列【2】。
这篇研究是一个正儿八经的前瞻性队列研究,用的是中国百万人队列(China Kadoorie Biobank, CKB)的数据,研究时间2008-2013年。中国人,肿瘤队列,2008-2013,总体的样本和时间都比较接近,可比性比较强。
我仔细阅读了一下文章,数据也很详实,完全可以用来作为非暴露队列。
第二步,提取关键的数据,做成数据统计表。
实验室队列(Lab cohort)的数据相对容易统计一些,按照官方通报的说法,200人的队列(subjects=200),按照暴露5年计算,人年(No. of person years)为1000。共3例发生肿瘤(cases=3),其中男性1例、女性2例,乳腺癌1例、胰腺癌1例、滑膜肉瘤1例。
接下来我们统计非暴露队列的数据(CKB cohort)。这个数据包括城市和农村的数据,因为实验室在广州,肯定是城市,所以我们选择城市数据。可以看到,CKB cohort例数为219,286,共发生7931例肿瘤(Cases=7931),人年(No. of person years)为1531684。男性88537例,发生肿瘤3714例,女性130749例,发生肿瘤4217例。具体数据如下图所示。
那么,我们就可以把这些数据提取出来,做成统计表,并计算发生率(incidence),这里我们把实验室男女比例粗定为1:1。
计算可得,实验室的肿瘤发生率为300(每10万人),对应的CKB的数据为517.8(每10万人);实验室男性的肿瘤发生率为200(每10万人),对应的CKB的数据为606.5(每10万人);实验室女性的肿瘤发生率为400(每10万人),对应的CKB的数据为458.7(每10万人)。无论总体、男性、女性,似乎差别都不大,至少没达到一个数量级的差别。
为了更加精确,我做了亚组的分析,把三种肿瘤考虑在内。CKB详细肿瘤的数据原文中没有提供,我到Supplemetal material中找到了数据,并且根据原文中提供的bar图中的发病率反推出了发病人数。但是由于滑膜肉瘤发生率实在太低,CKB队列中没有报道,所以我又找了一篇文章【3】,得到美国滑膜肉瘤的发生率约为0.142(每10万人)。
第三步,统计分析及绘图。
为了更加直观,我们首先做一个bar图,然后做一个简单的统计检验。这里我用的是R软件,并且设置了条件,如果期望的频数小于5则采用Fisher精确概率检验。计算可得,无论是总体、女性、男性,肿瘤的发生率的差异都没有统计学意义(P=0.446,0.887,0.311)。
进一步的亚组分析也表明,无论是胰腺癌、乳腺癌还是滑膜肉瘤,有没有统计学差异(P=1.000),P值等于1是由于样本量太小的原因导致的。
为了更加准确,我们计算一下相对风险比(Relative risk,RR值)。还是用R计算。可以看到,无论是总体、乳腺癌、胰腺癌,RR值的计算都没有统计学意义。
第四步,讨论。
我们从医院给出的通报中的数据以及CKB的城市队列数据分析,发现无论总体、性别、肿瘤类型,该实验室工作人员肿瘤发生率与整体水平均没有明显的差异。
当然,根据网络聊天截图的说法,有6位实验室人员患癌,那么该实验室肿瘤的发生率还会翻倍。另外,我们不能确定其他200人中有没有在实验室期间发生肿瘤。
但无论如何,该实验室肿瘤的发生率绝不会达到比平均水平高47倍的可怕程度。
最后,说一点题外话——
我们都为这几位同道的不幸感到同情,也为实验室导师把她剔除群聊感到可悲和愤怒,但这不构成我们去以讹传讹、去诬陷抵赖的理由,用科学的方法解决科学问题才是真正的理性思考。
最后,热度终将褪去,可以预想的是,照例会有医学生奋不顾身地报考该大佬的研究生,然后在实验室挥洒青春。患病的师姐也终将被遗忘,也许只是在若干年后被人提起,成为大家的谈资。
不知道师姐知道自己患病的消息时候,是否会后悔没有多陪陪家人,没有多看看这美丽的世界,而是把自己的青春美好献给了导师和实验室,换成了一篇篇SCI和课题。
我无意诋毁奋斗和努力,我只想说,这一件事其实是不是在提请诸位,包括我自己,到底什么才是生活的真谛?
参考文献:
2.Pan R, Zhu M, Yu C, Lv J, Guo Y, Bian Z, et al. Cancer incidence and mortality: A cohort study in China, 2008-2013. Int J Cancer. 2017;141(7):1315-23.
3.Gazendam AM, Popovic S, Munir S, Parasu N, Wilson D, Ghert M. Synovial Sarcoma: A Clinical Review. Curr Oncol. 2021;28(3):1909-20.