【量化】回答沈逸老师,新冠疫情下越民主死的越多么?

之前,沈逸老师在一场关于中美关系的讲座中CUE了“做量化的”,并留了个作业

作为日常搞量化研究的社畜,这个视频一是为了交作业,用量化的方式验证沈逸老师所说的“医疗资源越高、越民主,死的人就越多”;

二是作为观察者网观察员,风闻、b站的老白piao,这两年看着经济、文化、自然等各个领域的科普内容百花齐放,也激发了我想把“宽客”的研究日常搬上来的欲望。

所以在我的视频中,我会尽量还原我的研究过程、甚至一些重要的研究细节,如果大家有什么想法,欢迎在评论区和我讨论

解题先审题,从量化的视角看,沈逸老师布置的作业,是想要寻找:

解释变量“民主”、“医疗资源”

被解释变量“新冠死亡人数”

之间是否存在以下两个关系:

1. 两个解释变量之间是否存在较高的正相关关系,以验证沈逸老师的前半句话“医疗资源越高、越民主”;

2. 解释变量和被解释变量之间是否存在的稳定的量化关系,这个量化关系,最简单的,可以是:

(Y=a*X1+b*X2+c),其中,只要系数a、b都大于0、且在统计学上具有一定的显著性,那么我们就可以验证沈逸老师的后半句“死的人越多”。

但是,现在比这些量化关系更重要的在于数据。对量化研究而言,底层数据质量直接决定结论的可信度。

所以,我一半的时间都花在寻找数据和处理数据上。然后,我……秃头了。

首先,对民主的衡量,沈逸老师已经给了参考资料:民主之家的民主指数。但是我们查遍了各类网站,发现可获取的权威数据中,只有自由之家的自由指数和《经济学人》旗下智库编制的“民主指数”。PICK谁?This is a question。通过分析,我发现两者相关性达到95%。并且,只有后者符合沈逸老师提出的四分类。

因此,在后续的研究中,我使用了《经济学人》的民主指数数据。从2019年民主指数世界地图看,颜色翠绿的北美、大洋洲、南美和欧洲的民主指数,普遍高于山河一片红的亚洲和非洲。

500

500

不过,我们在进一步观察这个指数的数据质量时,发现一个很有意思的现象:自从2006年民主指数公布以来,美国的得分一直很高,但是在2016年懂王上台之后,美国首次从完全民主国家降级为部分民主国家,并且,此后一直稳定在“部分民主”国家的行列。

后来《经济学人》还官方出面解释了这个问题:这并不是由于唐纳德·特朗普的当选。而特朗普的当选却是美国民主劣化的其中一个结果。

民主指数搞定,医疗资源的衡量也是一个比较头疼的问题。我以“医疗”、“资源”为关键词谷歌了一下,最终找到一篇2016年发表在医疗权威期刊《柳叶刀》上的学术论文《Measuring performance on the Healthcare Access and Quality Index for 195 countries and territories and selected subnational locations: a systematic analysis from the Global Burden of Disease Study 2016》,这篇论文通过对全球195个国家和地区的32种疾病的治愈率和死亡率进行打分,最终计算出“医疗可及性和医疗质量指数”,简称HAQ指数(Healthcare Access and Quality Index,HAQ指数)。

500

从HAQ指数地图上看,民主得分较高的北美、欧洲、大洋洲,仍以表征HAQ得分较高的冷色调为主,而民主指数相对较低的亚洲和东欧国家,同样有较高的HAQ指数得分。所以仅直观观察,目前还无法得出“医疗资源越丰富、越民主”这样的正相关结论。

500

这儿再插一下咱们国家大陆地区HAQ指数情况。

1990年到2016年,我国大陆地区的HAQ图谱完成了从暖色到冷色的蜕变。截止2016年,大陆地区的HAQ指数得分为78分,在195个国家中排名第48位。同时,东部沿海地区多个城市的得分达到82分以上,排名位于世界前列。这背后,不仅仅是我国医疗水平的进步和医疗资源的丰富,还有医保惠及全民带来的医疗可及性的提升。而在疫情这类公共卫生危机期,医疗可及性的提升可能才是降低死亡的关键。

500

最后一组数据,是被解释变量“新冠死亡人数”,但这个数据的绝对值是无法直接应用在此次分析中的。因为如果一个数亿人口大国的死亡人数,与一个百万人口小国的死亡人数相同,那么数据背后代表的是截然不同的疫情严重程度,因此为了排除人口基数带来的影响,此处我们使用衍生指标:

每百万人死亡人数=(总死亡人数/总人口)*100万

衍生指标中所需要的死亡人数和总人口,都是官方公布数据,Our World in Data这个网站(官网链接https://github.com/owid/covid-19-data/tree/master/public/data)将这些数据做了统一的收集与整理、且每日更新、方便提取,因此我们的数据主要来源于这个网站。这里我还要着重安利一下这个网站,Our World in Data收罗了很多领域的高质量数据,比如在后续的深入研究中,我们利用到的隔离程度、卫生情况、病床数量等数据,也都来自于这个网站。

好了,到此,让我秃头的数据部分结束了,验证观点的时刻正式开始。

Question1:医疗水平VS民主指数

最直观的,画一个散点图, HAQ指数(医疗水平)作横轴,民主得分作纵轴, 把各个国家变成一个个坐标点后,能看到他们确实存在一个斜向上的趋势。

定量一点,可以用“相关系数”来衡量变量间的相关性水平。民主指数和HAQ指数的相关系数为0.61。统计学中认为,相关系数绝对值在0.6以上代表强相关,所以这算是论证了

“在统计学上,医疗水平和民主水平具有较强的正相关性”

Question2 : 医疗+民主 VS 死亡人数

我也尝试用画图这种简单粗暴的方法来验证。所以在之前的散点图上,加入了圆圈大小来表示死亡人数的信息,散点图的左下角和右上角的两大极端,正好佐证了沈逸老师的观点。But,中间区域的圆圈大小更类似随机分布,没什么规律,所以目前只能得到:

仅部分国家呈现“医疗越好越民主、死的人越多”的规律。

哦,这儿插一句,美国,你真是个优秀代表!(鼓掌)

500

BUT,在量化世界里,定性再美终是辅助,定量才是最终归宿,所以一切以数据为准。(考虑到数据可得性,以下研究仅以GDP TOP50的国家作为样本)。

想建立一个类似这样的方程来分析医疗民主和死亡人数之间的关系(Y=a*X1+b*X2+c),最简单的方法是做回归。(这里已经做了共线性等检验,此处不再赘述。)

回归是方法,实现靠代码,代码写得好,量化不难搞。RUN一下、结果出来了(liao)。

回归结果认为,死亡人数与民主和HAQ呈现这样的线性关系,由于两个系数a、b均为正,因此这个回归公式优秀的证明了“医疗水平越高、越民主、死的人越多”。

每百万人死亡人数 = 30*民主指数+0.15*HAQ指数+11

BUT,在详细看了回归参数后,发现事情没有这么简单。

首先,调整后R方代表回归结果对因变量的解释度,数字越接近1,代表等式左边越能完美拟合因变量。这里调整后R方为0.022,约等于:用这个公式,还不如瞎猜咯。

500

500

P值代表自变量前的系数的可靠程度,这里HAQ的P值是95%,代表有95%的概率认为HAQ对死亡人数木!有!影!响!

500

算算算!算了一堆!算出了个寂寞。)

500

在此,艾特一下沈逸老师,做量化的算不出来民主医疗和死亡人数之间的显著关系!!!!

做俩月了!不能用这个结果END!(呐喊)

我反思了一下,之所以不显著,可能因为民主、医疗并不是非常有效的解释变量,也可能在控制了其他变量之后,民主和死亡的相关性就会提升。

路漫漫其修远兮,吾将,再找变量!

通过查阅文献和头脑风暴,我新增了十几个可能与死亡人数相关的变量:检测能力、隔离程度、经济发展程度等等。这些异想天开的数据,大部分数据都可以从Our World in Data找到。在此,仅代表所有的量化人,衷心的感谢能提高工作效率、减少秃头面积、维护家庭和谐、有利身心健康的Our World in Data。

500

500

考虑到数据较少和实际含义等因素,我采用逐步回归法来验证。这里通俗的解释一下,逐步回归就是把变量一个一个的加入到回归模型中,检查之前提到的那些拟合参数有没有变好,如果变好了就保留,如果没有显著变好,就剔除。

一通代码猛如虎、RUN了之后发现有点靠谱,最终,拟合出这个公式:

每百万人死亡人数 = 51*民主指数+8*政策严格程度-553

其中,调整后R方为0.18,确实算不上特别显著,但这已经是包含民主指数后,最显著的回归结果。

500

并且系数的P值都非常显著,基本上代表有98%以上的概率,相信上述关系成立。

500

每百万人死亡人数 = 51*民主指数+8*政策严格程度-553

这个来之不易的回归公式,代表当国家间的政策严格程度相同时,民主指数每提高1,基本意味着:这个国家每百万人中将增加50人死亡。

如果某个国家,和美国一样,正好有3亿左右的总人口,那么民主指数每提高1,疫情死亡人数就增加1.5万人。

做完作业,已是深夜,发给沈逸老师后,我陷入了思考:新人UP主,怎么要一键三连,才显得比较矜持?

好好玩模型,量化观世界

评论区:

更多思考:每百万人死亡人数 = 51*民主指数+8*政策严格程度-553,这个回归公式中政策严格程度也和死亡人数呈现正相关关系,怎么解释?

我去深扒了一下政策严格指数,这个指数是牛津大学编制的,根据社会封锁政策(包括关闭学校、工作单位;关闭公共交通工具;限制大型集会)、经济政策(收入政策,即政府直接向失业人员发放现金补助)、医疗系统政策(包括接触追踪)、其他四个方面来打分。

这个打分体系中的社会封锁政策,关注到了停工和集会,却没关注到Happy和Party,如果疫情期间利用停工停学时间外出聚会,那么确实有可能导致正相关关系。

以上纯属猜测

站务

  • “答案”来了!

    2020年,因为疫情,人类命运休戚与共,而新冷战、新形势,挑战重重。如何描述过去一年,对未来,又该如何展望?很快啊,很快,“答案”来了!2020年11月28日-29日,观传......

最近更新的专栏

全部专栏