数人头的科学方法丨混乱博物馆

500

某些历史记载中关于人数的部分常常引起后人的争议。比如一场青铜时代的战争有上百万人规模、一次性杀死几十万俘虏,诸如此类。

不过这种有组织的军事活动,大家还是愿意通过各种办法研究,真相总归会越来越清楚。相比下,老百姓自发的聚集于庙会、灯会等场所,其人数就没有那么好待遇了。记录者无非是用各种修辞和虚数夸大一番,数以千计、数以万计、数以十万计、挥汗成雨、集腋成裘,并不能提供任何有用信息。

我们发现似乎在过去几千年里都没有人对这个问题产生什么兴趣。一直到现代以来,人数的展示,成为了一种极为重要的力量。晚至上世纪六十年代末,终于有人用科学的方法解决了这个问题。

-文字稿-

在古代,统计大波聚集者的数量似乎从来不是一个难题。数以万计、遮天蔽日、恒河沙数等等,都是大家常用的计量单位。

500

进入现代,因为某些原因,统计群众规模才逐渐变成一个需要动脑子的问题。

1967年的某天,新闻学教授赫伯特·雅各布斯从办公室的窗口向下望去,学生们正聚集在一起反对越战。广场的地面恰好被水泥伸缩缝划分成许多大小相同的格子。

于是他挑出几个站满了人的格子,数出人数,计算每个方格内的平均人数,再用这个数字乘以方格总数,就得到了集会总人数的近似值。

简单,有效。

500

甚至为了省去数人头的功夫,雅各布斯还将人群密度划分为三个等级(松散人群:1人/㎡,密集人群:2人/㎡,非常密集人群:4人/㎡),方便粗略估算。这是历史上第一个有效统计密集人群数量的方法,被称为雅各布斯方法,相对标准误差10%到20%。

在这之后,人们对雅各布斯方法进行了各种改进并沿用至今,但本质上讲,和最初并没有什么不同,也就是说,分格子,数格子,然后加起来。

比如2010年,著名媒体人格兰·贝克(Glenn Beck)在林肯纪念碑发动集会游行,哥伦比亚广播公司雇佣了一家叫DDIS(Digital Design and Imaging Service )的公司来计算参与人数。

500

他们首先绘制出划好格子的3D地图,在活动当天升起一个带着摄像机的牵引气球,从几十米到数百米的不同高度、不同角度,拍摄活动人群合成360度全景影像。

最后,DDIS将合成的影像覆盖在3D地图上,开始重复雅各布斯的方法:数格子里的人数,相同密度的格子数,人数乘以格子数,得出总人数。

科技继续发展,卫星图像、GIS地理信息系统都被应用于统计集会人数。而通过机器学习,从监控图像里可以对个体进行识别,进而直接统计出人数;

500

人群密集较大时,相互遮挡非常严重,更常见的方法还是通过提取图像的Harris角点特征,或者像素特征,纹理特征,建立图像特征和人群密度的回归模型,进而得到人群密度。

在统计人数这件事上,科技进步的本质,其实是训练人工智能替我们数格子。

如果考虑人群不断移动,精确统计将更加困难。但解决办法却很简单,那就是到群众中去,设置数据采集点。只有一个采集点的话可能会漏掉太多人。因此,更好的方式是……设置两个采集点。

500

两个点的研究人员分别记录通过人数,并随机采访参与者,询问他们是否通过另一个采集点。通过分析受访者行为,可以推测出整个游行队伍的行为比例,进而修正数据中的错误。

至于为何不设置更多数据采集点,那是因为人们通过实践发现,观测点超过两个,除了增加经费,对数据质量并没有什么帮助。

然而,更具有挑战性的其实还是人类的屁股。

还是以2010年的林肯纪念碑集会为例,DDIS估算集会总人数为8.7万,其他各方的估算的数字则相去甚远。每一方都坚信自己的数字更加科学、准确。

500

可见,想让人类在数格子时也保持理性,的确是一种奢求。

内容来自微信公众号:混乱博物馆,ID:chaosmuseum

500

站务

最近更新的专栏

全部专栏