Ex.3. VMP 总览篇——海尔波普彗星般的假数据(上)

VMP全称Virtual Manhattan Project(虚拟曼哈顿工程);截至2020年11月,VMP统计了包括但不限于Cover本部虚拟主播的直播结束时的数据,并对统计结果作出分析。在此放出一部分成果。

本文各图中的view(直播结束时的点击量)与like(点赞量)都分别除以了对应的总体中位数,不然轴太长不好观察。

500

图一 Cover总体直播数据总览图 此时未做任何处理

首先Cover,彩虹社,以及某youtuber的直播数据如图二到图四所示。图二到图四的横纵为每一场直播结束时的点击量(view),纵轴为对应的直播结束时的点赞数(like)。换而言之,图中的每一个点都代表了某场直播结束时的点赞数与点击量。

500

图二 Cover的总体数据

500

图三 彩虹社的总体数据

500

图四 某youtuber的直播数据

可以看到与彩虹社以及某youtuber的数据相比,Cover的数据集中出现在四条径直的直线上。而彩虹社的数据与某youtuber的数据却保持了相当的离散性。因此,对数据进行染色处理。若某场直播的数据落在该直线上,便被染成蓝色。由图五可知,Cover的数据高度集中在四条直线上。

500

图五 对Cover的总体数据进行染色

那什么因素会导致Cover的主播的点赞数与点击数如此古怪,并呈现出多个稳定的比例,即多条直线?换而言之,为什么Cover的“观众”如同邪教教徒一般,无论直播点击数多少都稳定地保持着这些点赞比例?

正如之前《Ex.2. 活人与假数据》所陈述,Youtu.be对假流量的清理是十分严格的。因此,即使水军刷的数据存活率高,也要有个限度,不然刷得过多会被Youtu.be识别出来清除掉。严重时甚至会标记水军机房IP,导致无法批量刷数据。

基于这种情况,水军刷数据会有设定一个“合理”限度,刷数据时并不会超过该上限。但是为了追求刷流量效益最大化,大量水军工作室会将数据堆到上限附近。因此,刷出来的数据会呈现线性相关。简而言之,图四中的直线便是其大量买水军的特征表现。

同时,可以对不同直播点击量下的观众点赞行为进行分析并进一步验证。若雇佣了大量水军,水军相对固定的行为模式将极大影响点赞与观看行为,导致无论直播点击量多少,其点赞模式保持不变。换而言之,五千点击的直播与五十万点击的直播有类似的点赞比。然而在正常情况下,在点击量高时点赞比难以维持高位,因大量路人不是忠实观众,不会热衷于点赞。

具体分析方法如下:

首先需要判别哪些数据是主体数据,避免极端数据的干扰。图五的横轴为直播结束时的点击量(view),纵轴为有该点击量的视频的相对个数(density)。换而言之,无论是Cover的主播还是彩虹社的主播,或者某youtuber,他们直播结束的点击量主要落在0-3这个区间内。因此,取0-3区间的数据进行进一步分析。(图六)

500

图六 判别将要分析的数据区域

在选取了将要分析的数据后,对该区间的观众点赞行为进行分析。横轴为点赞数/点击量,纵轴为该点赞比的相对出现次数。可以看出在0-3这个区间下,有4个点赞顶峰。换句话说,图七反映了Cover的观众在0-3这个点击量下的点赞行为模式,特征为4个对应点赞比顶峰。

500

图七 0-3数据大区的点赞比走势

在完成对0-3整个数据大区的分析后,对该大区进行切分分析,用以研究Cover的“观众”在不同直播点击量下的点赞意愿。首先将0-3这一个区间分成了0-1,1-2,2-3三个区间,即较低播放量的情况,中等播放量的情况,较高播放量的情况

500

图八 不同点击量下的直播的观众点赞走势 可以看出四个点赞峰很稳定 整体走势趋同

那么运用图七到图八的分析手法,对彩虹社的主播数据以及某youtuber的主播数据进行切分分析。可以看到彩虹社的主播数据与某youtuber的直播数据在中等与较高播放量的情况下,出现了变形。换句话说,就是彩虹社的观众在高播放量的直播时,点赞意愿会改变。这与Cover的情况不一致。Cover的“观众”在高播放量的直播时,仍保有了原有的点赞意愿。

500

图九 彩虹社的点赞行为走势 可以看出在中高点击量的情况下 观众点赞模式变形

500

图十 某youtuber的观众点赞走势 可以观察到 在中等和较高点击量时 观众点赞模式变形

这也与图二和图四的数据分布相对应。可看到图十一的红圈部分与图十二的蓝圈部分,即彩虹社的高点击量直播有着比较低的点赞数,与Cover的情况差别极大。Cover的直播在高点击量的情况下仍保持了高赞,并呈现出线性关系。

500

图十一 彩虹社的高点击量直播有着比较低的点赞数 因大量路人观看直播不会点赞

500

图十二 高点击量下的低点赞比 因大量路人观看直播不会点赞

换而言之,Cover的“观众”无论直播点击量多少,都保持了十分稳定的点赞意愿,并且稳定到足以表现出线性相关关系。无论直播内容是什么,直播时间点与观众契合与否,直播点击量是五千还是五十万(即路人观众多寡),只要凑足了十个“观众”,就能出一个点赞的“铁粉”。此1:10的比例出自本文图四中各直线的斜率“0.095,0.105,0.120,0.135”。除非这些“观众”是水军或者邪教教徒,或者两者都有,不然难以解释步伐如此统一的点赞模式。

总结一下,截至2020年11月,Cover的油管直播数据造假严重,受水军影响大。可是数据趋势为什么呈现出4条直线,而不是1条,2条,3条,甚至5条呢? 

原动态:

1)https://t.bilibili.com/522673283432332789?tab=2

2)https://t.bilibili.com/522750558482297614?tab=2

全部专栏