中国福利彩票是简单的概率问题吗?

以双色球为例。「双色球」每注投注号码由6个红色球号码和1个蓝色球号码组成。红色球号码从1--33中选择;蓝色球号码从1--16中选择。如果6个红色球和1个蓝色球全部正确,那么中一等奖;如果6个红色球正确但是蓝色球不正确,那么中二等奖。

因此,随便买一注双色球彩票,它中一等奖的概率为:

500

【双色球历史数据】

,我们可以下载到从2003年至今共1756期双色球的中奖情况。其中,总投注额除以2就等于当期的投注数量。那么,按照每一期的投注数量和每一注的中奖概率,我们可以用蒙特卡洛模拟来算出每一期的一等奖数量。先做三次模拟:

500

三次模拟之间的形状有一些细微的差别,

平均值在6.04到6.1之间,标准差为4.2左右。他们的一项共同特点是:尾部缩小很快,且一期中很少有可能会开出超过20注一等奖。

20注一等奖?

我们再多做一些模拟,每次仍然模拟1756期,并且每次模拟都记录下来有几期开出了20注以上一等奖。为了编程方便,我们共做了1756次模拟,得到下图:

500

可以看到,共有3.4%的模拟是没有一期开出超过20注一等奖的,有21.8%的模拟开出了3次超过20注一等奖。在1756期里开出9、10次超过20注一等奖的模拟,占全部模拟的0.62%。

上面是理论的计算,但实际上发生了什么呢?

500

可以看到,我们得到的1756期真实开奖结果有一条非常长的尾部——有许多期不只是开出了20多注一等奖,最多一次甚至开出了117注一等奖。

计算机的模拟和真实世界的结果毕竟还是有区别的,否则就不会有那么多「黑天鹅」事件了。例如,每注彩票的选择不是相互独立的,还有选中一个号码然后倍投的现象呢。此时,如果开出了20注以上的一等奖,也有可能因倍投的情况而使得该期的一等奖远大于20注。但好在双色球是一个可以用古典概率简单算出来的东西,我们可以不去考虑到底开出了几注一等奖,而是考虑开出20注以上一等奖的可能性有多大。用简单的概率可以算出,一期开出超过20注一等奖的概率等于

500

为当期的总投注数量,

为每一注的中奖概率。

使用这1756次的真实投注数代入后,可以算出:

理论上,会出现3.3期开出20注及以上一等奖,占总期数比。

但实际上,共有86期开出20注以上一等奖,占总期数比4.9%

0注一等奖?

使用真实的投注量,我们可以算出这1756次开奖平均每期应当可以开出6.09注一等奖,其99%置信区间在5.96到6.23之间。

而真实的数据中,每期平均开出了6.18注一等奖,哇,接近理论值的99%置信区间上限呢,这是不是说明开奖的情况和理论值是相符的呢?


​别忘了,真实数据中出现了反常多的期数开出了20注以上一等奖。当我们把20以上的尾部排除后,剩下的结果的平均值却仅剩下了4.76,远远低于于理论预测值的99%置信区间的下限。

500

上图是排除了开出20次以上一等奖的情况后画出的图。问题出在哪儿呢?一个很明显的差别出现在0注一等奖的情况。在模拟中,1756期中开出0注一等奖的期数一般在80到90次之间。但事实上,共有195期连一注一等奖都没有开出来。

在模拟中,最后一次开出0注一等奖的时期一般都会早于2009年——在2009年之后,由于每期投注量大增,连一注一等奖都开不出的可能性已经趋近于零。

但在实际情况中,09年之后还有17期连1注一等奖都没有开出来,最近一次出现在2014年4月17日,当时的总投注量为186509167注,开出0注一等奖的概率仅有十万分之2.7。但是,0注一等奖还是给开出来了。

问题不仅出在0注上。在模拟中,一期开出0到3注的比例大约在三分之一,也就是590次左右。但事实上,这1756期中有837期开出了3注以下一等奖,占比为47.7%,接近一半。

换句话说,双色球的开奖情况,由概率论计算出的分布,和真实出现的分布,出现了很大的差异。

在开出20注以上一等奖的比例与3注以下一等奖的比例上,真实值都要远高于理论值。如此保证了平均每期的一等奖注数和理论值吻合。

那么,「双色球」到底是怎么开的呢?这个判断,交给读者。

毕竟,给猴子一台打字机和无限多的时间,它也一定能够打出莎士比亚全集。所以,即使我们看到了猴子真的打出了莎士比亚全集,也不要激动,那有可能是真的呢。

当倍投存在时,一等奖的开出分布和之前的理论分布会有所不同,我在之前没有考虑到这点。

由于全部数据暂不可得,我们首先假设人们在购买双色球时的倍投分布在2003年到2014年间不变,各倍的倍投占总投注额的比例如下图所示:

500

可以看到,单注购买占总投注额的73.7%,接下来是5倍倍投,占比5.5%;以及2倍倍投,占比5.08%。甚至有1%的销售额是来自100倍的倍投。将这一系列倍投比例分配到每期的投注额,可以每期分别计算一等奖的开出次数。将一等奖开出次数的真实值、预测值(不考虑倍投)和预测值(考虑倍投)放在一起,可以得到下图:

500

可以看到,考虑了倍投之后,0到2次的一等奖开出次数比起不考虑倍投的红色柱状图上升了,由407次上升至496次;20注以上一等奖的比例也有所上升,由原本的预测的5次上升至42次。但是,这个分布仍然距离真实的一等奖分布甚远。

要计算能够产生真实分布的投注分布,一个最简单的方法就是从单注开始计算。由于只出一次一等奖的情况只可能由单注购买的投注产生,因此只要计算出在什么比例下,1756次双色球能够产生230次一注一等奖即可。容易计算出,大约为53%的投注份额需要是单注投注。

但是,按照2010年某省的单注投注份额在73.7%的结果来看,要让全国总体达到53%的单注投注份额,相当困难。

因此,在获取全国所有更多的数据之前,我还是保留对双色球开奖所产生的一等奖分布的疑问。

站务

全部专栏