关于淘宝三次拟合造假的一两个可笑之处

废话不多说,我们同样取十个点,链接为国家统计局北京市1999到2008年GDP核算http://data.stats.gov.cn/easyquery.htm?cn=E0105,如下图:

500

那么下一步就是像某人一样用此数据做三次回归,也就是y = ax + bx^2 + cx^3 + e,计算R^2如下:

500

这就是所谓”拟合“,本人的也不差嘛,99.88%,哼哼,北京市GDP核算造假了吧?做个预测简直是轻轻松松嘛... 唉,真替某些人着急啊...

所谓统计学的模型,引用一句George Box的名言,想必各位业内都知道的:

500

先不说这个三次回归,某人所谓的“拟合”也就是R^2叫做Coefficient of Determination,也是一种模型,只不过年代久远(1921),来源于 Sewall Wright 那片大名鼎鼎的文章 “correlation and causation”。具体的就不长篇大论了,现代统计学中其实我们已经较少的用到R^2来判断某个模型的拟合度了,原因很简单,随着你变量的增多,比如变为四元四次: y = ax + bx^2 + cx^3 + dx^4 + e,这时候我们再去计算:

500

R^2 = 0.999,变量多了残差的自由度降低,最后到了x^9那么R^2 = 1。针对这个问题后人还发明了很多方法,比如adjusted-R^2等等,甚至根据目的和模型假设的不同已经细化为多种指标,这里就不赘述了。

其实尹某人最为严重的错误,是把年份直接用来当成自变量拟合,这是完全错误的!带有时间属性的数据,时间本身不能作为变量直接套用回归模型,因为这违背线性回归模型自变量相互独立的基本假设,这种行为产生的模型直接就是无效的。在统计学中的建模,最开头除了要对数据有一个基本方向之外,必须要对数据做检验,看看其是否能够满足模型的基本假设,绝对不是随随便便套个几次方程就完事... 一般来说很多学生会选择陈平大佬最看不起的随机过程衍生品,也就是今天流行的时间序列,这已经是最低要求,可以见得微博上公知的可笑之处。

PS:不管加多少指数x^2还是x^9,都叫做线性模型,所谓线性指的是 y = ax + bx^2 + e 的系数a,b,而非自变量x。

站务

全部专栏