富豪榜幂率尾分布的是与非
编者按:
以往关于高收入人群财富分配研究的一般性结论认为,收入/财富分布的上尾(upper tail)服从幂率分布,常被提及的是富豪榜幂率尾现象。
本期推送的文章对此提出了质疑,并利用《福布斯》等商业杂志提供的富豪榜数据集进行了检验。结果发现,幂率分布仅拟合了35%的数据集。同时作者验证了4种拟合效果较好的替代分布,包括指数截断的幂率模型、指数模型、拉伸指数模型、对数正态模型。
这是社论前沿第S1242期推送
微信号:shelunqianyan
引 言
作者Michal Brzezinski从三个方面对以往大多数文献提出的“收入/财富分布的上尾(upper tail)服从幂率分布”的结论提出了质疑。第一,多数研究采用传统幂率分布的验证方法,即在双对数坐标下幂率分布表现为一条斜率为幂指数的负数的直线。但是这种方法得出的幂指数通常是有偏的,因为幂率分布拟合的是数据的上尾部,即某一阈值以上的数据,因此若想估计一个无偏的幂指数必须先估计阈值。很多实证研究忽略了这一点。第二,拟合优度R^2不能作为数据服从幂律分布的标准,因为其他分布在数据的某一范围内表现出较好的拟合效果。第三,以往大部分研究并没有排除其他分布的可能。
幂率分布的简要介绍
幂率分布的概率密度函数可以表示为,
为大于0 的常数。该分布的概率密度函数表现出“长尾”现象。对数变换之后可以表示为
。因此在双对数坐标下,幂率分布表现为一条斜率为负数幂指数的直线,这一线性关系通常被视为判断给定的实例中随机变量是否满足幂律的重要依据。
对“长尾”分布研究做出重要贡献的是Zipf和Pareto。哈佛大学语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与其名次的常数次幂存在简单的反比关系,这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20法则,即20%的人口占据了80%的社会财富。个人收入X不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系,即为Pareto定律。
数 据
1996-2012年福布斯全球富豪榜,1988-2012年福布斯美国富豪榜,2006-2012年福布斯中国富豪榜,2004-2011年俄罗斯商业杂志Finans发布的俄罗斯富豪榜。
方 法
Michal Brzezinski利用Clauset et.al(2009)提出的方法检验财富榜数据是否服从幂率分布,密度函数为:
为阈值,对
的观测值,采用半参数自助法估计幂指数
并对模型进行KS(Kolmogorov–Smirnov)检验(Goldstein et.al, 2004)。
结 果
图1呈现了所有数据集的估计结果及拟合优度检验结果。估计结果表明,随着时间推移,各地区的幂指数保持相对稳定的状态。但是在全球样本中,只有约306个观测值(总样本的44%)超过了阈值。美国、俄罗斯和中国超过阈值的观测值也分别只有268(60%)、261(57%)和220(55%)。根据KS检验结果,全球富豪榜、美国富豪榜和俄罗斯富豪榜的大多数数据集不符合幂率分布。俄罗斯只有25%的数据集服从幂率分布,全球富豪榜和美国富豪榜也只有28%-29%的数据集服从幂率分布。中国富豪榜的拟合效果最好,只有2008年的数据不符合幂率分布。图2(左)和图2(右)分别给出了拟合效果差(p-value=0.02)和拟合效果好(p-value=0.64)的两个例子。
这些结果表明,至少对于可观测的“富豪榜”数据,财富分配可能不遵循幂率分布。但是也不排除另一种可能。本文所使用的方法假定数据是独立同分布的,而富豪榜上有一部分人的财产是从父母那里继承而来,因此给定的福布斯排行榜可能包含多个具有相同或类似极端财富值的群体。
作者选取了4个可替代模型与幂率模型的拟合效果相比较,包括指数截断的幂率模型、指数模型、拉伸指数模型和对数正态模型(各模型的概率分布函数如表2所示)。表1为幂率模型与4个可替代模型相比较的似然比检验结果。正的(负的)的表示,与其他可替代模型相比幂率模型的表现更好(更差)。根据表1的结果,幂率模型只在全球富豪榜1999年和中国富豪榜2011年两个数据集中表现得比对数正态、指数、拉伸指数模型表现得好(且多数不显著)。由于指数截断的幂率模型包含了幂率分布的特殊情况,所以指数截断模型总是表现得不差于纯粹的幂率模型。
关于Brzezinski Michal一文的两点思考:
① 从5个模型的比较结果来看,幂率模型显著优于指数模型;虽然对数似然模型、拉伸指数模型和指数截断的幂率模型优于幂率模型(多数小于0),但是p值普遍大于0.1。因此,幂率分布仍不失为描述富豪榜数据的一个很好选择。
② 从图1可以看出,中国富豪榜数据(除2008年)相对较好地服从了幂率分布。