基尼系数公式推导
原理基尼系数是通过劳伦斯曲线衡量不平等性的指数,以衡量收入的不均等性。
基尼系数=劳伦斯曲线至绝对平等线之间的面积/ 绝对平等线至绝对不平等线之间的面积
公式

q is the cumulative proportion of income;p is cumulative proportion of population
公式推导
1 劳伦斯曲线坐标
现有随机变量Y,样本量为n,将样本由小至大排序,得到y1<=y2<=y3<=...<=yn,则:

其中 p 为劳伦斯曲线的横轴,q 为纵轴,i 为第 i 个坐标 ,pi 为第 i 个坐标的横坐标,表示累积样本量比例,qi 为第 i 个坐标的纵坐标,表示累积样本数值比例;
可以推理出来,当随机变量Y为每人的收入时,如果财富集中在小部分人手里,则样本累加值即 qi 会持续一段时间处于较低的位置,因为大部分人的收入都较少,累计值占比也较低;直到 i 接近于 n 时,qi 才会突然增大,代表最后几个人财富的占比巨大,一下子提高了累计值。
2 三种情景下的劳伦斯曲线

(1)极端平等情景,所有人的收入均等
OP线,即绝对平等线 equidistribution line
由于每人收入均等,则每增加一个人(即横轴的一个单位),q的增加值都相同,则劳伦斯曲线呈现线性增长样态,可表示为 p = q 。
(2)现实情景,存在不均等
ORP线,由OP线和ORP线组成的OPR区域即 concentration zone
现实状况中每个人的收入并非均等,则每增加一个人(横轴的一个单位),q的增加值时高时低,所以绘制出的劳伦斯曲线呈现出非线性增长样态。
(3)极端不平等情景,所有财富集中于一个人
OQP线,由OP线和OQP线组成的OQR区域即 maximum concentration zone
此时财富集中于一人,在1到n-1区间每增加一个人,q的累加值都为0,在增加最后一个人的财富时,q的累加值为100%,代表其聚集了所有财富。
3 由劳伦斯曲线计算基尼指数
由原理可知,计算基尼指数需要知道concentration zone 和 maximum concentration zone 的面积比:
(1)S(maximum concentration zone)= 1*1*1/2 = 1/2
(2)S(ORPQ)的面积 Z 可以分为 n 个多边形面积之和,以 n=4 为例:


(3)S(concentration zone) = S (maximum concentration zone) - S(ORPQ)

(4)基尼系数 = (3)/ (1)


应用方法
第一步:将样本依照数值由小到大排序;
第二步:由大到小,根据公式,依次计算 Pi (累积样本数量比例)、 Qi (累积样本值比例);
第三步:根据所有Pi Qi 值,根据面积比例公式,计算G值,得到基尼指数,基尼指数越高,代表concentration area面积越大,越接近极端不平等状况。
代码实现部分见基尼系数python代码
关注公众号「水沐教育科技」,在手机上阅读所有教程,随时随地都能学习。内含一款搜索神器,免费下载全网书籍和视频。

微信扫码关注公众号