我是孙斌,北理数学系毕业,分享数据分析相关知识,点击右上角“关注”,学习更多数据分析知识。
数据分析中必须要掌握的10个统计量。
1、众数
众数表示总体中出现次数最多的数值。
例如,在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元)。

其中,1080这个数字出现了3次,出现的次数最多,所以1080就是这组数据的众数。
当数据比较多的时候,用Excel函数MODE.SNGL来求众数,公式如下。

2、均值
均值就是平均值,一组数据相加,再除以数据的个数得到的结果就是均值。
例如,对于以上月收入数据,均值计算公式如下。

在Excel中,可以通过函数AVERAGE来求均值,公式如下。

3、中位数
将总体中的各个数据按照升序排列,居于中间位置的数值,便是中位数。
例如,对于以上月收入数据,升序排列后如下图所示,中位数是1080。

如果有偶数个数据,则中位数是中间位置两个数字的平均数。
在Excel中,可以通过函数MEDIAN来求中位数,公式如下。

4、四分位数
把所有数值由小到大排列,分成四等份,处于三个分割点位置的数值就是四分位数。
例如,对于以上月收入数据,升序排列后如下图所示。

图中箭头示意了三个四分位数。
在Excel中,用函数QUARTILE.INC来求四分位数,如下图所示,求出的是第一个四分位数。

第一个四分位数也叫下四分位数,求第二个四分位数,把第二个参数改成2就行,如下图所示。

第三个四分位数也叫上四分位数。
5、四分位差
四分位差也叫四分位距,是上四分位数和下四分位数之差。
对于以上数据,第一个四分位数为960,第三个四分位数为1250,四分位差为1250−960=290。
四分位差反映了数据中间50%的离散程度,其数值越小,表示数据越集中,数值越大,表示数据越分散。
6、极差
极差表示一组数据中最大值与最小值之差。
对于以上数据,最大值为2000,最小值为750,所以极差=2000-750=1250。
在Excel中,我们可以先用函数max和min分别计算出最大值和最小值,然后作差即可。
7、方差
方差(variance)反映数据的波动性,假设有以下两组数据,我们想比较它们的离散程度。
组1:4,5,1,4,8,2,4
组2:4,3,4,4,5,4,4
最直观的方式就是绘制折线图,如下图所示。

从图中可以看出,数据组1的波动性要大于数据组2。
在Excel公式,用函数VAR.P可以很容易得到数据的方差。
8、标准差
标准差(Standard Deviation)就是方差开方得到。
有了方差,为什么还需要标准差?
因为方差是在原来数据的基础上进行了平方,所以单位发生了变化,标准差的单位则和原来的数据一致,所以在实际分析时,标准差使用得更多。
在Excel中,通过公式STDEV.P可以得到标准差。
9、偏态系数
偏态(skewness)是对数据分布对称性的测度,如下图所示。

举个例子,学员的考试成绩,有以下三种形态。
正态:即正态分布,大多数学员的考试成绩中等,成绩特别高的很少,特别低的也很少。
正偏态:大多数学员的考试成绩偏低,成绩中等很少,成绩特别高的更少。
负偏态:大多数学员的考试成绩偏高,成绩中等的很少,成绩特别低的更少。
我们可以通过偏态系数sk来衡量偏态,当然不用手动计算,在Excel中,通过函数SKEW公式可以很容易计算出偏态系数。
当𝑠𝑘>0时,分布是正偏态的。
当𝑠𝑘=0时,分布是对称的。
当𝑠𝑘<0时,分布是负偏态的。
10、峰态系数
峰态表示数据分布的扁平程度的度量。例如,不同峰态的分布如下图所示。

打个比方,学员的考试成绩,有以下三种形态。
正态意味着大多数学员的考试成绩中等,成绩特别高的很少,特别低的也很少。
“高尖”的分布形态以为几乎所有学员的考试成绩中等,成绩特别高和特别低的几乎没有。
“矮胖”的分布形态意味着有一部分学员的考试成绩中等,成绩特别高和特别低的也有不少。
用峰态系数可以衡量峰态,峰态系数用K来表示,在Excel中,可以通过公式函数KURT来计算峰态系数。
当𝐾<0时,分布比较高尖,为尖峰分布。
当𝐾>0时,分布比较矮胖,为平峰分布。
以上就是数据分析中必须要掌握的10个统计量。