excel学习库-数据分析必须要掌握的10个统计量

我是孙斌，北理数学系毕业，分享数据分析相关知识，点击右上角“关注”，学习更多数据分析知识。

数据分析中必须要掌握的10个统计量。

1、众数

众数表示总体中出现次数最多的数值。

例如，在某城市中随机抽取9个家庭，调查得到每个家庭的人均月收入数据如下（单位：元）。

其中，1080这个数字出现了3次，出现的次数最多，所以1080就是这组数据的众数。

当数据比较多的时候，用Excel函数MODE.SNGL来求众数，公式如下。

2、均值

均值就是平均值，一组数据相加，再除以数据的个数得到的结果就是均值。

例如，对于以上月收入数据，均值计算公式如下。

在Excel中，可以通过函数AVERAGE来求均值，公式如下。

3、中位数

将总体中的各个数据按照升序排列，居于中间位置的数值，便是中位数。

例如，对于以上月收入数据，升序排列后如下图所示，中位数是1080。

如果有偶数个数据，则中位数是中间位置两个数字的平均数。

在Excel中，可以通过函数MEDIAN来求中位数，公式如下。

4、四分位数

把所有数值由小到大排列，分成四等份，处于三个分割点位置的数值就是四分位数。

例如，对于以上月收入数据，升序排列后如下图所示。

图中箭头示意了三个四分位数。

在Excel中，用函数QUARTILE.INC来求四分位数，如下图所示，求出的是第一个四分位数。

第一个四分位数也叫下四分位数，求第二个四分位数，把第二个参数改成2就行，如下图所示。

第三个四分位数也叫上四分位数。

5、四分位差

四分位差也叫四分位距，是上四分位数和下四分位数之差。

对于以上数据，第一个四分位数为960，第三个四分位数为1250，四分位差为1250−960=290。

四分位差反映了数据中间50%的离散程度，其数值越小，表示数据越集中，数值越大，表示数据越分散。

6、极差

极差表示一组数据中最大值与最小值之差。

对于以上数据，最大值为2000，最小值为750，所以极差=2000-750=1250。

在Excel中，我们可以先用函数max和min分别计算出最大值和最小值，然后作差即可。

7、方差

方差(variance)反映数据的波动性，假设有以下两组数据，我们想比较它们的离散程度。

组1：4，5，1，4，8，2，4

组2：4，3，4，4，5，4，4

最直观的方式就是绘制折线图，如下图所示。

从图中可以看出，数据组1的波动性要大于数据组2。

在Excel公式，用函数VAR.P可以很容易得到数据的方差。

8、标准差

标准差(Standard Deviation)就是方差开方得到。

有了方差，为什么还需要标准差？

因为方差是在原来数据的基础上进行了平方，所以单位发生了变化，标准差的单位则和原来的数据一致，所以在实际分析时，标准差使用得更多。

在Excel中，通过公式STDEV.P可以得到标准差。

9、偏态系数

偏态(skewness)是对数据分布对称性的测度，如下图所示。

举个例子，学员的考试成绩，有以下三种形态。

正态：即正态分布，大多数学员的考试成绩中等，成绩特别高的很少，特别低的也很少。

正偏态：大多数学员的考试成绩偏低，成绩中等很少，成绩特别高的更少。

负偏态：大多数学员的考试成绩偏高，成绩中等的很少，成绩特别低的更少。

我们可以通过偏态系数sk来衡量偏态，当然不用手动计算，在Excel中，通过函数SKEW公式可以很容易计算出偏态系数。

当𝑠𝑘>0时，分布是正偏态的。

当𝑠𝑘=0时，分布是对称的。

当𝑠𝑘<0时，分布是负偏态的。

10、峰态系数

峰态表示数据分布的扁平程度的度量。例如，不同峰态的分布如下图所示。

打个比方，学员的考试成绩，有以下三种形态。

正态意味着大多数学员的考试成绩中等，成绩特别高的很少，特别低的也很少。

“高尖”的分布形态以为几乎所有学员的考试成绩中等，成绩特别高和特别低的几乎没有。

“矮胖”的分布形态意味着有一部分学员的考试成绩中等，成绩特别高和特别低的也有不少。

用峰态系数可以衡量峰态，峰态系数用K来表示，在Excel中，可以通过公式函数KURT来计算峰态系数。

当𝐾<0时，分布比较高尖，为尖峰分布。

当𝐾>0时，分布比较矮胖，为平峰分布。

以上就是数据分析中必须要掌握的10个统计量。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

excel学习库

excel表格_excel函数公式大全_execl从入门到精通

数据分析必须要掌握的10个统计量2024-03-06 17:41:23