今天给大家介绍三种统计学里面的数据分析策略,我们无论用哪种具体的分析方法,都是在这三种基本的分析策略下进行的。
一、描述性统计分析
描述就是客观如实地介绍一个人或者物的真实情况。那么描述性统计分析就是描述数据的基本特征。
具体的方法:
1、数据的频数分析(某一数据出现的次数)
2、数据的集中趋势分析,包括平均数、中位数、众数
3、数据的离散程度分析,包括标准差、极差、变异系数
4、数据分布状况分析,包括偏度值和峰度值。
这些概念的计算公式都不用记,用Excel简单进行几步操作就可以出来了。
具体方法如下:
列好数据表格之后,按顺序单击“数据”——“分析”——“数据分析”——“描述统计”——“确定”,电脑屏幕上就会显示所有你想要的数据了。
顺便回忆一下这些概念分别是什么意思。
标准差:表示数值与平均值之间的离散程度。标准差越大,表示大部分数值与平均值之间的差异就越大,表示数据越不集中。标准差较小,说明这些数值比较接近平均值。
标准差极差=最大值-最小值
变异系数,也叫离散系数,当两个样本的单位和平均值一样时,使用标准差;当单位或平均值不一样时,用变异系数。比如比较男女身高的离散程度就要用变异系数,因为他们的平均值不同。比较身高和体重的离散程度时也要用变异系数,因为他们的单位不同。
偏度和峰度:它们是和正态分布相比较的。
偏度指的是数据分布的偏斜方向。当偏度等于0时,数据就是正态分布;当偏度大于0时,叫做正偏态;当偏度小于0时,叫做负偏态。
峰度指的是数据分布的尖度,可以把它想象成一个山峰,峰度值就是山顶最高的那个点。当峰度值等于3时,表示数据是正态分布;当峰度值大于3时,峰度越大,数据峰度越陡峭;当峰度值小于3时,峰度越小,表示数据峰度越平坦。
峰度二、探索性统计分析
当你不知道两个数据之间有什么关系或者有什么不同的时候,你就要采用探索性统计分析了,它们一般用可视化的图表来表示。
比如:
判断两个变量之间的关系:散点图
散点图对比样本之间的差异:箱形图
箱形图探索比例变化情况:百分比堆叠条形图
百分比堆叠条形图这些在Excel中也可以表示出来,点击“插入”就会显示各种图表了。
三、推断性统计分析
推断就是用样本数据来推断总体的情况。
具体方法有参数估计和假设检验。
参数估计又可以分为点估计和区间估计。
点估计是表示总体的某个变量是多少,是一个固定的值。
区间估计表示总体的某个变量处于什么范围,是一个区间。
假设检验指的是先做出某种假设,然后通过一定的方式来验证这种假设是否正确。
这里只是对数据分析做一个入门式的简单介绍,如果你想进一步探究数据分析与挖掘的具体方法,还需要学习统计学的基本概念和一些统计分析软件比如Excel、MySQL、Tableau、Python。