excel表格_excel函数公式大全_execl从入门到精通
基本概念——简单易学的Excel数据分析工具2024-04-11 19:27:33
我们生活的世界中充斥着各种各样的数据,这些数据本身却只是混乱无序的大杂烩。当你获得一份数据集后,你会怎么做呢?无数经验告诉我们,若想取得事半功倍的效果,正确的方法是先使用描述统计。
什么是描述统计分析
它是对大量信息进行归纳及处理数据的最基本任务,即将一系列复杂的数据减少为几个能起到描述作用的数字,用这些有代表性的数字代表该数据集,是对数据源最初的认知,包括数据的集中趋势、离散程度和频数分布等,在了解这些基础概念后才能进一步对数据集进行分析。
接下来我们从“位置”,“离散”,“形态”,“关联”这几个方面来分别说明
位置量数
位置量数提供了一个单独数值的估计值,这个估计值以某种方式代表着数据集的“中心”
最常见的“平均值”。我们在生活中经常用到平均值,例如,测量学生学生的成绩(如平均分数)、测量供应链的绩效(如平均交付时间)
算术平均数
平均数正规的叫法是算术平均数,它是观察值的个数除以观察值的总数。
在数学上,母体的平均值用希腊字母μ来表示,而样本的平均值用x来表示。注意:无论我们是在处理母体还是样本,平均值的计算,只是表示符号有所不同而已。我们还可以使用函数 AVERAGE在Excl中计算平均值。
平均值的一个属性是每个观察值与平均值的偏差之和为零。这只是意味着,高于平均值的偏差之和,与低于平均值的偏差之和相同,但它并没意味着一半的数据高于或低于平均值。对那些不了解统计学的人来说,这是一种常见的错误观念。
除此之外,每个数据集的平均值是独一无二的,同时,平均值对区间数据和比例数据都有意义。不过,它可能受到极端值的影响。所谓极端值,是指那些与数据集中其他的值相差极大的观察值。极端值可能将平均值的值“拉”向它们。
中位数
当数据从最小到最大而排列时,规定中间数值的位置量数是中位数。一半的数据小于中位数,一半的数据大于中位数。观察值的个数为奇数时,中位数就是排好序的数字的正中间那个,观察值的个数为偶数时,中位数就是处在正中间的两个数字的平均值。我们可以运用 Excel中的“排序”选项对数据进行排序,然后确定中位数。也可以使用 Excel函数 MEDIAN来计算。中位数对比例数据、区间数据和有序数据有意义。与平均值不一样的是,中位数不受极端值的影响。
众数
第三个位置量数是众数。众数是指出现次数最多的那个观察值。对于包含的独特数值个数相对较少的数据集来说,众数最为有用。而对那些几乎没有重复数值的数据集,众数并没有太大的实际价值。通过辨别频数分布中拥有最大频数的数值,或者从直方图中辨别其条形图最高的数值,可以轻松找出众数。同时,你还可以使用 Excel的函数 MODE.SNGL来计算。对于分组数据的频数分布和直方图,众数是频数最大的那个组。
有些数据集有多个众数,为了识别它们,可以运用 Excel函数 MODE.MULT,它将返回一个众数值的列表。
中列数
第四个偶尔用到的位置量数是中列数。它很简单,就是数据集中最大值和最小值之间的平均值。在运用中列数时必须小心谨慎,因为极端数值很容易使结果失真,它通常比平均值难以估算得多,而且通常只用于规模较小的样本中。
离散量数
离散指的是数据的分散程度,也就是说,数据在数值上的分散(或者集中)。描述离散的统计学量数有:全距、方差和标准差等。
全距
全距是最简单的,它是一个数据集内最大数据与最小数据之差。虽然 Excel没有提供计算全距的函数,但它可以通过公式=MAX(数据区域)-MIN(数据区域)轻松计算。和中列数一样,全距也受极端值的影响,因此,它通常只用于非常小的数据集。
四分位距
第一个四分位数与第三个四分位数之差,Q3-Q1,通常称为四分位距(IQR),也称为中点分配。这只包含了中间50%的数据,因而不受极端值的影响。所以,它有时候也称为替代离散量数。
方差
更常见的离散量数是方差,它的计算取决于所有数据。方差越大,意味着以平均值为中心而扩散的数据越多,在观察值中也会出现更多的变异。
注意,方差的单位,是观察值维度的平方。因此,举例来说,“单笔订单成本”数据的方差,不是以元来表示的,而是以“元的平方”来表示。这使得方差难以在实际中运用。所以,在实际应用中需要使用一个与方差密切的测量指标,那便是标准差。
标准差
标准差就是方差的平方根。可以使用Excl函数 STDEV. P来计算母体的标准差,用函数 STDEV.S来计算样本的标准差。
标准差通常更容易解释方差的概念,因为它的单位与数据的单位是相同的。因此,我们可以更容易地把它与平均值或者以同样单位测量的其他统计量数联系起来。标准差是一种流行的风险测量指标在金融分析中尤其如此,因为很多人将股票价格中的变异与风险联系起来。
标准化值
标准化值通常称为Z分数,它提供了观察值与平均值之间相对的距离测量指标,不受测量单位的影响。
变异系数
变异系数(CV)提供了数据中离散程度的相对测量,我们把变异系数用百分数表示,当两个或多个数据集的测量尺度不同时,这个统计量数有益于比较它们的变异程度。
变异系数还提供了风险对回报的相对测量。变异系数越小,获得回报的相对风险就越小。人们经常使用变异系数的倒数,它称为单位风险回报率,原因是它易于阐述。也就是说,如果我们的目标是实现回报的最大化,那么,通常认为单位风险回报率越高越好。
切比雪夫定理和经验规则
在统计学中,一个更为重要的结论是切比雪夫定理,该定理指出,对于任何一个数据集,位于其平均值k个标准差范围内的数值的比例(k>1),至少为1-1/k的平方.因此,k=2时,至少有3/4或者说75%的数据位于距离平均值2个标准差的范围之内;当k=3时,至少有89%或者说89%的数据位于距离平均值3个标准差的范围之内。这样的话,我们只要运用计算出来的平均值和标准差,便可以用这些数值来从根本上理解数据集的偏差。
对于我们在实践中遇到的很多数据集,比如“单笔订单成本”的数据,通常产生的百分比,比切比雪夫定理所规定的百分比高得多。这些也体现在我们所谓的经验规则之中。经验规则如下所述
1.大约68%的观察值将位于距离平均值的1个标准差的范围内。2.大约95%的观察值将位于距离平均值的2个标准差的范围内。3.大约99.7%的观察值将位于距离平均值的3个标准差的范围内。我们发现,“单笔订单成本”数据非常接近地体现了这些经验规则。取决于数据以及频数分布的形态,实际的百分比可能高一些或者低一些平均值的2个或3个标准差,通常用于描述实际中遇到的大多数数据集的偏差。例如,假设某零售商了解到,通过标准的陆地运输方式来运输,订单可以在8天之内交付,标准差为1天。因此,运用第2条经验规则,零售商可以自信地告诉客户,对方的包裹应当在6至10天内可以到货。
形态量数
样本数据的直方图可以呈现众多不同的形态。分布形态向右侧“缩小”的情况,称为正偏度;分布形态向左侧“缩小”的情况,称为负偏度。偏度描述了缺乏对称的数据的分布形态。
偏度系数
偏度系数(CS)测量观察值围绕平均值的不对称程度。可以用Excl函数SKEW来计算偏度系数。如果偏度系数是正值,值的分布将呈正偏度:如果是负值,值的分布将呈负偏度。偏度系数越是接近0,偏斜度也越小。偏度系数大于1或者小于-1,意味着数值的分布高度偏斜。偏度系数介于0.5和1之间,或者介于0.5和-1之间,意味着中度偏斜。偏度系数介于0.5和-0.5之间,表明相对对称。
只有一个“峰”的直方图称为单峰(如果直方图真的有两个“峰”,我们称为双峰。这通常标志着从不同的母体中抽样,然后综合成一个样本)。对于相对对称的单峰直方图,可以很好地用众数来估算平均值。比较位置量数,有时候可以揭示观察值分布形态的信息。例如,如果分布形态十分对称,而且是单峰直方图,那么,平均值、中位数和众数,可能全都相同。如果呈负偏度,我们通常发现平均值<中位数<众数,如果呈正偏度,则完全相反,众数<中位数<平均值。
峰度
峰度指的是直方图的尖峰度(即高而窄的形态)或平坦度(即矮而平顶的形态)。
峰度系数
峰度系数(CK)测量母体的峰度,可以使用 Excel函数KURT(数据区域)来计算。峰度系数小于3的值的分布,更加平坦,其离散程度较大:峰度系数大于3的值的分布,离散程度较小,更加呈尖峰状。
在评估风险时,运用偏度和峰度,比只使用标准差的方法,能够提供更多信息。例如,正偏度和负偏度的分布,可能有着相同的标准差,但如果想要实现高额回报,负偏度的分布将具备更大的概率来获得更大回报。峰度越高,直方图中将有更多的“缩小”部分,而不是在中间位置。这可能意味着,极端情况和灾难性后果的可能性更大。
关联量数
如果两个变量看起来共同变化,那么,它们相互之间存在密切的统计学联系。我们在日常生活中见证过很多这样的例子。例如,球赛的观众人数,通常与球队赢球的百分比密切相关,而冰激凌的销售量,与每天的气温密切相关。通过散点图,我们可以研究两个变量之间的关系。
当两个变量似乎相关联时,你可能怀疑其中是否存在因果关系。不过有时候,即使某个变量中的变化并不是由于另一个变量的变化引起的,但它们之间依然存在统计学关系。
例如,《纽约时报》曾报道过,各公司首席执行官们高尔夫的差点(差点,通俗地讲,指的是高尔夫球手打球的水平与标准杆之间的差距),与他们公司之间三年内在股票市场上的表现,存在着密切的统计学关联。高尔夫水平高于一般人的高管,可能为股东们带来了超过一般水平的利润回报。显然,高尔夫水平的高低,与公司的绩效高低原本并不存在因果关系。因此,在单独地根据统计学关联来推断变量之间的因果关系时,一定要小心谨慎。
理解了变量之间的关系,对做出优秀的商业决策极端重要,特别是能证明它们之间的因果关系合理存在时,尤其如此。当公司理解了其内在因素将会怎样影响外部指标时,比如,产品质量、员工培训和定价措施等内在因素,影响到公司的利润率和客户满意度等,那么,公司的决策层可以做出更优秀的决策。因此,掌握衡量这些关系的统计学工具,是有帮助的。
协方差
协方差是测量两个变量X与Y之间线性关联的量数。从计算上讲,一个母体的协方差,是每个观察值距离其各自平均值偏差之积的平均值。协方差的绝对值越大,两个变量之间的线性关联度就越高。协方差的符号告诉我们,两个变量之间究竟存在一种直接关联(也就是说,一个变量增加,另一个变量则增加或者,反过来也一样),还是存在一种逆关联(也就是说,一个变量增加,另一个变量则减少,或者,反过来也一样)。我们常常可以通过构建散点图的方法来辨别两个变量之间任何线性关联的强度,也可以辨别协方差的符号。 在Excel中可以用函数 COVARIANCE. P计算母体的协方差,用函数 COVARIANCE. S计算样本的协方差。
相关
协方差的数值通常难以解释,因为它取决于这些变量的测量单位。相关是测量X和Y两个变量之间线性关系的量数,它并不取决于测量的单位。相关是通过相关系数来测量的,也称之为皮尔森积距相关系数。Excel函数 CORREL可以计算两个数据阵列的样本相关系数。
相关系数为0,意味着两个变量相互之间不存在线性关系。因此,如果一个变量发生了变化,我们不能合理地预测另一个变量会有怎样的反应。相关系数为正数,意味着两个变量之间存在线性关系,其中一个变量增加,另一个变量也会增加。相关系数为负数,同样意味着两个变量之间存在线性关系,但其中一个变量增加,另一个变量则会减少。例如,在经济学中,有价格弹性的产品,在价格与销量之间存在负相关。随着价格上涨,销量会下降,反之亦然。
极端值
极端值通常是指数据中特别大或特别小的值,它们可以使我们从统计分析中获得的结果显著改变。如何识别极端值,是统计学上个重要课题。首先要做的是用务实的视角来检验数据是否存在可能的错误,比如弄错了小数点位置或者在转录成电脑文件时出现了错误。直方图可以从视觉上帮助识别可能的极端值。我们也可以使用经验规则和z-分数,把极端值辨别为位于平均值3个标准差之外的数值。我们还可以根据四方位距来识别极端值。“轻微”的极端值通常定义为:介于1.5个四分位距和3个四分位距之间,在第1个四分位数的左边,或者第3个四分位数的右边,而“极端”的极端值远离这些四分位数的3个四分位距之外。基本上,除了与其他值相比较,可以发现这些不同寻常的观察值之外,再没有哪种标准定义来确定极端值是如何形成的。然而,重要的是想方设法识别极端值,并且在进行数据分析研究时确定它们的重要性。
分组数据的描述统计
在某些情况下,频数分布中已经对数据进行了分组,我们也许访问不到原始的数据。这样的话,我们不能使用标准的公式来计算平均值或方差。关于此种情况暂时不做深入讨论
分类数据的描述统计量数:比例
平均值和方差之类的统计指标,不适合分类数据。相反,我们通常对具有一定特征的数据的一部分感兴趣。正规的统计量数称为比例,通常用p来表示。比例是针对分类数据的重要描述统计量数,如在质量控制应用中的效率或者错误,或者市场研究中的消费者偏好等。
标签: excel的众数怎么求