
-----精选段落-----
第4章抽样与抽样分布
需要说明的是,统计学中的n≥30为大样本,n<30为小样本只是一种经验说法,对n具体的要求需要依据总体接近正态分布的程度来确定,总体偏离正态分布越远,对样本量 n 的要求就越大。
由中心极限定理的表述可知,
例4.4 食品包装净含量检验——中心极限定理应用
食品包装质量管理中一项重要内容便是对袋装食品净含量进行检验,许多袋装食品的净含量都标明净重为545克(即均值μ),误差为±10克(即标准差σ为10)。质量技术监督部门通常根据36袋食品作为样本来检验产品的净含量,以确定该产品在数量上是否达到质量规定标准。现问如果样本平均净含量小于或等于540克的概率是多少。
【解】虽然该袋装食品净含量的总体分布未知,利用中心极限定理依然可得按36袋食品抽样的样本平均净含量的抽样分布近似为正态分布,而且这个抽样分布的均值与总体均值是相同的。抽样分布的标准差由下面表达式给出:
对于36袋食品的样本来说,质量技术监督部门检验得到的平均净含量小于或等于540克的概率P计算式为:
质量技术监督部门检测到的样本均值小于或等于540克的概率仅为0.0082。如果36袋食品平均净含量真的小于或等于540克,那么质量技术监督部门有充分的证据怀疑该批次食品净含量是不足的,因为如此小概率事件竟然发生不一定是一种巧合现象。
小概率事件是否发生是推断性统计方法的理论基础,在后续的章节中我们将通过参数估计和假设检验来作详细介绍。
4.5 单样本统计量的抽样分布
在推断性统计分析中,遇到最为常见的问题便是对总体的重要数字特征如数学期望 μ、方差 σ
4.5.1 样本均值的抽样分布
1.样本均值x抽样分布的形式
在抽样分布的差异性分析和中心极限定理中,我们已经谈到样本均值的抽样分布,只是未作详尽的介绍。利用样本均值推断总体均值是统计研究极其朴素和自然的分析方法,在此过程中,我们需要回答的是在抽样过程中总体分布的形式、总体特征μ与σ
图4.8(a)与图4.8(b)对比显示,
如果原有总体本身是正态分布,那么无论样本容量大小,样本均值的抽样分布都服从正态分布。此结论来源于相互独立正态分布的可加性,即 x
也为正态分布。
如果原有总体的分布是非正态分布,样本均值的抽样分布就未必是正态分布了,这要取决于样本容量的大小。中心极限定理虽然是针对一般总体分布而言的结论,但对样本容量提出较高要求,这也提示我们,在应用中心极限定理研究问题时,需要考虑抽样时样本容量的大小。
2.样本均值
样本均值x是一个统计量,即为一个随机变量,对随机变量而言,我们主要关注其均值和方差两大重要数字特征。这两大特征既与总体分布的均值和方差有关,也与抽样时的样本容量有关,实际还与抽样方式有关(究竟是重复抽样还是非重复抽样)。
假定总体共有N个单位,其均值为μ,方差为σ
样本均值x的方差(记为
在非重复抽样下,样本均值
从式(4.12)可知,当总体单位个数N足够大时,
4.5.2 样本比例的抽样分布
在统计应用中,我们时常会涉及总体比例问题,即具有某种特性的个体或单位数量占总体总数的比例。例如,合格产品占产品总量的比例,即产品合格率。但是对一批量产品,往往不是对所有的产品都进行产品检验,而是通过抽样,检验样本产品的合格率,并以样本产品的合格率估计产品总体质量水平。在民意调查中,经常也会遇到“赞成”和“反对”某件事的人数比例。统计学上通常用“S”和“F”区分个体是否拥有某种特性,若有用“S”标识,否则用“F”标识。用π表示总体中拥有该特性的比例,显然π值在0~1之间,100π则为拥有该特性的百分比。
类似于总体均值,总体比例π往往也是未知的,也需要通过抽样来进行估计和推断。设从某一总体抽取容量为n的一个样本,样本中具有某种特性的个体数量为n,则样本具有该特性的比例p计算为:
由于样本比例p值随着样本不同而变化,因而样本比例p是一统计量。如同推断μ一样,估计μ需要知道样本均值
样本比例p的抽样分布是样本所有可能取值的概率分布,且样本比例p具有如下性质:
(1)当样本容量很大且总体比例π与0和1相差较大时,样本比例p的抽样分布近似于一正态分布,即:
(2)样本比例p的数学期望E(p)等于总体比例π,即E(p)=π。
(3)在重复抽样和非重复抽样不同方式下,样本比例p的方差(记为
(4)进一步,当n·p≥10和n·(1-p)≥10时,p近似正态分布的程度更高。
与样本均值x的方差
4.5.3 样本方差的抽样分布
我们已经讨论了样本均值x和样本比例p的抽样分布,研究的目的主要是为了推断总体概率分布的特征。总体的另一重要特征方差σ
样本方差s
随着样本选择的不同,s
可以证明,对于来自于总体分布为正态分布的随机抽样时,比值
χ
例4.5 样本方差抽样分布的应用案例
食品包装质量管理中对袋装食品净含量进行检验,除了应用样本均值抽样分布方法外,还可应用样本方差抽样分布检验袋装食品规定净含量的稳定性。许多标准袋装食品的净含量都标明净重为545克(即均值μ),误差为±10克(即标准差σ为10)。质量技术监督部门通常根据36袋食品作为样本来检验产品的净含量,以确定该产品在数量上是否达到质量规定标准。问在抽取的36袋样本中其标准差大于13克的概率是多少(假定袋装食品净含量总体服从正态分布)。
【解】对于来自于总体分布为正态分布的随机抽样时,比值
根据自由度为35的χ
当样本容量n≥30时,χ
由正态分布表,可得
软件操作步骤如下:
(1)在Excel中选择“函数”,显示函数对话框“插入函数”。
(2)在“插入函数”对话框中选择“CHIDIST”(即χ