excel学习库

excel表格_excel函数公式大全_execl从入门到精通

一文带你全方位理解卡方检验

一、基本概念:卡方检验

(一)定义

定类与定类比较差异性

(二)卡方值

卡方值表示观察值与理论值之间的偏离程度。

卡方值的大小与样本量(自由度)有关。一般来说,卡方值越大越好,但并不准确。比如5000和5010的差异为10;40和50的差异为10,明显后者差异更大。

最终查看卡方值对应的 p 值更准确。

二、卡方检验分类

(一)方法分类

交叉卡方卡方检验配对卡方卡方拟合优度分层卡方

(二)方法对比

(1) 交叉卡方

适用于大部分场景之中,满足大部分用户需求,使用频率高,仅使用Pearson卡方,不支持加权数据。

交叉卡方仅输出一个交叉卡方分析结果如下图:

显著性差异

(2) 卡方检验

适用于实验医学研究方向,专业性更强,使用频率高。

从上表可知,利用卡方检验(交叉分析)去研究减肥方式对于胆固醇水平共1项的差异关系【独立性】,不同减肥方式样本对于胆固醇水平共1项呈现出显著性(p <0.05)。

总结可知:不同减肥方式样本对于胆固醇水平全部均呈现出显著性差异。

Pearson卡方、yates校正卡方、Fisher卡方

上表格为卡方检验的中间过程值,由于本案例数据为3*2格式,且1 <=E<5 格子的比例大于20%(此处为33.33%),因而最终选择使用yates校正卡方值。

特别备注

加权数据

数据格式如下

效应量指标5

上表格为效应量指标,由于本案例数据为3*2格式,所以使用Cramer V 研究差异幅度情况。Cramer V =0.47,说明各减肥方式下胆固醇水平差异接近中等水平。

④ 卡方检验多重比较

两两类别

  • 第1个Y

  • Pearson卡方检验

  • 校正显著性水平

特别提示

⑤ 趋势卡方检验有序定

  • 如果 p 值小于0.05则说明k组间呈现出某种趋势变化;

  • 如果 p 值大于0.05则说明k组间不会呈现出趋势变化;

  • SPSSAU默认均提供趋势卡方检验(Linear-by-Linear)结果,但需要注意使用此指标的前提条件。

(3) 配对卡方

配对卡方研究配对定类数据间的差异关系,适用于两配对数据的比较,使用频率低,提供McNemar检验与Bowker检验,选择标准如下:

本次配对对比类别数量为2(即配对四表格),因而使用McNemar检验进行研究。配对数据之间呈现0.05水平的显著性(chi=2.000,p=0.022<0.05),意味着配对数据间有着明显的差异性。

总结可知:使用McNemar检验研究A方法共有两种结果和B方法共有两种结果之间的差异性,分析显示配对数据间呈现出显著性差异。

(4) 卡方拟合优度检验

卡方拟合优度检验研究定类数据的频数分布是否与期望频数保持一致。

针对性别进行卡方拟合优度检验,研究数据分布是否与期望分布保持一致,从上表可以看出:性别全部均没有呈现显著性(p >0.05),意味着接受原假设(原假设:实际分布比例与预期比例一致),即数据分布与预期一致。

(5) 分层卡方

扰动因素项Factor项

针对分层卡方,其涉及的理论知识内容,如下表格:

通常情况下,首先查看 "比值比齐性检验",如果其呈现出显著性(p < 0.05),则说明具有混杂因素,即需要考虑分层项,分别查看不同分层项下的数据结果。反之如果没有通过 "比值比齐性检验",即说明没有混杂因素不需要考虑分层项,报告整体的结果即可(包括卡方检验,以及OR值)。

三、卡方检验应用

(一)分析步骤

(1)分析X分别与Y之间是否呈现出显著性(p 值小于0.05或0.01);

(2)如果呈现出显著性,具体对比选择百分比(括号内值),描述具体差异所在;未呈现出显著性则停止分析;

(3)对分析进行总结。

(二)多选题分析中的应用

多选题

从上表可以看出,各选项选择没有显著差异,百分比选择分布较均匀(chi=5.947,p=0.203>0.05)。

单选-多选

从上表可以看出,性别对于共五项表示的多选题并不会呈现出显著差异性(chi=1.208,p=0.877>0.05)。

多选-多选

从上表可以看出,两个多选题之间并没有明显的关联关系,百分比选择分布较均匀(chi=0.732,p=1.000>0.05)。

四、数据格式

常规格式加权格式

上述五类卡方检验方法,除交叉卡方外,其余四类卡方检验均支持加权数据格式。

(1)常规格式

一行代表一个样本,如果有100个样本即为100行;一列代表一个属性;这类格式最为常见,而且此类数据格式可以做任何的分析。因为其携带着所有最原始的数据信息。

(2)加权格式

例如:胆固醇水平有2项,减肥方式有3项,因而为3*2共6种组合,则一定需要有6行,并且一定为3列,最后一列叫‘加权项’,这样的数据格式上传到SPSSAU后进行分析即可。

五、差异幅度

  1. p 值越小,差异幅度越大;

  2. 效应量值越大说明差异幅度越大,通常情况下效应量小、中、大的区分临界点分别是: 0.20,0.50 和 0.80。

六、定量数据做卡方检验

卡方检验主要用来研究定类与定类数据间差异关系的;

那么定量数据能否进行卡方检验呢?此时可以分为以下三种情况讨论:

(1)定量数据可以转化为定类数据

① 自动按分位数分组

例如:想让样本数据按五分位数进行分样本处理; 第一步将数据按照指定变量从小到大排列; 第二步分别找到20%分位点、40%分位点、60%分位点、和80%分位点; 第三步将小于20%分位点的全部取值为1,20%-40%取值为2,60%-80%取值为3,80%以上取值为4。

② 按实际意义分组

例如:本科以下、本科以上两组; 20岁以下、20-30岁、30岁以上。

(2)定量和定类模糊

例如:量表数据,比如非常不满意,不满意,一般,满意和非常满意

(3)定量不可转化为定类数据

如果研究定类与定量数据之间的关系,此时应该使用方差或者T检验。

差异关系研究方法选择见下表:

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«    2024年12月    »
1
2345678
9101112131415
16171819202122
23242526272829
3031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
    文章归档
      友情链接