Skip to content

卡方统计

卡方统计量

卡方统计量(Chi-square statistic)是一种用于检验分类数据(categorical data)的假设检验工具。简单来说,它帮助我们在表格数据中检查“观察到的频数”与“期望的频数”之间是否有显著差异。分类数据就是将事物分成几个类别,比如性别(男/女)、疾病状态(患病/健康)或基因型(AA/Aa/aa)

  • 核心思想:如果观察到的数据与期望的数据相差很大,说明可能发生了“不寻常”的事情(比如变量之间有关联),而不是随机巧合
χ2=(OiEi)2Ei

其中:

  • Oi 是观察到的频数
  • Ei 是期望的频数

常用于两种应用:

  • 独立性检验:检查两个分类变量是否相关,如吸烟与肺癌发生的概率
  • 拟合优度检验:检查样本数据是否符合理论分布,如孟德尔定律

卡方的计算

常用方法列联表 χ2 检验

适用条件:

  • 样本数较大(n>40
  • 期望频数较大(Ei>5

2 x 2 列联表

  • 自由度恒为 df=(21)×(21)=1
  • 计算简单,且存在专用公式 (可直接用四格表快速计算):
列1列2Total
行1aba+b
行2cdc+d
Totala+cb+dn

每个单元格的期望为:

E11=(a+b)(a+c)nE12=(a+c)(c+d)nE21=(a+b)(b+d)nE22=(b+d)(c+d)n

计算卡方值为:

χ112=(O11E11)2E11

同理,将其全部加和起来,即可得到 χ2

也可用公式进行计算:

χ2=(adbc)2n(a+b)(c+d)(a+c)(b+d)

广义的 r×c 列联表检验

当两个分类变量的类别数扩展时 (如基因型有3种、疾病严重程度分4级),就需用r×c 列联表的卡方检验:

  • 自由度:df=(r1)×(c1)
  1. 计算每个单元格的期望频数 Eij=(行i总计)×(列j总计)n 计算步骤与2×2表完全一致

  2. 计算卡方值 χ2=(OijEij)2Eij

  3. 查表判断显著性

2×2 表的特殊处理方法

2×2表数据不满足期望频数5时,需调整方法:

  1. 耶茨连续性校正(Yates'correction):
χ校正2=(|OiEi|0.5)2Ei

适用于 n40 但存在 1Ei<5 的情况。

  1. Fisher精确检验(Fisher's Exact Test):
  • 直接计算当前观察频数及更极端情况出现的精确概率(基于超几何分布)

  • 适用于 n<40 或任意 Ei<1

    例如:在药物临床试验中,样本量小但需判断“用药组”和“对照组”的生存率差异

可以直接使用这个公式进行计算

P=(a+b)!(c+d)!(a+c)!(b+d)!n!a!b!c!d!

最后更新于:

Released under the MIT License.