卡方统计
卡方统计量
卡方统计量(Chi-square statistic)是一种用于检验分类数据(categorical data)的假设检验工具。简单来说,它帮助我们在表格数据中检查“观察到的频数”与“期望的频数”之间是否有显著差异。分类数据就是将事物分成几个类别,比如性别(男/女)、疾病状态(患病/健康)或基因型(AA/Aa/aa)
- 核心思想:如果观察到的数据与期望的数据相差很大,说明可能发生了“不寻常”的事情(比如变量之间有关联),而不是随机巧合
其中:
是观察到的频数 是期望的频数
常用于两种应用:
- 独立性检验:检查两个分类变量是否相关,如吸烟与肺癌发生的概率
- 拟合优度检验:检查样本数据是否符合理论分布,如孟德尔定律
卡方的计算
常用方法列联表 检验
适用条件:
- 样本数较大(
) - 期望频数较大(
)
2 x 2 列联表
- 自由度恒为
。 - 计算简单,且存在专用公式 (可直接用四格表快速计算):
| 列1 | 列2 | Total | |
|---|---|---|---|
| 行1 | a | b | a+b |
| 行2 | c | d | c+d |
| Total | a+c | b+d | n |
每个单元格的期望为:
计算卡方值为:
同理,将其全部加和起来,即可得到
也可用公式进行计算:
广义的 列联表检验
当两个分类变量的类别数扩展时 (如基因型有3种、疾病严重程度分4级),就需用
- 自由度:
计算每个单元格的期望频数
计算步骤与2×2表完全一致 计算卡方值
查表判断显著性
表的特殊处理方法
- 耶茨连续性校正(Yates'correction):
适用于
- Fisher精确检验(Fisher's Exact Test):
直接计算当前观察频数及更极端情况出现的精确概率(基于超几何分布)
适用于
或任意 例如:在药物临床试验中,样本量小但需判断“用药组”和“对照组”的生存率差异
可以直接使用这个公式进行计算