【rc式卡方检验公式推导】在统计学中,卡方检验(Chi-square Test)是一种常用的非参数检验方法,用于判断两个分类变量之间是否存在显著的关联性。其中,“rc式”卡方检验指的是适用于r行c列(即r×c)列联表的卡方检验。本文将对rc式卡方检验的公式进行推导,并以加表格的形式展示关键内容。
一、基本概念
在rc式卡方检验中,我们通常面对一个r行c列的列联表,每个单元格中的数值表示观察频数(O),而理论频数(E)是根据假设的独立性计算得出的期望值。
- 观察频数(O):实际观测到的数据。
- 理论频数(E):在原假设成立时,每个单元格应出现的频数。
二、卡方检验的基本思想
卡方检验的核心思想是通过比较观察频数与理论频数之间的差异来判断两者是否显著不同。如果差异较大,则说明原假设(变量独立)不成立。
三、公式推导过程
1. 定义观察频数和理论频数
设列联表为:
其中:
- $ R_i = \sum_{j=1}^{c} O_{ij} $
- $ C_j = \sum_{i=1}^{r} O_{ij} $
- $ N = \sum_{i=1}^{r} R_i = \sum_{j=1}^{c} C_j $
2. 计算理论频数
在原假设“变量独立”的前提下,理论频数为:
$$
E_{ij} = \frac{R_i \cdot C_j}{N}
$$
3. 计算卡方统计量
卡方统计量的计算公式为:
$$
\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}
$$
4. 自由度计算
自由度(df)为:
$$
df = (r - 1)(c - 1)
$$
5. 假设检验
根据卡方分布表,查出对应自由度下的临界值,若计算得到的卡方值大于临界值,则拒绝原假设,认为两变量存在关联。
四、总结与表格展示
步骤 | 内容 |
1. 定义观察频数 | O_{ij} 表示第i行第j列的实际观测值 |
2. 计算行/列合计 | R_i = ∑O_{ij}, C_j = ∑O_{ij} |
3. 计算理论频数 | E_{ij} = (R_i C_j) / N |
4. 卡方统计量公式 | χ² = ∑(O_{ij} - E_{ij})² / E_{ij} |
5. 自由度计算 | df = (r - 1)(c - 1) |
6. 假设检验 | 若χ² > 临界值,则拒绝原假设 |
五、注意事项
- 当某些单元格的理论频数小于5时,卡方检验结果可能不可靠,可考虑使用Yates校正或改用Fisher精确检验。
- 卡方检验仅能判断变量间是否存在关联,不能说明因果关系。
- 该检验适用于名义数据或分类数据,不适用于连续型数据。
通过上述推导与总结,可以清晰地理解rc式卡方检验的数学原理及其应用方式。