本文是基于 YouTube 频道 jbstatistics 的视频 An Introduction to the Chi-Square Distribution 整理的学习笔记。
什么是卡方分布?
卡方分布 ($\chi^2$ distribution) 是一种在统计推断(Statistical Inference)中广泛使用的连续概率分布。它与其他连续概率分布一样,在实际应用中经常出现。
最核心的理解是:它与标准正态分布有着紧密的数学联系。
定义与来源
卡方分布本质上是标准正态随机变量平方和的分布。
1. 单个变量的情况
如果一个随机变量 $Z$ 服从标准正态分布,即 $Z \sim N(0, 1)$,那么 $Z$ 的平方服从自由度为 1 的卡方分布:
$$Z^2 \sim \chi^2_1$$2. 一般情况 (K 个变量)
如果 $Z_1, Z_2, …, Z_k$ 是 $k$ 个相互独立的标准正态随机变量,那么它们的平方和服从自由度为 $k$ 的卡方分布:
$$\sum_{i=1}^{k} Z_i^2 \sim \chi^2_k$$注意:这里的 $k$ (Degrees of Freedom) 代表了我们相加的独立标准正态随机变量的数量。
核心性质
- 取值范围:非负实数 $[0, \infty)$。
- 原因很直观:因为它是实数的平方和,所以不可能为负。
- 自由度 ($k$):通常为正整数。
- 均值 (Mean):等于自由度。 $$E[X] = k$$
- 方差 (Variance):等于自由度的两倍。 $$Var(X) = 2k$$
- 众数 (Mode): $$Mode = k - 2 \quad (\text{当 } k \ge 2)$$
概率密度函数 (PDF) 的形状
卡方分布的形状高度依赖于自由度 $k$。
1. 极小自由度 ($k=1, 2$)
- $k=1$:曲线在 $x=0$ 处趋于无穷大(Asymptotic to the y-axis)。
- $k=2$:曲线从最大值开始(在 $x=0$ 处),然后单调递减。
2. 一般自由度 ($k \ge 3$)
- 曲线从 0 开始,上升到峰值(众数),然后下降。
- 呈现出明显的右偏 (Right Skewness)。
3. 随着自由度增加
- 趋于对称:随着 $k$ 的增加,右偏程度逐渐减小,分布变得越来越对称。
- 趋于正态:当 $k$ 很大时,卡方分布的形状越来越接近正态分布(根据中心极限定理)。
计算与应用
在实际的概率统计问题中,我们经常需要计算曲线下的面积(概率)或查找百分位数。
- 卡方分布的 PDF 涉及 Gamma 函数,没有简单的封闭形式的积分公式。
- 解决方法:必须使用数值积分。在实践中,我们通过统计软件(如 R, Python, Excel)或查阅卡方分布表来获取结果。
总结速查表
| 属性 | 公式/描述 |
|---|---|
| 符号 | $\chi^2_k$ |
| 定义 | $k$ 个独立标准正态变量的平方和 |
| 域 (Domain) | $x \in [0, \infty)$ |
| 均值 (Mean) | $k$ |
| 方差 (Variance) | $2k$ |
| 形状 | 右偏 (Right Skewed),随 $k$ 增大趋于正态 |
应用实例:卡方独立性检验 (Chi-Squared Test of Independence)
假设我们要研究“性别”与“是否喜欢某种新饮料”之间是否存在关联。我们随机调查了 200 人,结果如下表(观察频数 $O_{ij}$):
| 性别 \ 喜好 | 喜欢 | 不喜欢 | 总计 |
|---|---|---|---|
| 男 | 60 | 40 | 100 |
| 女 | 30 | 70 | 100 |
| 总计 | 90 | 110 | 200 |
1. 建立假设
- $H_0$ (零假设): 性别与喜好独立(即无关)。
- $H_1$ (备择假设): 性别与喜好不独立(即有关联)。
2. 计算期望频数 ($E_{ij}$)
如果 $H_0$ 成立,期望频数的计算公式为:
$$E_{ij} = \frac{\text{行总计} \times \text{列总计}}{\text{总样本量}}$$- 男-喜欢: $E_{11} = \frac{100 \times 90}{200} = 45$
- 男-不喜欢: $E_{12} = \frac{100 \times 110}{200} = 55$
- 女-喜欢: $E_{21} = \frac{100 \times 90}{200} = 45$
- 女-不喜欢: $E_{22} = \frac{100 \times 110}{200} = 55$
3. 计算卡方统计量
$$ \chi^2 = \sum \frac{(O*{ij} - E*{ij})^2}{E\_{ij}} $$$$ \begin{aligned} \chi^2 &= \frac{(60-45)^2}{45} + \frac{(40-55)^2}{55} + \frac{(30-45)^2}{45} + \frac{(70-55)^2}{55} \\ &= \frac{225}{45} + \frac{225}{55} + \frac{225}{45} + \frac{225}{55} \\ &= 5 + 4.09 + 5 + 4.09 \\ &= 18.18 \end{aligned} $$4. 确定自由度与临界值
- 自由度 ($df$) $= (\text{行数} - 1) \times (\text{列数} - 1) = (2-1) \times (2-1) = 1$。
- 选择显著性水平 $\alpha = 0.05$。
- 查表可知,$\chi^2_{0.05}(1) = 3.841$。
5. 结论
因为 $\chi^2 = 18.18 > 3.841$,所以我们在 0.05 的显著性水平下拒绝 $H_0$。
结论:有充分的证据表明,性别与是否喜欢这种新饮料之间存在显著关联。