Featured image of post Chi-Square Distribution

Chi-Square Distribution

本文是基于 YouTube 频道 jbstatistics 的视频 An Introduction to the Chi-Square Distribution 整理的学习笔记。

什么是卡方分布?

卡方分布 ($\chi^2$ distribution) 是一种在统计推断(Statistical Inference)中广泛使用的连续概率分布。它与其他连续概率分布一样,在实际应用中经常出现。

最核心的理解是:它与标准正态分布有着紧密的数学联系。

定义与来源

卡方分布本质上是标准正态随机变量平方和的分布。

1. 单个变量的情况

如果一个随机变量 $Z$ 服从标准正态分布,即 $Z \sim N(0, 1)$,那么 $Z$ 的平方服从自由度为 1 的卡方分布:

$$Z^2 \sim \chi^2_1$$

2. 一般情况 (K 个变量)

如果 $Z_1, Z_2, …, Z_k$ 是 $k$ 个相互独立的标准正态随机变量,那么它们的平方和服从自由度为 $k$ 的卡方分布:

$$\sum_{i=1}^{k} Z_i^2 \sim \chi^2_k$$

注意:这里的 $k$ (Degrees of Freedom) 代表了我们相加的独立标准正态随机变量的数量。

核心性质

  • 取值范围:非负实数 $[0, \infty)$。
    • 原因很直观:因为它是实数的平方和,所以不可能为负。
  • 自由度 ($k$):通常为正整数。
  • 均值 (Mean):等于自由度。 $$E[X] = k$$
  • 方差 (Variance):等于自由度的两倍。 $$Var(X) = 2k$$
  • 众数 (Mode): $$Mode = k - 2 \quad (\text{当 } k \ge 2)$$

概率密度函数 (PDF) 的形状

卡方分布的形状高度依赖于自由度 $k$。

1. 极小自由度 ($k=1, 2$)

  • $k=1$:曲线在 $x=0$ 处趋于无穷大(Asymptotic to the y-axis)。
  • $k=2$:曲线从最大值开始(在 $x=0$ 处),然后单调递减。

2. 一般自由度 ($k \ge 3$)

  • 曲线从 0 开始,上升到峰值(众数),然后下降。
  • 呈现出明显的右偏 (Right Skewness)

3. 随着自由度增加

  • 趋于对称:随着 $k$ 的增加,右偏程度逐渐减小,分布变得越来越对称。
  • 趋于正态:当 $k$ 很大时,卡方分布的形状越来越接近正态分布(根据中心极限定理)。

计算与应用

在实际的概率统计问题中,我们经常需要计算曲线下的面积(概率)或查找百分位数。

  • 卡方分布的 PDF 涉及 Gamma 函数,没有简单的封闭形式的积分公式
  • 解决方法:必须使用数值积分。在实践中,我们通过统计软件(如 R, Python, Excel)或查阅卡方分布表来获取结果。

总结速查表

属性 公式/描述
符号 $\chi^2_k$
定义 $k$ 个独立标准正态变量的平方和
域 (Domain) $x \in [0, \infty)$
均值 (Mean) $k$
方差 (Variance) $2k$
形状 右偏 (Right Skewed),随 $k$ 增大趋于正态

应用实例:卡方独立性检验 (Chi-Squared Test of Independence)

假设我们要研究“性别”与“是否喜欢某种新饮料”之间是否存在关联。我们随机调查了 200 人,结果如下表(观察频数 $O_{ij}$):

性别 \ 喜好 喜欢 不喜欢 总计
60 40 100
30 70 100
总计 90 110 200

1. 建立假设

  • $H_0$ (零假设): 性别与喜好独立(即无关)。
  • $H_1$ (备择假设): 性别与喜好不独立(即有关联)。

2. 计算期望频数 ($E_{ij}$)

如果 $H_0$ 成立,期望频数的计算公式为:

$$E_{ij} = \frac{\text{行总计} \times \text{列总计}}{\text{总样本量}}$$
  • 男-喜欢: $E_{11} = \frac{100 \times 90}{200} = 45$
  • 男-不喜欢: $E_{12} = \frac{100 \times 110}{200} = 55$
  • 女-喜欢: $E_{21} = \frac{100 \times 90}{200} = 45$
  • 女-不喜欢: $E_{22} = \frac{100 \times 110}{200} = 55$

3. 计算卡方统计量

$$ \chi^2 = \sum \frac{(O*{ij} - E*{ij})^2}{E\_{ij}} $$$$ \begin{aligned} \chi^2 &= \frac{(60-45)^2}{45} + \frac{(40-55)^2}{55} + \frac{(30-45)^2}{45} + \frac{(70-55)^2}{55} \\ &= \frac{225}{45} + \frac{225}{55} + \frac{225}{45} + \frac{225}{55} \\ &= 5 + 4.09 + 5 + 4.09 \\ &= 18.18 \end{aligned} $$

4. 确定自由度与临界值

  • 自由度 ($df$) $= (\text{行数} - 1) \times (\text{列数} - 1) = (2-1) \times (2-1) = 1$。
  • 选择显著性水平 $\alpha = 0.05$。
  • 查表可知,$\chi^2_{0.05}(1) = 3.841$。

5. 结论

因为 $\chi^2 = 18.18 > 3.841$,所以我们在 0.05 的显著性水平下拒绝 $H_0$

结论:有充分的证据表明,性别与是否喜欢这种新饮料之间存在显著关联。

A winner is just a loser who tried one more time.
Robust AI
使用 Hugo 构建
主题 StackJimmy 设计