解读三大抽样分布

除了常见的正态分布之外,以标准正态分布函数为基石而构造出来的卡方分布、t分布和F分布是最为常见的描述抽样分布的分布函数,被合称为”三大抽样分布”。正态分布和三大抽样分布共同构成了现代数理统计学的基础,也在各行各业有了各自的应用。
不少人对正态分布和三大抽样分布的概念和关系不太清楚,这里加以总结。
抽样分布可以分为两类:一类是关于均值的分布,如正态分布和t分布;另一类是关于方差的分布,如卡方分布和F分布。

关于均值的分布

这要分两种情况:总体方差$\sigma^{2}$是否已知。

1、总体方差已知

如果总体方差已知,则样本均值可以构建下面的统计量

$$ Z = \frac{ \overline{x}-\mu}{\sigma / \sqrt{n}} $$

这个统计量服从标准正态分布N(0,1)。

2、总体方差未知

如果总体方差未知,用样本方差代替总体方差,则样本均值可以构建下面的统计量

$$ t = \frac{ \overline{x}-\mu}{S / \sqrt{n}} $$

这个统计量服从t分布t(n-1),其中n-1为自由度。
t分布的形状与自由度有关,自由度越小则分布曲线越”胖”,自由度越大则分布曲线越接近正态分布。一般在自由度超过30时基本上就和正态分布差不多了,可以用正态分布来分析。

关于方差的分布(单个总体)

卡方分布是针对单个正态总体的样本方差分布,依据总体均值$\mu$是否已知分为两种情况。

1、总体均值已知

如果总体均值$\mu$已知,则样本方差可以构建下面的统计量

$$ x^{2} =\sum\nolimits_{i=1}^N \frac{(x_{i}-\mu)^{2}}{\sigma^{2}} $$

这个统计量服从$\chi^{2}(n)$分布,自由度为n。

2、总体均值未知

如果总体均值$\mu$未知,用样本均值来$\overline{x}$代替,则样本方差可以构建下面的统计量

$$ x^{2} =\sum\nolimits_{i=1}^N \frac{(x_{i}-\overline{x})^{2}}{\sigma^{2}} = \frac{(n-1)S^{2}}{\sigma^{2}} $$

这个统计量服从$\chi^{2}(n-1)$分布,自由度为n-1。自由度少了1个,是因为在总体均值未知时需要用样本均值来估计,用掉了1个自由度。

关于方差的分布(两个总体)

F分布是针对两个正态总体的样本方差之比的分布。
假设两个独立的正态总体方差相等,在这两个总体中分别抽取一个样本,样本量分别为m、n,用这两个样本的样本方差构建下面的统计量

$$ F = \frac{S_{1}^2}{S_{2}^2} = \frac{\frac{1}{(m-1)}\sum\nolimits_{i=1}^m(x_{i}-\overline{x})^{2}}{\frac{1}{(n-1)}\sum\nolimits_{i=1}^n(y_{i}-\overline{y})^{2}} $$

这个统计量服从分子自由度为m-1,分母自由度为n-1的F(m-1,n-1)分布。

0%