抽样分布和中心极限定理

由于样本是随机样本,所以样本统计量也是一个随机变量。而只要是随机变量就一定有相应的概率分布。我们把样本估计量的分布称为统计量分布,也称抽样分布。
以样本平均数为例,一般说样本平均数的抽样分布如何如何,这里,样本平均数被当成了一个随机变量来看待。对于初学者来说,这确实是比较反直觉的。
为何样本平均数可以被当做一个随机变量?因为样本平均数是依赖样本计算得出的:每抽取一组样本都可以计算出一个样本平均数,而且这些样本平均数或多或少都会有些差异。由此,样本平均数会随着抽样的不同而随机变动。只是现实生活中我们一般只抽取一组样本,计算一个样本平均数,因此,会觉得样本平均数不变。如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本平均数所形成的分布,就是样本平均数的抽样分布。
我们不妨用身高的这个例子还原一下这个过程。假设我们现在想了解中国成年男子的身高情况,通过简单随机抽样获取了一个1000人的样本,计算出样本均数为1.76(米),样本标准差为0.1(米)。现在,我们按照同样的方法重复抽100次,每次都抽取1000人。在这个过程中我们实际一共调查了10万人,不过这10万人以1000人为一组被分成了100组样本,而每一组样本都可以计算一个样本平均数,假设分别为1.76,1.72,1.69,1.77……1.75。由此,我们一共获得了100个样本平均数,从而可以对这100个数求平均数和标准差,于是就得到了样本平均数的平均数和标准差(这个标准差一般称为样本平均数的标准误)。
为什么要这样做?为什么不直接一次性调查10万人,而要绕这么个圈子?很简单,这里100次的重复抽样仅仅是辅助大家理解,现实中出于成本的考虑,往往只会抽取一次。更重要的是,统计理论告诉我们即使只抽样一次也是极具价值的,这个理论就是中心极限定理(central limit theorem)。这个定理的逻辑很简单:在任意总体中随机抽取一个样本量为n的样本,如果样本容量较大(通常大于30即可),那么通过这个样本计算的样本平均数近似服从正态分布。
中心极限定理的核心思想可以很好地由下面这幅图来表达:

注意上图第一行是总体X的分布情况,其余都是不同样本量下对总体X进行采样得到的样本平均数的分布。如何获得样本平均数的分布图?实际上就是通过我们上面讲到的重复抽样的过程。
从最后一行可见,当样本量n=30时,无论总体X是何样,其样本均数总是近似服从正态分布。
用数学符号来表示,如果总体X的平均数是$\mu$,标准差是$\sigma$,则其样本平均数服从正态分布

$$ N(\mu,\frac{\sigma}{\sqrt{n}}) $$

注意:这里没有说总体X要服从什么分布,也就意味着任意分布的总体X均适用,但需满足比较大的样本量。
有了抽样分布的概念和中心极限定理这一理论后,只要样本量满足一定要求(这很容易达到),我们就可以通过样本统计量来研究总体的性质。

0%