样本均值分布与中心极限定理

本文简单介绍正态分布的样本均值分布和中心极限定理。

一、正态分布的样本均值分布

$\overline{X}$的抽样分布(sampling distribution)仍为正态分布,$\overline{X}$的数学期望为$\mu$, 方差为$\sigma^{2} / n$,则

$$
\overline{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right)
$$

上面的结果表明,$\overline{X}$的期望值与总体均值相同,而方差则缩小为总体方差的 1/n。这说明当用样本均值$\overline{X}$去估计总体均值$\mu$时,平均来说没有偏差(这一点 称为无偏性);当n越来越大时,$\overline{X}$的散布程度越来越小,即用$\overline{X}$估计$\mu$越来越准确。

然而在实际问题中,总体的分布并不总是正态分布或近似正态分布,此时$\overline{X}$的分布也将取决于总体分布的情况。值得庆幸的是,当抽样个数n比较大时,人们证明了如下的中心极限定理。该定理告诉我们不管总体的分布是什么,此时样本均值$\overline{X}$的分布总是近似正态分布,只要总体的方差$\sigma^{2}$有限。因为无论对什么总体分布,设总体均值为$\mu$,,总体方差为$\sigma^{2}$,总有

$$
E(\overline{X})=E\left(\frac{1}{n} \sum_{i=1}^{n} X_{i}\right)=\frac{1}{n} \sum_{i=1}^{n} E\left(X_{i}\right)=\mu
$$

$$
D(\overline{\boldsymbol{X}})=D\left(\frac{1}{n} \sum_{i=1}^{n} X_{i}\right)=\frac{1}{n^{2}} \sum_{i=1}^{n} D\left(X_{i}\right)=\frac{\sigma^{2}}{n}
$$

所以当n比较大时,$\overline{X}$近似服从$N\left(\mu, \frac{\sigma^{2}}{n}\right)$,等价地有$\frac{X-\mu}{\sigma / \sqrt{n}} \sim N(0,1)$。

二、中心极限定理

2.1 中心极限定理定义

中心极限定理(central limit theorem):设从均值为$\mu$、方差为$\sigma^{2}$(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值$\overline{X}$的抽样分布近似服从均值为$\mu$、方差为$\sigma^{2}/n$的正态分布。

2.2 n>30一般为大样本的分界线

中心极限定理要求n必须充分大,那么多大才叫充分大呢?

这与总体的分布形状有关。总体偏离正态越远.则要求n越大。然而在实际应用中,总体的分布未知。此时,我们常要求n>=30。顺便指出,大样本、小样本之间并不是以样本容量大小来区分的。在样本容量固定的条件下所进行的统计推断、问题分析,不管样本容量有多大,都称为小样本问题;而在样本容量$n \rightarrow \infty$的条件下进行的统计推断、问题分析则称为大样本问题。一般统计学中的n>=30为大样本,n<30为小样本只是一种经验说法。

赞赏一杯咖啡
0%