1. 程式人生 > >總體樣本方差的無偏估計樣本方差為什麼除以n-1

總體樣本方差的無偏估計樣本方差為什麼除以n-1

1)基本概念

我們先從最基本的一些概念入手。

如下圖,腦子裡要浮現出總體樣本X,還有一系列隨機選取的樣本X_{1},X_{2},...,X_{n}。只要是樣本,腦子裡就要浮現出它的集合屬性,它不是單個個體,而是一堆隨機個體集合。樣本X_{i}是總體樣本中隨機抽取一系列個體組成的集合,它是總體樣本的一部分。

應該把樣本X_{i}和總體樣本X一樣進行抽象化理解,因此樣本X_{i}也存在期望E(X_{i})和方差D(X_{i})

這裡有一個重要的假設,就是隨機選取的樣本X_{i}與總體樣本同分布,它的意思就是說他們的統計特性是完全一樣的,即他們的期望值一樣,他們的方差值也是一樣的:

E(X_{i})=E(X)=\mu

D(X_{i})=D(X)=\sigma ^{2}

另外,由於每個樣本的選取是隨機的,因此可以假設X_{1},X_{2},...,X_{n}不相關(意味著協方差為0,即Cov(X_{i},X{j})=0,i\neq j),根據方差性質就有:

D(X_{i}+X_{j})=D(X_{i})+D(X_{j})+2Cov(X_{i},X_{j})=D(X_{i})+D(X_{j})=2\sigma ^{2}

另外,還需要知道方差另外一個性質:

D(aX_{i})=a^{2}D(X_{i}),a為常數。

還有一個,別忘了方差的基本公式:

D(X)=E(X^2)-E^2(X)

以上的公式都很容易百度得到,也非常容易理解。這裡不贅述。

2)無偏估計

接下來,我們來理解下什麼叫無偏估計。

定義:設統計量\hat{\Theta}=\hat{\Theta}(X_{1},X_{2},...,X_{n})是總體中未知引數\Theta的估計量,若E(\hat{\Theta })=\Theta,則稱\hat{\Theta }\Theta無偏估計量;否則稱為有偏估計量。

上面這個定義的意思就是說如果你拿到了一堆樣本觀測值,然後想通過這一堆觀測值去估計某個統計量\Theta,一般就是想估計總體的期望或方差,如果你選擇的方法所估計出來的統計量\hat{\Theta}的平均值與總體樣本的統計量\Theta相等,那麼我們稱這種方法下的估計量是無偏估計,否則,就稱這種方法下的估計量為有偏估計量。

按照這麼理解,那麼有偏無偏是針對你選擇估計的方法所說的,它並不是針對具體某一次估計出來的估計量結果。如果方法不對,即使你恰好在某一次計算出來一個值和總體樣本統計量值相同,也並不代表你選的這個方法是無偏的。為什麼呢?這是因為單次\hat{\Theta}

值是和你選取的樣本相關的,每次樣本(更加嚴格的意義是某次樣本快照)的值變化了,那麼每次\hat{\Theta}的值就有可能跟著變化,你就需對這麼多\hat{\Theta}求期望值來判斷\hat{\Theta}的可信程度,如果一直重複這個試驗,然後它的期望值與總體樣本的統計量\Theta一樣,那麼稱按照這種方法估計出來的統計量是無偏的。

3)樣本均值的無偏估計

接下來探討一下下面的定義:

定義:樣本均值\bar{X}是總體樣本均值\mu的無偏估計。

注意:這裡樣本均值\bar{X}不是指某個樣本X_{i}的均值。

這裡需要看上面這張圖,這裡的均指的是特定某次樣本集合(X_{1},X_{2},...,X_{n})的快照(上圖紅色框),顯然這個快照也是一個樣本,只不過這個樣本它的樣本大小固定為n,這與抽象的樣本不一樣(一般我們想象抽象的樣本,比如X_{i},是無限大的)。

明顯,

第一個樣本(快照)均值是長這樣子的:\frac{1}{n}(x_{11}+x_{21}+...+x_{i1}+...+x_{n1})=\hat{\mu _{1}}

第二個樣本(快照)均值是長這樣子的:\frac{1}{n}(x_{12}+x_{22}+...+x_{i2}+...+x_{n2})=\hat{\mu _{2}}

....依此類推...

x_{ij}表示第j次隨機從從本X_{i}獲取一個個體。

試驗一直進行下去,你就會有一些列估計出來的樣本(快照)均值\hat{\mu _{1}},\hat{\mu _{2}}...\hat{\mu _{i}},\hat{\mu _{m}}...,實際上這也稱為了一個樣本,我們稱為均值的樣本,既然是樣本,它就也有統計量。我們這裡重點關注這個均值樣本的期望。因為按照估計量的有偏無偏定義,如果E(\hat{\mu})=\mu,那麼按照這個方法估計的均值\hat{\mu }就是無偏的。仔細思考,估計量有偏無偏它是針對你所選定的某個估計方法所形成的估計量樣本空間來討論的,討論單次試驗形成的估計量是沒有太大意義的,只有針對形成的估計量樣本空間才有意義。

下面驗證上面的方法形成的\hat{\mu}估計是無偏的。

E(\hat{\mu})=\frac{1}{m}(\hat{\mu}_{1}+\hat{\mu}_{2}+...+\hat{\mu}_{m})

=\frac{1}{n}(\frac{x_{11}+x_{12}+...+x_{1m}}{m}+\frac{x_{21}+x_{22}+...+x_{2m}}{m}+...+\frac{x_{n1}+x_{n2}+...+x_{nm}}{m})

=\frac{1}{n}(E(X_{1})+E(X_{2})+...+E(X_{n}))

=\frac{1}{n}(n*\mu )

=\mu

這麼一來,就和教科書和網上的資料結果上都對上了,教科書上的公式在下面列出(\hat{\mu}符號用\bar{X}代替):

E(\bar{X})=E(\frac{1}{n}\sum_{i=1}^{n}X_{i} )=\frac{1}{n}\sum_{i=1}^{n}E(X_{i})=\mu

有了前面的分析,上面的教科書公式就很好理解了,注意,裡頭的X_{i}是原始樣本,\bar{X}也是樣本!!!  公式推導過程中,\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}表示了原始的(X_{1},X_{2},...,X_{n})樣本快照求和後再除以n形成的估計量樣本,所以是可以對其再進行求期望的。

討論完估計量樣本\bar{X}的均值,我們別忘了,既然它是個樣本,那麼可以計算\bar{X}的方差D(\bar X)(後面會用到):

D(\bar X)=D(\frac{1}{n}\sum_{i=1}^{n}X_{i})

=\frac{1}{n^2}D(\sum_{i=1}^{n}X_{i})

=\frac{n\sigma ^2}{n^2}=\frac{\sigma ^2}{n}

所以,樣本(快照)均值的均值還是總體均值,但是,樣本(快照)均值的方差卻不是原來的方差了,它變成原來方差的1/n。這也容易理解,方差變小了是由於樣本不是原來的樣本X_{i}了,現在的樣本是均值化後的新樣本\bar {X},既然均值化了,那麼比起原來的老樣本X_{i},它的離散程度顯然是應當變小的。

4)樣本方差的無偏估計

定義:樣本方差S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}是總體樣本方差\sigma ^{2}的無偏估計。

也就是需要證明下面的結論:

E(S^2)=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^2)=\sigma ^2

首先,腦子裡要非常清楚,你截至目前,僅僅知道以下內容:

E(X_{i})=E(X)=\mu

D(X_{i})=D(X)=\sigma ^{2}

Cov(X_{i}X{j})=0,i\neq j

D(X_{i}+X_{j})=D(X_{i})+D(X_{j})=2\sigma ^{2},i\neq j

D(X)=E(X^2)-E(X)^2

{\color{Red} E(\bar{X})=\mu}

{\color{Red} D(\bar X)=\frac{\sigma ^2}{n}}

其中前面5個來自1),最後2個來自3)。

至於為什麼是S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2},而不是S^{2}=\frac{1}{n}\sum_{n}^{i=1}(X_{i}-\bar{X})^{2},需要看下面的證明。

E(S^{2})=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2})=\frac{1}{n-1}E(\sum_{i=1}^{n}X_{i}^2-n \bar{X}^{2})

=\frac{1}{n-1}(\sum_{i=1}^{n}E(X_{i}^2)-nE(\bar{X}^{2}) )

=\frac{1}{n-1}(\sum_{i=1}^{n}[D(X_{i})+E^2(X_{i})]-n[D(\bar{X})+E^{2}(\bar{X}) ])

=\frac{1}{n-1}(\sum_{i=1}^{n}[\sigma ^2+\mu^2]-n[\frac{1}{n}\sigma ^2+\mu^{2} ])=\sigma ^2

那麼為什麼會導致這麼個奇怪的結果,不是\frac{1}{n}而是\frac{1}{n-1}  ?

仔細看上面的公式,如果D(\bar X)=0,那麼就應該是\frac{1}{n}了,但是殘酷的事實是D(\bar X)\neq 0(除非\sigma本身就等於0),導致\frac{1}{n-1}的罪魁禍首是D(\bar X)\neq 0。這就有告訴我們,D(\bar X)雖然將方差縮小了n倍,但是仍然還有殘存,除非\sigma本身就等於0,才會有D(\bar X)=0,但這就意味著所有樣本的個體處處等於\mu

還有一種情況,如果你事先就知道\mu,那麼S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu)^{2}就是\sigma ^{2}的無偏估計,這個時候就是\frac{1}{n}了。