為什麼樣本方差的分母是n-1？為什麼它又叫做無偏估計？

阿新 • • 發佈：2019-01-04

簡單的回答，是因為因為均值你已經用了n個數的平均來做估計在求方差時，只有(n-1)個數　和　均值資訊　是不相關的。而你的第ｎ個數已經可以由前(n-1)個數和均值　來唯一確定，實際上沒有資訊量。所以在計算方差時，只除以(n-1)。

那麼更嚴格的證明呢？請耐心的看下去。

樣本方差計算公式裡分母為 $n-1$ 的目的是為了讓方差的估計是無偏的。無偏的估計(unbiased estimator)比有偏估計(biased estimator)更好是符合直覺的，儘管有的統計學家認為讓mean square error即MSE最小才更有意義，這個問題我們不在這裡探討；不符合直覺的是，為什麼分母必須得是 $n-1$ 而不是 $n$ 才能使得該估計無偏。

首先，我們假定隨機變數 $X$ 的數學期望 $\mu$ 是已知的，然而方差 $\sigma^2$ 未知。在這個條件下，根據方差的定義我們有
$\mathbb{E}\Big[\big(X_i -\mu\big)^2 \Big]=\sigma^2, \quad\forall i=1,\ldots,n,$

由此可得
$\mathbb{E}\Big[\frac{1}{n} \sum_{i=1}^n\Big(X_i -\mu\Big)^2 \Big]=\sigma^2$ .

因此 $\frac{1}{n} \sum_{i=1}^n\Big(X_i -\mu\Big)^2$ 是方差 $\sigma^2$ 的一個無偏估計，注意式中的分母不偏不倚正好是 $n$ ！
這個結果符合直覺，並且在數學上也是顯而易見的。

現在，我們考慮隨機變數 $X$ 的數學期望 $\mu$ 是未知的情形。這時，我們會傾向於無腦直接用樣本均值 $\bar{X}$ 替換掉上面式子中的 $\mu$ 。這樣做有什麼後果呢？後果就是，
如果直接使用 $\frac{1}{n} \sum_{i=1}^n\Big(X_i -\bar{X}\Big)^2$ 作為估計，那麼你會傾向於低估方差！
這是因為：
$\begin{eqnarray}\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2 &=&\frac{1}{n}\sum_{i=1}^n\Big[(X_i-\mu) + (\mu -\bar{X}) \Big]^2\\&=&\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 +\frac{2}{n}\sum_{i=1}^n(X_i-\mu)(\mu -\bar{X})+\frac{1}{n}\sum_{i=1}^n(\mu -\bar{X})^2 \\&=&\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 +2(\bar{X}-\mu)(\mu -\bar{X})+(\mu -\bar{X})^2 \\&=&\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 -(\mu -\bar{X})^2 \end{eqnarray}$
換言之，除非正好 $\bar{X}=\mu$ ，否則我們一定有
$\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2 <\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2$ ,
而不等式右邊的那位才是的對方差的“正確”估計！
這個不等式說明了，為什麼直接使用 $\frac{1}{n} \sum_{i=1}^n\Big(X_i -\bar{X}\Big)^2$ 會導致對方差的低估。

那麼，在不知道隨機變數真實數學期望的前提下，如何“正確”的估計方差呢？答案是把上式中的分母 $n$

換成 $n-1$ ，通過這種方法把原來的偏小的估計“放大”一點點，我們就能獲得對方差的正確估計了：
$\mathbb{E}\Big[\frac{1}{n-1} \sum_{i=1}^n\Big(X_i -\bar{X}\Big)^2\Big]=\mathbb{E}\Big[\frac{1}{n} \sum_{i=1}^n\Big(X_i -\mu\Big)^2 \Big]=\sigma^2.$

至於為什麼分母是 $n-1$ 而不是 $n-2$ 或者別的什麼數，最好還是去看真正的數學證明，因為數學證明的根本目的就是告訴人們“為什麼”；暫時我沒有辦法給出更“初等”的解釋了。

為什麼樣本方差的分母是n-1？為什麼它又叫做無偏估計？

為什麼樣本方差的分母是n-1？為什麼它又叫做無偏估計？

關於樣本方差分母為什麼是n-1理解

為什麼樣本方差（sample variance）的分母是 n-1？

為什麼樣本方差（sample variance）的分母是 n-1

樣本標準差分母為何是n-1

樣本方差的無偏估計與（n-1）的由來

為什麼樣本方差計算是除以n-1？

方差與樣本方差的區別？為什麼方差是除以N，樣本方差是除以N-1

為什麼樣本方差裡面要除以（n-1）而不是n？

總體樣本方差的無偏估計樣本方差為什麼除以n-1

徹底理解樣本方差為何除以n-1

【數學基礎】無偏估計——為何樣本方差需要除以（n-1）？

自由度（為什麼樣本方差自由度是n-1）

樣本服從正態分布，證明樣本容量n乘樣本方差與總體方差之比服從卡方分布x^2(n)

統計學---之樣本方差與總體方差的區別

樣本方差與總體方差

樣本方差的與方差

概率統計與機器學習：期望，方差，數學期望，樣本均值，樣本方差之間的區別

樣本方差公式的說明

方差與樣本方差、協方差與樣本協方差

為什麼樣本方差的分母是n-1？為什麼它又叫做無偏估計？

相關推薦