1. 程式人生 > >協方差最大似然估計為什麼比實際協方差小一點 E(ΣML)=(N-1)/N * Σ

協方差最大似然估計為什麼比實際協方差小一點 E(ΣML)=(N-1)/N * Σ

我們都知道,給定N個一維實數空間上的樣本點{ xi,i=1,2,3... },假定樣本點服從單峰高斯分佈,那麼,最大似然估計的引數表示式為:

期望:   方差:

可是,你是否注意過,在我們從小接受到的方差定義公式,卻與最大似然估計的不一樣,一個分母為n-1,一個為n。這是不是意味著最大似然估計的不準確?如何衡量這種不準確?換個角度,更進一步,方差的定義公式為什麼要除以n-1?本文將從最後一個問題出發,一步一步解答這些問題。

本文主要以張賢達《現代訊號處理》第二版第二章第一節為參考資料,輔以一些網頁資料,並在文章中標註出引用處。

1、n-1能更準確的反應現實世界

如果樣本集中只有一個樣本,試問:這個時候高斯分佈的方差應該是多少?是0還是無窮大?如果是無窮大,那麼來第二個樣本點的話,我們將是無法預知落在什麼地方(方差無窮大,可以看做是整個實數軸上的均勻分佈);如果是0,那麼來第二個樣本點的話,我們將肯定它的值仍然等於x1(方差為零,可以看做是確定事件)。顯然,方差為無窮大更符合現實世界,更符合我們的直觀感受。也就是是說,分母為n-1更能反應現實世界。

樣本的容量小於整體,所以有較小的可能性抽中一些極端的資料。比如找來一堆人做樣本來測量身高,那麼樣本中出現巨人的可能性是很小的,這樣得到的結果可能就比實際小。為了彌補這點不足,就把分母變得小一些,這樣就更能反應實際資料了。質疑:這個解釋其實不太合理。因為既然可能抽不到高個子,也同樣可能抽不到矮個子,所以,分母既然可以變得小一些,也就應該有同樣的理由變得大一些。我認為這個角度並不能說明問題。

2、自由度的解釋

這一點解釋也是網上普遍存在的一種解釋,當然也屬於比較直觀的理解。可以這麼理解,在期望的定義中我們看到,分子有N個獨立的變數,則會在分母上除以N,而方差的定義式中,均值已經限制了前面N個樣本值只有N-1個是獨立的,因為一旦知道了N-1個樣本點,就可以結合均值計算出第N個樣本點。所以,方差的定義式中分母除以了N-1.

質疑:為什麼N-1個獨立變數,就應該在分母上除以N-1呢?難過

3、數學語言的解釋

首先,引入估計子效能評估的概念。我們知道,引數估計方法多種多樣,常見的有最大似然估計、最大後驗估計、貝葉斯估計、最小均方誤差估計等,那麼如何評價這些估計子的效能呢?由此引入無偏估計和漸進無偏估計的概念。

所謂無偏估計,反應了這樣一個事實,對一個引數估計多次,得到多個估計值,這多個估計值的平均值能夠很好的逼近引數的真實值。嚴謹的數學定義為:

                        注意:估計值的均值是樣本集大小N的函式。

所謂漸進無偏估計,則考慮到了這樣一個直觀的事實,每次估計時,樣本越多,估計越準確,因此,當我們手頭上有足夠多的樣本時,評估一個估計子的效能時,就可以比較他們在樣本集大小N趨向無窮大時與真實值的偏差。嚴謹的數學定義為:

注意:無偏估計子一定是漸進無偏的,但是漸進無偏的不一定是無偏的。

下面,我們從無偏估計的定義出發,證明均值和方差的定義式(雖然是定義式,但也是定義在特定樣本集上的,本質上仍然是一種對真實值的估計)都是對真實值的無偏估計。

編輯公式實在是件費盡的事情,直接寫在紙上了,可能看起來有點費盡,見諒見諒。



由此可見,均值和方差的定義式均是無偏估計子。另外,我們需要注意的是,有偏的漸進無偏估計子並不一定比無偏估計子差,這主要體現在實際計算的可行性(矩陣滿秩等問題)、計算複雜度等問題上。

4、總結

從上面三個方面我們可以理解方差的定義式中為什麼用n-1作為分母,同時,我們需要知道的是,最大似然估計雖然是有偏估計,但是由於其漸進無偏性,是一種廣泛使用的引數估計方法。

相關推薦

估計為什麼實際一點 EML)=(N-1)/N * Σ

我們都知道,給定N個一維實數空間上的樣本點{ xi,i=1,2,3... },假定樣本點服從單峰高斯分佈,那麼,最大似然估計的引數表示式為: 期望:   方差: 可是,你是否注意過,在我們從小接受到的方差定義公式,卻與最大似然估計的不一樣,一個分母為n-1,一個為n。這是

【MLE】估計Maximum Likelihood Estimation

like 分布 什麽 9.png 顏色 ... 部分 多少 ati 模型已定,參數未知 最大似然估計提供了一種給定觀察數據來評估模型參數的方法,假設我們要統計全國人口的身高,首先假設這個身高服從服從正態分布,但是該分布的均值與方差未知。我們沒有人力與物力去統計

『科學計算_理論』估計

width 我們 註意 logs 概率 -s 分享 pan 技術 概述 通俗來講,最大似然估計,就是利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。 重要的假設是所有采樣滿足獨立同分布。 求解模型參數過程 假如我們有一組連續變量的采樣值(x1,x2,…,x

二乘法和估計的聯系和區別(轉)

enc bsp 聯系 角度 tro span nbsp sdn .science 對於最小二乘法,當從模型總體隨機抽取n組樣本觀測值後,最合理的參數估計量應該使得模型能最好地擬合樣本數據,也就是估計值和觀測值之差的平方和最小。而對於最大似然法,當從模型總體隨機抽取n組樣本觀

估計二乘

現在 最小 bayesian 我不知道 什麽 改變 我不 tps 有關 參考: 最大似然估計,就是利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。例如:一個麻袋裏有白球與黑球,但是我不知道它們之間的比例,那我就有放回的抽取10次,結果我發現我抽到了8次黑球

估計

概率與統計 lin 是什麽 簡單的 art 不規則 導數 單調性 人類 在討論最大似然估計之前,我們先來解決這樣一個問題:有一枚不規則的硬幣,要計算出它正面朝上的概率。為此,我們做了 10 次實驗,得到這樣的結果:[1, 0, 1, 0, 0, 0, 0, 0, 0, 1]

估計實例 | Fitting a Model by Maximum Likelihood (MLE)

-- sed clu ans fail warnings reg model perf 參考:Fitting a Model by Maximum Likelihood 最大似然估計是用於估計模型參數的,首先我們必須選定一個模型,然後比對有給定的數據集,然後構建一個聯合概

【機器學習基本理論】詳解估計(MLE)、後驗概率估計(MAP),以及貝葉斯公式的理解

總結 ora 二次 判斷 天都 特性 以及 解釋 意思 【機器學習基本理論】詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解 https://mp.csdn.net/postedit/81664644 最大似然估計(Maximum lik

估計(轉載)

轉載請註明出處,文章來源:https://blog.csdn.net/qq_36396104/article/details/78171600#commentsedit  之前看書上的一直不理解到底什麼是似然,最後還是查了好幾篇文章後才明白,現在我來總結一下吧,要想看懂最大似然估計,首

估計 估計 (MLE) 後驗概率(MAP)

最大似然估計 (MLE) 最大後驗概率(MAP) 1) 最大似然估計 MLE 給定一堆資料,假如我們知道它是從某一種分佈中隨機取出來的,可是我們並不知道這個分佈具體的參,即“模型已定,引數未知”。例如,我們知道這個分佈是正態分佈,但是不知道均值和方差;或者是二項分佈,但是不知道均值。 最

函式和估計與機器學習中的交叉熵函式之間的關係

關於似然函式和最大似然估計的詳細說明可以看這篇文章:https://blog.csdn.net/zgcr654321/article/details/83382729 二分類情況和多分類情況下的似然函式與最大似然估計: 二分類情況下的似然函式與最大似然估計: 我們知道按照生活中的常識

估計vs後驗概率

1) 最大似然估計 MLE 給定一堆資料,假如我們知道它是從某一種分佈中隨機取出來的,可是我們並不知道這個分佈具體的參,即“模型已定,引數未知”。例如,我們知道這個分佈是正態分佈,但是不知道均值和方差;或者是二項分佈,但是不知道均值。 最大似然估計(MLE,Maximum Lik

【模式識別與機器學習】——估計 (MLE) 後驗概率(MAP)

1) 極/最大似然估計 MLE 給定一堆資料,假如我們知道它是從某一種分佈中隨機取出來的,可是我們並不知道這個分佈具體的參,即“模型已定,引數未知”。例如,我們知道這個分佈是正態分佈,但是不知道均值和方差;或者是二項分佈,但是不知道均值。 最大似然估計(MLE,Maximum Likelihood Esti

估計的學習

首先聊聊題外話,很久沒有寫部落格了,一直喜歡用本子來記錄學習過程,但是這樣會有一個很大的弊端,就是本子儲存不了多久,最後還是選擇以部落格的方式來記錄所學的東西。這樣複習起來都會方便一些。我現在是一名在校生,以後學習的新東西儘量都會記錄下來,有相同經歷的朋友可以關注一下,一起交流。 最大似

人工智慧初學- 1.2 估計及貝葉斯演算法

最大似然思想 最大似然法是一種具有理論性的引數估計方法。         基本思想是:當從模型總體隨機抽取n組樣本觀測值後,最合理的引數估計量應該使得從模型中抽取該n組樣本觀測值的概率最大。一般步驟包括: 寫出似然函式 對似然

伯努利分佈和高斯分佈下的估計

最大似然估計: 由於每一個樣本是否出現都對應著一定的概率,而且一般來說這些樣本的出現都不那麼偶然,因此我們希望這個概率分佈的引數能夠以最高的概率產生這些樣本。如果觀察到的資料為D1 , D2 , D3 ,…, DN ,那麼極大似然的目標如下: 通常上面這個概率的計算並不容易。

詳解估計(MLE)、後驗概率估計(MAP),以及貝葉斯公式的理解

<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id=

估計(MLE)、後驗概率估計(MAP)以及貝葉斯學派和頻率學派

前言 frequentist statistics:模型引數是未知的定值,觀測是隨機變數;思想是觀測數量趨近於無窮大+真實分佈屬於模型族中->引數的點估計趨近真實值;代表是極大似然估計MLE;不依賴先驗。 Bayesian statistics:模型引數是隨機變數,

機器學習概念:後驗概率估計估計 (Maximum posterior probability and maximum likelihood estimation)

joey 周琦 假設有引數 θ \theta, 觀測 x \mathbf{x}, 設 f(x|θ) f(x|\theta)是變數 x x的取樣分佈, θ \th

估計後驗概率估計(貝葉斯引數估計

舉個例子:偷盜的故事,三個村莊,五個人偷。 村子被不同小偷偷的概率:P(村子|小偷1)、P(村子|小偷2)、P(村子|小偷3) 小偷1的能力:P(偷盜能力)=P(村子1|小偷1)+P(村子2|小偷1)+P(村子3|小偷1)+P(村子4|小偷1)+P(村子5|小偷1) 小