機器學習演算法篇：最大似然估計證明最小二乘法合理性

阿新 • • 發佈：2019-01-11

最小二乘法的核心思想是保證所有資料誤差的平方和最小，但我們是否認真思考過為什麼資料誤差平方和最小便會最優，本文便從最大似然估計演算法的角度來推導最小二乘法的思想合理性，下面我們先了解一下最大似然估計和最小二乘法，最後我們通過中心極限定理剋制的誤差ε服從正態分佈來引出最大似然估計和最小二乘法的關係

一、最大似然估計

先從貝葉斯公式說起：

$P\left( W \middle| X \right) = \ \frac{P\left( X \middle| W \right)P(W)}{P(X)}$

P(W)

先驗概率，表示每個類別的概率
P(W|X) 後驗概率，表示已知某事X發生的情況下，屬於某個類W的概率
P(X|W) 類條件概率，在某個類W的前提下，某事X發生的概率

對於 P(W) 先驗概率的估計是簡單的，樣本資訊直接給出，但對於 P(X|W) 類條件概率來說，概率密度函式包含一個隨機變數的全部資訊，直接求解概率密度無法入手，因此我們將概率密度估計問題轉化為引數估計問題，極大似然估計便就是一種引數估計法。

最大似然估計的核心思想是：在給出資料樣本下，找出最大可能產生該樣本的引數值，最大似然估計提供了一種給定觀察資料來評估模型引數的方法，即模型已定，引數未知，通過最大似然估計找到能夠使樣本出現概率最大的引數值，則稱為最大似然估計。

最大似然估計有一個重要的前提假設即：樣本之間是獨立同分布的，先給出一個一般模型。考慮現有一類樣本集D，記作D = { x1,x2,…,xn}，來估計引數 θ，有：

$L\left( \theta \right) = \ P\left( D \middle| \theta \right) = P\left( x1,x2,\ldots,xn \middle| \theta \right) = \ \prod_{i = 1}^{N}{P(xi|\theta)}$

=1∏NP(xi∣θ)

其中 P(D|θ) 既是聯合概率密度函式，L(θ) 稱作樣本 D={x1,x2,…,xn} 關於θ的似然函式，對上式取對數可得：

$l\left( \theta \right) = \ lnL\left( \theta \right) = \ \sum_{i = 1}^{N}{lnP(xi|\theta)}$

按照最大似然函式的思想，我們要求的是使得樣本出現概率最大的引數θ，因此：

$\theta = arg\operatorname{}{l(\theta)}$

因此當 ∂l(θ)/∂θ = 0 成立時l(θ) 取得最大值，解此時便可得到引數 θ

注：這裡的引數θ可是實數變數(一個未知引數)，也可以是向量(多個未知引數)

二、最小二乘法(最小平方法)

比如我們要做資料擬合，如下圖所示：
在這裡插入圖片描述

假設我們擬合函式為h_θ(x)，暫先不管h_θ(x) 形式，擬合函式可以是線性，也可非線性，正如上圖所示，現在我們需要做的便是選出擬合效果最好的函式，法國數學家勒讓德定義，讓資料總體誤差最小的便是最好的。當然為什麼勒讓德如此定義我們便認為是合理的呢，下面第三節最大似然估計的角度說明該定義的合理性。

兩種定義擬合總體誤差：

(1) 誤差絕對值之和：

$\operatorname{}{\sum_{i = 1}^{m}{|{y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right)|}}$

解釋：m表示樣本點數，(xⁱ, yⁱ) 既是座標點

(2) 誤差平方和最小：

$\operatorname{}{\sum_{i = 1}^{m}{(\ y^{\left( i \right)} - \ h_{\theta}\left( x^{(i)} \right))}^{2}}$

最小二乘法便是便是採用了保證所有資料誤差的平方和最小，這便是最小二乘法優化的核心思想。這裡簡單解釋為什麼不去誤差絕對值之和最小，主要願意便是誤差絕對值之和最小無法轉化為一個可解的尋優問題，無法確定一個合適的尋優的引數估計方程，數學上不易處理。

根據擬合函式 h_θ(x) 定義形式的不同，引數的個數和形式也不同，但引數求解方式相同，都是通過對引數求偏導求解，這裡以簡單的線性擬合為例作簡單說明，則：

$h_{\theta}\left( x \right) = \ a*x + b\ \ \ \ \ \ \theta = \lbrack a,\ b\rbrack$

優化方程為：

$\operatorname{}{J(\theta)} = \ \operatorname{}{\sum_{i = 1}^{m}{(y^{\left( i \right)} - \ (a*x^{\left( i \right)} + b))}^{2}}$

對引數a,b求偏導有：

$\frac{\partial J}{\partial a} = - 2\sum_{i = 1}^{m}{x^{\left( i \right)}(y^{\left( i \right)}\ \ (a*x^{\left( i \right)} + b))}$

$\frac{\partial J}{\partial b} = 2\sum_{i = 1}^{m}{(y^{\left( i \right)}\ \left( a*x^{\left( i \right)} + b \right))}\$

聯合上述式子便可求得引數a, b得到最優擬合函式

三、高斯正態分佈、最大似然估計、最小二乘法關係

繼續以上述資料擬合為例，對每個資料點擬合都會存在誤差，我們定義誤差為：

$\varepsilon^{(i)} = \ {\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right)$

假設當樣本資料量足夠多的情況下，我們由中心極限定理剋制可知誤差ε服從正態分佈，即ε~N(0, σ²)，因此有：

$P\left( \varepsilon^{\left( i \right)} \right) = \ \frac{1}{\sqrt{2\pi}\sigma}exp( - \frac{{(\varepsilon^{i})}^{2}}{2\sigma^{2}})$

因此我們可得yⁱ 關於xⁱ 的概率密度公式為：

$P\left( y^{\left( i \right)}{|x}^{\left( i \right)};\theta \right) = \ \frac{1}{\sqrt{2\pi}\sigma}exp( - \frac{{({\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right))}^{2}}{2\sigma^{2}})$

求概率密度問題是不是有想到了最大似然法，這裡便可以把求概率密度轉化為求引數，因此有最大似然法可得：

$L\left( \theta \right) = \ P\left( y \middle| x;\theta \right) = \ \prod_{i = 1}^{m}{\frac{1}{\sqrt{2\pi}\sigma}exp( - \frac{{({\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right))}^{2}}{2\sigma^{2}})}$

按照最大似然估計接下來便通過最大化似然函式求參，但通過觀察可以看出：

$\operatorname{}{L\left( \theta \right)\ < = > \ \ \operatorname{}{\sum_{i = 1}^{m}{({\ y^{(i)} - \ h}_{\theta}\left( x^{(i)} \right))}^{2}}}$

右式是啥，不就是最小二乘法嘛，所以從此角度也說明了最小二乘法定義的所有資料誤差的平方和最小既是最優的合理性

機器學習演算法篇：最大似然估計證明最小二乘法合理性

一、最大似然估計

二、最小二乘法(最小平方法)

三、高斯正態分佈、最大似然估計、最小二乘法關係

機器學習演算法篇：最大似然估計證明最小二乘法合理性

機器學習演算法（1）——極大似然估計與EM演算法

最大似然估計、最大後驗估計與樸素貝葉斯分類演算法

最大似然估計與最小二乘

最大似然估計vs最大後驗概率

最大似然估計和最大後驗概率估計（貝葉斯引數估計）

L1、L2 正則項詳解 - 解空間、先驗分佈、最大似然估計 and 最大後驗估計

關於最大似然估計和最小二乘估計

關於最大似然估計和最小二乘法的理解和公式推導

最大似然估計，最大後驗估計，貝葉斯估計聯絡與區別

貝葉斯估計、最大似然估計、最大後驗概率估計

最大似然估計，最大後驗估計，貝葉斯估計

通俗理解最大似然估計，最大後驗概率估計，貝葉斯估計

貝葉斯思想以及與最大似然估計、最大後驗估計的區別

最大似然估計、最大後驗估計和貝葉斯估計的關係

最大似然估計和最大後驗概率估計的區別

機器學習概念：最大後驗概率估計與最大似然估計（Maximum posterior probability and maximum likelihood estimation)

機器學習演算法篇：從為什麼梯度方向是函式變化率最快方向詳談梯度下降演算法

【機器學習】【邏輯迴歸】最大似然估計的推導和求解步驟和梯度上升演算法求解

【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

機器學習演算法篇：最大似然估計證明最小二乘法合理性

一、最大似然估計

二、最小二乘法(最小平方法)

三、高斯正態分佈、最大似然估計、最小二乘法關係

相關推薦