內容提要

這篇部落格主要的內容有：
1. 模型選擇
2. 貝葉斯統計和規則化（Bayesian statistics and regularization）

最為核心的就是模型的選擇，雖然沒有那麼多複雜的公式，但是，他提供了更加巨集觀的指導，而且很多時候是必不可少的。now let’s begin

模型選擇

假設我們訓練不同的模型去解決一個學習問題，比如我們有一個多項式迴歸模型hθ(x)=g(θ0+θ1x+θ2x2+...+θkxk)，我麼就像確定這個k的取值是不是1,2,...,10，或者我們程式可以自動的計算k的取值，即選擇不同的模型去解決問題並且可以在欠擬合和過擬合之間的到很好的平衡。

我們先假設一個模型的有限幾何M={M1,M2,...,Md}，然後在這集合中選擇我們想要的模型。比如上面的那個例子中，Mi指的就是第i個模型k的取值。那麼我們怎麼在在這個集合之中進行選擇呢？下面我們介紹交叉驗證方法。

交叉驗證

解決上面模型選擇問題的一個簡單想法就是我用70%的資料對每一模型進行訓練，用30%的資料進行訓練誤差的計算，然後我們在比較各個模型的訓練誤差，就可以選擇出訓練誤差比較小的模型了。如果對這些誤差不用請參看（學習理論之經驗風險最小化——Andrew Ng機器學習筆記（七））這篇部落格。

如果我們的訓練資料非常容易的就可以得到，那麼上面這個方法將是一個不錯的方法，因為它只需要遍歷訓練模型一次就可以得到一個比較好的模型。但是訓練資料往往不是非常容易就可以得到，之前我就採集過一次實驗資料，那的的確是一次非常痛苦的過程。所以我們就想高效的利用我們來之不易的訓練資料，有人就提出來K重交叉驗證（k-fold cross validation）演算法，演算法過程如下：

將訓練集S分成k份，分別記為S1,S2,...,Sk

對於每一個Mi，都執行如下過程：
for j=1,2,...,k
在S1,S2,...Sj−1,Sj+1,...Sk上訓練模型Mi，得到假設函式hij。
利用Sj計算hij的訓練誤差，然後求平均值。

選擇出訓練誤差最小的模型Mi，然後在整個訓練集上訓練整個模型，最後我們就得到了對於這個訓練集最好的模型

這個演算法主要的思想就是：對於每一個模型，我們一次用S1,S2,...Sk去驗證，用出去驗證的剩餘部分進行訓練，然後平均訓練誤差，就只這個模型的訓練誤差，最後選擇訓練誤差最下的模型。再重新訓練這個模型，就得到最終我們想要的模型。如果k等於訓練集S的大小（k

=|S|）,這時有一個專門的名字叫留一交叉驗證（leave-one-out cross validation）。

特徵選擇

特徵選擇 ( Feature Selection )也稱特徵子集選擇( Feature Subset Selection , FSS ) ，或屬性選擇( Attribute Selection ) ，是指從全部特徵中選取一個特徵子集，使構造出來的模型更好。

為什麼要特徵選擇

先舉個例子，之前我們舉過郵件分類的例子，整個郵件中的單詞是否出現構成的0,1向量作為其特徵向量。但是，當其中出現“deep leaning”等單詞對判斷判斷是否為垃圾郵件作用不大，反而出現“buy”等單詞對判斷作用大，所以我們就行將其中作用不大的這些單詞剔除掉。剔除的過程就是特徵選擇的過程。下面我們再來看看更加嚴格的說明

在機器學習的實際應用中，特徵數量往往較多，其中可能存在不相關的特徵，特徵之間也可能存在相互依賴，容易導致如下的後果：
1. 特徵個數越多，分析特徵、訓練模型所需的時間就越長
2. 特徵個數越多，容易引起“維度災難”，模型也會越複雜，其推廣能力會下降

特徵選擇能剔除不相關(irrelevant)或亢餘(redundant )的特徵，從而達到減少特徵個數，提高模型精確度，減少執行時間的目的。另一方面，選取出真正相關的特徵簡化了模型，使研究人員易於理解資料產生的過程。

下面我們介紹特徵選擇的演算法

前向搜尋和後向搜尋

先來看前向搜尋，他的核心思想就是嘗試特徵向量所有組合，從中選擇出訓練誤差最小的特徵向量的自向量，原始特徵向量的維度為n,具體描述如下：
1. 初始化特徵向量F為空（F=ϕ）
2. 迴圈直到到達閾值或者迴圈n趟
{
fori=1,...,n;{ifi∉Fi,thenFi=F∪{i}，然後利用交叉驗證演算法或者留一交叉驗證演算法計算Fi的訓練誤差 }

令F等於訓練誤差最小的Fi
}
3. 輸出最終訓練誤差最小的特徵向量的子集

實際上這個演算法就是在遍歷這樣一個排列樹（關於演算法的書上有排列樹的概念）：

並且以廣度優先的方式進行遍歷。不同就是，每一層只保留一個訓練誤差最小的節點。

與前向搜尋思想相反的搜尋演算法叫後向搜尋，他的核心思想是：先將F設定為{1,2,..,n}，然後每次嘗試刪除一個特徵，並計算訓練誤差或者評價，直到達到閾值或者為空，然後選擇最佳的F。

前向搜尋和後向搜尋屬於封裝特徵選擇（wrapper model feature selection），Andrew Ng老師還解釋為什麼稱為“Wraper”原因，說這算個就像“wrapper”一樣套在你的學習演算法外面，在執行的時候需要不斷重複的呼叫你的學習演算法。前向搜尋和後向搜尋都有兩層迴圈，並且最壞情況下迴圈計數都到達n，所以時間複雜度都為O(n2)

濾特徵選擇演算法（Filter feature selection method）

有時候前向和後向搜尋的複雜度是無法接收的，比如在郵件分類中，特徵向量的維數有時候會到達5000，甚至更高。這時的複雜度我們接收不了。所以就有了濾特徵選擇演算法，它是一種啟發式搜尋演算法，其中我們會定義個評價函式S(i),用來評價第i個特徵與標籤y之間的影響關係。最後選擇出S(i)得分高的特徵。這個演算法中兩個重要的點就是這個S(i)怎麼定義，k到底取多大。

定義S(i)

這個S(i)要反映出xi和y之間的聯絡，並且這個評價也是要基於訓練集的。當xi和y之間的聯絡強烈時評價要高，當xi和y之間的聯絡弱時評價要低。很多情況下我們選擇S(i)為mutual information，它的形式如下：

學習理論之模型選擇——Andrew Ng機器學習筆記（八）

內容提要

模型選擇

交叉驗證

特徵選擇

為什麼要特徵選擇

前向搜尋和後向搜尋

濾特徵選擇演算法（Filter feature selection method）

定義S(i)

學習理論之模型選擇——Andrew Ng機器學習筆記（八）

非監督學習之混合高斯模型和EM演算法——Andrew Ng機器學習筆記（十）

Andrew Ng機器學習課程筆記（十六）之無監督學習之因子分析模型與EM演算法

廣義線性模型 - Andrew Ng機器學習公開課筆記1.6

Andrew Ng機器學習課程筆記（四）之神經網絡

學習理論、模型選擇、特徵選擇——斯坦福CS229機器學習個人總結（四）

Andrew Ng機器學習課程筆記（十三）之無監督學習之EM演算法

Andrew Ng機器學習課程之學習筆記---牛頓方法

Andrew Ng機器學習課程筆記（十二）之無監督學習之K-means聚類演算法

Andrew NG機器學習課程筆記系列之——Introduction to Machine Learning

非監督學習之k-means聚類演算法——Andrew Ng機器學習筆記（九）

Andrew Ng機器學習筆記+Weka相關算法實現（四）SVM和原始對偶問題

Andrew Ng機器學習第一章——初識機器學習

Andrew Ng機器學習第一章——單變量線性回歸

Andrew Ng機器學習（零）：什麽是機器學習

Andrew Ng 機器學習筆記 16 ：照片OCR

Andrew Ng 機器學習筆記 15 ：大資料集梯度下降

Andrew Ng 機器學習筆記 14 ：異常檢測

Andrew Ng 機器學習筆記 13 ：降維(dimensionality reduction)

Andrew Ng 機器學習筆記 12 ：聚類

學習理論之模型選擇——Andrew Ng機器學習筆記（八）

內容提要

模型選擇

交叉驗證

特徵選擇

為什麼要特徵選擇

前向搜尋和後向搜尋

濾特徵選擇演算法（Filter feature selection method）

定義S(i)

相關推薦