1. 程式人生 > >統計學習方法--機器學習概論

統計學習方法--機器學習概論

擬合 位置 常用 sub != 數據 假設 生物 sof

(本章主要參考李航老師的《統計學習方法》,其次是周誌華老師的《機器學習》。通過自己的閱讀,提煉出書中的知識點以及些許自己部分的理解(可能不到位),鞏固所學知識。)

統計學習方法概論

本章簡要敘述統計學習方法的一些基本概念.首先許如統計學習的定義、研究對象與方法;然後敘述監督學習;接著提出統計學習方法的三要素;介紹模型選擇;介紹生成模型與判別模型;最後介紹監督學習方法的應用:分類問題、標註問題與回歸問題。

以下是目錄結構:

一. 統計學習

二. 監督學習

三.統計學習三要素

四. 模型評估與模型選擇

五. 正則化與交叉驗證

六. 泛化能力

七. 生成模型與判別模型

八. 分類問題

九. 標註問題

十. 回歸問題

以下是正文:

一. 統計學習

1.統計學習的特點:

‘學習’的定義(赫爾伯特·西蒙):如果一個系統能通過執行某個過程改進他的性能,這就是學習。

(1):以計算機網絡為平臺 (2):以數據為研究對象 (3):對數據進行預測和分析 (4):構建模型並應用模型進行預測 (5):以概率論、統計學、信息論、計算理論、最優化理論、計算機科學等多個領域的交叉學科

2.統計學習的對象:

統計學習的對象是數據。從數據出發,提取數據特征(如預測房子的價格,提取房子的占地面積,地理位置、交通情況等特征),抽象數據模型(將占地面積、地理位置、交通情況以向量的形式表達),發現數據的知識,對數據做預測和分析(構建模型如多元函數擬合)。

3.統計學習的目的:

統計學習的目的是對數據作預測和分析,特別是對位置新數據進行預測與分析。

4.統計學習的方法:

統計學習的方法是基於數據結構統計模型從而對數據進行預測與分析.統計學習由監督學習、非監督學習、半監督學習和強化學習等組成。

實現統計學方法的步驟如下:

1.得到一個有限的訓練數據集合

2.確定包含所有可能的模型的假設空間,即學習模型的集合

3.確定模型選擇的準則

4.實現求解最優模型的算法

5.通過學習方法選擇最優模型

6.利用最有模型預測數據

5.統計學習的研究:

統計學習的研究包括統計學方法、統計學理論及統計學應用

6.統計學習的重要性:

近二十年來,統計學習無論是在理論還是應用方面取得了巨大的發展,統計學習已經被成功地應用到人工智能、模式識別、數據挖掘、自然語言處理、語音識別、圖像識別、信息檢索和生物信息等許多領域中。

統計學的重要性體現在以下三個方面:

1.處理海量數據的有效方法

2.計算機智能化的有效手段

3.計算機科學發展的一個重要組成部分

二. 監督學習

監督學習的任務是學習一個模型,使得模型能夠對任意給定的輸入,對其相應的輸出做出一個好的預測。

下面介紹幾個基本術語:

1.輸入空間(input space):輸入的所有可能取值

2.輸出空間(ouput space):輸出的所有可能取值

3.實例(instance):具體的輸入,通常由特征向量表示(x(1) ,x(2),……,x(n) )

4.特征空間(feature space):所有特征向量存在的空間

5.樣本(sample):輸入與輸出對

6.假設空間(hypothesis space):模型由輸入空間到輸出空間的映射的集合

由此,根據輸入輸出變量的不同類型,給了監督學習不同的名稱:

1.輸入與輸出變量均為連續變量的預測問題稱為回歸問題(如支持向量回歸SVR輸出 wx+b,即某個樣本點到分類面的距離,是連續值,所以是回歸模型)

2.輸出變量為有限個離散變量的預測成為分類問題(如二分類問題的輸出為-1:反類,+1:正類;如支持向量機把這個距離用 sign(·) 函數,距離為正(在超平面一側)的樣本點是一類,為負的是另一類;k鄰近法;樸素貝葉斯;決策樹、感知機、貝葉斯網絡、提升方法、神經網絡等)

3.輸入輸出變量均為變量序列的預測問題成為標記問題(如隱馬爾可夫模型、條件隨機場。應用:信息抽取,自然語言處理如詞性標註、抽取基本名詞短語)

三.統計學習三要素

統計學習方法 = 模型 + 策略 + 算法

1.模型

模型就是所要學習的條件概率分布或者決策函數。如SVR輸出wx+b、二分類問題的分類器P=(Y|X)或Y=f(X)對於輸出實例進行分類。

2.策略

由於輸出的預測值f(X)與真實值有差異,用損失函數(loss function)或代價函數(cost function)來度量預測錯誤的程度。

損失函數為f(X)和Y的非負實值函數,記為L(Y,f(X)),常用的損失函數如下:

(1): 0-1損失函數: L(Y,f(X)) = 1 (Y!=f(X)) , 0 (Y = f(X)).

(3): 平方損失函數: L(Y,f(X)) = (Y - f(X))2

(4): 絕對損失函數: L(Y,f(X)) = |Y - f(X) |

(5): 對數損失函數: L(Y,f(X)) = -log P(Y|X)

損失函數值越小模型就越好.故考察損失函數的期望:E p[ L(Y,f(X))] = X*Y L * P(x,y) dxdy 其中P(x,y)是(X,Y)的聯合分布概率。學習的目標就是選擇期望風險最小的模型。

但是,實際上如果知道聯合分布P(X,Y),便可直接求出P(Y|X),也就不需要學習了。故考察平均損失(經驗風險):R(f)= 1/N * ∑i=1-N L(yi,f(xi))

經驗最小化認為:經驗最小的模型是最優模型,即求解最優化問題 min 1/N * ∑i=1-N L( yi , f(xi) )

結構最小化認為:結構風險最小化求解最優問題 min 1/N * ∑i=1-N L( yi , f(xi) ) +λ * J(f) ,

3.算法

算法是指學習模型的具體算法,一般歸結於最優化問題.

若最優化問題有顯示解析解,則最優化問題較為簡單

若最優化問題沒有顯示解,則需要用數值計算的方法求解。如何保證找到全局最優解(可能會陷入局部最優解即極值),並使得求解過程最高效成為一個重要的問題。

四. 模型評估與模型選擇

五. 正則化與交叉驗證

六. 泛化能力

七. 生成模型與判別模型

八. 分類問題

九. 標註問題

十. 回歸問題

統計學習方法--機器學習概論