1. 程式人生 > >監督學習、非監督學習、半監督學習(主動學習)

監督學習、非監督學習、半監督學習(主動學習)

統計學習通常包括監督學習、非監督學習、半監督學習以及強化學習,在機器學習的領域中前三種研究的比較多的,也是運用的比較廣泛的技術。

監督學習

監督學習的任務是學習一個模型,使模型對給定的任意的一個輸入,對其都可以映射出一個預測結果。這裡模型就相當於我們數學中一個函式,輸入就相當於我們數學中的X,而預測的結果就相當於數學中的Y。對於每一個X我們都可以通過一個對映函式映射出一個結果。

非監督學習

直接對沒有標記的訓練資料進行建模學習,注意在這裡的資料是沒有標記的資料,與監督學習的最基本的區別是建模的資料一個有標籤一個是沒有標籤的。其中聚類就是一種典型的非監督學習,分類就是一種典型的監督學習。

半監督學習

當我們擁有標記的資料很少,但是未被標記的資料很多,但是人工標註又比較昂貴的時候。我們可以根據一些條件(查詢演算法)查詢(query)一些資料,讓專家進行標記。這是半監督學習與其他演算法的本質的區別。所以說對主動學習的研究主要是設計一種框架模型,運用新的查詢演算法查詢需要專家來認為標註的資料。最後用查詢到的樣本訓練分類模型來提高模型的精確度.

接下來我們將對主動學習作詳細的解釋:

主動學習的模型如下:

A=(C,Q,S,L,U)

其中C指的是一個或者多個分類器,Q指的是一些查詢函式,也就是一些查詢演算法,S指的是監督者,通常指的是專家,L是少量標記的樣本,U指的是大量未被標記的額樣本。學習者利用少量標記的樣本L,通過一些基本的機器學習演算法學習一個或者多個機器學習模型C,然後通過查詢演算法,按照查詢演算法查詢出一批最有用的樣本,交給專家,讓專家進行標記,最後將新學到的標記資料加入到少量樣本中,繼續訓練模型。一直迴圈,直到達到一個準則為止。流程如下所示: