1. 程式人生 > >分類與監督學習,樸素貝葉斯分類演算法

分類與監督學習,樸素貝葉斯分類演算法

1.理解分類與監督學習、聚類與無監督學習。
簡述分類與聚類的聯絡與區別。
簡述什麼是監督學習與無監督學習。


區別:分類:我們是知道這個資料集是有多少種類的,然後對它們分類歸納。比如對一個學校的在校大學生進行性別分類,我們會下意識很清楚知道分為“男”,“女”。
     聚類:對資料集操作時,我們是不知道該資料集包含多少類,我們只能通過它們的相似度將資料集中歸納在一起,這就是聚類。因而使得同一個簇(或類)中的物件之間具有較高的相似性,而不同簇中的物件具有較高的相異性。
聯絡:分類和聚類都是對資料歸納整理的一種方法。
監督學習(supervised learning):通過已有的訓練樣本(即已知資料以及其對應的輸出)來訓練,從而得到一個最優模型,再利用這個模型將所有新的資料樣本對映為相應的輸出結果,對輸出結果進行簡單的判斷從而實現分類的目的,那麼這個最優模型也就具有了對未知資料進行分類的能力。 
無監督學習(unsupervised learning):我們事先沒有任何訓練資料樣本,需要直接對資料進行建模。

2.樸素貝葉斯分類演算法 例項
利用關於心臟情患者的臨床資料集,建立樸素貝葉斯分類模型。
有六個分類變數(分類因子):性別,年齡、KILLP評分、飲酒、吸菸、住院天數
目標分類變數疾病:–心梗–不穩定性心絞痛
新的例項:–(性別=‘男’,年齡<70, KILLP=‘I',飲酒=‘是’,吸菸≈‘是”,住院天數<7)
最可能是哪個疾病?
上傳演算過程。


3.程式設計實現樸素貝葉斯分類演算法

利用訓練資料集,建立分類模型。

輸入待分類項,輸出分類結果。

可以心臟情患者的臨床資料為例,但要對資料預處理。