1. 程式人生 > 實用技巧 >吳恩達機器學習筆記1 初識機器學習

吳恩達機器學習筆記1 初識機器學習

本章節主要介紹了監督學習和無監督學習的概念與舉例,適合小白入門機器學習。

1. 監督學習

監督學習指的就是我們給學習演算法一個數據集。這個資料集由“正確答案”組成。

房價問題

首先給了一系列房子的資料,然後給定資料集中每個樣本實際的售價,然後運用學習演算法,算出更多的正確答案。這是一個迴歸問題,迴歸是指預測連續值的屬性。可以用一條直線、二次函式或二階多項式擬合數據做出預測。
在這裡插入圖片描述

腫瘤問題

假設想通過檢視病歷來推測乳腺癌良性與否,例如這組資料:橫軸表示腫瘤的大小,縱軸上1表示惡性腫瘤,0表示不是惡性腫瘤。這是一個分類問題,分類是預測離散值的輸出,輸出可以是多個值。比如說可能有三種乳腺癌,則要預測離散輸出0、1、2、3。

在這裡插入圖片描述

在其他機器學習問題中,我們通常有更多的特徵。例如腫瘤問題中常採用腫塊密度,腫瘤細胞尺寸的一致性和形狀的一致性等等這些特徵。
在這裡插入圖片描述

當存在無限多種特徵時,如何選擇預測模型?這將在後面的課程中進行介紹。

2. 無監督學習

無監督學習的資料集沒有任何標籤,就是給演算法一個數據集,但不知道哪些樣本是什麼型別也不知道有哪些型別,並希望演算法從資料中找出某種結構。例如自動將資料分為兩個不同的簇,即聚類演算法。

應用

  • 組織大型計算機叢集。解決什麼樣的機器易於協同地工作,能讓資料中心工作得更高效。
  • 社交網路的分析。自動地給出朋友的分組,識別出同屬一個圈子的朋友。
  • 市場分割。許多公司有大型的資料庫,儲存消費者資訊。檢索這些顧客資料集,自動找出不同的市場分割,並自動地把顧客劃分到不同的細分市場中,實現在不同的細分市場中進行自動高效的銷售。

雞尾酒宴問題

兩個人在同時講話,兩個不同位置的麥克風分別錄下了這些重疊的聲音。通過無監督學習演算法找出資料的結構,可以分離出兩個音訊源。一行程式碼就可以完成這個演算法:

[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x’);
svd是奇異值分解。

下一章將介紹單變數線性迴歸。