Coursera 斯坦福吳恩達機器學習課程筆記 (1)

阿新 • • 發佈：2019-02-03

看了課程一週後發現忘光了，決定做一個筆記用作複習。如果涉及到侵權問題請聯絡我，我會立馬刪除並道歉。

同時，禁止任何形式的轉載，包括全文轉載和部分轉載。如需使用請聯絡本人 [email protected]。如若發現侵權行為，我學過智慧財產權法的，嘿嘿

第一週：基礎概念和介紹

對機器學習的理解

機器學習現在也沒有統一的定義。最淺顯易懂的就是賦予計算機不需要得到清晰完整程式碼就能夠通過“自我學習”來完成任務的能力(Arthur Samuel 1959)。這樣說依然很抽象，還有一個淺顯的例子就是對於一個computer program, 對於給定任務T，這個程式可以通過某些experience E, 使用恰當的measurements P來學習T，並最終達到提高P的效果。

舉個例子：

（1）下棋，觀看使用者下棋就是E，贏得遊戲就是T，贏得遊戲的時間（或其他衡量）就是P。機器要通過E來完成T任務，並且不斷提高P。

（2）spam. 觀看使用者給郵件貼label（尤其是垃圾郵件）是E，分類垃圾郵件是E，成功分類是P

機器學習演算法：

supervised learning

對於output我們有清楚的認知，我們想要什麼樣的結果（對於input我們有足夠的label來標記我們的資料）。比如預測澳大利亞十年後兔子的數量，我們很清楚這會是一個具體的數值。

常見的有迴歸問題、分類問題（注意分類問題可以有不止0,1兩類，例子包括腫瘤預測等）

unsupervised learning

對於input我們是沒有label的，我們並不知道這些資料可以被分為多少類。例如給100篇文章分類，我們並不知道他們可以分成多少類，唯一可以做到的是將關鍵詞等類似的文章分為一類。還有的例子包括基因測序等。

cocktail party problem

party中有兩個話筒，一個用於講話，一個用於收音（BGM）。如何使用電腦將人聲和BGM分離呢？就可用到無監督學習。

others: reinforcement learning, recommender systems

線性迴歸

我們將資料分為兩類：訓練集和驗證集

訓練集用於訓練模型，使用特定的criteria (e.g. cv等)來選定模型。驗證集用於驗證訓練的模型的有效度。

cost function

cost function 是fitted-observed之間差值的距離，優化模型就是通過最小化cost function完成的

m 為訓練集資料個數，平方和是為了消除差之間的互相抵消。

下式寫作J（θ0，θ1），叫做squared error function, 這是最常見的迴歸問題的cost function。

例子：對於簡單一元線性迴歸 y = θ0+θ1x, J（0）就是y = 0

對於簡單一元線性迴歸，左邊是模型hθ(x), 右邊是cost function J(θ0，θ1)。我們可以清楚看見J的全域性最小值（即h的全域性最優解）是出現在這個鐘形函式的底部的。通過確定此時的θ0和θ1，我們就能確定最優的hθ(x)。

注意：因為簡單一元線性迴歸的特性，J的全域性最小值就等於其區域性最小值，這是特殊的。通常我們只能求得J的區域性最小值。如下圖，很明顯右邊的點是全域性全域性最小值，但是我們是從左邊的點的上方開始建模的，一般只能求得左邊的區域性最優解。這個問題在神經網路裡尤為突出，因為神經網路的start point是隨機的，所以很可能無法達到全域性最優解。

Gradient descent （不止用於線性迴歸）

gradient descent是尋求最優解的一個常用方法。這裡有一個大前提：在gradient descent找到一個最優解之後，它就會停下，不會馬不停蹄給你找下一個更好的解。誰一天那麼閒沒事天天給你找解啊，程式也是有脾氣的，哼。這個演算法相當於一個下坡的過程，如果我一開始站在左邊的山頭上，向著紅色線的方向下坡（一般此過程為求導後從原位置減去求導量和learning rate的乘積（公式見下下圖），這裡的learning rate就可以理解為我一步跨多大），最終達到左邊的全域性最優解（我假設他是最優解）；如果我一開始站在右側的山頭，順著紅線下坡，很有可能就會到達右側的區域性最優解；同樣的，如果從左邊的山頭順著藍線下坡，也是有可能會到達右邊的區域性最優解的，全看我走的方向如何。當然，顯而易見這樣需要的成本更大。同理，如果我一開始站在右邊山頭想走到左邊的全域性最優解，成本依然很大。

這幾個宛如狗爬的字是： repeat until convergence

α即上段提到的learning rate，α的值一定要取的適當。如果α太小，我下山的步子太小，就會浪費很多資源來獲取區域性最優解。如果α太大，我下山步子太大（嗯。。。一腳跨過一座山哈哈哈哈），我可能會略過區域性最優解，如果還有區域性最優解那還好，可是對於二次的cost function，我可能就會錯過唯一的最優解然後獲得越來越大的誤差。

注意這裡的:=和=符號的區別，:=是assignment， a:= a+1就是讓a+1; = 是既成事實，a=a+1就是不對的，永遠不可能發生。（這裡應該就類似於程式語言的==和=）

注意：這裡θ0和θ1應該是simultaneously update的，即，要找優化解我們應該同時計算兩者的值，而不是計算其中一個，將這個引數的最優解套入下一個引數的計算得到下一個引數的最優解

【上圖是現抄課件，本人無版權，感謝coursera, 斯坦福和吳恩達爸爸，侵刪】

Batch

“Each step of gradient descent uses all the training examples” ——摘自coursera machine learning Andrew Ng課件，侵刪

第二週多元線性迴歸

如果要把model寫成hθ(x)=θ^TX的話，x0=1

Feature Scaling

目的是為了（1）讓covariate之間的權重更加平衡，例如一組資料，工資的範圍是2000-10000，年齡的範圍只是20-30，在建模時很容易工資的權重就大大影響了模型，而實際上年齡才是主要的covariate。此外，當我們使用二次甚至更高次模型的時候，feature scaling就變得更重要了（2）讓gradient descent更快找到收斂的位置。如下圖，對於範圍差距很大的資料，形成的cost function很可能是A這種奇形怪狀的，不利於尋找區域性最優解。如果我們將資料處理到等量級或相似量級，cost function就越接近B——一個圓形，就方便找很多了。

那麼什麼是好的feature scaling呢？這個範圍也不是越小、越精確越好，我們依然需要給feature一定的空間：[-1,1]就是一個合理的範圍，[-0.001,0.001]就有點太過了，同理[-100,100]也有點不合適。當然，這個範圍不需要對稱。

Mean Normalisation

用x-mean替代x，對x0=1無效。

P.S. 吳恩達爸爸好帥啊，聲音好溫柔~~~~花痴一下

確保gradient descent正確執行

（1）可以畫一個J(θ)最小值X迭代次數的圖，J(θ)應該是單調遞減並在某處收斂的。我們可以通過判斷函式來判斷α是大了呢，還是小了呢，是餓了呢，還是渴了呢。通常阿爾法取值在[0.001,1]之間，儘可能多試試，通過圖形來分析哪個α更合適

（2）automatic convergence test: 當J（θ）減少的量小於一個threshold 藝圃C龍（音譯，那個希臘字母，懶得打了）時，停止迭代。但是通常找一個合適的threshold是很難滴，所以恩達更願意看圖

例子：

對於下圖左邊兩種情況，很可能是α太大了，一次跨的幅度太大

Normal Equation （思想應該是同statistical learning的GLS）

Octave: pinv() = inverse X' == x transfer

對於normal equation, feature scaling是不必要的

但是如果X^TX是不可逆的呢（singular/degenerate）？

（1）造成不可逆的原因（這同時也是我們檢查原因的順序）：

a. features高度相關，比如x和x^2

b. features過多，比如features的數量已經多於資料的量了（這種情況我在學習中還沒遇到過，應該是很少見的），

i. 這裡可以刪掉一些features，

ii. 或者use regularization（之後會講到）

Gradient Descent vs. Normal Equation

Gradient Descent	Normal Equation
需要選擇α	不需要選擇α
需要多次迭代	計算一次到位

當n很大的時候 also works well [當features太多

（>=10000），吳恩達的選擇]

需要計算(X^TX)^-1

當n很大，收斂很慢

適用範圍更廣

對linear regression效果很好

——n為features的數量，不是資料的數量（m）

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------程式碼部分------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Octave command line

a = 3; %semicolon supressing output 不顯示輸出結果

~= 為不等號

xor(1,0)或門

c = (3>=1)；

c =1 （True）

pi = π

a = pi 結果： a = 3.1416

a = pi; 結果：無輸出

Octave 的print 很像C語言：

disp(sprintf('2 decimals: %0.2f', a)) 結果：2 decimals: 3.14

format long/short 顯示不同位數

A[1 2; 3 4; 5 6] 注意用空格而不是逗號

v = 1:0.1:2 生成一個從1-2的差值為0.1的 11*1矩陣（第一二列都是1）

ones(2,3) 生成一個2*3的全為1的矩陣

zeros() 同理

rand(1,3)隨機數（不過我覺得應該不是完全隨機的，還是有seed的）

randn(2,3) 生成正態分佈矩陣

sqrt(10)*randn(1，1000)就相當於R的rnorm(1000，sqrt(10))了

eye(4) 生成一個4*4的元矩陣

help eye 出解釋

size(Matrix) 返回結果是一個[行列]的 1*2矩陣

length(Matrix/Vector) 返回行數

pwd顯示當前路徑

常見命令與linux同

load featuresX,dat = load('featuresX.dat')

who 顯示當前環境下的變數

whos 給出detail

clear featuresX 清除

save hello.mat v; 將變數v存放入環境hello.mat

save hello.txt v -ascii 將該檔案以ASCII形式儲存

A（2,3）第二行第三列

A（2,:）第二行

A（：，2）第二列

:與R的space同

A .*B 是A矩陣和B矩陣的每個element各自相乘（前提是AB矩陣維度相同）

A .^2 是A矩陣每個element各自平方（看來.？是用於矩陣element的專門的操作）

A' 轉置

pinv(A) 逆矩陣

[val, ind] = max(a) 找出向量a中的最大值並給出其index

max(A) 會給出每一列中的最大值 = max(A,[],1) 每列最大值

max(A,[],2) 每行最大值

這裡類似R用1表示列，2表示行

a = [1 15 2 0.5]

a <3

ans = 1 0 1 1

find(a <3)

ans = 1 3 4

A .* eye(9) 出去從左到右對角線保留，其餘值全部為0

plot(x,y, 'r')——r 為紅色

xlabel('') ylabel('') legend(''，'') title('')

這裡能分別新增我覺得Octave是將這些變數全部儲存然後保持執行

print -dpng 'myplot.png'儲存

figure(1): plot(t,y1); 賦值,開啟新視窗

clf; 清除所有figure

subplot(1,2,1); 把plot分割成1:2 grid, 獲取第一個element

subplot(1,2,2)；

——這兩步合起來相當於 par(mfrow=c(1,2))

for i = 1:10,

v(i) = 2^i;

end;

while i <=5,

v(i) =100;

i = i+1;

end;

while true,

v(i) =999;

i = i+1;

if(i>10|| i ==10),

beark;

end;

end; 注意兩個end

addpath('') 新增路徑，這樣不在此路徑下也可以使用function

Vectorization （能使程式碼執行快得多）

將連乘、連加等形式轉化為矩陣的思維

比如

正常我會用for迴圈把它挨個加起來，這裡其實用矩陣能更方便解決這個問題

cost function也可以這樣處理

Coursera 斯坦福吳恩達機器學習課程筆記 (1)

第一週：基礎概念和介紹

對機器學習的理解