1. 程式人生 > >《機器學習(周志華西瓜書)》學習筆記1:第三章-線性模型

《機器學習(周志華西瓜書)》學習筆記1:第三章-線性模型

一、線性迴歸

    線性迴歸的基本思想是採用對輸入樣例各個特徵進行線性加權的方式得到預測的輸出,並將預測的輸出和真實值的均方誤差最小化。1)如果輸入樣例只有一個特徵,那這個過程就是用一條直線去擬合平面直角座標系上的點; 2)如果有兩個特徵,表現在平面直角座標系上就是用一條直線將用不同標記(如XX和OO)區分的輸入樣例分割開來;3)如果有兩個以上特徵,那就會對映到高維空間,用超平面來分割。

    對於離散屬性,若屬性值間存在“序”關係,則可以通過連續化將其^{}轉換成連續值;若不存在“序”關係,則有k個屬性值,就轉換為k維向量。比如,如果屬性是有序的話,如“大 中 小”,可按序量化為(1,0.5,0);若屬性無序,如瓜的種類有西瓜、黃瓜、冬瓜,就可以用三維向量表示(1,0,0),(0,1,0),(0,0,1)。如果對於無序的屬性按有序屬性的方式量化,則會不恰當的引入序關係,後面如果有涉及距離的計算,有可能會造成誤導。這裡實際上對應的是程式設計實現時的資料預處理部分。

    均方誤差即函式值與平均數的方差,它是迴歸任務最常用的度量,它採用的是歐幾里得(歐式)距離。基於均方誤差來進行模型求解的方法,成為“最小二乘法”。線上性迴歸中,“最小二乘法”就是找到一條直線,使所有樣本到該直線的歐式距離之和最小。

    求解線性方程E(w,b)=∑(yi-wxi-b)²中的w和b的過程,稱為最小二乘“引數估計”。分別對w和b求偏導,當兩個偏導數均為0時(極值點處),得到的w和b為最優解

    對於有多個屬性的問題,稱為“多元線性迴歸”。

    可逆矩陣又稱為滿秩矩陣,不可逆矩陣又稱為奇異矩陣或降秩矩陣。列數大於行數的矩陣,絕不可能是滿秩矩陣。

    當資料集構成的矩陣滿秩時,有唯一的w使均方誤差最小;當資料集中樣本屬性大於樣本個數,即資料集列數大於行數時,矩陣不可能滿秩,有多個解使得均方誤差最小。

    w多解時,該選擇哪一個解作為輸出,將由學習演算法的歸納偏好決定,常見做法是引入正則化項。

    考慮單調可微函式g(.),令y = g^{-1}(w^{T}x+b),使得線性模型推廣為廣義線型模型。對數線性迴歸即是廣義線性模型在g(.)=ln(.)時的特例。

二、對數機率迴歸

    廣義線性模型常用作分類。只需要找出一個單調可微函式將分類任務的真實標記y與線性迴歸模型的預測值聯絡起來。比如二分類,由z=xw+b所得到的預測值z是一個實值,我們必須要把這個實值轉換為0或1,因此需要用到“單位階躍函式”(z小於0則令y=0,z大於0則令y=1,若z=0則任意判斷)。然而,"單位階躍函式"不連續,因此我們需要找一個替代的函式——對數機率函式(邏輯迴歸模型)。

    對數機率迴歸(邏輯迴歸)模型  ln(y/(1-y))=xw+b, 其中,y為樣本x作為正例的可能性,1-y為樣本x作為反例的可能性,則y/(1-y)成為“機率”,反映的是x作為正例的相對可能性,對機率取對數則得到“對數機率”。總結起來,就是:用線性迴歸模型的預測結果去逼近真實標記的對數機率。

    對率(邏輯迴歸)模型雖然名字是“迴歸”,實際卻是一種分類學習方法。有以下幾個重要優點

    1)直接對分類可能性進行建模,不需要事先假設資料分佈

    2)不僅能預測類別,還可以得到近似概率預測。對需要利用概率輔助決策的任務很有用

    3)對率函式是任意階可導的凸函式,又很好的數學性質,能應用許多數值優化演算法。

    書上在54頁邊注簡要說明了凸函式,什麼是凸函式的定義和判定?  線性迴歸的目標函式是一個凸函式。一個閉區間上凸函式,必須在這個區間上滿足“兩點中點處函式值≤兩點各自函式值和的一半”,而不要想當然的理解為形狀朝一個方向“凸出”就是凸函式。比如,y=x²是凸函式,y=-x²就不是。從數學角度,可以通過二階導數判斷:若在區間上二階導數非負,則稱為凸函式;若二階導數在區間上恆大於0,則稱為嚴格凸函式。