機器學習------L1、L2規範化（L1 Regularization、L1 Regularization）

阿新 • • 發佈：2019-01-12

取自孫明的＂數字影象處理與分析基礎＂

1. 引入——病態問題和約束

　　通過改變模型的擬合能力來避免過擬合併不是一件容易的事情，更常用的辦法是使用規範化對模型的引數進行一定的約束。下面來考慮一個非常簡單的例子，求下面方程的解：
　　

2 x - y + 2 = 0

　　這是一個二元一次方程，有無數個解，都在下圖1a所示的這條直線上。
這裡寫圖片描述

圖1 病態方程求解和規範化

　　這是一個典型的病態（ill-posed）方程，有無數個解可以滿足方程，可以通過 $x$ 和 $y$ 代入等式左邊求出0，但是通過等式來推導 $x$ 和 $y$ 的值卻是不可行的。病態方程除了有不可逆的性質，在數值計算上也不受歡迎，比如 $x = 10^{9}, y = 2 * 10^{9} + 2$

x = 10^{9}, y = 2 * 10^{9} + 2

，那麼如果

x

和

y

的係數發生很小的變化，則這個變化會被放大很多到等式的右邊，在數值計算中，這常常是不穩定的。
針對病態方程，一個常見的辦法是加入一個約束項，縮小

x

和

y

的取值範圍，比如令

x^{2} + y^{2} = 0.8

,如圖1b所示，則相當於約束

x

和

y

在半徑為

2 \sqrt{5}

圓上，於是相切點（-0.8,0.4）成了一個穩定的解。此外還可以令約束為

| x | + | y | = 1

,則交點也只有一個，就是（-1,0），也是一個穩定的唯一解。

2. L2規範化

　　雖然上面討論的是一個非常簡單的解方程的例子，但是和機器學習的問題有許多相似性。基於引數的機器學習模型某種程度上就是一個不可逆的問題，對於同一個損失函式值，可以對應很多種不同的引數。甚至在高維度下，極小值和最小值都很接近，所以即使是很好優化過的模型，也會對應許多不同的引數組合，而這些組合未必是數值穩定的。而且因為引數的範圍更自由，可以得到很小的訓練誤差，往往都不具有很好地泛化能力

（對訓練資料以外資料做出準確預測的能力成為泛化能力）。這時候可以考慮加入一個約束項，這種方法叫做規範化（Regularization）。具體來說就是在損失函式里加上一項，最常用的一種是L2規範化：
　　　　　　　　　　這裡寫圖片描述

　　其實就是L2範數，也就是歐氏距離的平方乘上一個係數。在神經網路中，L2規範化通常只應用於仿射變換中的線性變換部分，也就是

w x + b

的

w

。根據公式形式，這樣一項加上之後，權重的絕對值大小就會整體傾向於減小，尤其是不會出現特別大的值。所以L2規範化還有個名字叫做權重衰減（weight decay），也有一種理解這種衰減是對權重的懲罰，所以有時候會看到文章或者書裡管這一項叫做懲罰（penalty）項。
　　下面通過一個簡單的例子來形象理解下L2規範化的作用。考慮一個只有兩個引數

w_{1}

和

w_{2}

的模型，其損失函式曲面如圖2所示。
這裡寫圖片描述

圖2 L2規範化對目標函式曲面的影響

　　圖2a是一個目標函式，可以看到，最小值所在是一條線，整個曲面像一條山嶺倒過來一樣。這樣的曲面對應無數個引數組合，單純用梯度下降法是難以得到確定解的，可以看做是一個典型的病態問題。但是加上一項 $0.1 * (w_{1}^{2} + w_{2}^{2})$ ，則曲面變成了如圖2b所示的樣子。最小值所在從倒過來的“嶺”變成了一個“谷”。需要注意的是“谷”所在的位置並不是規範項的中心（0,0），而是根據規範化係數的大小和原來損失函式曲面共同決定的。當規範化係數 $α \to \infty$ 時，原來的損失函式可以忽略，則“谷”的位置趨近於（0,0）；當 $α \to 0$ 時，“谷”的位置趨近於原損失函式曲面中“嶺”所在的位置。總之加上這一項之後，梯度下降法就能夠解決了。並且通過這個例子可以看出，L2規範項還起到了幫助收斂的作用。統計學裡這個方法常用來處理多重線性下的最小二乘法問題，並且有個形象的名字叫做嶺迴歸（ridge regression）。

L1規範化（L1 Regularization）

　　除了L2規範化，L1規範化也是最常見的規範化方法之一，形式如下：
　　　　　　　　　　這裡寫圖片描述
　　其實在圖1所示的例子中已經見過，和L2的區別主要是L2項的等高線不同，二維情況的等高線畫在了圖1c中，是個旋轉 $45^{\circ}$ 的正方形。這個性質讓L1規範化後的引數更趨向於某些維度為0，也就是稀疏性。關於這個性質的形象理解，還是來看一個二維的例子，如圖3所示。
　　圖3中虛線代表的是元損失函式的等高線，實線代表的是規範化項的等高線，左邊a圖是L2的情況，右邊b圖是L1的情況。當整體函式達到最小值的時候，如圖a中點所示的位置，所以能夠很清楚看出，L2項讓整體引數都有變小的趨勢。二L1則會讓引數的方向朝著某個軸靠近，比如圖3b中，因為原始損失函式等高線的形狀，無論L1項的係數怎麼變，最終最小值一定是在橫軸上。這樣的約束可以讓有效特徵的數量變少，從而獲得稀疏性。因為這個性質，L1規範化經常被用在降噪聲和影象重建中。在統計學裡L1規範化也有另外一個名字叫做LASSO，即Least Absolute Shrinkage and Selection Operator，是對L1規範化的一個簡短概括。
這裡寫圖片描述

圖3 L2規範化和L1規範化的區別

機器學習------L1、L2規範化（L1 Regularization、L1 Regularization）

1. 引入——病態問題和約束

2. L2規範化

L1規範化（L1 Regularization）

機器學習------L1、L2規範化（L1 Regularization、L1 Regularization）

機器學習知識點查漏補缺（樸素貝葉斯分類）

【機器學習】k-近鄰演算法（k-nearest neighbor, k-NN）

python機器學習庫sklearn——Lasso迴歸（L1正則化）

斯坦福大學公開課機器學習： advice for applying machine learning | regularization and bais/variance（機器學習中方差和偏差如何相互影響、以及和算法的正則化之間的相互關系）

機器學習：評價分類結果（實現混淆矩陣、精準率、召回率）

Python機器學習實踐指南 pdf 下載（中文版帶書籤）、原書程式碼、資料集

機器學習第一章 Python複習（5）pip的使用、安裝虛擬環境（）、安裝BeautifulSoup庫

Python機器學習依賴庫的安裝（numpy、scipy、sklearn）

機器學習之python入門指南（二）元組、集合、字典的使用

斯坦福大學機器學習筆記——異常檢測演算法（高斯分佈、多元高斯分佈、異常檢測演算法）

Python 文字挖掘：使用機器學習方法進行情感分析（一、特徵提取和選擇）

機器學習--手寫數字識別（KNN、決策樹）

機器學習（十三）——機器學習中的矩陣方法（3）病態矩陣、協同過濾的ALS演算法（1）

機器學習演算法原理與實踐（三）、卡爾曼濾波器演算法淺析及matlab實戰

（參評）機器學習筆記——鳶尾花資料集（KNN、決策樹、樸素貝葉斯分析）

機器學習演算法原理與實踐（六）、感知機演算法

從零單排入門機器學習：線性回歸（linear regression）實踐篇

[轉] [機器學習] 常用數據標準化（正則化）的方法

Odoo10學習筆記三：模型（結構化的應用數據）、視圖（用戶界面設計）

機器學習------L1、L2規範化（L1 Regularization、L1 Regularization）

1. 引入——病態問題和約束

2. L2規範化

L1規範化（L1 Regularization）

相關推薦