LibLinear使用總結（L1,L2正則）

阿新 • • 發佈：2019-01-19

在相關推薦專案的改版中，對liblinear/fm/xgboost等主流成熟演算法模型的訓練效果進行了嘗試和對比，並在一期改造中選擇了liblinear實際上線使用。本文主要從工程應用的角度對liblinear涉及的各模式進行初步介紹，並給出liblinear/fm/xgboost的實際評測結果供參考。 (參考自http://blog.csdn.net/ytbigdata/article/details/52909685)

1. Liblinear說明

考慮到訓練效率，本次選用的為多執行緒並行版liblinear，實際為liblinear-multicore-2.1-4，首先直接給出其train命令所支援的各模式說明，各模式選擇不僅與我們使用liblinear工具直接相關，也對我們理解liblinear很有幫助，下面即主要圍繞這些模式展開。

ParallelLIBLINEAR is only available for -s0, 1, 2, 3, 11 now

Usage:train [options] training_set_file[model_file]

options:

-s type : set typeof solver (default 1)

formulti-class classification (dual對偶的， primal 原始的)

0 -- L2-regularized logisticregression (primal) ---邏輯迴歸

1 -- L2-regularized L2-losssupport vector classification (dual) ---

線性svm

2 -- L2-regularized L2-loss supportvector classification (primal)--與1對應

3-- L2-regularized L1-loss support vector classification (dual)

4-- support vector classification by Crammer and Singer

5-- L1-regularized L2-loss support vector classification

6-- L1-regularized logisticregression

7-- L2-regularized logistic regression (dual)

forregression

11-- L2-regularized L2-loss support vector regression (primal)

12-- L2-regularized L2-loss support vector regression (dual)

13-- L2-regularized L1-loss support vector regression (dual)

1.1 liblinear還是libsvm

既然是liblinear相關，不可免俗地會涉及到這個問題，當然其實這是個很大的命題，在此我們擷取重點簡單介紹。

首先，liblinear和libsvm都是國立臺灣大學林智仁（Chih-Jen Lin）老師團隊開發的，libsvm早在2000年就已經發布，liblinear則在2007年才釋出首個版本。

在原理和實現上存在差別，libsvm是一套完整的svm實現，既包含基礎的線性svm，也包含核函式方式的非線性svm；liblinear則是針對線性場景而專門實現和優化的工具包，同時支援線性svm和線性Logistic Regression模型。由於libsvm支援核函式方式實現非線性分類器，理論上，libsvm具有更強的分類能力，應該能夠處理更復雜的問題。

但是，libsvm的訓練速度是個很大的瓶頸，按一般經驗，在樣本量過萬後，libsvm就比較慢了，樣本量再大一個數量級，通常的機器就無法處理了；而liblinear設計初衷就是為了解決大資料量的問題，正因為只需要支援線性分類，liblinear可以採用與libsvm完全不一樣的優化演算法，在保持線性svm分類時類似效果的同時，大大降低了訓練計算複雜度和時間消耗。

同時，在大資料背景下，線性分類和非線性分類效果差別不大，尤其是在特徵維度很高而樣本有限的情況下，核函式方式有可能會錯誤地劃分類別空間，導致效果反而變差。林智仁老師也給出過很多實際例子證明，人工構造特徵+線性模型的方式可以達到甚至超過kernel SVM的表現，同時大大降低訓練的時間和消耗的資源。

關於實際時間對比，liblinear作者官方給出了以下資料：對於LIBSVM資料集中某例項"20242個樣本/47236個特徵"，在保持交叉驗證的精度接近的情況下，liblinear僅耗時約3秒，遠遠小於libsvm的346秒。

% timelibsvm-2.85/svm-train -c 4 -t 0 -e 0.1 -m 800 -v 5rcv1_train.binary

CrossValidation Accuracy = 96.8136%

345.569s

% timeliblinear-1.21/train -c 4 -e 0.1 -v 5rcv1_train.binary

CrossValidation Accuracy = 97.0161%

2.944s

1.2 具體solver的選擇？線性svm還是logisticregression/L1正則化項還是L2正則化項

liblinear支援多種solver模式，以下直接列舉liblinear支援的幾種典型solver模式對應的結構風險函式（結構風險函式由損失函式和正則化項/罰項組合而成，實際即為求解結構風險函式最小值的最優化問題），以方便說明和理解。

L2-regularizedL1-loss Support VectorClassification

L2-regularizedL2-loss Support Vector Classification

L1-regularizedL2-loss Support Vector Classification

L2-regularized Logistic Regression

L1-regularized Logistic Regression

Liblinear中同時支援線性svm和logisticregression，兩者最大區別即在於損失函式（loss function）不同，損失函式是用來描述預測值f(X)與實際值Y之間差別的非負實值函式，記作L(Y, f(X))，即上述公式中的項。

另一個重要選擇是正則化項。正則化項是為了降低模型複雜度，提高泛化能力，避免過擬合而引入的項。當資料維度很高/樣本不多的情況下，模型引數很多，模型容易變得很複雜，表面上看雖然極好地通過了所有樣本點，但實際卻出現了很多過擬合，此時則通過引入L1/L2正則化項來解決。

一般情況下，L1即為1範數，為絕對值之和；L2即為2範數，就是通常意義上的模。L1會趨向於產生少量的特徵，而其他的特徵都是0，即實現所謂的稀疏，而L2會選擇更多的特徵，這些特徵都會接近於0。

對於solver的選擇，作者的建議是：一般情況下推薦使用線性svm，其訓練速度快且效果與lr接近；一般情況下推薦使用L2正則化項，L1精度相對低且訓練速度也會慢一些，除非想得到一個稀疏的模型（個人注：當特徵數量非常大，稀疏模型對於減少線上預測計算量比較有幫助）。

1.3 primal還是dual

primal和dual分別對應於原問題和對偶問題的求解，對結果是沒有影響的，但是對偶問題可能比較慢。作者有如下建議：對於L2正則-SVM，可以先嚐試用dual求解，如果非常慢，則換用primal求解。

網上另一個可參考的建議是：對於樣本量不大，但是維度特別高的場景，如文字分類，更適合對偶問題求解；相反，當樣本數非常多，而特徵維度不高時，如果採用求解對偶問題，則由於Kernel Matrix過大，求解並不方便。反倒是求解原問題更加容易。

1.4 訓練資料是否要歸一化

對於這點，作者是這樣建議的：在他們文件分類的應用中，歸一化不但能大大減少訓練時間，也能使得訓練效果更好，因此我們選擇對訓練資料進行歸一化。同時在實踐中，歸一化使得我們能直接對比各特徵的公式權重，直觀地看出哪些特徵比較重要。

2. liblinear及fm/xgboost實際效果對比記錄

本輪改造中，主要實際嘗試了liblinear各模式的效果，也同時對業界常用的fm/xgboost進行了對比測試，以下一併列出供參考。

注：由於liblinear尚為單機訓練，受記憶體限制，不能載入全量資料訓練，因此後續針對訓練資料量多少（1/120->1/4->1/2）也有專門實驗；

5, xgboost效果總結

xgboost的全稱是eXtreme Gradient Boosting，它是GradientBoosting Machine的一個c++實現，作者為華盛頓大學研究機器學習的大牛陳天奇。傳統GBDT以CART作為基分類器，xgboost還支援線性分類器，它能夠自動利用CPU的多執行緒進行並行，同時在演算法上加以改進提高了精度，在Kaggle等資料競賽平臺社群知名度很高。

在測試中，xgboost確實表現出了實力，僅用預設引數配置和1/120小資料量（約200萬樣本），就達到了0.8406的超出所有liblinear效果的AUC；受時間限制，當前並未直接採用xgboost，後續有同事進一步跟進。

LibLinear使用總結（L1,L2正則）

1. Liblinear說明

1.1 liblinear還是libsvm

1.2 具體solver的選擇？線性svm還是logisticregression/L1正則化項還是L2正則化項

1.3 primal還是dual

1.4 訓練資料是否要歸一化

LibLinear使用總結（L1,L2正則）

深度學習正則化-引數範數懲罰（L1,L2範數）

綜合案例分析（sort,cut,正則）

NN模型設定--L1/L2正則化

L1,L2正則

利用自定義的異常驗證郵箱合法性（不使用正則）

機器學習損失函式、L1-L2正則化的前世今生

L1 L2正則化

批歸一化（Batch Normalization）、L1正則化和L2正則化

泛化能力、訓練集、測試集、K折交叉驗證、假設空間、欠擬合與過擬合、正則化（L1正則化、L2正則化）、超引數

機器學習筆記（二）L1，L2正則化

深入剖析迴歸（二）L1，L2正則項，梯度下降

SVM支援向量機系列理論（七）線性支援向量機與L2正則化 Platt模型

機器學習防止過擬合之L1範數（正則）與LASSO

python學習第十四節（正則）

用正則表達式完成xpath的功能（強大的正則表達式）

【機器學習】--線性回歸中L1正則和L2正則

L1正則 L2正則

機器學習之路： python線性回歸過擬合 L1與L2正則化

L1和L2正則化直觀理解