1. 程式人生 > >西瓜書11特徵選擇與稀疏學習

西瓜書11特徵選擇與稀疏學習

特徵選擇包括子集搜尋和子集評價。 常見特徵選擇3類:過濾式、包裹式、嵌入式

過濾式設計了一個相關統計量來度量特徵的重要性。特徵子集的重要性由子集中每個特徵所對應的相關統計量分量之和決定,選擇最大的k個特徵或者超過某個閾值的所有特徵。 可以看出,過濾式的特徵選擇和學習器學習的過程完全分開。

包裹式則直接把要使用的學習器的效能作為特徵子集的評價準則,如LVW。

嵌入式與L1正則化: 嵌入式將特徵選擇和訓練融為一體,即學習器在訓練中自動進行了特徵選擇。 以線性迴歸為例 minω(yiωTxi)2\min_\omega \sum(y_i-\omega^Tx_i)^2

)2 當特徵過多,樣本較少,容易過擬合,可引入正則化項,使用L2正則化 minω(yiωTxi)2+λω22\min_\omega \sum(y_i-\omega^Tx_i)^2+\lambda ||\omega||_2^2 若使用L1正則化 minω(yiωTxi)2+λω1\min_\omega \sum(y_i-\omega^Tx_i)^2+\lambda ||\omega||_1 使用L1和L2正則化都能降低過擬合,但L1還更易獲取稀疏解。

若特徵具有稀疏性,則學習任務的難度可能有所降低、設計的計算和儲存開銷會減少,學的模型的可解釋性也會提高。

另一種稀疏性,如文件分類任務的樣本。

在一般的任務中,我們需學習出這樣一個‘字典’,為普通稠密表達的樣本找到合適的字典,將樣本轉化為合適的稀疏表示,從而使學習簡化,模型複雜度降低,稱為‘字典學習’,亦稱“稀疏編碼”。

給定資料集x1,x2,...,xm{x_1,x_2,...,x_m},字典學習最簡單的形式: minB,αii=1mxiBαi22+λi=1mαi1\min_{B,\alpha_i}\sum_{i=1}^m||x_i-B\alpha_i||_2^2+\lambda\sum_{i=1}^m ||\alpha_i||_1

mini=1mxiBαi22+λi=1mαi1