Feature Selection詳解（附帶Relief、Relief-F、LVM詳解）（二）

阿新 • • 發佈：2018-12-23

Feature Selection詳解

第二十六次寫部落格，本人數學基礎不是太好，如果有幸能得到讀者指正，感激不盡，希望能借此機會向大家學習。這一篇承接上一篇《Feature Selection詳解（附帶Relief、Relief-F、LVM詳解）（一）》的內容，仍然是針對特徵選擇問題的其他幾種常見方法進行闡述，並介紹其中一種比較經典的特徵選擇演算法（LVM）。

“包裹式”特徵選擇

與過濾式方法在選擇特徵時不考慮學習器不同，“包裹式”特徵選擇方法將學習器的效能作為特徵子集的度量方法考慮進來，因此，包裹式選擇方法可以被認為是為指定學習器選擇最適合的特徵子集。實驗證明，雖然使用該方法的最終學習器的效能要高於過濾式，但是由於特徵選擇過程中需要對學習器進行多次訓練，因此大大增加了計算開銷。
LVW（Las Vegas Wrapper）是一個典型的包裹式特徵選擇方法，於1996年由Liu和Setiono提出，他是“拉斯維加斯演算法”（Las Vegas Algorithm）的一種改進版本，拉斯維加斯演算法是一種隨機搜尋策略，在給定執行時間限制的情況下，該演算法可能得不到最優的結果，在搜尋空間很大（特徵很多）而又不設定時間限制時，可能會得不到最終結果。LVW在隨機搜尋的過程中，加入訓練學習器並評估學習器效能的步驟，演算法虛擬碼如下圖所示。

圖2 LVM演算法

演算法第1-4行：初始化最小分類錯誤率 $E$ 、當前最優特徵子集大小 $d$ 、當前最優特徵子集 $A$

∗ A^*

A^{*}

以及當前執行次數

t

，將原始資料集劃分為訓練集和驗證集；
演算法第5行：為該演算法新增明確的時間界；
演算法第6-7行：在原始特徵集合

A

中隨機選擇特徵子集

A&#x27;

，設定該輪迴圈的特徵子集大小

d&#x27;

；
演算法第8行：在當前樣本空間（只保留

A&#x27;

中的值）中，通過訓練集訓練指定的學習器，並通過驗證集測試該學習器的分類錯誤率

E&#x27;

；
演算法第9-14行：如果該輪迴圈得到的學習器分類錯誤率

E&#x27;

低於

E

，或者

E&#x27;

等於

E

且該輪迴圈的特徵子集大小

d&#x27;

小於

d

，就將當前執行次數

t

清零，將

E

設定為

E&#x27;

，

d

設定為

d&#x27;

，

A^*

設定為

A&#x27;

，否則，執行次數增一。

“嵌入式”特徵選擇

在過濾式和包裹式特徵選擇中，特徵選擇過程與學習器訓練過程由明顯的分別，與此不同，“嵌入式”特徵選擇是將特徵選擇過程與學習器訓練過程結合在一起，兩者在同一個優化過程中完成，即在學習器訓練過程中自動完成特徵選擇。
線上性迴歸問題中，優化目標可以表示為

為了防止過擬合，在上述優化目標中加入 $L_2$ 正則項，得到下式

其中， $\lambda$ 是正則化係數，上式被稱為“嶺迴歸”（Ridge Regression）。現在將 $L_2$ 正則項替換為 $L_1$ 正則項，那麼可以得到

上式被稱為LASSO（Least Absolute Shrinkage and Selection Operator），通過加入 $L_1$ 正則項得到的解更加稀疏，因此可以作為一種有效的嵌入式特徵選擇方法，這種問題的最終解可以通過“近端梯度下降”（Proximal Gradient Descent，簡稱PGD）得到，假設優化目標可以表示為

這裡 $\mathbf{x}$ 是優化變數，令 $\triangledown$ 表示微分運算元。如果 $f\left(\mathbf{x}\right)$ 可導，且滿足L-Lipschitz條件，即存在常數 $L>0$ 使得下式成立

則在 $\mathbf{x}_k$ 附近可以將 $f\left(\mathbf{x}_k\right)$ 通過二階泰勒展開式近似為

其中， $\text{const}$ 是與 $\mathbf{x}$ 無關的常數， $\langle\centerdot,\centerdot\rangle$ 是內積，上式的最小值在如下 $\mathbf{x}_{k+1}$ 獲得，

如果通過梯度下降法對 $f\left(\mathbf{x}\right)$ 進行最小化，那麼每一步梯度下降迭代實際上等價於最小化二次函式 $\hat{f}\left(\mathbf{x}\right)$ ，將這種思想推廣到帶有 $L_1$ 正則項的優化目標，可以類似的得到其每一步迭代為

即在每一步進行梯度下降的同時考慮 $L_1$ 範數最小化，對於上式，可以先計算

然後求解

由於優化引數的各個分量之間不相關，因此上式由如下閉式解

其中 $x^i_{k+1}$ 和 $z^i$ 分別是向量 $\mathbf{x}_{k+1}$ 和 $\mathbf{z}$ 的第 $i$ 個分量。

參考資料

【1】《機器學習》周志華
【2】《The Feature Selection Problem :Traditional Methods and a New Algorithm》Kenji Kira,Larry A. Rendell
【3】《Estimating Attributes: Analysys and Extensions of RELIEF》 Igor Kononenko
【4】《Feature Selection And Classification - A Probabilistic Wrapper Approach》 Huan Liu,Rudy Setiono

Feature Selection詳解（附帶Relief、Relief-F、LVM詳解）（二）

Feature Selection詳解

“包裹式”特徵選擇

“嵌入式”特徵選擇

參考資料

linux tailf、tail -f、tail -F三者區別

tailf、tail -f、tail -F三者區別

Feature Selection詳解（附帶Relief、Relief-F、LVM詳解）（二）

Feature Selection詳解（附帶Relief、Relief-F、LVM詳解）（一）

史上最全python面試題詳解（二）（附帶詳細答案（關注、持續更新））

史上最全python面試題詳解（三）（附帶詳細答案（關注、持續更新））

Opencv249和Opencv3.0以上的 SolvePnp函式詳解（附帶程式、算例）

Java的位運算符詳解實例——與（&）、非（~）、或（|）、異或（^）（僅作記錄）

mybatis 詳解（七）------一對一、一對多、多對多

轉-Linux啟動過程詳解（inittab、rc.sysinit、rcX.d、rc.local）

JavaScript的事件、DOM模型、事件流模型以及內置對象詳解（三）

搜索引擎系列八：solr-部署詳解（solr兩種部署模式介紹、獨立服務器模式詳解、SolrCloud分布式集群模式詳解）

kettle的下載、安裝和初步使用（windows平臺下）（圖文詳解）

用maven來創建scala和java項目代碼環境（圖文詳解）（Intellij IDEA（Ultimate版本）、Intellij IDEA（Community版本）和Scala IDEA for Eclipse皆適用）（博主推薦）

GPIO輸入輸出各種模式（推挽、開漏、準雙向端口）詳解（轉）

Flutter 布局（二）- Padding、Align、Center詳解

Python程序、執行緒、協程詳解、執行效能、效率（tqdm）

圖的儲存結構（鄰接矩陣、鄰接表、十字連結串列、鄰接多重表）詳解

GB2312、GBK、ISO-8859-1、ASCII碼、Unicode、UTF-8各種編碼格式詳解（終於搞懂了）

幾種排序方法詳解（選擇排序、氣泡排序、插入排序、快速排序）

Feature Selection詳解（附帶Relief、Relief-F、LVM詳解）（二）

Feature Selection詳解

“包裹式”特徵選擇

“嵌入式”特徵選擇

參考資料

相關推薦