機器學習（一）： python三種特徵選擇方法

阿新 • • 發佈：2018-12-31

特徵選擇的三種方法介紹：

過濾型：

選擇與目標變數相關性較強的特徵。缺點：忽略了特徵之間的關聯性。
包裹型：

基於線性模型相關係數以及模型結果AUC逐步剔除特徵。如果剔除相關係數絕對值較小特徵後，AUC無大的變化，或降低，則可剔除
嵌入型：

利用模型提取特徵，一般基於線性模型與正則化（正則化取L1）,取權重非0的特徵。（特徵緯度特別高，特別稀疏，用svd,pca算不動）

python 實現

"""1.過濾型"""
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from 
 sklearn.feature_selection import chi2

iris=load_iris()
X,y=iris.data,iris.target
print X.shape
X_new=SelectKBest(chi2,k=2).fit_transform(X,y)
print X_new.shape

"""輸出：
        (150L, 4L)
        (150L, 2L)"""

"""2.包裹型"""
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression
from 
 sklearn.datasets import load_boston

boston=load_boston()
X=boston["data"]
Y=boston["target"]
names=boston["feature_names"]

lr=LinearRegression()
rfe=RFE(lr,n_features_to_select=1)#選擇剔除1個
rfe.fit(X,Y)

print "features sorted by their rank:"
print sorted(zip(map(lambda x:round(x,4), rfe.ranking_),names))

"""輸出：按剔除後AUC排名給出
features sorted by their rank:
[(1.0, 'NOX'), (2.0, 'RM'), (3.0, 'CHAS'), (4.0, 'PTRATIO'), (5.0, 'DIS'), (6.0, 'LSTAT'), (7.0, 'RAD'), (8.0, 'CRIM'), (9.0, 'INDUS'), (10.0, 'ZN'), (11.0, 'TAX')
, (12.0, 'B'), (13.0, 'AGE')]""" 



"""3.嵌入型 ，老的版本沒有SelectFromModel"""
from sklearn.svm import  LinearSVC
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectFromModel

iris=load_iris()
X,y=iris.data,iris.target
print X.shape

lsvc=LinearSVC(C=0.01,penalty='l1',dual=False).fit(X,y)
model=SelectFromModel(lsvc,prefit=True)
X_new=model.transform(X)
print X_new.shape

"""輸出：
            (150,4)
            (150,3)
            """

機器學習（一）： python三種特徵選擇方法

特徵選擇的三種方法介紹：過濾型：選擇與目標變數相關性較強的特徵。缺點：忽略了特徵之間的關聯性。包裹型：基於線性模型相關係數以及模型結果AUC逐步剔除特徵。如果剔除相關係數絕對值較小特徵後

用python來實現機器學習（一）：線性迴歸（linear regression）

需要下載一個data：auto-mpg.data 第一步：顯示資料集圖 import pandas as pd import matplotlib.pyplot as plt columns = ["mpg","cylinders","displacement","horsepowe

機器學習（一）：主要術語

機器學習研究如何通過計算的方式，利用資料集來改善系統自身的效能。而深度學習是屬於機器學習的一個子分支。機器學習的通用的兩種型別：無監督學習：事先並沒有任務訓練資料的樣本，需要直接對資料進行建模型。監督學習：通過已經有的訓練樣本（即輸入資訊和對應的輸出）來訓練，

槓精的機器學習（一）：線性迴歸

主要參考資料為《小象學院-機器學習IV》打個廣告，這套視訊真的非常贊，建議大家看三遍以上，每一遍都有新的收穫，BiliBili上有免費資源，感謝鄒博！！！前言：在實際應用中，迴歸是非常常見的一類問題，當然用於解決迴歸問題的方法也有很多，例如線性迴歸(

機器學習（一）：快速入門線性分類器

定義假設特徵與分類結果存線上性關係的模型，這個模型通過累加計算每個維度的特徵與各自權重的乘積來幫助類別決策。線性關係公式 :f(w,x,b)=w^tx+b x=(x1,x2,…xn) 代表n維特徵列向量，w=(w1,w2,…wn)代表對應的權

模式識別與機器學習（一）：概率論、決策論、資訊理論

本系列是經典書籍《Pattern Recognition and Machine Learning》的讀書筆記，正在研讀中，歡迎交流討論。基本概念 1. 模式識別（Pattern Recognition）：是指通過演算法自動發現數據的規律，並進行資料分類等任務。

機器學習（一）：統計學習問題概述

學習：“如果一個系統能夠通過執行某個過程改進它的效能，這就是學習。”按照這一觀點，統計學習就是計算機系統通過運用資料及統計方法提供系統性能的機器學習。機器學習的物件是資料，它從資料出發，提取資料特徵，抽象出資料模型，發現數據中的知識，又回到對資料的分析和預測

機器學習（一）：啟用函式（Activation Function）

0. 啟用函式上圖為wiki上的定義：啟用函式定義了每個節點（神經元）的輸出和輸入關係的函式。下表：常用啟用函式編號函數公式 1) sigmoid(

機器學習（一）：用sklearn進行資料預處理：缺失值處理、資料標準化、歸一化

在我們平時進行資料資料探勘建模時，一般首先得對資料進行預處理，其中就包括資料缺失值、異常值處理、資料的標準化、歸一化等等。下面主要介紹如何對一個數據檔案進行資料的缺失值處理、標準化和歸一化 MID_SP MID_AC MID_R25 MID_COND LITHO1 55.

機器學習（4）：python基礎及fft、svd、股票k線圖、分形等實踐

本節我們主要簡單介紹機器學習常用的語言–python。樓主本身是寫java的，在這之前對python並不瞭解，接觸之後發現python比java簡直要好用幾千倍。這裡主要通過常用的統計量、fft、股票k線圖及分形等樣例，介紹python的使用及各種包的載入。

機器學習（5）、資料清洗和特徵選擇

正式進入機器學習啦，這節課還好，意外知道了莊家與賠率的計算（原來莊家真的是穩賺不賠呢，樓主表示很想設賭局去做莊）；python庫好強大，Pandas包直接提供資料讀取和處理，Fuzzywuzzy支援字串模糊查詢，可用於字串糾錯；知道了機器學習處理的大概流程；之前

Python教程：進擊機器學習（一）--概述

開啟Python科學之旅本章介紹了Python在機器學習中常用的庫和工具，包括數學計算和繪圖。 Python資料科學生態為什麼選擇Python？先獻上IEEE Spectrum Magazine 2017 程式設計排行圖一張

Python機器學習（一）

這是對《Python機器學習（Sebastian Raschka）》的學習知識點的總結。本人學習沒啥好辦法，就是喜歡做筆記，做了好多筆記，後續有時間分欄分享一下。 # -*- coding: utf-8 -*- """ Created on Wed Sep 19 23:04:53 2018

演算法工程師修仙之路：吳恩達機器學習（一）

吳恩達機器學習筆記及作業程式碼實現中文版第一章緒論：初識機器學習什麼是機器學習 Machine Learning(機器學習)是研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。機器學習被用

Python+OGR庫學習（一）：讀取點向量檔案屬性值和座標，並儲存為TXT（一行一個要素值）

程式碼思路： 1、匯入相關庫包，切換到當前資料夾 2、註冊驅動，開啟點向量檔案，獲取圖層 3、開啟待寫入TXT檔案 4、遍歷要素：（1）獲取當前要素‘ID’和‘cover’欄位屬性（2）獲取當前點要素對應幾何物件和其座標值X,Y （3）將ID、cover、X、Y寫入TXT檔案（

Python與機器學習（二）：Windows下科學計算環境搭建

【注意：安裝numpy和scipy模組時注意與Python版本保持一致】 1.安裝numpy 測試：沒有報錯，bingo~ 2.安裝scipy 在官網中下載scipy3.4版本：scipy-0

Python機器學習（一）初衷準備工作——利用Anaconda在Windows下配置Python開發環境

初衷寫部落

機器學習與深度學習系列連載：第一部分機器學習（一）導論

什麼是機器學習？ 1.機器學習==尋找一種函式這個函式可以：語音識別:輸入一段語音訊號，輸出文字 ff()="howareyou"="howareyou" 影象識別:輸入圖片，輸出圖片的屬性 ff( )=“cat”=“cat” 智

Python學習筆記（一）：Python代碼的打包與發布

新建 raw 就是程序文件 distrib pac lib site 在python程序中，一個.py文件被當作一個模塊，在各個模塊中定義了不同的函數。當我們要使用某一個模塊中的某一個函數時，首先須將這個模塊導入，否則就會出現函數未定義的情況. 下面記錄的是打包及安裝包

前置機器學習（四）：一文掌握Pandas用法

> Pandas提供快速，靈活和富於表現力的**資料結構**，是強大的**資料分析**Python庫。本文收錄於[機器學習前置教程系列](https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzUxMjU4NjI4MQ=

機器學習（一）： python三種特徵選擇方法

特徵選擇的三種方法介紹：

python 實現

相關推薦