機器學習 - 特征篩選與降維

阿新 • • 發佈：2018-02-12

技術分享 eve table for posit none linear osi proc

特征決定了最優效果的上限，算法與模型只是讓效果更逼近這個上限，所以特征工程與選擇什麽樣的特征很重要！

以下是一些特征篩選與降維技巧

# -*- coding:utf-8 -*-
import scipy as sc
import libsvm_file_process as data_process
import numpy as np
from minepy import MINE
from sklearn.feature_selection import VarianceThreshold
from sklearn.feature_selection import SelectKBest
 
from sklearn.feature_selection import chi2
from sklearn.feature_selection import f_regression
from sklearn.feature_selection import RFE
from sklearn.svm import SVR
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import 
 LinearDiscriminantAnalysis


class feature_select:
    """
    特征篩選方式：
        相關鏈接：http://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_selection
        皮爾遜相關性
        互信息
        單因素 - 卡方判斷，F值，假正率
        方差過濾
        遞歸特征消除法 - 每次消除一個特征，依據是特征前面的系數
        基於模型（LR/GBDT等）的特征選擇 SelectFromModel
            模型（LR/GBDT）必須有feature_importances_ 或 coef_這個屬性
    降維：
        PCA（unsurperised）：一般用於無監督情況下的降維，有監督的時候，也可以小幅降維 去除噪音，然後再使用LDA 降維

        LDA（surperised）:本質上是一個分類器,在使用上，要求降低的維度要小於分類的維度
     
"""

    def __init__(self):
        self.data_path = "/trainData/libsvm2/"
        self.trainData = ["20180101"]
        # 計算互信息
        self.mine = MINE(alpha=0.6, c=15, est="mic_approx")
        # 方差過濾 一般用於無監督學習
        self.variance_filter = VarianceThreshold(threshold=0.1)
        # chi2 - 卡方檢驗; f_regression - f值; SelectFpr-假正率;等
        self.chi_squared = SelectKBest(f_regression, k=2)
        # 遞歸特征消除
        self.estimator = LogisticRegression()  # SVR(kernel="linear")
        self.selector = RFE(self.estimator, 5, step=1)
        # PCA 降維
        self.pca = PCA(n_components=5)
        # LDA 降維
        self.lda = LinearDiscriminantAnalysis(n_components=2)

    def select(self):
        for i in range(len(self.trainData)):
            generator = data_process.get_data_batch(self.data_path + self.trainData[i] + "/part-00000", 100000)
            labels, features = generator.next()
            # 方差過濾
            filter1 = self.variance_filter.fit_transform(features)
            print filter1.shape, features.shape
            print self.variance_filter.get_support()
            # 卡方檢驗
            filter2 = self.chi_squared.fit_transform(features, labels)
            print filter2.shape
            print self.chi_squared.get_support()
            # 遞歸特征消除（比較耗時 暫時先註釋掉）
            # self.selector.fit(features, labels)
            # print self.selector.support_
            # PCA 降維
            transform1 = self.pca.fit_transform(features)
            print ‘transform1:‘, transform1
            # LDA降維
            self.lda.fit(features, labels)
            transform2 = self.lda.transform(features)
            print ‘transform2:‘, transform2
            for j in range(int(features.shape[1]) - 870):
                features_j = features[0:, j + 870: j + 871]
                self.mine.compute_score(features_j.flatten(), labels.flatten())
                # 計算互信息
                print self.mine.mic()
                # 計算皮爾遜系數
                print j, sc.stats.pearsonr(features_j.reshape(-1, 1), labels.reshape(-1, 1))


if __name__ == ‘__main__‘:
    feature_util = feature_select()
    feature_util.select()

View Code

機器學習 - 特征篩選與降維

技術分享 eve table for posit none linear osi proc 特征決定了最優效果的上限，算法與模型只是讓效果更逼近這個上限，所以特征工程與選擇什麽樣的特征很重要！以下是一些特征篩選與降維技巧 # -*- coding:utf-8

機器學習特征表達——日期與時間特征做離散處理（數字到分類的映射），稀疏類分組（相似特征歸檔），創建虛擬變量（提取新特征）本質就是要麽多變少，或少變多

通過 time 理想 ast 可能 ear 創建 eat 根據特征表達接下來要談到的特征工程類型雖然簡單卻影響巨大。我們將其稱為特征表達。你的數據並不一定總是理想格式。你需要考慮是否有必要通過另一種形式進行特征表達以獲取有用信息。日期與時間特征：我們假設你擁有p

機器學習—特征選擇

拉斯維加斯 n) 樣本找到直接處理隨機選擇偽代碼 gas 1、特征選擇特征選擇是一種及其重要的數據預處理方法。假設你需要處理一個監督學習問題，樣本的特征數非常大（甚至），但是可能僅僅有少部分特征會和對結果產生影響。甚至是簡單的線性分類，如果樣本特征數超過了n，但

機器學習筆記（參考吳恩達機器學習視訊筆記）13_降維

13 降維 13.1 動機一：資料壓縮假設兩個未知的特徵：是用釐米表示長度；是用英寸表示同一物體的長度。這是一種高度冗餘的表示。希望將這個二維的資料降至一維，即資料壓縮。 13.2 動機二：資料視覺化化降維可以使資料視覺化。關於許多不同國家的資料，每一個特徵向量都有50

機器學習課程-第 8 周-降維(Dimensionality Reduction)—主成分分析(PCA)

art 不同計算機 dimens 是什麽課程繪制 start pca 1. 動機一：數據壓縮第二種類型的無監督學習問題，稱為降維。有幾個不同的的原因使你可能想要做降維。一是數據壓縮，數據壓縮不僅允許我們壓縮數據，因而使用較少的計算機內存或磁盤空間，但它也讓我們

機器學習的數學基礎 - 特征分解與奇異值分解

src ron 特征技術 ima 基礎 bsp posit pos 特征分解奇異值分解(Singular Value Decomposition, SVD) 機器學習的數學基礎 - 特征分解與奇異值分解

周志華《Machine Learning》學習筆記（12）--降維與度量學習

上篇主要介紹了幾種常用的聚類演算法，首先從距離度量與效能評估出發，列舉了常見的距離計算公式與聚類評價指標，接著分別討論了K-Means、LVQ、高斯混合聚類、密度聚類以及層次聚類演算法。K-Means與LVQ都試圖以類簇中心作為原型指導聚類，其中K-Means通

機器學習入門 - 1. 介紹與決策樹(decision tree)

recursion machine learning programmming 機器學習(Machine Learning) 介紹與決策樹(Decision Tree)機器學習入門系列是個人學習過程中的一些記錄與心得。其主要以要點形式呈現，簡潔明了。1.什麽是機器學習？一個比較概括的理解是:

數據挖掘與機器學習——weka應用技術與實踐

lin 網絡服務開發對數結果 gre 枚舉挖掘 int 第一章 weka介紹 1.1 weka簡介 weka是懷卡托智分析環境（Waikato Environment for Knowledge Analysis）的英文縮寫，官方網址為：<htt

機器學習之SVM初解與淺析（一）:最大距離

機器學習 svm 最大距離 2 / ||w|| 這段時間在看周誌華大佬的《機器學習》，在看書的過程中，有時候會搜搜其他人寫的文章，對比來講，周教授講的內容還是比較深刻的，但是前幾天看到SVM這一章的時候，感覺甚是晦澀啊，第一感覺就是比較抽象，特別是對於像本人這種I

機器學習之SVM初解與淺析（一）:

機器學習 svm 最大距離 2 / ||w||sdsshngshan‘gccha 這段時間在看周誌華大佬的《機器學習》，在看書的過程中，有時候會搜搜其他人寫的文章，對比來講，周教授講的內容還是比較深刻的，但是前幾天看到SVM這一章的時候，感覺甚是晦澀啊，第一感覺就

機器學習之決策樹與隨機森林模型

會有 strong pytho red -s 很多 4.5 是我機器歡迎大家前往騰訊雲技術社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：汪毅雄導語本文用容易理解的語言和例子來解釋了決策樹三種常見的算法及其優劣、隨機森林的含義，相信能幫助初學者真正地理解相關知識

機器學習--線性回歸與梯度算法

方法 nbsp methods 大循環 href 一次 sha 4.3 最優線性回歸(Linear Regression)，亦稱為直線回歸，即用直線表示的回歸，與曲線回歸相對。若因變量Y對自變量X1、X2…、Xm的回歸方程是線性方程，即μy＝β0 +β1X1 +β2X2

Python3入門機器學習--經典算法與應用|Python3機器學習

python3機器學習Python3入門機器學習--經典算法與應用網盤地址：https://pan.baidu.com/s/1JU3xUckrJ6mIFmbPZ2SE-g 密碼: b4i8備用地址（騰訊微雲）：https://share.weiyun.com/1a5b40b998601d64fb5211c21

python利用pandas和xlrd讀取excel，特征篩選刪除0值超過99%的列

print div 3.x += nco borde class value append 利用xlrd讀取excel篩選0值超過99%的列，並刪除import xlrdworkbook=xlrd.open_workbook(r"123.xlsx")table =

特征值與特征向量

int mat roo sigma name \n 9.png bubuko shape 取至：機器學習算法原理與編程實踐（鄭捷） # -*- coding: utf-8 -*-# Filename : matrix05.pyimport operatorfrom nu

MATLAB矩陣——2.4矩陣的特征值與特征向量

pan strong tla str 產生 text 全部 atl spa 求矩陣的特征值與特征向量函數的調用格式有2種 E=eig（A）：求矩陣A的全部特征值，構成向量E [X,D]=eig（A）：求矩陣A的全部特征值，構成對角陣D，並產生矩陣X，X各列是相應的特征向量

Python與矩陣論——特征值與特征向量

判斷 art 就是 -c python splay list spa dot 特征值知識點：【奇異矩陣】判斷矩陣是不是方陣（即行數和列數相等的矩陣。若行數和列數不相等，那就談不上奇異矩陣和非奇異矩陣）。看矩陣的行列式|A|是否等於0，若等於0，稱矩陣A為奇異矩陣；若不等於

詳解oracle 12c數據庫新特征CDB與PDB(熱插拔數據庫)以及表空間管理

dia emp 圖片朋友不可管理 ada pfile esp 表空間概念表空間是數據庫的邏輯劃分，一個表空間只能屬於一個數據庫。所有的數據庫對象都存放在指定的表空間中。但主要存放的是表，所以稱作表空間。Oracle數據庫中至少存在一個表空間，即SYSTEM的表空間

機器學習：Multinoulli分佈與多項式分佈

學習深度學習時遇見multinoulli分佈，在此總結一下機器學習中常用的multinoulli分佈與多項式分佈之間的區別於關係，以便更好的理解其在機器學習和深度學習中的使用。首先介紹一下其他相關知識。 Bernoulli分佈（兩點分佈） Bernoulli分佈是單個二值隨機變數

機器學習 - 特征篩選與降維

相關推薦