機器學習sklearn（十七）：特徵工程（八）特徵選擇（三）卡方選擇（二）卡方檢驗

阿新 • • 發佈：2021-06-19

Python有包可以直接實現特徵選擇，也就是看自變數對因變數的相關性。今天我們先開看一下如何用卡方檢驗實現特徵選擇。

1. 首先import包和實驗資料：

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.datasets import load_iris
 
#匯入IRIS資料集
iris = load_iris()
iris.data#檢視資料

結果輸出：

array([[ 5.1,  3.5,  1.4,  0.2],
       [  
4.9,  3. ,  1.4,  0.2],
       [ 4.7,  3.2,  1.3,  0.2],
       [ 4.6,  3.1,  1.5,  0.2],
       [ 5. ,  3.6,  1.4,  0.2],
       [ 5.4,  3.9,  1.7,  0.4],
       [ 4.6,  3.4,  1.4,  0.3],

2. 使用卡方檢驗來選擇特徵

model1 = SelectKBest(chi2, k=2)#選擇k個最佳特徵
model1.fit_transform(iris.data, iris.target)#iris.data是特徵資料，iris.target是標籤資料，該函式可以選擇出k個特徵

結果輸出為：
array([[ 1.4, 0.2],
[ 1.4, 0.2],
[ 1.3, 0.2],
[ 1.5, 0.2],
[ 1.4, 0.2],
[ 1.7, 0.4],
[ 1.4, 0.3],

可以看出後使用卡方檢驗，選擇出了後兩個特徵。如果我們還想檢視卡方檢驗的p值和得分，可以使用第3步。

3. 檢視p-values和scores

model1.scores_ #得分

得分輸出為：

array([ 10.81782088, 3.59449902, 116.16984746, 67.24482759])

可以看出後兩個特徵得分最高，與我們第二步的結果一致；

model1.pvalues_ #p-values

p值輸出為：
array([ 4.47651499e-03, 1.65754167e-01, 5.94344354e-26, 2.50017968e-15])
可以看出後兩個特徵的p值最小，置信度也最高，與前面的結果一致。

API

classsklearn.feature_selection.SelectKBest(score_func=<function f_classif>,*,k=10)

Select features according to the k highest scores.

機器學習sklearn（十六）：特徵工程（七）特徵選擇（二）卡方選擇（一）卡方檢驗

卡方檢驗，統計學的方法，現在機器學習看變數的時候也會用到。很多不知道的人，一聽到這個名詞，會馬上聯想到，

機器學習sklearn（十七）：特徵工程（八）特徵選擇（三）卡方選擇（二）卡方檢驗

Python有包可以直接實現特徵選擇，也就是看自變數對因變數的相關性。今天我們先開看一下如何用卡方檢驗實現特徵選擇。

機器學習sklearn（三十七）：演算法例項（六）分類（四）分類決策樹（四）Bonus Chapter I 例項：分類樹在合成數集上的表現

我們在紅酒資料集上畫出了一棵樹，並且展示了多個引數會對樹形成這樣的影響，接下來，我們將在不同結構的資料集上測試一下決策樹的效果，讓大家更好地理解決策樹。

機器學習sklearn（57）：演算法例項（十四）分類（七）邏輯迴歸（二）linear_model.LogisticRegression(一) 重要引數

class sklearn.linear_model.LogisticRegression (penalty=’l2’, dual=False, tol=0.0001, C=1.0,fifit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’warn’, max_iter=

機器學習sklearn（72）：演算法例項（二十九）分類（十六）SVM（七）sklearn.svm.SVC（六）使用SVC時的其他考慮（選）

1 SVC處理多分類問題：重要引數decision_function_shape 2 SVM的模型複雜度 3 SVM中的隨機性：引數random_state

機器學習sklearn（78）：演算法例項（三十五）迴歸（七）線性迴歸大家族（五）多重共線性：嶺迴歸與Lasso（二）Lasso

3 Lasso 3.1 Lasso與多重共線性 3.2 Lasso的核心作用：特徵選擇 import numpy as np import pandas as pd

機器學習sklearn（七）：資料處理（四）數值型資料處理（二）標準化 StandardScaler

Thepreprocessingmodule provides theStandardScalerutility class, which is a quick and easy way to perform the following operation on an array-like dataset:

機器學習sklearn（十）：資料處理（五）自定義轉換器

在機器學習中，想要將一個已有的 Python 函式轉化為一個轉換器來協助資料清理或處理。可以使用FunctionTransformer從任意函式中實現一個轉換器。例如，在一個管道中構建一個實現日誌轉換的轉化器，這樣做:

機器學習sklearn（十二）：特徵工程（三）特徵組合與交叉（一）多項式特徵

在機器學習中，通過增加一些輸入資料的非線性特徵來增加模型的複雜度通常是有效的。一個簡單通用的辦法是使用多項式特徵，這可以獲得特徵的更高維度和互相間關係的項。這在PolynomialFeatures中實現:

機器學習sklearn（十一）：資料處理（六）非線性轉換

有兩種型別的轉換是可用的:分位數轉換和冪函式轉換。分位數和冪變換都基於特徵的單調變換，從而保持了每個特徵值的秩。

機器學習sklearn（十四）：特徵工程（五）特徵編碼（二）特徵雜湊(二)

特徵雜湊（相當於一種降維技巧）類FeatureHasher是一種高速，低記憶體消耗的向量化方法，它使用了特徵雜湊技術，或可稱為 “雜湊法” （hashing trick）的技術。代替在構建訓練中遇到的特徵的雜湊表，如向量化所做

機器學習sklearn（十五）：特徵工程（六）特徵選擇（一）主成分分析PCA

1. 準確的PCA和概率解釋（Exact PCA and probabilistic interpretation） PCA 用於對具有一組連續正交分量(Orthogonal component譯註: 或譯為正交成分,下出現成分和分量是同意詞)的多變數資料集進行方差最大化的

機器學習sklearn（十八）：特徵工程（九）特徵編碼（三）類別特徵編碼（一）標籤編碼 LabelEncoder

LabelEncoder是一個可以用來將標籤規範化的工具類，它可以將標籤的編碼值範圍限定在[0,n_classes-1]. 這在編寫高效的Cython程式時是非常有用的.LabelEncoder可以如下使用:

機器學習sklearn（二十）：特徵工程（十一）特徵編碼（五）類別特徵編碼（三）獨熱編碼 OneHotEncoder

另外一種將標稱型特徵轉換為能夠被scikit-learn中模型使用的編碼是one-of-K，又稱為獨熱碼或dummy encoding。這種編碼型別已經在類OneHotEncoder中實現。該類把每一個具有n_categories個可能取值的categorical特徵

機器學習sklearn（十九）：特徵工程（十）特徵編碼（四）類別特徵編碼（二）標籤編碼 OrdinalEncoder

在機器學習中，特徵經常不是連續的數值型的而是標稱型的(categorical)。舉個示例，一個人的樣本具有特徵[\"male\", \"female\"],[\"from Europe\", \"from US\", \"from Asia\"],[\"uses Firefox\", \"uses Chrome\"

機器學習sklearn（二十一）：模型評估（一）交叉驗證：評估估算器的表現（一）簡介

學習預測函式的引數，並在相同資料集上進行測試是一種錯誤的做法: 一個僅給出測試用例標籤的模型將會獲得極高的分數，但對於尚未出現過的資料它則無法預測出任何有用的資訊。這種情況稱為overfitting（過擬合）. 為

機器學習sklearn（二十二）：模型評估（二）交叉驗證：評估估算器的表現（二）計算交叉驗證的指標

計算交叉驗證的指標使用交叉驗證最簡單的方法是在估計器和資料集上呼叫cross_val_score輔助函式。

機器學習sklearn（三十）：模型儲存

在訓練完 scikit-learn 模型之後，最好有一種方法來將模型持久化以備將來使用，而無需重新訓練。以下部分為您提供了有關如何使用 pickle 來持久化模型的示例。在使用 pickle 序列化時，我們還將回顧一些安全性和可

機器學習sklearn（三十一）：Pipeline（管道）和 FeatureUnion（特徵聯合）: 合併的評估器

變換器(Transformers)通常與分類器，迴歸器或其他的學習器組合在一起以構建複合估計器。完成這件事的最常用工具是Pipeline。 Pipeline 經常與 FeatureUnion 結合起來使用。 FeatureUnion 用於將變換器(transformers

機器學習sklearn（三十二）：演算法例項（一）分類（一）分類決策樹（一）簡介

1 概述 1.1 決策樹是如何工作的　　決策樹（Decision Tree）是一種非引數的有監督學習方法，它能夠從一系列有特徵和標籤的資料中總結出決策規則，並用樹狀圖的結構來呈現這些規則，以解決分類和迴歸問題。決策樹演

機器學習sklearn（十七）： 特徵工程（八）特徵選擇（三）卡方選擇（二）卡方檢驗

1. 首先import包和實驗資料：

2. 使用卡方檢驗來選擇特徵

3. 檢視p-values和scores

相關推薦

機器學習sklearn（十七）：特徵工程（八）特徵選擇（三）卡方選擇（二）卡方檢驗