機器學習實踐（五）—sklearn之特徵降維

阿新 • • 發佈：2018-11-25

一、特徵降維概述

為什麼要對特徵進行降維處理
- 如果特徵本身存在問題或者特徵之間相關性較強，對於演算法學習預測會影響較大

什麼是降維
- 降維是指在某些限定條件下，降低隨機變數(特徵)個數，得到一組“不相關”主變數的過程
降維的作用
- 減少特徵數量
- 減少特徵相關性，去除相關性強的特徵，比如相對溼度與降雨量
降維的兩種方式
- 特徵選擇
- 主成分分析（PCA）

二、什麼是特徵選擇

定義

旨在從原有特徵中找出主要特徵，去除冗餘或無關特徵。
方法
- Filter(過濾式)：主要探究特徵本身特點、特徵與特徵和目標值之間關聯。
  - 方差選擇法：低方差特徵過濾
  - 相關係數
- Embedded (嵌入式)：演算法自動選擇特徵（特徵與目標值之間的關聯）
  - 決策樹:資訊熵、資訊增益
  - 正則化：L1、L2
  - 深度學習：卷積
  Embedded方式，在講解演算法時再進行介紹
模組
```
sklearn.feature_selection
```

三、降維 - 特徵選擇 - 過濾式 - 方差選擇法

低方差特徵過濾，刪除低方差的一些特徵，
- 特徵方差小：在多個樣本中某個特徵的值會比較相近
- 特徵方差大：在多個樣本中某個特徵的值是有些許差別的
API

sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
- 刪除所有低方差特徵
- Variance.fit_transform(X)
  - X:numpy array格式的資料
  - 返回值：訓練集方差低於 threshold 的特徵將被刪除。預設值是保留所有非零方差特徵，即刪除所有樣本中具有相同值的特徵。

示例程式碼

import pandas as pd
from sklearn.feature_selection import VarianceThreshold

data = pd.read_csv('factor_returns.csv')

print(data[data.columns[1:-2]].shape)

# 1、例項化一個轉換器類
transfer = VarianceThreshold(threshold=1)

# 2、呼叫fit_transform
new_data = transfer.fit_transform(data[data.columns[1:-2]])

# 3、刪除低方差特徵的結果
print(new_data.shape)

四、降維 - 特徵選擇 - 過濾式 - 相關係數

皮爾遜相關係數(Pearson Correlation Coefficient)
- 反映特徵之間相關關係密切程度的統計指標
公式(瞭解)

$r = \frac{n\sum{xy} - \sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}}$

上面是協方差，下面是各自的標準差
特點
- 相關係數的值介於 –1 與 +1 之間，即 $–1≤ r ≤+1$ 。
- 當 $r>0$ 時，表示兩變數正相關， $r<0$ 時，兩變數為負相關
- 當 0<|r|<1 時，表示兩變數存在一定程度的相關。且|r|越接近1，兩變數間線性關係越密切；|r|越接近於0，表示兩變數的線性相關越弱
- 當|r|=1時，表示兩變數為完全相關，當r=0時，表示兩變數間無相關關係。
- 一般可按三級劃分：|r|<0.4為低度相關；0.4≤|r|<0.7為顯著性相關；0.7≤|r|<1為高度線性相關。
API

from scipy.stats import pearsonr

示例程式碼

import pandas as pd
from scipy.stats import pearsonr

data = pd.read_csv('./data/factor_returns.csv')

factor = ['pe_ratio', 'pb_ratio', 'market_cap', 'return_on_asset_net_profit', 'du_return_on_equity', 'ev',
              'earnings_per_share', 'revenue', 'total_expense']

datas = [(factor[i], factor[j + 1], pearsonr(data[factor[i]], data[factor[j + 1]])[0]) for i in range(len(factor)) for j in range(i, len(factor) - 1)]

for data in datas:
    print("指標 {} 與指標 {} 之間的相關性大小為 {} ".format(*data))

五、降維 - 主成分分析（PCA）

什麼是主成分分析(PCA)
- 定義：高維資料轉化為低維資料的過程，在此過程中可能會捨棄原有資料、創造新的變數
- 作用：是資料維數壓縮，儘可能降低原資料的維數（複雜度），損失少量資訊。
- 應用：迴歸分析或者聚類分析當中
  
  在決策樹中’資訊’一詞會有清晰理解
API

sklearn.decomposition.PCA(n_components=None)
- 將資料分解為較低維數空間
- n_components:
  - 小數：保留百分之多少的資訊
  - 整數：減少到具體的多少個特徵
- PCA.fit_transform(X)
  - X：numpy array 格式的資料
  - return：轉換為指定維度後的 array

示例程式碼

from sklearn.decomposition import PCA

data = [[2,8,4,5], [6,3,0,8], [5,4,9,1]]

# 1、例項化PCA, 小數—保留百分之多少資訊
transfer = PCA(n_components=0.9)
# 2、呼叫fit_transform
data1 = transfer.fit_transform(data)
print("保留90%的資訊，降維結果為：\n", data1)

# 1、例項化PCA, 整數——指定降維到的維數
transfer2 = PCA(n_components=3)
# 2、呼叫fit_transform
data2 = transfer2.fit_transform(data)
print("降維到3維的結果：\n", data2)

六、降維 - 案例

目的

探究使用者對物品類別的喜好細分降維
現有資料
- order_products__prior.csv：訂單與商品資訊
  - 欄位：order_id, product_id, add_to_cart_order, reordered
- products.csv：商品資訊
  - 欄位：product_id, product_name, aisle_id, department_id
- orders.csv：使用者的訂單資訊
  - 欄位：order_id,user_id,eval_set,order_number,….
- aisles.csv：商品所屬具體物品類別
  - 欄位： aisle_id, aisle
分析
- 合併表，使得user_id與aisle在一張表當中
- 進行交叉表變換
- 進行降維

完整程式碼

import pandas as pd
from sklearn.decomposition import PCA

# 1、獲取資料集 
products = pd.read_csv("./data/instacart/products.csv")  # 商品資訊
order_products = pd.read_csv("./data/instacart/order_products__prior.csv")  # 訂單與商品資訊
orders = pd.read_csv("./data/instacart/orders.csv")  # 使用者的訂單資訊
aisles = pd.read_csv("./data/instacart/aisles.csv")  # 商品所屬具體物品類別

# 2、合併表，將user_id和aisle放在一張表上
# 1）合併 orders 和 order_products 
tab1 = pd.merge(aisles, products, on="aisle_id")
# 2）合併 tab1 和 products
tab2 = pd.merge(tab1, order_products, on="product_id")
# 3）合併 tab2 和 aisles 
tab3 = pd.merge(tab2, orders, on="order_id")

# 3、交叉表處理，把 user_id 和 aisle 進行分組 
table = pd.crosstab(tab3["user_id"], tab3["aisle"])

# 4、主成分分析的方法進行降維
# 1）例項化一個轉換器類PCA
transfer = PCA(n_components=0.95)
# 2）fit_transform
data = transfer.fit_transform(table)

# 檢視降維結果
data.shape

機器學習實踐（五）—sklearn之特徵降維

一、特徵降維概述為什麼要對特徵進行降維處理如果特徵本身存在問題或者特徵之間相關性較強，對於演算法學習預測會影響較大什麼是降維降維是指在某些限定條件下，降低隨機變數(特徵)個數，得到一組“不

機器學習實踐（三）—sklearn之特徵工程

一、特徵工程介紹 1. 為什麼需要特徵工程 Andrew Ng ： “Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learnin

機器學習實踐（四）—sklearn之特徵預處理

一、特徵預處理概述什麼是特徵預處理 # scikit-learn的解釋 provides several common utility functions and transformer classes to change raw feature vectors into

機器學習實踐（七）—sklearn之K-近鄰演算法

一、K-近鄰演算法(KNN)原理 K Nearest Neighbor演算法又叫KNN演算法，這個演算法是機器學習裡面一個比較經典的演算法，總體來說KNN演算法是相對比較容易理解的演算法定義如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的

機器學習實踐（六）—sklearn之轉換器和估計器

一、sklearn轉換器想一下之前做的特徵工程的步驟？ 1 例項化 (例項化的是一個轉換器類(Transformer)) 2 呼叫fit_transform(對於文件建立分類詞頻矩陣，不能同時呼叫) 我們

機器學習實踐（二）—sklearn之資料集

一、可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/ scikit-learn網址：http://scikit-learn.org/sta

機器學習實踐（一）—sklearn之概述

1956年，人工智慧元年。人類能夠創造出人類還未知的東西。這未知的東西人類能夠保證它不誤入歧途嗎。一、機器學習和人工智慧，深度學習的關係機器學習是人工智慧的一個實現途徑深度學習是機器學習的一個方法發展而來二、機器學習，深度

機器學習實踐（九）—sklearn之樸素貝葉斯演算法

一、樸素貝葉斯演算法什麼是樸素貝葉斯分類方法屬於哪個類別概率大，就判斷屬於哪個類別概率基礎概率定義為一件事情發生的可能性 P(X) : 取值在[0, 1] 聯合概率、條件概率與相互獨立

機器學習實踐（八）—sklearn之交叉驗證與引數調優

一、交叉驗證與引數調優交叉驗證(cross validation) 交叉驗證：將拿到的訓練資料，分為訓練集、驗證集和測試集。訓練集：訓練集+驗證集測試集：測試集

機器學習實戰（五）支援向量機SVM（Support Vector Machine）

目錄 0. 前言 1. 尋找最大間隔 2. 拉格朗日乘子法和KKT條件 3. 鬆弛變數 4. 帶鬆弛變數的拉格朗日乘子法和KKT條件 5. 序列最小優化SMO（Sequential Minimal Optimiz

機器學習筆記（五）：樸素貝葉斯分類器

一、概述 1.1 簡介樸素貝葉斯（Naive Bayesian）是基於貝葉斯定理和特徵條件獨立假設的分類方法，它通過特徵計算分類的概率，選取概率大的情況進行分類，因此它是基於概率論的一種機器學習分類方法。因為分類的目標是確定的，所以也是屬於監督學習。 Q1：什麼是基於概率論的方

機器學習筆記（五）過擬合問題及正則化

一、過擬合問題 1. 引入線性迴歸當中：假設我們拿出房屋面積與房價的資料集，隨著面積的增大，房價曲線趨於平緩。第一個模型不能很好地擬合，具有高偏差（欠擬合）。我們加入二次項後曲線可以較好的擬合，用第三個模型去擬合時，它通過了所有的資料點，但它是一條扭曲的線條，不停上下波動，我們並

深度學習實踐（一）—tensorflow之概述

內容預覽 1.1 深度學習與機器學習的區別 1.1.1 特徵提取方面 1.1.2 資料量和計算效能要求 1.1.3 演算法代表 1.2 深度學習的應用場景 1.2.1 影象識別 1.2

NG機器學習總結-（五）正則化 Regularization

一、過擬合問題在解釋什麼是過擬合問題之前，首先還是以房價預測為例。假設這裡我們用三種不同的模型去擬合數據集，如下圖三種情況：從第一張圖看，我們發現我們是用一條直線去擬合數據，但是這樣的擬合效果並不好。從資料中，很明顯隨著房子面積的增大，房價的變化趨於穩定或者說越往

吳恩達機器學習作業（五）：支援向量機

目錄 1）資料預處理 2）Scikit-learn支援向量機 3）決策邊界比較 4）非線性SVM 5）最優超引數 6）垃圾郵件過濾器在本練習中，我們將使用支援向量機（SVM）來構建垃圾郵件分類器。我們將從一些簡單的2D資料集開始使用SVM來檢視它們的工作原理。

Spring 學習筆記（五）IOC之零註解配置（用註解代替applicationContext.xml配置檔案）

有了這個東西開發方便很多，不用寫xml那些配置嘍。 package org.spring.exampleAOP; import org.springframework.context.annotation.ComponentScan; import org.springframework.co

機器學習筆記（五）：支援向量機（SVM）

支援向量機是目前機器學習的眾多演算法中使用得最為廣泛的演算法之一，本文主要介紹支援向量機的概念與原理。目錄什麼是支援向量機硬間隔線性支援向量機軟間隔線性支援向量機非線性支援向量機一、什麼是支援向量機 &nbs

機器學習筆記（五）—— 邏輯迴歸

邏輯迴歸演算法是二分類問題中最常用的幾種分類演算法之一，通過變形，也能夠在多分類問題中發揮餘熱。今天我將從向大家揭開這個簡單演算法的神祕面紗！一、Sigmoid函式在迴歸問題中，我們曾經提到，對於資料集

周志華-機器學習-筆記（五）- 強化學習

#### 任務與獎賞 #### 　　“強化學習”(reinforcement learning)可以講述為在任務過程中不斷摸索，然後總結出較好的完成任務策略。　　強化學習任務通常用馬爾可夫決策過程(Markov Decision Process，簡稱M

機器學習練習（五）——高斯異常點檢測

#coding:utf-8 import numpy as np from sklearn.covariance import EllipticEnvelope from sklearn.svm import OneClassSVM import matplotlib.

機器學習實踐（五）—sklearn之特徵降維

一、特徵降維概述

為什麼要對特徵進行降維處理

什麼是降維

降維的作用

降維的兩種方式

二、什麼是特徵選擇

定義

方法

模組

三、降維 - 特徵選擇 - 過濾式 - 方差選擇法

低方差特徵過濾，刪除低方差的一些特徵，

API

示例程式碼

四、降維 - 特徵選擇 - 過濾式 - 相關係數

皮爾遜相關係數(Pearson Correlation Coefficient)

公式(瞭解)

特點

API

示例程式碼

五、降維 - 主成分分析（PCA）

什麼是主成分分析(PCA)

API

示例程式碼

六、降維 - 案例

目的

現有資料

分析

完整程式碼

相關推薦