資料預處理（3） ——資料歸約使用python（sklearn，pandas，numpy）實現

阿新 • • 發佈：2019-01-21

資料預處理的主要任務有：

一、資料預處理

1.資料清洗

2.資料整合

3.資料轉換

4.資料歸約

資料規約技術可以用來得到資料集的規約表示，它小得多，但仍接近於保持原始資料的完整性。也就是說，在規約後的資料集挖掘將更加有效。

（1）資料立方體聚集：聚集操作用於資料立方體結構中的資料。

（2）屬性子集選擇：通過刪除不相關或冗餘的屬性（或維）減小資料集。屬性子集選擇的目標是找出最小屬性集，使得資料類的概率分佈儘可能地接近使用所有屬性得到的原分佈。對於屬性子集選擇，一般使用壓縮搜尋空間的啟發式演算法。通常，這些方法是貪心演算法，在搜尋屬性空間時，總是做看上去當時最佳的選擇。策略是做區域性最優選擇，期望由此導致全域性最優解。在實踐中，這種貪心演算法是有效地，並可以逼近最優解。

①逐步向前選擇：該過程由空屬性集作為歸約集開始，確定原屬性集中最好的屬性，並將它新增到歸約集中。在其後的每一次迭代步，將剩下的原屬性集中最好的屬性新增到該集合中。

②逐步向後刪除：該過程由整個屬性集開始。在每一步，刪除尚在屬性集中最差的屬性。

③向前選擇和向後刪除的結合

見（http://blog.csdn.net/daxiaofan/article/details/53118259）

④決策樹歸納：決策樹演算法，如ID3、C4.5和CART最初是用於分類的。決策樹歸納構造一個類似於流程圖的結構，其中每個內部（非樹葉）節點表示一個屬性的測試，每個分枝對應於測試的一個輸出；每個外部（樹葉）節點表示一個類預測。在每個節點，演算法選擇最好的屬性，將資料劃分成類。

（3）維度歸約：使用編碼機制減小資料集的規模，例如：小波變換和主成分分析。

3.1 主成分分析

from sklearn.datasets import load_digits
digits=load_digits()
data=digits.data
from sklearn.decomposition import KernelPCA
pca=KernelPCA(n_components=2)
pca.fit(data)

x=pca.transform(data)
import matplotlib.pyplot as plt
color=['#FF0000','#FF6600','#FF6600','#33FF00','#09F7F7','#0066FF','#FF00FF','#FF0099','#F70968','#669971','#584A93','#AA6334','#8C518C','#4F2838','#21010E','#E2FAEC','#8F8FD6','#DA70D6','#7FFF00','#008B00']
tar=digits.target    
for i in range(10):
    xx=x[tar==i]
    plt.scatter(x=xx[:,0],y=xx[:,1],c=color[i])
    
data.shape
#Out[40]: (1797L, 64L)

x.shape
#Out[41]: (1797L, 2L)

3.2小波變換（能力有限，學會了在補上）

離散小波變換是一種線性訊號處理技術，用於資料向量x是，將它變換成不同數值小波係數向量x’。兩個向量具有相同的長度。當這種技術用於資料規約時，每個元祖看作一個n維資料向量，描述n個屬性在元組上的n個測量值。

（4）數值歸約：用替代的、較小的資料表示替換或估計資料，如引數模型（只需要存放模型引數，不是實際資料）或非引數方法，如聚類、抽樣和使用直方圖。

挺抽象，沒看懂

4.1 直方圖

x=[1,1,5,5,5,5,8,8,10,10,10,10,14,14,14,14,15,15,15,15,15,15,18,18,18,18,18,18,18,18,18,20,2,20,20,20,20,20,20,21,21,21,25,25,25,25,25,28,28,30,30,30]
x=pd.Series(x)
count=x.value_counts()
count.plot(kind='bar')
plt.show()
s=pd.cut(x,bins=[0,10,20,30])
s.value_counts().plot(kind='bar')

4.2抽樣

用pandas切片可以完成

43 引數模型（不太懂）

很重要的是，用於資料歸約的計算時間不應當超過或“抵消”對歸約資料探勘節省的時間。

參考文獻：

https://www.douban.com/note/128949687/

http://www.cnblogs.com/jasonfreak/p/5448385.html

資料預處理（3） ——資料歸約使用python（sklearn，pandas，numpy）實現

Python資料預處理：機器學習、人工智慧通用技術（1）

入門｜三行Python程式碼，讓資料預處理速度提高2到6倍 python入門

資料預處理：讀取檔案資料，並存為python陣列

資料預處理之將類別資料數字化的方法 —— LabelEncoder VS OneHotEncoder

資料預處理（3） ——資料歸約使用python（sklearn，pandas，numpy）實現

【ADNI】資料預處理（3）CNNs

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

基於深度學習的CT影象肺結節自動檢測技術一——資料預處理（歸一化，資料增強，資料標記）

機器學習（一）：用sklearn進行資料預處理：缺失值處理、資料標準化、歸一化

【Python資料預處理】歸一化（按列減均值，除方差），標準化（按列縮放到指定範圍），正則化（範數）

資料預處理中歸一化（Normalization）與損失函式中正則化（Regularization）解惑

CS231n課程學習筆記（七）——資料預處理、批量歸一化和Dropout

深度學習小白——神經網路3（資料預處理，dropout，正則化）

機器學習第3篇：資料預處理（使用插補法處理缺失值）

【ADNI】資料預處理（6）ADNI_slice_dataloader ||| show image

【ADNI】資料預處理（5）Get top k slices (pMCI_sMCI) according to CNNs

【ADNI】資料預處理（4）Get top k slices according to CNNs

【ADNI】資料預處理（2）獲取 subject slices

【ADNI】資料預處理（1）SPM，CAT12

搭建簡單圖片分類的卷積神經網路（一）-- 訓練模型的圖片資料預處理

資料預處理（3） ——資料歸約 使用python（sklearn，pandas，numpy）實現

相關推薦

資料預處理（3） ——資料歸約使用python（sklearn，pandas，numpy）實現