python資料預處理：資料標準化

阿新 • • 發佈：2018-11-26

何為標準化：

在資料分析之前，我們通常需要先將資料標準化（normalization），利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題，對不同性質指標直接加總不能正確反映不同作用力的綜合結果，須先考慮改變逆指標資料性質，使所有指標對測評方案的作用力同趨化，再加總才能得出正確結果。資料無量綱化處理主要解決資料的可比性。

幾種標準化方法：

歸一化Max-Min

min-max標準化方法是對原始資料進行線性變換。設minA和maxA分別為屬性A的最小值和最大值，將A的一個原始值x通過min-max標準化對映成在區間[0,1]中的值x’，其公式為：
新資料=（原資料-最小值）/（最大值-最小值）
這種方法能使資料歸一化到一個區域內，同時不改變原來的資料結構。

實現中心化Z-Score

這種方法基於原始資料的均值（mean）和標準差（standard deviation）進行資料的標準化。將A的原始值x使用z-score標準化到x’。
z-score標準化方法適用於屬性A的最大值和最小值未知的情況，或有超出取值範圍的離群資料的情況。
新資料=（原資料-均值）/標準差
這種方法適合大多數型別資料，也是很多工具的預設標準化方法。標準化之後的資料是以0為均值，方差為以的正太分佈。但是Z-Score方法是一種中心化方法，會改變原有資料的分佈結構，不適合用於對稀疏資料做處理。
很多時候資料集會存在稀疏特徵，表現為標準差小，很多元素值為0，最常見的稀疏資料集是用來做協同過濾的資料集，絕大部分資料都是0。對稀疏資料做標準化，不能採用中心化的方式，否則會破壞稀疏資料的結構。

用於稀疏資料的MaxAbs

最大值絕對值標準化（MaxAbs）即根據最大值的絕對值進行標準化，假設原轉換的資料為x，新資料為x’，那麼x’=x/|max|，其中max為x鎖在列的最大值。
該方法的資料區間為[-1, 1]，也不破壞原資料結構的特點，因此也可以用於稀疏資料，一些稀疏矩陣。

針對離群點的RobustScaler

有些時候，資料集中存在離群點，用Z-Score進行標準化，但是結果不理想，因為離群點在標準化後喪失了利群特性。RobustScaler針對離群點做標準化處理，該方法對資料中心化的資料的縮放健壯性有更強的引數控制能力。

python實現

import numpy as 
 np
import pandas as pd
from sklearn import preprocessing
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt
%matplotlib inline

# 匯入資料
data = make_moons(n_samples=200, noise=10)[0]

#Z-Score標準化
#建立StandardScaler物件
zscore = preprocessing.StandardScaler()
# 標準化處理
data_zs = zscore.fit_transform(data)

#Max-Min標準化
#建立MinMaxScaler物件
minmax = preprocessing.MinMaxScaler()
# 標準化處理
data_minmax = minmax.fit_transform(data)

#MaxAbs標準化
#建立MinMaxScaler物件
maxabs = preprocessing.MaxAbsScaler()
# 標準化處理
data_maxabs = maxabs.fit_transform(data)

#RobustScaler標準化
#建立RobustScaler物件
robust = preprocessing.RobustScaler()
# 標準化處理
data_rob = robust.fit_transform(data)

# 視覺化資料展示
# 建立資料集列表
data_list = [data, data_zs, data_minmax, data_maxabs, data_rob]
# 建立顏色列表
color_list = ['blue', 'red', 'green', 'black', 'pink']
# 建立標題樣式
title_list = ['source data', 'zscore', 'minmax', 'maxabs', 'robust']

# 設定畫幅
plt.figure(figsize=(9, 6))
# 迴圈資料集和索引
for i, dt in enumerate(data_list):
    # 子網格
    plt.subplot(2, 3, i+1)
    # 資料畫散點圖
    plt.scatter(dt[:, 0], dt[:, 1], c=color_list[i])
    # 設定標題
    plt.title(title_list[i])
# 圖片儲存 
plt.savefig('xx.png')
# 圖片展示
plt.show()

在這裡插入圖片描述

參考：
《python資料分析與資料化運營》宋天龍

python資料預處理：資料標準化

何為標準化：

幾種標準化方法：

歸一化Max-Min

實現中心化Z-Score

用於稀疏資料的MaxAbs

針對離群點的RobustScaler

python實現

python資料預處理：資料標準化

python資料預處理：資料相關性

python資料預處理：資料共線性處理

python資料預處理：資料抽樣

python資料預處理：資料降維

python資料預處理：資料離散化

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

python資料預處理：樣本分佈不均（過取樣和欠取樣）

python資料預處理：字元變數獨熱編碼(one-hot encoding)

python資料預處理：使用pandas 進行資料清洗

Python資料預處理：機器學習、人工智慧通用技術（1）

資料預處理：讀取檔案資料，並存為python陣列

京東豬臉識別比賽資料預處理：用Python將視訊每一幀提取儲存為圖片

tensorflow預處理：資料標準化的幾種方法

機器學習（一）：用sklearn進行資料預處理：缺失值處理、資料標準化、歸一化

資料預處理：One-Hot Encoding

資料預處理：獨熱編碼（One-Hot Encoding）和 LabelEncoder標籤編碼

機器學習小組知識點27：資料預處理之資料離散化（Data Discretization）

資料預處理：樣本非平衡處理

資料預處理：原始資料集，特徵數值化，特徵值數值化

python資料預處理 ：資料標準化

何為標準化：

幾種標準化方法：

歸一化Max-Min

實現中心化Z-Score

用於稀疏資料的MaxAbs

針對離群點的RobustScaler

python實現

相關推薦

python資料預處理：資料標準化