【Python資料預處理】歸一化（按列減均值，除方差），標準化（按列縮放到指定範圍），正則化（範數）

阿新 • • 發佈：2019-01-23

一、標準化（Z-Score），或者去除均值和方差縮放

公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。

將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。

實現時，有兩種不同的方式：

使用sklearn.preprocessing.scale()函式，可以直接將給定資料進行標準化。

>>> from sklearn import preprocessing

>>> import numpy as np

>>> X = np.array([[ 1., -1., 2.],

... [ 2., 0., 0.],

... [ 0., 1., -1.]])

>>> X_scaled = preprocessing.scale(X)

>>> X_scaled

array([[ 0. ..., -1.22..., 1.33...],

[ 1.22..., 0. ..., -0.26...],

[-1.22..., 1.22..., -1.06...]])

>>>#處理後資料的均值和方差

>>> X_scaled.mean(axis=0)

array([ 0., 0., 0.])

>>> X_scaled.std(axis=0)

array([ 1., 1., 1.])

使用sklearn.preprocessing.StandardScaler類，使用該類的好處在於可以儲存訓練集中的引數（均值、方差）直接使用其物件轉換測試集資料。

>>> scaler = preprocessing.StandardScaler().fit(X)

>>> scaler

StandardScaler(copy=True, with_mean=True, with_std=True)

>>> scaler.mean_

array([ 1. ..., 0. ..., 0.33...])

>>> scaler.std_

array([ 0.81..., 0.81..., 1.24...])

>>> scaler.transform(X)

array([[ 0. ..., -1.22..., 1.33...],

[ 1.22..., 0. ..., -0.26...],

[-1.22..., 1.22..., -1.06...]])

>>>#可以直接使用訓練集對測試集資料進行轉換

>>> scaler.transform([[-1., 1., 0.]])

array([[-2.44..., 1.22..., -0.26...]])

二、將屬性縮放到一個指定範圍

除了上述介紹的方法之外，另一種常用的方法是將屬性縮放到一個指定的最大和最小值（通常是1-0）之間，這可以通過preprocessing.MinMaxScaler類實現。

使用這種方法的目的包括：

1、對於方差非常小的屬性可以增強其穩定性。

2、維持稀疏矩陣中為0的條目。

>>> X_train = np.array([[ 1., -1., 2.],

... [ 2., 0., 0.],

... [ 0., 1., -1.]])

...

>>> min_max_scaler = preprocessing.MinMaxScaler()

>>> X_train_minmax = min_max_scaler.fit_transform(X_train)

>>> X_train_minmax

array([[ 0.5 , 0. , 1. ],

[ 1. , 0.5 , 0.33333333],

[ 0. , 1. , 0. ]])

>>> #將相同的縮放應用到測試集資料中

>>> X_test = np.array([[ -3., -1., 4.]])

>>> X_test_minmax = min_max_scaler.transform(X_test)

>>> X_test_minmax

array([[-1.5 , 0. , 1.66666667]])

>>> #縮放因子等屬性

>>> min_max_scaler.scale_

array([ 0.5 , 0.5 , 0.33...])

>>> min_max_scaler.min_

array([ 0. , 0.5 , 0.33...])

當然，在構造類物件的時候也可以直接指定最大最小值的範圍：feature_range=(min, max)，此時應用的公式變為：

X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))

X_scaled=X_std/(max-min)+min

三、正則化（Normalization）

正則化的過程是將每個樣本縮放到單位範數（每個樣本的範數為1），如果後面要使用如二次型（點積）或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。

Normalization主要思想是對每個樣本計算其p-範數，然後對該樣本中每個元素除以該範數，這樣處理的結果是使得每個處理後樣本的p-範數（l1-norm,l2-norm）等於1。

p-範數的計算公式：||X||p=(|x1|^p+|x2|^p+...+|xn|^p)^1/p

該方法主要應用於文字分類和聚類中。例如，對於兩個TF-IDF向量的l2-norm進行點積，就可以得到這兩個向量的餘弦相似性。

1、可以使用preprocessing.normalize()函式對指定資料進行轉換：

>>> X = [[ 1., -1., 2.],

... [ 2., 0., 0.],

... [ 0., 1., -1.]]

>>> X_normalized = preprocessing.normalize(X, norm='l2')

>>> X_normalized

array([[ 0.40..., -0.40..., 0.81...],

[ 1. ..., 0. ..., 0. ...],

[ 0. ..., 0.70..., -0.70...]])

2、可以使用processing.Normalizer()類實現對訓練集和測試集的擬合和轉換：

>>> normalizer = preprocessing.Normalizer().fit(X) # fit does nothing

>>> normalizer

Normalizer(copy=True, norm='l2')

>>>

>>> normalizer.transform(X)

array([[ 0.40..., -0.40..., 0.81...],

[ 1. ..., 0. ..., 0. ...],

[ 0. ..., 0.70..., -0.70...]])

>>> normalizer.transform([[-1., 1., 0.]])

array([[-0.70..., 0.70..., 0. ...]])

補充：

【Python資料預處理】歸一化（按列減均值，除方差），標準化（按列縮放到指定範圍），正則化（範數）

一、標準化（Z-Score），或者去除均值和方差縮放公式為：(X-mean)/std 計算時對每個屬性/每列分別進行。將資料按期屬性（按列進行）減去其均值，並處以其方差。得到的結果是，對於每個屬性/每列來說所有資料都聚集在0附近，方差為1。實現時，有兩種不同

資料預處理中歸一化（Normalization）與損失函式中正則化（Regularization）解惑

背景：資料探勘/機器學習中的術語較多，而且我的知識有限。之前一直疑惑正則這個概念。所以寫了篇博文梳理下摘要：　　1.正則化（Regularization）　　　　1.1 正則化的目的　　　　　1.2 結構風險最小化（SRM）理論　　　　1.3 L1範數

資料預處理--輸入歸一化/標準化/放縮

輸入歸一化/標準化 Alex 和 Caffe中的初始化引數都是基於均值歸一化的，如果不做歸一化，會因為輸入大了一半，導致訓練失敗。這也是為什麼Caffe強制為樣本計算影象均值的原因。這樣，畫素值[0,255]被調整成了近似[-128,128]。儘管影象資料格式規整，但是做一

資料預處理之歸一化

min_max_scaler = preprocessing.MinMaxScaler() X_train_minmax = min_max_scaler.fit_transform(X_train) X_test_minmax = min_max_scaler.transform(X_test) 2、標

資料預處理之歸一化(normalization)

概念介紹：歸一化是利用特徵的最大最小值，將特徵的值縮放到[new_min,new_max]區間，對於每一列的特徵使用min-max函式進行縮放，計算公式如下程式碼示例：import numpy as n

Python資料預處理—歸一化，標準化，正則化

>>> X_train = np.array([[ 1., -1., 2.], ... [ 2., 0., 0.], ... [ 0., 1., -1.]]) ... >>> min_max_scaler = preprocessing.MinMaxScaler() >

資料預處理的幾個方法：白化、去均值、歸一化、PCA

以上轉載自：http://ufldl.stanford.edu/wiki/index.php/%E7%99%BD%E5%8C%96 假定資料表示成矩陣為X，其中我們假定X是[N*D]維矩陣(N是樣本資料量，D為單張圖片的資料向量長度)。

【資料處理】歸一化和標準化的區別

參考歸一化常用的方法是通過對原始資料進行線性變換把資料對映到[0,1]之間，變換函式為： x∗=x−xminxmax−xminx∗=x−xminxmax−xmin 不同變數往往量綱不同，歸一化可以消除量綱對最終結果的影響，使不同變數具有可比性。在

python資料預處理：資料離散化

何為離散化：一些資料探勘演算法中，要求資料是分類屬性形式。因此常常需要將連續屬性的資料通過斷點進行劃分最後歸屬到不同的分類，即離散化。為什麼要離散化：調高計算效率分類模型計算需要給予距離計算模型（k均值、協同過濾）中降低異常資料對模型的影響

【資料預處理】樣本不均勻

工業界機器學習典型問題:正負樣本分佈極不均勻(通常<1:10000），有什麼較好的方案構造訓練集的正負樣本分佈？構造後如何解決訓練資料與預測的分佈不一致？上取樣、下采樣、代價敏感，沒什麼好辦法。這個之前調研過，主要分重取樣和欠取樣！這種不平衡是因為比率的不平衡給一些學習方法帶來問題。但是在某些領域，比如

特徵預處理之歸一化&標準化

## 寫在前面這篇部落格的主要內容 - 應用MinMaxScaler實現對特徵資料進行歸一化 - 應用StandardScaler實現對特徵資料進行標準化 ## 特徵預處理 ### 定義通過**一些轉換函式**將特徵資料**轉換成更加適合演算法模型**的特徵資料過程 ### 特徵預處理AP

POJ 2831 Can We Build This One：次小生成樹【N^2預處理】

efi tar int pan false 處理 eof log clas 題目鏈接：http://poj.org/problem?id=2831 題意：　　給你一個圖，每條邊有邊權。　　然後有q組詢問(i,x)，問你如果將第i條邊的邊權改為x，這條邊是否有可能在

3行程式碼，Python資料預處理提速6倍！

來源：towardsdatascience 作者：George Seif 編輯：肖琴讓CPU核心物盡其用！本文介紹了僅需3行程式碼，將Python資料處理速度提升2~6倍的簡單方法。 Python是所有機器學習的首選程式語言。它易於使用，並擁有許多很棒的庫，可以輕鬆地處

python資料預處理：資料標準化

何為標準化：在資料分析之前，我們通常需要先將資料標準化（normalization），利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題，對不同性質指標直接加總不能正確

python資料預處理：資料相關性

何為相關性：相關性分析是指對具備相關性關係的變數進行分析，從而衡量變數間的相關程度或密切程度。相關性可以應用到所有資料的分析過程中，任何事物之間都是存在一定的聯絡。相關性用R（相關係數）表示，R的取值範圍是[-1, 1] 相關和因果：相關並不是因果，例如商品銷售活動時，通

python資料預處理：資料共線性處理

何為共線性：共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致迴歸模型的穩定性和準確性大大降低，另外，過多無關的維度計算也很浪費時間共線性產生原因：變量出現共線性的原因：資料樣本不夠，導致共線性存在偶然性，這其實反映了缺少資料對於資料建

python資料預處理：資料抽樣

何為資料抽樣：抽樣是資料處理的一種基本方法，常常伴隨著計算資源不足、獲取全部資料困難、時效性要求等情況使用。抽樣方法：一般有四種方法：隨機抽樣直接從整體資料中等概率抽取n個樣本。這種方法優勢是，簡單、好操作、適用於分佈均勻的場景；缺點是總體大時無法一一編

python資料預處理：樣本分佈不均（過取樣和欠取樣）

何為樣本分佈不均：樣本分佈不均衡就是指樣本差異非常大，例如共1000條資料樣本的資料集中，其中佔有10條樣本分類，其特徵無論如何你和也無法實現完整特徵值的覆蓋，此時屬於嚴重的樣本分佈不均衡。為何要解決樣本分佈不均：樣本分部不均衡的資料集也是很常見的：比如惡意刷單、黃牛訂

python資料預處理：資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都需要對資料做降維處理。資料降維有兩種方式：特徵選擇，維度轉換特徵選擇

python資料預處理：字元變數獨熱編碼(one-hot encoding)

許多的資料取樣中會有很多以以字串形式出現的資料，這樣的資料沒有辦法直接跟其他數值變數合併成向量，這些值一般是分類資料或是順序資料。分類資料：分類資料指某些資料類別的只能歸於某一類非數值型資料，例如男、女。分類資料中的值沒有明顯高低好壞之分，只是由來區分兩個或多個具有相同或相

【Python資料預處理】 歸一化（按列減均值，除方差），標準化（按列縮放到指定範圍），正則化（範數）

一、標準化（Z-Score），或者去除均值和方差縮放

二、將屬性縮放到一個指定範圍

三、正則化（Normalization）

相關推薦

【Python資料預處理】歸一化（按列減均值，除方差），標準化（按列縮放到指定範圍），正則化（範數）