機器學習資料標準和歸一化

阿新 • • 發佈：2019-02-13

很多時候我們需要對資料集裡面的資料進行標準化和歸一化處理。

例如：
X={年齡(年），體重（kg）} 和 X={年齡（年），體重（g）}，雖然邏輯上表達的同樣的含義，但是反應在資料上兩個分量卻是相差特別大。這個時候我們往往希望兩個分量的值不會因為量綱不同而差異太大，使得各的分量對模型的影響都差不多。這個時候我們就會使用標準化和歸一化技術。另外，使用標準化和歸一化技術還可以加速模型的收斂。這是因為試想，在一個特徵向量的有兩個分量xi和xj因為量綱的原因導致數值上相差巨大，即xi>>xj那麼在訓練的過程中，模型為了xi和xj都對結果有同等重要的影響，訓練到一定長的時間後，必然會有x

j的引數遠遠的大於xi；然而這個時間一般特別長。而當資料都進行了標準化，各個分量都差不了好多，頂天也就差一個數量級，此時各個分量的引數調整幅度也就不會相差的太大了，於是就可以加速收斂。

標準化

標準化的方法是隻用大數定理將資料轉化為一個標準正態分佈，標準化公式為：

xi^=xi−μiδi
其中xi是輸入向量X的第i個特徵，μi是所有xi的平均值,δi是這個特徵的標準差。

我們注意看公式,可以發現經過標準化處理後,xi將不帶量綱，這樣就可以解決不同特徵向量的不同特徵因為量綱不同而導致諸多不合理的問題。
另外，使用標準化也特別合理，根據大數定理，當樣本量達到一定數目後都可以把他們看做是正態分佈了。而很多網路模型對標準正態的資料是及其敏感的，所以標準化後的資料十分利於訓練。

注意標準化後的結果，各個分量的值域是R

歸一化

歸一化的目標是找到某種對映關係，將原資料對映到[a,b]區間上。一般a,b會取[-1,1],[0,1]這些組合。

一般歸一化的方法有：

mean-max歸一化：對映到[-1,1]

xi^=xi−μixmax−xmin

min-max 歸一化：對映到 [0,1]

xi^=xi−xminxmax−xmin

機器學習資料標準和歸一化

標準化

歸一化

機器學習資料標準和歸一化

機器學習與統計建模 —— 歸一化和標準化

標準化和歸一化對機器學習經典模型的影響

機器學習L1和L2正規化和歸一化

機器學習（一）：用sklearn進行資料預處理：缺失值處理、資料標準化、歸一化

資料特徵的標準化和歸一化你瞭解多少？

為什麼要資料歸一化和歸一化方法為什麼要資料歸一化和歸一化方法

【資料處理】歸一化和標準化的區別

第9章優化方法和歸一化

梯度下降、過擬合和歸一化

MATLAB中實現資料 [0,1] 歸一化

[轉載] 機器學習資料集統計系列一

weka學習（二）歸一化處理

python之sklearn常見資料預處理歸一化方式解析

【轉】關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

資料預處理——歸一化標準化

R語言中的scale函式及標準化和歸一化的理解

正則化和歸一化

關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化

數學之路-python計算實戰(15)-機器視覺-濾波去噪(歸一化塊濾波)

機器學習資料標準和歸一化

標準化

歸一化

相關推薦