機器學習資料標準和歸一化
阿新 • • 發佈:2019-02-13
很多時候我們需要對資料集裡面的資料進行標準化和歸一化處理。
例如:
X={年齡(年),體重(kg)} 和 X={年齡(年),體重(g)},雖然邏輯上表達的同樣的含義,但是反應在資料上兩個分量卻是相差特別大。這個時候我們往往希望兩個分量的值不會因為量綱不同而差異太大,使得各的分量對模型的影響都差不多。這個時候我們就會使用標準化和歸一化技術。另外,使用標準化和歸一化技術還可以加速模型的收斂。這是因為試想,在一個特徵向量的有兩個分量 j
標準化
標準化的方法是隻用大數定理將資料轉化為一個標準正態分佈,標準化公式為:
其中
我們注意看公式,可以發現經過標準化處理後,
另外,使用標準化也特別合理,根據大數定理,當樣本量達到一定數目後都可以把他們看做是正態分佈了。而很多網路模型對標準正態的資料是及其敏感的,所以標準化後的資料十分利於訓練。
注意 標準化後的結果,各個分量的值域是
歸一化
歸一化的目標是找到某種對映關係,將原資料對映到[a,b]區間上。一般a,b會取[-1,1],[0,1]這些組合。
一般歸一化的方法有:
mean-max歸一化:對映到[-1,1]
min-max 歸一化:對映到 [0,1]