Deep learning系列（八）引數初始化

阿新 • • 發佈：2019-02-11

0. 引言

在主成分分析與白化一節中介紹瞭如何對輸入資料進行預處理，在這節中介紹與之類似的另一個問題，引數初始化（Weight Initialization）。

在模型訓練之初，我們不知道引數的具體分佈，然而如果資料經過了合理的歸一化（normalization）處理後，對於引數的合理猜測是其中一半是正的，另一半是負的。然後我們想是不是把引數都初始化為0會是比較好的初始化？這樣做其實會帶來一個問題，經過正向傳播和反向傳播後，引數的不同維度之間經過相同的更新，迭代的結果是不同維度的引數是一樣的，嚴重地影響了模型的效能。

1. 小的隨機數

我們仍然想要引數接近於0，又不是絕對的0，一種可行的做法是將引數初始化為小的隨機數，這樣做可以打破對稱性（symmetry breaking）。python程式碼如下：

nn_input_dim = 2
nn_hdim = 3
W = 0.001* np.random.randn(nn_input_dim,nn_hdim)

其中randn從均值為0，標準差是1的高斯分佈中取樣，這樣，引數的每個維度來自一個多維的高斯分佈。需要注意的是引數初始值不能取得太小，因為小的引數在反向傳播時會導致小的梯度，對於深度網路來說，也會產生梯度彌散問題，降低引數的收斂速度。

2. 將方差乘以1/sqrt(n)

引數隨機初始化為一個小的隨機數存在一個問題：一個神經元輸出的方差會隨著輸入神經元數量的增多而變大。對於有n個輸入單元的神經元來說，考慮χ2分佈，每個輸入的方差是1/n時，總的方差是1，因此，我們對每個輸入的標準差乘以1

/sqrt(n)，每個神經元的引數初始化程式碼為：

w = np.random.randn(n) / sqrt(n)

其中n為這個神經元輸入的個數。這樣可以確保神經元的輸出有相同的分佈，提高訓練的收斂速度。

將上面初始化方案推廣到網路的一層，對於神經網路的第一層可以這樣初始化：

nn_input_dim = 2
nn_hdim = 3
w = np.random.randn(nn_input_dim,nn_hdim) / sqrt(nn_input_dim)

nn_input_dim = 2
nn_hdim = 3
w = np.random.randn(nn_input_dim,nn_hdim) / sqrt(nn_input_dim+nn_hdim)

nn_input_dim = 2
nn_hdim = 3
w = np.random.randn(nn_input_dim,nn_hdim) / sqrt(2.0/nn_input_dim)

3. 偏置項的初始化

通常偏置項（bias）初始化為0：

nn_input_dim = 2
nn_hdim = 3
b1 = np.zeros((1, nn_hdim))

對於Relu啟用神經元來說，可以將偏置項初始化為一個小的常數，比如0.01，但不確定這樣做是否提高收斂的表現，在實際應用中，也常初始化為0。

Deep learning系列（八）引數初始化

0. 引言

1. 小的隨機數

2. 將方差乘以1/sqrt(n)

3. 偏置項的初始化

Deep learning系列（八）引數初始化

Deep learning系列（七）啟用函式

Deep learning系列（十）隨機梯度下降

Deep Learning 系列（1）：RBM（受限波爾茲曼機）和 DBN（深信度神經網路）

深度學習基礎系列（六）| 權重初始化的選擇

Pytorch基礎（6）----引數初始化

分散式快取技術redis學習系列（八）——JedisCluster原始碼解讀：叢集初始化、slot(槽)的分配、值的存取

Deep learning系列（十五）有監督和無監督訓練

uml系列（八）——部署圖與構件圖

SpringMVC系列（八）國際化

winform 寫App.config配置文件——IT輪子系列（八）

Docker入門與應用系列（八）Docker圖形界面管理之Shipyard

neural network and deep learning筆記（1）

SQL系列（八）—— 分組（group by）

apache ignite系列（八）：問題彙總

STM32開發筆記54：STM32F4+DP83848乙太網通訊指南系列（八）：收包流程

Oracle索引梳理系列（八）- 索引掃描型別及分析（高效索引必備知識）

深度學習基礎系列（八）| 偏差和方差

Neural Networks and Deep Learning 整理（三）

Neural Networks and Deep Learning 整理（二）

Deep learning系列（八）引數初始化

0. 引言

1. 小的隨機數

2. 將方差乘以1/sqrt(n)

3. 偏置項的初始化

相關推薦