梯度爆炸與梯度消失的原因：

簡單地說，根據鏈式法則，如果每一層神經元對上一層的輸出的偏導乘上權重結果都小於1的話（ $w_{ij}y_{i}'<1.0$ ），那麼即使這個結果是0.99，在經過足夠多層傳播之後，誤差對輸入層的偏導會趨於0（ $\lim_{n\to\infty}0.99^n=0$ ）。下面是數學推導推導。

假設網路輸出層中的第 $k$ 個神經元輸出為 $y_{k}(t)$ ，而要學習的目標為 $d_{k}(t)$ 。這裡的 $t$ 表示時序，與輸入無關，可以理解為網路的第 $t$ 層。

若採用平方誤差作為損失函式，第 $k$ 個輸出神經元對應的損失為 $L=\frac{1}{2}(d_{k}(t)-y_{k}(t))^{2}$

將損失 $L$ 對輸出 $y_{k}(t)$ 求偏導 $\vartheta_{k}(t)=\frac{\partial{L}}{\partial{y_{k}(t)}}=y_{k}'(t)(d_{k}(t)-y_{k}(t))$

根據鏈式法則，我們知道，第 $t-1$ 層的梯度可以根據第 $t$ 層的梯度求出來

$\vartheta_{i}(t-1)=y_{i}'(t-1)\sum_{j}w_{ij}\vartheta_{j}(t)$

這裡用 $i$ 表示第 $t-1$ 層的第 $i$ 個神經元， $j$ 表示第 $t$ 層的第 $j$ 個神經元。

進一步，第 $t-q$ 層的梯度可以由第 $t-q+1$ 層的梯度計算出來

$\vartheta_{i}(t-q)=y_{i}'(t-q)\sum_{j}w_{ij}\vartheta_{j}(t-q+1)$

這實際上是一個遞迴巢狀的式子，如果我們對 $\vartheta_{j}(t-q+1)$

做進一步展開，可以得到式子

$\vartheta_{i}(t-q)=y_{i}'(t-q)\sum_{j}w_{ij}[y_{j}'(t-q+1)\sum_{k}w_{jk}\vartheta_{k}(t-q+2))]$

最終，可以一直展開到第 $t$ 層。

把所有的加法都移到最外層，可以得到

$\vartheta_{i}(t-q)=\sum_{l_{t-q+1}=1}^{n}\cdot\cdot\cdot\sum_{l_{t}=1}^{n}\prod_{m=0}^{q}w_{l_{m}l_{m-1}}\vartheta_{lm}(t-m)$

$l_{t-q+1}$ 表示的是第 $t-q+1$ 層中神經元的下標（即第 $t-q+1$ 層第 $l_{t-q+1}$ 個神經元）， $l_{t}$ 表示第 $t$ 層的下標。 $m=0$ 對應輸出層， $m=q$ 對應第 $t-q$ 層。實際上展開式就是從網路的第 $t$ 層到 $t-q$ 層，每一層都取出一個神經元來進行排列組合的結果。這個式子並不準確，因為 $m=0$ 時實際是損失 $L$ 對輸出層的偏導，即

$\vartheta_{k}(t)=y_{k}'(t)(d_{k}(t)-y_{k}(t))$ ，

並沒有應用權重 $w_{l_{m}l_{m-1}}$ ，把它修正一下

$\vartheta_{i}(t-q)=\sum_{l_{t-q+1}=1}^{n}\cdot\cdot\cdot\sum_{l_{t}=1}^{n}\prod_{m=1}^{q}w_{l_{m}l_{m-1}}y_{lm}'(t-m)\cdot\vartheta_{k}(t)$

這樣，我們就得到了第 $t-q$ 層和第 $t$ 層的梯度之間的關係

$\frac{\vartheta_{i}(t-q)}{\vartheta_{k}(t)}=\sum_{l_{t-q+1}=1}^{n}\cdot\cdot\cdot\sum_{l_{t}=1}^{n}\prod_{m=1}^{q}w_{l_{m}l_{m-1}}y_{lm}'(t-m)$

在上面的式子中，由於加法項正負號之間可能互相抵消。因此，比值的量級主要受最後的乘法項影響。如果對於所有的 $m$ 有

$|w_{l_{m}l_{m-1}}y_{lm}'(t-m)|>1.0$

則梯度會隨著反向傳播層數的增加而呈指數增長，導致梯度爆炸。

如果對於所有的 $m$ 有

$|w_{l_{m}l_{m-1}}y_{lm}'(t-m)|<1.0$

則在經過多層的傳播後，梯度會趨向於0，導致梯度消失。

2. 解決方法:

以sigmoid函式為例子，sigmoid函式使得輸出在[0,1]之間。

事實上x到了一定大小，經過sigmoid函式的輸出範圍就很小了，參考下圖

如果輸入很大，其對應的斜率就很小，我們知道，其斜率（梯度）在反向傳播中是權值學習速率。在深度網路中，如果網路的啟用輸出很大，其梯度就很小，學習速率就很慢。假設每層學習梯度都小於0.25，網路有n層，因為鏈式求導（第一層偏移量的梯度=啟用層斜率1x權值1x啟用層斜率2x…啟用層斜率(n-1)x權值(n-1)x啟用層斜率n）的原因，第一層的梯度小於0.25的n次方，所以學習速率就慢，對於最後一層只需對自身求導1次，梯度就大，學習速率就快。這會造成的影響是在一個很大的深度網路中，淺層基本不學習，權值變化小，後面幾層一直在學習，結果就是，後面幾層基本可以表示整個網路，失去了深度的意義。

梯度消失的影響：

（1）淺層基本不學習，後面幾層一直在學習，失去深度的意義。

（2）無法收斂。

如何解決：

（1）第一個階段就是逐層預訓練方法，為了解決深層神經網路的訓練問題，一種有效的手段是採取無監督逐層訓練（unsupervised layer-wise training）。其基本思想是每次訓練一層隱節點，訓練時將上一層隱節點的輸出作為輸入，而本層隱節點的輸出作為下一層隱節點的輸入，這被稱之為“預訓練”（pre-training）；在預訓練完成後，再對整個網路進行“微調”（fine-tunning）訓練。在使用無監督訓練時，首先訓練第一層，這是關於訓練樣本的RBM模型，可按標準的RBM進行訓練；然後，將第一層預訓練號的隱節點視為第二層的輸入節點，對第二層進行預訓練；各層預訓練完成後，再利用BP演算法對整個網路進行訓練。雖然也解決了一些問題，但並沒有特別火。事實上，“預訓練+微調”的訓練方式可被視為是將大量引數分組，對每組先找到區域性看起來較好的設定，然後再基於這些區域性較優的結果聯合起來進行全域性尋優。這樣就在利用了模型大量引數所提供的自由度的同時，有效地節省了訓練開銷。（2）第二個階段開始的標誌就是relu, dropout等小技巧，第二波深度學習演算法已經基本拋棄了預訓練的做法。引入RELU代替sigmoid啟用函式。

（3）深度殘差學習（deepresidual learning）進一步避免了梯度消失（其實是把高階特徵和低階做融合）。

（4）歸一初始化，各層輸入歸一化，使得可以收斂的網路的深度提升為原來的十倍。

3.區域性極小值與學習率問題：

在調整模型更新權重和偏差引數的方式時，你是否考慮過哪種優化演算法能使模型產生更好且更快的效果？應該用梯度下降，隨機梯度下降，還是Adam方法？

這篇文章介紹了不同優化演算法之間的主要區別，以及如何選擇最佳的優化方法。

什麼是優化演算法？

優化演算法的功能，是通過改善訓練方式，來最小化(或最大化)損失函式E(x)。

模型內部有些引數，是用來計算測試集中目標值Y的真實值和預測值的偏差程度的，基於這些引數，就形成了損失函式E(x)。

比如說，權重(W)和偏差(b)就是這樣的內部引數，一般用於計算輸出值，在訓練神經網路模型時起到主要作用。

在有效地訓練模型併產生準確結果時，模型的內部引數起到了非常重要的作用。這也是為什麼我們應該用各種優化策略和演算法，來更新和計算影響模型訓練和模型輸出的網路引數，使其逼近或達到最優值。

優化演算法分為兩大類：

1. 一階優化演算法

這種演算法使用各引數的梯度值來最小化或最大化損失函式E(x)。最常用的一階優化演算法是梯度下降。

函式梯度：導數dy/dx的多變量表達式，用來表示y相對於x的瞬時變化率。往往為了計算多變數函式的導數時，會用梯度取代導數，並使用偏導數來計算梯度。梯度和導數之間的一個主要區別是函式的梯度形成了一個向量場。

因此，對單變數函式，使用導數來分析；而梯度是基於多變數函式而產生的。更多理論細節在這裡不再進行詳細解釋。

2. 二階優化演算法

二階優化演算法使用了二階導數(也叫做Hessian方法)來最小化或最大化損失函式。由於二階導數的計算成本很高，所以這種方法並沒有廣泛使用。

詳解各種神經網路優化演算法

梯度下降

在訓練和優化智慧系統時，梯度下降是一種最重要的技術和基礎。梯度下降的功能是：

通過尋找最小值，控制方差，更新模型引數，最終使模型收斂。

網路更新引數的公式為：θ=θ−η×∇(θ).J(θ) ，其中η是學習率，∇(θ).J(θ)是損失函式J(θ)的梯度。

這是在神經網路中最常用的優化演算法。

如今，梯度下降主要用於在神經網路模型中進行權重更新，即在一個方向上更新和調整模型的引數，來最小化損失函式。

2006年引入的反向傳播技術，使得訓練深層神經網路成為可能。反向傳播技術是先在前向傳播中計算輸入訊號的乘積及其對應的權重，然後將啟用函式作用於這些乘積的總和。這種將輸入訊號轉換為輸出訊號的方式，是一種對複雜非線性函式進行建模的重要手段，並引入了非線性啟用函式，使得模型能夠學習到幾乎任意形式的函式對映。然後，在網路的反向傳播過程中回傳相關誤差，使用梯度下降更新權重值，通過計算誤差函式E相對於權重引數W的梯度，在損失函式梯度的相反方向上更新權重引數。

圖1：權重更新方向與梯度方向相反

圖1顯示了權重更新過程與梯度向量誤差的方向相反，其中U形曲線為梯度。要注意到，當權重值W太小或太大時，會存在較大的誤差，需要更新和優化權重，使其轉化為合適值，所以我們試圖在與梯度相反的方向找到一個區域性最優值。

梯度下降的變體

傳統的批量梯度下降將計算整個資料集梯度，但只會進行一次更新，因此在處理大型資料集時速度很慢且難以控制，甚至導致記憶體溢位。

權重更新的快慢是由學習率η決定的，並且可以在凸面誤差曲面中收斂到全域性最優值，在非凸曲面中可能趨於區域性最優值。

使用標準形式的批量梯度下降還有一個問題，就是在訓練大型資料集時存在冗餘的權重更新。

標準梯度下降的上述問題在隨機梯度下降方法中得到了解決。

1. 隨機梯度下降(SDG)

隨機梯度下降（Stochastic gradient descent，SGD）對每個訓練樣本進行引數更新，每次執行都進行一次更新，且執行速度更快。

θ=θ−η⋅∇(θ) × J(θ;x(i);y(i))，其中x(i)和y(i)為訓練樣本。

頻繁的更新使得引數間具有高方差，損失函式會以不同的強度波動。這實際上是一件好事，因為它有助於我們發現新的和可能更優的區域性最小值，而標準梯度下降將只會收斂到某個區域性最優值。

但SGD的問題是，由於頻繁的更新和波動，最終將收斂到最小限度，並會因波動頻繁存在超調量。

雖然已經表明，當緩慢降低學習率η時，標準梯度下降的收斂模式與SGD的模式相同。

圖2：每個訓練樣本中高方差的引數更新會導致損失函式大幅波動，因此我們可能無法獲得給出損失函式的最小值。

另一種稱為“小批量梯度下降”的變體，則可以解決高方差的引數更新和不穩定收斂的問題。

2. 小批量梯度下降

為了避免SGD和標準梯度下降中存在的問題，一個改進方法為小批量梯度下降（Mini Batch Gradient Descent），因為對每個批次中的n個訓練樣本，這種方法只執行一次更新。

使用小批量梯度下降的優點是：

1) 可以減少引數更新的波動，最終得到效果更好和更穩定的收斂。

2) 還可以使用最新的深層學習庫中通用的矩陣優化方法，使計算小批量資料的梯度更加高效。

3) 通常來說，小批量樣本的大小範圍是從50到256，可以根據實際問題而有所不同。

4) 在訓練神經網路時，通常都會選擇小批量梯度下降演算法。

這種方法有時候還是被成為SGD。

使用梯度下降及其變體時面臨的挑戰

1. 很難選擇出合適的學習率。太小的學習率會導致網路收斂過於緩慢，而學習率太大可能會影響收斂，並導致損失函式在最小值上波動，甚至出現梯度發散。

2. 此外，相同的學習率並不適用於所有的引數更新。如果訓練集資料很稀疏，且特徵頻率非常不同，則不應該將其全部更新到相同的程度，但是對於很少出現的特徵，應使用更大的更新率。

3. 在神經網路中，最小化非凸誤差函式的另一個關鍵挑戰是避免陷於多個其他區域性最小值中。實際上，問題並非源於區域性極小值，而是來自鞍點，即一個維度向上傾斜且另一維度向下傾斜的點。這些鞍點通常被相同誤差值的平面所包圍，這使得SGD演算法很難脫離出來，因為梯度在所有維度上接近於零。

進一步優化梯度下降

現在我們要討論用於進一步優化梯度下降的各種演算法。

1. 動量

SGD方法中的高方差振盪使得網路很難穩定收斂，所以有研究者提出了一種稱為動量（Momentum）的技術，通過優化相關方向的訓練和弱化無關方向的振盪，來加速SGD訓練。換句話說，這種新方法將上個步驟中更新向量的分量’γ’新增到當前更新向量。

V(t)=γV(t−1)+η∇(θ).J(θ)

最後通過θ=θ−V(t)來更新引數。

動量項γ通常設定為0.9，或相近的某個值。

這裡的動量與經典物理學中的動量是一致的，就像從山上投出一個球，在下落過程中收集動量，小球的速度不斷增加。

在引數更新過程中，其原理類似：

1) 使網路能更優和更穩定的收斂；

2) 減少振盪過程。

當其梯度指向實際移動方向時，動量項γ增大；當梯度與實際移動方向相反時，γ減小。這種方式意味著動量項只對相關樣本進行引數更新，減少了不必要的引數更新，從而得到更快且穩定的收斂，也減少了振盪過程。

2. Nesterov梯度加速法

一位名叫Yurii Nesterov研究員，認為動量方法存在一個問題：

如果一個滾下山坡的球，盲目沿著斜坡下滑，這是非常不合適的。一個更聰明的球應該要注意到它將要去哪，因此在上坡再次向上傾斜時小球應該進行減速。

實際上，當小球達到曲線上的最低點時，動量相當高。由於高動量可能會導致其完全地錯過最小值，因此小球不知道何時進行減速，故繼續向上移動。

Yurii Nesterov在1983年發表了一篇關於解決動量問題的論文，因此，我們把這種方法叫做Nestrov梯度加速法。

在該方法中，他提出先根據之前的動量進行大步跳躍，然後計算梯度進行校正，從而實現引數更新。這種預更新方法能防止大幅振盪，不會錯過最小值，並對引數更新更加敏感。

Nesterov梯度加速法（NAG）是一種賦予了動量項預知能力的方法，通過使用動量項γV(t−1)來更改引數θ。通過計算θ−γV(t−1)，得到下一位置的引數近似值，這裡的引數是一個粗略的概念。因此，我們不是通過計算當前引數θ的梯度值，而是通過相關引數的大致未來位置，來有效地預知未來：

V(t)=γV(t−1)+η∇(θ)J( θ−γV(t−1) )，然後使用θ=θ−V(t)來更新引數。

現在，我們通過使網路更新與誤差函式的斜率相適應，並依次加速SGD，也可根據每個引數的重要性來調整和更新對應引數，以執行更大或更小的更新幅度。

3. Adagrad方法

Adagrad方法是通過引數來調整合適的學習率η，對稀疏引數進行大幅更新和對頻繁引數進行小幅更新。因此，Adagrad方法非常適合處理稀疏資料。

在時間步長中，Adagrad方法基於每個引數計算的過往梯度，為不同引數θ設定不同的學習率。

先前，每個引數θ(i)使用相同的學習率，每次會對所有引數θ進行更新。在每個時間步t中，Adagrad方法為每個引數θ選取不同的學習率，更新對應引數，然後進行向量化。為了簡單起見，我們把在t時刻引數θ(i)的損失函式梯度設為g(t,i)。

圖3：引數更新公式

Adagrad方法是在每個時間步中，根據過往已計算的引數梯度，來為每個引數θ(i)修改對應的學習率η。

Adagrad方法的主要好處是，不需要手工來調整學習率。大多數引數使用了預設值0.01，且保持不變。

Adagrad方法的主要缺點是，學習率η總是在降低和衰減。

因為每個附加項都是正的，在分母中累積了多個平方梯度值，故累積的總和在訓練期間保持增長。這反過來又導致學習率下降，變為很小數量級的數字，該模型完全停止學習，停止獲取新的額外知識。

因為隨著學習速度的越來越小，模型的學習能力迅速降低，而且收斂速度非常慢，需要很長的訓練和學習，即學習速度降低。

另一個叫做Adadelta的演算法改善了這個學習率不斷衰減的問題。

4. AdaDelta方法

這是一個AdaGrad的延伸方法，它傾向於解決其學習率衰減的問題。Adadelta不是累積所有之前的平方梯度，而是將累積之前梯度的視窗限制到某個固定大小w。

與之前無效地儲存w先前的平方梯度不同，梯度的和被遞迴地定義為所有先前平方梯度的衰減平均值。作為與動量項相似的分數γ，在t時刻的滑動平均值Eg²僅僅取決於先前的平均值和當前梯度值。

Eg²=γ.Eg²+(1−γ).g²(t)，其中γ設定為與動量項相近的值，約為0.9。

Δθ(t)=−η⋅g(t,i).

θ(t+1)=θ(t)+Δθ(t)

圖4：引數更新的最終公式

AdaDelta方法的另一個優點是，已經不需要設定一個預設的學習率。

目前已完成的改進

1) 為每個引數計算出不同學習率；

2) 也計算了動量項momentum；

3) 防止學習率衰減或梯度消失等問題的出現。

還可以做什麼改進？

在之前的方法中計算了每個引數的對應學習率，但是為什麼不計算每個引數的對應動量變化並獨立儲存呢？這就是Adam演算法提出的改良點。

Adam演算法

Adam演算法即自適應時刻估計方法（Adaptive Moment Estimation），能計算每個引數的自適應學習率。這個方法不僅儲存了AdaDelta先前平方梯度的指數衰減平均值，而且保持了先前梯度M(t)的指數衰減平均值，這一點與動量類似：

M(t)為梯度的第一時刻平均值，V(t)為梯度的第二時刻非中心方差值。

圖5：兩個公式分別為梯度的第一個時刻平均值和第二個時刻方差

則引數更新的最終公式為：

圖6：引數更新的最終公式

其中，β1設為0.9，β2設為0.9999，ϵ設為10-8。

在實際應用中，Adam方法效果良好。與其他自適應學習率演算法相比，其收斂速度更快，學習效果更為有效，而且可以糾正其他優化技術中存在的問題，如學習率消失、收斂過慢或是高方差的引數更新導致損失函式波動較大等問題。

對優化演算法進行視覺化

圖8：對鞍點進行SGD優化

從上面的動畫可以看出，自適應演算法能很快收斂，並快速找到引數更新中正確的目標方向；而標準的SGD、NAG和動量項等方法收斂緩慢，且很難找到正確的方向。

結論

我們應該使用哪種優化器？

在構建神經網路模型時，選擇出最佳的優化器，以便快速收斂並正確學習，同時調整內部引數，最大程度地最小化損失函式。

Adam在實際應用中效果良好，超過了其他的自適應技術。

梯度爆炸與梯度消失的原因以及解決方法，區域性極小值問題以及學習率問題（對SGD的改進）

2. 解決方法:

3.區域性極小值與學習率問題：

結論

梯度爆炸與梯度消失的原因以及解決方法，區域性極小值問題以及學習率問題（對SGD的改進）

梯度爆炸與梯度消失

TensorFlow教程——梯度爆炸與梯度裁剪

“允許原始檔與模組生成檔案不同” 解決方法，親測最有效的

安裝Loadrunner遇到的一些問題以及解決方法，license,controller,登錄檔等

微信小程式使用者未授權bug解決方法，微信小程式獲取使用者資訊失敗解決方法

IIS7網站經常報System.OutOfMemoryException解決方法，如何合理設定記憶體使用情況（KB）（M)值

梯度消失、爆炸產生的原因以及解決方法

[深度學習] 梯度消失與梯度爆炸的原因及解決方法

欠擬合、過擬合、梯度爆炸、梯度消失等問題的原因與大概解決方法

機器學習中的梯度消失、爆炸原因及其解決方法(筆記1)

梯度消失、爆炸原因及其解決方法

入門|詳解機器學習中的梯度消失、爆炸原因及其解決方法

梯度爆炸和梯度消失的本質原因

梯度爆炸和梯度消失——引入的誤差越來越多，同時有用資訊減少，同時想到的了relay BP

梯度彌散與梯度彌散

20180117MySQL出現Waiting for table metadata lock的原因以及解決方法

easyUI datagrid 多行多列數據渲染異常緩慢原因以及解決方法

tcp連接時，BROKEN PIPE錯誤的原因以及解決方法

死鎖產生的原因以及解決方法

梯度爆炸與梯度消失的原因以及解決方法，區域性極小值問題以及學習率問題（對SGD的改進）

2. 解決方法:

3.區域性極小值與學習率問題：

結論

相關推薦