文章目錄

指數加權平均
SGD
Momentum
AdaGrad
RMSProp
Adam
梯度更新演算法的選擇
Learning rate decay
區域性最優 local optima

指數加權平均

本處參考：吳恩達的深度學習課程
梯度更新的演算法理解都要用到指數加權平均，所以這裡我們首先介紹下指數加權平均。關於每種更新演算法的詳解後續再做更新，先把框架搭好~
加權平均的公式
$v$

t = β ∗ v t − 1

+ ( 1 − β ) ∗ θ t

v_t = \beta * v_{t-1} + (1-\beta)*{\theta_t}

v_{t} = β * v_{t - 1} + (1 - β) * θ_{t}

我們稱

v_t

為滑動平均值，我們以每日溫度為例，今日的滑動平均值等於昨天的滑動平均值的

\beta

倍加上近日氣溫的

(1-\beta)

倍
首先考慮

\beta

= 0.98，那麼滑動平均值相當於當天的氣溫佔比為0.02，

\frac{1}{0.02} = 50

相當於50天的平均。
上述計算方式是因為權值如果小於

\frac{1}{e}

可以忽略不計，因而我們只需要證明

\beta^{\frac{1}{1-\beta}} = \frac{1}{e}

令

\frac{1}{1-\beta} = N

\beta = {1-\frac{1}{N}}

只需證明

{(1-\frac{1}{N})^{N}} = \frac{1}{e}

利用在n趨於無窮時，

(1 + \frac{1}{n})^{n}等於e

下圖紅線表示的是 $\beta = 0.9$ 也就是平均10天，而綠線表示 $\beta = 0.98$ 相當於平均50天。
綠色的曲線要平坦一些，原因在於多平均了幾天的溫度，所以這個曲線，波動更小，更加平坦。缺點是曲線進一步右移，因為現在平均的溫度值更多，要平均更多的值，指數加權平均公式在溫度變化時，適應地更緩慢一些，所以會出現一定延遲。相當於給前一天的值加了太多權重，只有0.02的權重給了當日的值，所以溫度變化時，溫度上下起伏，當 $\beta$ 較大時，指數加權平均值適應地更緩慢一些。
Alt
我們考慮第100天的滑動平均值
$v_{100} = 0.1*\theta_{100} + 0.9*( 0.1*\theta_{99}+0.9*v_{98} )$
最後可以推匯出 $v_{100} = 0.1*\theta_{100} + 0.1*0.9*\theta_{99} + 0.1*0.9*0.9*\theta_{98} + ...$
然後我們構建一個指數衰減函式，從 $0.1$ 開始，到 $0.1*0.9$ ，到 $0.1*0.9*0.9$ ，以此類推。假設 $\beta = 0.9$ ， ${0.9}^{10}$ 約為0.35，約等於 $\frac{1}{e}$ ，也就是說約10天后，衰減到初始權值的 $\frac{1}{3}$ ，如果 $\beta$ = 0.98，則需要約50天也就是 ${0.98}^{50}$ 到大概 $\frac{1}{e}$
另外，考慮到初始 $v_{0}$ = 0，所以初始的滑動平均值會有很大的誤差，因而會考慮使用 $\frac{v_t}{1-\beta_t}$ 來代替 $v_t$ ，這種方法稱為指數加權平均偏差修正。
指數加權平均的主要好處是：佔用記憶體少，只佔用一行程式碼，當然它並不是最精準的計算平均數的方法。

SGD

上文我們構建模型採用的梯度更新演算法是SGD
$W =W-\eta{\frac{\partial(L)}{\partial(W)}}$

深度學習入門（四）梯度更新演算法的選擇(附執行程式碼)

文章目錄

指數加權平均

SGD

深度學習入門（四）梯度更新演算法的選擇(附執行程式碼)

深度學習筆記（四）——神經網路和深度學習（淺層神經網路）

機器學習入門（四）迴歸演算法

深度學習入門（二）——TensorFlow介紹

windows深度學習入門（1）在windows10上安裝TensorFlow

深度學習入門（上）-第一章必備基礎知識點

神經網路與深度學習筆記（四）

深度學習介紹（四）卷積操作

深度學習入門（三）構建簡單的兩層神經網路

深度學習入門（一）感知機與啟用函式

深度學習筆記（四）VGG14

深度學習入門（三）

深度學習入門（下）-例項，技巧，框架

機器學習入門（四）之----線性迴歸（正規方程）

深度學習總結（一）各種優化演算法

深度學習筆記（三）--目標檢測演算法綜述

[TensorFlow深度學習入門]實戰四·邏輯迴歸鳶尾花進行分類（對比均方根誤差與softmax交叉熵誤差區別）

DeepLearning.ai學習筆記（四）卷積神經網絡 -- week2深度卷積神經網絡實例探究

JavaSE學習總結（四）——Java面向對象十分鐘入門

python程式設計：從入門到實踐學習筆記-Django入門（四）

深度學習入門（四）梯度更新演算法的選擇(附執行程式碼)

文章目錄

指數加權平均

SGD

相關推薦