深度學習優化算法總結

阿新 • • 發佈：2018-12-17

算法 nbsp 3.0 部分 div 深度學習速度組成輸出

大致總結一下學到的各個優化算法。

一、梯度下降法

函數的梯度表示了函數值增長速度最快的方向，那麽與其相反的方向，就可看作函數減少速度最快的方向。

在深度學習中，當目標設定為求解目標函數的最小值時，只要朝梯度下降的方向前進，就可以不斷逼近最優值。

梯度下降主要組成部分：

1、待優化函數f(x)

2、待優化函數的導數g(x)

3、變量x，用於保存優化過程中的參數值

4、變量x點處的梯度值：grad

5、變量step，沿梯度下降方向前進的步長，即學習率

假設優化目標函數為：f(x) = (x-1)^2，那麽導數為f‘(x) = g(x) = 2x - 2。我們可以直接看出最優值在x = 1處取得。

import numpy as np
import matplotlib.pyplot as plt


def f(x):
    return (x-1)**2


def g(x):
    return 2 * x -2


def gd(x_start, step, g):
    x_list = []
    y_list = []
    x = x_start
    for i in range(20):
        grad = g(x)
        x = x - step*grad
        x_list.append(x)
        y_list.append(f(x))
        print(‘x = {:}. grad = {:}, y = {:}‘.format(x, grad, f(x)))

        if grad < 1e-6:
            break;
    return x_list,y_list


x = np.linspace(-8,10,200)
y = f(x)
//初始點為 x = 10, step = 0.1
x_gd, y_gd = gd(10, 0.1, g)

plt.plot(x, y)
plt.plot(x_gd, y_gd, ‘r.‘)
plt.savefig(‘gradient_descent.png‘)
plt.show()

輸出結果：

x = 8.2. grad = 18, y = 51.83999999999999
x = 6.76. grad = 14.399999999999999, y = 33.1776
x = 5.608. grad = 11.52, y = 21.233663999999997
x = 4.6864. grad = 9.216, y = 13.58954496
x = 3.9491199999999997. grad = 7.3728, y = 8.697308774399998
x = 3.3592959999999996. grad = 5.8982399999999995, y = 5.5662776156159985
x = 2.8874367999999997. grad = 4.718591999999999, y = 3.562417673994239
x = 2.5099494399999998. grad = 3.7748735999999994, y = 2.2799473113563127
x = 2.2079595519999997. grad = 3.0198988799999995, y = 1.45916627926804
x = 1.9663676415999998. grad = 2.4159191039999994, y = 0.9338664187315456
x = 1.7730941132799998. grad = 1.9327352831999995, y = 0.5976745079881891
x = 1.6184752906239999. grad = 1.5461882265599995, y = 0.3825116851124411
x = 1.4947802324992. grad = 1.2369505812479997, y = 0.2448074784719623
x = 1.3958241859993599. grad = 0.9895604649983998, y = 0.15667678622205583
x = 1.316659348799488. grad = 0.7916483719987197, y = 0.10027314318211579
x = 1.2533274790395903. grad = 0.633318697598976, y = 0.06417481163655406
x = 1.2026619832316723. grad = 0.5066549580791806, y = 0.04107187944739462
x = 1.1621295865853378. grad = 0.40532396646334456, y = 0.026286002846332555
x = 1.1297036692682703. grad = 0.32425917317067565, y = 0.016823041821652836
x = 1.1037629354146161. grad = 0.2594073385365405, y = 0.010766746765857796

技術分享圖片

二、Momentum動量算法

深度學習優化算法總結

算法 nbsp 3.0 部分 div 深度學習速度組成輸出大致總結一下學到的各個優化算法。一、梯度下降法函數的梯度表示了函數值增長速度最快的方向，那麽與其相反的方向，就可看作函數減少速度最快的方向。在深度學習中，當目標設定為求解目標函數的最小值時，只要朝梯度

深度學習優化算法Momentum RMSprop Adam

blog beta rop isp prop moment mom down pro 一、Momentum 1. 計算dw、db. 2. 定義v_db、v_dw \[ v_{dw}=\beta v_{dw}+(1-\beta)dw \] \[ v_{db}=\beta v_

深度學習優化器Optimizer總結-tensorflow-1原理篇

單純以演算法為論，深度學習從業者的演算法能力可能並不需要太大，因為很多時候，只需要構建合理的框架，直接使用框架是不需要太理解其中的演算法的。但是我們還是需要知道其中的很多原理，以便增加自身的知識強度，而優化器可能正是深度學習的演算法核心官方文件所給的

深度學習的優化算法

次數 style -s 響應 color 優化通過 pan 最優解最優化理論裏面 0階優化算法 1階優化算法 2階優化算法具體定義和缺陷如下：針對深度學習以一階的優化算法為主為主線 0階優化算法：該算法僅僅需要因變量的數值，而不需要導數信息。因變量通過最小二乘法的擬合

學習KNN算法體會和總結

整數推斷代碼 span k-d樹基本方式必須發現 k-d樹（k-dimensional樹的簡稱），是一種切割k維數據空間的數據結構。主要應用於多維空間重要數據的搜索（如：範圍搜索和近期鄰搜索）。索引結構中相似性查詢有兩種主要的方

集成學習算法總結----Boosting和Bagging（轉）

原理過程訓練嚴重 oos 機器學習 ppr 次數 error 1、集成學習概述 1.1 集成學習概述集成學習在機器學習算法中具有較高的準去率，不足之處就是模型的訓練過程可能比較復雜，效率不是很高。目前接觸較多的集成學習主要有2種：基於Boosting的和基於Bagg

深度解讀最流行的優化算法：梯度下降

example 分別是課程拓展高斯分布正則當前時間 lam 選擇深度解讀最流行的優化算法：梯度下降 By 機器之心2016年11月21日 15:08 梯度下降法，是當今最流行的優化（optimization）算法，亦是至今最常用的優化神經網絡的方法。本文旨在

集成學習算法總結----Boosting和Bagging

註意並且概念算法概述 boost 實現 sdn 函數獲得 1、集成學習概述 1.1 集成學習概述集成學習在機器學習算法中具有較高的準去率，不足之處就是模型的訓練過程可能比較復雜，效率不是很高。目前接觸較多的集成學習主要有2種：基於Boosting的和基於Baggi

機器學習的9個基礎概念和10種基本算法總結

分割比例 ssi 進一步 erro 所有方程相互區間 https://blog.csdn.net/libaqiangdeliba/article/details/41901387 1.基礎概念：　　(1) 10折交叉驗證：英文名是10-fold cross-v

機器學習中常見的優化算法

泰勒展開應該 inf 擬牛頓法 roman 影響牛頓法目前減少　　在機器學習中，有很多的問題並沒有解析形式的解，或者有解析形式的解但是計算量很大（譬如，超定問題的最小二乘解），對於此類問題，通常我們會選擇采用一種叠代的優化方式進行求解。 ??這些常用的優化算

深度學習優化器總結

深度學習（一般指深度神經網路DNN）有幾個關鍵的要素：訓練集，網路結構，損失函式（目標函式），優化方法。這裡記錄一下優化方法相關知識點吧。 1. why using optimizer? 訓練DNN時，我們的目標是更新網路引數以使得損失函式最小化，optimizer就是更新引數的方法。不同的

深度圖像檢測算法總結與對比（1）

超過技術由於 ear step ron for width 一次 1. R-CNN：Rich feature hierarchies for accurate object detection and semantic segmentation 技術路線：se

# 機器學習算法總結-第二天

簡單算法思路感知機之間正態分布 gen 估計概率分布常見樸素貝葉斯全概率公式：例子參考這裏：https://www.cnblogs.com/panlangen/p/7801054.html 優缺點優點： (1）算法邏輯簡單,易於實現（算法思路很簡單

# 機器學習算法總結-第三天(支持向量機)

com tex 圖片算法 http 機器學習技術分享 ima jpg SKlearn 調參 # 機器學習算法總結-第三天(支持向量機)

深度學習優化演算法總結

　　深度學習優化演算法最耳熟能詳的就是GD（Gradient Descend）梯度下降，然後又有一個所謂的SGD（Stochastic Gradient Descend）隨機梯度下降，其實還是梯度下降，只不過每次更新梯度不用整個訓練集而是訓練集中的隨機樣本。梯度下降的好處就是用到了當前迭代的一些性質，以至於總