深度學習——深卷積網絡：實例探究

阿新 • • 發佈：2018-04-30

技術分享模塊變化技術減少開始出了經典問題：

1. 三個經典網絡

紅色部分不重要，現在已經不再使用

這篇文章較早，比如現在常用max，而當時用avg，當時也沒有softmax

技術分享圖片

這篇文章讓CV開始重視DL的使用，相對於LeNet-5，它的優點有兩個：更大，使用ReLU

以作者名字命名

same表示使用same過濾器，也就是輸入和輸出維度一致

技術分享圖片

16表示總共有16個CONV和FC，這篇文章指出了信道數和維度變化的規律性（隨網絡增加/減少），缺點是參數實在太多了

技術分享圖片

閱讀論文順序：2-3-1

2. 殘差網絡

殘差網絡由殘差塊組成，它使得網絡可以變得更深

a[l]到a[l+2]的藍色是網絡的主路徑，而紫色部分稱為短路/跳躍連接，直接把a[l]的信息傳遞到下下一層，計算a[l+2]時會加上a[l]（殘差），它插入的位置是線性計算後，激活前

技術分享圖片

plain network是一般的網絡

在plain network中隨著深度增加，優化算法更難執行，所以可能會出現錯誤率先降後升的情況

網絡越深越難訓練：梯度消失/爆炸的問題

技術分享圖片

3. 為什麽Residual網絡有用

假設對一個大型網絡再增加兩層（構成殘差塊）

計算a[l+2]時，如果w為0，b也為0，且使用ReLu函數，那麽我們可以得到a[l+2] = a[l]，這說明殘差網絡可以很容易學習恒等函數

因此，增加網絡深度不會損害性能，而plain網絡當深度增加時可能連恒等函數都不容易學習？？

如果z[l+2]和a[l]維度一致就正好，如果不一樣的話，那麽可以在a[l]前乘以一個矩陣，不需要對矩陣進行處理？？

技術分享圖片

殘差網絡的結構圖

技術分享圖片

4. 1x1卷積

1x1卷積做事情是：（以下面32信道為例）

對輸入的32個元素（32個信道）作一個全連接，然後執行ReLU函數，得到一個實數，作為相應位置上的結果。如果有多個過濾器，則進行疊加

這個也稱為網絡中的網絡

為什麽可以用1x1來壓縮？這樣如果采用一樣的過濾器，結果是不一樣的吧？？？？

技術分享圖片

1x1卷積的作用

通過增加一個非線性函數使得信道數減少或保持不變（壓縮信道的方法），以減少計算量

使用32個1x1x192的過濾器

技術分享圖片

5. google Inception網絡

Inception可以幫你決定應該采用什麽樣的過濾器，是否需要pool層等

它的做法是把各種過濾器的結果堆疊在一起

下例中的維度是自己定義的，這樣最後輸出的結果中會有256個信道

下圖是一樣Inception的一個基礎塊

技術分享圖片

Inception的一個最大問題：計算量很大

以上例中5x5過濾器為例，就需要計算120M次乘法

技術分享圖片

解決方法：加一個1x1過濾器，也稱為bottleneck層（瓶頸層，是網絡中是小的層）

下例中計算量就會降成12.4M

技術分享圖片

6. 一個更完整些的Inception模塊

技術分享圖片

論文中的網絡結構

其實就是把上面的模塊重復連接，另外，網絡後面幾層會有一些分支（綠色劃圈部分），它們也是和最後的輸出一樣進行輸出，也就是說隱藏層也參與了最後y hat的輸出，這樣可以避免過擬合的問題

小故事：Inception原名是googlenet，是為了向LeNet致敬，而後引用了Inception（盜夢空間），意在建議更深的網絡

技術分享圖片

6. 遷移學習

在CV中經常會用到遷移學習。一般推薦使用開源的網絡來做，而非從0開始。根據擁有的數據量不同，有不同的處理方式，從上到下數據量遞增

例：要訓練一個識別貓的網絡（3個轉出）

當數據量很小的時候，可以把最後一層softmax替換掉，而把前面所有的層不變（一般有參數如trainable, freeze可以用於設置參數不變），只訓練最後一層

另外，可以把最後的隱藏層的結果保存下來，然後直接將輸入映射。這樣就不用經過中間層的計算

當數據量大一些的時候，可以多訓練幾層，也就是把前幾層freeze，而後面幾層進行訓練

當數據量很大時，可以對整個網絡進行訓練，原來訓練好的結果作為初始化值，這樣就不用用隨機初始化

技術分享圖片

7. 數據擴充(augmentation)

對於CV應用，一般來說數據越多，網絡性能越好。對於其它應用可能不一定，但是對計算機視覺，數據量是一個重要的因素。數據擴充就是對原有數據進行處理以獲得更多的數據

常用的方法：mirror/random crop 其它幾個可能比較復雜就比較少用

技術分享圖片

第二種方法：改變顏色。有一種方法是PCA（主成分分析），根據原有的顏色比例進行調整，使得修改後的顏色和原來一致

技術分享圖片

data augmentation（增強）的實現

一般是用一個線程從硬盤加載數據進行修改，再把這些數據傳給其它的線程進行訓練。這樣數據處理與網絡訓練可以實現並行

超參數：顏色要改變多少，裁剪什麽位置等

技術分享圖片

8. 計算機視覺現狀

技術分享圖片

用於競賽的tips，一般不推薦用於真實應用上

技術分享圖片

深度學習——深卷積網絡：實例探究

技術分享模塊變化技術減少開始出了經典問題： 1. 三個經典網絡紅色部分不重要，現在已經不再使用這篇文章較早，比如現在常用max，而當時用avg，當時也沒有softmax 這篇文章讓CV開始重視DL的使用，相對於LeNet-5，它的優點有兩個：更大，使用

吳恩達《深度學習》第四門課（2）卷積神經網絡：實例探究

之一所有展示數據擴充簡介設置假設通道開源 2.1為什麽要進行實例探究（1）就跟學編程一樣，先看看別人怎麽寫的，可以模仿。（2）在計算機視覺中一個有用的模型，，用在另一個業務中也一般有效，所以可以借鑒。（3）本周會介紹的一些卷積方面的經典網絡經典的包括：

基於圖卷積網絡的圖深度學習

理論 cdn image 深度大名 end 但我 github 圖像識別基於圖卷積網絡的圖深度學習先簡單回顧一下，深度學習到底幹成功了哪些事情！深度學習近些年在語音識別，圖片識別，自然語音處理等領域可謂是屢建奇功。ImageNet：是一個計算機視

深度視覺經典重讀之一：卷積網絡的蠻荒時代

complete red which Y軸 shift initial 變化 minor 數量最近在找下一篇文章的研究方向，於是重新拿起了入學前看過的一些經典老文，沒想到其中蘊含的信息量這麽大，原來當初naive的我根本沒有領悟其中的精髓。相對於一些瑣碎的技術細節，我更

【Python圖像特征的音樂序列生成】深度卷積網絡，以及網絡核心

img 對比 images 兩個避免 pytho lam 其中 src 這個項目主要涉及到兩個網絡，其中卷積神經網絡用來提取圖片表達的情緒，提取出一個二維向量。網絡結構如圖：詞向量采用預訓練的glove模型，d=50，其他信息包括了圖片的“空曠程度”、亮度、

R-FCN：基於區域的全卷積網絡來檢測物體

速度慢 obj ogl ott 不用插入編碼邊框 sco http://blog.csdn.net/shadow_guo/article/details/51767036 原文標題為“R-FCN: Object Detection via Region-based F

Dual Path Networks（DPN）——一種結合了ResNet和DenseNet優勢的新型卷積網絡結構。深度殘差網絡通過殘差旁支通路再利用特征，但殘差通道不善於探索新特征。密集連接網絡通過密集連接通路探索新特征，但有高冗余度。

哪裏 esc 數學 itemid tip 視覺 bat tlist badge 如何評價Dual Path Networks（DPN）？論文鏈接：https://arxiv.org/pdf/1707.01629v1.pdf在ImagNet-1k數據集上，淺DPN超過

使用Caffe完成圖像目標檢測和 caffe 全卷積網絡

-h alt avi 5.0 type multi 序號 forward lin 一、【用Python學習Caffe】2. 使用Caffe完成圖像目標檢測標簽： pythoncaffe深度學習目標檢測ssd 2017-06-22 22:08 207人閱讀評論(0)

python 實現簡單卷積網絡框架

pen filters rst _array cit shape turn war input 第一步定義卷積核類： class Filter(object): # 濾波器類對卷積核進行初始化 def __init__(self,width,he

卷積網絡輸出尺寸計算

卷積步長圖片網絡 lock 素數是我大小我們先定義幾個參數輸入圖片大小 W×W Filter大小 F×F 步長 S padding的像素數 P 於是我們可以得出 N = (W ? F + 2P )/S+1 卷積網絡輸出尺寸計算

用keras作CNN卷積網絡書本分類（書本、非書本）

div 問題：標簽 turn 生成 ring module 數據質量讀取本文介紹如何使用keras作圖片分類（2分類與多分類，其實就一個參數的區別。。。呵呵）先來看看解決的問題：從一堆圖片中分出是不是書本，也就是最終給圖片標簽上：“書本“

cs231n---卷積網絡可視化

包含著感受向量相同可視化 pos 發現方法縮放本課介紹了近年來人們對理解卷積網絡這個“黑盒子”所做的一些可視化工作，以及deepdream和風格遷移。 1 卷積網絡可視化（1）可視化第一層的濾波器我們把卷積網絡的第一層濾波器權重進行可視化（權重值縮放

(深度學習)比較新的網絡模型

AS 深度 dual wide 新的 path ide csdn class (深度學習)比較新的網絡模型： Inception-v3 ， ResNet， ResNeXt Inception-v4， Dual-Path-Net ， Dense-net ， SEnet ， W

深度學習-conv卷積

mage www. dep vol 才有 splay 變換還要 filter 過濾器(卷積核) 傳統的圖像過濾器算子有以下幾種: blur kernel：減少相鄰像素的差異，使圖像變平滑。 sobel：顯示相鄰元素在特定方向上的差異。 sharpen ：強化相鄰像素的差

TensorFlow 中的卷積網絡

extra .so div 使用 connect rop del glob ges TensorFlow 中的卷積網絡是時候看一下 TensorFlow 中的卷積神經網絡的例子了。網絡的結構跟經典的 CNNs 結構一樣，是卷積層，最大池化層和全鏈接層的混合。這裏你看到

mnist卷積網絡實現

reduce ges drop 模型 log 節點通道數不定 amp 加載MNIST數據 from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_data

深度學習之卷積自編碼器

一、自編碼器自編碼器（Autoencoder）是一種旨在將它們的輸入複製到的輸出的神經網路。他們通過將輸入壓縮成一種隱藏空間表示（latent-space representation），然後這種重構這種表示的輸出進行工作。這種網路由兩部分組成，如下圖：編碼器：將輸入壓縮為潛在空間

深度學習筆記——卷積神經網路

程式碼參考了零基礎入門深度學習(4) - 卷積神經網路這篇文章，我只對程式碼裡可能存在的一些小錯誤進行了更改。至於卷積神經網路的原理以及程式碼裡不清楚的地方可以結合該文章理解，十分淺顯易懂。 import numpy as np from functools import reduce fro

深度學習基礎--卷積神經網路的不變性

卷積神經網路的不變性不變性的實現主要靠兩點：大量資料（各種資料）；網路結構（pooling）不變性的型別 1）平移不變性卷積神經網路最初引入區域性連線和空間共享，就是為了滿足平移不變性。關於CNN中的平移不變性的來源有多種假設。一個想法是平移不變性

深度學習基礎--卷積--為什麼卷積核時4維的

為什麼卷積核時4維的因為本來就是4維的，input_channelkernel_sizekernel_size*output_channel 正常來說，引數的個數不是隻和卷積核大小及數量有關嗎，256個1通道的55的卷積核引數應該是256155吧，和輸入的特徵圖數量應該沒有

深度學習——深卷積網絡：實例探究

相關推薦