【神經網路與深度學習】【計算機視覺】SSD

阿新 • • 發佈：2019-01-12

背景介紹：

基於“Proposal + Classification” 的 Object Detection 的方法，R-CNN 系列（R-CNN、SPPnet、Fast R-CNN 以及 Faster R-CNN），取得了非常好的結果，但是在速度方面離實時效果還比較遠在提高 mAP 的同時兼顧速度，逐漸成為 Object Detection 未來的趨勢。 YOLO 雖然能夠達到實時的效果，但是其 mAP 與剛面提到的 state of art 的結果有很大的差距。 YOLO 有一些缺陷：每個網格只預測一個物體，容易造成漏檢；對於物體的尺度相對比較敏感，對於尺度變化較大的物體泛化能力較差。針對 YOLO 中的這些不足，該論文提出的方法 SSD 在這兩方面都有所改進，同時兼顧了 mAP 和實時性的要求。在滿足實時性的條件下，接近 state of art 的結果。對於輸入影象大小為 300*300 在 VOC2007 test 上能夠達到 58 幀每秒( Titan X 的 GPU )，72.1% 的 mAP。輸入影象大小為 500 *500 , mAP 能夠達到 75.1%。作者的思路就是Faster R-CNN+YOLO，利用YOLO的思路和Faster R-CNN的anchor box的思想。

關鍵點：

關鍵點1：網路結構

該論文采用 VGG16 的基礎網路結構，使用前面的前 5 層，然後利用 astrous 演算法將 fc6 和 fc7 層轉化成兩個卷積層。再格外增加了 3 個卷積層，和一個 average pool層。不同層次的 feature map 分別用於 default box 的偏移以及不同類別得分的預測（慣用思路：使用通用的結構(如前 5個conv 等)作為基礎網路，然後在這個基礎上增加其他的層），最後通過 nms得到最終的檢測結果。

這些增加的卷積層的 feature map 的大小變化比較大，允許能夠檢測出不同尺度下的物體：在低層的feature map,感受野比較小，高層的感受野比較大，在不同的feature map進行卷積，可以達到多尺度的目的。觀察YOLO，後面存在兩個全連線層，全連線層以後，每一個輸出都會觀察到整幅影象，並不是很合理。但是SSD去掉了全連線層，每一個輸出只會感受到目標周圍的資訊，包括上下文。這樣來做就增加了合理性。並且不同的feature map,預測不同寬高比的影象，這樣比YOLO增加了預測更多的比例的box。（下圖橫向的流程）

關鍵點2：多尺度feature map得到 default boxs及其 4個位置偏移和21個類別置信度

對於不同尺度feature map（上圖中 38x38x512，19x19x512, 10x10x512, 5x5x512, 3x3x512, 1x1x256）的上的所有特徵點：以5x5x256為例它的#defalut_boxes = 6

1 按照不同的 scale 和 ratio 生成，k 個 default boxes，這種結構有點類似於 Faster R-CNN 中的 Anchor。(此處k=6所以：5*5*6 = 150 boxes)
2 新增加的每個卷積層的 feature map 都會通過一些小的卷積核操作，得到每一個 default boxes 關於物體類別的21個置信度 (

20個類別和1個背景) 和4偏移 (shape offsets) 。
- 假設feature map 通道數為 p 卷積核大小統一為 3*3*p （此處p=256）。個人猜想作者為了使得卷積後的feature map與輸入尺度保持一致必然有 padding = 1， stride = 1 ： $\frac{ inputFieldSize - kernelSize + 2 \cdot padding }{stride} + 1 = \frac{5 - 3 + 2 \cdot 1}{1} + 1 = 5$
- 假如feature map 的size 為 m*n, 通道數為 p，使用的卷積核大小為 3*3*p。每個 feature map 上的每個特徵點對應 k 個 default boxes，物體的類別數為 c，那麼一個feature map就需要使用 k(c+4)個這樣的卷積濾波器，最後有 (m*n) *k* (c+4)個輸出。

訓練策略

監督學習的訓練關鍵是人工標註的label。對於包含default box(在Faster R-CNN中叫做anchor)的網路模型（如： YOLO,Faster R-CNN, MultiBox）關鍵點就是如何把標註資訊(ground true box,ground true category)對映到（default box上）

正負樣本：給定輸入影象以及每個物體的 ground truth,首先找到每個ground true box對應的default box中IOU最大的作為（與該ground true box相關的匹配）正樣本。然後，在剩下的default box中找到那些與任意一個ground truth box 的 IOU 大於 0.5的default box作為（與該ground true box相關的匹配）正樣本。一個 ground truth 可能對應多個正樣本default box 而不再像MultiBox那樣只取一個IOU最大的default box。其他的作為負樣本（每個default box要麼是正樣本box要麼是負樣本box）。下圖的例子是：給定輸入影象及 ground truth，分別在兩種不同尺度(feature map 的大小為 8*8，4*4)下的匹配情況。有兩個 default box 與貓匹配（8*8），一個 default box 與狗匹配（4*4）。

目標函式，和常見的 Object Detection 的方法目標函式相同，分為兩部分：計算相應的 default box 與目標類別的 score(置信度)以及相應的迴歸結果（位置迴歸）。置信度是採用 Softmax Loss（Faster R-CNN是log loss），位置迴歸則是採用 Smooth L1 loss （與Faster R-CNN一樣採用 offset_PTDF靠近 offset_GTDF的策略：jian'xia'tu）。 $L(x,c,l,g)= \frac{1}{N}(L_{conf}(x,c) + \alpha L_{loc}(x,l,g))$ 其中：N代表正樣本的數目

該論文是在 ImageNet 分類和定位問題上的已經訓練好的 VGG16 模型中 fine-tuning 得到，使用 SGD，初始學習率為 $10^{-3}$ , 衝量為 0.9，權重衰減為 0.0005，batchsize 為 32。不同資料集的學習率改變策略不同。新增加的卷積網路採用 xavier 的方式進行初始化

在預測階段，直接預測每個 default box 的偏移以及對於每個類別相應的得分。最後通過 nms 的方式得到最後檢測結果。

Default Box 的生成：

該論文中利用不同層的 feature map 來模仿學習不同尺度下物體的檢測。

scale: 假定使用 m 個不同層的feature map 來做預測，最底層的 feature map 的 scale 值為 $s_{min} = 0.2$ ，最高層的為 $s_{max} = 0.95$ ，其他層通過下面公式計算得到 $s_k = s_{min} + \frac{s_{max} - s_{min}}{m - 1}(k-1), k \in [1,m]$
ratio: 使用不同的 ratio值 $a_r \in \left\{1, 2, \frac{1}{2}, 3, \frac{1}{3} \right \}$ 計算 default box 的寬度和高度： $w_k^{a} = s_k\sqrt{a_r}$ ， $h_k^{a} = s_k/\sqrt{a_r}$ 。另外對於 ratio = 1 的情況，額外再指定 scale 為 $s_k{'} = \sqrt{s_ks_{k+1}}$ 也就是總共有 6 中不同的 default box。
default box中心：上每個 default box的中心位置設定成 $( \frac{i+0.5}{ \left| f_k \right| },\frac{j+0.5}{\left| f_k \right| } )$ ，其中 $\left| f_k \right|$ 表示第k個特徵圖的大小 $i,j \in [0, \left| f_k \right| )$ 。

Hard Negative Mining：

用於預測的 feature map 上的每個點都對應有 6 個不同的 default box，絕大部分的 default box 都是負樣本，導致了正負樣本不平衡。在訓練過程中，採用了 Hard Negative Mining 的策略（根據confidence loss對所有的box進行排序，使正負例的比例保持在1:3）來平衡正負樣本的比率。這樣做能提高4%左右。

Data augmentation

為了模型更加魯棒，需要使用不同尺寸的輸入和形狀，作者對資料進行了如下方式的隨機取樣：

使用整張圖片
使用IOU和目標物體為0.1, 0.3，0.5, 0.7, 0.9的patch （這些 patch 在原圖的大小的 [0.1,1] 之間，相應的寬高比在[1/2,2]之間）
隨機採取一個patch

當 ground truth box 的中心（center）在取樣的 patch 中時，我們保留重疊部分。在這些取樣步驟之後，每一個取樣的 patch 被 resize 到固定的大小，並且以 0.5 的概率隨機的水平翻轉（horizontally flipped）。用資料增益通過實驗證明，能夠將資料mAP增加8.8%。

【神經網路與深度學習】【計算機視覺】SSD

背景介紹：

關鍵點：

訓練策略

Default Box 的生成：

Hard Negative Mining：

Data augmentation

參考：

【神經網路與深度學習】neural-style、chainer-fast-neuralstyle影象風格轉換使用

【計算機視覺】【神經網路與深度學習】YOLO v2 detection訓練自己的資料

【神經網路與深度學習】【計算機視覺】SSD

【神經網路與深度學習】Google Protocol Buffer介紹

【神經網路與深度學習】【C/C++】ZLIB學習

【神經網路與深度學習】Win10+VS2015 caffe環境搭建（極其詳細）

【神經網路與深度學習】Caffe原始碼中各種依賴庫的作用及簡單使用

【神經網路與深度學習】【C/C++】使用blas做矩陣乘法

【神經網路與深度學習】【計算機視覺】Fast R-CNN

深度學習介紹（下）【Coursera deeplearning.ai 神經網路與深度學習】

【神經網路和深度學習】筆記

【神經網路和深度學習-開發案例】第四章神經網路如何對數字進行分類

神經網路與深度學習課程筆記（第三、四周）

神經網路與深度學習課程筆記（第一、二週）

分享《神經網路與深度學習（美）Michael Nielsen 著》中文版PDF+英文版PDF+原始碼

deeplearning.ai神經網路與深度學習第一章notes

《神經網路與深度學習(美)MichaelNielsen著》中英文版PDF+原始碼+吳岸城版PDF

吳恩達《神經網路與深度學習》課程筆記歸納（二）-- 神經網路基礎之邏輯迴歸

吳恩達《神經網路與深度學習》課程筆記歸納（三）-- 神經網路基礎之Python與向量化

Coursera 吳恩達《神經網路與深度學習》第三週程式設計作業

【神經網路與深度學習】【計算機視覺】SSD

背景介紹：

關鍵點：

訓練策略

Default Box 的生成：

Hard Negative Mining：

Data augmentation

參考：

相關推薦