論文筆記（1）DenseBox: Unifying Landmark Localization with End to End Object Detection

阿新 • • 發佈：2019-02-02

本文的貢獻有一下幾點：
1，實現了end-to-end的學習，同時完成了對bounding box和物體類別的預測；
2，在多工學習中融入定位資訊，提高了檢測的準確率。

我們先來看看他和其他幾篇代表性文章之間的不同。
在OverFeat[1]中提出了將分類和定位問題一起解決的思想，但這兩個任務在訓練階段是分開進行的，並且需要複雜的後續處理來得到檢測結果，而在本文中多工的學習是end-to-end;
DDFD[2]是一個基於CNN的人臉檢測系統，它比R-CNN的效能更好的原因在於R-CNN在proposal的產生過程中會遺失一些臉部資訊。但DDFD的類別預測和bounding box定位也是分為兩個階段進行的；
Faster R-CNN[3]通過RPN完成proposal的生成，RPN需要預先定義好的anchors，而且RPN是在多尺度物體上進行訓練的。
MultiBox[4]運用CNN來生成proposal而不是selective search，它生成的bounding box不具有不變性，而本文生成的bounding box和RPN一樣，具有轉換不變性；
YOLO[5]和DenseBox一樣也可完成end-to-end的學習，但兩者的輸出層設計不一樣。YOLO針對每個影象輸出49個bounding box,DenseBox則通過上取樣層來保證解析度相對較高的輸出，同時運用了下采樣。。這使得我們的網路在處理小物體和高度重合的物體上有很大的優勢。

這是本文檢測系統的示意圖
從上圖可以看到，只需要單獨的卷積網路就可以同時輸出多個預測到的bounding box和分類結果，除了nms之外，檢測系統的所有組成部分都構建在FCN之中。

在影象預處理階段，在保證人臉和足夠的背景資訊下對圖片進行了剪下。
ground truth map 的生成過程

在訓練過程中，將原始圖片剪下到240*240大小，保證處於中心的臉部高度為50p，輸出的ground truth是一個5通道的大小為60*60的特徵圖。

上圖是本文的網路結構圖。紅色部分表示存在學習引數。前12個conv層的網路引數由VGG19模型引數直接初始化，conv4_4的輸出作為後續四個1*1卷積層的輸入，前兩個輸出的是通道1的特徵圖，用於分類預測，後兩個利用通道4的特徵圖來預測bounding box的相對位置。這種有兩個輸出分支的結構和Fast R-CNN很相似，在第一個輸出埠定義分類損失函式，在第二個定義bounding-box迴歸損失函式，這樣就可定義完整的損失函式。

文中還談及了取樣均衡問題，並對輸出畫素進行二進位制標記來決定其是否被選來用於訓練。
首先是直接忽略正負區域的邊界，並將其loss weight設為0，其次是傾向選擇預測發生嚴重錯誤的樣本，這一過程通過negative mining實現，基於這些樣本的梯度學習使得學習更加的魯棒。
參考文獻：
[1] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y.LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. arXiv preprint arXiv:1312.6229, 2013.
[2] S. S. Farfade, M. Saberian, and L.-J. Li. Multi-view face detection using deep convolutional neural networks. arXiv preprint arXiv:1502.02766, 2015.
[3] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497, 2015.
[4] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on,pages 2155–2162. IEEE, 2014.
[5] J. Redmon, S. K. Divvala, R. B. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. arXiv preprint, abs/1506.02640, 2015.

論文筆記（1）DenseBox: Unifying Landmark Localization with End to End Object Detection

論文筆記（1）DenseBox: Unifying Landmark Localization with End to End Object Detection

推薦系統論文筆記（1）:Hybrid Recommender Systems:Survey and Experiments

論文筆記（1）--（YOLOv2）YOLO9000：Better，Faster，Stronger

Angular 4 - The Basics 筆記（1）: Install

JAVA學習筆記（1）——a++與++a的區別

vray學習筆記（1）

Python學習手冊筆記（1）：Python對象類型

《深入理解C指針》學習筆記（1）--- 指針之外

CS231n 學習筆記（1） Image CLassification

數據結構與算法（刺猬書）讀書筆記（1）----數組

bootstrap 學習筆記（1）---介紹bootstrap和柵格系統

《挑戰程序設計競賽》學習筆記（1）

AngularJs學習筆記（1）——ng-app

Nordic nRF52832 學習筆記（1）介紹，入門，與準備工作

javascript 高級程序設計學習筆記（1）

Python3入門筆記（1） —— windows安裝與運行

Postgresql 學習筆記（1）

android BSP與硬件相關子系統讀書筆記（1）android BSP移植綜述

node指南開發練習筆記（1）-- express

Hibernate學習筆記（1）---hibernate快速上手與準備工作

論文筆記（1）DenseBox: Unifying Landmark Localization with End to End Object Detection

相關推薦