1. 程式人生 > >[深度學習]Object detection物體檢測之DSSD(10)

[深度學習]Object detection物體檢測之DSSD(10)

目錄

主要改進

提出的動機

Deconvolutional SSD

Prediction module

Deconvolution Module

使用K-means 方法 setting prior box aspect ratio

Result


論文全稱:《DSSD : Deconvolutional Single Shot Detector》

論文地址:https://arxiv.org/pdf/1701.06659.pdf

主要改進

DSSD相比於SSD主要有兩方面的改進:

 

  • 1.使用了Residual-101代替了VGG,減少引數的同時加深模型的深度,可以提高檢測的正確率。
  • 2.在SSD特徵層的末尾新增deconvolution layers,整合上下文的資訊,提升低層的語義資訊,提高對小物體的檢測正確率。
  • 3.使用K-means 方法 setting prior box aspect ratio

提出的動機

大多數的目標檢測方法,包括SPPnet,Fast R-CNN,Faster R-CNN , RFCN和YOLO,使用ConvNet的最頂層來學習在不同尺度下檢測物件。雖然功能強大,但它利用單個層建模為所有可能的物件比例和形狀帶來了很大的負擔。

有很多方法提出了利用ConvNet網路中的多層來提高檢測效果,這要有兩種方法

  1. 第一組方法結合了ConvNet中不同層的feature map,並使用組合feature map進行預測
    。例如ION,HyperNet。然而,組合特徵對映不僅顯著增加了模型的記憶體佔用,而且降低了模型的速度
  2. 另一組方法使用ConvNet中的不同層用於預測不同尺度的物體。例如SSD,MS-CNN。然而,為了更好地檢測小物件,這些方法需要利用小接受域和密集特徵對映的淺層資訊,這可能會導致小物件效能低下,因為淺層對物件的語義資訊較少

通過使用deconvolution layersskip connections,可以在密集(deconvolution)特徵對映中注入更多的語義資訊,從而幫助預測小物件。該方法不僅解決了卷積神經網路中特徵圖解析度下降的問題,而且為預測提供了上下文資訊。

Deconvolutional SSD

從下圖可以看出,Deconvolutional SSD是一個非對稱的網路結構,之所以沒有使用很深的對稱結構的原因有兩個:

  1. 首先,檢測是視覺中的基本任務,因此,速度是一個重要的因素。構建對稱網路意味著推理時間將增加一倍。這不是我們在這個快速檢測框架中想要的。
  2. 其次,目前還沒有針對ILSVRC CLS-LOC dataset的分類任務訓練的decoder預訓練模型,因為分類提供的是單個完整的影象標籤,而不是檢測中的區域性標籤。由於我們的decoder解碼器沒有預先訓練好的模型,不能利用解碼層的transfer learning轉移學習,因此解碼層必須從隨機初始化開始訓練。deconvolution layers的一個重要方面是計算成本,特別是在除deconvolution layers過程之外還從前一層新增資訊時。

 

 

Prediction module

MS-CNN指出,改進每個任務的子網路可以提高準確率。按照這個原則,作者為每個預測層新增一殘差塊。這一部分跟SSD合在一起預測非常不同。對於不同的解析度的檢測區別開來。

Deconvolution Module

Deconvolution Module的靈感來自Pinheiro等人,他們提出,用於細化網路的Deconvolution Module的分解版本與更復雜的Deconvolution Module具有相同的準確度,而且分解版本的網路將更加高效。

作者對Pinheiro等提出的方法進行以下修改:

  1. 首先,在每個卷積層之後新增一個batch normalization layer批規格化層。
  2. 其次,使用經過訓練的 deconvolution layer而不是bilinear upsampling雙線性上取樣。
  3. 最後,測試了不同的組合方法:element-wise sum元素相加和element-wise product元素乘積。實驗結果表明,element-wise product元素乘積的精度最高。

 

 

使用K-means 方法 setting prior box aspect ratio

在原始的SSD模型中,長寬比為2和3的boxes從實驗中被證明是有用的。為了瞭解訓練資料(PASCAL VOC 2007和2012 trainval)中boxes的長寬比,以方框面積平方根為特徵,對訓練盒進行K-means聚類。因為SSD框架將輸入的大小調整為正方形,並且大多數訓練影象更寬,所以大多數邊界框更高也就不足為奇了。根據這張表,我們可以看到大多數的方框比率都在1-3之間。因此,作者決定在每個預測層增加一個縱橫比1.6,和使用(1.6,2.0,3.0)。

Result

下面這張圖可以看車prediction module ,deconvolutional module 對結果的改進。

論文還提供了PASCAL VOC and COCO不同資料集的結果,這裡不再細說。