1. 程式人生 > >[深度學習]Object detection物體檢測之FPN(11)

[深度學習]Object detection物體檢測之FPN(11)

論文全稱:《Feature Pyramid Networks for Object Detection》

論文地址:http://openaccess.thecvf.com/content_cvpr_2017/papers/Lin_Feature_Pyramid_Networks_CVPR_2017_paper.pdf

背景

在計算機視覺中,識別不同尺度的物體是一個基本的挑戰。

  • 下圖中a是使用影象金字塔來構建特徵金字塔。這些金字塔是規模不變的,因為一個物體的規模變化被金字塔中水平的改變所抵消。它的特徵是在每個影象尺度上獨立計算的。特點是非常慢,預測時間大大增加,這使得這種方法在實際應用中不切實際。而在記憶體方面也不允許這麼做。
  • 下圖中b,最近的檢測系統已經選擇使用單一尺度特徵來更快的檢測。除了能夠表示更高級別的語義外,ConvNets還能夠更健壯地處理尺度上的差異,從而便於從單個輸入尺度上計算的特徵進行識別。但是即使有了這種魯棒性,金字塔仍然需要得到最精確的結果。在ImageNet和COCO檢測挑戰中,所有最近的頂級演算法都使用特徵影象金字塔上的多尺度測試。
  • 下圖中c,這種網路內特徵層次結構產生了不同空間解析度的特徵對映,但引入了由不同深度造成的巨大語義缺口。高解析度的地圖具有低層次的特徵,這損害了它們的物件識別表徵能力。SSD就是使用這種方式。
  • 下圖中的d就是本論文的重點,本文的目標是自然地利用ConvNet的特徵層次結構的金字塔形狀,同時建立一個在所有級別上都具有強大語義的特徵金字塔
    。為了實現這一目標,作者依賴於一種通過top-down和skip connections,將低解析度、語義強特徵與語義弱特徵相結合的體系結構。論文的結果是一個特徵金字塔在所有級別上都具有豐富的語義,並且可以從單個輸入影象規模快速構建。換句話說,我們展示瞭如何建立網路內的特徵金字塔,可以用來取代特徵化的影象金字塔,而不犧牲代表性的力量、速度或記憶體

在最近的研究中很流行,還有一型別的方法採用top-down和skip connections的類似體系結構。他們的目標是製作一個高水平的特徵圖,顯示一個精細的解析度,並據此做出預測。相反,本論文的方法利用架構作為一個特性金字塔,在每個層次上獨立地進行預測

Feature Pyramid Networks

top-down通過從更高的金字塔級別向up sampling上取樣,雖然在空間資訊上粗糙,但語義資訊上更強,從而產生更高解析度的特徵。然後,通過側向連線,通過自下而上的途徑增強這些特徵。每個橫向連線都從自底向上路徑和自頂向下路徑合併相同空間大小的feature map。自底向上的特徵對映具有較低層次的語義,但是它的的啟用能夠更加精確地定位,因為它的下采樣次數更少。

從下圖可以看到,為了簡單起見,使用最近鄰的upsampling兩倍自頂向下的粗糙feature map,然後與相應的自底向上的feature map 使用element-wise加法合併(經歷1×1卷積層減少通道尺寸)。

關於lateral 和top-down在不同網路裡的重要性可以透過下圖實驗結果看出,增加了lateral和top-down增加了AR/AP。

論文的後半部分分別詳細描述瞭如何在RPN,Fast R-CNN Faster R-CNN上使用FPN,這裡不再詳述。