1. 程式人生 > >物體檢測之FPN

物體檢測之FPN

論文:Feature Pyramid Networks for Object Detection 

Github:https://github.com/facebookresearch/deepmask

 

cvpr2017,凱明的大作

 

論文提出多尺度的物體檢測演算法,特徵金字塔Feature Pyramid Network (FPN) 。原來多數的物體演算法都是隻採用頂層特徵做預測,像faster RCNN系列,但是低層的特徵語義資訊比較少,但是目標位置準確;高層的特徵語義資訊比較豐富,但是目標位置比較粗略。另外雖然也有些演算法採用多尺度特徵融合的方式,但是一般是採用融合後的特徵做預測,像EAST,而本文不一樣的地方在於預測是在不同特徵層獨立進行的,從而充分利用了不同尺度的特徵資訊。FPN測試速度6FPS在GPU上。

論文基於faster RCNN修改基礎backbone為FPN進行檢測操作,修改deepmask做分割操作。

最終使得檢測的RPN模組Average Recall (AR) 提高8個點,物體檢測在COCO資料集上Average Precision (AP) 提升2.3個點,VOC上提升3.8個點。

(a)圖片金字塔,基於不同尺度的圖片提取特徵,像傳統的sift,hog等特徵

(b)基於最後一層的特徵做預測,像faster RCNN系列

(c)基於不同尺度的特徵層分別做預測,像ssd

(d)基於不同尺度的特徵層預測,並且帶有由頂層到底層的特徵融合,本文的FPN

上圖:具有從頂層到底層的特徵融合,但是隻在最後一個融合的特徵層做預測,代表作EAST。

下圖:本文的FPN接面構,每個scale尺度都有預測。

 

ResNet結構:

FPN接面構:

FPN網路採用Resnet結構,其中殘差block(C2; C3; C4; C5)分別代表conv2, conv3, conv4, conv5的輸出,這樣得到stride分別為(4, 8, 16, 32)。這裡沒有考慮conv1,主要由於conv1的輸出的特徵圖太大,需要佔用大量的視訊記憶體。

每一個conv層的輸出一個要做預測操作,一個要進行上取樣操作(X2),然後和上一個block中的卷積輸出進行融合,融合過程,首先將上一個block中的卷積輸出進行1*1卷積的降維操作,然後和之前上取樣的輸出進行求和的操作,從而得到融合後的特徵。然後對融合後的特徵進行3*3卷積操作,使得最終融合後的輸出都為256個channel。最終conv2, conv3, conv4, conv5對應的輸出分別為P2, P3, P4, P5 。

 

RPN中使用FPN的改動:

對於P2, P3, P4, P5, P6分別使用的anchor為scale為(32*32; 64*64; 128*128; 256*256; 512*512)這5個,即一個特徵圖使用一個與之對應的anchor的scale。長寬比aspect ratios分別為 (1:2; 1:1, 2:1),即每個特徵圖都有這3種不同長寬比。最終一共有15種anchor。

 

當預測和groundtruth的IOU大於0.7,或者與groundtruth的IOU最大,則該預測框為positive

當預測和groundtruth的IOU小於0.3,則該預測框為negative

 

Fast R-CNN 中使用FPN的改動:

在Fast R-CNN 模組中,RoI pooling 操作是在一個feature map 進行7*7的ROI的crop操作。但是FPN使用了好幾個不同尺度的feature map。這樣就引入了一個問題,原圖上anchor預測的框該還原為哪個scale的feature map?

為了解決這個問題,論文引入了下面的公式,

224表示IMAGENET預訓練的輸入圖片大小為224*224。

w,h表示ROI區域的寬高。

K0表示目標ROI區域的大小為224*224大小的區域。論文將C4的輸出作為224*224的ROI,即k0。

例如,

w=h=224,得到k=k0,也就是c4層

w=h=112,得到k=k0-1,也就是c3層

w=h=448,得到k=k0+1,也就是c5層

 

當然這樣也會引入一個誤差,會出現預測邊框實際是c3預測的,結果上面公式算完是在c4的特徵圖上crop的想象。感覺這樣的誤差應該不會很大。

FPN在deepmask分割上的應用:

實驗結果:

檢測結果:

分割結果:

總結:

FPN(Feature Pyramid Network)演算法同時利用低層高解析度特徵和高層語義特徵,通過融合這些不同層的特徵達到預測的效果。並且預測是在每個融合後的特徵層上單獨進行的,這和常規的特徵融合方式不同。