物體檢測之FPN

阿新 • • 發佈：2019-01-11

論文：Feature Pyramid Networks for Object Detection

Github：https://github.com/facebookresearch/deepmask

cvpr2017，凱明的大作

論文提出多尺度的物體檢測演算法，特徵金字塔Feature Pyramid Network (FPN) 。原來多數的物體演算法都是隻採用頂層特徵做預測，像faster RCNN系列，但是低層的特徵語義資訊比較少，但是目標位置準確；高層的特徵語義資訊比較豐富，但是目標位置比較粗略。另外雖然也有些演算法採用多尺度特徵融合的方式，但是一般是採用融合後的特徵做預測，像EAST，而本文不一樣的地方在於預測是在不同特徵層獨立進行的，從而充分利用了不同尺度的特徵資訊。FPN測試速度6FPS在GPU上。

論文基於faster RCNN修改基礎backbone為FPN進行檢測操作，修改deepmask做分割操作。

最終使得檢測的RPN模組Average Recall (AR) 提高8個點，物體檢測在COCO資料集上Average Precision (AP) 提升2.3個點，VOC上提升3.8個點。

(a)圖片金字塔，基於不同尺度的圖片提取特徵，像傳統的sift，hog等特徵

(b)基於最後一層的特徵做預測，像faster RCNN系列

(c)基於不同尺度的特徵層分別做預測，像ssd

(d)基於不同尺度的特徵層預測，並且帶有由頂層到底層的特徵融合，本文的FPN

上圖：具有從頂層到底層的特徵融合，但是隻在最後一個融合的特徵層做預測，代表作EAST。

下圖：本文的FPN接面構，每個scale尺度都有預測。

ResNet結構：

FPN接面構：

FPN網路採用Resnet結構，其中殘差block(C2; C3; C4; C5)分別代表conv2, conv3, conv4, conv5的輸出，這樣得到stride分別為（4, 8, 16, 32）。這裡沒有考慮conv1，主要由於conv1的輸出的特徵圖太大，需要佔用大量的視訊記憶體。

每一個conv層的輸出一個要做預測操作，一個要進行上取樣操作（X2），然後和上一個block中的卷積輸出進行融合，融合過程，首先將上一個block中的卷積輸出進行1*1卷積的降維操作，然後和之前上取樣的輸出進行求和的操作，從而得到融合後的特徵。然後對融合後的特徵進行3*3卷積操作，使得最終融合後的輸出都為256個channel。最終conv2, conv3, conv4, conv5對應的輸出分別為P2, P3, P4, P5 。

RPN中使用FPN的改動：

對於P2, P3, P4, P5, P6分別使用的anchor為scale為（32*32; 64*64; 128*128; 256*256; 512*512）這5個，即一個特徵圖使用一個與之對應的anchor的scale。長寬比aspect ratios分別為（1:2; 1:1, 2:1），即每個特徵圖都有這3種不同長寬比。最終一共有15種anchor。

當預測和groundtruth的IOU大於0.7，或者與groundtruth的IOU最大，則該預測框為positive

當預測和groundtruth的IOU小於0.3，則該預測框為negative

Fast R-CNN 中使用FPN的改動：

在Fast R-CNN 模組中，RoI pooling 操作是在一個feature map 進行7*7的ROI的crop操作。但是FPN使用了好幾個不同尺度的feature map。這樣就引入了一個問題，原圖上anchor預測的框該還原為哪個scale的feature map?

為了解決這個問題，論文引入了下面的公式，

224表示IMAGENET預訓練的輸入圖片大小為224*224。

w,h表示ROI區域的寬高。

K0表示目標ROI區域的大小為224*224大小的區域。論文將C4的輸出作為224*224的ROI，即k0。

例如，

w=h=224，得到k=k0，也就是c4層

w=h=112，得到k=k0-1，也就是c3層

w=h=448，得到k=k0+1，也就是c5層

當然這樣也會引入一個誤差，會出現預測邊框實際是c3預測的，結果上面公式算完是在c4的特徵圖上crop的想象。感覺這樣的誤差應該不會很大。

FPN在deepmask分割上的應用：

實驗結果：

檢測結果：

分割結果：

總結：

FPN（Feature Pyramid Network）演算法同時利用低層高解析度特徵和高層語義特徵，通過融合這些不同層的特徵達到預測的效果。並且預測是在每個融合後的特徵層上單獨進行的，這和常規的特徵融合方式不同。

物體檢測之FPN

[深度學習]Object detection物體檢測之FPN(11)

物體檢測之FPN

『MXNet』第八彈_物體檢測之SSD

[深度學習]Object detection物體檢測之YOLO v1(6)

[深度學習]Object detection物體檢測之DSSD(10)

[深度學習]Object detection物體檢測之乾貨收集分享

[深度學習]Object detection物體檢測之YOLO v3(9)

[深度學習]Object detection物體檢測之SSD(8)

[深度學習]Object detection物體檢測之YOLO v2(7)

[深度學習]Object detection物體檢測之Faster R-CNN(5)

[深度學習]Object detection物體檢測之Fast R-CNN(4)

[深度學習]Object detection物體檢測之SPPNet(3)

[深度學習]Object detection物體檢測之Retinanet(12)

目標檢測之FPN（Feature Pyramid Net）

深度學習：卷積神經網路物體檢測之感受野大小計算

[深度學習]Object detection物體檢測之概述

物體檢測之從RCNN到Faster RCNN

卷積神經網路物體檢測之感受野大小計算

『計算機視覺』物體檢測之RefineDet

深度學習之物體檢測（一）R-CNN

物體檢測之FPN

相關推薦