1. 程式人生 > >目標檢測之模型篇(2)【RRPN】

目標檢測之模型篇(2)【RRPN】

文章目錄

1. 前言

本週的第二篇模型文章,RRPN也是基於Faster R-CNN,引入RPN,它對比CTPN加入了旋轉資訊。CTPN只能檢測水平文字,而RRPN可以檢測任意方向的文字,因為CTPN的提議框是水平的,而RRPN的提議框帶有旋轉角度。為什麼提出旋轉的提議框呢?因為水平提議框在檢測傾斜文字的時候會帶有一些冗餘(非文字部分)。對比圖如下,左:原圖;中:水平提議框;右:旋轉提議框
在這裡插入圖片描述

2. 實現

2.1 關鍵idea

  • 基於區域提議的方法預測文字行的方向;因此,該方案能夠更好地適應文字區域,使範圍文字區域易於糾正,便於文字閱讀。新的元件,如RRoI池層和旋轉方案的學習,被合併到基於區域提議的體系結構中,這確保了文字檢測與基於分段的文字檢測系統相比的計算效率。
  • 提出了優化區域建議的新策略,並以任意的方向來改進任意性文字檢測的效能。
  • 在三個資料集(MSRA-TD500, ICDAR2013,ICDAR2015)進行了測試,本文的方法更為準確有效。

2.2 模型結構

在這裡插入圖片描述
仍然是用VGG16作為特徵提取主幹網路,中間採用RRPN生成旋轉提議框,輸出提議框的類別迴歸;而後經過RRoI(旋轉感興趣區域)池化層將候選框對映到feature map上,前往分類器,最終得到結果。

2.3 具體細節

1.Rotated Bounding Box Representation-旋轉矩形框的表示

5個引數,(x,y,h,w,θ)。x,y是矩形中心點座標,h,w是矩形寬和高,θ是矩形框長邊相對x軸正軸的旋轉角。
在這裡插入圖片描述


T是矩陣平移,R是矩陣旋轉。
在這裡插入圖片描述
圍繞距鎮中心一頓操作後的中心錨點座標如上圖公式。

2.Rotation Anchors-旋轉角度

在這裡插入圖片描述
本文提出的錨點R-anchor有三類策略:

  • scale 有8,16,32三種,表示文字行的大小
  • ratio 有1:2,1:5,1:8三種,表示文字行的寬高比
  • angle 有 π 6 , 0 , π 6 , π 3 , π 2 , 2 π 3 -\frac{\pi}{6},0,\frac{\pi}{6},\frac{\pi}{3},\frac{\pi}{2},\frac{2\pi}{3} 六種,表示提議框的旋轉角
    綜合以上三類策略,特徵圖上每個點會生成3x3x6=54個R錨。

3.Learning of Rotated Proposal-旋轉矩形候選框的學習

  • 正樣本:

1.其與ground truth的IOU最高的或者大於0.7
2.其與ground truth的夾角小於 π 12 \frac{\pi}{12}

  • 負樣本:

1.其與ground truth的IOU小於0.3
2.其與ground truth的IOU大於0.7,但其與ground truth的夾角大於 π 12 \frac{\pi}{12}

  • loss:
    1.提議的多工損失函式:

這裡是引用
2.包圍盒的損失函式:
這裡是引用

4.Accurate Proposal Refinement Skew-準確候選框的修正

  • 傾斜IoU的計算
    演算法:
    在這裡插入圖片描述
    總體思路:將兩個矩形的交點進行順時針排序並連成多邊形,然後分割成一個個小三角形計算總面積。以下圖(b)舉例子,多邊形順序AIJCKL,分割成三角形AIJ,AJC,ACK,AKL,計算這四個三角形的和。
    在這裡插入圖片描述
    IoU是交集/並集,如下圖所示:
    在這裡插入圖片描述
  • 傾斜NMS
    1.保留IoU大於0.7的最大候選框
    2.如果所有候選框的IoU範圍在[0.3,0.7]內,保留與ground truth最小角度差的候選框(角度小於 π 12 \frac{\pi}{12} )

5.RRoI Pooling Layer-旋轉感興趣區域池化層

假設RROI層的超引數為 H r H_r W r W_r ,對於高度為h和寬度為w的旋轉候選區域平均劃分成 h H r × w W r \frac{h}{H_r}\times{\frac{w}{W_r}} 個子塊,每個子區域和候選框的方向相同。
具體演算法:
在這裡插入圖片描述
在這裡插入圖片描述
(a)將任意方向的提案劃分為子區域;
(b)將單一區域從傾斜建議最大限度地彙集到RRoI內的某一點。

3. 結果

  • 資料增強效率:
    在這裡插入圖片描述
  • 影象處理速度:由於引入R錨策略,每張影象的提議是之前工作(如Faster R-CNN)的6倍。RRPN的處理速度是Faster R-CNN的兩倍。
    在這裡插入圖片描述
  • 在三個資料集上與state-of-art對比
    在這裡插入圖片描述

4. 總結

RRPN提出旋轉提議框,相比CTPN可以接受任意方向的文字。

5. 參考資料

1.《Arbitrary-Oriented Scene Text Detection via Rotation Proposals
Jianqi》
2.https://zhuanlan.zhihu.com/p/39717302
3.IoU的解釋