目標檢測之模型篇(2)【RRPN】
文章目錄
1. 前言
本週的第二篇模型文章,RRPN也是基於Faster R-CNN,引入RPN,它對比CTPN加入了旋轉資訊。CTPN只能檢測水平文字,而RRPN可以檢測任意方向的文字,因為CTPN的提議框是水平的,而RRPN的提議框帶有旋轉角度。為什麼提出旋轉的提議框呢?因為水平提議框在檢測傾斜文字的時候會帶有一些冗餘(非文字部分)。對比圖如下,左:原圖;中:水平提議框;右:旋轉提議框
2. 實現
2.1 關鍵idea
- 基於區域提議的方法預測文字行的方向;因此,該方案能夠更好地適應文字區域,使範圍文字區域易於糾正,便於文字閱讀。新的元件,如RRoI池層和旋轉方案的學習,被合併到基於區域提議的體系結構中,這確保了文字檢測與基於分段的文字檢測系統相比的計算效率。
- 提出了優化區域建議的新策略,並以任意的方向來改進任意性文字檢測的效能。
- 在三個資料集(MSRA-TD500, ICDAR2013,ICDAR2015)進行了測試,本文的方法更為準確有效。
2.2 模型結構
仍然是用VGG16作為特徵提取主幹網路,中間採用RRPN生成旋轉提議框,輸出提議框的類別和迴歸;而後經過RRoI(旋轉感興趣區域)池化層將候選框對映到feature map上,前往分類器,最終得到結果。
2.3 具體細節
1.Rotated Bounding Box Representation-旋轉矩形框的表示
5個引數,(x,y,h,w,θ)。x,y是矩形中心點座標,h,w是矩形寬和高,θ是矩形框長邊相對x軸正軸的旋轉角。
T是矩陣平移,R是矩陣旋轉。
圍繞距鎮中心一頓操作後的中心錨點座標如上圖公式。
2.Rotation Anchors-旋轉角度
本文提出的錨點R-anchor有三類策略:
- scale 有8,16,32三種,表示文字行的大小
- ratio 有1:2,1:5,1:8三種,表示文字行的寬高比
- angle 有
六種,表示提議框的旋轉角
綜合以上三類策略,特徵圖上每個點會生成3x3x6=54個R錨。
3.Learning of Rotated Proposal-旋轉矩形候選框的學習
- 正樣本:
1.其與ground truth的IOU最高的或者大於0.7
2.其與ground truth的夾角小於
- 負樣本:
1.其與ground truth的IOU小於0.3
2.其與ground truth的IOU大於0.7,但其與ground truth的夾角大於
- loss:
1.提議的多工損失函式:
2.包圍盒的損失函式:
4.Accurate Proposal Refinement Skew-準確候選框的修正
- 傾斜IoU的計算
演算法:
總體思路:將兩個矩形的交點進行順時針排序並連成多邊形,然後分割成一個個小三角形計算總面積。以下圖(b)舉例子,多邊形順序AIJCKL,分割成三角形AIJ,AJC,ACK,AKL,計算這四個三角形的和。
IoU是交集/並集,如下圖所示:
- 傾斜NMS
1.保留IoU大於0.7的最大候選框
2.如果所有候選框的IoU範圍在[0.3,0.7]內,保留與ground truth最小角度差的候選框(角度小於 )
5.RRoI Pooling Layer-旋轉感興趣區域池化層
假設RROI層的超引數為
和
,對於高度為h和寬度為w的旋轉候選區域平均劃分成
個子塊,每個子區域和候選框的方向相同。
具體演算法:
(a)將任意方向的提案劃分為子區域;
(b)將單一區域從傾斜建議最大限度地彙集到RRoI內的某一點。
3. 結果
- 資料增強效率:
- 影象處理速度:由於引入R錨策略,每張影象的提議是之前工作(如Faster R-CNN)的6倍。RRPN的處理速度是Faster R-CNN的兩倍。
- 在三個資料集上與state-of-art對比
4. 總結
RRPN提出旋轉提議框,相比CTPN可以接受任意方向的文字。
5. 參考資料
1.《Arbitrary-Oriented Scene Text Detection via Rotation Proposals
Jianqi》
2.https://zhuanlan.zhihu.com/p/39717302
3.IoU的解釋