目標檢測之模型篇（2）【RRPN】

阿新 • • 發佈：2018-11-07

文章目錄

1. 前言
2. 實現

2.1 關鍵idea
2.2 模型結構
2.3 具體細節

1.Rotated Bounding Box Representation-旋轉矩形框的表示
2.Rotation Anchors-旋轉角度
3.Learning of Rotated Proposal-旋轉矩形候選框的學習
4.Accurate Proposal Refinement Skew-準確候選框的修正
5.RRoI Pooling Layer-旋轉感興趣區域池化層

3. 結果
4. 總結
5. 參考資料

1. 前言

本週的第二篇模型文章，RRPN也是基於Faster R-CNN，引入RPN，它對比CTPN加入了旋轉資訊。CTPN只能檢測水平文字，而RRPN可以檢測任意方向的文字，因為CTPN的提議框是水平的，而RRPN的提議框帶有旋轉角度。為什麼提出旋轉的提議框呢？因為水平提議框在檢測傾斜文字的時候會帶有一些冗餘（非文字部分）。對比圖如下，左：原圖；中：水平提議框；右：旋轉提議框
在這裡插入圖片描述

2. 實現

2.1 關鍵idea

基於區域提議的方法預測文字行的方向;因此，該方案能夠更好地適應文字區域，使範圍文字區域易於糾正，便於文字閱讀。新的元件，如RRoI池層和旋轉方案的學習，被合併到基於區域提議的體系結構中，這確保了文字檢測與基於分段的文字檢測系統相比的計算效率。

提出了優化區域建議的新策略，並以任意的方向來改進任意性文字檢測的效能。
在三個資料集(MSRA-TD500, ICDAR2013,ICDAR2015)進行了測試，本文的方法更為準確有效。

2.2 模型結構

在這裡插入圖片描述
仍然是用VGG16作為特徵提取主幹網路，中間採用RRPN生成旋轉提議框，輸出提議框的類別和迴歸；而後經過RRoI（旋轉感興趣區域）池化層將候選框對映到feature map上，前往分類器，最終得到結果。

2.3 具體細節

1.Rotated Bounding Box Representation-旋轉矩形框的表示

5個引數，(x,y,h,w,θ)。x,y是矩形中心點座標，h,w是矩形寬和高，θ是矩形框長邊相對x軸正軸的旋轉角。
在這裡插入圖片描述

T是矩陣平移，R是矩陣旋轉。
在這裡插入圖片描述

圍繞距鎮中心一頓操作後的中心錨點座標如上圖公式。

2.Rotation Anchors-旋轉角度

在這裡插入圖片描述
本文提出的錨點R-anchor有三類策略：

scale 有8，16，32三種，表示文字行的大小
ratio 有1：2，1：5，1：8三種，表示文字行的寬高比
angle 有 $-\frac{\pi}{6},0,\frac{\pi}{6},\frac{\pi}{3},\frac{\pi}{2},\frac{2\pi}{3}$ 六種，表示提議框的旋轉角
綜合以上三類策略，特徵圖上每個點會生成3x3x6=54個R錨。

3.Learning of Rotated Proposal-旋轉矩形候選框的學習

正樣本：

1.其與ground truth的IOU最高的或者大於0.7
2.其與ground truth的夾角小於 $\frac{\pi}{12}$

負樣本：

1.其與ground truth的IOU小於0.3
2.其與ground truth的IOU大於0.7，但其與ground truth的夾角大於 $\frac{\pi}{12}$

loss:
1.提議的多工損失函式：

2.包圍盒的損失函式：

4.Accurate Proposal Refinement Skew-準確候選框的修正

傾斜IoU的計算
演算法：

總體思路：將兩個矩形的交點進行順時針排序並連成多邊形，然後分割成一個個小三角形計算總面積。以下圖（b）舉例子，多邊形順序AIJCKL，分割成三角形AIJ,AJC,ACK,AKL,計算這四個三角形的和。

IoU是交集/並集，如下圖所示：
傾斜NMS
1.保留IoU大於0.7的最大候選框
2.如果所有候選框的IoU範圍在[0.3,0.7]內，保留與ground truth最小角度差的候選框(角度小於 $\frac{\pi}{12}$ )

5.RRoI Pooling Layer-旋轉感興趣區域池化層

假設RROI層的超引數為 $H_r$ 和 $W_r$ ，對於高度為h和寬度為w的旋轉候選區域平均劃分成 $\frac{h}{H_r}\times{\frac{w}{W_r}}$ 個子塊，每個子區域和候選框的方向相同。
具體演算法：
在這裡插入圖片描述

(a)將任意方向的提案劃分為子區域;
(b)將單一區域從傾斜建議最大限度地彙集到RRoI內的某一點。

3. 結果

資料增強效率：
影象處理速度：由於引入R錨策略，每張影象的提議是之前工作（如Faster R-CNN）的6倍。RRPN的處理速度是Faster R-CNN的兩倍。
在三個資料集上與state-of-art對比

4. 總結

RRPN提出旋轉提議框，相比CTPN可以接受任意方向的文字。

5. 參考資料

1.《Arbitrary-Oriented Scene Text Detection via Rotation Proposals
Jianqi》
2.https://zhuanlan.zhihu.com/p/39717302
3.IoU的解釋

目標檢測之模型篇（2）【RRPN】

文章目錄

1. 前言

2. 實現

2.1 關鍵idea

2.2 模型結構

2.3 具體細節

1.Rotated Bounding Box Representation-旋轉矩形框的表示

2.Rotation Anchors-旋轉角度

3.Learning of Rotated Proposal-旋轉矩形候選框的學習

4.Accurate Proposal Refinement Skew-準確候選框的修正

5.RRoI Pooling Layer-旋轉感興趣區域池化層

3. 結果

4. 總結

5. 參考資料

目標檢測之模型篇（2）【RRPN】

目標檢測之模型篇（4）【EAST】

目標檢測之模型篇（3）【DMPNet】

目標檢測之網路篇（2）【STN-空間變換網路】

目標檢測之模型篇（1）【CTPN連線文字提議網路】

目標檢測之網路篇（3）【Faster R-CNN】

資料庫之redis篇（2）—— redis配置檔案，常用命令，效能測試工具

資料結構之圖篇（2）：圖的基本操作深度和廣度遍歷

高效能網站架構設計之快取篇（2）- Redis C#客戶端

Netty進階基礎篇之Buffer篇（2）

Django之模型層（2）

Linux學習之路-集群及LVS（2）【25】---20180217

Meteor學習路程（三）之資料庫的例子（2）【插入】

Selenium2+python自動化55-unittest之裝飾器（@classmethod）【轉載】

【Angular專題】——（2）【譯】Angular中的ForwardRef

【NIFI】 Apache NiFI 之 ExecuteScript處理（二）【NIFI】 Apache NiFI 之 ExecuteScript處理（一）

20180813視頻筆記深度學習基礎上篇（1）之必備基礎知識點深度學習基礎上篇（2）神經網絡模型視頻筆記：深度學習基礎上篇（3）神經網絡案例實戰和深度學習基礎下篇

ArcGIS基礎篇（2）——如何將模型導成py文件？

Linux學習之路-Nginx（2）安裝及配置文件篇【23】---20180210

React學習筆記之react進階篇（2）

目標檢測之模型篇（2）【RRPN】

文章目錄

1. 前言

2. 實現

2.1 關鍵idea

2.2 模型結構

2.3 具體細節

1.Rotated Bounding Box Representation-旋轉矩形框的表示

2.Rotation Anchors-旋轉角度

3.Learning of Rotated Proposal-旋轉矩形候選框的學習

4.Accurate Proposal Refinement Skew-準確候選框的修正

5.RRoI Pooling Layer-旋轉感興趣區域池化層

3. 結果

4. 總結

5. 參考資料

相關推薦