[CVPR2017]CFNet_End-to-end representation learning for Correlation Filter based tracking

阿新 • • 發佈：2019-02-12

引言

多層神經網路是計算機視覺中做影象表達很有用的工具，但是，訓練時沒有的類別或者某類訓練樣本很少時，仍是一個很有挑戰的問題。這一問題自然在視覺跟蹤任務中遇到，因為跟蹤的目標是在只在序列的初始幀給定目標包圍盒的單一監督，在整個視訊上重檢測目標位置，主要的挑戰就是目標先驗資訊的缺乏。
最簡單的方法就是採用一個預訓練的深層CNN網路來跟蹤目標，但是及其有限的訓練資料和大量引數讓這個學習問題很困難，並且，SGD作線上調整代價昂貴（速度慢，計算複雜度高）。
一個解決方法是網路不要去做線上調整,而是學習一個deep embedding作為一個全域性目標描述子，比如很多跟蹤演算法[ ]使用了Siamese CNN，先離線訓練判別兩個影象塊是否包含同一個目標，一個有效的embedding將能通過相似性來做檢測（跟蹤），繞開了線上學習問題。然而，僅使用固定的metric比較外觀模型讓學習演算法不能利用video-specific線索。
一個可選的策略就是使用線上學習演算法如CF(Correlation Filter)，CF通過高效的解嶺迴歸問題，可以將一個patch從周圍塊中區分出來。並且由於採用了FFT和element-wise的操作，比SGD更高效，相比於embedding的方法，判別器能適應特定的視訊。
如何把CF高效的線上學習與離線訓練的高判別度特徵相結合就是一個挑戰性問題，[]等演算法說明CF和CNNs可以互相補償，兩者的結合提高了效能。
然而，前述工作只是將CF應用到了預訓練的CNN特徵上，沒有任何兩種方法的深入整合。這篇文章想端到端的訓練CNN-CF的結合。
實現這一整合的關鍵一步是將CF解釋為可微的CNN層，為了讓誤差能夠通過CF反傳至CNN特徵，挑戰性在於CF本身是一個學習問題的solution,這篇文章提供了一個和CF推導近似形式的表達，並且證明了在端到端CNN架構中訓練的實用性。
在與Siamese-FC的對比中，作者發現網路足夠深的時候，CF並不會提高跟蹤結果。但是，本文提出了幾個輕量級的網路，只需要幾千個引數，就能夠在benchmark上取得state-of-the-art的效能，並且執行幀率很高。

方法

這一塊主要介紹了三點：一是 Siamese-FC，這是一個學習embeddings的框架，也是本文的baseline。二是之前的工作是如何將embeddings應用到跟蹤演算法中去。三是介紹了CFNet架構，四是介紹了CF layer及它的evaluation和反向傳播BP。
1. 全卷積對稱網路 Siamese-FC

gρ(x′,z′)=fρ(x′)⋆fρ(z′)(1)
x’, z’分別目標和搜尋區域,fρ表示學習率為ρ的CNN，在z’上窮舉搜尋x’,得到response map，響應最大值對應目標位置。
訓練方法：離線訓練，每次都是從一段視訊裡隨機選1對影象(

x′,z′)
labels: c(+1,-1)。+1表示正確的目標位置，-1 表示其他位置。
訓練通過在測試集上最小化 logistic loss函式 ℓ進行：
argminρ∑iℓ(gρ(x′,z′),z′)(2)細節可參考Siamese-FC
2. 跟蹤演算法：
網路本身只是衡量兩個影象塊的相似性，線上跟蹤通過評估網路前向傳播的來進行。在新的一幀，以前一幀估計的目標位置為中心提取一個搜尋區域，將目標的特徵同搜尋區域的特徵比較，目標新的位置就是在得分最高的位置。
先前的Siamese-FC網路僅僅是將每幀同目標的初始外觀比較，本文中，每幀都會結合前一個模板算得一個新模板。
3. CF network
後文CF即Correlation Filter,由系統框架圖可以看到，本文在一個輸入支路上x和cross-correlation操作之間加入CF block，在公式（1）的基礎上引入兩個引數s,b為了讓響應圖值的範圍更適合邏輯迴歸。公式如下：
h

ρ,s,b(x′,z′)=sω(fρ(x′))⋆fρ(z′)+b(3) w=ω(x)就是CF block，它計算出一個標準的CF模板（KCF中在傅立葉域解嶺迴歸問題得到的w），效果可以理解為對translation魯棒的判別模板.
CFNet前向傳播的時候就是一個加入了CNN特徵的CF跟蹤器，但是，之前的演算法並不能端到端訓練CF，本文就是推導了CF中的模板的對輸入的導數使得CF也能夠被端到端訓練。
這裡寫圖片描述

4. CF
這部分主要是推導CF層反向傳播的計算公式,並且是傅立葉域的計算形式。(還需要細看，待補充)

實驗

首先做了同baselinbe Siamese-FC的對比實驗，相同卷積層數，CFNet成功率，overlap更高，5層之後兩個效果一樣了。

然後做了特徵轉移的實驗，是為了驗證融合了CF訓練得到的特徵更適合用CF跟蹤，所以將CFNet同Baseline+CF和ImageNet+CF做了對比，結果如下圖，驗證了假設。這裡寫圖片描述

再然後做了自適應重要性的實驗，將離線訓練得到的拉格朗日乘子a（事實上就是網路引數）在測試（跟蹤時）固定，比較和有線上學習時跟蹤效果（online adaptation）的對比。圖表說明，後者一直表現更好這裡寫圖片描述

最後是和最先進跟蹤演算法的對比，真是又快又好資料量小。
這裡寫圖片描述

小結：
1.端到端的訓練CF,徹底將CF和CNN結合了起來。
2.CF層的BP是在傅立葉域計算的，速度快，跟蹤演算法實時性好。
3.沒有用大型神經網路，效能好的同時，模型小很多。
疑問：
1.卷積網路5層之後跟蹤效果不提升的解釋是？
2.CF層只加在了x那個branch上，並且，最後還是要做cross-correlate，多計算了一次相關？

[CVPR2017]CFNet_End-to-end representation learning for Correlation Filter based tracking

引言多層神經網路是計算機視覺中做影象表達很有用的工具，但是，訓練時沒有的類別或者某類訓練樣本很少時，仍是一個很有挑戰的問題。這一問題自然在視覺跟蹤任務中遇到，因為跟蹤的目標是在只在序列的初始幀給定目標包圍盒的單一監督，在整個視訊上重檢測目標位置，主要的

機器學習專案開發過程（End-to-End Machine Learning Project）

引言：之前對於機器學習的認識停留在演算法的分析上，這篇文章主要從專案開發的角度分析機器學習的應用。這篇文章主要解釋實際專案過程中的大致方針，每一步涉及的技術不會介紹很細緻。機器學習專案開發步驟如下： 1. Look at the big picture. 2. Get the dat

Latent Representation Learning For Artificial Bandwidth Extension Using A Conditional Variational Auto-Encoder

部落格作者：凌逆戰論文地址：https://ieeexplore.ieee.xilesou.top/abstract/document/8683611/ 地址：https://www.cnblogs.com/LXP-Never/p/10714401.html 利用條件變分自動編碼器

[論文閱讀筆記] metapath2vec: Scalable Representation Learning for Heterogeneous Networks

## [論文閱讀筆記] metapath2vec: Scalable Representation Learning for Heterogeneous Networks --- ## 本文結構 1. 解決問題 2. 主要貢獻 3. 演算法原理 4. 參考文獻 --- ### (1) 解決問題 **解決

Machine learning for improved image-based wavefront sensing

均方誤差多個 nms ear 誤差隨機選擇公司選擇標準 ---恢復內容開始--- 　　基於圖像的波前傳感是一種利用參數化物理模型和非線性優化計算點擴散函數(Psf)來測量波前誤差的方法。當執行基於圖像的波前傳感時，探測器上捕獲一個psf，物理模型創建一個波前，生成

《End-to-End Learning of Motion Representation for Video Understanding》論文閱讀

CVPR 2018 | 騰訊AI Lab、MIT等機構提出TVNet：可端到端學習視訊的運動表徵動機儘管端到端的特徵學習已經取得了重要的進展，但是人工設計的光流特徵仍然被廣泛用於各類視訊分析任務中。為了彌補這個不足而提出；以前的方法：

論文閱讀《ActiveStereoNet:End-to-End Self-Supervised Learning for Active Stereo Systems》

最好 ati 計算最重要的 non-rigid ssi local 模糊 trac 本文出自谷歌與普林斯頓大學研究人員之手並發表於計算機視覺頂會ECCV2018。本文首次提出了應用於主動雙目立體視覺的深度學習解決方案，並引入了一種新的重構誤差，采用自監督的方法來解決缺少g

論文閱讀《End-to-End Learning of Geometry and Context for Deep Stereo Regression》

註意 4.3 匹配算法 argmin hang 立體聲移動數據集聚集端到端學習幾何和背景的深度立體回歸摘要本文提出一種新型的深度學習網絡，用於從一對矯正過的立體圖像回歸得到其對應的視差圖。我們利用問題（對象）的幾何知識，形成一個使

【USE】《An End-to-End System for Automatic Urinary Particle Recognition with CNN》

Urine Sediment Examination（USE） JMOS-2018 目錄目錄 1 Background and Motivation 2 Innovation

端到端的學習end-to-end learning （理解）

傳統的機器學習的流程是由多個獨立的模組組成，每一個獨立的任務其結果的好壞都會影響到下一個步驟，從而影響到整個訓練的結果，這個是非端到端的而深度學習模型在訓練過程中，從輸入端（輸入資料）到輸出端會得到一個預測結果，與真實結果相比較會得到一個誤差，這個誤差會在模型中的每一層傳遞（反向傳播），每一層

Direct Shape Regression Networks for End-to-End Face Alignment

端到端人臉對齊的直接形狀迴歸網路1 主要的挑戰在於人臉影象和相關的面部形狀之間的高度非線性關係，這種非線性關係是基於標記的相關性耦合。現有的方法主要依賴於級聯迴歸，存在固有的缺點，例如對初始化的強依賴性和未能利用相關的標記。本文提出了一種**直接形狀迴歸網路（direct shap

FlowTrack－End-to-end Flow Correlation Tracking with Spatial-temporal Attention(CVPR2018)

動機：大多數DCF方法僅考慮當前幀的特徵，而很少受益於運動和幀間資訊。發生遮擋和形變時，時間資訊缺失導致效能減低。本文提出FlowTrack，利用連續幀中豐富的光流資訊來改善特徵表示和跟蹤精度。具體是將光流估計，特徵提取，聚合和相關濾波器跟蹤制定為網路中的特殊層，從而實現端到端學習。這種在深度

《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its...》論文閱讀之CRNN

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition paper: CRNN 翻譯：CRNN

《Learning to Compare: Relation Network for Few-Shot Learning》論文閱讀

通過對比實現少樣本或零樣本學習Learning to Compare: Relation Network for Few-Shot Learning 動機我們就發現了，我們人之所以能夠識別一個新的東西，在於我們人的視覺系統天生的能夠對任意物體提取特徵，並進行比

深度學習論文翻譯解析（二）：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

論文標題：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition 論文作者： Baoguang Shi, Xiang B

[CVPR2017]CFNet_End-to-end representation learning for Correlation Filter based tracking

引言

相關工作

方法

實驗

[CVPR2017]CFNet_End-to-end representation learning for Correlation Filter based tracking

機器學習專案開發過程（End-to-End Machine Learning Project）

Latent Representation Learning For Artificial Bandwidth Extension Using A Conditional Variational Auto-Encoder

[論文閱讀筆記] metapath2vec: Scalable Representation Learning for Heterogeneous Networks

Machine learning for improved image-based wavefront sensing

《End-to-End Learning of Motion Representation for Video Understanding》論文閱讀

論文閱讀《ActiveStereoNet:End-to-End Self-Supervised Learning for Active Stereo Systems》

論文閱讀《End-to-End Learning of Geometry and Context for Deep Stereo Regression》

【USE】《An End-to-End System for Automatic Urinary Particle Recognition with CNN》

端到端的學習end-to-end learning （理解）

Direct Shape Regression Networks for End-to-End Face Alignment

FlowTrack－End-to-end Flow Correlation Tracking with Spatial-temporal Attention(CVPR2018)

《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its...》論文閱讀之CRNN

《Learning to Compare: Relation Network for Few-Shot Learning》論文閱讀

深度學習論文翻譯解析（二）：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

end-to-end-for-chinese-plate-recognition車牌識別

A Hierarchical End-to-End Model for Jointly Improving Text Summarization and Sentiment Classificatio

論文閱讀：Disentangled Representation Learning GAN for Pose-Invariant Face Recognition

MFCNET: END-TO-END APPROACH FOR CHANGE DETECTION IN IMAGES

Data Science Program at Argonne Looks to Machine Learning for New Breakthroughs

[CVPR2017]CFNet_End-to-end representation learning for Correlation Filter based tracking

引言

相關工作

方法

實驗

相關推薦