1. 程式人生 > >I3D論文解讀(Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset)

I3D論文解讀(Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset)

論文:Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

期刊:CVPR2017

papar:https://arxiv.org/pdf/1705.07750v1.pdf

相關工作

相關工作就是下面這個圖

文章兩個重大貢獻:1 提出了kinetics資料集。2 提出了雙流3D卷積模型

3D ConvNet

模型細節:是原論文中C3D的變種。8層卷積、5層pooling、2層全連線。與C3D的區別在於這裡的卷積和全連線層後面加BN;且在第一個pooling層使用stride=2,這樣使得batch_size可以更大。輸入是16幀,每幀112*112。

Two-Stream Networks

LSTM缺點:能model高層變化卻不能捕捉低層運動(因為在低層,每個幀都是獨立地被CNN提取特徵),有些低層運動可能是重要的;訓練很昂貴
Two-Stream Networks: 將單獨的一張RGB圖片和一疊計算得到的光流幀分別送入在ImageNet上預訓練的ConvNet中,再把兩個通道的score取平均

New*: Two-Stream Inflated 3D ConvNets

Implementation Details

模型:

實驗結果,可以看到I3D的準確率提高了許多:

參考文章:

https://blog.csdn.net/paranoid_cnn/article/details/77933316

https://blog.csdn.net/Gavinmiaoc/article/details/81208997

https://blog.csdn.net/zzmshuai/article/details/84936338