1. 程式人生 > >論文總結: 2009-Pedestrian Detection: A Benchmark

論文總結: 2009-Pedestrian Detection: A Benchmark

參考文獻:Dollar P, Wojek C, Schiele B, et al. Pedestrian detection: A benchmark[J]. Proc Cvpr, 2009:304-311.

論文的主要貢獻:
1. 介紹了Caltech行人檢測資料集(Caltech Pedestrian Dataset);
2. 提出了更好的行人檢測演算法評價標準;
3. 在新資料集上對7個現有演算法進行了評測;
4. 陳述了當前算在資料集上準確率不高的原因,給出了未來的研究方向。

Caltech行人檢測資料集:
該資料集收集了城市中正常交通狀態下大約10小時30Hz的行車記錄,視訊解析度為640x480。通過標記其中的250,000幀獲得了總計350,000個boundingbox (BB),其中包含行人的BB有2300個。資料拍攝於洛杉磯周邊的5個場景,分為11個片段,將所有資料粗略的劃分為兩個部分分別組作為訓練集和測試集,其中0-5作為訓練集、6-10作為測試集。

人工標註及人工分類:
對於每幀中可以看到的行人,使用一個BB來標記行人的全部資訊;
對於每幀中被部分遮擋的行人,使用一個BB來標記其可見部分,並使用另一個BB標記其全部資訊(包括預測的 遮擋部分)。
所有的BB被分為3類:獨立行人(person,~1900),一群人(people,~300),難以分辨的行人(person?,~110)。

資料分析:
根據BB中行人的大小(高度畫素值),將其分為了3個尺度:near(>=80畫素)、medium(30-80畫素)、far(<=30畫素)。論文中提到,2009年以前的演算法大多集中在對near級別的行人進行檢測,而很少有文章對medium和far級別的行人進行檢測。但是,最需要解決的是對medium級別的行人進行檢測,根據作者的分析(相機焦距、行車速度等),near級別的行人即使檢測出來了也來不及避讓,而far級別的行人還需要很久才會到達,medium級別的行人距離車輛大約1.5s,恰好有足夠的時間進行避讓判斷。
根據BB中行人被遮擋的面積,將其分為了4個遮擋級別:full occlusion(>=80%)、heavy occlusion(35%-80%)、partial occlusion(1-35%)、never occlusion(0%)。作者通過畫出行人被遮擋部位的熱力統計圖得出行人的下半生有較大的概率被遮擋。
由於視野和地面約束的存在,行人都集中在影象中部較窄的視野範圍中。

實驗:
作者使用3套方案對7個行人檢測演算法進行了實驗:
1. 使用其他資料集進行訓練,在6-10上進行測試;
2. 對訓練集0-5進行交叉驗證;
3. 使用0-5進行訓練,使用6-10測試。
結果表明,當前的演算法在新資料集上的效果並不理想,還有非常大的提升空間。

評價方法:
早先的評價標準都是比較單個視窗的檢測情況,然而單個視窗的檢測準確率高並不意味著對整張影象、整個視訊的檢測準確率高,因此作者提出使用將整張影象的檢測率作為評價標準。對於每一個BB,比較檢測器檢測出的BB與人工標註的BB,看它們交集與並集之比能否超過50%,若大於50%則判定為檢測正確。對於整個影象,計算其FPPI(false positive per image)。

一句話總結:
作者詳細介紹了Caltech行人檢測資料集的資料分佈、標註狀況,提出了針對每幅影象的行人檢測演算法評價標準。