1. 程式人生 > 資訊 >百度論文研究:單目攝像頭實時感知車輛形狀,顯著提高 3D 目標檢測效能

百度論文研究:單目攝像頭實時感知車輛形狀,顯著提高 3D 目標檢測效能

通常,自動駕駛汽車通過單目攝像頭看到的世界長這個樣子:

馬路上的其他車輛、物體,都被統一建模成一個個立方體,具體的結構細節則被忽略。

想要更精準地勾勒出車輛的真實形態,當然也不是不行,但那就需要用上鐳射雷達、雙目相機等更加昂貴的感測器。

不過現在,一項最新研究賦予了單目攝像頭新的能力 ——

是的,僅憑單目相機,就能實時感知物體的 3D 形狀,進而提高 3D 目標檢測效能。

這項研究來自百度,論文已經入選 ICCV 2021。

考慮 2D/3D 形狀感知約束的 3D 檢測框架

具體如何實現?

大體上可以分為三步:

  • 首先,引入 CAD 模型,在 CAD 模型上預先定義幾個不同的 3D 關鍵點。

  • 然後利用深度學習網路,來建立 3D 關鍵點和它們在影象上的 2D 投影之間的關聯。

  • 最後,利用這樣的對應關係為每個目標物體建立 2D/3D 約束。

整體的網路架構如上圖所示,8 個分支頭分別對應中心點分類、中心點偏移、2D 關鍵點、3D 座標、關鍵點置信度、物體方向、維度,以及 3D 檢測置信度得分。所有迴歸資訊最後都會被用來恢復物體在攝像機座標中的 3D 邊界框。

而為了自動生成 2D/3D 關鍵點的真實標註,研究人員還提出了一種自動模型擬合方法。也就是根據攝像頭觀測到的 2D 影象,自動擬合不同的 3D 物體模型和物體掩碼。

具體而言,該方法是基於不同種類的車輛 CAD 模型,以及 KITTI 資料集中的 3D 物體樣本實現的。

研究人員指出,實際上,3D 形狀標註的過程可以看作一個優化問題,其目的是計算出最佳引數組合,來適應 AI 通過“視覺觀察”得到的結果(如 2D 物體掩碼、3D 邊界框、3D 點雲等)。

實驗結果

研究人員在 KITTI 3D 目標檢測基準上測試了這一新方法的效能。

KITTI 3D 目標檢測基準包含 7481 張訓練影象、7518 張測試影象,以及對應的點雲,總共包括 80256 個標記物件。

在這項研究中,由於測試集的真實資料不可用,研究人員將訓練資料分為訓練集(3712 個樣本)和驗證集(3769 個樣本),用以完善模型。

另外,用以測試的模型是在 2 塊英偉達 V100 上訓練完成的,批量大小設為 16。

△紅色代表最佳結果,藍色代表次佳結果

可以看到,在全部 6 個任務中,採用了 48 個關鍵點的 AutoShape 方法取得了 4 項第一。而採用 16 個關鍵點的 AutoShape 速度更快,準確性損失也並不大。

此外,從上圖中可以看出,模型預測的 3D 形狀與真實物體一致性較高。

即使是畫面中位置較遠的車輛、被截斷/遮擋的物體,其位置也能被準確檢測到。

總而言之,相比於其他現有方法,AutoShape 更準確,並且推理速度更快,可以達到 25FPS 的處理速度,也就是說可以實現實時檢測的效果。

論文地址:

https://arxiv.org/abs/2108.11127

專案地址:

https://github.com/zongdai/AutoShape