1. 程式人生 > 資訊 >暴雨/夜間/人群密集難倒視訊分析,三篇論文攻克難題

暴雨/夜間/人群密集難倒視訊分析,三篇論文攻克難題

近日,由耶魯-新加坡國立大學學院(Yale-NUS College)副教授 Robby Tan 領導的研究團隊,在 2021 年國際計算機視覺與模式識別會議(CVPR)上發表了三項研究,介紹利用計算機視覺技術提高錄製時受環境因素影響視訊的分析準確度

這三項研究分別優化了解決降雨因素、夜間因素和人群密集環境因素這 3 種視訊分析中較常見問題的方法,均可用於改善監控裝置、自動駕駛汽車、視訊遊戲和體育節目轉播等與計算機視覺相關的應用效能。

第一項研究介紹科研人員利用幀對齊和深度估計等方法,實現同時處理雨天錄製視訊中雨水條紋和雨幕效果這兩種主要影響視訊清晰度的問題。

該論文題目為《具有傳輸深度一致性的自對齊視訊去降雨影響(Self-Aligned Video Deraining with Transmission-Depth Consistency)》,發表在 2021 年國際計算機視覺與模式識別會議(會議時間 6 月 19 至 6 月 25 日)上。

論文地址:點此檢視

第二項研究是研究人員通過訓練半監督網路來增加視訊動態範圍和抑制光效應,更徹底地解決了夜間視訊清晰度問題。

該論文題目為《通過增加動態範圍和抑制燈光效果來增強夜間能見度(Nighttime Visibility Enhancement by Increasing the Dynamic Range and Suppression of Light Effects)》,發表在 2021 年國際計算機視覺與模式識別會議上。

論文地址:點此檢視

第三項研究同樣也是處理環境因素的影響,但不是雨天和夜間這種自然環境因素,而是視訊中出現人群密集這種社會場景因素影響。研究人員結合自頂向下和自底向上方法

,提高了估計視訊中 3D 人體姿態準確度,進而提升了視訊處理效果。

該論文題目為《基於自頂向下和自底向上網路的單目三維多人姿態估計(Monocular 3D Multi-Person Pose Estimation by Integrating Top-Down and Bottom-Up Networks)》,發表在 2021 年國際計算機視覺與模式識別會議上。

論文地址:點此檢視

一、計算機視覺分析易受環境影響

計算機視覺技術越來越多地應用於自動監控系統、自動駕駛汽車、人臉識別、護理和社交距離工具等領域。

使用者需要準確可靠的視覺資訊,才能充分利用視訊分析應用程式優勢,但是視訊資料質量通常會受到環境因素影響

,例如拍攝時在下雨或處於夜間環境,以及視訊影象中存在人群(一個場景中有多個重疊的人的影象)這三種較常見情況。這三種場景在實際中可能單獨出現,也可能混合出現。

具體來說,下雨降低視訊能見度的原因包括雨水流下產生的條紋和雨水積聚(或稱雨幕效果)。

雨水條紋部分會遮擋背景外觀,導致視訊影象場景看起來模糊。雨水積聚就像出現霧一樣,會沖淡場景顏色,降低視訊整體對比度併產生遮蔽效果。這兩者都會降低場景能見度,因此,要獲得更好的視訊背景場景視覺資訊,人們就需要去除視訊中雨水條紋和雨水積聚問題。

而晚上拍攝的視訊存在的問題,跟在雨中拍攝的視訊存在的問題有差異。

夜晚拍攝會受到光照變化和多個人造光源影響,夜間視訊影象不僅存在低光區域,還有輝光燈、眩光燈和泛光燈照射區域,這會嚴重降低影象可見度。因此,通過提高低光區域強度來增強夜間影象可見性,同時抑制夜間光效應(輝光、眩光)是一項重要任務。

除了下雨和夜間等因素影響,當場景中出現很多人對於視訊分析來講也是一大挑戰。

由於其對現實世界應用很重要,基於單目(單個相機拍攝的視訊)的 3D 人體姿態估計技術已引起了越來越多關注。但是,這個技術存在挑戰,就是當場景中存在多個人時,人多會產生遮擋,導致人體檢測錯誤以及人體關節分組識別不可靠。

為了解決視訊分析中遇到的這些影響準確性的環境因素問題,Robby Tan 和來自中國香港城市大學、瑞士蘇黎世聯邦理工學院和騰訊遊戲人工智慧研究中心研究人員一起進行了三項研究,分別提高雨天視訊、夜間視訊和有人群密集場景視訊處理準確性。

二、研究一:幀對齊和深度估計消除視訊中雨水影響

針對雨天錄製視訊中存在的問題,研究人員先用合成降雨視訊(帶有地面實況)和真實降雨視訊(沒有地面實況)來訓練對齊網路,然後研究人員使用基於特徵的對齊網路去對齊幾個連續的輸入幀。最後,對齊網路根據相鄰幀的對齊特徵,刪除每一幀中的雨條紋。

處理雨幕問題,研究人員使用了積累網路,利用從視訊中獲得的深度線索,結合去除雨水條紋的影象,最終輸出無雨水影響的影象。

▲ 消除下雨環境影響的影象處理流程

從效果上來看三種方法都相較於之前方法有所改進。與現有專注於去除雨水條紋方法不同,新方法可以同時去除雨水條紋和雨幕效果。

▲ 從上到下,第一張圖時輸入(現有方法),中間圖顯示去除雨痕的中間輸出,第三張是使用研究團隊新方法去除雨水痕跡和雨幕效果的最終輸出

三、研究二:半監督網路被用於優化夜間影象

處理夜間視訊目標是,通過同時增加動態範圍(以處理低光和過度曝光區域)和抑制光效應(輝光、眩光等)來提高其可見性。

研究人員提出一個半監督網路,使用配對影象(高動態範圍成像的地面實況)來訓練半監督網路以增加動態範圍,並使用未配對的影象(沒有地面實況)來訓練半監督網路以抑制燈光效果,得到兩種訓練網路。

具體操作是研究人員首先使用線性化網路估計輸入夜間影象的逆條件隨機場(CRF),獲得線性化影象後,將其分解為低頻(光場,LF,包含輝光、眩光效果)和高頻(同態濾波,HF,包含噪聲、紋理等效果)特徵圖。光場特徵圖和同態濾波特徵圖使用訓練得到的兩個網路來,分別抑制光效應和去除噪聲。最後將處理過的光場特徵圖和同態濾波特徵圖融合並輸出。

▲ 消除夜間環境影響的影象處理流程

夜間視訊影象新技術同樣解決了以前方法處理不徹底的問題:夜間影象以及視訊中因為眩光不能被忽視時對於視訊清晰度的影響。

▲ 上面四張圖是研究人員採用新方法,抑制光效併產生增強能見度;下面三張圖是現有方法,無法處理的光學效果(如眩光),還錯誤增強了它

四、研究三:結合兩種 3D 人體姿態估計方法,實現更可靠輸出

而針對 3D 人體姿態估計問題,研究人員通過結合兩種現有方法(即自頂向下方法和自底向上方法)來估計視訊中的 3D 人體姿態

自頂向下網路被用來估計每個檢測到的邊界框內的人體關節,生成聯合熱圖(heatmap)反饋到自底向上網路,自底向上網路同樣也進行估計生成影象。最後研究人員將自頂向下和自底向上網路輸出的 3D 估計姿態輸入到整合網路中,以獲得給定影象序列的最終 3D 姿態估計影象。

▲ 3D 人體姿態估計改進流程

3D 人體姿態新方法則可以產生更可靠的姿態估計,並更穩健地處理個體之間距離(或尺度變化)。

▲ 從上到下,第一張是輸入圖;第二張是採取自頂向下方法,受人際遮擋影響;第三張是自底向上方法,對尺寸(3D)變化很敏感;第四張是研究人員提出的新方法

結語:避免物理環境干擾,是計算機視覺熱點

計算機視覺技術在應用時會受到各種各樣的影響,不止是下雨、夜晚或者出現人群等情況,比如白天光線過強、攝像頭處於逆光角度等因素也會影響計算機視覺技術的處理效果。有時視訊中只會有一種環境因素影響分析準確性,有時會混合出現多種,這種情況下針對每個因素都需要分別研究最優方法,最後才能分因素逐步優化視訊分析結果。

計算機視覺是人工智慧最廣泛的技術方向之一,如何減少物理環境對計算機視覺應用方面影響仍是持續性熱點話題。