1. 程式人生 > >[深度學習論文筆記][arxiv 1804]ExFuse: Enhancing Feature Fusion for Semantic Segmentation

[深度學習論文筆記][arxiv 1804]ExFuse: Enhancing Feature Fusion for Semantic Segmentation

[arxiv 1804]ExFuse: Enhancing Feature Fusion for Semantic Segmentation

Zhenli Zhang, Xiangyu Zhang, Chao Peng, Dazhi Cheng, Jian Sun

from Fudan, Face++ and BIT

Motivation

這篇文章著重研究語義分割網路中高低層特徵融合的效率問題。在很多工作中,融合不同尺度的特徵是提高分割效能的一個重要手段。低層特徵解析度更高,包含更多位置、細節資訊,但是由於經過的卷積更少,其語義性更低,噪聲更多。高層特徵具有更強的語義資訊,但是解析度很低,對細節的感知能力較差。如何將兩者高效融合,取其長處,棄之糟泊,是改善分割模型的關鍵。

這篇文章從兩個大的方向上提出了改善思路,即1.增加低層特徵的語義和2.在高層特徵中增加更多空間資訊。其中包括5個改善的細節,在下面一一介紹。

Method

這篇文章是基於GCN網路[1]進行改進的。新提出的結構直接在GCN上進行新增。
作者首先認為GCN的高低層特徵融合效率比較低。為了證明這點,作者在VOC 2012的驗證集上,使用不同的網路主幹逐層融合不同尺度的特徵,觀察其效能變化,如下圖所示。可見融合第三級(res4)特徵對效能提升最大,而更底層的特徵則對效能幾乎沒有影響。因此需要提出一些更高效的方法。

這裡寫圖片描述

本文工作的結構圖如下圖所示,其中虛線標出的SS, SEB, ECRE和DAP是本文提出的。

這裡寫圖片描述

Direction 1: Introducing More Semantic Information into Low-level Features

這篇文章中,作者為了增加低層特徵的語義資訊做了三點改進:

  1. 網路結構重排(layer rearrengement),構建更適合於分割的預訓練模型;
  2. 深度語義監督(semantic supervision);
  3. 語義嵌入支路(semantic embedding branch),將高層特徵融入低層特徵。

Layer rearrangement

ResNeXt網路結構中,各級的網路包含的殘差單元個數為{3,4,23,3}。為了提高底層特徵的語義性,一個想法便是讓低層的兩級網路擁有的層數更多。因此作者將殘差單元個數重排為{8,8,9,8},並重新在ImageNet上預訓練模型。重排後網路的分類效能沒有明顯變化,但是分割模型可以提高約0.8個點(mean intersection over union)的效能。

Semantic Supervision (SS)

深度語義監督其實在其他的一些工作裡(如GoogLeNet,邊緣檢測的HED等等)已經使用到了。這裡的使用方法基本上沒有太大變化,能夠帶來大約1個點的提升。
參見結構圖。

Semantic Embedding Branch (SEB)

語義嵌入支路的結構如下圖所示:

這裡寫圖片描述

其做法是將高層特徵上取樣後,與低層特徵逐畫素相乘,用在GCN之前。
該部分能帶來大約0.7個點的提升。

Direction 2: Embedding More Spatial Resolution into High-level Features

高層特徵空間資訊的損失只要是由於其自身的低解析度(尺寸小)。這篇文章嘗試將更多的空間特徵融入到通道(channel)中去,包括:

  1. 通道解析度嵌入(explicit channel resolution embedding);
  2. 稠密鄰域預測(densely adjacent prediction)。

Explicit Channel Resolution Embedding (ECRE)

其思路是在上取樣支路中使用[2,3,4]工作中都使用到的子畫素上取樣模組(sub-pixel upsample)。作者的出發點並不是前人工作中強調的如速度快、消除反捲積的棋盤效應等等,而是通過這個結構能夠讓和空間資訊相關的監督資訊回傳到各個通道中,從而讓不同通道包含不同空間資訊。該模組和原有的反捲積一起使用才能顯示出更好的效能。同單獨使用反捲積相比,效能可以提高約0.6個點。

Densely Adjacent Prediction (DAP)

DAP模組只使用在輸出預測結果的時候。其想法也是通過擴充套件通道數來增加空間資訊。舉一個例子來描述其功能,假設DAP的作用區域為3x3,輸出結果的通道數為21,則擴充套件後的輸出通道數為21x3x3。每3x3個通道融合成一個通道。如在最終結果中,第5通道(共21通道)的(12,13)座標上的畫素,是通過DAP之前的第5+0通道(11,12)、5+1通道的(11,13)、5+2通道的(11,14)、5+3通道的(12,12)、5+4通道的(12,13)、5+5通道的(12,14)…平均得到的。DAP能帶來約0.6個點的提升。

Experiment

這篇文章的另一貢獻是在VOC 2012的測試集上取得了目前最好的效能。有關網路訓練的詳細步驟可以參見文章的實驗部分內容。

這裡寫圖片描述

Reference

[1] Peng, C., Zhang, X., Yu, G., Luo, G., Sun, J.: Large kernel matters - improve
semantic segmentation by global convolutional network. (2017)

[2] Shi, W., Caballero, J., Huszar, F., Totz, J., Aitken, A.P., Bishop, R., Rueckert, D., Wang, Z.: Real-time single image and video super-resolution using an effcient sub-pixel convolutional neural network. (2016) 1874-1883

[3] Aitken, A., Ledig, C., Theis, L., Caballero, J., Wang, Z., Shi, W.: Checkerboard artifact free sub-pixel convolution: A note on sub-pixel convolution, resize convolution
and convolution resize. (2017)

[4] Wang, P., Chen, P., Yuan, Y., Liu, D., Huang, Z., Hou, X., Cottrell, G.: Understanding convolution for semantic segmentation. (2017)