1. 程式人生 > >機器學習、深度學習實戰細節(batch norm、relu、dropout 等的相對順序)

機器學習、深度學習實戰細節(batch norm、relu、dropout 等的相對順序)

  • cost function,一般得到的是一個 scalar-value,標量值;
    • 執行 SGD 時,是最終的 cost function 獲得的 scalar-value,關於模型的引數得到的;

1. 分類和預測

評估:

  • 準確率; 速度;健壯性;
  • 可規模性; 可解釋性;

2. Data Augmentation

  • 平移、旋轉/翻轉、縮放、加噪聲

3. 溢位

  • 矩陣求逆,W=PQ1

    W = P/(Q+1e-5*eye(d));

4. batch norm、relu、dropout 等的相對順序

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

一文中,作者指出,“we would like to ensure that for any parameter values, the network always produces activations with the desired distribution”(produces activations with the desired distribution,為啟用層提供期望的分佈)。

因此 Batch Normalization 層恰恰插入在 Conv 層或全連線層之後,而在 ReLU等啟用層之前。而對於 dropout 則應當置於 activation layer 之後。

-> CONV/FC -> BatchNorm -> ReLu(or other activation) -> Dropout -> CONV/FC ->;