1. 程式人生 > 實用技巧 >【論文筆記】Learn Spelling from Teachers: Transferring Knowledge from LM to Seq-to-Seq Speech Recognition

【論文筆記】Learn Spelling from Teachers: Transferring Knowledge from LM to Seq-to-Seq Speech Recognition

題目

Learn Spelling from Teachers: Transferring Knowledge from Language
Models to Sequence-to-Sequence Speech Recognition

連結

https://arxiv.org/pdf/1907.06017.pdf

標籤

知識蒸餾, 外部語言模型, 端到端, sequence-to-sequence

Contributions

基於知識蒸餾的思想,在訓練階段,以一個預訓練的基於RNN的LM作為“老師”模型得到軟標籤(soft label),並以此"指導"一個基於Transformer的seq2seq的模型訓練(擬合老師模型的softmax分佈)

在這裡插入圖片描述

亮點與啟發

文章指出:

  • 類似於LAS的seq-to-seq模型中的語言模型是一個受限制的語言模型(conditional),原因在於其是基於聲音-文字這種成對資料訓練的,這種資料相對較少,相比於由大量純文字語料庫訓練出來的語言模型,準確率相對較低,故為受限。
  • 傳統的語言模型融合方式(Shallow fusion / Deep fusion等)會增加模型本身的複雜度,特別是在測試階段也需要其參與。
  • soft labels比hard labels包含著更多的資訊,其概率分佈資訊更加柔和,更利於另一個模型進行擬合
    在這裡插入圖片描述

文章重點

使用KL散度(Kullback-Leibler divergence),即相對熵

作為描述學生模型與老師模型輸出概率分佈的相似性,並作為最終的損失函式的重要組成部分。
在這裡插入圖片描述

而在最終的損失函式中,採用一個引數λ ∈ [0, 1]來權衡seq2seq模型本身與LST(Learn Spelling from Teachers)各自分佈所佔的比重:
在這裡插入圖片描述
最關鍵的是,這樣訓練出來的模型,在測試階段完全可以去掉語言模型參與測試,在減小模型複雜度的同時保持較高準確率。

實驗結果

在這裡插入圖片描述

持續記錄關於端到端語音識別論文與資料:
https://github.com/zyascend/End-to-End-Speech-Recognition-Learning