論文筆記-Neural Machine Translation by Jointly Learning to Align and Translate
阿新 • • 發佈:2017-12-23
tps idt 個人理解 att date eight default con ati
提出attention機制,用於機器翻譯。
背景:基於RNN的機器翻譯
基本思路是首先對語言x進行編碼encoder,然後解碼decoder為語言y。encoder和decoder可以看做兩層RNN? 編碼的隱藏層h和解碼的隱藏層s
RNN encoder-decoder :
1)對輸入的sentence,表示為
2)接下來是decoder階段,根據之前預測的翻譯單詞以及輸入的encoder
本文的創新:
對(2)式的條件概率進行改寫,對每個yi,context的encoder各異,記為ci
關於ci的計算:ci表示成一系列hi的線性加權,這裏的hi是encoder端的隱藏層,定義為annotation,hi(個人理解)為輸入的第i個詞附近的information(簡單的說就是輸入端i的表示)
alpha系數:
alpha或者說e代表了第j個輸入詞的annotation與decoder端第i-1個隱藏狀態的importance,這樣得到的ci會對某些位置pay attention,等價地可以看做翻譯詞i對原始輸入某些位置pay attetnion
使用BiRNN:
本文使用雙向RNN來catch住向前、向後的hi拼接到一起,這樣的annotation更能個表征輸入詞i周圍的信息。
網絡結構:
論文筆記-Neural Machine Translation by Jointly Learning to Align and Translate