論文筆記-Neural Machine Translation by Jointly Learning to Align and Translate

阿新 • • 發佈：2017-12-23

tps idt 個人理解 att date eight default con ati

提出attention機制，用於機器翻譯。

背景：基於RNN的機器翻譯

基本思路是首先對語言x進行編碼encoder，然後解碼decoder為語言y。encoder和decoder可以看做兩層RNN? 編碼的隱藏層h和解碼的隱藏層s

RNN encoder-decoder :

1）對輸入的sentence，表示為，通過循環層得到隱藏層，將向量c表示為隱藏層的函數，c即為輸入encode出來的向量。

2）接下來是decoder階段，根據之前預測的翻譯單詞以及輸入的encoder 來預測下一個單詞

技術分享圖片

本文的創新：

對（2）式的條件概率進行改寫，對每個yi，context的encoder各異，記為ci

技術分享圖片

關於ci的計算：ci表示成一系列hi的線性加權，這裏的hi是encoder端的隱藏層，定義為annotation，hi（個人理解）為輸入的第i個詞附近的information（簡單的說就是輸入端i的表示）

技術分享圖片

alpha系數:

技術分享圖片

alpha或者說e代表了第j個輸入詞的annotation與decoder端第i-1個隱藏狀態的importance，這樣得到的ci會對某些位置pay attention，等價地可以看做翻譯詞i對原始輸入某些位置pay attetnion

技術分享圖片

使用BiRNN：

本文使用雙向RNN來catch住向前、向後的hi拼接到一起，這樣的annotation更能個表征輸入詞i周圍的信息。

網絡結構：

技術分享圖片

論文筆記-Neural Machine Translation by Jointly Learning to Align and Translate

tps idt 個人理解 att date eight default con ati 提出attention機制，用於機器翻譯。背景：基於RNN的機器翻譯基本思路是首先對語言x進行編碼encoder，然後解碼decoder為語言y。encoder和decoder可