1. 程式人生 > 其它 >Self-Attention:Learning QKV step by step

Self-Attention:Learning QKV step by step

邱錫鵬 NNDL 學習筆記

學習自注意力模型不難,研究透徹還是需要花點功夫。

這張圖賞心悅目,看上去並不複雜,但其中的細節還需慢慢體會。

1. 為了提高模型能力,自注意力模型經常採用查詢-鍵-值(Query-Key-Value,QKV)模式.

怎麼就提高模型能力了呢?為什麼用QKV就能提高?

NNDL配套實驗書,講解了“簡單自注意力模型”,先體會最簡單的模型有助於對“自注意力”這個“自”的理解。

鍵值對注意力 VS. 自注意力,會發現公式中的不同之處:QKV變成了XXX。(注意:此處的QKV,KV來自Key Value Pair注意力,Q來自外部。不是自注意力的Query-Key-Value,QKV均來自內部。)

一切都源於自身,所以是:Self注意力。

簡單自注意力模型 不帶引數,模型能力有限。

“查詢-鍵-值”模式 帶引數,提高了模型能力。自注意力模型常用QKV方式 。

這就說到了本質:QKV是帶引數的,所以能力提高了。

放在一起仔細端詳~ 發現其中奧妙:

2.  X線性對映到三個不同的空間QKV

把圖拆開了看更方便。就是最簡單的線性變換,沒有難度。注意一下維度。QK維度相等,why? V的維度可以不一樣?

3. 鍵值對注意力 VS. QKV

除了QKV的來源不一樣,其他都一樣。所以,如果前面的注意力機制學的沒問題,這裡的自注意力也不難。

4. QKV縮放點積模型的使用

計算注意力模型分佈,並softmax歸一化

5. 鍵值對注意力模式聚合

根據求得的分佈α,結合V,計算加權平均,得到輸出向量H。這裡採用的方式是鍵值對注意力模式。

6. 合在一起在看圖,就覺得很清晰了

這時候,不只是覺得圖片好看,脈絡也清清楚楚了~