Self-Attention:Learning QKV step by step
阿新 • • 發佈:2022-12-13
邱錫鵬 NNDL 學習筆記
學習自注意力模型不難,研究透徹還是需要花點功夫。
這張圖賞心悅目,看上去並不複雜,但其中的細節還需慢慢體會。
1. 為了提高模型能力,自注意力模型經常採用查詢-鍵-值(Query-Key-Value,QKV)模式.
怎麼就提高模型能力了呢?為什麼用QKV就能提高?
NNDL配套實驗書,講解了“簡單自注意力模型”,先體會最簡單的模型有助於對“自注意力”這個“自”的理解。
鍵值對注意力 VS. 自注意力,會發現公式中的不同之處:QKV變成了XXX。(注意:此處的QKV,KV來自Key Value Pair注意力,Q來自外部。不是自注意力的Query-Key-Value,QKV均來自內部。)
一切都源於自身,所以是:Self注意力。
簡單自注意力模型 不帶引數,模型能力有限。
“查詢-鍵-值”模式 帶引數,提高了模型能力。自注意力模型常用QKV方式 。
這就說到了本質:QKV是帶引數的,所以能力提高了。
放在一起仔細端詳~ 發現其中奧妙:
2. X線性對映到三個不同的空間QKV
把圖拆開了看更方便。就是最簡單的線性變換,沒有難度。注意一下維度。QK維度相等,why? V的維度可以不一樣?
3. 鍵值對注意力 VS. QKV
除了QKV的來源不一樣,其他都一樣。所以,如果前面的注意力機制學的沒問題,這裡的自注意力也不難。
4. QKV縮放點積模型的使用
計算注意力模型分佈,並softmax歸一化
5. 鍵值對注意力模式聚合
根據求得的分佈α,結合V,計算加權平均,得到輸出向量H。這裡採用的方式是鍵值對注意力模式。
6. 合在一起在看圖,就覺得很清晰了
這時候,不只是覺得圖片好看,脈絡也清清楚楚了~