Self-Attention：Learning QKV step by step

阿新 • • 發佈：2022-12-13

邱錫鵬 NNDL 學習筆記

學習自注意力模型不難，研究透徹還是需要花點功夫。

這張圖賞心悅目，看上去並不複雜，但其中的細節還需慢慢體會。

1. 為了提高模型能力，自注意力模型經常採用查詢-鍵-值（Query-Key-Value，QKV）模式.

怎麼就提高模型能力了呢？為什麼用QKV就能提高？

NNDL配套實驗書，講解了“簡單自注意力模型”，先體會最簡單的模型有助於對“自注意力”這個“自”的理解。

鍵值對注意力 VS. 自注意力，會發現公式中的不同之處：QKV變成了XXX。（注意：此處的QKV，KV來自Key Value Pair注意力，Q來自外部。不是自注意力的Query-Key-Value，QKV均來自內部。）

一切都源於自身，所以是：Self注意力。

簡單自注意力模型 不帶引數，模型能力有限。

“查詢-鍵-值”模式 帶引數，提高了模型能力。自注意力模型常用QKV方式。

這就說到了本質：QKV是帶引數的，所以能力提高了。

放在一起仔細端詳~ 發現其中奧妙：

2. X線性對映到三個不同的空間QKV

把圖拆開了看更方便。就是最簡單的線性變換，沒有難度。注意一下維度。QK維度相等，why？ V的維度可以不一樣？

3. 鍵值對注意力 VS. QKV

除了QKV的來源不一樣，其他都一樣。所以，如果前面的注意力機制學的沒問題，這裡的自注意力也不難。

4. QKV縮放點積模型的使用

計算注意力模型分佈，並softmax歸一化

5. 鍵值對注意力模式聚合

根據求得的分佈α，結合V，計算加權平均，得到輸出向量H。這裡採用的方式是鍵值對注意力模式。

6. 合在一起在看圖，就覺得很清晰了

這時候，不只是覺得圖片好看，脈絡也清清楚楚了~

Self-Attention：Learning QKV step by step

邱錫鵬 NNDL 學習筆記學習自注意力模型不難，研究透徹還是需要花點功夫。這張圖賞心悅目，看上去並不複雜，但其中的細節還需慢慢體會。

Step by Step！Kubernetes持續部署指南

在很久很久以前的一份工作中，我的任務是將老式的LAMP堆疊切換到Kubernetes上。那會兒我的老闆總是追逐新技術，認為只需要幾天時間就能夠完成新舊技術的迭代——鑑於那時我們甚至對容器的工作機制一無所知，所以不得

Step by step install and run Hadoop 2.9.1 on Windows 10 64 bit (最全步驟整理)

1. Java Download the Java 1.8 64 bit version fromhttps://java.com/en/download/ --------- If not 64 bit java there will be error when start resource node manager

WDA SEARCH step by step

之前寫了不少的東西，其實大多數都是給自己看的，我的習慣是把資料放到網上，用的時候直接看部落格。

Building your Deep Neural Network: Step by Step

Building your Deep Neural Network: Step by Step Welcome to your week 4 assignment (part 1 of 2)! You have previously trained a 2-layer Neural Network (with a single hidden layer). This week, you will

Building your Recurrent Neural Network - Step by Step

所需檔案：本地下載 Building your Recurrent Neural Network - Step by Step Welcome to Course 5\'s first assignment! In this assignment, you will implement key components of a Recurrent Neural Network

samba(step by step)

技術標籤：sambalinuxfedora經驗分享 samba(step by step) line with \'#\' startd is linux CMD, some need root authorize.