Transformer 理解
一、向量(矩阵)点积(相乘)可以表示相似度
想像一个三维坐标轴,将两个向量点积,如果:
- 结果为正:两向量方向一致,相似度高
- 结果为 0:两向量垂直
- 结果为负:两向量背离,相似度低
二、注意力机制(Q、K、V)理解
(对应图中:E 为 V)
Q:询问谁与我相似(展示自己的特征) K:回答谁与我相似(也展示自己的特征)
如上一,点积是为了寻找相似度,“谁与我更相似呢”
点积越大,代表相似度越高,代表其互相注意度也高,比如 fluffy 和 blue 与 creature
归一化后: