Transformer 理解

一、向量(矩阵)点积(相乘)可以表示相似度

想像一个三维坐标轴,将两个向量点积,如果:

  1. 结果为正:两向量方向一致,相似度高
  2. 结果为 0:两向量垂直
  3. 结果为负:两向量背离,相似度低

二、注意力机制(Q、K、V)理解

(对应图中:E 为 V)

Q:询问谁与我相似(展示自己的特征) K:回答谁与我相似(也展示自己的特征)

如上一,点积是为了寻找相似度,“谁与我更相似呢”

点积越大,代表相似度越高,代表其互相注意度也高,比如 fluffy 和 blue 与 creature

归一化后: