Page 16 · SimLabs LLM Visual

多头注意力：为什么要分成多个 Head

单个 Attention 头当然也能算权重，但它往往只能给出一种“混合视角”。多头注意力做的事不是简单复制四遍，而是让不同 Head 用不同的 W^Q / W^K / W^V 去看不同关系，再把这些子结果拼起来，形成更完整的 token 表示。

返回系列首页回到 QKV 实验

看同一句话被不同 Head 分头理解对比单头平均和多头分工看懂 Concat + W^O

同一句话，不同 Head 会分头看不同线索

先选一个场景，再选当前正在更新的 query token。下面四张卡片代表四个不同的注意力头。它们看到的是同一句话，但会各自把注意力压在不同位置上，因此学到的是不同类型的关系。

选中的 Head

当前 Head 的注意力分布

看看它最想参考哪些 token。

这一头到底在帮什么忙

为什么单头不够：平均之后，关键线索会被揉在一起

左侧把四个 Head 的权重取平均，近似看成“只有一个混合视角”的结果；右侧保留每个 Head 独立的一行。你会看到，多头的价值不只是更宽，而是让不同关系先被分开建模，再交给后面的投影层融合。

单头混合视角

把四个 Head 平均后的分布

如果所有关系都被揉进同一行，最显眼的通常只剩少数“折中后的高峰”。

多头分工

每个 Head 保留自己的注意力行

高亮格说明：不同 Head 常常在盯不同对象，所以后面才有东西可拼。

提示：同一列反复高亮，说明多个 Head 在该位置达成共识；不同列高亮，说明它们在分工。

Concat + W^O：把多路小向量重新拼成一个完整表示

每个 Head 都会先产出一个子向量。真正送往后续层的，不是某一个 Head 的结果，而是先 Concat(head₁, ..., head_h)，再通过输出投影 W^O 混回模型宽度。你可以手动开关哪些 Head 参与融合，观察最终表示会失去哪些线索。

每个 Head 的子向量

Head Outputs

Concat

拼接后的长向量

Concat 会保留“每个 Head 分别看到了什么”，还没有把它们混成一团。

Output Projection

重新投影回模型空间

Final = Concat × W^O。这一步负责把多路子空间信息重新融合成一个新的 token 表示。

学完这一页，最好记住三件事

多头不是重复算四次

不同 Head 的参数不同，所以它们学到的不是同一行权重的拷贝，而是不同子空间里的不同关系视角。

先分工，再融合

多头注意力的关键结构是“先让各个 Head 分头建模，再用 Concat + W^O 汇总”，而不是一开始就把所有关系混在一起。

它让表示更丰富，不只是更大

真正提升的是同一个 token 可同时携带更多关系线索，比如语法、指代、时间和局部搭配，而不必让一个头硬扛全部任务。