Page 05 · SimLabs LLM Visual

Embedding：语义空间如何形成

Token 进入模型之后，并不会一直以离散编号的形式存在，而是会被映射成向量。Embedding 的厉害之处在于：语义相近、功能相似、上下文相近的概念，通常会在高维空间里逐渐靠近。你可以把这一页当成“词向量地图”。

返回系列首页回看神经网络基础

看词语如何聚类比较最近邻体验向量类比

先把词语放进语义空间里

真实 embedding 往往有几百到几千维，这里只选出两维做投影。你看到的不是“完整空间”，而是高维语义空间在一个平面上的切片。切换不同投影，会看到词语之间的相对位置发生变化。

越靠右表示越偏高层级身份，越靠上表示越偏女性特征。

要点： embedding 的每个维度通常不是人手命名出来的。这里只是为了教学，把几种常见关系压缩成了可解释的“投影轴”，帮你建立空间直觉。

向量加减并不神秘。它的含义通常是：保留某些关系，替换某些属性。如果某个方向恰好编码了“性别变化”或“身份层级变化”，那么在那个方向上做向量位移，就可能找到新的对应词。

一句话理解类比： “国王 - 男人 + 女人 = 女王” 不是魔术，而是在说：如果向量空间里真的学到了“性别变化”这个方向，那么把这个方向从一个词挪到另一个词身上，就可能得到结构上对应的新词。

如果两个词常出现在相似上下文里，训练过程就会逐渐把它们调整到更接近的位置。

embedding 不是为了“好看”而学习，而是为了更好地完成预测任务。任务需求会反过来塑造空间结构。

二维图很适合教学，但它只是高维空间的一角。真实模型中的语义关系通常分布在更多维度上。