Page 05 · SimLabs LLM Visual

Embedding:语义空间如何形成

Token 进入模型之后,并不会一直以离散编号的形式存在,而是会被映射成向量。Embedding 的厉害之处在于:语义相近、功能相似、上下文相近的概念,通常会在高维空间里逐渐靠近。你可以把这一页当成“词向量地图”。

看词语如何聚类 比较最近邻 体验向量类比

先把词语放进语义空间里

真实 embedding 往往有几百到几千维,这里只选出两维做投影。你看到的不是“完整空间”,而是高维语义空间在一个平面上的切片。切换不同投影,会看到词语之间的相对位置发生变化。

当前投影:身份层级 × 性别

越靠右表示越偏高层级身份,越靠上表示越偏女性特征。

要点: embedding 的每个维度通常不是人手命名出来的。这里只是为了教学,把几种常见关系压缩成了可解释的“投影轴”,帮你建立空间直觉。

做一次向量类比

向量加减并不神秘。它的含义通常是:保留某些关系,替换某些属性。如果某个方向恰好编码了“性别变化”或“身份层级变化”,那么在那个方向上做向量位移,就可能找到新的对应词。

一句话理解类比: “国王 - 男人 + 女人 = 女王” 不是魔术,而是在说:如果向量空间里真的学到了“性别变化”这个方向,那么把这个方向从一个词挪到另一个词身上,就可能得到结构上对应的新词。

Embedding 为什么会长成这样

同现越像,位置越近

如果两个词常出现在相似上下文里,训练过程就会逐渐把它们调整到更接近的位置。

空间由任务塑形

embedding 不是为了“好看”而学习,而是为了更好地完成预测任务。任务需求会反过来塑造空间结构。

投影只展示一小部分

二维图很适合教学,但它只是高维空间的一角。真实模型中的语义关系通常分布在更多维度上。