当前投影:身份层级 × 性别
越靠右表示越偏高层级身份,越靠上表示越偏女性特征。
Token 进入模型之后,并不会一直以离散编号的形式存在,而是会被映射成向量。Embedding 的厉害之处在于:语义相近、功能相似、上下文相近的概念,通常会在高维空间里逐渐靠近。你可以把这一页当成“词向量地图”。
真实 embedding 往往有几百到几千维,这里只选出两维做投影。你看到的不是“完整空间”,而是高维语义空间在一个平面上的切片。切换不同投影,会看到词语之间的相对位置发生变化。
越靠右表示越偏高层级身份,越靠上表示越偏女性特征。
向量加减并不神秘。它的含义通常是:保留某些关系,替换某些属性。如果某个方向恰好编码了“性别变化”或“身份层级变化”,那么在那个方向上做向量位移,就可能找到新的对应词。
如果两个词常出现在相似上下文里,训练过程就会逐渐把它们调整到更接近的位置。
embedding 不是为了“好看”而学习,而是为了更好地完成预测任务。任务需求会反过来塑造空间结构。
二维图很适合教学,但它只是高维空间的一角。真实模型中的语义关系通常分布在更多维度上。