Page 02 · SimLabs LLM Visual

字符、Token 与向量

大模型不会直接“看懂文字”。文本首先会被切成模型能够处理的 token,再进一步映射成向量。你可以在这一页输入一句话、切换示例、点击 token,看看它们如何一步步变成机器可计算的表示。

输入一句话,观察它如何被拆开

为了方便入门演示,这里做的是“教学型 token 化”而不是完整工业级 tokenizer。目标是先帮助你理解:文本不是直接进入模型,而是先被拆成更稳定的单元。

字符视角

先把文本看成最细粒度的字符流。字符是人类直觉里的最小单元,但不一定是模型最适合处理的单元。

Token 视角

为了更稳定地处理语言,模型常常先把文本切成 token。点击下面任意一个 token,可以查看它对应的“示意向量”。

先建立直觉: 文本进入模型前,通常要先把“连续字符串”变成“离散 token 序列”;而真正进入神经网络计算的,不是 token 文本本身,而是 token 对应的向量表示。

点击一个 Token,查看它的向量示意

当前 Token:我

下面显示的是“示意向量”,目的是帮助你建立“token 会被投影成数字向量”的直觉,而不是还原某个真实模型的 embedding 值。

这一层到底在解决什么问题

  • 字符本身无法直接做高维语义计算。
  • Token 让文本先变成稳定可索引的离散单元。
  • 向量让模型能用距离、点积、线性变换去表达语义关系。
  • 后面的 Q、K、V,本质上都还是在向量空间里继续做变换和匹配。
常见误区: Token 不一定等于“词”,向量也不等于“词典释义”。它们是模型为了计算和泛化而使用的表示方式。
一句话总结: 文本要先被切成 token,再被映射成向量,后续所有大模型计算几乎都发生在这些向量表示之上。