Page 02 · SimLabs LLM Visual

字符、Token 与向量

大模型不会直接“看懂文字”。文本首先会被切成模型能够处理的 token，再进一步映射成向量。你可以在这一页输入一句话、切换示例、点击 token，看看它们如何一步步变成机器可计算的表示。

返回系列首页回看技术地图

输入一句话，观察它如何被拆开

为了方便入门演示，这里做的是“教学型 token 化”而不是完整工业级 tokenizer。目标是先帮助你理解：文本不是直接进入模型，而是先被拆成更稳定的单元。

先把文本看成最细粒度的字符流。字符是人类直觉里的最小单元，但不一定是模型最适合处理的单元。

为了更稳定地处理语言，模型常常先把文本切成 token。点击下面任意一个 token，可以查看它对应的“示意向量”。

先建立直觉： 文本进入模型前，通常要先把“连续字符串”变成“离散 token 序列”；而真正进入神经网络计算的，不是 token 文本本身，而是 token 对应的向量表示。

下面显示的是“示意向量”，目的是帮助你建立“token 会被投影成数字向量”的直觉，而不是还原某个真实模型的 embedding 值。

常见误区： Token 不一定等于“词”，向量也不等于“词典释义”。它们是模型为了计算和泛化而使用的表示方式。

一句话总结： 文本要先被切成 token，再被映射成向量，后续所有大模型计算几乎都发生在这些向量表示之上。