字符视角
先把文本看成最细粒度的字符流。字符是人类直觉里的最小单元,但不一定是模型最适合处理的单元。
大模型不会直接“看懂文字”。文本首先会被切成模型能够处理的 token,再进一步映射成向量。你可以在这一页输入一句话、切换示例、点击 token,看看它们如何一步步变成机器可计算的表示。
为了方便入门演示,这里做的是“教学型 token 化”而不是完整工业级 tokenizer。目标是先帮助你理解:文本不是直接进入模型,而是先被拆成更稳定的单元。
先把文本看成最细粒度的字符流。字符是人类直觉里的最小单元,但不一定是模型最适合处理的单元。
为了更稳定地处理语言,模型常常先把文本切成 token。点击下面任意一个 token,可以查看它对应的“示意向量”。
下面显示的是“示意向量”,目的是帮助你建立“token 会被投影成数字向量”的直觉,而不是还原某个真实模型的 embedding 值。