Page 06 · SimLabs LLM Visual

语言模型目标：预测下一个 Token

大模型训练时做的最核心的一件事，不是“背整段答案”，而是在每一个位置上尽量提高正确下一个 token 的概率。你可以把它想成：给定前缀，模型反复练习“下一步该接什么”，并且用 loss 来度量自己离正确答案还有多远。

返回系列首页回看 Embedding 空间

看 next-token 分布观察 loss 如何下降理解一句话如何拆成很多训练样本

训练目标：把正确答案的概率往上推

先选一个前缀场景，再拖动“训练进度”。训练进度越高，模型给正确 token 的概率会越大，对应的 loss 会下降。你看到的就是语言模型训练最核心的优化方向。

模型此刻只能看到这些 token，它要做的是预测“接下来最可能出现什么”。

训练进度0 / 6

Loss

如果模型已经把大部分概率压在正确 token 上，loss 就会下降；如果它还把概率浪费在错误候选上，loss 就会偏高。

最重要的公式： Loss = -log P(正确 token | 当前前缀)。它只盯着一件事：模型到底有没有把正确答案的概率提起来。

训练时并不是只在句末打一次分，而是会在每个位置都生成一个 “前缀 → 下一个 token” 的监督信号。点击下面任一位置，看模型当时真正面对的输入和目标。

模型看到前缀后，需要把概率更多地压给真正的下一个 token。

一条训练样本通常会贡献多个位置的 loss，最后再聚合成整体目标。你可以把它理解成：模型要在整句的每一步都尽量少犯错。

一句话总结这一段： 语言模型训练不是“记住整句话”，而是把整句话拆成很多个 next-token 预测问题，并在每一步都让正确 token 更占优势。

本质上就是不断提高正确下一个 token 的概率，而不是一次性理解“整段答案”的全部含义。

loss 高，通常意味着正确 token 的概率还不够高；loss 低，意味着模型在这个位置已经更接近正确分布。

一个序列的每个位置都会产生监督信号，所以模型不是只在最后一步学习，而是在整条序列上持续被校正。