Page 06 · SimLabs LLM Visual

语言模型目标:预测下一个 Token

大模型训练时做的最核心的一件事,不是“背整段答案”,而是在每一个位置上尽量提高正确下一个 token 的概率。你可以把它想成:给定前缀,模型反复练习“下一步该接什么”,并且用 loss 来度量自己离正确答案还有多远。

看 next-token 分布 观察 loss 如何下降 理解一句话如何拆成很多训练样本

训练目标:把正确答案的概率往上推

先选一个前缀场景,再拖动“训练进度”。训练进度越高,模型给正确 token 的概率会越大,对应的 loss 会下降。你看到的就是语言模型训练最核心的优化方向。

当前前缀

模型此刻只能看到这些 token,它要做的是预测“接下来最可能出现什么”。

训练进度0 / 6
Loss

损失值在衡量什么

如果模型已经把大部分概率压在正确 token 上,loss 就会下降;如果它还把概率浪费在错误候选上,loss 就会偏高。

最重要的公式: Loss = -log P(正确 token | 当前前缀)。它只盯着一件事:模型到底有没有把正确答案的概率提起来。

一句完整句子,会变成很多个训练样本

训练时并不是只在句末打一次分,而是会在每个位置都生成一个 “前缀 → 下一个 token” 的监督信号。点击下面任一位置,看模型当时真正面对的输入和目标。

当前训练位置

模型看到前缀后,需要把概率更多地压给真正的下一个 token。

这句话的平均 loss

一条训练样本通常会贡献多个位置的 loss,最后再聚合成整体目标。你可以把它理解成:模型要在整句的每一步都尽量少犯错。

一句话总结这一段: 语言模型训练不是“记住整句话”,而是把整句话拆成很多个 next-token 预测问题,并在每一步都让正确 token 更占优势。

学完这页后,你应该带走什么

训练目标很朴素

本质上就是不断提高正确下一个 token 的概率,而不是一次性理解“整段答案”的全部含义。

Loss 是概率的镜子

loss 高,通常意味着正确 token 的概率还不够高;loss 低,意味着模型在这个位置已经更接近正确分布。

整句训练由很多位置组成

一个序列的每个位置都会产生监督信号,所以模型不是只在最后一步学习,而是在整条序列上持续被校正。