当前前缀
模型此刻只能看到这些 token,它要做的是预测“接下来最可能出现什么”。
训练进度0 / 6
大模型训练时做的最核心的一件事,不是“背整段答案”,而是在每一个位置上尽量提高正确下一个 token 的概率。你可以把它想成:给定前缀,模型反复练习“下一步该接什么”,并且用 loss 来度量自己离正确答案还有多远。
先选一个前缀场景,再拖动“训练进度”。训练进度越高,模型给正确 token 的概率会越大,对应的 loss 会下降。你看到的就是语言模型训练最核心的优化方向。
模型此刻只能看到这些 token,它要做的是预测“接下来最可能出现什么”。
如果模型已经把大部分概率压在正确 token 上,loss 就会下降;如果它还把概率浪费在错误候选上,loss 就会偏高。
训练时并不是只在句末打一次分,而是会在每个位置都生成一个 “前缀 → 下一个 token” 的监督信号。点击下面任一位置,看模型当时真正面对的输入和目标。
模型看到前缀后,需要把概率更多地压给真正的下一个 token。
一条训练样本通常会贡献多个位置的 loss,最后再聚合成整体目标。你可以把它理解成:模型要在整句的每一步都尽量少犯错。
本质上就是不断提高正确下一个 token 的概率,而不是一次性理解“整段答案”的全部含义。
loss 高,通常意味着正确 token 的概率还不够高;loss 低,意味着模型在这个位置已经更接近正确分布。
一个序列的每个位置都会产生监督信号,所以模型不是只在最后一步学习,而是在整条序列上持续被校正。