Page 18 · SimLabs LLM Visual

温度、Top-k、Top-p 与解码策略

同一个模型，推理参数不同，回答风格就会明显变化。原因不在“模型忽然换了脑子”，而在于最后一步选择下一个 token 的策略不同。温度会改变分布尖锐程度，Top-k 和 Top-p 会裁剪候选集合，Greedy 则直接拿最高概率项。

返回系列首页回看 Transformer Block

看概率分布怎么变实际抽样一次再理解“稳定”和“发散”

下一 Token 采样实验室

先选一个场景，再切换解码策略，最后拖动参数。你会直接看到候选 token 的保留范围、概率分布和采样结果是如何变化的。

温度越低，分布越尖锐；温度越高，分布越平，低概率项更有机会被采到。

当前温度 1.00

只保留概率最高的前 k 个候选，其他 token 直接裁掉。适合控制搜索空间。

当前 Top-k 4

按累计概率保留一个“足够大”的最小集合。分布很尖锐时保留项少，分布很平时保留项会变多。

当前 Top-p 0.85

当前最终分布

下面的条形图展示的是当前策略真正参与采样的分布。被裁掉的项会变成 0。

这一步发生了什么

这一组卡片把当前场景分别放到 Greedy、Temperature、Top-k、Top-p 下，帮助你快速建立“稳定性”和“多样性”的对照感。

常见误区： 温度高不等于“更聪明”，只意味着抽样更敢探索；Top-k / Top-p 也不是越大越好，而是在稳定性和多样性之间取平衡。

一句话总结： 解码策略不改变模型学到的知识，但会改变模型“从哪些候选里选、选得多保守、是否保留随机性”，所以同一个模型会表现出不同风格。