质量阈值
这是你愿意接受的最低质量分。低于这个阈值,说明回答效果还不够稳。
当前阈值
80
大模型系统最容易出现的错觉之一,是“我刚试了几个例子,看起来变好了”。真正可靠的工程流程不会只靠感觉,而会用评测集、阈值和版本对比去持续验证:这次修改到底提升了什么,又有没有把别的地方弄坏。
先选任务类型,再调整阈值。页面会即时判断哪些版本能过线,哪些虽然某项更高,但整体并不满足上线条件。
你手工试的几个例子很可能碰巧都是模型擅长的,无法覆盖真实线上分布。
人类很容易记住几个很亮眼的成功输出,却忽略那些频率不高但代价很大的错误。
如果没有预设阈值,团队每次都会陷入“我觉得可以”“我觉得还不稳”的争论。
一次改动可能提高了一个场景,却悄悄让另一个场景退化。没有回归测试很难及时察觉。
先说清楚到底要评什么,是正确率、引用质量、安全拒答还是延迟成本。
收集覆盖真实场景的数据,避免只看少量漂亮样例。
每次修改都和基线版本比,不只看“有没有变好”,还看“有没有变坏”。
让关键指标达不到阈值时自动拦住,避免问题版本直接进入线上。