预训练、SFT 与对齐
大模型不是一训练完就天然像聊天助手。它通常先通过预训练学会广泛的语言模式和知识,再通过监督微调学会“按指令回答”,最后再经过偏好对齐,让输出更符合人类对有用性、安全性和风格的期待。
先学语言规律
再学按要求回答
最后学偏好与边界
用同一道题,观察模型在不同训练阶段的变化
先选择训练阶段,再切换问题。你会看到:预训练模型通常更像“会续写文本的语言系统”,而 SFT 和偏好对齐会逐步把它推向更像助手的交互方式。
学到了什么
主要数据形态
优化目标
关键理解: 这几个阶段不是彼此替代,而是在前一阶段能力基础上继续塑形。预训练决定“脑子里有什么”,SFT 决定“会不会按要求说”,偏好对齐决定“说出来的风格和边界是否更贴近人类期望”。
为什么“知道很多”不等于“会当助手”
预训练强在覆盖面
它看过大量文本,所以能学到广泛知识和语言模式,但这并不意味着它天生知道你是在下达任务、提问还是要求总结。
SFT 强在交互格式
通过大量“指令-回答”样本,模型学会把用户输入当成任务来执行,而不是仅仅把它继续续写下去。
偏好对齐强在选择倾向
当多个回答都“勉强能说通”时,对齐会进一步影响模型更偏向哪一种说法,比如更简洁、更礼貌、更安全。
边界仍然不是绝对的
对齐是显著改善,不是魔法开关。真实系统里通常还要配合策略层、安全层和工具层一起工作。
训练路线的简明顺序
1
预训练
让模型在海量文本上学习“下一个 token 应该是什么”。
2
SFT
用高质量示例教模型如何按任务格式作答。
3
偏好对齐
根据人工偏好或奖励信号调整回答风格与边界。
4
系统增强
结合检索、工具、约束与评测,把模型变成产品能力。
一句话总结: 预训练解决“会不会语言与知识”,SFT 解决“会不会按任务回答”,对齐解决“回答方式是否更像一个可用助手”。