Page 20 · SimLabs LLM Visual

预训练、SFT 与对齐

大模型不是一训练完就天然像聊天助手。它通常先通过预训练学会广泛的语言模式和知识，再通过监督微调学会“按指令回答”，最后再经过偏好对齐，让输出更符合人类对有用性、安全性和风格的期待。

返回系列首页回看解码策略

先学语言规律再学按要求回答最后学偏好与边界

用同一道题，观察模型在不同训练阶段的变化

先选择训练阶段，再切换问题。你会看到：预训练模型通常更像“会续写文本的语言系统”，而 SFT 和偏好对齐会逐步把它推向更像助手的交互方式。

同题输出示意

关键理解： 这几个阶段不是彼此替代，而是在前一阶段能力基础上继续塑形。预训练决定“脑子里有什么”，SFT 决定“会不会按要求说”，偏好对齐决定“说出来的风格和边界是否更贴近人类期望”。

它看过大量文本，所以能学到广泛知识和语言模式，但这并不意味着它天生知道你是在下达任务、提问还是要求总结。

通过大量“指令-回答”样本，模型学会把用户输入当成任务来执行，而不是仅仅把它继续续写下去。

当多个回答都“勉强能说通”时，对齐会进一步影响模型更偏向哪一种说法，比如更简洁、更礼貌、更安全。

对齐是显著改善，不是魔法开关。真实系统里通常还要配合策略层、安全层和工具层一起工作。

让模型在海量文本上学习“下一个 token 应该是什么”。

用高质量示例教模型如何按任务格式作答。

根据人工偏好或奖励信号调整回答风格与边界。

结合检索、工具、约束与评测，把模型变成产品能力。

一句话总结： 预训练解决“会不会语言与知识”，SFT 解决“会不会按任务回答”，对齐解决“回答方式是否更像一个可用助手”。