Page 27 · SimLabs LLM Visual

安全与 Guardrails

模型越能做事，越需要边界。Guardrails 不是单一“拒答提示词”，而是一套围绕输入、工具权限、输出内容和审计日志构建的系统防线。它的目标不是让模型什么都不做，而是在可用性和风险之间建立更稳的控制带。

返回系列首页回看 Agent

先识别风险再选约束策略最后审计与回退

换一个风险场景，看看 Guardrails 怎么接管

切换场景，再切换当前阶段。你会看到系统是在做输入检测、策略判断、工具权限约束、输出重写，还是进入日志与人工复核流程。

风险分析

当前策略

审计记录

高风险场景常常不仅要拦，还要记录“为什么拦、拦了什么、是否需要人工复核”。

先看请求本身有没有明显风险，比如越权操作、违规内容、提示注入或可疑数据外传意图。

就算模型判断要调用工具，也不能默认全工具可用。不同用户、不同任务和不同风险等级往往对应不同权限。

模型生成后的结果也可能需要再扫描，比如脱敏、风险提示、拒绝重写、引用补充或人工审批。

真正的系统不会只关心“这次挡住了没”，还要留下可复盘记录，并在必要时引入人工审批链路。

有些请求应该直接拒绝，但有些请求更适合降权、改写、提醒、脱敏或转人工，而不是一刀切。

客服、办公助理、代码助手、医疗支持系统面对的风险不一样，所以 Guardrails 的策略也应该不同。

如果系统把正常请求也大量拦掉，可用性会快速下降，所以安全系统也需要评测与调参。

提示词、模型对齐、工具权限、规则引擎、日志审计、人工复核往往要一起工作，单层很难覆盖全部风险。

一句话总结： Guardrails 不是给模型加一句“注意安全”，而是在输入、调用、输出和审计四个层面建立可执行的风险控制流程。