Page 27 · SimLabs LLM Visual

安全与 Guardrails

模型越能做事,越需要边界。Guardrails 不是单一“拒答提示词”,而是一套围绕输入、工具权限、输出内容和审计日志构建的系统防线。它的目标不是让模型什么都不做,而是在可用性和风险之间建立更稳的控制带。

先识别风险 再选约束策略 最后审计与回退

换一个风险场景,看看 Guardrails 怎么接管

切换场景,再切换当前阶段。你会看到系统是在做输入检测、策略判断、工具权限约束、输出重写,还是进入日志与人工复核流程。

当前请求

风险分析

当前策略

审计记录

高风险场景常常不仅要拦,还要记录“为什么拦、拦了什么、是否需要人工复核”。

没有 Guardrails 时

有 Guardrails 时

Guardrails 常见的四个位置

输入前置过滤

先看请求本身有没有明显风险,比如越权操作、违规内容、提示注入或可疑数据外传意图。

工具权限控制

就算模型判断要调用工具,也不能默认全工具可用。不同用户、不同任务和不同风险等级往往对应不同权限。

输出后处理

模型生成后的结果也可能需要再扫描,比如脱敏、风险提示、拒绝重写、引用补充或人工审批。

日志与人工复核

真正的系统不会只关心“这次挡住了没”,还要留下可复盘记录,并在必要时引入人工审批链路。

为什么安全不是“全拒绝”

拒绝只是其中一种动作

有些请求应该直接拒绝,但有些请求更适合降权、改写、提醒、脱敏或转人工,而不是一刀切。

安全要和任务目标一起设计

客服、办公助理、代码助手、医疗支持系统面对的风险不一样,所以 Guardrails 的策略也应该不同。

误杀也要被关注

如果系统把正常请求也大量拦掉,可用性会快速下降,所以安全系统也需要评测与调参。

安全是分层工程

提示词、模型对齐、工具权限、规则引擎、日志审计、人工复核往往要一起工作,单层很难覆盖全部风险。

一句话总结: Guardrails 不是给模型加一句“注意安全”,而是在输入、调用、输出和审计四个层面建立可执行的风险控制流程。