分层防护架构
输入过滤实现
规则层
- 敏感词黑名单
- 正则匹配可疑指令模式
- 长度限制(防超长注入)
模型层(可选)
- 用分类模型判断输入是否可疑
- 对高置信度攻击样本直接拒绝
结构化提示
- 用 XML/JSON 等明确区分「系统指令」与「用户数据」
- 示例:
<user_data>${user_input}</user_data>
输出校验
- 范围检查:输出是否在预期格式(如 JSON schema)
- 工具调用:参数类型、取值范围、白名单
- 敏感内容:是否泄露内部信息、是否含违规内容
Agent 安全
- 工具定义时明确权限与副作用
- 对写操作(数据库、API 调用)做确认流程