跳到主要内容

开发指南

分层防护架构

输入过滤实现

规则层

  • 敏感词黑名单
  • 正则匹配可疑指令模式
  • 长度限制(防超长注入)

模型层(可选)

  • 用分类模型判断输入是否可疑
  • 对高置信度攻击样本直接拒绝

结构化提示

  • 用 XML/JSON 等明确区分「系统指令」与「用户数据」
  • 示例:<user_data>${user_input}</user_data>

输出校验

  • 范围检查:输出是否在预期格式(如 JSON schema)
  • 工具调用:参数类型、取值范围、白名单
  • 敏感内容:是否泄露内部信息、是否含违规内容

Agent 安全

  • 工具定义时明确权限与副作用
  • 对写操作(数据库、API 调用)做确认流程
  • MCP 协议A2A 协议 集成时,注意信任边界

幻觉缓解

  • RAG 检索结果作为「唯一依据」
  • 引用标注与溯源
  • 大模型评测 中加入事实性指标

数据与合规

  • 日志脱敏:不记录完整 PII
  • 访问控制:RBAC、审计
  • 留存与删除:实现数据导出、删除接口(GDPR)

红队与测试

  • 定期用对抗样本测试
  • 建立内部红队用例库
  • 根据结果迭代过滤与规则

参考