跳到主要内容

开发指南

分层防护架构

输入过滤实现

规则层

敏感词黑名单
正则匹配可疑指令模式
长度限制（防超长注入）

模型层（可选）

用分类模型判断输入是否可疑
对高置信度攻击样本直接拒绝

结构化提示

用 XML/JSON 等明确区分「系统指令」与「用户数据」
示例：<user_data>${user_input}</user_data>

输出校验

范围检查：输出是否在预期格式（如 JSON schema）
工具调用：参数类型、取值范围、白名单
敏感内容：是否泄露内部信息、是否含违规内容

Agent 安全

工具定义时明确权限与副作用
对写操作（数据库、API 调用）做确认流程
与 MCP 协议、A2A 协议集成时，注意信任边界

幻觉缓解

RAG 检索结果作为「唯一依据」
引用标注与溯源
在大模型评测中加入事实性指标

数据与合规

日志脱敏：不记录完整 PII
访问控制：RBAC、审计
留存与删除：实现数据导出、删除接口（GDPR）

红队与测试

定期用对抗样本测试
建立内部红队用例库
根据结果迭代过滤与规则

参考

分层防护架构
输入过滤实现
输出校验
Agent 安全
幻觉缓解
数据与合规
红队与测试
参考