人工智能安全风险测评白皮书(2025年).pdf

人工智能安全风险测评白皮书(2025年).pdf
《人工智能安全风险测评(2025年)》白皮书由中国信息安全测评中心发布,旨在构建AI安全风险“测评—反馈—迭代”闭环,服务AI发展与监管。 **背景与目标:** 全球AI发展迅速带来复杂安全挑战,各国高度重视AI治理。中国强调发展与安全并重,推动建立AI风险等级测试评估体系。本白皮书聚焦大语言模型(LLM)全生命周期安全,致力于实现“安全可控”与“创新发展”动态平衡。 **AI风险特征与趋势:** AI风险呈现动态性(未知漏洞)、对抗性(自动化攻防)和系统性(广度与传导)特点。风险正从单一模态向多模态演进,攻击面指数级扩张;从“黑盒”转向暴露内部“思维链”,带来“欺骗性对齐”等挑战;从“虚拟”生成转向“现实”主动执行,催生“内存投毒”、“工具滥用”等新威胁。 **AI安全风险测评体系:** 1. **测评目的:** 锚定安全性、可靠性、可控性、公平性四大核心目标,细化为技术安全、功能可靠、数据隐私、伦理合规、系统可控、治理可追溯六大维度。 2. **测评内容:** 覆盖AI全生命周期(系统规划、数据处理、模型训练优化、平台部署集成、系统运行监测、迭代退役),以及供应链、数据、模型、价值观/伦理、运行态系统等五大重点领域。 3. **测评方法:** 采用多元化技术路径,包括基于规则的基线测试、基于对抗的红队测试、基于指标的量化评估、基于场景的仿真评估、基于数据的行为评估、基于机器学习的自适应测试及形式化验证。 4. **测评对象:** 聚焦AI系统设施层、数据层、模型层、应用层全栈分层风险。 5. **测评度量:** 建立四级风险等级(致命、高、中、低),通过加权综合评估威胁严重性、影响范围与可修复性。 **关键测评技术:** 详细阐述了针对AI系统输入层、训练层、模型层、输出层和部署层的红队测试技术,包括越狱攻击、提示词注入/泄露、数据投毒、模型窃取、输出操纵、幻觉检测、供应链攻击、API滥用与护栏绕过等。 **展望:** AI安全测评未来将趋向自动化、全生命周期融合、跨模态测评,并强调国际标准协同与产学研生态共建。同时,需应对技术迭代滞后、系统黑箱特性和风险传导复杂等挑战,发展可解释性测评和全栈全链路框架。
下载完整报告 | 3.04 MB | 115页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告