人工智能赋能系统研制试验与鉴定指南手册2025.pdf

人工智能赋能系统研制试验与鉴定指南手册2025.pdf
这份文档是《人工智能赋能系统开发测试与评估指南》,主要为美国国防部(DoD)测试团队提供关于人工智能(AI)和 AI 赋能系统(AIES)的开发测试与评估(DT&E)的指导。 **核心要点:** * **AI 带来的挑战与变化:** * 传统测试方法在 AI 系统中不再完全适用。 * AI 系统具有模型输出不可预测性、对输入微小变化敏感、模型复杂性、参数空间高维度以及依赖训练数据集等特点,导致了测试的复杂性。 * 测试需要在整个 AIES 开发生命周期中进行。 * **DT&E 的新方法:** * **尽早参与开发:** 确保测试团队尽早参与 AIES 的开发,以进行任务驱动的技术特征描述,这对于机器学习模型的迭代开发至关重要。 * **形式化方法增强:** 采用形式化方法来补充传统测试,从而更精确地验证 AI 系统。 * **确保可测试性要求:** 确保系统需求在原则上可测试,并开发可行的测试计划。 * **了解系统及使用概念(CONEMP):** DT&E 的测量活动需要告知系统和 CONEMP 开发人员,以帮助避免代价高昂的返工并确保系统设计与操作需求保持一致。 * **DT&E 的关键活动:** * **性能表征:** 描述 AIES 的能力、局限性、缺陷和性能范围。 * **风险评估:** 评估与负责任的 AI、系统鲁棒性和技术相关的风险。 * **为系统工程提供信息:** 支持 materiel 解决方案的技术可行性、ML 模型规范的推导、ML TVT 数据和模型的 VV&A(验证与确认),以及人机协同。 * **为采办管理提供信息:** 协助进行替代方案分析、里程碑决策、作战测试准备审查,以及合同结构和数据权利等。 * **AIES 的关键考虑因素:** * **负责任的 AI (RAI):** 确保 AIES 的安全、可靠、有效、可管理、可追溯、可信。 * **鲁棒性:** 针对 ML 模型对输入变化以及出现最坏情况的错误进行评估,采用运行时保障 (RTA) 架构提高系统鲁棒性。 * **可追溯性:** 使用模型卡和数据卡来记录 ML 模型的开发过程。 * **可管控性:** 确保指挥官能够以高度的信心使用 AIES,并具备检测和避免意外后果以及停用或停用表现出不期望行为的系统的能力。 * **人机交互 (HMT):** 强调人机协同,评估团队成员的特征和团队决策。 * **模型评估:** 评估 ML 模型的质量、可靠性和实用性,包括准确性、精度、召回率等指标。 * **数据准备:** 关注数据质量,包括清理、转换、规范化和分割。 * **VV&A:** 对用于开发、评估和测试 ML 模型的数据进行验证和确认。 * **运行时监控:** 监控 ML 模型在运行时的输入、输出和内部行为,以检测并防止不良系统行为。 * **重点关注领域:** * **ML 模型开发与评估:** 强调数据和模型质量,形式化方法,M&S 的应用,以及对 ML 模型的可见性。 * **人机系统集成测试与评估 (HSI T&E):** 确保人类可以有效地利用 AIES。 * **系统集成测试与评估 (SI T&E):** 确保 AI 组件与大型系统集成时的功能、可靠性、安全性、兼容性和互操作性。 * **作战测试与评估 (OT&E):** 进行基于任务的测试,以评估 AIES 在实际环境中的性能。 * **未来方向:** * 未来版本将涵盖生成式 AI 和强化学习等新兴主题。 * 侧重于 AIES 开发各个阶段测试人员之间的协作。 总而言之,该指南旨在帮助 DoD 测试团队应对 AI 系统带来的新挑战,确保 AI 技术的可靠、安全、伦理和高效使用,以支持国防战略。
下载完整报告 | 1.66 MB | 152页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告