大型语言模型安全:全面综述.pdf

这份学术调查报告全面探讨了大型语言模型(LLMs)的安全性,旨在为研究人员、从业者和政策制定者提供参考。
**核心议题:**
* **LLM安全定义:** 探讨了LLM安全与LLM安全区别,强调了LLM安全注重于负责任的开发、部署和使用,以避免造成意外的或故意的危害。
* **分类体系:** 报告将LLM安全划分为两大维度:
* **基本风险领域:**
* **价值对齐(Value Misalignment):** 涉及社会偏见、隐私、毒性和伦理道德。
* **攻击鲁棒性(Robustness to Attack):** 涵盖了越狱技术和红队方法。
* **滥用(Misuse):** 包括武器化、虚假信息传播和 Deepfakes。
* **自主AI风险(Autonomous AI Risks):** 讨论了 LLMs 在自主系统中的风险。
* **相关领域:**
* **Agent Safety:** 关注语言代理和具身代理的安全问题。
* **Interpretability for LLM Safety:** 强调可解释性在提高LLM安全性中的作用。
* **LLM Safety in Practice:** 介绍了LLM安全实践中的技术路线图和策略。
* **Governance:** 探讨了AI治理的各个方面,包括国际合作、政策和愿景。
* **核心风险:**
* **价值对齐:** LLMs在社会偏见、隐私、毒性和伦理道德方面的风险。
* **攻击鲁棒性:** 评估了LLMs在越狱技术和红队方法下的表现。
* **滥用:** 探讨了LLMs在武器化、虚假信息传播和Deepfakes中的潜在危害。
* **自主AI风险:** 关注LLMs在自主系统中的风险,包括工具性目标、目标错位、欺骗和情境感知。
* **缓解策略:**
* **价值对齐:** 包括数据清洗、偏见神经元编辑、架构修改和损失函数调整等。
* **攻击鲁棒性:** 外部保护和内部保护策略,如越狱攻击与防御、红队测试。
* **滥用:** 数据过滤、机器unlearning、访问控制。
* **Agent Safety:** 识别代理标识符,实施实时监控。
* **Interpretability for LLM Safety:** 提升可解释性,例如概念形成、模型审计、对齐等。
* **治理与未来方向:** 报告强调了国际合作、负责任的AI开发、技术监督、伦理框架和法规的重要性,同时指出了未来的研究方向,包括安全架构、安全控制模块、有效统一的安全机制以及改进的安全性评估。
**总体目标:** 促进LLMs的安全和有益发展,使其与更广泛的社会福祉和人类繁荣的目标保持一致。
相关报告
-
686.13 KB 27页 2025大型语言模型LLM安全风险案例与防御策略研究报告.pdf
-
1.87 MB 74页 大型语言模型的知识蒸馏与数据集蒸馏:新兴趋势、挑战与未来方向.pdf
-
3.41 MB 52页 大型语言模型行业图谱.pdf
-
4.09 MB 53页 基于大型语言模型的代理的兴起和潜力:一项调查.pdf
-
1.91 MB 32页 大模型如何判决?从生成到判决:大型语言模型作为裁判的机遇与挑战.pdf
-
6.48 MB 86页 【论文推荐】基于大语言模型的智能体综述——复旦NLP -.pdf
-
1.9 MB 35页 GPTs 大型语言模型对劳动力市场影响潜力的早期研究.pdf
-
1.58 MB 74页 大语言模型(LLM)简介.pdf
-
826.39 KB 16页 氢及其主要衍生物的安全方面:政策制定者的文献综述.pdf
-
1.18 MB 45页 组合图像检索的全面综述.pdf
-
11.42 MB 107页 大语言模型时代的AI4Science.pdf
-
8.83 MB 26页 决策中的生成模型:综述.pdf
-
2.22 MB 36页 大语言模型越狱攻击 模型、根因及其攻防演化.pdf
-
7.14 MB 39页 2024年基于大语言模型的新型电力系统运行与仿真初探报告.pdf
-
4.12 MB 33页 大语言模型综合评测报告2023.pdf
-
2.64 MB 29页 艾瑞咨询:ChatGPT浪潮下,看中国大语言模型产业发展.pdf
-
1.69 MB 13页 新兴产业景气扫描(3月第3期):Microsoft 365接入大语言模型
-
1.53 MB 20页 ChatGPT- 优化对话语言模型.pdf