大模型能力来源与边界-复旦大学-202505.pdf

这份文档主要探讨了大语言模型的能力来源和边界,以及对大模型能力进行实践研究。内容包括以下几个方面:
**一、大语言模型能力边界与核心区**
* 强调通过修改少量参数可能导致模型完全混乱,揭示了语言模型的核心区和维度依赖性。
* 通过破坏阿拉伯语或越南语区域的实验,说明模型能力对特定语言区域的依赖。
**二、知识利用层次**
* 提出了知识利用层次图,讨论大模型当前所处的层级(记忆),以及未来可能达到的层级。
* 认为目前大模型主要依赖于记忆,而真正的理解需要 AGI 系统才能实现,AGI 系统需要具备理解物理世界、拥有长久准确记忆、可以推理和分层次规划等能力。
**三、大模型实践研究**
* 通过让大模型“参加”高考数学,发现其在数学推理方面的局限性,包括计算过程与答案不符,对输入形式敏感等。
* 展示大模型在美国数学奥赛中的表现,表明 LLM 几乎没有学会数学证明。
* 强调当任务复杂度增加时,模型准确率会迅速下降,训练过程中简单加入过程作用也十分有限。
**四、大模型工具调用评测**
* 分析大模型在工具调用方面的评测结果,强调对变形数据的处理能力是 GPT-4 的弱点。
**五、推理能力的来源**
* 探讨推理能力的来源,认为全数据驱动的大模型实现推理面临巨大挑战,实现因果学习是关键。
**六、大模型能力来源思考**
* 提出直接通过训练语料的统计就可以计算得到知识记忆概率。
* 强调在有监督微调阶段,数据量并非越多越好,并且需要与模型紧密配合。
* 指出不同 LLM 的预训练语料库差异会导致知识分布的显著不同。
* 认为应尽量少的改动预训练参数。
**七、多样性对SFT训练的影响**
* 探讨了多样性对 SFT 训练的影响,讨论如何衡量多样性。
**八、RL与推理能力**
* 提到Qwen模型通过强化学习训练后表现出显著进步, 而Llama模型却几乎停滞不前。
**九、对Aha Moment的思考**
* 对大模型中出现的“Aha Moment”进行分析,强调大模型依然是统计机器学习,而不是“能力”的逐项提升。
* 指出单个模型可以处理数千种任务,但是仍需要逐项进行优化。
相关报告
-
12.93 MB 228页 2025金融大模型应用与智能体建设案例集.pdf
-
4.08 MB 50页 计算机行业2025年中期策略报告:国产大模型能力提升,我国AI产业未来前景广阔.pdf
-
4.35 MB 20页 2025年酸奶与冷藏甜品未来趋势报告-英敏特-202505.pdf
-
2.75 MB 39页 2025底妆行业市场洞察与热门趋势解析-炼丹炉-202505.pdf
-
2.79 MB 25页 2025年敏感肌美妆线上消费与行业洞察-飞瓜数据-202505.pdf
-
17.1 MB 74页 2025年社交媒体与KOL营销趋势报告-微播易x中国广告协会-202505.pdf
-
17.1 MB 74页 中国广告协会2025年社交媒体与KOL营销趋势报告-20250515.pdf
-
1.86 MB 32页 2025年高纯度 Omega-3与健康管理白皮书-艾瑞咨询-202505.pdf
-
4.63 MB 43页 2025年618电商趋势预测与机遇前瞻-炼丹炉-202505.pdf
-
1.77 MB 31页 全球经济:特朗普冲击与市场重构-招银国际-20250508.pdf
-
13.82 MB 177页 DeepSeek等大模型工具使用手册(实战篇)-厦大团队-202505.pdf
-
40.37 MB 221页 2025中国功能性食品消费大数据与产业发展大模型白皮书-光华博思特-202504.pdf
-
15.77 MB 96页 从技术突破到场景落地:大模型发展图谱与DeepSeek创新应用-中山大学-202503.pdf
-
3.13 MB 31页 05 王皓 探索大模型的数据边界_11.23_脱敏.pdf
-
5.09 MB 31页 2025年:AI-R-IAM:AI就绪的大模型身份与访问管理白皮书.pdf
-
15.01 MB 141页 大模型概念、技术与应用实践-厦大团队-202502.pdf