大模型能力来源与边界-复旦大学-202505.pdf

大模型能力来源与边界-复旦大学-202505.pdf
这份文档主要探讨了大语言模型的能力来源和边界,以及对大模型能力进行实践研究。内容包括以下几个方面: **一、大语言模型能力边界与核心区** * 强调通过修改少量参数可能导致模型完全混乱,揭示了语言模型的核心区和维度依赖性。 * 通过破坏阿拉伯语或越南语区域的实验,说明模型能力对特定语言区域的依赖。 **二、知识利用层次** * 提出了知识利用层次图,讨论大模型当前所处的层级(记忆),以及未来可能达到的层级。 * 认为目前大模型主要依赖于记忆,而真正的理解需要 AGI 系统才能实现,AGI 系统需要具备理解物理世界、拥有长久准确记忆、可以推理和分层次规划等能力。 **三、大模型实践研究** * 通过让大模型“参加”高考数学,发现其在数学推理方面的局限性,包括计算过程与答案不符,对输入形式敏感等。 * 展示大模型在美国数学奥赛中的表现,表明 LLM 几乎没有学会数学证明。 * 强调当任务复杂度增加时,模型准确率会迅速下降,训练过程中简单加入过程作用也十分有限。 **四、大模型工具调用评测** * 分析大模型在工具调用方面的评测结果,强调对变形数据的处理能力是 GPT-4 的弱点。 **五、推理能力的来源** * 探讨推理能力的来源,认为全数据驱动的大模型实现推理面临巨大挑战,实现因果学习是关键。 **六、大模型能力来源思考** * 提出直接通过训练语料的统计就可以计算得到知识记忆概率。 * 强调在有监督微调阶段,数据量并非越多越好,并且需要与模型紧密配合。 * 指出不同 LLM 的预训练语料库差异会导致知识分布的显著不同。 * 认为应尽量少的改动预训练参数。 **七、多样性对SFT训练的影响** * 探讨了多样性对 SFT 训练的影响,讨论如何衡量多样性。 **八、RL与推理能力** * 提到Qwen模型通过强化学习训练后表现出显著进步, 而Llama模型却几乎停滞不前。 **九、对Aha Moment的思考** * 对大模型中出现的“Aha Moment”进行分析,强调大模型依然是统计机器学习,而不是“能力”的逐项提升。 * 指出单个模型可以处理数千种任务,但是仍需要逐项进行优化。
下载完整报告 | 12.45 MB | 55页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告