中文大模型基准测评2025年上半年报告-SuperCLUE团队-202508.pdf

中文大模型基准测评2025年上半年报告-SuperCLUE团队-202508.pdf
SuperCLUE(中文大模型综合性测评基准)发布了《中文大模型基准测评2025年上半年报告》,深入分析了2025年上半年大模型的发展趋势和关键进展。报告的主要内容如下: **一、大模型发展趋势与关键进展** * **技术与生态构建期:** ChatGPT和Llama2的发布加速了AI大模型的技术革新与生态构建。 * **多模态与深度推理拓展期:** Sora引发了视频AIGC创业潮,OpenAI开启了对更复杂推理的探索,国内多模态领域快速发展。 * **智能体崛起与AGI探索期:** 顶级大模型能力持续突破,智能体Agent产品快速涌现,DeepSeek-R1以开源和高性价比优势引人关注。 **二、测评方法与基准** SuperCLUE基准是中文通用大模型评测基准,涵盖通用基准、文本、多模态、推理、Agent、AI应用、性能等系列基准,并持续更新。7月通用基准测评聚焦于通用能力测评,包含数学推理、科学推理、代码生成、智能体Agent、精确指令遵循、幻觉控制六大维度,总题量为1288道。 **三、测评结果与分析** 1. **整体表现:** 头部模型竞争激烈,o3在全球中文综合能力排行榜中排名第一。国内模型在智能体Agent和幻觉控制任务上表现良好,但推理任务仍有差距。 2. **开源模型:** 开源模型崛起势头强劲,DeepSeek-R1表现突出,Qwen3系列表现亮眼。 3. **性价比:** 国内模型性价比普遍高于海外模型,Qwen3系列表现尤为突出。 4. **效能:** 海外模型在高效能区表现更优,部分国内模型在推理任务上有所提升。 **四、各维度任务分析** * **数学推理:** 主要考察运用数学概念和逻辑进行推理的能力。 * **科学推理:** 考察跨学科背景下的推理能力。 * **代码生成:** 包含独立功能函数生成和Web应用生成。 * **智能体Agent:** 考察中文场景下智能体调用工具的能力,Doubao-Seed-1.6-thinking-250715表现最佳。 * **精确指令遵循:** 考察模型指令遵循能力,包括格式、语义、量化和复合约束。 * **幻觉控制:** 评估模型在生成任务时的忠实性,头部模型间差距较小。 **五、专项模型分析** 报告对Doubao-Seed-1.6-thinking-250715、DeepSeek-R1-0528和GLM-4.5等模型进行了详细分析,涵盖其技术特点、能力优势和应用场景。 **六、10B级别小模型与端侧模型** Qwen3-8B(Thinking)领跑10B级别小模型,端侧模型在幻觉控制方面表现突出,但在复杂场景适配方面仍有挑战。 **七、DeepSeek-R1 API测评** 第三方平台DeepSeek-R1 API调用稳定性测评显示,字节火山引擎、商汤科技和微软云的DeepSeek-R1 API在不同维度表现上各有优劣。
下载完整报告 | 24.68 MB | 60页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告