中文大模型基准测评2025年年度报告-SuperCLUE-202602.pdf

中文大模型基准测评2025年年度报告-SuperCLUE-202602.pdf
SuperCLUE 2025年度报告全面回顾了大模型领域的关键进展与测评结果。在全球大模型格局中,海外闭源模型(如Claude、Gemini、GPT)在通用基准测评中仍居榜首。 然而,国内大模型正加速从“跟跑”转向“并跑”。Kimi-K2.5-Thinking和Qwen3-Max-Thinking在代码生成(尤其是Web Coding)和数学推理等任务上已达全球领先水平,体现出突破性进展。DeepSeek-V3.2-Thinking和GLM-4.7等也表现强劲。 在开闭源模型对比方面,国内开源模型(如Kimi、DeepSeek、GLM)已主导开源生态,性能显著超越海外开源模型。闭源模型整体仍领先,但在代码生成等领域,开源模型已实现单点突破。 报告还指出,国内模型在性价比方面优势明显,远超海外同等性能模型。推理效率上,海外模型领先,但国内模型正快速提升,逐步实现“高性能+高效率”的协同优化。 同时,报告也指出精确指令遵循和幻觉控制仍是国内大模型的提升空间。SuperCLUE的测评结果与LMArena等人类评估高度一致,验证了其科学性和可靠性。 此外,报告还介绍了SuperCLUE中文竞技场以及Agent、多模态、推理等专项测评基准,全面展示了大模型的综合能力。
下载完整报告 | 26.57 MB | 74页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告