中文大模型基准测评2025年年度报告-SuperCLUE-202602.pdf

SuperCLUE 2025年度报告全面回顾了大模型领域的关键进展与测评结果。在全球大模型格局中,海外闭源模型(如Claude、Gemini、GPT)在通用基准测评中仍居榜首。
然而,国内大模型正加速从“跟跑”转向“并跑”。Kimi-K2.5-Thinking和Qwen3-Max-Thinking在代码生成(尤其是Web Coding)和数学推理等任务上已达全球领先水平,体现出突破性进展。DeepSeek-V3.2-Thinking和GLM-4.7等也表现强劲。
在开闭源模型对比方面,国内开源模型(如Kimi、DeepSeek、GLM)已主导开源生态,性能显著超越海外开源模型。闭源模型整体仍领先,但在代码生成等领域,开源模型已实现单点突破。
报告还指出,国内模型在性价比方面优势明显,远超海外同等性能模型。推理效率上,海外模型领先,但国内模型正快速提升,逐步实现“高性能+高效率”的协同优化。
同时,报告也指出精确指令遵循和幻觉控制仍是国内大模型的提升空间。SuperCLUE的测评结果与LMArena等人类评估高度一致,验证了其科学性和可靠性。
此外,报告还介绍了SuperCLUE中文竞技场以及Agent、多模态、推理等专项测评基准,全面展示了大模型的综合能力。
相关报告
-
24.68 MB 60页 中文大模型基准测评2025年上半年报告-SuperCLUE团队-202508.pdf
-
8.94 MB 44页 2025年度视频号电商生态洞察报告-友望数据-202602.pdf
-
1.42 MB 11页 2025年度人才供需趋势报告-猎聘-202602.pdf
-
6.34 MB 14页 2025年度中国酒店市场品牌变更洞察报告-厚海-202602.pdf
-
16.2 MB 49页 2025年度生活服务商家趋势报告:生活火热,源于心动-抖音生活服务x36氪-202603.pdf
-
1.25 MB 15页 2025年全球中国大陆电吹风市场趋势解读报告-NIQ尼尔森-202602.pdf
-
54.2 MB 62页 亚马逊2025年度数据报告-卖家精灵-202602.pdf
-
7.72 MB 70页 消费品零售业2025下半年度报告-毕马威-202603.pdf
-
2.41 MB 35页 2025MeetBrands中国出海新锐消费品牌榜单报告-飞书深诺x益普索-202602.pdf
-
3.5 MB 34页 2025中国新就业形态报告-智联研究院-202602.pdf
-
786.17 KB 11页 宏观深度报告:从利率曲线“久期分割”看2026年货币政策空间-东吴证券-202602.pdf
-
20.73 MB 58页 2025年医疗人工智能年度报告-卫宁健康-202602.pdf
-
41.97 MB 76页 神奇行业在哪里|2025年度特刊-阿里妈妈-202602.pdf
-
6.05 MB 63页 中国家庭财富与消费报告2025年第四季度-蚂蚁集团研究院-202602.pdf
-
12.83 MB 13页 2025年中国微短剧产业发展格局与就业拉动效应测算报告-北大国发院-202602.pdf
-
18.7 MB 128页 2025 TikTok Shop 年度调研报告-TT123-202602.pdf
-
26.44 MB 34页 2025年微博热点趋势报告一2025年的“活人感”-微博x中国人民大学-202602.pdf
-
5.41 MB 52页 2025年度飞瓜抖音电商生态与营销投放报告-飞瓜数据-202601.pdf