DeepSeekV3技术报告.pdf

DeepSeekV3技术报告.pdf
DeepSeek AI 推出了 DeepSeek-V3,这是一个强大的混合专家(MoE)语言模型,总参数为 671B,每个 token 激活 37B。DeepSeek-V3 采用了多头潜在注意力(MLA)和 DeepSeekMoE 架构,并开创了一种无辅助损失的负载平衡策略,设定了多 token 预测训练目标。 DeepSeek-V3 在 14.8T 多样化和高质量的 token 上进行了预训练,并进行了监督微调和强化学习。评估表明,DeepSeek-V3 的表现优于其他开源模型,性能可与领先的闭源模型相媲美。DeepSeek-V3 的完整训练仅需 2.788M H800 GPU 小时。 DeepSeek-V3 的主要贡献包括: * 架构:创新的负载均衡策略和训练目标,开创了一种无辅助损失的负载均衡策略,研究了一种多标记预测(MTP)目标。 * 预训练:设计了 FP8 混合精度训练框架,克服了跨节点 MoE 训练中的通信瓶颈,以 2.664M H800 GPU 小时的经济成本,在 14.8T 标记上完成了预训练。 * 后训练:引入了一种创新的方法,将推理能力从长链思维模型中提炼出来,并显著提高其推理性能。 DeepSeek-V3 的评估结果摘要: * 知识:在教育基准测试和 GPQA 上,DeepSeek-V3 的表现优于其他开源模型。 * 代码、数学和推理:DeepSeek-V3 在所有非长链思维的开源和闭源模型中,在与数学相关的基准测试中达到了最先进的性能,在与编码相关的任务中,DeepSeek-V3 成为编码竞赛基准测试中表现最好的模型。 为了促进 DeepSeek-V3 的高效训练,实施了细致的工程优化。设计了 DualPipe 算法以实现高效的管道并行性,解决了跨节点专家并行性带来的高通信开销问题。开发了高效的跨节点全到全通信内核,并节省专用于通信的流处理器。在训练过程中细致优化内存占用,从而使我们能够在不使用昂贵的张量并行性的情况下训练 DeepSeek-V3。 为了解决激活、权重和梯度中异常值的限制,DeepSeek 提出了一种细粒度量化策略。
在线阅读 下载完整报告 | 5.44 MB | 53页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告