GB200 Hardware Architecture - Component Supply Chain & BOM.pdf

GB200 Hardware Architecture - Component Supply Chain & BOM.pdf
GB200 硬件架构 – 组件供应链 & BOM 总结 本文探讨了英伟达 GB200 硬件架构的组件供应链和物料清单 (BOM),分析了其部署复杂性、各种配置的权衡以及对供应链的影响。 关键要点: * **GB200 架构复杂性:** GB200 带来了显著的性能提升,但部署的复杂性也急剧增加。与传统的即插即用方式不同,GB200 有多种部署变体,需要重新设计供应链。 * **GB200 形态因素:** 提供了四种主要的机架规模形态因素:GB200 NVL72、GB200 NVL36x2、GB200 NVL36x2 (Ariel) 和 x86 B200 NVL72/NVL36x2(Miranda)。NVL72 适用于高密度工作负载,而 NVL36x2 可能是主流解决方案,Ariel 针对特定工作负载,Miranda 将使用 x86 CPU。 * **功率预算和冷却需求:** GB200 机架的功率密度远高于传统服务器,例如 NVL72 的功率大约为 120kW,这使得液冷成为必要条件。 * **计算托盘架构:** Bianca 板是 GB200 的核心,包含两个 Blackwell B200 GPU 和一个 Grace CPU。通过减少 CPU 和 GPU 之间的互连,降低了插入损耗。 * **NVLink 互连:** NVLink 架构在 GB200 中得到了扩展,NVLink 的拓扑结构允许在机架内的所有 GPU 之间进行快速通信。对于 NVL36x2,NVLink 增加了额外的跳跃,但对训练影响较小。 * **NVLink 的成本影响:** 采用铜缆方案而非光模块,可以降低成本。NVLink 互连的成本主要在于连接器和电缆的终止,而不是电缆本身。 * **NVL576:** NVL576 是一种大规模的配置,但其光纤互连方案会导致更高的成本。 * **后端网络:** GB200 的后端网络支持多种交换机,包括 QM9700 Quantum-2 和 Broadcom Tomahawk 5,但是,由于 NVL72 架构的特性,会限制交换机的端口利用率。 * **光学器件和 DSP:** 英伟达正在扩展其光学器件和 DSP 的供应链,例如,Eoptolink 将成为英伟达的供应商。 * **基板、PCB 和 CCL:** GB200 架构的变化以及更高的 I/O 和功耗密度,导致基板、PCB 和 CCL 的复杂性增加。 * **液冷分析:** 直冷 (DLC) 是 GB200 的主要冷却方式,与 L2A(液冷到空气)相比,L2L(液冷到液冷)的能效更高。 * **机架架构重新设计:** DLC 方案需要更多的组件,例如冷板、QD、CDM 和 L2A/L2L CDU。 * **液冷组件采购决策链:** 英伟达提供液冷组件的参考设计合作伙伴,但客户可以选择自己的供应商。由于液冷供应链的复杂性,OEM 和系统集成商在选择供应商方面有更大的发言权。 * **电源分配网络 (PDN):** GB200 采用集中式 PDN 设计,以提高电源效率,电源架构从 12VDC 转向 48VDC,以提高效率。 * **BMC (Baseboard Management Controller):** GB200 的 BMC 内容相对于 HGX 有所增加。 * **机械组件:** 机箱和导轨套件受益于 HGX H100 的内容增加。 * **OEM/ODM 映射:** 由于部署的复杂性增加,OEM 和 ODM 的作用更加重要。 * **结论:** GB200 的成功取决于其供应链,该供应链正在发生重大变化。英伟达必须应对这些挑战,以确保其产品能够及时交付并具有成本效益。
下载完整报告 | 30.89 MB | 61页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告