ICC訊 近日,東興證券發(fā)布的研究報告《超節(jié)點與 Scale up 網絡專題之英偉達:行業(yè)標桿,領先優(yōu)勢建立在 NVLink 和NVLink Switch 》顯示,大語言模型(LLM)參數規(guī)模從千億級向萬億級乃至十萬億級演進,跨服務器張量并行(TP)成為必然選擇;此外混合專家(MoE)模型在 Transformer 架構 LLM 中的規(guī)?;瘧茫箍绶掌鲗<也⑿校‥P)成為分布式訓練和推理的關鍵技術需求。為應對 TP 和 EP 對網絡帶寬與延遲的極為嚴苛的要求,構建超高帶寬、超低延遲的 Scale up 網絡(縱向擴張網絡)成為業(yè)界主流技術路徑。
目前英偉達超節(jié)點已經推出成熟方案。2024-2026 年,英偉達陸續(xù)推出 GH200 NVL72、GB200/ GB300NVL72、VR200 NVL72 三代超節(jié)點。
● Hopper 架構開啟超節(jié)點 Scale up 初步探索。GH200 通過 NVLink 和 NVLink-C2C(Chip-to-Chip)技術,使得每個 GPU 可以訪問其他所有 CPU 和 GPU 芯片的內存,實現 GPU 與 CPU 內存統一編址。?
● Blackwell 架構推動 Scale up 標準化。GB200 NVL72 將 Scale-up 規(guī)模穩(wěn)定在 72 個 GPU/機柜,形成可復制標準化方案。NVL72 由 18 個 Compute Tray(計算托架)和 9 個 Switch Tray(網絡交換托架)構成。其中,Compute Tray 是計算核心單元,負責提供強大的計算能力;Switch Tray 是高速通信樞紐,用于實現 GPU 之間的高速數據交換。NVL72 背板通過“NVLink5 私有協議 + 銅線纜”將18 個 Compute Tray 中的 72 顆 B200 GPU 和 9 個 Switch Tray 中的 18 顆 NVSwitch 芯片進行滿帶寬全連接。
● Rubin架構推動Scale up方案帶寬倍增。2026年1月CES展會,英偉達發(fā)布Rubin架構VR200 NVL72。其中 NVLink 6 Switch 實現單 GPU 的互連帶寬提升至 3.6 TB/s,上代為 1.8TB/s。Scale out 方面,Spectrum-6 交換機支持 CPO(共封裝光學)技術,將 32 個 1.6Tb/s 硅光光學引擎與交換芯片直接封裝集成。
在超節(jié)點方案上,英偉達處于領先優(yōu)勢。2024-2025 年,英偉達陸續(xù)推出 GH200 NVL72、GB200/ GB300NVL72 等成熟超節(jié)點解決方案。根據大摩預測,2025 年英偉達 GB200/300 NVL72 出貨量約 2800 臺。展望 2026-2027 年,英偉達計劃推出 Vera Rubin NVL144 和 Rubin Ultra NVL576?;ヂ?GPU 數將從 72 顆進一步向 576 顆發(fā)展。屆時,英偉達將在新一代 Kyber 機架架構中引入 NVLink Switch Blade(NVLink 交換機刀片),通過 PCB 中板替代傳統 5000+根有源銅纜。可以看到,Rubin Ultra NVL576 仍具有較強的工程創(chuàng)新能力。
英偉達超節(jié)點的優(yōu)勢建立在 NVLink 和 NVLink Switch。為實現 AI 訓練集群高帶寬與低延遲數據傳輸,NVLink 重新設計通信架構,并引入一系列先進技術,包括網狀拓撲、差分信號傳輸、流量調度信用機制、多Lane綁定技術、統一內存空間等。截止2025年,NVLink 5 Switch實現支持單GPU到GPU帶寬1800GB/s,可構建 72 GPU 的 NVLink 域,總帶寬達 130 TB/s(雙向),支持 72 GPU 全互聯通信。在后續(xù)計劃中,NVSwitch Gen6 和 Gen7 的 GPU-to-GPU 通信帶寬繼續(xù)升級為 3.6TB/s。
但另一方面,Scale up 網絡興起源于滿足大模型分布式訓練和推理中的張量并行(TP)與專家并行(EP)。目前 AI 產業(yè)也在探索降低 TP 與 EP 規(guī)模的技術方案,從而降低 Scale up 網絡規(guī)模的上限。我們認為,Scaleup 網絡的發(fā)展空間或限制英偉達在超節(jié)點領域的領先優(yōu)勢。為保持領先優(yōu)勢,實現 Scale up 網絡和 Scaleout 網絡融合或將成為英偉達超節(jié)點新的發(fā)展趨勢。