ICC訊 2025年以來(lái),超節(jié)點(diǎn)(SuperPod)作為新的AI算力基礎(chǔ)設(shè)施,不斷成為行業(yè)焦點(diǎn)。觀察者網(wǎng)也曾深度報(bào)道過(guò)華為的昇騰384超節(jié)點(diǎn),它通過(guò)高速互聯(lián)總線(xiàn)將384顆昇騰芯片連接起來(lái),在超節(jié)點(diǎn)算力規(guī)模、網(wǎng)絡(luò)互聯(lián)帶寬、內(nèi)存總帶寬等多個(gè)指標(biāo)上,趕超了國(guó)外廠(chǎng)商的旗艦系統(tǒng)。
但當(dāng)時(shí)一些討論認(rèn)為,華為是靠堆砌了384顆芯片,才超越了英偉達(dá)72顆芯片,而后很多廠(chǎng)商也跟進(jìn)了超節(jié)點(diǎn)的概念。一時(shí)間,算力行業(yè)掀起了建設(shè)超節(jié)點(diǎn)的熱潮。那回到最初的問(wèn)題,超節(jié)點(diǎn)就是單純的堆芯片嗎?華為是通過(guò)暴力堆砌芯片趕超英偉達(dá)的嗎?超節(jié)點(diǎn)和傳統(tǒng)的計(jì)算集群區(qū)別在哪?
關(guān)于這些行業(yè)熱點(diǎn)話(huà)題,華為計(jì)算產(chǎn)品線(xiàn)營(yíng)銷(xiāo)運(yùn)作部部長(zhǎng)張愛(ài)軍近日在一場(chǎng)媒體沙龍上對(duì)觀察者網(wǎng)等媒體做了詳解。他首先認(rèn)為,今天的算力需求遠(yuǎn)未被滿(mǎn)足,無(wú)論是大模型進(jìn)入到生產(chǎn)系統(tǒng)中,還是在toC消費(fèi)端,token消耗的數(shù)量都在指數(shù)級(jí)增長(zhǎng),未來(lái)中國(guó)每日token消耗量可能突破千萬(wàn)億。
在一些觀點(diǎn)看來(lái),算力缺口大可以通過(guò)大量建設(shè)服務(wù)器集群堆卡來(lái)解決。這么說(shuō)聽(tīng)起來(lái)有一定道理,但真實(shí)情況遠(yuǎn)沒(méi)有這么簡(jiǎn)單。根據(jù)Meta公布的論文,萬(wàn)卡集群訓(xùn)練時(shí)算力利用率僅約38%,粗暴堆卡可能會(huì)造成62%的算力浪費(fèi),并且模型訓(xùn)練會(huì)3個(gè)小時(shí)中斷一次。
這是因?yàn)?,集群網(wǎng)絡(luò)通信已成為當(dāng)前大模型訓(xùn)練和推理的最大挑戰(zhàn)。以DeepSeek這種混合專(zhuān)家模型(MoE)為例,每個(gè)“專(zhuān)家”如果不能有效溝通,NPU就會(huì)由于沒(méi)有足夠數(shù)據(jù)計(jì)算而閑置,進(jìn)而形成1+1。
超節(jié)點(diǎn)就在這種情況下應(yīng)運(yùn)而生,它不是修補(bǔ)式改進(jìn),而是對(duì)傳統(tǒng)計(jì)算架構(gòu)進(jìn)行重構(gòu)。張愛(ài)軍對(duì)觀察者網(wǎng)表示,超節(jié)點(diǎn)從傳統(tǒng)以CPU為中心的架構(gòu),變成了全平等互聯(lián),無(wú)論是CPU、NPU還是內(nèi)存單元,都不用再經(jīng)過(guò)CPU,而是可以平等互聯(lián),提高通信效率,同時(shí)連接計(jì)算單元的“高速公路”也發(fā)生了變化,由全新的協(xié)議和總線(xiàn)能力來(lái)支撐設(shè)備間互聯(lián)。
現(xiàn)在市面上的超節(jié)點(diǎn)越來(lái)越多,但并沒(méi)有統(tǒng)一標(biāo)準(zhǔn),而張愛(ài)軍認(rèn)為,真正的超節(jié)點(diǎn)須具備三個(gè)關(guān)鍵特點(diǎn):一是帶寬夠大,核心要讓計(jì)算不用等待通信;二是有足夠低的時(shí)延,傳統(tǒng)集群很難做到時(shí)延降低;三是形成有效的、邏輯上的單一系統(tǒng),關(guān)鍵在于內(nèi)存能不能統(tǒng)一編址。利用這些技術(shù),超節(jié)點(diǎn)可以讓DeepSeek的256個(gè)“專(zhuān)家”分布到每個(gè)計(jì)算單元上,提升吞吐效率。
“為什么要有統(tǒng)一內(nèi)存編址的技術(shù)才能真正稱(chēng)得上超節(jié)點(diǎn)?”他進(jìn)一步對(duì)觀察者網(wǎng)解釋稱(chēng),傳統(tǒng)集群的信息傳遞,跟現(xiàn)實(shí)生活中寄快遞的方式比較像,需要做相應(yīng)的轉(zhuǎn)換才能找到下單地址。而超節(jié)點(diǎn)希望像在圖書(shū)館里檢索書(shū)籍一樣,提前進(jìn)行書(shū)籍編址,能快速找到,而且可以變成資源池。如果沒(méi)有統(tǒng)一內(nèi)存編址,就不能做到內(nèi)存的池化。如果沒(méi)有內(nèi)存池化,計(jì)算單元之間的數(shù)據(jù)快速交換很難做到。如果不能快速交換數(shù)據(jù),計(jì)算效率是很難提升的。這是為什么說(shuō)做不到統(tǒng)一內(nèi)存編址,超節(jié)點(diǎn)是很難真正高效地運(yùn)行起來(lái)的原因之一?!?
一句話(huà)總結(jié),超節(jié)點(diǎn)相比傳統(tǒng)集群最大的優(yōu)勢(shì),是計(jì)算效率的顯著提升。以芯片制程為例,在摩爾定律放緩的情況下,7納米到3納米,可能每代性能提升不超過(guò)20%。而超節(jié)點(diǎn)可以將模型算力利用率從30%提升到45%,相當(dāng)于提升了50%,通過(guò)資源的高效調(diào)度,在一定程度上可以彌補(bǔ)芯片工藝代差。
但打造一個(gè)真正的超節(jié)點(diǎn)遠(yuǎn)沒(méi)有那么容易。關(guān)注技術(shù)細(xì)節(jié)的人可能會(huì)發(fā)現(xiàn),華為的昇騰384超節(jié)點(diǎn)是由12個(gè)計(jì)算柜和4個(gè)總線(xiàn)柜構(gòu)成,體積龐大,而英偉達(dá)NVL72系統(tǒng)只有一個(gè)機(jī)柜,為什么英偉達(dá)不連接更多機(jī)柜,進(jìn)而連接更多芯片?
核心在于超節(jié)點(diǎn)架構(gòu)不同,英偉達(dá)采用的全銅線(xiàn)架構(gòu),傳遞的是電信號(hào),而華為將光通信技術(shù)應(yīng)用于超節(jié)點(diǎn),采用超高速光模塊連接。“如果用電的方式,高速信號(hào)基本只能在一個(gè)機(jī)柜里兩到五米傳送,這也是為什么很多業(yè)界的超節(jié)點(diǎn)只能在一個(gè)機(jī)柜里面提供。為什么華為可以跳出單個(gè)機(jī)柜限制,規(guī)模商用384個(gè)芯片互聯(lián),未來(lái)可以支持8192個(gè)芯片互聯(lián),核心是我們用了光的技術(shù)。”張愛(ài)軍對(duì)觀察者網(wǎng)表示。
但“光”并不好駕馭。光模塊成本高,也比較嬌慣,如果有灰塵,有各種各樣的溫度變化,容易發(fā)生閃斷、系統(tǒng)不穩(wěn)定,要做的像電一樣可靠,像光一樣長(zhǎng)度,難度很大。
“我們是怎么做到的?一句話(huà),系統(tǒng)化創(chuàng)新,華為可以做自己的芯片,有自己光的器件能力,有自己的底層協(xié)議,在過(guò)去光通信上構(gòu)建了工程能力,我們做到了借助全光互聯(lián)提供超節(jié)點(diǎn)。為什么其它廠(chǎng)商做不到?就是因?yàn)樗麄兓蛟S掌握了某些單點(diǎn)技術(shù),但很難像華為一樣有系統(tǒng)化能力,這也得益于過(guò)去華為一直在通信領(lǐng)域深厚的積累。過(guò)去20年,我們?cè)诠馍厦媸侨虻谝坏募夹g(shù)積累。”張愛(ài)軍對(duì)觀察者網(wǎng)說(shuō)道。
華為不僅在做智算超節(jié)點(diǎn),也在發(fā)展通算超節(jié)點(diǎn)。去年的華為全聯(lián)接大會(huì)上,華為輪值董事長(zhǎng)徐直軍發(fā)布了基于鯤鵬950處理器的TaiShan 950超節(jié)點(diǎn),這是全球首個(gè)通用計(jì)算超節(jié)點(diǎn),將在2026年一季度上市。他當(dāng)時(shí)表示,TaiShan 950加上分布式GaussDB數(shù)據(jù)庫(kù),將徹底取代各種應(yīng)用場(chǎng)景的大型機(jī)和小型機(jī),以及Oracle的Exadata數(shù)據(jù)庫(kù)服務(wù)器。
“大家過(guò)去買(mǎi)服務(wù)器,主要關(guān)注CPU的主頻和核數(shù)。但今天大量的場(chǎng)景通過(guò)調(diào)整主頻和核數(shù)是難以解決的,核心原因是因?yàn)槟柖梢呀?jīng)走到頭了,物理的效能很難,堆再多的核、提升再高的主頻,很難把計(jì)算效能提升上去。有一條新路,通過(guò)通信的能力把多核能夠連接起來(lái),形成有效的業(yè)務(wù)系統(tǒng),同樣給通用計(jì)算提供相應(yīng)的能力。核心和智算是一樣的,提供超大帶寬、超低時(shí)延、進(jìn)行統(tǒng)一內(nèi)存編址?!睆垚?ài)軍說(shuō)道。
在華為的思考中,無(wú)論是智算還是通算超節(jié)點(diǎn),乃至像Atlas 950 SuperCluster這樣數(shù)十萬(wàn)卡的巨型超節(jié)點(diǎn)集群,核心是要讓大量服務(wù)器像一臺(tái)計(jì)算機(jī)一樣工作,由此華為構(gòu)建了新型互聯(lián)協(xié)議靈衢UB(UnifiedBus),并將靈衢2.0規(guī)范開(kāi)放。
“靈衢是構(gòu)建超節(jié)點(diǎn)的核心能力,華為把它完全開(kāi)放出來(lái),讓業(yè)界所有的人都可以獲取到這個(gè)技術(shù)?;A(chǔ)協(xié)議有600頁(yè),是所有廠(chǎng)商中提供的最詳細(xì)、最完整的能力。通過(guò)對(duì)靈衢2.0協(xié)議的開(kāi)放,產(chǎn)業(yè)界伙伴能夠借助這個(gè)技術(shù)打造自己的超節(jié)點(diǎn)。我們希望與產(chǎn)業(yè)界共創(chuàng),能夠形成一個(gè)繁榮的產(chǎn)業(yè)生態(tài),希望這些新的能力、新的技術(shù)不僅僅華為在使用,而是整個(gè)產(chǎn)業(yè)鏈一起來(lái)構(gòu)建?!睆垚?ài)軍表示。
超節(jié)點(diǎn)足夠火熱,但支撐其運(yùn)行的不只有芯片、光模塊等硬件,還有大量軟件生態(tài),比如異構(gòu)計(jì)算架構(gòu)CANN、操作系統(tǒng)openEuler、數(shù)據(jù)庫(kù)openGauss、AI框架MindSpore等等。
生態(tài)需要產(chǎn)業(yè)共建,華為一直堅(jiān)持軟件開(kāi)源開(kāi)放。張愛(ài)軍表示,“目前鯤鵬注冊(cè)開(kāi)發(fā)者有380萬(wàn),昇騰有將近400萬(wàn)開(kāi)發(fā)者。2025年8月,我們把CANN完全開(kāi)源開(kāi)放,openEuler也是業(yè)界第一個(gè)面向超節(jié)點(diǎn)的開(kāi)源操作系統(tǒng)。特別是CANN,我們從最底層的運(yùn)營(yíng)時(shí),到開(kāi)發(fā)語(yǔ)言、模版庫(kù)算子庫(kù)等,完整地開(kāi)源給產(chǎn)業(yè)界,現(xiàn)在已經(jīng)有很多開(kāi)發(fā)者基于昇騰CANN的能力,自己開(kāi)發(fā)算子,來(lái)面向它的業(yè)務(wù)場(chǎng)景進(jìn)行創(chuàng)新。AI 時(shí)代的迭代速度遠(yuǎn)超以往,單打獨(dú)斗很難跟上節(jié)奏,協(xié)同共創(chuàng)、開(kāi)放共生才能共贏未來(lái)?!?