用戶(hù)名: 密碼: 驗(yàn)證碼:

華為超節(jié)點(diǎn)趕超英偉達(dá):駕馭“光”很關(guān)鍵

摘要:超節(jié)點(diǎn)并非單純堆芯片,而是重構(gòu)計(jì)算架構(gòu),靠高帶寬、低時(shí)延、統(tǒng)一內(nèi)存編址大幅提升算力利用率。華為昇騰 384 憑借全光互聯(lián)與系統(tǒng)化創(chuàng)新實(shí)現(xiàn)突破,并開(kāi)放靈衢協(xié)議、共建軟件生態(tài),推動(dòng)智算與通算升級(jí)。

  ICC訊   2025年以來(lái),超節(jié)點(diǎn)(SuperPod)作為新的AI算力基礎(chǔ)設(shè)施,不斷成為行業(yè)焦點(diǎn)。觀察者網(wǎng)也曾深度報(bào)道過(guò)華為的昇騰384超節(jié)點(diǎn),它通過(guò)高速互聯(lián)總線(xiàn)將384顆昇騰芯片連接起來(lái),在超節(jié)點(diǎn)算力規(guī)模、網(wǎng)絡(luò)互聯(lián)帶寬、內(nèi)存總帶寬等多個(gè)指標(biāo)上,趕超了國(guó)外廠(chǎng)商的旗艦系統(tǒng)。

  但當(dāng)時(shí)一些討論認(rèn)為,華為是靠堆砌了384顆芯片,才超越了英偉達(dá)72顆芯片,而后很多廠(chǎng)商也跟進(jìn)了超節(jié)點(diǎn)的概念。一時(shí)間,算力行業(yè)掀起了建設(shè)超節(jié)點(diǎn)的熱潮。那回到最初的問(wèn)題,超節(jié)點(diǎn)就是單純的堆芯片嗎?華為是通過(guò)暴力堆砌芯片趕超英偉達(dá)的嗎?超節(jié)點(diǎn)和傳統(tǒng)的計(jì)算集群區(qū)別在哪?

  關(guān)于這些行業(yè)熱點(diǎn)話(huà)題,華為計(jì)算產(chǎn)品線(xiàn)營(yíng)銷(xiāo)運(yùn)作部部長(zhǎng)張愛(ài)軍近日在一場(chǎng)媒體沙龍上對(duì)觀察者網(wǎng)等媒體做了詳解。他首先認(rèn)為,今天的算力需求遠(yuǎn)未被滿(mǎn)足,無(wú)論是大模型進(jìn)入到生產(chǎn)系統(tǒng)中,還是在toC消費(fèi)端,token消耗的數(shù)量都在指數(shù)級(jí)增長(zhǎng),未來(lái)中國(guó)每日token消耗量可能突破千萬(wàn)億。

  在一些觀點(diǎn)看來(lái),算力缺口大可以通過(guò)大量建設(shè)服務(wù)器集群堆卡來(lái)解決。這么說(shuō)聽(tīng)起來(lái)有一定道理,但真實(shí)情況遠(yuǎn)沒(méi)有這么簡(jiǎn)單。根據(jù)Meta公布的論文,萬(wàn)卡集群訓(xùn)練時(shí)算力利用率僅約38%,粗暴堆卡可能會(huì)造成62%的算力浪費(fèi),并且模型訓(xùn)練會(huì)3個(gè)小時(shí)中斷一次。

  這是因?yàn)?,集群網(wǎng)絡(luò)通信已成為當(dāng)前大模型訓(xùn)練和推理的最大挑戰(zhàn)。以DeepSeek這種混合專(zhuān)家模型(MoE)為例,每個(gè)“專(zhuān)家”如果不能有效溝通,NPU就會(huì)由于沒(méi)有足夠數(shù)據(jù)計(jì)算而閑置,進(jìn)而形成1+1。

  超節(jié)點(diǎn)就在這種情況下應(yīng)運(yùn)而生,它不是修補(bǔ)式改進(jìn),而是對(duì)傳統(tǒng)計(jì)算架構(gòu)進(jìn)行重構(gòu)。張愛(ài)軍對(duì)觀察者網(wǎng)表示,超節(jié)點(diǎn)從傳統(tǒng)以CPU為中心的架構(gòu),變成了全平等互聯(lián),無(wú)論是CPU、NPU還是內(nèi)存單元,都不用再經(jīng)過(guò)CPU,而是可以平等互聯(lián),提高通信效率,同時(shí)連接計(jì)算單元的“高速公路”也發(fā)生了變化,由全新的協(xié)議和總線(xiàn)能力來(lái)支撐設(shè)備間互聯(lián)。

  現(xiàn)在市面上的超節(jié)點(diǎn)越來(lái)越多,但并沒(méi)有統(tǒng)一標(biāo)準(zhǔn),而張愛(ài)軍認(rèn)為,真正的超節(jié)點(diǎn)須具備三個(gè)關(guān)鍵特點(diǎn):一是帶寬夠大,核心要讓計(jì)算不用等待通信;二是有足夠低的時(shí)延,傳統(tǒng)集群很難做到時(shí)延降低;三是形成有效的、邏輯上的單一系統(tǒng),關(guān)鍵在于內(nèi)存能不能統(tǒng)一編址。利用這些技術(shù),超節(jié)點(diǎn)可以讓DeepSeek的256個(gè)“專(zhuān)家”分布到每個(gè)計(jì)算單元上,提升吞吐效率。

  “為什么要有統(tǒng)一內(nèi)存編址的技術(shù)才能真正稱(chēng)得上超節(jié)點(diǎn)?”他進(jìn)一步對(duì)觀察者網(wǎng)解釋稱(chēng),傳統(tǒng)集群的信息傳遞,跟現(xiàn)實(shí)生活中寄快遞的方式比較像,需要做相應(yīng)的轉(zhuǎn)換才能找到下單地址。而超節(jié)點(diǎn)希望像在圖書(shū)館里檢索書(shū)籍一樣,提前進(jìn)行書(shū)籍編址,能快速找到,而且可以變成資源池。如果沒(méi)有統(tǒng)一內(nèi)存編址,就不能做到內(nèi)存的池化。如果沒(méi)有內(nèi)存池化,計(jì)算單元之間的數(shù)據(jù)快速交換很難做到。如果不能快速交換數(shù)據(jù),計(jì)算效率是很難提升的。這是為什么說(shuō)做不到統(tǒng)一內(nèi)存編址,超節(jié)點(diǎn)是很難真正高效地運(yùn)行起來(lái)的原因之一?!?

  一句話(huà)總結(jié),超節(jié)點(diǎn)相比傳統(tǒng)集群最大的優(yōu)勢(shì),是計(jì)算效率的顯著提升。以芯片制程為例,在摩爾定律放緩的情況下,7納米到3納米,可能每代性能提升不超過(guò)20%。而超節(jié)點(diǎn)可以將模型算力利用率從30%提升到45%,相當(dāng)于提升了50%,通過(guò)資源的高效調(diào)度,在一定程度上可以彌補(bǔ)芯片工藝代差。

  但打造一個(gè)真正的超節(jié)點(diǎn)遠(yuǎn)沒(méi)有那么容易。關(guān)注技術(shù)細(xì)節(jié)的人可能會(huì)發(fā)現(xiàn),華為的昇騰384超節(jié)點(diǎn)是由12個(gè)計(jì)算柜和4個(gè)總線(xiàn)柜構(gòu)成,體積龐大,而英偉達(dá)NVL72系統(tǒng)只有一個(gè)機(jī)柜,為什么英偉達(dá)不連接更多機(jī)柜,進(jìn)而連接更多芯片?

  核心在于超節(jié)點(diǎn)架構(gòu)不同,英偉達(dá)采用的全銅線(xiàn)架構(gòu),傳遞的是電信號(hào),而華為將光通信技術(shù)應(yīng)用于超節(jié)點(diǎn),采用超高速光模塊連接“如果用電的方式,高速信號(hào)基本只能在一個(gè)機(jī)柜里兩到五米傳送,這也是為什么很多業(yè)界的超節(jié)點(diǎn)只能在一個(gè)機(jī)柜里面提供。為什么華為可以跳出單個(gè)機(jī)柜限制,規(guī)模商用384個(gè)芯片互聯(lián),未來(lái)可以支持8192個(gè)芯片互聯(lián),核心是我們用了光的技術(shù)。”張愛(ài)軍對(duì)觀察者網(wǎng)表示。

  但“光”并不好駕馭。光模塊成本高,也比較嬌慣,如果有灰塵,有各種各樣的溫度變化,容易發(fā)生閃斷、系統(tǒng)不穩(wěn)定,要做的像電一樣可靠,像光一樣長(zhǎng)度,難度很大。

  “我們是怎么做到的?一句話(huà),系統(tǒng)化創(chuàng)新,華為可以做自己的芯片,有自己光的器件能力,有自己的底層協(xié)議,在過(guò)去光通信上構(gòu)建了工程能力,我們做到了借助全光互聯(lián)提供超節(jié)點(diǎn)。為什么其它廠(chǎng)商做不到?就是因?yàn)樗麄兓蛟S掌握了某些單點(diǎn)技術(shù),但很難像華為一樣有系統(tǒng)化能力,這也得益于過(guò)去華為一直在通信領(lǐng)域深厚的積累。過(guò)去20年,我們?cè)诠馍厦媸侨虻谝坏募夹g(shù)積累。”張愛(ài)軍對(duì)觀察者網(wǎng)說(shuō)道。

  華為不僅在做智算超節(jié)點(diǎn),也在發(fā)展通算超節(jié)點(diǎn)。去年的華為全聯(lián)接大會(huì)上,華為輪值董事長(zhǎng)徐直軍發(fā)布了基于鯤鵬950處理器的TaiShan 950超節(jié)點(diǎn),這是全球首個(gè)通用計(jì)算超節(jié)點(diǎn),將在2026年一季度上市。他當(dāng)時(shí)表示,TaiShan 950加上分布式GaussDB數(shù)據(jù)庫(kù),將徹底取代各種應(yīng)用場(chǎng)景的大型機(jī)和小型機(jī),以及Oracle的Exadata數(shù)據(jù)庫(kù)服務(wù)器。

  “大家過(guò)去買(mǎi)服務(wù)器,主要關(guān)注CPU的主頻和核數(shù)。但今天大量的場(chǎng)景通過(guò)調(diào)整主頻和核數(shù)是難以解決的,核心原因是因?yàn)槟柖梢呀?jīng)走到頭了,物理的效能很難,堆再多的核、提升再高的主頻,很難把計(jì)算效能提升上去。有一條新路,通過(guò)通信的能力把多核能夠連接起來(lái),形成有效的業(yè)務(wù)系統(tǒng),同樣給通用計(jì)算提供相應(yīng)的能力。核心和智算是一樣的,提供超大帶寬、超低時(shí)延、進(jìn)行統(tǒng)一內(nèi)存編址?!睆垚?ài)軍說(shuō)道。

  在華為的思考中,無(wú)論是智算還是通算超節(jié)點(diǎn),乃至像Atlas 950 SuperCluster這樣數(shù)十萬(wàn)卡的巨型超節(jié)點(diǎn)集群,核心是要讓大量服務(wù)器像一臺(tái)計(jì)算機(jī)一樣工作,由此華為構(gòu)建了新型互聯(lián)協(xié)議靈衢UB(UnifiedBus),并將靈衢2.0規(guī)范開(kāi)放。

  “靈衢是構(gòu)建超節(jié)點(diǎn)的核心能力,華為把它完全開(kāi)放出來(lái),讓業(yè)界所有的人都可以獲取到這個(gè)技術(shù)?;A(chǔ)協(xié)議有600頁(yè),是所有廠(chǎng)商中提供的最詳細(xì)、最完整的能力。通過(guò)對(duì)靈衢2.0協(xié)議的開(kāi)放,產(chǎn)業(yè)界伙伴能夠借助這個(gè)技術(shù)打造自己的超節(jié)點(diǎn)。我們希望與產(chǎn)業(yè)界共創(chuàng),能夠形成一個(gè)繁榮的產(chǎn)業(yè)生態(tài),希望這些新的能力、新的技術(shù)不僅僅華為在使用,而是整個(gè)產(chǎn)業(yè)鏈一起來(lái)構(gòu)建?!睆垚?ài)軍表示。


  超節(jié)點(diǎn)足夠火熱,但支撐其運(yùn)行的不只有芯片、光模塊等硬件,還有大量軟件生態(tài),比如異構(gòu)計(jì)算架構(gòu)CANN、操作系統(tǒng)openEuler、數(shù)據(jù)庫(kù)openGauss、AI框架MindSpore等等。

  生態(tài)需要產(chǎn)業(yè)共建,華為一直堅(jiān)持軟件開(kāi)源開(kāi)放。張愛(ài)軍表示,“目前鯤鵬注冊(cè)開(kāi)發(fā)者有380萬(wàn),昇騰有將近400萬(wàn)開(kāi)發(fā)者。2025年8月,我們把CANN完全開(kāi)源開(kāi)放,openEuler也是業(yè)界第一個(gè)面向超節(jié)點(diǎn)的開(kāi)源操作系統(tǒng)。特別是CANN,我們從最底層的運(yùn)營(yíng)時(shí),到開(kāi)發(fā)語(yǔ)言、模版庫(kù)算子庫(kù)等,完整地開(kāi)源給產(chǎn)業(yè)界,現(xiàn)在已經(jīng)有很多開(kāi)發(fā)者基于昇騰CANN的能力,自己開(kāi)發(fā)算子,來(lái)面向它的業(yè)務(wù)場(chǎng)景進(jìn)行創(chuàng)新。AI 時(shí)代的迭代速度遠(yuǎn)超以往,單打獨(dú)斗很難跟上節(jié)奏,協(xié)同共創(chuàng)、開(kāi)放共生才能共贏未來(lái)?!?

內(nèi)容來(lái)自:觀察者網(wǎng)
本文地址:http://partyval.com//Site/CN/News/2026/02/10/20260210072434773209.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:華為超節(jié)點(diǎn)趕超英偉達(dá):駕馭“光”很關(guān)鍵
1、凡本網(wǎng)注明“來(lái)源:訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品,版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來(lái)源。
2、免責(zé)聲明,凡本網(wǎng)注明“來(lái)源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無(wú)法確定原網(wǎng)地址,若作品內(nèi)容、版權(quán)爭(zhēng)議和其它問(wèn)題,請(qǐng)聯(lián)系本網(wǎng),將第一時(shí)間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話(huà):0755-82960080-168   Right