ICC訊 當大模型訓練邁入萬卡、十萬卡規(guī)模,算力的競爭已不再停留在單芯片、單服務器層面,而是進入以“超節(jié)點”為核心的階段。所謂超節(jié)點,本質(zhì)上是將數(shù)十甚至數(shù)百張GPU通過高速互聯(lián)緊密耦合,在物理上盡可能縮短距離、在邏輯上近似一臺“超級計算機”,以換取更低時延與更高效率。
在第二十屆IDC產(chǎn)業(yè)年度大典(IDCC 2025)上,圍繞超節(jié)點的討論明顯升溫。從設備廠商到云廠商,從能源企業(yè)到算力運營商,產(chǎn)業(yè)鏈各方都在重構自己的坐標。本文基于IDCC 2025多位嘉賓的演講內(nèi)容,為大家拆解超節(jié)點的真實邏輯,探討它在重塑效率的同時,又在透支什么?
超節(jié)點為何必然出現(xiàn)?
在傳統(tǒng)IDC時代,服務器是最小自治單元,機柜只是物理容器,網(wǎng)絡負責把算力拼接起來。但在AI時代,這一結構開始失效。
華為數(shù)據(jù)中心能源及關鍵供電產(chǎn)品線副總裁陽必飛指出,“英偉達的數(shù)據(jù)顯示,從H100演進至B100,單位功率從幾十千瓦增長至NVL272、NVL144的650千瓦,未來甚至可能邁向兆瓦級。超節(jié)點功率將從54千瓦逐步走向100千瓦、200千瓦,這代表了超節(jié)點向高密部署發(fā)展的必然趨勢。”
當單卡功耗從百瓦攀升至千瓦級,傳統(tǒng)Scale out模式迅速暴露出瓶頸。網(wǎng)絡距離拉長、光模塊成本上升、通信抖動放大,都會直接吞噬模型訓練效率。陽必飛強調(diào)到,“智算時代網(wǎng)絡至關重要,必須考量時延與成本?!?
超節(jié)點的出現(xiàn),正是對“網(wǎng)絡成為瓶頸”的一次直接回應。通過在機柜內(nèi)甚至跨柜實現(xiàn) GPU 的高帶寬互聯(lián),算力不再依賴跨機房、跨樓層的網(wǎng)絡通信,從而顯著降低延遲與能耗。
軍事科學院軍事科學信息研究中心高級工程師張鴻斌指出,“超節(jié)點追求極致性能和最小網(wǎng)絡延遲,因此通過時鐘同步將單節(jié)點做大,以獲取最準確的數(shù)據(jù)傳輸。”
然而,超節(jié)點的出現(xiàn)并非沒有代價。單柜功率從50千瓦躍升至100千瓦、200千瓦,甚至被預測將邁向兆瓦級,意味著機柜、供電、制冷、網(wǎng)絡和運維等都要被徹底重寫。超節(jié)點提升了算力密度,卻同步放大了基礎設施的風險密度,這種結構性張力,構成了產(chǎn)業(yè)爭議的起點。
這也就是為什么超節(jié)點常常與“高密、液冷、兆瓦級機柜”等關鍵詞綁定出現(xiàn)。它并不追求算力的普適性,而是試圖在有限空間內(nèi),用工程手段換取并行效率。
高密是一種趨勢,但不是所有算力的答案
在超節(jié)點話題不斷升溫的同時,一個容易被忽視的事實是:并非所有算力需求都需要走向超高密。陽必飛在演講中強調(diào),“算力‘多元化’特征,既包括廠商路線的多元,也包括算力密度的多元。基礎大模型訓練確實需要利用集群和超節(jié)點進行超高密計算,但自動駕駛推理、視頻解析等推理場景仍會使用低密計算?!?
浩云長盛CTO 檀志恒對此表示認同,“面臨功率密度隨芯片技術創(chuàng)新而快速提升的現(xiàn)實(如英偉達超節(jié)點單柜從100千瓦提升至200千瓦以上),低功率機柜短期內(nèi)不會消失?!?
這一判斷在服務器整機領域得到了印證。超聚變智能數(shù)據(jù)中心CTO單彤表示,“在超節(jié)點的發(fā)展路徑上,國內(nèi)外正在走出兩條路線。盡管在互聯(lián)帶寬和芯片制程層面可以相互借鑒,但受制于制程工藝落后一到兩代的現(xiàn)實,國內(nèi)在相同架構下往往面臨更快的功耗增長,這就需要根據(jù)實際需求引入超節(jié)點?!?
單彤指出,“目前八模組服務器仍是主力形態(tài)。雖然它尚未承擔萬億參數(shù)級別的超大模型訓練任務,但在非萬億參數(shù)訓練以及更廣泛的推理場景中,仍將長期存在并持續(xù)演進。與此同時,其單機功耗已從早期的6千瓦,快速提升至2025年的15千瓦,未來甚至可能達到20–25千瓦?!?
值得一提的是,數(shù)據(jù)中心的生命周期通常長達十年甚至二十年,而AI芯片卻保持著一年一小代、兩年一大代的迭代節(jié)奏。這意味著,超節(jié)點所追求的極致密度,很可能在還未完全釋放價值前,就面臨代際不匹配的風險。
因此,高密部署確實是一種趨勢,但不應被簡單等同于“先進”。真正成熟的算力體系,應當是在高密與低密之間實現(xiàn)結構性平衡,在技術演進與經(jīng)濟效率之間找到最優(yōu)解。只有在需求驅(qū)動下進行精準匹配,而非盲目追逐密度指標,算力建設才能避免過度配置,走向更加可持續(xù)的發(fā)展路徑。
從機柜到園區(qū),超節(jié)點正在推高系統(tǒng)性風險
如果說單柜功率突破百千瓦只是工程挑戰(zhàn),那么當超節(jié)點被規(guī)模化部署后,其真正的影響將體現(xiàn)在園區(qū)層面。多位嘉賓在IDCC2025上反復提及一個數(shù)字:GW 級園區(qū)。
陽必飛指出,“當Scale up達到一定程度后,必須進行Scale out以構建集群。芯片級別為千瓦級,服務器為10千瓦級,機柜可能達到100千瓦級,而以384卡為例的超節(jié)點已接近兆瓦級,未來集群將達到百兆瓦級,園區(qū)則邁向GW級。GW級園區(qū)一年的耗電量可能高達50億度,如何提升能效至關重要。”
更現(xiàn)實的矛盾在于,超節(jié)點將大量算力壓縮在極少數(shù)物理單元中,一旦出現(xiàn)硬件、液冷或網(wǎng)絡級故障,風險被同步放大。過去集群時代“局部失效、整體退化”的容錯邏輯,在超節(jié)點場景下變得更加脆弱,這對調(diào)度系統(tǒng)、軟件棧穩(wěn)定性提出了遠高于以往的要求。
與此同時,它還帶來了運維與穩(wěn)定性的挑戰(zhàn)。負載波動、瞬時沖擊、電源冗余、儲能配置,都會在超節(jié)點環(huán)境下被放大。一旦系統(tǒng)穩(wěn)定性不足,超節(jié)點不僅不會提升效率,反而可能成為“故障放大器”。
因此,超節(jié)點所帶來的并非線性效率提升,而是一種“以集中換效率、以復雜換性能”的博弈結構。產(chǎn)業(yè)是否真的準備好為這種結構買單,遠比技術參數(shù)本身更值得討論。
在“超”與“不超”之間,產(chǎn)業(yè)需要回歸理性
回顧IDCC2025的演講中可以發(fā)現(xiàn),幾乎沒有嘉賓否認超節(jié)點的重要性,但同樣少有人認為它是唯一答案。
中國信通院人工智能研究所所長魏凱表示,“當前大家正思考如何發(fā)揮智算系統(tǒng)的綜合效益,即“優(yōu)化”。大模型推理和訓練效率極大提升,得益于軟硬件的深度協(xié)同——利用軟件極致壓榨硬件潛力。從大容量帶寬、存儲技術、卡間互聯(lián)、超節(jié)點技術到上層分布式框架,智算技術正向聯(lián)合優(yōu)化轉(zhuǎn)變。”
當模型通過算法優(yōu)化、精度調(diào)整和并行策略不斷“壓榨”硬件潛力時,單純堆疊硬件的邊際收益正在下降。超節(jié)點如果無法與軟件、調(diào)度和生態(tài)協(xié)同,最終可能淪為高成本的“算力堆?!?。這也是為什么越來越多廠商開始強調(diào)開源、互聯(lián)和異構協(xié)同,而非單一形態(tài)的極限性能。
超節(jié)點無疑重塑了算力產(chǎn)業(yè)的想象空間,但真正的分水嶺并不在于“是否采用超節(jié)點”,而在于是否能在效率、成本與風險之間找到新的平衡點。在這場高密度競賽中,理性可能比盲目追逐更加稀缺。