中國(guó)經(jīng)濟(jì)網(wǎng)天津5月30日訊(記者宋雅靜 許子杰)5月28日,2026世界智能產(chǎn)業(yè)博覽會(huì)在天津開(kāi)幕。中科曙光在1700平方米的展臺(tái)中展示了面向AI時(shí)代的新一代計(jì)算基礎(chǔ)設(shè)施體系,其中scaleX萬(wàn)卡超集群真機(jī)展出,震撼全場(chǎng)。
記者在現(xiàn)場(chǎng)拍攝了這臺(tái)設(shè)備的運(yùn)行狀態(tài),從機(jī)柜陣列到液冷管路,這些畫(huà)面直觀(guān)呈現(xiàn)了當(dāng)前超大規(guī)模AI集群的工程形態(tài)。
現(xiàn)場(chǎng)觀(guān)察:從概念到真機(jī)
與往屆展會(huì)常見(jiàn)的模型演示不同,這次展出的是實(shí)體設(shè)備。記者在現(xiàn)場(chǎng)看到,標(biāo)準(zhǔn)化的機(jī)柜陣列通過(guò)高速互聯(lián)網(wǎng)絡(luò)連接,相變浸沒(méi)液冷系統(tǒng)維持著設(shè)備的運(yùn)行溫度。
中科曙光公司綜合解決方案部、高級(jí)技術(shù)顧問(wèn)侯偉杰介紹,這套系統(tǒng)與今年2月已部署在國(guó)家超算互聯(lián)網(wǎng)核心節(jié)點(diǎn)的機(jī)型一致。在A(yíng)I算力領(lǐng)域,“萬(wàn)卡集群”在過(guò)去一年中頻繁出現(xiàn)在行業(yè)報(bào)道中,但以開(kāi)放架構(gòu)落地并公開(kāi)展示真機(jī)的案例較為少見(jiàn)。

相變浸沒(méi)液冷系統(tǒng)維持著設(shè)備的運(yùn)行溫度。中國(guó)經(jīng)濟(jì)網(wǎng)記者 宋雅靜/攝


scaleX萬(wàn)卡超集群真機(jī)展出。中國(guó)經(jīng)濟(jì)網(wǎng)記者 宋雅靜/攝
全精度計(jì)算:科學(xué)智能時(shí)代的基礎(chǔ)設(shè)施需求
在博覽會(huì)開(kāi)幕式上,中科曙光董事長(zhǎng)歷軍發(fā)表演講。他提到,AI for Science(AI4S)正在改變科研方式,基礎(chǔ)科學(xué)突破能力已成為科技競(jìng)爭(zhēng)的重要維度。他認(rèn)為,高精度科學(xué)計(jì)算與低精度智能計(jì)算的協(xié)同,將是新一代計(jì)算基礎(chǔ)設(shè)施的演進(jìn)方向。
這一判斷解釋了超大規(guī)模集群的設(shè)計(jì)邏輯。當(dāng)前大模型參數(shù)規(guī)模持續(xù)增長(zhǎng),從千億到萬(wàn)億參數(shù)的跨越對(duì)計(jì)算系統(tǒng)規(guī)模提出了更高要求。同時(shí),科學(xué)計(jì)算場(chǎng)景(如蛋白質(zhì)折疊模擬、流體力學(xué)仿真)需要雙精度浮點(diǎn)運(yùn)算支持,而模型訓(xùn)練則依賴(lài)低精度密集計(jì)算。scaleX萬(wàn)卡超集群的設(shè)計(jì)試圖兼顧這兩種需求。

scaleX萬(wàn)卡超集群真機(jī)展出,震撼全場(chǎng)。中科曙光供圖
系統(tǒng)架構(gòu):全棧協(xié)同的工程挑戰(zhàn)
在展臺(tái)技術(shù)講解區(qū),中科曙光展示了覆蓋”算、存、網(wǎng)、冷、管、軟”的技術(shù)體系。萬(wàn)卡集群的核心難點(diǎn)在于系統(tǒng)協(xié)同效率,而非單純的硬件堆砌。
計(jì)算層:除萬(wàn)卡超集群外,中科曙光還展示了640卡超節(jié)點(diǎn)scaleX640和無(wú)線(xiàn)纜箱式超節(jié)點(diǎn)scaleX40,形成不同規(guī)模的算力產(chǎn)品矩陣。
存儲(chǔ)與網(wǎng)絡(luò)層:展臺(tái)展示了FlashNexus全閃存存儲(chǔ)、ParaStor分布式存儲(chǔ)系統(tǒng),以及scaleFabric高速網(wǎng)絡(luò)產(chǎn)品。技術(shù)人員解釋?zhuān)f(wàn)卡并發(fā)訓(xùn)練時(shí),存儲(chǔ)I/O帶寬容易成為瓶頸,高速存儲(chǔ)與網(wǎng)絡(luò)配套是保障集群效率的必要條件。
散熱層:現(xiàn)場(chǎng)可見(jiàn)的相變浸沒(méi)液冷系統(tǒng)通過(guò)冷卻液相變帶走熱量。相比傳統(tǒng)散熱方式,這種方式在超大規(guī)模部署中有助于控制能耗。
軟件層:OneScience科學(xué)大模型開(kāi)發(fā)平臺(tái)和Gridview集群運(yùn)維系統(tǒng)提供了從集群管理到任務(wù)調(diào)度的軟件支持。官方數(shù)據(jù)顯示系統(tǒng)可用性為99.99%。
部署進(jìn)展:國(guó)家超算互聯(lián)網(wǎng)的應(yīng)用測(cè)試
今年2月,3套scaleX萬(wàn)卡超集群系統(tǒng)已在國(guó)家超算互聯(lián)網(wǎng)核心節(jié)點(diǎn)上線(xiàn)試運(yùn)行,覆蓋萬(wàn)億參數(shù)模型訓(xùn)練、高通量推理與AI4S等場(chǎng)景。
中科曙光方面透露,其AI4S計(jì)算集群已擴(kuò)展至60000卡規(guī)模,完成了70余項(xiàng)萬(wàn)卡規(guī)模測(cè)試。具體應(yīng)用包括:3萬(wàn)卡算力用于蛋白質(zhì)折疊模擬;4.5萬(wàn)卡算力實(shí)現(xiàn)414.7億原子DFT精度模擬,將部分仿真效率從周級(jí)縮短至小時(shí)級(jí)。
筆者在現(xiàn)場(chǎng)拍攝的大屏幕顯示了訓(xùn)練日志的實(shí)時(shí)回傳畫(huà)面,數(shù)據(jù)來(lái)源為國(guó)家超算互聯(lián)網(wǎng)核心節(jié)點(diǎn)。
生態(tài)建設(shè):從硬件部署到應(yīng)用適配
歷軍在演講中指出,科學(xué)智能時(shí)代的挑戰(zhàn)不僅在于算力供給,還在于建立”數(shù)算模用”協(xié)同體系,推動(dòng)先進(jìn)封裝、硅光互聯(lián)、先進(jìn)散熱等底層技術(shù)的持續(xù)進(jìn)步。
目前,中科曙光已適配400余個(gè)主流大模型,并在流體、生物、量子力學(xué)、工業(yè)仿真等領(lǐng)域推進(jìn)專(zhuān)業(yè)軟件的國(guó)產(chǎn)化適配。展臺(tái)設(shè)置了AI4S應(yīng)用體驗(yàn)區(qū),展示了算力在科學(xué)計(jì)算中的實(shí)際應(yīng)用效果。
中科曙光1700平方米的展臺(tái),集中展示了從超節(jié)點(diǎn)到超集群、從核心部件到系統(tǒng)協(xié)同的技術(shù)布局。scaleX萬(wàn)卡超集群的真機(jī)展出,反映了中國(guó)AI基礎(chǔ)設(shè)施在超大規(guī)模部署和全精度計(jì)算方面的工程進(jìn)展。
隨著AI4S的發(fā)展,算力競(jìng)爭(zhēng)正從單點(diǎn)性能轉(zhuǎn)向系統(tǒng)級(jí)協(xié)同能力。萬(wàn)卡超集群的部署和應(yīng)用,是這一趨勢(shì)下的具體實(shí)踐。