本技術(shù)涉及計(jì)算機(jī),特別是涉及一種3d互連超算系統(tǒng)及服務(wù)器集成方法。
背景技術(shù):
1、超算系統(tǒng)采用超級(jí)計(jì)算機(jī)技術(shù),使用多個(gè)cpu分組形成多個(gè)計(jì)算節(jié)點(diǎn),并通過(guò)高速互聯(lián)網(wǎng)絡(luò)協(xié)作解決問(wèn)題。隨著基于人工智能大模型的應(yīng)用爆發(fā)以及在分子動(dòng)力學(xué)仿真領(lǐng)域研究的不斷深入,應(yīng)用迫切需要具有優(yōu)越的低通信延遲和高io帶寬的超算系統(tǒng)來(lái)支撐日新月異的需求。由此,基于3d互連架構(gòu)的3d互連超算系統(tǒng)應(yīng)運(yùn)而生。
2、其中,3d互連超算系統(tǒng)的各計(jì)算節(jié)點(diǎn)將各服務(wù)器進(jìn)行超高密度集成,縮短了計(jì)算節(jié)點(diǎn)距離,降低信號(hào)的飛行時(shí)間;且采用p2p直連方式,避免了信息交換轉(zhuǎn)發(fā)的時(shí)間延遲。
3、目前通用的標(biāo)準(zhǔn)服務(wù)器雖具有良好的可擴(kuò)展性、可管理性以及存儲(chǔ)能力;但是,由于架構(gòu)局限,標(biāo)準(zhǔn)服務(wù)器無(wú)法滿足3d互連超算系統(tǒng)的服務(wù)器集成密度,制約了3d互連超算系統(tǒng)的超算性能。
技術(shù)實(shí)現(xiàn)思路
1、鑒于以上所述現(xiàn)有技術(shù)的缺點(diǎn),本技術(shù)的目的在于提供一種3d互連超算系統(tǒng)及服務(wù)器集成方法,用于解決現(xiàn)有技術(shù)中標(biāo)準(zhǔn)服務(wù)器架構(gòu)有限無(wú)法滿足3d互連超算系統(tǒng)的服務(wù)器集成密度的問(wèn)題。
2、為實(shí)現(xiàn)上述目的及其他相關(guān)目的,本技術(shù)的第一方面提供一種3d互連超算系統(tǒng),所述3d互連超算系統(tǒng)包括:多個(gè)刀片服務(wù)器組,每個(gè)刀片服務(wù)器組包括一個(gè)管理刀片服務(wù)器以及多個(gè)計(jì)算刀片服務(wù)器;其中,同一刀片服務(wù)器組中的各所述計(jì)算刀片服務(wù)器之間互連,并分別與組內(nèi)所述管理刀片服務(wù)器連接;多個(gè)刀片服務(wù)器組中的各所述計(jì)算刀片服務(wù)器之間互連,各所述管理刀片服務(wù)器之間互連,且各所述管理刀片服務(wù)器分別與外部服務(wù)器連接;所述計(jì)算刀片服務(wù)器包括:多個(gè)xpu處理模塊,每個(gè)所述xpu處理模塊作為一個(gè)計(jì)算節(jié)點(diǎn),用于執(zhí)行指定的計(jì)算任務(wù);所述管理刀片服務(wù)器包括:多個(gè)cpu處理模塊;每個(gè)所述cpu處理模塊對(duì)應(yīng)連接一個(gè)所述計(jì)算刀片服務(wù)器的各xpu處理模塊,用于監(jiān)控和管理對(duì)應(yīng)連接的各所述xpu處理模塊,并與外部服務(wù)器通信。
3、于本技術(shù)的第一方面的一些實(shí)施例中,所述cpu處理模塊監(jiān)控和管理對(duì)應(yīng)連接的各所述xpu處理模塊的方式包括:獲取由外部服務(wù)器傳輸?shù)拇龍?zhí)行的計(jì)算任務(wù)組;將該計(jì)算任務(wù)組拆分為多個(gè)計(jì)算任務(wù),并將各計(jì)算任務(wù)分配給各所述xpu處理模塊,以通過(guò)各所述xpu處理模塊執(zhí)行對(duì)應(yīng)計(jì)算任務(wù);跟蹤監(jiān)控各所述xpu處理模塊的溫度、能耗、性能指標(biāo)、異常行為、資源利用率、健康狀況、運(yùn)行環(huán)境以及計(jì)算任務(wù)的執(zhí)行情況;定期從各所述xpu處理模塊中獲取各計(jì)算任務(wù)執(zhí)行過(guò)程中生成的中間數(shù)據(jù),并存儲(chǔ)至對(duì)應(yīng)所述管理刀片服務(wù)器的存儲(chǔ)模塊;待各所述xpu處理模塊任務(wù)執(zhí)行完畢后,接收各所述xpu處理模塊生成的結(jié)果數(shù)據(jù)并傳輸給外部服務(wù)器。
4、于本技術(shù)的第一方面的一些實(shí)施例中,所述cpu處理模塊包括:cpu處理器,用于通過(guò)網(wǎng)絡(luò)監(jiān)控和管理所述cpu處理模塊對(duì)應(yīng)連接的各所述xpu處理模塊;bmc控制器,用于在所述cpu處理器出現(xiàn)故障或關(guān)閉時(shí),通過(guò)獨(dú)立管理通道監(jiān)控和管理所述cpu處理模塊對(duì)應(yīng)連接的各所述xpu處理模塊;接口單元,與所述cpu處理器以及所述bmc控制器連接,包括:第一無(wú)限帶寬端口、第一串行通信端口、第一視頻圖像陣列接口、第一通用串行總線接口、多個(gè)第一千兆網(wǎng)接口、第一pcie總線接口以及第一ipmb總線接口。
5、于本技術(shù)的第一方面的一些實(shí)施例中,所述管理刀片服務(wù)器還包括:與各所述cpu處理模塊連接的前面板接口模塊;其中,所述前面板接口模塊包括:多個(gè)第二無(wú)限帶寬端口;所述管理刀片服務(wù)器與外部服務(wù)器通過(guò)各所述第二無(wú)線帶寬端口通信連接;各所述第二無(wú)限帶寬端口一一對(duì)應(yīng)連接各所述cpu處理模塊的第一無(wú)線帶寬端口;多個(gè)第二千兆網(wǎng)接口;多個(gè)刀片服務(wù)器組的各所述管理刀片服務(wù)器之間通過(guò)各第二千兆網(wǎng)接口通信連接;每個(gè)所述第二千兆網(wǎng)接口連接一多路復(fù)用器,通過(guò)給多路復(fù)用器分別連接至各所述cpu處理模塊的一指定第一千兆網(wǎng)接口;用戶調(diào)試接口;所述用戶調(diào)試接口分別與各所述cpu處理模塊連接,用于用戶對(duì)各所述cpu處理模塊進(jìn)行功能調(diào)試。
6、于本技術(shù)的第一方面的一些實(shí)施例中,所述用戶調(diào)試接口包括:第二串行通信端口;所述第二串行通信端口連接一多路復(fù)用器,并通過(guò)該多路復(fù)用器分別連接各所述cpu處理模塊的第一串行通信端口;第二視頻圖像陣列接口;所述第二視頻圖像陣列接口連接一多路復(fù)用器,并通過(guò)該多路復(fù)用器分別連接各所述cpu處理模塊的第一視頻圖像陣列接口;第二通用串行總線接口;所述第二通用串行總線接口連接一多路復(fù)用器,并通過(guò)該多路復(fù)用器分別連接各所述cpu處理模塊的第一通用串行總線接口;切換開(kāi)關(guān),用于選擇一cpu處理模塊與所述第二串行通信端口、所述第二視頻圖像陣列接口以及所述第二通用串行總線接口建立通信通道,以對(duì)該cpu處理模塊進(jìn)行功能調(diào)試。
7、于本技術(shù)的第一方面的一些實(shí)施例中,所述管理刀片服務(wù)器還包括:與各所述cpu處理模塊連接的背板接口模塊;同一刀片服務(wù)器組內(nèi)各計(jì)算刀片服務(wù)器與組內(nèi)所述管理刀片服務(wù)器通過(guò)所述背板接口模塊通信連接。
8、于本技術(shù)的第一方面的一些實(shí)施例中,所述背板接口模塊包括:多個(gè)第二pcie總線接口;各所述第二pcie總線接口一一對(duì)應(yīng)連接各所述cpu處理模塊的第一pcie總線接口,并連接至對(duì)應(yīng)的所述cpu處理器;多個(gè)第二ipmb總線接口;各所述第二ipmb總線接口一一對(duì)應(yīng)連接各所述cpu處理模塊的第一ipmb總線接口,并連接至對(duì)應(yīng)的所述bmc控制器。
9、于本技術(shù)的第一方面的一些實(shí)施例中,所述管理刀片服務(wù)器還包括:電源模塊,用于為所述管理刀片服務(wù)器的各所述cpu處理模塊供電;存儲(chǔ)模塊,用于存儲(chǔ)各所述xpu處理模塊執(zhí)行計(jì)算任務(wù)生成的中間數(shù)據(jù)以及結(jié)果數(shù)據(jù);i/o模塊,用于用戶與所述管理刀片服務(wù)器進(jìn)行人機(jī)交互。
10、于本技術(shù)的第一方面的一些實(shí)施例中,各刀片服務(wù)器組分別安裝在機(jī)架的多個(gè)機(jī)框內(nèi),且同一刀片服務(wù)器組的所述管理刀片服務(wù)器以及各所述計(jì)算刀片服務(wù)器分別安裝在同一機(jī)框的不同槽位。
11、為實(shí)現(xiàn)上述目的及其他相關(guān)目的,本技術(shù)的第二方面提供一種3d互連超算系統(tǒng)的服務(wù)器集成方法,用于提升3d互連超算系統(tǒng)中多個(gè)刀片服務(wù)器的集成密度,所述3d互連超算系統(tǒng)的服務(wù)器集成方法包括:對(duì)所述3d互連超算系統(tǒng)的多個(gè)刀片服務(wù)器進(jìn)行分組,生成多個(gè)刀片服務(wù)器組,并將每個(gè)刀片服務(wù)器組中的一個(gè)刀片服務(wù)器作為管理刀片服務(wù)器,其他各刀片服務(wù)器分別作為計(jì)算刀片服務(wù)器;將同一刀片服務(wù)器組中的各所述計(jì)算刀片服務(wù)器互連,并分別連接至組內(nèi)所述管理刀片服務(wù)器;將多個(gè)刀片服務(wù)器組中的各所述計(jì)算刀片服務(wù)器互連,并將各所述管理刀片服務(wù)器互連后再連接至外部服務(wù)器;其中,所述計(jì)算刀片服務(wù)器包括:多個(gè)xpu處理模塊,每個(gè)所述xpu處理模塊作為一個(gè)計(jì)算節(jié)點(diǎn),用于執(zhí)行指定的計(jì)算任務(wù);所述管理刀片服務(wù)器包括:多個(gè)cpu處理模塊;每個(gè)所述cpu處理模塊對(duì)應(yīng)連接一個(gè)所述計(jì)算刀片服務(wù)器的各xpu處理模塊,用于監(jiān)控和管理對(duì)應(yīng)連接的各所述xpu處理模塊,并與外部服務(wù)器通信。
12、如上所述,本技術(shù)具有以下有益效果:本技術(shù)提供了一種3d互連超算系統(tǒng)及服務(wù)器集成方法,通過(guò)將標(biāo)準(zhǔn)服務(wù)器中承擔(dān)監(jiān)控和管理功能的cpu處理模塊以及承擔(dān)計(jì)算功能的xpu處理模塊分別拆分至管理刀片服務(wù)器以及計(jì)算刀片服務(wù)器中,并通過(guò)將一管理刀片服務(wù)器對(duì)應(yīng)連接多個(gè)計(jì)算刀片服務(wù)器,從而提高了3d互連超算系統(tǒng)中服務(wù)器的集成密度,同時(shí)使計(jì)算刀片服務(wù)器能夠集中進(jìn)行數(shù)據(jù)計(jì)算任務(wù),大大提升了3d互連超算系統(tǒng)的計(jì)算效率;本技術(shù)還通過(guò)將多個(gè)cpu處理模塊集成在同一管理刀片服務(wù)器,將多個(gè)xpu處理模塊集成在同一計(jì)算刀片服務(wù)器中,進(jìn)一步提升了集成密度,縮短了3d互連超算系統(tǒng)中各計(jì)算節(jié)點(diǎn)之間的距離,降低信號(hào)的飛行時(shí)間,確保系統(tǒng)的超算性能。