本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種智算中心能效優(yōu)化系統(tǒng)及方法。
背景技術(shù):
1、智算中心是智慧時代最主要的計算力生產(chǎn)中心,它以融合架構(gòu)計算系統(tǒng)為平臺,以數(shù)據(jù)為資源,能夠以強大算力驅(qū)動ai模型對數(shù)據(jù)進行深度加工,源源不斷產(chǎn)生各種智慧計算服務(wù),并通過網(wǎng)絡(luò)以云服務(wù)形式供應(yīng)給組織及個人。隨著大數(shù)據(jù)、云計算和人工智能技術(shù)的快速發(fā)展,智算中心作為數(shù)據(jù)處理和計算的核心設(shè)施,其能效管理成為一個重要的挑戰(zhàn)。
2、中國專利申請公開號為cn117539726a的專利文獻公開了綠色智算中心能效優(yōu)化方法及系統(tǒng),該方法包括:基于智算中心歷史能耗記錄,采用關(guān)聯(lián)規(guī)則挖掘和聚類分析算法,分析能耗模式,生成能耗分析報告;基于所述能耗分析報告,采用時間序列分析和神經(jīng)網(wǎng)絡(luò)算法,預(yù)測智算中心未來負載需求,生成負載預(yù)測模型;基于所述負載預(yù)測模型,采用基于約束的優(yōu)化算法和遺傳算法,進行計算資源的動態(tài)分配,生成資源調(diào)度策略;基于所述資源調(diào)度策略,采用決策樹算法和啟發(fā)式算法,選定數(shù)據(jù)處理路徑,生成數(shù)據(jù)處理路徑計劃;基于所述數(shù)據(jù)處理路徑計劃,采用輪詢和最小連接法負載均衡算法,進行任務(wù)分配,生成能效優(yōu)化負載分配;基于所述能效優(yōu)化負載分配,采用深度學(xué)習和網(wǎng)絡(luò)流量分析算法,生成優(yōu)化的數(shù)據(jù)流量管理;基于所述優(yōu)化的數(shù)據(jù)流量管理,采用能源管理和再生能源整合策略,實施節(jié)能措施,形成綜合節(jié)能執(zhí)行計劃;由此可見現(xiàn)有技術(shù)中由于預(yù)測和實際運行情況之間可能存在差異,如果沒有及時地校準和調(diào)整機制,會導(dǎo)致資源的過度分配或不足分配,從而造成能源浪費。
技術(shù)實現(xiàn)思路
1、為此,本發(fā)明提供一種智算中心能效優(yōu)化系統(tǒng)及方法,可以解決能源浪費的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供一種智算中心能效優(yōu)化系統(tǒng),該系統(tǒng)包括:
3、數(shù)據(jù)獲取模塊,用以獲取歷史周期內(nèi)若干負載對應(yīng)的若干歷史算力資源使用數(shù)據(jù)及若干負載對應(yīng)的若干歷史溫度變化圖;
4、預(yù)測模塊,與所述數(shù)據(jù)獲取模塊連接,用以分析任一負載對應(yīng)的若干所述歷史算力資源使用數(shù)據(jù)的變化趨勢,以根據(jù)變化趨勢分析結(jié)果預(yù)測預(yù)設(shè)周期內(nèi)的算力資源分配數(shù)據(jù),獲得預(yù)測算力資源分配數(shù)據(jù);
5、校準模塊,與所述預(yù)測模塊連接,用以基于若干所述預(yù)測算力資源分配數(shù)據(jù)與總實際算力資源的比較結(jié)果對若干預(yù)測算力資源分配數(shù)據(jù)進行校準,獲得若干校準算力資源分配數(shù)據(jù);
6、數(shù)據(jù)采集模塊,與所述預(yù)測模塊連接,用以采集任一所述負載對應(yīng)的實際資源利用率;
7、溫度采集模塊,與所述數(shù)據(jù)采集模塊連接,用以在預(yù)設(shè)周期內(nèi)實時采集任一所述負載對應(yīng)的若干實時溫度值以繪制實際溫度變化圖,將實際溫度變化圖與該負載對應(yīng)的所述歷史溫度變化圖進行比較,根據(jù)比較結(jié)果確定異常區(qū)域,根據(jù)溫度異常區(qū)域占比與預(yù)設(shè)區(qū)域占比的比較結(jié)果判斷實際溫度變化圖異常,或,分析溫度異常區(qū)域的變化趨勢以判斷實際溫度變化圖是否異常;
8、資源調(diào)整模塊,與所述數(shù)據(jù)采集模塊和所述溫度采集模塊連接,用以根據(jù)實際溫度變化圖的異常情況確定調(diào)整校準算力資源分配數(shù)據(jù)的調(diào)整方向,以及,根據(jù)任一所述實際資源利用率與預(yù)設(shè)資源利用率的比較結(jié)果確定調(diào)整校準算力資源分配數(shù)據(jù)的調(diào)整參數(shù),或,調(diào)整所述歷史周期。
9、進一步地,所述預(yù)測模塊包括:
10、圖形獲得單元,用以獲取任一所述負載對應(yīng)的若干歷史cpu使用率和若干歷史內(nèi)存占用率,基于時間序列將若干歷史cpu使用率和若干歷史內(nèi)存占用率繪制在同一坐標系中,獲得歷史資源變化圖;
11、趨勢分析單元,與所述圖形獲得單元連接,用以分析所述歷史資源變化圖,根據(jù)分析結(jié)果以識別上升區(qū)段、下降區(qū)段和平穩(wěn)區(qū)段,基于上升區(qū)段、下降區(qū)段和平穩(wěn)區(qū)段分別構(gòu)建分段函數(shù)模型,以及基于若干分段函數(shù)模型確定實際預(yù)測模型;
12、預(yù)測單元,與所述趨勢分析單元連接,用以根據(jù)所述實際預(yù)測模型預(yù)測所述負載在預(yù)設(shè)周期內(nèi)的預(yù)測cpu使用率和預(yù)測內(nèi)存占用率。
13、進一步地,所述校準模塊包括:
14、算力比較單元,用以基于若干所述預(yù)測算力資源分配數(shù)據(jù)計算總預(yù)測算力資源,并將其與所述總實際算力資源進行比較,獲取比較結(jié)果;
15、校準單元,與所述算力比較單元連接,用以根據(jù)所述總預(yù)測算力資源與總實際算力資源的比較結(jié)果確定根據(jù)若干所述負載的處理優(yōu)先級對所述預(yù)測算力資源分配數(shù)據(jù)進行校準,或,將剩余算力資源均勻分配給若干所述負載。
16、進一步地,所述校準單元包括:
17、優(yōu)先級確定子單元,用以基于若干所述預(yù)測cpu使用率和若干所述預(yù)測內(nèi)存占用率的排序確定所述處理優(yōu)先級;
18、校準子單元,與所述優(yōu)先級確定子單元連接,用以基于所述處理優(yōu)先級和所述總預(yù)測算力資源與所述總實際算力資源的差值確定校準策略,以對所述預(yù)測cpu使用率和所述預(yù)測內(nèi)存占用率進行校準,獲得校準cpu使用率和校準內(nèi)存占用率。
19、進一步地,所述數(shù)據(jù)采集模塊包括:
20、采集單元,用以采集任一所述負載對應(yīng)的實際cpu使用率和實際內(nèi)存占用率;
21、計算單元,與所述采集單元連接,用以基于所述實際cpu使用率和所述校準cpu使用率、所述實際內(nèi)存占用率和所述校準內(nèi)存占用率計算所述實際資源利用率。
22、進一步地,所述溫度采集模塊包括:
23、趨勢比較單元,用以將所述實際溫度變化圖中實際溫度變化曲線與所述歷史溫度變化圖中歷史溫度變化曲線進行比較,基于比較結(jié)果識別實際溫度變化曲線與歷史溫度變化曲線不同區(qū)域,獲得異常區(qū)域;
24、異常判斷單元,與所述趨勢比較單元連接,用以計算所述異常區(qū)域在所述實際溫度變化曲線中的占比,作為異常區(qū)域占比,將其與預(yù)設(shè)區(qū)域占比進行比較,以根據(jù)比較結(jié)果判斷實際溫度變化圖異常,或,分析溫度異常區(qū)域的變化趨勢以判斷實際溫度變化圖是否異常。
25、進一步地,所述資源調(diào)整模塊包括:
26、溫度異常調(diào)整單元,用以確定所述實際溫度變化圖為升溫異常或降溫異常,以根據(jù)升溫異常情況或降溫異常情況確定調(diào)整校準算力資源分配數(shù)據(jù)為增大調(diào)整或減小調(diào)整;
27、利用率調(diào)整單元,用以將所述實際資源利用率與預(yù)設(shè)資源利用率進行比較,基于利用率比較結(jié)果確定調(diào)整參數(shù),或,調(diào)整所述歷史周期。
28、進一步地,所述異常判斷單元包括:
29、長度計算子單元,用以計算溫度異常區(qū)域?qū)?yīng)的曲線長度;
30、趨勢判斷子單元,用以基于若干曲線長度繪制長度變化圖,判斷長度變化圖對應(yīng)的變化趨勢,以判斷實際溫度變化圖是否異常。
31、進一步地,所述利用率調(diào)整單元包括:
32、周期調(diào)整子單元,用以當所述實際資源利用率小于等于所述預(yù)設(shè)資源利用率時,增大所述歷史周期;
33、差值計算子單元,用以當所述實際資源利用率大于所述預(yù)設(shè)資源利用率時,計算所述實際資源利用率與所述預(yù)設(shè)資源利用率的差值,獲得利用率差值;
34、周期調(diào)整子單元,與所述差值計算子單元連接,用以基于所述利用率差值與所述預(yù)設(shè)資源利用率計算調(diào)整系數(shù)。
35、另一方面,本發(fā)明還提供一種智算中心能效優(yōu)化系統(tǒng)的方法,該方法包括:
36、獲取歷史周期內(nèi)若干負載對應(yīng)的若干歷史算力資源使用數(shù)據(jù)及若干負載對應(yīng)的若干歷史溫度變化圖;
37、分析任一負載對應(yīng)的若干所述歷史算力資源使用數(shù)據(jù)的變化趨勢,以根據(jù)變化趨勢分析結(jié)果預(yù)測預(yù)設(shè)周期內(nèi)的算力資源分配數(shù)據(jù),獲得預(yù)測算力資源分配數(shù)據(jù);
38、基于若干所述預(yù)測算力資源分配數(shù)據(jù)與總實際算力資源的比較結(jié)果對若干預(yù)測算力資源分配數(shù)據(jù)進行校準,獲得若干校準算力資源分配數(shù)據(jù);
39、采集任一負載對應(yīng)的實際資源利用率;
40、在預(yù)設(shè)周期內(nèi)實時采集任一所述負載對應(yīng)的若干實時溫度值以繪制實際溫度變化圖,將實際溫度變化圖與該負載對應(yīng)的所述歷史溫度變化圖進行比較,根據(jù)比較結(jié)果確定異常區(qū)域,根據(jù)溫度異常區(qū)域占比與預(yù)設(shè)區(qū)域占比的比較結(jié)果判斷實際溫度變化圖異常,或,分析溫度異常區(qū)域的變化趨勢以判斷實際溫度變化圖是否異常;
41、根據(jù)實際溫度變化圖的異常情況確定調(diào)整校準算力資源分配數(shù)據(jù)的調(diào)整方向,以及,根據(jù)任一所述實際資源利用率與預(yù)設(shè)資源利用率的比較結(jié)果確定調(diào)整校準算力資源分配數(shù)據(jù)的調(diào)整參數(shù),或,調(diào)整所述歷史周期。
42、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于,通過設(shè)置所述數(shù)據(jù)獲取模塊提供全面的歷史算力資源使用數(shù)據(jù)和溫度變化圖,為預(yù)測和校準提供了可靠的依據(jù),通過設(shè)置所述預(yù)測模塊預(yù)測預(yù)設(shè)周期內(nèi)的算力資源分配數(shù)據(jù),為資源調(diào)度和優(yōu)化提供了依據(jù),通過預(yù)測有效地分配算力資源,避免資源閑置或過度使用,從而提高資源利用效率,通過設(shè)置所述校準模塊對預(yù)測算力資源分配數(shù)據(jù)與總實際算力資源的比較結(jié)果進行校準,提高了預(yù)測數(shù)據(jù)的準確性,校準過程考慮了實際算力資源的限制,使預(yù)測結(jié)果更加符合實際情況,增強了系統(tǒng)的適應(yīng)性,有助于實現(xiàn)資源的進一步優(yōu)化利用,通過設(shè)置所述數(shù)據(jù)采集模塊實時采集負載的實際資源利用率,為資源調(diào)整提供了及時的信息支持,通過設(shè)置溫度采集模塊有助于及時發(fā)現(xiàn)溫度異常,預(yù)防因過熱而導(dǎo)致的設(shè)備故障或性能下降,通過分析溫度異常區(qū)域的變化趨勢,更準確地判斷溫度變化的異常情況,為后續(xù)的調(diào)整和優(yōu)化提供重要依據(jù),通過設(shè)置資源調(diào)整模塊根據(jù)實際溫度變化圖的異常情況和實際資源利用率與預(yù)設(shè)資源利用率的比較結(jié)果,確定調(diào)整校準算力資源分配數(shù)據(jù)的調(diào)整方向和調(diào)整參數(shù),根據(jù)實時數(shù)據(jù)和異常情況,動態(tài)調(diào)整算力資源的分配,確保系統(tǒng)的能效和穩(wěn)定性,同時,通過調(diào)整歷史周期,更靈活地適應(yīng)負載的變化,進一步提高能效,提高了資源利用效率,為智算中心的能效優(yōu)化提供了有力支持。
43、尤其,通過設(shè)置所述圖形獲得單元獲取負載的歷史cpu使用率和內(nèi)存占用率,并將其繪制在同一坐標系中,直觀地觀察到資源使用隨時間的變化趨勢,通過設(shè)置趨勢分析單元分析這些歷史數(shù)據(jù),識別出上升區(qū)段、下降區(qū)段和平穩(wěn)區(qū)段,有助于更準確地捕捉資源使用的動態(tài)特性,基于區(qū)段構(gòu)建的分段函數(shù)模型能夠更貼近實際資源使用的變化情況,從而提高預(yù)測的準確性,通過設(shè)置預(yù)測單元根據(jù)實際預(yù)測模型預(yù)測負載在預(yù)設(shè)周期內(nèi)的cpu使用率和內(nèi)存占用率,使得有效分配資源,避免資源過度分配導(dǎo)致的浪費或資源不足導(dǎo)致的性能下降。
44、尤其,通過設(shè)置所述算力比較單元有助于識別預(yù)測算力資源分配數(shù)據(jù)與實際資源需求之間的差異,為后續(xù)的校準提供基礎(chǔ)數(shù)據(jù),通過設(shè)置所述校準單元制定分配策略確保負載能夠充分利用剩余的資源,提高資源利用效率,確保預(yù)測算力資源分配數(shù)據(jù)與實際資源需求相匹配,避免資源浪費,同時提高系統(tǒng)的能效和運行效率。
45、尤其,通過設(shè)置趨勢比較單元將實際溫度變化曲線與歷史溫度變化曲線進行比較,精準地識別出兩者之間的不同區(qū)域,即潛在的溫度異常區(qū)域,有助于及時發(fā)現(xiàn)溫度變化的細微差異,為后續(xù)的判斷和調(diào)整提供準確依據(jù),通過設(shè)置所述異常判斷單元計算異常區(qū)域在實際溫度變化曲線中的占比,即異常區(qū)域占比,能夠量化地評估溫度異常的嚴重程度,根據(jù)異常區(qū)域占比與預(yù)設(shè)區(qū)域占比的比較結(jié)果來判斷實際溫度變化圖是否異常,還通過分析溫度異常區(qū)域的變化趨勢來進一步確認異常情況,有助于提高判斷的準確性和可靠性,有助于保障智算中心的穩(wěn)定運行和能效優(yōu)化。