本發(fā)明涉及內(nèi)存轉(zhuǎn)儲與云計算領(lǐng)域,特別是集成內(nèi)存轉(zhuǎn)儲的云計算節(jié)點服務(wù)防護方法和云平臺管理系統(tǒng)。
背景技術(shù):
內(nèi)存轉(zhuǎn)儲是在系統(tǒng)崩潰時對系統(tǒng)進行內(nèi)存捕獲并保傳的技術(shù),在云計算節(jié)點中集成內(nèi)存轉(zhuǎn)儲有利虛擬化服務(wù)迅速恢復(fù)以及為故障原因的分析提供依據(jù)。在云計算領(lǐng)域中為了提供高可用的虛擬化服務(wù),需要盡可能地保持計算節(jié)點的服務(wù)狀態(tài)。而當(dāng)計算節(jié)點故障不能提供服務(wù)時,最簡單快捷的方式是將計算節(jié)點重新啟動起來。但是若在計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲過程中啟動,會導(dǎo)致內(nèi)存轉(zhuǎn)儲被破壞,因此亟需解決在何時啟動出故障的計算節(jié)點的問題。
技術(shù)實現(xiàn)要素:
本發(fā)明解決的技術(shù)問題在于提供集成內(nèi)存轉(zhuǎn)儲的云計算節(jié)點服務(wù)防護方法和相應(yīng)的云平臺管理系統(tǒng)以解決計算節(jié)點的成功內(nèi)存轉(zhuǎn)儲和計算節(jié)點的服務(wù)恢復(fù)問題。
為解決上述計算問題,本發(fā)明提供一種集成內(nèi)存轉(zhuǎn)儲功能的云計算節(jié)點服務(wù)防護方法,其特征在于:包括如下步驟:
當(dāng)計算節(jié)點發(fā)生故障時,內(nèi)存轉(zhuǎn)儲模塊自動啟動內(nèi)存轉(zhuǎn)儲功能,以轉(zhuǎn)儲所述計算節(jié)點的內(nèi)存;
在內(nèi)存轉(zhuǎn)儲過程中,所述內(nèi)存轉(zhuǎn)儲模塊每隔預(yù)設(shè)時長便向內(nèi)存轉(zhuǎn)儲監(jiān)聽模塊發(fā)送內(nèi)存轉(zhuǎn)儲通知;
所述內(nèi)存轉(zhuǎn)儲監(jiān)聽模塊收到所述內(nèi)存轉(zhuǎn)儲通知后,在數(shù)據(jù)庫中記錄所述計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲;
當(dāng)云平臺管理模塊檢測出所述計算節(jié)點發(fā)生故障時,查詢所述數(shù)據(jù)庫以判斷所述計算節(jié)點的內(nèi)存轉(zhuǎn)儲進程,并根據(jù)判斷結(jié)果確定是否重啟所述計算節(jié)點。
優(yōu)選地,所述當(dāng)云平臺管理模塊檢測出所述計算節(jié)點發(fā)生故障時,查詢所述數(shù)據(jù)庫以判斷所述計算節(jié)點的內(nèi)存轉(zhuǎn)儲進程包括:
所述云平臺管理模塊查詢所述數(shù)據(jù)庫以確定所述內(nèi)存轉(zhuǎn)儲監(jiān)聽模塊收到所述內(nèi)存轉(zhuǎn)儲通知的時間,若在所述預(yù)設(shè)時長的2倍時間以內(nèi)仍收到所述內(nèi)存轉(zhuǎn)儲通知,則所述云平臺管理模塊判斷出所述計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲;若超過所述預(yù)設(shè)時長的2倍時間沒有收到所述內(nèi)存轉(zhuǎn)儲通知時,則所述云平臺管理模塊判斷出所述計算節(jié)點的內(nèi)存轉(zhuǎn)儲完畢。
可選地,所述云平臺管理模塊根據(jù)判斷結(jié)果確定是否重啟所述計算節(jié)點包括:
若所述云平臺管理模塊判斷出所述計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲,則所述云平臺管理模塊將所述計算節(jié)點狀態(tài)置為正在進行內(nèi)存轉(zhuǎn)儲狀態(tài);若所述云平臺管理模塊判斷出所述計算節(jié)點內(nèi)存轉(zhuǎn)儲完畢,則所述云平臺管理模塊對所述計算節(jié)點進行重啟。
可選地,所述云計算節(jié)點服務(wù)防護方法還包括:
當(dāng)所述云平臺管理模塊對所述計算節(jié)點進行重啟后,檢測出所述計算節(jié)點故障已清除時,所述云平臺管理模塊將所述計算節(jié)點的狀態(tài)置為服務(wù)狀態(tài)。
優(yōu)選地,所述預(yù)設(shè)時長為5秒。
本發(fā)明還提供一種能夠?qū)崿F(xiàn)內(nèi)存轉(zhuǎn)儲的云平臺管理系統(tǒng),其包括
內(nèi)存轉(zhuǎn)儲模塊,用于當(dāng)計算節(jié)點發(fā)生故障時,自動啟動內(nèi)存轉(zhuǎn)儲功能,同時每隔預(yù)設(shè)時長便發(fā)送內(nèi)存轉(zhuǎn)儲通知;
內(nèi)存轉(zhuǎn)儲監(jiān)聽模塊,用于接受來自所述內(nèi)存轉(zhuǎn)儲模塊的所述內(nèi)存轉(zhuǎn)儲通知并且記錄所述計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲;
數(shù)據(jù)庫,用于供所述內(nèi)存轉(zhuǎn)儲監(jiān)聽模塊記錄所述計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲;
云平臺管理模塊,用于檢測所述計算節(jié)點是否發(fā)生故障,并且當(dāng)檢測出所述計算節(jié)點發(fā)生故障時查詢所述數(shù)據(jù)庫以判斷所述計算節(jié)點的內(nèi)存轉(zhuǎn)儲進程,根據(jù)判斷結(jié)果確定是否重啟所述計算節(jié)點。
可選地,所述云平臺管理模塊查詢所述數(shù)據(jù)庫以判斷所述計算節(jié)點的內(nèi)存轉(zhuǎn)儲進程包括:
所述云平臺管理模塊查詢所述數(shù)據(jù)庫以確定所述內(nèi)存轉(zhuǎn)儲監(jiān)聽模塊收到所述內(nèi)存轉(zhuǎn)儲通知的時間,若在所述預(yù)設(shè)時長的2倍時間以內(nèi)仍收到所述內(nèi)存轉(zhuǎn)儲通知,則所述云平臺管理模塊判斷出所述計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲;若超過所述預(yù)設(shè)時長的2倍時間沒有收到所述內(nèi)存轉(zhuǎn)儲通知時,則所述云平臺管理模塊判斷出所述計算節(jié)點的內(nèi)存轉(zhuǎn)儲完畢。
進一步,所述云平臺管理模塊根據(jù)判斷結(jié)果確定是否重啟所述計算節(jié)點包括:
當(dāng)所述云平臺管理模塊判斷出所述計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲時,所述云平臺管理模塊將所述計算節(jié)點狀態(tài)置為正在進行內(nèi)存轉(zhuǎn)儲狀態(tài);
當(dāng)所述云平臺管理模塊判斷出所述計算節(jié)點內(nèi)存轉(zhuǎn)儲完畢時,所述云平臺管理模塊對所述計算節(jié)點進行重啟。
進一步,所述云平臺管理模塊對所述計算節(jié)點進行重啟后,檢測出所述計算節(jié)點故障已清除時,所述云平臺管理模塊將所述計算節(jié)點的狀態(tài)置為服務(wù)狀態(tài)。
可選地,所述預(yù)設(shè)時長為5秒。
本發(fā)明通過監(jiān)聽計算節(jié)點內(nèi)存轉(zhuǎn)儲的過程,利用內(nèi)存轉(zhuǎn)儲的通知是否超過預(yù)設(shè)時長的匯報,判斷計算節(jié)點是否已完成內(nèi)存轉(zhuǎn)儲,再確定是否執(zhí)行重啟計算節(jié)點的指令以恢復(fù)服務(wù)。內(nèi)存轉(zhuǎn)儲的好處在于計算節(jié)點被重新啟動后,能迅速提供虛擬化服務(wù),以及可以為故障原因分析提供依據(jù)。本發(fā)明在兼容了內(nèi)存轉(zhuǎn)儲功能的基礎(chǔ)上,能夠做到不影響內(nèi)存轉(zhuǎn)儲過程而對計算節(jié)點進行服務(wù)恢復(fù);其次,本發(fā)明整個過程中,均是由系統(tǒng)自動完成,運維人員只需在計算節(jié)點故障后,查閱內(nèi)存轉(zhuǎn)儲的結(jié)果判斷故障原因,以避免同樣故障原因的發(fā)生,所以本發(fā)明也在很大程度上減少了運維方面的工作。
附圖說明
圖1為本發(fā)明方法的流程圖;
圖2為本發(fā)明系統(tǒng)的結(jié)構(gòu)圖。
具體實施方式
如圖1所示,本發(fā)明的集成內(nèi)存轉(zhuǎn)儲功能的云計算節(jié)點服務(wù)防護方法,包括:
S101:當(dāng)計算節(jié)點發(fā)生故障時,內(nèi)存轉(zhuǎn)儲模塊自動啟動內(nèi)存轉(zhuǎn)儲功能,以轉(zhuǎn)儲所述計算節(jié)點的內(nèi)存(計算節(jié)點的內(nèi)存被保存在本地磁盤上);
S102:在內(nèi)存轉(zhuǎn)儲過程中,內(nèi)存轉(zhuǎn)儲模塊每隔預(yù)設(shè)時長便向內(nèi)存轉(zhuǎn)儲監(jiān)聽模塊發(fā)送內(nèi)存轉(zhuǎn)儲通知;
S103:內(nèi)存轉(zhuǎn)儲監(jiān)聽模塊收到內(nèi)存轉(zhuǎn)儲通知后,在數(shù)據(jù)庫中記錄計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲;
S104:當(dāng)云平臺管理模塊檢測出計算節(jié)點發(fā)生故障時,查詢數(shù)據(jù)庫以判斷計算節(jié)點的內(nèi)存轉(zhuǎn)儲進程,并根據(jù)判斷結(jié)果確定是否重啟計算節(jié)點。其中,云平臺管理模塊會定時輪詢計算節(jié)點以檢測計算節(jié)點是否處于正常服務(wù)狀態(tài)。
預(yù)設(shè)時長可以為5秒至20秒以內(nèi),進一步優(yōu)選為5秒至10秒。
內(nèi)存轉(zhuǎn)儲模塊安裝在計算節(jié)點中,其使用kdump內(nèi)存轉(zhuǎn)儲機制來自動轉(zhuǎn)儲發(fā)生故障的計算節(jié)點的內(nèi)存。kdump是在系統(tǒng)崩潰、死鎖或者死機的時候用來轉(zhuǎn)儲內(nèi)存運行參數(shù)的一個工具和服務(wù),如果系統(tǒng)一旦崩潰那么正常的內(nèi)核就沒有辦法工作了,在這個時候?qū)⒂蒶dump產(chǎn)生一個用于捕捉當(dāng)前運行信息的內(nèi)核。
其中,當(dāng)內(nèi)存轉(zhuǎn)儲監(jiān)聽模塊收到內(nèi)存轉(zhuǎn)儲通知而在數(shù)據(jù)庫中記錄計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲的消息時,也會在數(shù)據(jù)庫中記錄下內(nèi)存轉(zhuǎn)儲通知的接收時間。
進一步,在步驟S104中,云平臺管理模塊查詢數(shù)據(jù)庫以確定內(nèi)存轉(zhuǎn)儲監(jiān)聽模塊收到內(nèi)存轉(zhuǎn)儲通知的時間,若在預(yù)設(shè)時長的2倍時間以內(nèi)仍收到內(nèi)存轉(zhuǎn)儲通知,則云平臺管理模塊判斷出計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲;若超過預(yù)設(shè)時長的2倍時間沒有收到內(nèi)存轉(zhuǎn)儲通知時,則云平臺管理模塊判斷出計算節(jié)點的內(nèi)存轉(zhuǎn)儲已經(jīng)結(jié)束;
在上述判斷結(jié)果的基礎(chǔ)上,若云平臺管理模塊判斷出計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲,則云平臺管理模塊將計算節(jié)點狀態(tài)置為正在進行內(nèi)存轉(zhuǎn)儲狀態(tài);若云平臺管理模塊判斷出計算節(jié)點內(nèi)存轉(zhuǎn)儲已經(jīng)結(jié)束,則云平臺管理模塊對計算節(jié)點進行重啟。應(yīng)予說明,當(dāng)云平臺管理模塊判斷出計算節(jié)點的內(nèi)存轉(zhuǎn)儲還未結(jié)束時,除了將計算節(jié)點狀態(tài)置為正在進行內(nèi)存轉(zhuǎn)儲狀態(tài)以外,還會繼續(xù)等待下一個查詢數(shù)據(jù)庫的周期直到判斷出計算節(jié)點的內(nèi)存轉(zhuǎn)儲已經(jīng)結(jié)束。
進一步,當(dāng)云平臺管理模塊對計算節(jié)點進行重啟后,檢測出計算節(jié)點故障已清除時,具體來說,當(dāng)云平臺管理模塊確認計算節(jié)點虛擬化服務(wù)的連接通信后,將計算節(jié)點的狀態(tài)置為服務(wù)狀態(tài)并清除計算節(jié)點此前的正在進行內(nèi)存轉(zhuǎn)儲的消息記錄,至此,整個計算節(jié)點防護過程結(jié)束。
采用本發(fā)明的集成內(nèi)存轉(zhuǎn)儲功能的云計算節(jié)點服務(wù)防護方法,通過監(jiān)聽計算節(jié)點內(nèi)存轉(zhuǎn)儲的過程,利用內(nèi)存轉(zhuǎn)儲的通知是否超過預(yù)設(shè)時長的匯報來判斷計算節(jié)點的內(nèi)存轉(zhuǎn)儲是否結(jié)束,能夠做到不影響內(nèi)存轉(zhuǎn)儲過程而對計算節(jié)點進行恢復(fù);當(dāng)計算節(jié)點被重新啟動后,能迅速提供虛擬化服務(wù),并可以為故障原因分析提供依據(jù)。并且,整個計算節(jié)點的服務(wù)防護方法,高度智能化,極大減少了人工成本。
本發(fā)明還提供一種能夠?qū)崿F(xiàn)內(nèi)存轉(zhuǎn)儲的云平臺管理系統(tǒng),其包括
內(nèi)存轉(zhuǎn)儲模塊,用于當(dāng)計算節(jié)點發(fā)生故障時,自動啟動內(nèi)存轉(zhuǎn)儲功能,同時每隔預(yù)設(shè)時長便發(fā)送內(nèi)存轉(zhuǎn)儲通知;
內(nèi)存轉(zhuǎn)儲監(jiān)聽模塊,用于接受來自所述內(nèi)存轉(zhuǎn)儲模塊的所述內(nèi)存轉(zhuǎn)儲通知并且記錄所述計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲;
數(shù)據(jù)庫,用于供所述內(nèi)存轉(zhuǎn)儲監(jiān)聽模塊記錄所述計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲;
云平臺管理模塊,用于檢測所述計算節(jié)點是否發(fā)生故障,并且當(dāng)檢測出所述計算節(jié)點發(fā)生故障時查詢所述數(shù)據(jù)庫以判斷所述計算節(jié)點的內(nèi)存轉(zhuǎn)儲進程,根據(jù)判斷結(jié)果確定是否重啟所述計算節(jié)點。
預(yù)設(shè)時長可以為5秒至20秒以內(nèi),進一步優(yōu)選為5秒至10秒。
所述云平臺管理模塊查詢所述數(shù)據(jù)庫以判斷所述計算節(jié)點的內(nèi)存轉(zhuǎn)儲進程包括:
所述云平臺管理模塊查詢所述數(shù)據(jù)庫以確定所述內(nèi)存轉(zhuǎn)儲監(jiān)聽模塊收到所述內(nèi)存轉(zhuǎn)儲通知的時間,若在所述預(yù)設(shè)時長的2倍時間以內(nèi)仍收到所述內(nèi)存轉(zhuǎn)儲通知,則所述云平臺管理模塊判斷出所述計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲;若超過所述預(yù)設(shè)時長的2倍時間沒有收到所述內(nèi)存轉(zhuǎn)儲通知時,則所述云平臺管理模塊判斷出所述計算節(jié)點的內(nèi)存轉(zhuǎn)儲完畢。
當(dāng)所述云平臺管理模塊判斷出所述計算節(jié)點正在進行內(nèi)存轉(zhuǎn)儲時,所述云平臺管理模塊將所述計算節(jié)點狀態(tài)置為正在進行內(nèi)存轉(zhuǎn)儲狀態(tài);
當(dāng)所述云平臺管理模塊判斷出所述計算節(jié)點內(nèi)存轉(zhuǎn)儲完畢時,所述云平臺管理模塊對所述計算節(jié)點進行重啟。
當(dāng)所述云平臺管理模塊對所述計算節(jié)點進行重啟后,檢測出所述計算節(jié)點故障已清除時,所述云平臺管理模塊將所述計算節(jié)點的狀態(tài)置為服務(wù)狀態(tài)。
采用本發(fā)明的云平臺管理系統(tǒng),其集成了內(nèi)存轉(zhuǎn)儲功能,能夠?qū)收系挠嬎愎?jié)點進行快速重新啟動從而進行服務(wù)防護;并且可以使得服務(wù)迅速恢復(fù)從而減少了時間成本,進一步還可以使得運維人員分析故障發(fā)生原因,從而減少了故障再次發(fā)生的概率。其次,由于該云平臺管理系統(tǒng)做到了高度智能化,也能夠減少人工成本。
以上所揭露的僅為本發(fā)明的較佳實施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明申請專利范圍所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。