專利名稱:云端服務系統(tǒng)的管理方法
技術(shù)領域:
本發(fā)明涉及一種云端服務系統(tǒng),尤其涉及一種利用發(fā)光單元提示發(fā)生異常的云端服務系統(tǒng)的管理方法。
背景技術(shù):
目前服務器(server)廣為各企業(yè)所使用,發(fā)展的范圍除了結(jié)合國際互聯(lián)網(wǎng)(internet)與電信業(yè)的應用外,也更深入到一般人的生活中,例如金融、財經(jīng)、網(wǎng)絡銀行、網(wǎng)絡信用卡的使用等等,這些都必需靠著服務器強大的運算能力,才能做到數(shù)據(jù)高度保密且不易被破解的程度?,F(xiàn)今云端服務系統(tǒng)的種類有很多種,比較常見的有機架式服務器(rack server)與塔式服務器(tower server)。其中,機架服務器是一種優(yōu)化結(jié)構(gòu)的塔式服務器,它的設計宗旨主要是為了盡可能減少空間的占用。很多專業(yè)網(wǎng)絡設備都是采用機架式的結(jié)構(gòu)(例如交換機、路由器、硬件防火墻等等),其多為扁平式,就如同抽屜一般。一般而言,機架服務器的寬度為19英寸,高度以U為單位(IU= 1.75英寸= 44.45毫米),通常有1U,2U,3U,4U,5U,7U幾種標準的服務器。目前一般在機柜內(nèi)的節(jié)點裝置都具有高可用性(HighAvailable, HA)功能,其提供冗余(redundancy)的容錯備份,在其中一個節(jié)點裝置失效后,能夠立即接管相關資源及繼續(xù)提供相應服務。而當一個節(jié)點因為其節(jié)點裝置發(fā)生異常或其他原因,導致需要更換另一個節(jié)點裝置或是升級原有的節(jié)點裝置時,由于置換過程為人為,在節(jié)點裝置的數(shù)量龐大時,要在眾多的節(jié)點裝置中尋找欲更換的節(jié)點裝置,則相當不易,再者當置換節(jié)點后該節(jié)點需要能自動被加入云端服務系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明提供一種云端服務系統(tǒng)的管理方法,通過發(fā)光單元的提示,便于管理者來得知欲進行維護的節(jié)點裝置。具體而言,本發(fā)明提出一種云端服務系統(tǒng)的管理方法,適用于一云端服務系統(tǒng),例如為提供 IaaS (Infrastructure as a Service)服務的機柜式(Container)數(shù)據(jù)中心(DataCenter),其中云端服務系統(tǒng)包括多個節(jié)點裝置。在本方法中,檢測這些節(jié)點裝置是否發(fā)生異常。當檢測到這些節(jié)點裝置其中之一發(fā)生異常時,取得異常節(jié)點裝置的第一硬件地址。接著,依據(jù)第一硬件地址,自節(jié)點數(shù)據(jù)庫中搜尋異常節(jié)點裝置的節(jié)點相關信息。在此,節(jié)點相關信息中記錄有異常節(jié)點裝置的位置信息。并且,自云端服務系統(tǒng)中隔離異常節(jié)點裝置。另外,依據(jù)位置信息來致能異常節(jié)點裝置的發(fā)光單元。在本發(fā)明的一實施例中,上述位置信息為異常節(jié)點裝置位于機柜中的節(jié)點位置或異常節(jié)點裝置的網(wǎng)絡地址。在本發(fā)明的一實施例中,上述依據(jù)位置信息來致能異常節(jié)點裝置的發(fā)光單元的步驟中,可依據(jù)位置信息傳送一命令至異常節(jié)點裝置的基板管理控制器(BaseboardManagement Controller, BMC),以由基板管理控制器將發(fā)光單元點亮為第一顏色。在本發(fā)明的一實施例中,在上述云端服務系統(tǒng)的管理方法中,當檢測到異常節(jié)點裝置更換為另一節(jié)點裝置之后,點亮更換后的節(jié)點裝置的發(fā)光單元為第二顏色。在本發(fā)明的一實施例中,上述在檢測到異常節(jié)點裝置更換為另一節(jié)點裝置之后,通過網(wǎng)絡管理模組重新取得節(jié)點裝置的節(jié)點相關信息。進一步地說,可自更換后的節(jié)點裝置接收第二硬件地址,以重新分配網(wǎng)絡地址給上述節(jié)點裝置。之后,依據(jù)網(wǎng)絡地址傳送一指令給節(jié)點裝置,以通過節(jié)點裝置的基板管理控制器取得節(jié)點裝置的節(jié)點相關信息。并且,將節(jié)點相關信息更新至節(jié)點數(shù)據(jù)庫中。在本發(fā)明的一實施例中,上述通過節(jié)點裝置的基板管理控制器取得節(jié)點裝置的節(jié)點相關信息的步驟中,當基板管理控制器接收到上述指令時,將節(jié)點裝置的中央處理單元重新開機,以在重新開機的過程中,通過基板管理控制器取得節(jié)點相關信息?;谏鲜?,本發(fā)明利用發(fā)光單元來提醒管理者發(fā)生異常的異常節(jié)點裝置所在處,便于管理者進行節(jié)點裝置的更換。為讓本發(fā)明的上述特征和優(yōu)點能更明顯易懂,下文特舉實施例,并配合所附附圖作詳細說明如下。
圖1是依照本發(fā)明的一實施例的云端服務系統(tǒng)的方框圖。圖2是依照本發(fā)明的一實施例的云端服務系統(tǒng)的管理方法流程圖。圖3是依照本發(fā)明的一實施例的取得節(jié)點相關信息的方法流程圖。圖4是依照本發(fā)明的一實施例的機柜架構(gòu)的示意圖。主要元件符號說明:100:機柜110_l-110_1、120_l-120_j、130_l-130_k、400:節(jié)點裝置110:服務資源池120:計算資源池130:儲存資源池lll_l-lll_1、121_l-121_j、131_l-131_k、480:發(fā)光單元112:異常檢測模組113:節(jié)點數(shù)據(jù)庫140:交換機401:機架編號模組403:擴展器405:插槽編號模組410:中央處理單元420:控制芯片430:B10S 芯片440:BMC450:存儲器模組
460:節(jié)點編號模組470:系統(tǒng)網(wǎng)卡490:BMC 網(wǎng)卡S205-S220:云端服務系統(tǒng)的管理方法各步驟S305-S320:取得節(jié)點相關信息的方法各步驟
具體實施例方式圖1是依照本發(fā)明的一實施例的云端服務系統(tǒng)的方塊圖。在本實施例中,云端服務系統(tǒng)中包含至少一機柜(container),由于各機柜組成相同,為求方便說明,在本實施例中以一個機柜100為例。機柜100的架構(gòu)一般包括多個機架(rack),每一個機架中包括多個插槽(slot),每一個插槽包括多個節(jié)點。并且,機柜中設置有一交換機(switch) 140,此交換機140耦接至各個節(jié)點裝置。請參照圖1,機柜100中包括η個節(jié)點,這些節(jié)點分別設置了 η個節(jié)點裝置。這些節(jié)點裝置可以分類成三種節(jié)點類型,即,服務資源池(service pool) 110、計算資源池(computing pool) 120 以及儲存資源池(storage nodes pool) 130。其中,服務資源池 110包括i個節(jié)點裝置110_l-110_i,計算資源池120包括j個節(jié)點裝置120_l-120_j,儲存資源池130包括k個節(jié)點裝置130_l-130_k。并且,在本實施例中,上述各節(jié)點裝置皆設置有一發(fā)光單元,包括發(fā)光單元lll_l-lll_1、發(fā)光單元121_l-121_j以及發(fā)光單元131_l_131_k。在此,發(fā)光單元例如為發(fā)光二極管(Light EmittingDiode, LED),然并不以此為限。服務資源池110用以提供數(shù)據(jù)庫服務、虛擬資源提供(Virtualresourceprovisioning)服務、實體安裝(physical installer)服務、實體管理(physicalmanager)服務、虛擬管理(virtual manager)服務、應用程序接口(ApplicationProgramming Interface, API)服務、儲存管理(storage manager)服務、負載平衡(loadbalance)以及安全機制(security)服務等服務類型。而在計算資源池120用以提供計算服務。儲存資源池130用以提供儲存服務。在本實施例中,在服務資源池110的節(jié)點裝置110_2中安裝一異常檢測模組112,以藉由異常檢測模組112來監(jiān)控云端服務系統(tǒng)中是否出現(xiàn)異常。而在其他實施例中,異常檢測模組112也可以安裝在服務資源池110的其他節(jié)點裝置,或者安裝在獨立于機柜100外的另一服務器中。另外,服務資源池110中的節(jié)點裝置110_1用以提供數(shù)據(jù)庫服務,其設置有一節(jié)點數(shù)據(jù)庫113來儲存機柜100中的各節(jié)點裝置的節(jié)點相關信息。在此,節(jié)點相關信息記錄了每一個節(jié)點裝置的相關信息,其包括多個項目,每一個項目分別代表一個節(jié)點裝置的數(shù)據(jù)。而每一個項目包括了網(wǎng)絡卡信息、處理器信息、存儲器信息、硬盤信息、節(jié)點位置、節(jié)點類型信息以及服務類型。具體而言,節(jié)點裝置中一般具有系統(tǒng)網(wǎng)卡以及基板管理控制器(Baseboard Management Controller, BMC)網(wǎng)卡。而網(wǎng)絡卡信息包括BMC網(wǎng)卡的媒體存取控制(Media Access ControI,MAC)地址、BMC網(wǎng)卡的網(wǎng)際網(wǎng)絡通信協(xié)議(Internet Protocol, IP)地址及頻寬(bandwidth,單位為 Mbps (megabit persecond)),以及系統(tǒng)網(wǎng)卡的MAC地址、系統(tǒng)網(wǎng)卡的IP地址及頻寬。處理器信息包括處理器型號以及工作頻率。存儲器信息包括存儲器模組的大小。硬盤信息包括托架(carrier)編號、硬盤類型、硬盤容量、硬盤轉(zhuǎn)速(Revolution PerMinute,RPM)以及硬盤高速(cache)容量。節(jié)點位置包括機架編號、插槽編號以及節(jié)點編號。節(jié)點類型信息用以表示對應的節(jié)點裝置屬于服務資源池110、計算資源池120或是儲存資源池130。服務類型記錄對應的節(jié)點裝置所提供的服務類型。下面即搭配上述云端服務系統(tǒng)來說明其管理方法。圖2是依照本發(fā)明的一實施例的云端服務系統(tǒng)的管理方法流程圖。請同時參照圖1及圖2,在本實施例中,通過異常檢測模組112來監(jiān)控這些節(jié)點裝置是否發(fā)生異常,節(jié)點裝置異常的原因例如為節(jié)點裝置故障、預測裝置節(jié)點故障、節(jié)點裝置意外被拔除、節(jié)點裝置維護、節(jié)點裝置強制置換、節(jié)點裝置加入,但并不以此為限。當異常檢測模組112檢測到這些節(jié)點裝置其中之一發(fā)生異常時,如步驟S205所示,取得異常節(jié)點裝置的硬件地址。例如,取得異常節(jié)點裝置的BMC的MAC地址。接著,在步驟S210中,依據(jù)上述硬件地址,自節(jié)點數(shù)據(jù)庫113中搜尋異常節(jié)點裝置的節(jié)點相關信息。在此,節(jié)點相關信息中記錄有異常節(jié)點裝置的位置信息,位置信息例如為異常節(jié)點裝置位于機柜100中的節(jié)點位置或異常節(jié)點裝置的網(wǎng)絡地址。節(jié)點位置也就是在機柜100中的實際位置,即,所在的機架(rack)編號、插槽(slot)編號以及節(jié)點(node)編號。而網(wǎng)絡地址例如為BMC的IP地址。并且,在步驟S215中,自云端服務系統(tǒng)中隔離異常節(jié)點裝置。例如依據(jù)一隔離機制將異常節(jié)點裝置自云端服務系統(tǒng)中隔離。另外,在步驟S220中,依據(jù)位置信息來致能異常節(jié)點裝置的發(fā)光單元。例如,依據(jù)位置信息傳送一命令至異常節(jié)點裝置的BMC,以由BMC點亮發(fā)光單元為第一顏色(例如紅色)。而當檢測到異常節(jié)點裝置更換為另一節(jié)點裝置之后,便點亮更換后的節(jié)點裝置的發(fā)光單元為第二顏色(例如綠色)。據(jù)此,管理者藉由觀察發(fā)光單元的顏色來找出異常節(jié)點裝置。之后,管理者便可將異常節(jié)點裝置拔出,之后將好的節(jié)點裝置插入即可。例如,以效能較高的節(jié)點裝置來替換異常節(jié)點裝置,或?qū)惓9?jié)點裝置中異常的硬件更換成可正常運作的硬件。值得注意的是,在檢測到異常節(jié)點裝置更換為另一節(jié)點裝置之后,可通過一網(wǎng)絡管理模組重新取得節(jié)點裝置的節(jié)點相關信息。此網(wǎng)絡管理模組例如為具有具有動態(tài)主機組態(tài)協(xié)議(Dynamic Host ConfigurationProtocol, DHCP)服務(Server)功能的服務器。在本實施例中,網(wǎng)絡管理模組設置在獨立于機柜100之外的另一臺主機。而在其他實施例中,也可以機柜100中的服務資源池110的任一節(jié)點裝置來設置網(wǎng)絡管理模組。圖3是依照本發(fā)明的一實施例的取得節(jié)點相關信息的方法流程圖。請參照圖3,在步驟S305中,網(wǎng)絡管理模組自節(jié)點裝置接收BMC的MAC地址,以分配IP地址給節(jié)點裝置的BMC。接著,在步驟S310中,網(wǎng)絡管理模組依據(jù)IP地址傳送一指令給上述BMC。上述指令例如為智能平臺管理接口(Intelligent PlatformManagement Interface)的OEM (Original Equipment Manufacturer)指令。當BMC接收到上述指令時,如步驟S315所示,將節(jié)點裝置的中央處理單元重新開機,以在重新開機的過程中,通過BMC來取得節(jié)點裝置的節(jié)點相關信息。這是因為,處理器信息、網(wǎng)絡卡信息、存儲器信息、硬盤信息以及節(jié)點位置為動態(tài)取得,因此將中央處理單元重新開機至可延伸固件接口(Extensible Firmware Interface, EFI)殼層,以在行開機自我測試(Power On Test Self,P0ST)時由基本輸入輸出系統(tǒng)(Basiclnput Output System,BIOS)去取得,再傳送給BMC。之后,在步驟S320中,BMC會回應上述指令,而將節(jié)點相關信息傳送至網(wǎng)絡管理模組,使得網(wǎng)絡管理模組將節(jié)點相關信息儲存至節(jié)點數(shù)據(jù)庫113中。另外,網(wǎng)絡管理模組還可依據(jù)節(jié)點相關信息來決定節(jié)點裝置所欲部署的服務類型,并且將節(jié)點相關信息傳送至云端部署程序,以進行云端作業(yè)系統(tǒng)的部署。就目前技術(shù)而言,BMC在出廠時,可將其預設成當其初始碼(initialcode)執(zhí)行完后會自動藉由DHCP協(xié)議,而發(fā)送其MAC地址至具有DHCP服務功能的網(wǎng)絡管理模組,以獲得BMC的IP地址。在本實施例中是由網(wǎng)絡管理模組來取得節(jié)點相關信息。然,在其他實施例中,也可由異常檢測模組112來取得節(jié)點相關信息。例如,異常檢測模組112可藉由BMC的IP地址對BMC下達IPMI OEM指令,以便取得節(jié)點相關信息。舉例來說,表I所示為節(jié)點位置(6,0,0)的節(jié)點裝置的節(jié)點相關信息。其中,節(jié)點位置(6,0,0)代表機架編號為6、插槽編號為O且節(jié)點編號為O。另,表2所示為節(jié)點位置(6,0,0)在更換另一節(jié)點裝置后的節(jié)點相關信息。
權(quán)利要求
1.一種云端服務系統(tǒng)的管理方法,適用于一云端服務系統(tǒng),其中該云端服務系統(tǒng)包括多個節(jié)點裝置,該云端服務系統(tǒng)的管理方法包括: 檢測該些節(jié)點裝置是否發(fā)生異常; 當檢測到該些節(jié)點裝置其中之一發(fā)生異常時,取得發(fā)生異常的異常節(jié)點裝置的一第一硬件地址; 依據(jù)該第一硬件地址,自一節(jié)點數(shù)據(jù)庫中搜尋該異常節(jié)點裝置的一節(jié)點相關信息,其中該節(jié)點相關信息中記錄有該異常節(jié)點裝置的一位置信息; 自該云端服務系統(tǒng)中隔離該異常節(jié)點裝置;以及 依據(jù)該位置信息致能該異常節(jié)點裝置的一發(fā)光單元。
2.根據(jù)權(quán)利要求1所述的云端服務系統(tǒng)的管理方法,其中該位置信息為該異常節(jié)點裝置位于一機柜中的一節(jié)點位置或該異常節(jié)點裝置的網(wǎng)絡地址。
3.根據(jù)權(quán)利要求1所述的云端服務系統(tǒng)的管理方法,其中依據(jù)該位置信息致能該異常節(jié)點裝置的該發(fā)光單元的步驟包括: 依據(jù)該位置信息傳送一命令至該異常節(jié)點裝置的一基板管理控制器,以由該基板管理控制器點亮該發(fā)光單元為一第一顏色。
4.根據(jù)權(quán)利要求3所述的云端服務系統(tǒng)的管理方法,其中還包括: 當檢測到該異常節(jié)點裝置更換為另一節(jié)點裝置之后,點亮更換后的該節(jié)點裝置的該發(fā)光單元為一第二顏色。
5.根據(jù)權(quán)利要求1所述的云端服務系統(tǒng)的管理方法,其中在檢測到該異常節(jié)點裝置更換為另一節(jié)點裝置之后,通過一網(wǎng)絡管理模組重新取得該節(jié)點裝置的該節(jié)點相關信息的步驟包括: 自該節(jié)點裝置接收一第二硬件地址,以分配一網(wǎng)絡地址給該節(jié)點裝置; 依據(jù)該網(wǎng)絡地址傳送一指令給該節(jié)點裝置,以通過該節(jié)點裝置的一基板管理控制器取得該節(jié)點裝置的該節(jié)點相關信息;以及 將該節(jié)點相關信息更新至該節(jié)點數(shù)據(jù)庫中。
6.根據(jù)權(quán)利要求5所述的云端服務系統(tǒng)的管理方法,其中通過該節(jié)點裝置的該基板管理控制器取得該節(jié)點裝置的該節(jié)點相關信息的步驟包括: 當該基板管理控制器接收到該指令時,將該節(jié)點裝置的一中央處理單元重新開機,以在重新開機的過程中,通過該基板管理控制器取得該節(jié)點相關信息。
全文摘要
本發(fā)明公開了一種云端服務系統(tǒng)的管理方法。在本方法中,檢測云端服務系統(tǒng)的多個節(jié)點裝置是否發(fā)生異常。當檢測到其中一節(jié)點裝置發(fā)生異常時,取得異常節(jié)點裝置的硬件地址。接著,依據(jù)硬件地址,自節(jié)點數(shù)據(jù)庫中搜尋異常節(jié)點裝置的位置信息。并且,自云端服務系統(tǒng)中隔離異常節(jié)點裝置。另外,依據(jù)位置信息來致能異常節(jié)點裝置的發(fā)光單元。
文檔編號H04L29/08GK103188290SQ20111044796
公開日2013年7月3日 申請日期2011年12月28日 優(yōu)先權(quán)日2011年12月28日
發(fā)明者盧盈志 申請人:英業(yè)達股份有限公司