專(zhuān)利名稱(chēng):一種超大規(guī)模業(yè)務(wù)集群監(jiān)控系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及超大規(guī)模集群監(jiān)控領(lǐng)域,具體涉及一種超大規(guī)模業(yè)務(wù)集群監(jiān)控系統(tǒng)和 方法。
背景技術(shù):
隨著服務(wù)器數(shù)量逐年增多,對(duì)于管理人員,需要及時(shí)掌握集群的情況,以及實(shí)時(shí)地 對(duì)集群進(jìn)行監(jiān)控。監(jiān)控超大規(guī)模業(yè)務(wù)集群(大于2000臺(tái))會(huì)遇到各種性能瓶頸問(wèn)題,該技術(shù)解決了 超大規(guī)模集群業(yè)務(wù)信息統(tǒng)一采集的性能問(wèn)題、大規(guī)模數(shù)據(jù)存儲(chǔ)和查詢(xún)的性能問(wèn)題。因此,需 要一種系統(tǒng)及方法解決上述問(wèn)題。
發(fā)明內(nèi)容
為解決上述缺點(diǎn),本發(fā)明提出了一種超大規(guī)模業(yè)務(wù)集群監(jiān)控系統(tǒng)和方法。一種超大規(guī)模集群業(yè)務(wù)監(jiān)控系統(tǒng),該系統(tǒng)包括中心業(yè)務(wù)監(jiān)控服務(wù)器和分區(qū)業(yè)務(wù)監(jiān) 控服務(wù)器,一種超大規(guī)模集群業(yè)務(wù)監(jiān)控系統(tǒng),該系統(tǒng)包括中心業(yè)務(wù)監(jiān)控服務(wù)器和分區(qū)業(yè)務(wù)監(jiān) 控服務(wù)器,其中,所述中心業(yè)務(wù)監(jiān)控服務(wù)器包括接收來(lái)自多個(gè)分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器信息的接收模塊;根據(jù)預(yù)定義的規(guī)則觸發(fā)告警告警觸發(fā)模塊;所述分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器包括應(yīng)急處理模塊,用于對(duì)集群告警時(shí)的緊急管理;采集分區(qū)集群內(nèi)部的業(yè)務(wù)信息的業(yè)務(wù)監(jiān)控模塊;將采集到的信息推送至中心業(yè)務(wù)監(jiān)控服務(wù)器推送模塊。優(yōu)選的,所述告警觸發(fā)模塊由管理員預(yù)先設(shè)定閾值,當(dāng)收到的業(yè)務(wù)監(jiān)控服務(wù)器的 監(jiān)控信息超過(guò)閾值時(shí),則觸發(fā)告警。較優(yōu)選的,所述監(jiān)控信息包括CPU利用率,內(nèi)存占用空間和存儲(chǔ)占用空間。優(yōu)選的,所述應(yīng)急處理模塊在告警觸發(fā)后超過(guò)預(yù)定時(shí)間無(wú)響應(yīng)后,自動(dòng)進(jìn)行應(yīng)急處理。較優(yōu)選的,所述應(yīng)急處理模塊的應(yīng)急處理為按照資源占用多少排序,優(yōu)先關(guān)掉資 源占用多的進(jìn)程。一種超大規(guī)模集群業(yè)務(wù)監(jiān)控系統(tǒng)的監(jiān)控方法,所示方法步驟如下A、對(duì)業(yè)務(wù)進(jìn)行分區(qū),每個(gè)分區(qū)設(shè)置一個(gè)分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器,分區(qū)業(yè)務(wù)監(jiān)控服務(wù) 器采集到每個(gè)分區(qū)集群內(nèi)部業(yè)務(wù)信息后,將信息推送至中心業(yè)務(wù)監(jiān)控服務(wù)器;B、中心業(yè)務(wù)監(jiān)控服務(wù)器接收到信息后,若超過(guò)預(yù)先設(shè)定的閾值,則發(fā)出告警信息, 若發(fā)出告警信息后等待響應(yīng)時(shí)間超出設(shè)定的響應(yīng)的時(shí)間,則對(duì)信息進(jìn)行整合處理并反饋分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器;C、分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器根據(jù)反饋信息控制分區(qū)業(yè)務(wù)工作。優(yōu)選的,所述分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器在接收到反饋信息后,首先按照資源占用高低 對(duì)進(jìn)程排序,關(guān)掉資源占用高的進(jìn)程。優(yōu)選的,分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器采集的到集群內(nèi)部業(yè)務(wù)信息包括CPU利用率,內(nèi)存 占用空間,存儲(chǔ)占用空間。本發(fā)明通過(guò)使用統(tǒng)一的集中式業(yè)務(wù)監(jiān)控平臺(tái),有效實(shí)現(xiàn)了對(duì)超大規(guī)模集群業(yè)務(wù)系 統(tǒng)進(jìn)行高效的監(jiān)控和管理。
圖1為本發(fā)明的超大規(guī)模集群分區(qū)業(yè)務(wù)監(jiān)控系統(tǒng)的結(jié)構(gòu)圖;
具體實(shí)施例方式根據(jù)本發(fā)明提供的一種超大規(guī)模集群業(yè)務(wù)監(jiān)控系統(tǒng),包括中心業(yè)務(wù)監(jiān)控系統(tǒng)和分 區(qū)業(yè)務(wù)監(jiān)控系統(tǒng)。其中,每個(gè)分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器用于采集每個(gè)分區(qū)集群內(nèi)部的信息,并將 采集到的信息推送至中心業(yè)務(wù)監(jiān)控服務(wù)器。分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器包括業(yè)務(wù)監(jiān)控模塊、推送模塊。其中,業(yè)務(wù)監(jiān)控模塊用于采集 分區(qū)集群內(nèi)部業(yè)務(wù)的信息。推送模塊用于將采集到的信息推送至中心業(yè)務(wù)監(jiān)控服務(wù)器。中心監(jiān)控服務(wù)器包括接收模塊、告警觸發(fā)模塊。其中,接收模塊用于接收來(lái)自多個(gè) 分區(qū)監(jiān)控服務(wù)器的信息。告警觸發(fā)模塊用于根據(jù)預(yù)定義的規(guī)則觸發(fā)告警。借助本發(fā)明上述技術(shù)方案,通過(guò)使用統(tǒng)一的集中式業(yè)務(wù)監(jiān)控平臺(tái),實(shí)現(xiàn)對(duì)超大規(guī) 模集群業(yè)務(wù)系統(tǒng)進(jìn)行高效的監(jiān)控和管理。
權(quán)利要求
1.一種超大規(guī)模集群業(yè)務(wù)監(jiān)控系統(tǒng),其特征在于該系統(tǒng)包括中心業(yè)務(wù)監(jiān)控服務(wù)器和 分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器,其中,所述中心業(yè)務(wù)監(jiān)控服務(wù)器包括接收來(lái)自多個(gè)分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器信息的接收模塊;根據(jù)預(yù)定義的規(guī)則觸發(fā)告警告警觸發(fā)模塊;所述分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器包括應(yīng)急處理模塊,用于對(duì)集群告警時(shí)的緊急管理;采集分區(qū)集群內(nèi)部的業(yè)務(wù)信息的業(yè)務(wù)監(jiān)控模塊;將采集到的信息推送至中心業(yè)務(wù)監(jiān)控服務(wù)器推送模塊。
2.如權(quán)利要求1所述一種超大規(guī)模集群業(yè)務(wù)監(jiān)控系統(tǒng),其特征在于所述告警觸發(fā)模 塊由管理員預(yù)先設(shè)定閾值,當(dāng)收到的業(yè)務(wù)監(jiān)控服務(wù)器的監(jiān)控信息超過(guò)閾值時(shí),則觸發(fā)告警。
3.如權(quán)利要求2所述一種超大規(guī)模集群業(yè)務(wù)監(jiān)控系統(tǒng),其特征在于所述監(jiān)控信息包 括CPU利用率,內(nèi)存占用空間和存儲(chǔ)占用空間。
4.如權(quán)利要求1所述一種超大規(guī)模集群業(yè)務(wù)監(jiān)控系統(tǒng),其特征在于所述應(yīng)急處理模 塊在告警觸發(fā)后超過(guò)預(yù)定時(shí)間無(wú)響應(yīng)后,自動(dòng)進(jìn)行應(yīng)急處理。
5.如權(quán)利要求4所述一種超大規(guī)模集群業(yè)務(wù)監(jiān)控系統(tǒng),其特征在于所述應(yīng)急處理模 塊的應(yīng)急處理為按照資源占用多少排序,優(yōu)先關(guān)掉資源占用多的進(jìn)程。
6.一種權(quán)利要求1所述的超大規(guī)模集群業(yè)務(wù)監(jiān)控系統(tǒng)的監(jiān)控方法,其特征在于所示 方法步驟如下A、對(duì)業(yè)務(wù)進(jìn)行分區(qū),每個(gè)分區(qū)設(shè)置一個(gè)分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器,分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器采 集到每個(gè)分區(qū)集群內(nèi)部業(yè)務(wù)信息后,將信息推送至中心業(yè)務(wù)監(jiān)控服務(wù)器;B、中心業(yè)務(wù)監(jiān)控服務(wù)器接收到信息后,若超過(guò)預(yù)先設(shè)定的閾值,則發(fā)出告警信息,若發(fā) 出告警信息后等待響應(yīng)時(shí)間超出設(shè)定的響應(yīng)的時(shí)間,則對(duì)信息進(jìn)行整合處理并反饋分區(qū)業(yè) 務(wù)監(jiān)控服務(wù)器;C、分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器根據(jù)反饋信息控制分區(qū)業(yè)務(wù)工作。
7.如權(quán)利要求6所述監(jiān)控方法,其特征在于所述分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器在接收到反饋 信息后,首先按照資源占用高低對(duì)進(jìn)程排序,關(guān)掉資源占用高的進(jìn)程。
8.如權(quán)利要求6所述監(jiān)控方法,其特征在于分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器采集的到集群內(nèi)部 業(yè)務(wù)信息包括CPU利用率,內(nèi)存占用空間,存儲(chǔ)占用空間。
全文摘要
本發(fā)明提供了一種超大規(guī)模集群業(yè)務(wù)監(jiān)控系統(tǒng),該系統(tǒng)包括中心業(yè)務(wù)監(jiān)控服務(wù)器和分區(qū)業(yè)務(wù)監(jiān)控服務(wù)器,本發(fā)明通過(guò)使用統(tǒng)一的集中式業(yè)務(wù)監(jiān)控平臺(tái),有效實(shí)現(xiàn)了對(duì)超大規(guī)模集群業(yè)務(wù)系統(tǒng)進(jìn)行高效的監(jiān)控和管理。
文檔編號(hào)G08B25/00GK102147960SQ201110069058
公開(kāi)日2011年8月10日 申請(qǐng)日期2011年3月22日 優(yōu)先權(quán)日2011年3月22日
發(fā)明者劉衛(wèi)紅, 歷軍, 李紹輝, 趙歡 申請(qǐng)人:曙光信息產(chǎn)業(yè)股份有限公司