網(wǎng)絡(luò)集群實(shí)時(shí)監(jiān)控方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明總體上涉及網(wǎng)絡(luò)集群,更具體地,涉及一種網(wǎng)絡(luò)集群的實(shí)時(shí)監(jiān)控方法和系統(tǒng)。
【背景技術(shù)】
[0002]在網(wǎng)絡(luò)集群、特別是大規(guī)模網(wǎng)絡(luò)集群中,大量的服務(wù)器、虛擬機(jī)以及各種資源需要進(jìn)行管理,以便在其發(fā)生問(wèn)題時(shí),能夠及時(shí)告警和實(shí)現(xiàn)自動(dòng)化處理?,F(xiàn)有的技術(shù)方案包括對(duì)數(shù)據(jù)進(jìn)行采集,然后將其發(fā)送給中心服務(wù)器。中心服務(wù)器將數(shù)據(jù)與設(shè)定的規(guī)則進(jìn)行閾值匹配,并在發(fā)現(xiàn)問(wèn)題時(shí)進(jìn)行告警處理。但是,這種技術(shù)方案難以實(shí)現(xiàn)大規(guī)模的橫向擴(kuò)展。當(dāng)集群規(guī)模大到一定程度,中心服務(wù)器會(huì)成為系統(tǒng)短板,不能根據(jù)集群規(guī)模進(jìn)行線性擴(kuò)展。同時(shí),這種方案的匹配規(guī)則過(guò)于簡(jiǎn)單。而且,這種方案的告警方式局限于郵件和短信告警,然后由運(yùn)維人員進(jìn)行處理,自動(dòng)化程度低。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的一個(gè)方面提供了一種網(wǎng)絡(luò)集群實(shí)時(shí)監(jiān)控方法,所述網(wǎng)絡(luò)集群包括多個(gè)網(wǎng)絡(luò)資源,所述方法包括:使用第一多個(gè)采集模塊從所述多個(gè)網(wǎng)絡(luò)資源采集數(shù)據(jù),并將數(shù)據(jù)發(fā)送到第一消息隊(duì)列或消息隊(duì)列集群;從第二多個(gè)過(guò)濾模塊中選擇一個(gè)過(guò)濾模塊,根據(jù)過(guò)濾規(guī)則,對(duì)所述第一消息隊(duì)列或消息隊(duì)列集群中的數(shù)據(jù)執(zhí)行過(guò)濾處理,以識(shí)別需要處理的數(shù)據(jù),并將需要處理的數(shù)據(jù)發(fā)送到第二消息隊(duì)列或消息隊(duì)列集群;以及從第三多個(gè)通知模塊中選擇一個(gè)第三模塊,針對(duì)所述第二消息隊(duì)列或消息隊(duì)列集群中的需要處理的數(shù)據(jù),根據(jù)預(yù)先設(shè)置的處理方法進(jìn)行處理。
[0004]本發(fā)明的另一個(gè)方面提供了一種網(wǎng)絡(luò)集群實(shí)時(shí)監(jiān)控系統(tǒng),所述網(wǎng)絡(luò)集群包括多個(gè)網(wǎng)絡(luò)資源,所述系統(tǒng)包括:第一多個(gè)采集模塊,用于從所述多個(gè)網(wǎng)絡(luò)資源采集數(shù)據(jù),并將數(shù)據(jù)發(fā)送到第一消息隊(duì)列或消息隊(duì)列集群;第二多個(gè)過(guò)濾模塊,用于根據(jù)過(guò)濾規(guī)則,對(duì)所述第一消息隊(duì)列或消息隊(duì)列集群中的數(shù)據(jù)執(zhí)行過(guò)濾處理,以識(shí)別需要處理的數(shù)據(jù),并將需要處理的數(shù)據(jù)發(fā)送到第二消息隊(duì)列或消息隊(duì)列集群;以及第三多個(gè)通知模塊,用于針對(duì)所述第二消息隊(duì)列或消息隊(duì)列集群中需要處理的數(shù)據(jù),根據(jù)預(yù)先設(shè)置的處理方法進(jìn)行處理,其中:針對(duì)第一消息隊(duì)列或消息隊(duì)列集群中的每個(gè)消息,選擇第二多個(gè)過(guò)濾模塊中的一個(gè)過(guò)濾模塊進(jìn)行過(guò)濾處理;以及針對(duì)第二消息隊(duì)列或消息隊(duì)列集群中的每個(gè)消息,選擇第三多個(gè)通知模塊中的一個(gè)通知模塊進(jìn)行過(guò)濾處理。
【附圖說(shuō)明】
[0005]為了更完整地理解本發(fā)明及其優(yōu)勢(shì),現(xiàn)在將參考結(jié)合附圖的以下描述,其中:
[0006]圖1示意性示出了根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)集群實(shí)時(shí)監(jiān)控系統(tǒng)的框圖;
[0007]圖2示意性示出了根據(jù)本發(fā)明實(shí)施例的過(guò)濾模塊的工作流程圖;以及
[0008]圖3示意性示出了過(guò)濾模塊將數(shù)據(jù)與過(guò)濾規(guī)則匹配的流程圖。
【具體實(shí)施方式】
[0009]根據(jù)結(jié)合附圖對(duì)本發(fā)明示例性實(shí)施例的以下詳細(xì)描述,本發(fā)明的其它方面、優(yōu)勢(shì)和突出特征對(duì)于本領(lǐng)域技術(shù)人員將變得顯而易見。
[0010]在本發(fā)明中,術(shù)語(yǔ)“包括”和“含有”及其派生詞意為包括而非限制;術(shù)語(yǔ)“或”是包含性的,意為和/或。
[0011]在本說(shuō)明書中,下述用于描述本發(fā)明原理的各種實(shí)施例只是說(shuō)明,不應(yīng)該以任何方式解釋為限制發(fā)明的范圍。參照附圖的下述描述用于幫助全面理解由權(quán)利要求及其等同物限定的本發(fā)明的示例性實(shí)施例。下述描述包括多種具體細(xì)節(jié)來(lái)幫助理解,但這些細(xì)節(jié)應(yīng)認(rèn)為僅僅是示例性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)認(rèn)識(shí)到,在不背離本發(fā)明的范圍和精神的情況下,可以對(duì)本文中描述的實(shí)施例進(jìn)行多種改變和修改。此外,為了清楚和簡(jiǎn)潔起見,省略了公知功能和結(jié)構(gòu)的描述。此外,貫穿附圖,相同參考數(shù)字用于相似功能和操作。
[0012]圖1示意性示出了根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)集群實(shí)時(shí)監(jiān)控系統(tǒng)100的框圖。該系統(tǒng)100包括N個(gè)采集模塊1-1到1-Ν、Μ個(gè)過(guò)濾模塊2-1到2-Μ,以及Ρ個(gè)通知模塊3_1到3-Ρ,其中Ν、Μ和Ρ是大于等于1的整數(shù)。每個(gè)采集模塊連接到網(wǎng)絡(luò)集群200中的一個(gè)或多個(gè)網(wǎng)絡(luò)資源。這里,網(wǎng)絡(luò)資源例如包括服務(wù)器、虛擬機(jī)、容器、路由器、交換機(jī)、防火墻、負(fù)載均衡服務(wù)器等。通過(guò)采集模塊、過(guò)濾模塊和通知模塊的協(xié)同操作,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)集群中的實(shí)時(shí)監(jiān)控。采集模塊采集可選地,系統(tǒng)100還包括第一消息隊(duì)列或消息隊(duì)列集群4和第二消息隊(duì)列或消息隊(duì)列集群5。所有的采集模塊與同一個(gè)第一消息隊(duì)列或同一個(gè)第一消息隊(duì)列集群通信。后端所有的過(guò)濾模塊則負(fù)責(zé)監(jiān)視這個(gè)第一消息隊(duì)列或消息隊(duì)列集群。當(dāng)有采集數(shù)據(jù)發(fā)送到第一消息隊(duì)列或消息隊(duì)列集群時(shí),系統(tǒng)將會(huì)從后端的若干個(gè)過(guò)濾模塊中隨機(jī)選擇一個(gè)過(guò)濾模塊,將第一消息隊(duì)列或消息隊(duì)列集群中的消息發(fā)送給該模塊予以處理。類似地,所有的過(guò)濾模塊與同一個(gè)第二消息隊(duì)列或同一個(gè)第二消息隊(duì)列集群通信。所有的通知模塊則負(fù)責(zé)監(jiān)視這個(gè)第二消息隊(duì)列或消息隊(duì)列集群。當(dāng)有數(shù)據(jù)發(fā)送到第二消息隊(duì)列或消息隊(duì)列集群時(shí),系統(tǒng)將會(huì)從后端的若干個(gè)通知模塊中隨機(jī)選擇一個(gè)通知模塊,將第二消息隊(duì)列或消息隊(duì)列集群中的消息發(fā)送給該模塊予以處理。除了隨機(jī)方式之外,還可以根據(jù)預(yù)先設(shè)置的規(guī)則來(lái)選擇過(guò)濾模塊和/或通知模塊,例如根據(jù)各模塊的當(dāng)前負(fù)載狀態(tài)、設(shè)備或網(wǎng)絡(luò)性能、狀態(tài),或預(yù)先設(shè)置的優(yōu)先級(jí)等。
[0013]以下分別描述每個(gè)模塊執(zhí)行的操作。
[0014]米集模塊
[0015]采集模塊有兩種工作方式:定時(shí)輪詢和實(shí)時(shí)推送。
[0016]輪詢工作方式主要針對(duì)的是定時(shí)上報(bào)的數(shù)據(jù),如CPU使用率、磁盤使用率、內(nèi)存使用率、消息隊(duì)列長(zhǎng)度等。這種數(shù)據(jù)主要用以表征網(wǎng)絡(luò)集群中的網(wǎng)絡(luò)資源的性能、狀態(tài)等。采集模塊定時(shí)從資源中采集相應(yīng)的數(shù)據(jù),發(fā)送到消息隊(duì)列中。
[0017]推送工作方式主要針對(duì)的是事件型的數(shù)據(jù),如日志等。這種數(shù)據(jù)主要用以描述某個(gè)事件。采集模塊實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)資源推送的事件狀態(tài),當(dāng)發(fā)生狀態(tài)轉(zhuǎn)移(如事件發(fā)生,或者事件結(jié)束)時(shí),采集模塊生成對(duì)應(yīng)數(shù)據(jù),發(fā)送到第一消息隊(duì)列或消息隊(duì)列集群中。
_8] 過(guò)濾模塊
[0019]過(guò)濾模塊根據(jù)過(guò)濾規(guī)則,對(duì)第一消息隊(duì)列或消息隊(duì)列集群中來(lái)自于采集模塊的數(shù)據(jù)執(zhí)行過(guò)濾處理。
[0020]過(guò)濾規(guī)則主要包括數(shù)據(jù)的類型、指標(biāo)、過(guò)濾條件、過(guò)濾方法,以及處理方法等。
[0021]數(shù)據(jù)類型指示數(shù)據(jù)是用于描述哪種類型的資源監(jiān)控信息,如CPU使用率等。指標(biāo)是指數(shù)據(jù)的單位,如CPU使用率的單位為%。
[0022]過(guò)濾條件指示該條過(guò)濾規(guī)則的適用范圍。例如,如果過(guò)濾條件為判斷數(shù)據(jù)來(lái)源是來(lái)自于服務(wù)器A。那么只有當(dāng)接收到的數(shù)據(jù)是來(lái)自于服務(wù)器A且數(shù)據(jù)的數(shù)據(jù)類型與規(guī)則的數(shù)據(jù)類型一致時(shí),該條規(guī)則才可能被匹配。如果過(guò)濾條件為空,則所有數(shù)據(jù)類型與規(guī)則的數(shù)據(jù)類型一致的數(shù)據(jù)被接收時(shí),該條規(guī)則都將被匹配。
[0023]過(guò)濾方法主要是指對(duì)于數(shù)據(jù)和預(yù)設(shè)的標(biāo)準(zhǔn)閾值進(jìn)行比對(duì),判斷是否達(dá)到需要處理(例如告警)的標(biāo)準(zhǔn)。由于數(shù)據(jù)不僅僅是數(shù)字,還可以是事件,所以過(guò)濾方法對(duì)于數(shù)字型的數(shù)據(jù)可進(jìn)行包括大于、小于等比較操作,而對(duì)于事件數(shù)據(jù)可以支持從字符串中提取如錯(cuò)誤等關(guān)鍵字,來(lái)判斷是否需要進(jìn)行處理。具體地,事件數(shù)據(jù)主要采用字符串進(jìn)行描述。因此對(duì)于事件的過(guò)濾,可以基于關(guān)鍵字。通過(guò)對(duì)于事件描述中提取如錯(cuò)誤、通知等關(guān)鍵字,來(lái)