節(jié)點(diǎn)故障檢測(cè)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信領(lǐng)域,具體而言,涉及一種節(jié)點(diǎn)故障檢測(cè)方法及裝置。
【背景技術(shù)】
[0002]目前,相關(guān)技術(shù)中的光纖通道(Fibre Channel,簡(jiǎn)稱(chēng)為FC)網(wǎng)絡(luò)具有高帶寬、低時(shí)延等良好的網(wǎng)絡(luò)傳輸特性,使其在存儲(chǔ)網(wǎng)絡(luò)中得到廣泛的應(yīng)用。
[0003]在主機(jī)節(jié)點(diǎn)經(jīng)過(guò)交換機(jī)節(jié)點(diǎn)連接至磁陣節(jié)點(diǎn)的組網(wǎng)模型中,在已建立連接關(guān)系的兩個(gè)節(jié)點(diǎn)之間(主機(jī)節(jié)點(diǎn)與磁陣節(jié)點(diǎn))進(jìn)行數(shù)據(jù)交互,數(shù)據(jù)平面始終孤立于終端設(shè)備節(jié)點(diǎn)(主機(jī)和磁陣)或交換節(jié)點(diǎn),而無(wú)法得知整個(gè)網(wǎng)絡(luò)的連接情況。對(duì)于數(shù)據(jù)路徑的可達(dá)性和有效性是通過(guò)光纖通道的上層來(lái)確定的,即當(dāng)某個(gè)交換節(jié)點(diǎn)發(fā)生故障時(shí),與其存在連接關(guān)系的上游節(jié)點(diǎn)或交換節(jié)點(diǎn)無(wú)法知道該故障點(diǎn)下游的節(jié)點(diǎn)已經(jīng)發(fā)生故障,上下游節(jié)點(diǎn)還是繼續(xù)發(fā)送數(shù)據(jù)幀,直到最上層(主機(jī)和磁陣)感知超時(shí)才進(jìn)行相應(yīng)的故障處理。
[0004]目前的FC協(xié)議并沒(méi)有提供專(zhuān)門(mén)的機(jī)制來(lái)檢測(cè)連接有效性和故障檢測(cè)。對(duì)于FC這種高時(shí)延要求的傳輸介質(zhì)而言,節(jié)點(diǎn)故障后帶來(lái)的無(wú)效的幀傳輸會(huì)影響網(wǎng)絡(luò)流量,嚴(yán)重影響了用戶(hù)使用FC網(wǎng)絡(luò)的體驗(yàn)。且當(dāng)組網(wǎng)層次比較深時(shí),所有節(jié)點(diǎn)之間通過(guò)幀來(lái)檢測(cè)連接通斷在高速接口上也會(huì)影響用戶(hù)的業(yè)務(wù)帶寬。
[0005]在主機(jī)與磁陣的典型組網(wǎng)中,少量的磁陣會(huì)同時(shí)連接大量的主機(jī)節(jié)點(diǎn),并為大量的主機(jī)同時(shí)提供服務(wù),如果交換節(jié)點(diǎn)或磁陣節(jié)點(diǎn)發(fā)生故障,故障恢復(fù)管理不能影響其它主機(jī)節(jié)點(diǎn)的業(yè)務(wù)。由于主機(jī)節(jié)點(diǎn)和磁陣沒(méi)有維護(hù)全網(wǎng)的拓?fù)潢P(guān)系,只有通過(guò)FC-GS-6協(xié)議所有節(jié)點(diǎn)向交換節(jié)點(diǎn)注冊(cè)其身份,在此種情況下,當(dāng)有故障發(fā)生時(shí),手工維護(hù)、恢復(fù)、管理會(huì)極有可能影響正在運(yùn)行的業(yè)務(wù)。
[0006]目前的恢復(fù)手段基本上是查看實(shí)際環(huán)境組網(wǎng)物理連接,并且查看網(wǎng)管工具的告警信息,找出與告警信息匹配的物理節(jié)點(diǎn),整理發(fā)起物理節(jié)點(diǎn)與故障物理節(jié)點(diǎn)之間的物理連接線(xiàn)纜才能定位故障,因而無(wú)法滿(mǎn)足復(fù)雜組網(wǎng)環(huán)境下快速定位解決故障的要求。還有就是隨著磁陣網(wǎng)絡(luò)的升級(jí)與改造,增加設(shè)備節(jié)點(diǎn),網(wǎng)絡(luò)部署會(huì)發(fā)生改變,會(huì)造成已有網(wǎng)絡(luò)部署的變化,根據(jù)以往的維護(hù)經(jīng)驗(yàn)無(wú)法滿(mǎn)足快速維護(hù)網(wǎng)絡(luò)的需求。
[0007]目前FC協(xié)議對(duì)一種FC設(shè)備,通過(guò)眾所周知的地址標(biāo)識(shí)訪(fǎng)問(wèn)Name Server,使用FC-GS-6定義的Common Transfer協(xié)議來(lái)允許客戶(hù)端附著到FC交換網(wǎng)中的設(shè)備的地址標(biāo)識(shí)和屬性,其中,使用GPN_ID獲取端口名稱(chēng),使用GNN_ID獲取節(jié)點(diǎn)名稱(chēng),使用GCS_ID獲取服務(wù)標(biāo)識(shí)名,使用GFT_ID獲取FC-4屬性,使用GPT_ID獲取端口標(biāo)識(shí)類(lèi)型等。主機(jī)節(jié)點(diǎn)與磁陣節(jié)點(diǎn)只能通過(guò)交換節(jié)點(diǎn)查詢(xún)到其它節(jié)點(diǎn)的零散信息,沒(méi)有直接的邏輯關(guān)系,無(wú)法提供統(tǒng)一的組網(wǎng)展現(xiàn)。
[0008]在光纖通道FC-LS-2協(xié)議中規(guī)定了環(huán)回診斷(echo)命令。echo請(qǐng)求接收方將該命令碼之后的負(fù)荷(payload)內(nèi)容按照接收到的順序,通過(guò)應(yīng)答(reply)序列返回至echo命令的發(fā)起者,其提供了一種方法用于傳輸數(shù)據(jù)幀,并且通過(guò)返回payload內(nèi)容來(lái)進(jìn)行簡(jiǎn)單環(huán)回診斷功能。序列只能有一個(gè)巾貞,該巾貞用來(lái)傳輸echo指令和應(yīng)答。
[0009]然而,目前FC協(xié)議中使用的echo僅能實(shí)現(xiàn)簡(jiǎn)單的環(huán)回診斷功能,而并不能獲取echo報(bào)文所經(jīng)過(guò)節(jié)點(diǎn)的信息標(biāo)識(shí)。
【發(fā)明內(nèi)容】
[0010]本發(fā)明提供了一種節(jié)點(diǎn)故障檢測(cè)方法及裝置,以至少解決相關(guān)技術(shù)中在FC網(wǎng)絡(luò)中交換節(jié)點(diǎn)或終端設(shè)備節(jié)點(diǎn)之間的連接發(fā)生故障后,數(shù)據(jù)收發(fā)節(jié)點(diǎn)無(wú)法快速感知的問(wèn)題。
[0011]根據(jù)本發(fā)明的一個(gè)方面,提供了一種節(jié)點(diǎn)故障檢測(cè)方法。
[0012]根據(jù)本發(fā)明實(shí)施例的節(jié)點(diǎn)故障檢測(cè)方法包括:向與當(dāng)前節(jié)點(diǎn)連接的下游葉子節(jié)點(diǎn)發(fā)送echo報(bào)文,其中,echo報(bào)文用于檢測(cè)當(dāng)前節(jié)點(diǎn)與目的節(jié)點(diǎn)之間的鏈路是否發(fā)生異常,當(dāng)前節(jié)點(diǎn)和目的節(jié)點(diǎn)均為FC網(wǎng)絡(luò)中的終端設(shè)備節(jié)點(diǎn);根據(jù)echo應(yīng)答報(bào)文獲取在當(dāng)前節(jié)點(diǎn)與目的節(jié)點(diǎn)之間的正常工作的各個(gè)節(jié)點(diǎn)的標(biāo)識(shí)信息;通過(guò)獲取到的各個(gè)節(jié)點(diǎn)的標(biāo)識(shí)信息確定是否存在發(fā)生故障的節(jié)點(diǎn)。
[0013]優(yōu)選地,根據(jù)echo應(yīng)答報(bào)文獲取各個(gè)節(jié)點(diǎn)的標(biāo)識(shí)信息包括:接收來(lái)自于目的節(jié)點(diǎn)的echo應(yīng)答報(bào)文,其中,echo應(yīng)答報(bào)文中攜帶的信息包括:echo報(bào)文在當(dāng)前節(jié)點(diǎn)與目的節(jié)點(diǎn)之間逐級(jí)轉(zhuǎn)發(fā)經(jīng)過(guò)的每個(gè)節(jié)點(diǎn)的全球端口名稱(chēng)(WWPN)標(biāo)識(shí)信息;對(duì)echo應(yīng)答報(bào)文進(jìn)行解析,從echo應(yīng)答報(bào)文中提取全部節(jié)點(diǎn)的WffPN標(biāo)識(shí)信息。
[0014]優(yōu)選地,根據(jù)echo應(yīng)答報(bào)文獲取各個(gè)節(jié)點(diǎn)的標(biāo)識(shí)信息包括:接收來(lái)自于中間節(jié)點(diǎn)的echo應(yīng)答報(bào)文,其中,echo應(yīng)答報(bào)文中攜帶的信息包括:echo報(bào)文在當(dāng)前節(jié)點(diǎn)與中間節(jié)點(diǎn)之間逐級(jí)轉(zhuǎn)發(fā)經(jīng)過(guò)的每個(gè)節(jié)點(diǎn)的WWPN標(biāo)識(shí)信息以及中間節(jié)點(diǎn)收集的該中間節(jié)點(diǎn)下游的正常工作的全部葉子節(jié)點(diǎn)的WffPN標(biāo)識(shí)信息,中間節(jié)點(diǎn)為在FC網(wǎng)絡(luò)中由當(dāng)前節(jié)點(diǎn)向目的節(jié)點(diǎn)發(fā)送的echo報(bào)文經(jīng)過(guò)的交換節(jié)點(diǎn);對(duì)echo應(yīng)答報(bào)文進(jìn)行解析,從echo應(yīng)答報(bào)文中提取全部節(jié)點(diǎn)的WffPN標(biāo)識(shí)信息。
[0015]優(yōu)選地,通過(guò)獲取到的各個(gè)節(jié)點(diǎn)的標(biāo)識(shí)信息確定是否存在發(fā)生故障的節(jié)點(diǎn)包括:判斷從echo應(yīng)答報(bào)文中提取的WWPN標(biāo)識(shí)信息是否為在當(dāng)前節(jié)點(diǎn)與目的節(jié)點(diǎn)之間的全部節(jié)點(diǎn)的標(biāo)識(shí)信息;如果否,則根據(jù)提取到的WWPN標(biāo)識(shí)信息確定發(fā)生故障的節(jié)點(diǎn)的類(lèi)型,當(dāng)發(fā)生故障的節(jié)點(diǎn)為終端設(shè)備節(jié)點(diǎn)時(shí),則直接將發(fā)生故障的節(jié)點(diǎn)的狀態(tài)信息設(shè)置為故障狀態(tài);當(dāng)發(fā)生故障的節(jié)點(diǎn)為交換節(jié)點(diǎn),則將發(fā)生故障的節(jié)點(diǎn)以及發(fā)生故障的節(jié)點(diǎn)下級(jí)的全部葉子節(jié)點(diǎn)的狀態(tài)信息均設(shè)置為故障狀態(tài)。
[0016]優(yōu)選地,在從echo應(yīng)答報(bào)文中提取全部節(jié)點(diǎn)的WffPN標(biāo)識(shí)信息之后,還包括:根據(jù)提取到的WWPN標(biāo)識(shí)信息確定正常工作的各個(gè)節(jié)點(diǎn)之間的連接關(guān)系和全部連接關(guān)系的狀態(tài)信息,生成網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)關(guān)系圖。
[0017]優(yōu)選地,向與當(dāng)前節(jié)點(diǎn)連接的下游葉子節(jié)點(diǎn)發(fā)送echo報(bào)文包括:按照第一預(yù)設(shè)周期發(fā)送echo報(bào)文;如果發(fā)送失敗或者在預(yù)設(shè)時(shí)長(zhǎng)內(nèi)未接收到echo應(yīng)答報(bào)文,則將第一預(yù)設(shè)周期調(diào)整為第二預(yù)設(shè)周期,并且連續(xù)發(fā)送N次echo報(bào)文,其中,第二預(yù)設(shè)周期的取值小于第一預(yù)設(shè)周期,N為大于I的正整數(shù),連續(xù)發(fā)送N次echo報(bào)文是否成功的結(jié)果用于確定是否繼續(xù)發(fā)送echo報(bào)文。
[0018]根據(jù)本發(fā)明的另一方面,提供了一種節(jié)點(diǎn)故障檢測(cè)裝置。
[0019]根據(jù)本發(fā)明實(shí)施例的節(jié)點(diǎn)故障檢測(cè)裝置包括:發(fā)送模塊,用于向與當(dāng)前節(jié)點(diǎn)連接的下游葉子節(jié)點(diǎn)發(fā)送echo報(bào)文,其中,echo報(bào)文用于檢測(cè)當(dāng)前節(jié)點(diǎn)與目的節(jié)點(diǎn)之間的鏈路是否發(fā)生異常,當(dāng)前節(jié)點(diǎn)和目的節(jié)點(diǎn)均為FC網(wǎng)絡(luò)中的終端設(shè)備節(jié)點(diǎn);獲取模塊,用于根據(jù)echo應(yīng)答報(bào)文獲取在當(dāng)前節(jié)點(diǎn)與目的節(jié)點(diǎn)之間的正常工作的各個(gè)節(jié)點(diǎn)的標(biāo)識(shí)信息;確定模塊,用于通過(guò)獲取到的各個(gè)節(jié)點(diǎn)的標(biāo)識(shí)信息確定是否存在發(fā)生故障的節(jié)點(diǎn)。
[0020]優(yōu)選地,獲取模塊包括:第一接收單元,用于接收來(lái)自于目的節(jié)點(diǎn)的echo應(yīng)答報(bào)文,其中,echo應(yīng)答報(bào)文中攜帶的信息包括:ech0報(bào)文在當(dāng)前節(jié)點(diǎn)與目的節(jié)點(diǎn)之間逐級(jí)轉(zhuǎn)發(fā)經(jīng)過(guò)的每個(gè)節(jié)點(diǎn)的全球端口名稱(chēng)(WWPN)標(biāo)識(shí)信息;第一提取單元,用于對(duì)echo應(yīng)答報(bào)文進(jìn)行解析,從echo應(yīng)答報(bào)文中提取全部節(jié)點(diǎn)的WffPN標(biāo)識(shí)信息。
[0021]優(yōu)選地,獲取模塊包括:第二接收單元,用于接收來(lái)自于中間節(jié)點(diǎn)的echo應(yīng)答報(bào)文,其中,echo應(yīng)答報(bào)文中攜帶的信息包括:ech0報(bào)文在當(dāng)前節(jié)點(diǎn)與中間節(jié)點(diǎn)之間逐級(jí)轉(zhuǎn)發(fā)經(jīng)過(guò)的每個(gè)節(jié)點(diǎn)的WWPN標(biāo)識(shí)信息以及中間節(jié)點(diǎn)收集的該中間節(jié)點(diǎn)下游的正常工作的全部葉子節(jié)點(diǎn)的WffPN標(biāo)識(shí)信息,中間節(jié)點(diǎn)為在FC網(wǎng)絡(luò)中由當(dāng)前節(jié)點(diǎn)向目的節(jié)點(diǎn)發(fā)送的echo報(bào)文經(jīng)過(guò)的交換節(jié)點(diǎn);第二提取單元,用于對(duì)echo應(yīng)答報(bào)文進(jìn)行解析,從echo應(yīng)答報(bào)文中提取全部節(jié)點(diǎn)的WWPN標(biāo)識(shí)信息。
[0022]優(yōu)選地,確定模塊包括:判斷單元,用于判斷從echo應(yīng)答報(bào)文中提取的WffPN標(biāo)識(shí)信息是否為在當(dāng)前節(jié)點(diǎn)與目的節(jié)點(diǎn)之間的全部節(jié)點(diǎn)的標(biāo)識(shí)信息;處理單元,用于在判斷單元輸出為否時(shí),根據(jù)提取到的WWPN標(biāo)識(shí)信息確定發(fā)生故障的節(jié)點(diǎn)的類(lèi)型,當(dāng)發(fā)生故障的節(jié)點(diǎn)為終端設(shè)備節(jié)點(diǎn)時(shí),則直接將發(fā)生故障的節(jié)點(diǎn)的狀態(tài)信息設(shè)置為故障狀態(tài);當(dāng)發(fā)生故障的節(jié)點(diǎn)為交換節(jié)點(diǎn),則將發(fā)生故障的節(jié)點(diǎn)以及發(fā)生故障的節(jié)點(diǎn)下級(jí)的全部葉子節(jié)點(diǎn)的狀態(tài)信息均設(shè)置為故障狀態(tài)。
[0023]優(yōu)選地,上述裝置還包括:生成模塊,用于根據(jù)提取到的WffPN標(biāo)識(shí)信息確定正常工作的各個(gè)節(jié)點(diǎn)之間的連接關(guān)系和全部連接關(guān)系的狀態(tài)信息,生成網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)關(guān)系圖。
[0024]通過(guò)本發(fā)明實(shí)施例,采用向與當(dāng)前節(jié)點(diǎn)連接的下游葉子節(jié)點(diǎn)發(fā)送echo報(bào)文,其中,echo報(bào)文用于檢測(cè)當(dāng)前節(jié)點(diǎn)與目的節(jié)點(diǎn)之間的鏈路是否發(fā)生異常,當(dāng)前節(jié)點(diǎn)和目的節(jié)點(diǎn)均為FC網(wǎng)絡(luò)中的終端設(shè)備節(jié)點(diǎn);根據(jù)echo應(yīng)答報(bào)文獲取在當(dāng)前節(jié)點(diǎn)與目的節(jié)點(diǎn)之間的正常工作的各個(gè)節(jié)點(diǎn)的標(biāo)識(shí)信息;通過(guò)獲取到的各個(gè)節(jié)點(diǎn)的標(biāo)識(shí)信息確定是否存在發(fā)生故障的節(jié)點(diǎn),即當(dāng)前節(jié)點(diǎn)主動(dòng)向下游葉子節(jié)點(diǎn)發(fā)送echo報(bào)文,并接收echo應(yīng)答報(bào)文,從中提取echo報(bào)文經(jīng)過(guò)的各個(gè)節(jié)點(diǎn)的標(biāo)識(shí)信息,而不需要人工配置各節(jié)點(diǎn)信息,并根據(jù)提取到的各個(gè)節(jié)點(diǎn)的標(biāo)識(shí)信息及時(shí)掌握由節(jié)點(diǎn)故障引起的其下游節(jié)點(diǎn)數(shù)據(jù)幀超時(shí),由此解決了相關(guān)技術(shù)中在FC網(wǎng)絡(luò)中交換節(jié)點(diǎn)或終端設(shè)備節(jié)點(diǎn)之間的連接發(fā)生故障后,數(shù)據(jù)收發(fā)節(jié)點(diǎn)無(wú)法快速感知的問(wèn)題,進(jìn)而實(shí)現(xiàn)了對(duì)FC網(wǎng)絡(luò)連接故障的快速檢測(cè),使得收發(fā)