專利名稱:用于管理替換單元的測(cè)試的、具有可替換單元的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及在包含一個(gè)或多個(gè)可替換單元的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)中使用的方法、裝置或軟件,用于管理一個(gè)或多個(gè)替換單元的測(cè)試。
背景技術(shù):
計(jì)算機(jī)系統(tǒng)通常由一組互連的相異組件構(gòu)成。當(dāng)單元發(fā)生故障時(shí),需要用正確地運(yùn)行的單元替換所述單元。一些計(jì)算機(jī)系統(tǒng)(諸如高可用性存儲(chǔ)系統(tǒng))具有內(nèi)建式冗余, 其中關(guān)鍵單元被重復(fù)。關(guān)鍵單元可為諸如盤陣列、接口卡及連接線纜的單元,其中任一都可能發(fā)生故障且需要替換。在這種系統(tǒng)中,由重復(fù)單元提供的冗余可用來在替換有故障的單元時(shí)提供連續(xù)的服務(wù)。例如,若檢測(cè)到表明需要替換連接線纜的故障或錯(cuò)誤,則在執(zhí)行替換時(shí)將用戶輸入/輸出(I/O)轉(zhuǎn)向至重復(fù)單元。一旦替換單元在適當(dāng)位置,便使其可用于與用戶I/O—起使用。然而,若故障或錯(cuò)誤未被正確診斷、替換單元發(fā)生故障、或者如果一個(gè)以上單元造成故障,則故障或錯(cuò)誤可能復(fù)發(fā)。另外,若所替換的單元未校正所檢測(cè)到的故障或錯(cuò)誤,則這是因?yàn)橛脩鬒/O可能被中斷。
發(fā)明內(nèi)容
在第一方面,本發(fā)明相應(yīng)地提供一種用于在包含一個(gè)或多個(gè)可替換單元的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)中使用的方法,用于管理一個(gè)或多個(gè)替換單元的測(cè)試,所述方法包含以下步驟 a)識(shí)別存儲(chǔ)系統(tǒng)中用于替換的可替換單元,且將所述存儲(chǔ)系統(tǒng)切換至服務(wù)模式;b)響應(yīng)于用替換單元替換所述可替換單元而自動(dòng)將所述存儲(chǔ)系統(tǒng)切換至測(cè)試模式;c)根據(jù)預(yù)定測(cè)試策略測(cè)試所述替換單元,以便驗(yàn)證所述替換單元的運(yùn)行;以及d)若對(duì)所選組件的所述測(cè)試成功,則使所述存儲(chǔ)系統(tǒng)返回至在線模式。優(yōu)選地,選擇來自所述存儲(chǔ)系統(tǒng)的一個(gè)或多個(gè)另外的單元用于結(jié)合所述替換單元使用以用于測(cè)試。優(yōu)選地,選擇另外的單元用于結(jié)合所述替換單元使用以便提供合適的輸入/輸出(I/O)路徑,用于測(cè)試所述替換單元的完全操作能力。優(yōu)選地,自動(dòng)地識(shí)別和選擇所述另外的單元用于在所述測(cè)試中使用。優(yōu)選地,若在所述測(cè)試中未檢測(cè)到故障,則所述存儲(chǔ)系統(tǒng)自動(dòng)地返回至在線模式。 優(yōu)選地,若在所述測(cè)試期間檢測(cè)到預(yù)定級(jí)別的故障,則所述存儲(chǔ)系統(tǒng)自動(dòng)地返回至所述服務(wù)模式。優(yōu)選地,所述測(cè)試策略包含排他性地將測(cè)試數(shù)據(jù)發(fā)送至所述替換單元。優(yōu)選地, 所述測(cè)試策略包含將測(cè)試數(shù)據(jù)發(fā)送至所述替換單元,所述測(cè)試數(shù)據(jù)的級(jí)別被配置為對(duì)至所述替換單元的用戶數(shù)據(jù)的級(jí)別進(jìn)行補(bǔ)充,以便將預(yù)定級(jí)別的I/O提供至所述替換單元。優(yōu)選地,當(dāng)所述測(cè)試包含將數(shù)據(jù)寫入一個(gè)或多個(gè)數(shù)據(jù)存儲(chǔ)單元時(shí),將所述數(shù)據(jù)寫入存儲(chǔ)單元的保留區(qū)域。優(yōu)選地,所述存儲(chǔ)系統(tǒng)包含用于提供冗余的多個(gè)重復(fù)存儲(chǔ)系統(tǒng)。優(yōu)選地,當(dāng)給定存儲(chǔ)系統(tǒng)中的替換單元處于測(cè)試模式中時(shí),將所有用戶I/O轉(zhuǎn)向所述重復(fù)存儲(chǔ)系統(tǒng)。優(yōu)選地,所述存儲(chǔ)系統(tǒng)包含一個(gè)或多個(gè)光纖信道仲裁回路(FCAL)。在第二方面,提供了用于在包含一個(gè)或多個(gè)可替換單元的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)中使用的裝置,用于管理一個(gè)或多個(gè)替換單元的測(cè)試,所述裝置可操作來識(shí)別存儲(chǔ)系統(tǒng)中用于替換的可替換單元,并將所述存儲(chǔ)系統(tǒng)切換至服務(wù)模式;響應(yīng)于用替換單元替換所述可替換單元而自動(dòng)地將所述存儲(chǔ)系統(tǒng)切換至測(cè)試模式;根據(jù)預(yù)定測(cè)試策略測(cè)試所述替換單元, 以便驗(yàn)證所述替換單元的運(yùn)行;以及若對(duì)所選組件的所述測(cè)試成功,則使所述存儲(chǔ)系統(tǒng)返回至在線模式。優(yōu)選地,選擇來自所述存儲(chǔ)系統(tǒng)的一個(gè)或多個(gè)另外的單元用于結(jié)合所述替換單元使用以用于所述測(cè)試。優(yōu)選地,選擇所述另外的單元用于結(jié)合所述替換單元使用以便提供合適的輸入/輸出(I/O)路徑,用于測(cè)試所述替換單元的完全操作能力。優(yōu)選地,自動(dòng)地識(shí)別和選擇所述另外的單元用于在所述測(cè)試中使用。優(yōu)選地,若在所述測(cè)試中未檢測(cè)到故障,則所述存儲(chǔ)系統(tǒng)自動(dòng)地返回至所述在線模式。優(yōu)選地,若在所述測(cè)試期間檢測(cè)到預(yù)定級(jí)別的故障,則所述存儲(chǔ)系統(tǒng)自動(dòng)地返回至所述服務(wù)模式。優(yōu)選地,所述測(cè)試策略包含排他性地將測(cè)試數(shù)據(jù)發(fā)送至所述替換單元。優(yōu)選地, 所述測(cè)試策略包含將測(cè)試數(shù)據(jù)發(fā)送至所述替換單元,所述測(cè)試數(shù)據(jù)的級(jí)別被配置為對(duì)至所述替換單元的用戶數(shù)據(jù)的級(jí)別進(jìn)行補(bǔ)充,以便將預(yù)定級(jí)別的I/O提供至所述替換單元。優(yōu)選地,當(dāng)所述測(cè)試包含將數(shù)據(jù)寫入一個(gè)或多個(gè)數(shù)據(jù)存儲(chǔ)單元時(shí),將所述數(shù)據(jù)寫入存儲(chǔ)單元的保留區(qū)域。優(yōu)選地,所述存儲(chǔ)系統(tǒng)包含用于提供冗余的多個(gè)重復(fù)存儲(chǔ)系統(tǒng)。優(yōu)選地,當(dāng)給定存儲(chǔ)系統(tǒng)中的替換單元處于測(cè)試模式中時(shí),將所有用戶I/O轉(zhuǎn)向所述重復(fù)存儲(chǔ)系統(tǒng)。優(yōu)選地,所述存儲(chǔ)系統(tǒng)包含一個(gè)或多個(gè)光纖信道仲裁回路(FCAL)。在第三方面中,提供了一種含有一個(gè)或多個(gè)程序的群組,所述一個(gè)或多個(gè)程序被配置為使得含有一個(gè)或多個(gè)可編程器件的群組能夠執(zhí)行第一方面的方法,或者提供第二方面的裝置。在第四方面中,提供了一種計(jì)算機(jī)程序,其包含計(jì)算機(jī)程序代碼,當(dāng)該計(jì)算機(jī)程序代碼被加載到計(jì)算機(jī)系統(tǒng)中并在其中執(zhí)行時(shí),使得所述計(jì)算機(jī)系統(tǒng)執(zhí)行根據(jù)第一方面的方法的所有步驟??梢砸钥杉虞d到數(shù)字計(jì)算機(jī)的內(nèi)存中的計(jì)算機(jī)程序產(chǎn)品的形式提供該計(jì)算機(jī)程序,其包括當(dāng)所述產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí)執(zhí)行所述第一方面的方法的計(jì)算機(jī)代碼部分。本發(fā)明的一個(gè)實(shí)施例提供了一種用于在包含一個(gè)或多個(gè)可替換單元的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)中使用的方法,用于管理一個(gè)或多個(gè)替換單元的測(cè)試,所述方法包含以下步驟a)識(shí)別存儲(chǔ)系統(tǒng)中用于替換的可替換單元并將所述存儲(chǔ)系統(tǒng)切換至服務(wù)模式;b)響應(yīng)于用替換單元替換所述可替換單元而自動(dòng)地將所述存儲(chǔ)系統(tǒng)切換至測(cè)試模式;c)根據(jù)預(yù)定測(cè)試策略測(cè)試所述替換單元,以便驗(yàn)證所述替換單元的運(yùn)行;以及d)若對(duì)所選組件的測(cè)試成功,則使所述存儲(chǔ)系統(tǒng)返回在線模式。可選擇來自所述存儲(chǔ)系統(tǒng)的一個(gè)或多個(gè)另外的單元用于結(jié)合所述替換單元使用以用于測(cè)試??蛇x擇另外的單元用于結(jié)合所述替換單元使用,以便提供合適的輸入/輸出 (I/O)路徑,用于測(cè)試所述替換單元的完全操作能力。可自動(dòng)地識(shí)別和選擇所述另外的單元用于在所述測(cè)試中使用。若在所述測(cè)試中未檢測(cè)到故障,則所述存儲(chǔ)系統(tǒng)可自動(dòng)地返回至在線模式。若在所述測(cè)試期間檢測(cè)到預(yù)定級(jí)別的故障,則所述存儲(chǔ)系統(tǒng)可自動(dòng)地返回至所述服務(wù)模式。所述測(cè)試策略可包含排他性地將測(cè)試數(shù)據(jù)發(fā)送至所述替換單元。所述測(cè)試策略可包含將測(cè)試數(shù)據(jù)發(fā)送至所述替換單元,所述測(cè)試數(shù)據(jù)的級(jí)別被配置為與對(duì)至所述替換單元的用戶數(shù)據(jù)的級(jí)別進(jìn)行補(bǔ)充,以便將預(yù)定級(jí)別的I/O提供至所述替換單元。當(dāng)所述測(cè)試包含將數(shù)據(jù)寫入一個(gè)或多個(gè)數(shù)據(jù)存儲(chǔ)單元時(shí),可將所述數(shù)據(jù)寫入存儲(chǔ)單元的保留區(qū)域。所述存儲(chǔ)系統(tǒng)可包含用于提供冗余的多個(gè)重復(fù)存儲(chǔ)系統(tǒng)。當(dāng)給定存儲(chǔ)系統(tǒng)中的替換單元處于測(cè)試模式中時(shí),可將所有用戶I/O轉(zhuǎn)向所述重復(fù)存儲(chǔ)系統(tǒng)。所述存儲(chǔ)系統(tǒng)可包含一個(gè)或多個(gè)光纖信道仲裁回路(FCAL)。另一實(shí)施例提供用于在包含一個(gè)或多個(gè)可替換單元的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)中使用的裝置,用于管理一個(gè)或多個(gè)替換單元的測(cè)試,所述裝置可操作來識(shí)別存儲(chǔ)系統(tǒng)中用于替換的可替換單元并將所述存儲(chǔ)系統(tǒng)切換至服務(wù)模式;響應(yīng)于用替換單元替換所述可替換單元而自動(dòng)地將所述存儲(chǔ)系統(tǒng)切換至測(cè)試模式;根據(jù)預(yù)定測(cè)試策略測(cè)試所述替換單元,以便驗(yàn)證所述替換單元的運(yùn)行;以及若對(duì)所選組件的所述測(cè)試成功,則使所述存儲(chǔ)系統(tǒng)返回至在線模式。再一實(shí)施例提供提供了一種含有一個(gè)或多個(gè)程序的群組,所述一個(gè)或多個(gè)程序被配置為使得含有一個(gè)或多個(gè)可編程器件的群組能夠執(zhí)行用于在包含一個(gè)或多個(gè)可替換單元的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)中使用的方法,用于管理一個(gè)或多個(gè)替換單元的測(cè)試,所述方法包含以下步驟a)識(shí)別存儲(chǔ)系統(tǒng)中用于替換的可替換單元并將所述存儲(chǔ)系統(tǒng)切換至服務(wù)模式;b)響應(yīng)于用替換單元替換所述可替換單元而自動(dòng)地將所述存儲(chǔ)系統(tǒng)切換至測(cè)試模式;c)根據(jù)預(yù)定測(cè)試策略測(cè)試所述替換單元,以便驗(yàn)證所述替換單元的運(yùn)行;以及d)若對(duì)所選組件的測(cè)試成功,則使所述存儲(chǔ)系統(tǒng)返回在線模式。再一實(shí)施例提供提供了一種含有一個(gè)或多個(gè)程序的群組,所述一個(gè)或多個(gè)程序被配置為使得含有一個(gè)或多個(gè)可編程器件的群組能夠提供用于在包含一個(gè)或多個(gè)可替換單元的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)中使用的裝置,用于管理一個(gè)或多個(gè)替換單元的測(cè)試,所述裝置可操作來識(shí)別存儲(chǔ)系統(tǒng)中用于替換的可替換單元并將所述存儲(chǔ)系統(tǒng)切換至服務(wù)模式;響應(yīng)于用替換單元替換所述可替換單元而自動(dòng)地將所述存儲(chǔ)系統(tǒng)切換至測(cè)試模式;根據(jù)預(yù)定測(cè)試策略測(cè)試所述替換單元,以便驗(yàn)證所述替換單元的運(yùn)行;以及若對(duì)所選組件的所述測(cè)試成功,則使所述存儲(chǔ)系統(tǒng)返回至在線模式。再一實(shí)施例提供一種可加載至數(shù)字計(jì)算機(jī)的內(nèi)存中的計(jì)算機(jī)程序產(chǎn)品,其包含軟件代碼部分,當(dāng)所述產(chǎn)品在計(jì)算機(jī)上運(yùn)行時(shí),所述軟件代碼部分執(zhí)行用于在包含一個(gè)或多個(gè)可替換單元的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)中使用的方法,用于管理一個(gè)或多個(gè)替換單元的測(cè)試, 所述方法包含以下步驟
a)識(shí)別存儲(chǔ)系統(tǒng)中用于替換的可替換單元并將所述存儲(chǔ)系統(tǒng)切換至服務(wù)模式;b)響應(yīng)于用替換單元替換所述可替換單元而自動(dòng)地將所述存儲(chǔ)系統(tǒng)切換至測(cè)試模式;c)根據(jù)預(yù)定測(cè)試策略測(cè)試所述替換單元,以便驗(yàn)證所述替換單元的運(yùn)行;以及d)若對(duì)所選組件的測(cè)試成功,則使所述存儲(chǔ)系統(tǒng)返回在線模式。
現(xiàn)在將參照附圖通過示例說明本發(fā)明的實(shí)施例,其中圖1為包含計(jì)算機(jī)化存儲(chǔ)系統(tǒng)的計(jì)算機(jī)網(wǎng)絡(luò)的示意圖;圖2為更詳細(xì)地展示圖1的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)的示意圖;圖3a為說明圖2的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)內(nèi)的單元的連接的表;圖北為說明用于圖2的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)的測(cè)試策略的表;圖4為說明由圖2的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)執(zhí)行的處理的流程圖;及圖5為說明由圖2的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)執(zhí)行的進(jìn)一步處理的流程圖。
具體實(shí)施例方式
參照?qǐng)D1,計(jì)算機(jī)系統(tǒng)包含加載有存儲(chǔ)服務(wù)器應(yīng)用程序103且連接至存儲(chǔ)系統(tǒng)104 的第一計(jì)算機(jī)102。第一計(jì)算機(jī)102經(jīng)由局域網(wǎng)(LAN) 106形式的網(wǎng)絡(luò)而連接至兩個(gè)第二計(jì)算機(jī)105。所述第二計(jì)算機(jī)105各自加載有數(shù)據(jù)處理應(yīng)用程序107,該數(shù)據(jù)處理應(yīng)用程序 107被配置為經(jīng)由該存儲(chǔ)服務(wù)器103存儲(chǔ)和訪問該存儲(chǔ)系統(tǒng)104上的數(shù)據(jù)。換言之,數(shù)據(jù)處理應(yīng)用程序107將用戶輸入/輸出(I/O)提供至存儲(chǔ)服務(wù)器103及存儲(chǔ)系統(tǒng)104。參照?qǐng)D2,存儲(chǔ)服務(wù)器應(yīng)用程序103包含配置為提供用戶接口和處理用戶I/O的存儲(chǔ)控制器201 ;以及配置為合作地管理對(duì)存儲(chǔ)系統(tǒng)104的提供、服務(wù)及測(cè)試的重復(fù)存儲(chǔ)適配器202、203,如下文更詳細(xì)地描述。存儲(chǔ)系統(tǒng)104包含三個(gè)盤陣列204、205、206,所述盤陣列204、205、206各自包含四個(gè)盤207及兩個(gè)接口卡208、209。每個(gè)接口卡208、209提供用于連接至適配器202、203的連接端口。提供一組鏈路210、211用于將適配器202、203中的每一個(gè)以串聯(lián)方式連接至每個(gè)盤陣列204、205、206的兩個(gè)接口卡208、209。在圖2中,為了清楚起見,省略了對(duì)一些重復(fù)項(xiàng)(諸如鏈路210、211)的每次出現(xiàn)的標(biāo)記。多個(gè)重復(fù)適配器202、203、鏈路210、211、盤207及接口卡208、209的提供對(duì)存儲(chǔ)系統(tǒng)104提供了多重冗余。在本實(shí)施例中,將每個(gè)單元207、208、209、210、211重復(fù)至少一次,以便通過事實(shí)上提供兩個(gè)重復(fù)存儲(chǔ)系統(tǒng)來提供冗余。存儲(chǔ)控制器201被配置為使用重復(fù)存儲(chǔ)系統(tǒng)來提供高可用性,這是因?yàn)椋粢粋€(gè)重復(fù)存儲(chǔ)系統(tǒng)離線,則它的重復(fù)存儲(chǔ)系統(tǒng)被配置來提供所需服務(wù)。在本實(shí)施例中,多個(gè)鏈路210、211、盤207及接口卡208、209中的每一者被提供為可單獨(dú)地替換的相異單元,其通常被稱為現(xiàn)場(chǎng)可替換單元(FRU)。存儲(chǔ)控制器201包含用以檢測(cè)鏈路210、211、盤207及接口卡208、209中的故障及錯(cuò)誤的范圍的功能,且一旦檢測(cè)到便警告工程師。為了替換有故障的FRU,使相關(guān)重復(fù)存儲(chǔ)系統(tǒng)從在線模式進(jìn)入服務(wù)模式,其中通過該冗余重復(fù)存儲(chǔ)系統(tǒng)維持可用性。在本實(shí)施例中,當(dāng)給定的重復(fù)存儲(chǔ)系統(tǒng)處于服務(wù)模式中時(shí),將所有用戶I/O轉(zhuǎn)向至該冗余的重復(fù)存儲(chǔ)系統(tǒng)。在各個(gè)存儲(chǔ)適配器202、203之間合作地執(zhí)行在線或服務(wù)模式的切換,以便確保兩者不同時(shí)處于服務(wù)模式中,由此維持可用性。在本實(shí)施例中,存儲(chǔ)適配器202、203被配置為具有測(cè)試模式的形式的另一模式, 該模式是服務(wù)模式與在線模式之間的中間模式。當(dāng)工程師已替換FRU且指示重復(fù)存儲(chǔ)系統(tǒng)可返回到在線模式時(shí),相關(guān)存儲(chǔ)適配器202、203被配置為自動(dòng)地將該重復(fù)存儲(chǔ)系統(tǒng)置于測(cè)試模式中。在測(cè)試模式中,對(duì)替換FRU執(zhí)行一組一個(gè)或多個(gè)預(yù)定測(cè)試,以確保其正確地運(yùn)行以及該替換已修復(fù)檢測(cè)到的故障。在本實(shí)施例中,取決于已被替換的FRU的類型而選擇測(cè)試。在本實(shí)施例中,在測(cè)試模式中,在給定重復(fù)存儲(chǔ)系統(tǒng)上準(zhǔn)許用戶I/O。然而,在各個(gè)存儲(chǔ)適配器202、203之間合作地執(zhí)行測(cè)試模式切換,以便確保兩者不同時(shí)處于測(cè)試模式中。這被配置來避免兩個(gè)系統(tǒng)同時(shí)返回到服務(wù)模式的可能性。參照?qǐng)D3a,在測(cè)試策略301中定義測(cè)試,該測(cè)試策略301針對(duì)存儲(chǔ)系統(tǒng)104中的每個(gè)FRU的類型識(shí)別適當(dāng)?shù)臏y(cè)試、以及該測(cè)試的持續(xù)時(shí)間(若可用)。例如,若被替換的FRU 為鏈路,則對(duì)替換鏈路壓力測(cè)試十分鐘。若FRU為盤,則執(zhí)行盤驗(yàn)證測(cè)試,該盤驗(yàn)證測(cè)試運(yùn)行不定的時(shí)間,直至完成或異常中止為止。在給定的重復(fù)存儲(chǔ)系統(tǒng)處于測(cè)試模式中時(shí),針對(duì)任何新的或復(fù)發(fā)的故障監(jiān)視該系統(tǒng)。若檢測(cè)到任何故障,則自動(dòng)使重復(fù)存儲(chǔ)系統(tǒng)轉(zhuǎn)到服務(wù)模式。然而,若測(cè)試完成且未檢測(cè)到故障,則自動(dòng)使重復(fù)存儲(chǔ)系統(tǒng)返回至在線模式。如上所述,參照?qǐng)D3a,對(duì)替換鏈路執(zhí)行壓力測(cè)試。壓力測(cè)試被配置為通過經(jīng)由替換后的鏈路饋送適當(dāng)級(jí)別的測(cè)試I/O且在測(cè)試時(shí)段內(nèi)監(jiān)視其性能,來測(cè)試該鏈路的最大數(shù)據(jù)速率。然而,若鏈路具有比其直接下游組件(諸如盤)大的能力,則可能需要選擇若干下游組件以提供適當(dāng)帶寬來執(zhí)行壓力測(cè)試。例如,若替換后的鏈路具有2(ib/S的最大數(shù)據(jù)速率且連接于各自具有50MB/S的最大數(shù)據(jù)速率的盤的上游,則將需要使用四個(gè)盤來吸收測(cè)試 I/O的2(ib/S形式的測(cè)試數(shù)據(jù)。參照?qǐng)D3b,每個(gè)存儲(chǔ)適配器202、203被配置為維持呈FRU連接表形式的表302,其記錄存儲(chǔ)系統(tǒng)104中的每個(gè)FRU的唯一識(shí)別符(FRU ID),連同給定FRU的類型以及直接下游單元的FRU ID。存儲(chǔ)適配器202、203被配置為使用FRU連接表302來識(shí)別在替換單元下游的、為測(cè)試I/O提供適當(dāng)目標(biāo)的單元,以便使得能夠提供適當(dāng)級(jí)別的測(cè)試I/O用于該替換單元?,F(xiàn)將參照?qǐng)D4的流程圖進(jìn)一步描述存儲(chǔ)適配器202、203響應(yīng)于由于在它們各自的重復(fù)存儲(chǔ)系統(tǒng)上檢測(cè)到故障而被置于服務(wù)模式中而執(zhí)行的處理。在步驟401處,響應(yīng)于重復(fù)存儲(chǔ)系統(tǒng)被置于服務(wù)模式中而開始處理,且處理移至步驟402,以等待有故障的FRU的替換。當(dāng)有故障的FRU已被替換時(shí),如被安裝工程師所指示,處理移至步驟403,在步驟403處, 重復(fù)存儲(chǔ)系統(tǒng)自動(dòng)進(jìn)入測(cè)試模式,且處理移至步驟404。在步驟404處,識(shí)別替換FRU的類型,且處理移至步驟405。在步驟405處,使用所識(shí)別的FRU類型根據(jù)測(cè)試策略301識(shí)別適當(dāng)測(cè)試,且處理移至步驟406。在步驟406處,執(zhí)行所識(shí)別的測(cè)試,且處理移至步驟407。在步驟407處,執(zhí)行故障監(jiān)視,且若在測(cè)試的持續(xù)時(shí)間內(nèi)未檢測(cè)到故障,則處理移至步驟408。 在步驟408處,自動(dòng)將重復(fù)存儲(chǔ)系統(tǒng)置于在線模式中,且處理結(jié)束于步驟409處。若在步驟 407處檢測(cè)到一預(yù)定組的一個(gè)或多個(gè)故障,則處理移至步驟410。在步驟410處,記載該故障或每一故障,且重復(fù)存儲(chǔ)系統(tǒng)自動(dòng)地返回至服務(wù)模式。處理接著移至步驟402,以等待另外的服務(wù)動(dòng)作,且接著如上文所描述而繼續(xù)進(jìn)行。現(xiàn)在將參照?qǐng)D5的流程圖來描述響應(yīng)于壓力測(cè)試的開始而由存儲(chǔ)適配器202、203執(zhí)行的處理。在步驟501處,響應(yīng)于在圖4的流程圖中的步驟405處對(duì)壓力測(cè)試的識(shí)別而開始處理,且處理移至步驟502。在步驟502處,根據(jù)FRU連接表302識(shí)別替換FRU的最大操作數(shù)據(jù)速率,且處理移至步驟503。在步驟503處,再次使用FRU連接表302,選擇來自重復(fù)存儲(chǔ)系統(tǒng)的一組已連接單元,以形成能夠處理或吸收在替換FRU的最大操作數(shù)據(jù)速率下的I/O的測(cè)試群組。處理接著移至步驟504,在步驟504處判定用戶I/O的當(dāng)前級(jí)別。如上所述,在本實(shí)施例中,在測(cè)試模式中,在重復(fù)存儲(chǔ)系統(tǒng)上準(zhǔn)許用戶I/O。一旦判定了用戶I/O 的級(jí)別,處理便移至步驟505。在步驟505處,計(jì)算所需要的擴(kuò)充(top-up)測(cè)試I/O的量, 即,將測(cè)得的用戶I/O擴(kuò)充至替換FRU的最大操作數(shù)據(jù)速率所需要的測(cè)試1/0,且處理移至步驟506。在步驟506處,產(chǎn)生該擴(kuò)充測(cè)試1/0,并在所規(guī)定的用于壓力測(cè)試的時(shí)段內(nèi)將該擴(kuò)充測(cè)試I/O路由到在步驟503中所選擇的單元的測(cè)試群組。一旦在所規(guī)定的時(shí)段內(nèi)已提供該測(cè)試1/0,則處理移至步驟507并結(jié)束。在本實(shí)施例中,將擴(kuò)充測(cè)試I/O發(fā)送至相關(guān)盤驅(qū)動(dòng)器的為此目的而保留的區(qū)域。 換言之,明確地將用戶I/O排除在測(cè)試I/O目標(biāo)盤驅(qū)動(dòng)器的保留區(qū)域之外,以便避免任何用戶I/O被測(cè)試I/O覆寫或破壞。當(dāng)重復(fù)存儲(chǔ)系統(tǒng)被置于測(cè)試模式中時(shí),用戶I/O的至少一部分被配置為從使用冗余重復(fù)存儲(chǔ)系統(tǒng)返回到檢查中的重復(fù)存儲(chǔ)系統(tǒng)。若識(shí)別了任何錯(cuò)誤,諸如回路的意外重組或丟失的幀,則這導(dǎo)致測(cè)試模式立即失敗以及返回到服務(wù)模式,其接著僅沿著冗余重復(fù)存儲(chǔ)系統(tǒng)重新驅(qū)動(dòng)用戶I/O。這不會(huì)對(duì)客戶訪問造成風(fēng)險(xiǎn),因?yàn)槿哂啻鎯?chǔ)系統(tǒng)仍為用于數(shù)據(jù)的良好路徑。若測(cè)試模式失敗,則可重新檢查替換FRU且執(zhí)行進(jìn)一步的修復(fù)動(dòng)作。例如,當(dāng)正修復(fù)的問題為間歇性的且不能容易地識(shí)別為單一 FRU失敗時(shí),這提高給定修復(fù)的可信度。在另一實(shí)施例中,在系統(tǒng)中未提供冗余,且在系統(tǒng)處于服務(wù)模式中時(shí)不能處理用戶I/O。在另一實(shí)施例中,提供部分冗余,即,為系統(tǒng)中的一些單元但并非所有單元提供冗余。在另一實(shí)施例中,每個(gè)FRU自身被配置為具有單獨(dú)的服務(wù)、測(cè)試及在線模式,而非整體地用于系統(tǒng)的全局模式。在另一實(shí)施例中,在處于測(cè)試模式期間在給定系統(tǒng)上不使用用戶 1/0,且若執(zhí)行壓力測(cè)試,則測(cè)試數(shù)據(jù)被配置為提供替換FRU的最大操作數(shù)據(jù)速率。如本領(lǐng)域的技術(shù)人員將理解的,替換單元可能并非對(duì)現(xiàn)有的或有故障的單元的直接替換,而可能為例如添加至系統(tǒng)以修復(fù)故障或提供額外功能的升級(jí)單元或新安裝的單元。此外,在給定服務(wù)動(dòng)作期間可替換一個(gè)以上的FRU,其可導(dǎo)致在給定測(cè)試中測(cè)試一個(gè)以上的FRU。如本領(lǐng)域的技術(shù)人員將理解的,可針對(duì)測(cè)試中的傳輸設(shè)備的類型而特別地配置測(cè)試I/O的格式。例如,可通過包含低頻地改變值的比特流的I/O模式來最好地對(duì)光纖信道仲裁回路(FCAL)系統(tǒng)加壓。本領(lǐng)域的技術(shù)人員將理解,實(shí)施本發(fā)明的一部分或全部的裝置可為具有被配置為提供本發(fā)明的實(shí)施例的一部分或全部的軟件的通用設(shè)備。該設(shè)備可為單一設(shè)備或一群設(shè)備,且該軟件可為單一程序或一組程序。此外,用來實(shí)施本發(fā)明的任何或所有軟件可經(jīng)由任何適當(dāng)?shù)膫鬏敾虼鎯?chǔ)手段加以傳遞,以使得該軟件可加載至一個(gè)或多個(gè)設(shè)備上。雖然已經(jīng)通過對(duì)本發(fā)明的實(shí)施例的描述來說明本發(fā)明,且雖然已相當(dāng)詳細(xì)地描述了所述實(shí)施例,但對(duì)本領(lǐng)域的技術(shù)人員而言,其它優(yōu)點(diǎn)及修改將顯而易見。
權(quán)利要求
1.一種用于在包含一個(gè)或多個(gè)可替換單元的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)中使用的方法,用于管理一個(gè)或多個(gè)替換單元的測(cè)試,所述方法包含以下步驟a)識(shí)別存儲(chǔ)系統(tǒng)中用于替換的可替換單元,并將所述存儲(chǔ)系統(tǒng)切換至服務(wù)模式;b)響應(yīng)于用替換單元替換所述可替換單元,自動(dòng)地將所述存儲(chǔ)系統(tǒng)切換至測(cè)試模式;c)根據(jù)預(yù)定的測(cè)試策略測(cè)試所述替換單元,以便驗(yàn)證所述替換單元的運(yùn)行;以及d)若對(duì)所選組件的測(cè)試成功,則使所述存儲(chǔ)系統(tǒng)返回至在線模式。
2.如權(quán)利要求1的方法,其中,選擇來自所述存儲(chǔ)系統(tǒng)的一個(gè)或多個(gè)另外的單元,用于結(jié)合所述替換單元使用,以用于所述測(cè)試。
3.如權(quán)利要求2的方法,其中,選擇所述另外的單元用于結(jié)合所述替換單元使用,以便提供適當(dāng)?shù)妮斎?輸出(I/O)路徑用于測(cè)試所述替換單元的完全操作能力。
4.如前述權(quán)利要求中任一項(xiàng)的方法,其中,若在所述測(cè)試中未檢測(cè)到故障,則所述存儲(chǔ)系統(tǒng)自動(dòng)地返回至所述在線模式;并且若在所述測(cè)試期間檢測(cè)到預(yù)定級(jí)別的故障,則所述存儲(chǔ)系統(tǒng)自動(dòng)地返回至所述服務(wù)模式。
5.如前述權(quán)利要求中任一項(xiàng)的方法,其中,所述測(cè)試策略包含排他性地將測(cè)試數(shù)據(jù)發(fā)送至所述替換單元。
6.如權(quán)利要求1至4中任一項(xiàng)的方法,其中,所述測(cè)試策略包含將測(cè)試數(shù)據(jù)發(fā)送至所述替換單元,所述測(cè)試數(shù)據(jù)的級(jí)別被配置為對(duì)至所述替換單元的用戶數(shù)據(jù)的級(jí)別進(jìn)行補(bǔ)充,以便將預(yù)定級(jí)別的I/O提供至所述替換單元。
7.如前述權(quán)利要求中任一項(xiàng)的方法,其中,當(dāng)所述測(cè)試包含將數(shù)據(jù)寫入至一個(gè)或多個(gè)數(shù)據(jù)存儲(chǔ)單元時(shí),將所述數(shù)據(jù)寫入所述存儲(chǔ)單元的保留區(qū)域。
8.一種用于在包含一個(gè)或多個(gè)可替換單元的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)中使用的裝置,用于管理一個(gè)或多個(gè)替換單元的測(cè)試,所述裝置可操作來 識(shí)別存儲(chǔ)系統(tǒng)中用于替換的可替換單元,并將所述存儲(chǔ)系統(tǒng)切換至服務(wù)模式;響應(yīng)于用替換單元替換所述可替換單元,自動(dòng)地將所述存儲(chǔ)系統(tǒng)切換至測(cè)試模式;根據(jù)預(yù)定測(cè)試策略測(cè)試所述替換單元,以便驗(yàn)證所述替換單元的運(yùn)行;以及若對(duì)所選組件的測(cè)試成功,則使所述存儲(chǔ)系統(tǒng)返回至在線模式。
9.如權(quán)利要求8的裝置,其中,選擇來自所述存儲(chǔ)系統(tǒng)的一個(gè)或多個(gè)另外的單元用于結(jié)合所述替換單元使用,以用于所述測(cè)試。
10.如權(quán)利要求9的裝置,其中,選擇所述另外的單元用于結(jié)合所述替換單元使用,以便提供適當(dāng)?shù)妮斎?輸出(I/O)路徑用于測(cè)試所述替換單元的完全操作能力。
11.如權(quán)利要求8至10中任一項(xiàng)的裝置,其中,若在所述測(cè)試中未檢測(cè)到故障,則所述存儲(chǔ)系統(tǒng)自動(dòng)地返回至所述在線模式;并且,若在所述測(cè)試期間檢測(cè)到預(yù)定級(jí)別的故障,則所述存儲(chǔ)系統(tǒng)自動(dòng)地返回至所述服務(wù)模式。
12.如權(quán)利要求8至11中任一項(xiàng)的裝置,其中,所述測(cè)試策略包含排他性地將測(cè)試數(shù)據(jù)發(fā)送至所述替換單元。
13.如權(quán)利要求8至11中任一項(xiàng)的裝置,其中,所述測(cè)試策略包含將測(cè)試數(shù)據(jù)發(fā)送至所述替換單元,所述測(cè)試數(shù)據(jù)的級(jí)別被配置為對(duì)與至所述替換單元的用戶數(shù)據(jù)的級(jí)別進(jìn)行補(bǔ)充,以便將預(yù)定級(jí)別的I/O提供至所述替換單元。
14.如權(quán)利要求8至13中任一項(xiàng)的裝置,其中,當(dāng)所述測(cè)試包含將數(shù)據(jù)寫入至一個(gè)或多個(gè)數(shù)據(jù)存儲(chǔ)單元時(shí),將所述數(shù)據(jù)寫入所述存儲(chǔ)單元的保留區(qū)域。
15. 一種計(jì)算機(jī)程序,其包含計(jì)算機(jī)程序代碼,當(dāng)所述計(jì)算機(jī)程序代碼被加載到計(jì)算機(jī)系統(tǒng)中并在其中執(zhí)行時(shí),使得所述計(jì)算機(jī)系統(tǒng)執(zhí)行根據(jù)權(quán)利要求1至7中的任一個(gè)的方法的所有步驟。
全文摘要
本發(fā)明公開了一種在包含一個(gè)或多個(gè)可替換單元的計(jì)算機(jī)化存儲(chǔ)系統(tǒng)中使用的方法、裝置或軟件,用于管理一個(gè)或多個(gè)替換單元的測(cè)試,其中,響應(yīng)于給定單元被替換而自動(dòng)地將該存儲(chǔ)系統(tǒng)置于測(cè)試模式中,且若測(cè)試失敗,則該存儲(chǔ)系統(tǒng)自動(dòng)恢復(fù)至服務(wù)模式。
文檔編號(hào)G06F11/27GK102171662SQ200980138802
公開日2011年8月31日 申請(qǐng)日期2009年10月1日 優(yōu)先權(quán)日2008年10月2日
發(fā)明者喬納森·I·塞特爾, 喬納森·W·L·肖特, 保羅·N·卡什曼, 羅德里克·G·穆爾, 蒂莫西·F·麥卡錫 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司