一種服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法
【專利摘要】本發(fā)明特別涉及一種服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法。該服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法,用以解決當(dāng)前在服務(wù)器系統(tǒng)中,當(dāng)內(nèi)存出現(xiàn)物理性故障時(shí),無法及時(shí)屏蔽該故障區(qū)域,嚴(yán)重影響系統(tǒng)的運(yùn)行穩(wěn)定性,無法實(shí)現(xiàn)真正的系統(tǒng)穩(wěn)定控制的問題。該服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法,解決了當(dāng)前在服務(wù)器系統(tǒng)中,無法及時(shí)屏蔽內(nèi)存中物理性故障區(qū)域的問題,能夠?qū)崿F(xiàn)服務(wù)器主板內(nèi)存系統(tǒng)自動(dòng)故障排查,從而保證了服務(wù)器主板內(nèi)存系統(tǒng)自動(dòng)無故障運(yùn)行,以及服務(wù)器主板內(nèi)存系統(tǒng)的可靠性、安全性設(shè)計(jì),對于服務(wù)器系統(tǒng)運(yùn)行的穩(wěn)定性具有重要意義。
【專利說明】一種服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)通信【技術(shù)領(lǐng)域】,特別涉及一種服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法。
【背景技術(shù)】
[0002]當(dāng)今的服務(wù)器主板上內(nèi)存的使用種類及數(shù)量越來越多,服務(wù)器主板的內(nèi)存系統(tǒng)的存儲(chǔ)容量空間越來越高。通用服務(wù)器主板上內(nèi)存的數(shù)量有12?24條不等,服務(wù)器主板內(nèi)存在系統(tǒng)生成前都經(jīng)過嚴(yán)格檢測,防止故障內(nèi)存帶來的系統(tǒng)問題。由于服務(wù)器主板上內(nèi)存系統(tǒng)參與系統(tǒng)的高負(fù)載運(yùn)算,并不斷的進(jìn)行數(shù)據(jù)存儲(chǔ)與提供運(yùn)算數(shù)據(jù)。因而,內(nèi)存系統(tǒng)的無故障工作直接影響到服務(wù)器系統(tǒng)的穩(wěn)定性,內(nèi)存問題會(huì)造成系統(tǒng)無法正常工作。為了保證當(dāng)前服務(wù)器主板內(nèi)存系統(tǒng)的工作穩(wěn)定性,實(shí)現(xiàn)服務(wù)器內(nèi)存系統(tǒng)的自動(dòng)故障排查與繼續(xù)有效運(yùn)行,對于服務(wù)器系統(tǒng)的正常工作起著至關(guān)重要的作用。
[0003]當(dāng)前,服務(wù)器主板的內(nèi)存系統(tǒng)穩(wěn)定性,逐漸成為影響服務(wù)器工作安全、穩(wěn)定的關(guān)鍵因素。當(dāng)前存在的問題是內(nèi)存系統(tǒng)嚴(yán)重依賴于CPU,當(dāng)CPU監(jiān)測到內(nèi)存空間出現(xiàn)問題區(qū)域時(shí),由于系統(tǒng)無法識(shí)別故障區(qū)域,會(huì)不斷將運(yùn)算數(shù)據(jù)繼續(xù)放于此處。而當(dāng)重新讀取利用該部分?jǐn)?shù)據(jù)時(shí),就會(huì)產(chǎn)生數(shù)據(jù)錯(cuò)誤的問題,甚至?xí)?dǎo)致系統(tǒng)應(yīng)用的異常退出。由于該內(nèi)存控制方式存在單向因素,很大程度上依靠內(nèi)存條自身的穩(wěn)定性,當(dāng)內(nèi)存出現(xiàn)物理性故障時(shí),無法及時(shí)屏蔽該故障區(qū)域,嚴(yán)重影響系統(tǒng)的運(yùn)行穩(wěn)定性,無法實(shí)現(xiàn)真正的穩(wěn)定控制。這種單一依靠內(nèi)存自身穩(wěn)定性的控制方式,無法實(shí)現(xiàn)服務(wù)器系統(tǒng)的質(zhì)量安全需求,系統(tǒng)可靠性較低。隨著對服務(wù)器系統(tǒng)質(zhì)量安全要求不斷增加,為了保證服務(wù)器系統(tǒng)的穩(wěn)定運(yùn)行,在實(shí)際主板的運(yùn)行過程中,如何實(shí)現(xiàn)服務(wù)器主板的內(nèi)存系統(tǒng)的高效、可靠設(shè)計(jì)尤為重要,并成為決定服務(wù)器質(zhì)量穩(wěn)定的關(guān)鍵要素之一。
[0004]FPGA(Field-ProgrammabIe Gate Array),即現(xiàn)場可編程門陣列,它是在 PAL、GAL、CPLD等可編程器件的基礎(chǔ)上進(jìn)一步發(fā)展的產(chǎn)物。它是作為專用集成電路(ASIC)領(lǐng)域中的一種半定制電路而出現(xiàn)的,既解決了定制電路的不足,又克服了原有可編程器件門電路數(shù)有限的缺點(diǎn)。
【發(fā)明內(nèi)容】
[0005]本發(fā)明為了彌補(bǔ)現(xiàn)有技術(shù)的缺陷,提供了一種靈活通用的服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法。
[0006]本發(fā)明是通過如下技術(shù)方案實(shí)現(xiàn)的:
一種服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法,其特征在于包括以下步驟:
(I)取內(nèi)置PCIE核的FPGA建立內(nèi)存空間監(jiān)控存儲(chǔ)單元,并通過PCIE總線連接到CPU的內(nèi)存控制器上;
(2 )將外置的高速FLASH芯片通過SPI總線連接到內(nèi)存空間監(jiān)控存儲(chǔ)單元,將內(nèi)存空間分配虛擬地址,虛擬地址從0X0000開始,將所有的虛擬地址存儲(chǔ)于外置的高速FLASH芯片上;
(3)服務(wù)器運(yùn)行過程中,在系統(tǒng)內(nèi)存空閑狀態(tài)下,內(nèi)存空間監(jiān)控存儲(chǔ)單元按照預(yù)設(shè)的測試數(shù)據(jù)組,啟動(dòng)內(nèi)存地址空間的讀寫正確性驗(yàn)證操作,獲取安全度較高的可用地址區(qū)域,同時(shí)獲取存在讀寫問題的地址空間區(qū)域;
(4)內(nèi)存空間監(jiān)控存儲(chǔ)單元將存在讀寫問題的地址空間區(qū)域在外置的高速FLASH芯片中標(biāo)記為不可用,同時(shí)通知系統(tǒng)驅(qū)動(dòng)不再分配此空間的數(shù)據(jù)分配;
(5)內(nèi)存空間監(jiān)控存儲(chǔ)單元向系統(tǒng)管理員提供存在讀寫問題的地址空間區(qū)域信息。
[0007]所述步驟(I)中,內(nèi)存空間監(jiān)控存儲(chǔ)單元采用PCIE2.0 X8帶寬的總線與CPU PCIE控制器相連,在系統(tǒng)啟動(dòng)階段,B1S獲取實(shí)際的內(nèi)存地址空間后,將地址空間信息通過PCIE總線一對一傳遞給內(nèi)存空間監(jiān)控存儲(chǔ)單元。
[0008]所述步驟(2)中,將實(shí)際內(nèi)存空間按照8MB的數(shù)據(jù)容量塊大小進(jìn)行子集劃分,同時(shí)將每個(gè)空間子集對應(yīng)的地址空間分配虛擬地址,將虛擬地址存儲(chǔ)于外置的高速NOR FLASH芯片,實(shí)現(xiàn)虛擬地址與實(shí)際地址的區(qū)域性對應(yīng)。
[0009]所述步驟(3)中,內(nèi)存空間監(jiān)控存儲(chǔ)單元將預(yù)定的數(shù)據(jù)寫入內(nèi)存依次寫入實(shí)際地址空間,然后再依次讀取,對于反復(fù)讀取均一致的區(qū)域,即可作為安全度較高的可用地址區(qū)域,對于讀寫數(shù)據(jù)不一致的區(qū)域,即可作為存在讀寫問題的地址空間區(qū)域。
[0010]所述步驟(4)中,內(nèi)存空間監(jiān)控存儲(chǔ)單元將存在讀寫問題的地址空間區(qū)域?qū)?yīng)的虛擬地址空間在外置的高速NOR FLASH芯片中標(biāo)記為不可用,并在系統(tǒng)驅(qū)動(dòng)的可用地址空間分配范圍中,關(guān)閉此部分空間區(qū)域;在系統(tǒng)內(nèi)存進(jìn)入工作狀態(tài)時(shí),內(nèi)存空間監(jiān)控存儲(chǔ)單元將一直工作在安全度較高的可用地址區(qū)域。
[0011]所述步驟(5)中,內(nèi)存空間監(jiān)控存儲(chǔ)單元將存在讀寫問題的地址空間區(qū)域?qū)嶋H的空間所在的通道及插槽slot等信息提供給系統(tǒng)管理員,方便快速定位故障內(nèi)存。
[0012]在系統(tǒng)有問題的內(nèi)存空間未得到更新前,系統(tǒng)每次啟動(dòng)前均會(huì)從內(nèi)存空間監(jiān)控存儲(chǔ)單元中獲取安全度較高的可用地址區(qū)域,將一直自動(dòng)標(biāo)記為不可用的地址空間區(qū)域關(guān)閉,防止系統(tǒng)程序使用此空間,以保證系統(tǒng)的高可靠性。
[0013]本發(fā)明的有益效果是:該服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法,解決了當(dāng)前在服務(wù)器系統(tǒng)中,無法及時(shí)屏蔽內(nèi)存中物理性故障區(qū)域的問題,能夠?qū)崿F(xiàn)服務(wù)器主板內(nèi)存系統(tǒng)自動(dòng)故障排查,從而保證了服務(wù)器主板內(nèi)存系統(tǒng)自動(dòng)無故障運(yùn)行,以及服務(wù)器主板內(nèi)存系統(tǒng)的可靠性、安全性設(shè)計(jì),對于服務(wù)器系統(tǒng)運(yùn)行的穩(wěn)定性具有重要意義。
【具體實(shí)施方式】
[0014]該服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法,包括以下步驟:
(I)取內(nèi)置PCIE核的FPGA建立內(nèi)存空間監(jiān)控存儲(chǔ)單元,并通過PCIE2.0 X8帶寬的總線連接到CPU PCIE的內(nèi)存控制器上;在系統(tǒng)啟動(dòng)階段,B1S獲取實(shí)際的內(nèi)存地址空間后,將地址空間信息通過PCIE總線一對一傳遞給內(nèi)存空間監(jiān)控存儲(chǔ)單元。
[0015](2)將外置的高速NOR FLASH芯片通過SPI總線連接到內(nèi)存空間監(jiān)控存儲(chǔ)單元,將內(nèi)存空間按照8MB的數(shù)據(jù)容量塊大小進(jìn)行子集劃分,同時(shí)將每個(gè)空間子集對應(yīng)的地址空間分配虛擬地址,虛擬地址從0X0000開始,將所有的虛擬地址存儲(chǔ)于外置的高速NOR FLASH芯片上,實(shí)現(xiàn)虛擬地址與實(shí)際地址的區(qū)域性對應(yīng)。
[0016](3)服務(wù)器運(yùn)行過程中,在系統(tǒng)內(nèi)存空閑狀態(tài)下,內(nèi)存空間監(jiān)控存儲(chǔ)單元按照預(yù)設(shè)的測試數(shù)據(jù)組,啟動(dòng)內(nèi)存地址空間的讀寫正確性驗(yàn)證操作;內(nèi)存空間監(jiān)控存儲(chǔ)單元將預(yù)定的數(shù)據(jù)寫入內(nèi)存依次寫入實(shí)際地址空間,然后再依次讀取,對于反復(fù)讀取均一致的區(qū)域,即為安全度較高的可用地址區(qū)域,對于讀寫數(shù)據(jù)不一致的區(qū)域,即為存在讀寫問題的地址空間區(qū)域。
[0017](4)內(nèi)存空間監(jiān)控存儲(chǔ)單元將存在讀寫問題的地址空間區(qū)域?qū)?yīng)的虛擬地址空間在外置的高速NOR FLASH芯片中標(biāo)記為不可用,并在系統(tǒng)驅(qū)動(dòng)的可用地址空間分配范圍中,關(guān)閉此部分空間區(qū)域,不再分配此空間的數(shù)據(jù)分配;在系統(tǒng)內(nèi)存進(jìn)入工作狀態(tài)時(shí),內(nèi)存空間監(jiān)控存儲(chǔ)單元將一直工作在安全度較高的可用地址區(qū)域,從而使系統(tǒng)進(jìn)入穩(wěn)定的內(nèi)存工作區(qū)域。
[0018](5)內(nèi)存空間監(jiān)控存儲(chǔ)單元將存在讀寫問題的地址空間區(qū)域?qū)嶋H的空間所在的通道及插槽slot等信息提供給系統(tǒng)管理員,方便快速定位故障內(nèi)存。
[0019]在系統(tǒng)有問題的內(nèi)存空間未得到更新前,系統(tǒng)每次啟動(dòng)前均會(huì)從內(nèi)存空間監(jiān)控存儲(chǔ)單元中獲取安全度較高的可用地址區(qū)域,將一直自動(dòng)標(biāo)記為不可用的存在讀寫問題的地址空間區(qū)域關(guān)閉,防止系統(tǒng)程序使用此空間,直到系統(tǒng)存在讀寫問題的地址空間區(qū)域得到更新,以保證系統(tǒng)的高可靠性。
【權(quán)利要求】
1.一種服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法,其特征在于包括以下步驟: (I)取內(nèi)置PCIE核的FPGA建立內(nèi)存空間監(jiān)控存儲(chǔ)單元,并通過PCIE總線連接到CPU的內(nèi)存控制器上; (2 )將外置的高速FLASH芯片通過SPI總線連接到內(nèi)存空間監(jiān)控存儲(chǔ)單元,將內(nèi)存空間分配虛擬地址,虛擬地址從OXOOOO開始,將所有的虛擬地址存儲(chǔ)于外置的高速FLASH芯片上; (3)服務(wù)器運(yùn)行過程中,在系統(tǒng)內(nèi)存空閑狀態(tài)下,內(nèi)存空間監(jiān)控存儲(chǔ)單元按照預(yù)設(shè)的測試數(shù)據(jù)組,啟動(dòng)內(nèi)存地址空間的讀寫正確性驗(yàn)證操作,獲取安全度較高的可用地址區(qū)域,同時(shí)獲取存在讀寫問題的地址空間區(qū)域; (4)內(nèi)存空間監(jiān)控存儲(chǔ)單元將存在讀寫問題的地址空間區(qū)域在外置的高速FLASH芯片中標(biāo)記為不可用,同時(shí)通知系統(tǒng)驅(qū)動(dòng)不再分配此空間的數(shù)據(jù)分配; (5)內(nèi)存空間監(jiān)控存儲(chǔ)單元向系統(tǒng)管理員提供存在讀寫問題的地址空間區(qū)域信息。
2.根據(jù)權(quán)利要求1所述的服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法,其特征在于:所述步驟(I)中,內(nèi)存空間監(jiān)控存儲(chǔ)單元采用PCIE2.0 X8帶寬的總線與CPU PCIE控制器相連,在系統(tǒng)啟動(dòng)階段,B1S獲取實(shí)際的內(nèi)存地址空間后,將地址空間信息通過PCIE總線一對一傳遞給內(nèi)存空間監(jiān)控存儲(chǔ)單元。
3.根據(jù)權(quán)利要求1所述的服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法,其特征在于:所述步驟(2)中,將實(shí)際內(nèi)存空間按照8MB的數(shù)據(jù)容量塊大小進(jìn)行子集劃分,同時(shí)將每個(gè)空間子集對應(yīng)的地址空間分配虛擬地址,將虛擬地址存儲(chǔ)于外置的高速NOR FLASH芯片,實(shí)現(xiàn)虛擬地址與實(shí)際地址的區(qū)域性對應(yīng)。
4.根據(jù)權(quán)利要求1所述的服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法,其特征在于:所述步驟(3)中,內(nèi)存空間監(jiān)控存儲(chǔ)單元將預(yù)定的數(shù)據(jù)寫入內(nèi)存依次寫入實(shí)際地址空間,然后再依次讀取,對于反復(fù)讀取均一致的區(qū)域,即可作為安全度較高的可用地址區(qū)域,對于讀寫數(shù)據(jù)不一致的區(qū)域,即可作為存在讀寫問題的地址空間區(qū)域。
5.根據(jù)權(quán)利要求1所述的服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法,其特征在于:所述步驟(4)中,內(nèi)存空間監(jiān)控存儲(chǔ)單元將存在讀寫問題的地址空間區(qū)域?qū)?yīng)的虛擬地址空間在外置的高速NOR FLASH芯片中標(biāo)記為不可用,并在系統(tǒng)驅(qū)動(dòng)的可用地址空間分配范圍中,關(guān)閉此部分空間區(qū)域;在系統(tǒng)內(nèi)存進(jìn)入工作狀態(tài)時(shí),內(nèi)存空間監(jiān)控存儲(chǔ)單元將一直工作在安全度較高的可用地址區(qū)域。
6.根據(jù)權(quán)利要求1所述的服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法,其特征在于:所述步驟(5)中,內(nèi)存空間監(jiān)控存儲(chǔ)單元將存在讀寫問題的地址空間區(qū)域?qū)嶋H的空間所在的通道及插槽slot等信息提供給系統(tǒng)管理員,方便快速定位故障內(nèi)存。
7.根據(jù)權(quán)利要求1所述的服務(wù)器主板內(nèi)存系統(tǒng)無故障運(yùn)行方法,其特征在于:在系統(tǒng)有問題的內(nèi)存空間未得到更新前,系統(tǒng)每次啟動(dòng)前均會(huì)從內(nèi)存空間監(jiān)控存儲(chǔ)單元中獲取安全度較高的可用地址區(qū)域,將一直自動(dòng)標(biāo)記為不可用的地址空間區(qū)域關(guān)閉,防止系統(tǒng)程序使用此空間,以保證系統(tǒng)的高可靠性。
【文檔編號(hào)】G06F12/02GK104391753SQ201410775234
【公開日】2015年3月4日 申請日期:2014年12月16日 優(yōu)先權(quán)日:2014年12月16日
【發(fā)明者】劉濤, 倪旭華, 宋曉鋒 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司