專(zhuān)利名稱(chēng)::一種具備單一系統(tǒng)映像的服務(wù)器機(jī)群系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種具備單一系統(tǒng)映像的服務(wù)器機(jī)群系統(tǒng),具體地說(shuō),涉及一種利用虛擬化技術(shù)實(shí)現(xiàn)單一系統(tǒng)映像的服務(wù)器機(jī)群系統(tǒng)。技術(shù)背景虛擬化是一個(gè)廣義的術(shù)語(yǔ),在計(jì)算機(jī)方面通常是指計(jì)算和處理在虛擬的基礎(chǔ)上而不是真實(shí)的基礎(chǔ)上運(yùn)行。虛擬化技術(shù)是指對(duì)物理資源進(jìn)行抽象的技術(shù)。虛擬化技術(shù)可在硬件和操作系統(tǒng)之間構(gòu)建一個(gè)虛擬平臺(tái),實(shí)現(xiàn)在同一個(gè)硬件平臺(tái)上構(gòu)建相互隔離的多個(gè)運(yùn)行域,每一個(gè)運(yùn)行域中都可以分別運(yùn)行自己的操作系統(tǒng)和應(yīng)用軟件。虛擬化技術(shù)起源于20世紀(jì)60年代,IBM公司在System/360計(jì)算機(jī)系統(tǒng)中首先運(yùn)用虛擬化技術(shù)實(shí)現(xiàn)了虛擬機(jī),隨著System/370等系列機(jī)的成功推廣,虛擬化技術(shù)逐漸成為大型機(jī)中必然采用的一項(xiàng)重要技術(shù),主要目的是讓更多的用戶(hù)共享昂貴的硬件資源。二十世紀(jì)八十年代,隨著集成電路技術(shù)的飛速發(fā)展,計(jì)算機(jī)硬件成本急劇降低,特別是隨著PC等微型機(jī)的廣泛使用,共享硬件資源的必要性隨之降低,關(guān)于虛擬化技術(shù)的研究和開(kāi)發(fā)工作幾近停頓。二十世紀(jì)九十年代末以來(lái),隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展以及PC和服務(wù)器性能的大幅提高,各種新的網(wǎng)絡(luò)應(yīng)用不斷涌現(xiàn),同時(shí)也伴隨著出現(xiàn)很多新的問(wèn)題,如,安全性問(wèn)題、可用性問(wèn)題、提高服務(wù)器和PC機(jī)的資源利用率問(wèn)題等。為了解決這些問(wèn)題,虛擬化技術(shù)再次被使用,虛擬機(jī)及虛擬化技術(shù)又成為當(dāng)今計(jì)算機(jī)界一個(gè)重要的研究熱點(diǎn)。當(dāng)今的虛擬化技術(shù)研究的重點(diǎn)是基于ISA(指令集系統(tǒng)結(jié)構(gòu))虛擬化構(gòu)建虛擬機(jī)監(jiān)視器VMM(VirtualMachineMonitor)。按照實(shí)現(xiàn)方式不同可以分為全虛擬化技術(shù)和半虛擬化技術(shù),全虛擬化是完全模擬客戶(hù)軟件運(yùn)行所需要的硬件環(huán)境,客戶(hù)操作系統(tǒng)和應(yīng)用軟件可以不經(jīng)修改地運(yùn)行在虛擬環(huán)境中;半虛擬化是為客戶(hù)軟件模擬一個(gè)和物理環(huán)境不完全相同的虛擬硬件環(huán)境,需要修改客戶(hù)操作系統(tǒng),使之與VMM相互協(xié)作,共同完成執(zhí)行客戶(hù)軟件的任務(wù)。虛擬化技術(shù)可以通過(guò)兩個(gè)方向來(lái)抽象物理資源一個(gè)方向是"分",即把一個(gè)物理的計(jì)算機(jī)虛擬成若干個(gè)獨(dú)立的邏輯計(jì)算機(jī);另一個(gè)方向是"合",就是把若干個(gè)分散的物理計(jì)算機(jī)虛擬為一個(gè)大的邏輯計(jì)算機(jī)。當(dāng)前虛擬化技術(shù)研究主要集中于服務(wù)器虛擬化(ServerVirtualization)。服務(wù)器虛擬化主要是解決服務(wù)器系統(tǒng)的整體效能及資源利用率問(wèn)題。目前,服務(wù)器虛擬化研究的熱點(diǎn)是位于操作系統(tǒng)之下監(jiān)控器層面的虛擬化技術(shù)VirtualMachineMonitor(簡(jiǎn)稱(chēng)VMM,也稱(chēng)Hypervisor)。虛擬4支術(shù)可在石更件和摔:作系統(tǒng)之間構(gòu)建一個(gè)虛擬平臺(tái),實(shí)現(xiàn)一個(gè)硬件平臺(tái)上構(gòu)建相互隔離的運(yùn)行域,每一個(gè)運(yùn)行域中都可以分別運(yùn)行自己的操作系統(tǒng)和應(yīng)用軟件。虛擬化的核心是構(gòu)建虛擬機(jī),并將本來(lái)直接運(yùn)行于實(shí)際硬件平臺(tái)的操作系統(tǒng)放在虛擬機(jī)中運(yùn)行,這樣的操作系統(tǒng)稱(chēng)為Guest操作系統(tǒng),其中原本可直接運(yùn)行的某些操作通過(guò)虛擬層來(lái)運(yùn)行。以VMware虛擬x86指令為例,將其分為(1)非敏感(non-sensitive)且是非特權(quán)(non-priviledged)的指令直接在物理處理機(jī)上運(yùn)行。(2)敏感(sensitive)且是特權(quán)(priviledged)的指令陷入(trap)。(3)敏感(sensitive)但卻是非特權(quán)(non-priviledged)的指令(在x86中有17條這樣的指令)由VMM監(jiān)測(cè)。虛擬化的關(guān)鍵問(wèn)題是如何處理Guest操作系統(tǒng)中的敏感指令。不同的虛擬化方法采取不同的處理方式,目前廣泛研究和使用的有三種方法全虛擬化(Full-Virtualization)方法該方法提供了物理硬件的完整模擬,采用軟件模擬技術(shù)處理敏感指令,在虛擬層中完整地構(gòu)造一個(gè)和物理硬件相當(dāng)?shù)沫h(huán)境,Guest操:作系統(tǒng)可以不加任何f務(wù)改地運(yùn)行于虛擬環(huán)境中。該方法的優(yōu)點(diǎn)是很明顯的,即Guest操作系統(tǒng)可以不加任何fl^改地在虛擬機(jī)上直接運(yùn)行,同時(shí)也具有很好的靈活性和擴(kuò)展性。然而這種技術(shù)的缺陷也很明顯,最大的問(wèn)題就是每條特權(quán)指令的執(zhí)行都要引起用戶(hù)模式與特權(quán)模式的切換,導(dǎo)致虛擬機(jī)的運(yùn)行效率很低。典型的服務(wù)器虛擬化系統(tǒng)VMwareESXServer和IBMsystem/370都采用了全虛擬化方法。部分虛擬化(Para-Visualization)方法該方法通過(guò)l'務(wù)改Guest源代碼中涉及到的敏感指令,用超級(jí)調(diào)用(hypercall)來(lái)代替特權(quán)指令,讓盡可能多的指令直接運(yùn)行在物理處理器上。典型的服務(wù)器虛擬化系統(tǒng)Xen成功地使用了部分虛擬化方法。Xen通過(guò)用超級(jí)調(diào)用來(lái)"包裝"多條特權(quán)指令的執(zhí)行,Guest操作系統(tǒng)通過(guò)超級(jí)調(diào)用讓VMM執(zhí)行特權(quán)指令,這樣就可以減少模式切換,提高執(zhí)行效率。這個(gè)方法的效率可達(dá)到非虛擬化的常規(guī)執(zhí)行效率的90%以上,但是,為之付出的代價(jià)也很大,需對(duì)Guest操作系統(tǒng)代碼進(jìn)行相當(dāng)大范圍的修改,移植成本較高,而且隨著Guest操作系統(tǒng)的升級(jí),其維護(hù)成本也很高。此外,將新處理器特性集成到hypervisorAPI的代價(jià)也比完全虛擬化方法要大得多。預(yù)虛擬化(Pre-Virtualization)方法德國(guó)Karlsruhe大學(xué)、澳大利亞新南威爾士大學(xué)和IBM共同提出了預(yù)虛擬化方法。這是一種提供工具支持的半自動(dòng)Guest系統(tǒng)構(gòu)造方法,利用匯編器的支持,對(duì)Guest系統(tǒng)的代碼進(jìn)行掃描,將其中的部分特權(quán)指令進(jìn)行靜態(tài)替換,對(duì)無(wú)法靜態(tài)處理的指令采用profile方法動(dòng)態(tài)地尋找并手工替換。這個(gè)方法的指導(dǎo)思想是采用編譯工具支持,盡可能地增加可以直接執(zhí)行的指令,減少需要模擬的指令。采用這個(gè)方法基于微內(nèi)核操作系統(tǒng)L4或者開(kāi)源Linux構(gòu)造虛擬機(jī),可以運(yùn)行經(jīng)過(guò)靜態(tài)翻譯和人工修改的LinuxGuestOS,其運(yùn)行效率也可達(dá)到非虛擬化的常規(guī)i丸行效率的90%以上。該方法中Guest代碼需要人工干預(yù)的匯編級(jí)半自動(dòng)掃描和替換修改,也就是說(shuō)依然需要獲得源代碼,至少是匯編代碼。硬件虛擬化技術(shù)隨著虛擬化技術(shù)研究的蓬勃興起和虛擬機(jī)應(yīng)用的快速普及,為了占領(lǐng)此
技術(shù)領(lǐng)域:
的優(yōu)勢(shì)地位,兩大處理器廠商Intel和AMD針對(duì)IA-32體系架構(gòu)的處理器進(jìn)行了擴(kuò)展,從硬件上支持虛擬化技術(shù)。Intel針對(duì)IA-32架構(gòu)的硬件虛擬化技術(shù)稱(chēng)為VT-x(VirtualTechnology),AMD針對(duì)IA-32架構(gòu)的硬件虛擬化4支術(shù)稱(chēng)為SVM(SafeVirtualMachine)。以Intel的VT-x為例,它對(duì)IA32體系結(jié)構(gòu)進(jìn)行了如下擴(kuò)展。1、增加了一種新的處理器工作沖莫式,稱(chēng)為VMX(VirtualMachineExtensions)模式,用于運(yùn)行虛擬機(jī)系統(tǒng)。其中又分為兩個(gè)子才喿作模式,即VMX根(root)操作模式和VMX非根(notroot)操作模式,VMX根操作模式用于運(yùn)行VMM,VMX非根操作模式用于運(yùn)行虛擬機(jī)VM,這兩種模式都能夠支持四個(gè)特權(quán)級(jí)(ring0-ring3)。2、定義了兩種模式切換。由根模式進(jìn)入非根模式的切換,稱(chēng)為VMentry;由非才M莫式進(jìn)入根模式的切換,稱(chēng)為VMexit。3、增加一個(gè)控制結(jié)構(gòu)VMCS(VirtualMachineControlStructure),用于保存根模式和非根模式的上下文、控制虛擬機(jī)運(yùn)行的相關(guān)信息以及控制VMentry和VMexit過(guò)程的相關(guān)信息。4、增加IO條用于控制虛擬機(jī)的新指令。通過(guò)配置VMCS可以實(shí)現(xiàn)所需的虛擬化策略,使得客戶(hù)軟件在執(zhí)行敏感指令或發(fā)生異常時(shí)能夠切換到VMM,由VMM根據(jù)退出原因相應(yīng)地做出處理。在VT-x技術(shù)支持下,可以簡(jiǎn)化VMM的設(shè)計(jì),可以在不^f吏用二進(jìn)制動(dòng)態(tài)翻譯技術(shù)的情況下,實(shí)現(xiàn)全虛擬化,即客戶(hù)操作系統(tǒng)和應(yīng)用軟件可以不經(jīng)修改地運(yùn)行于虛擬機(jī)中。單一系統(tǒng)映像,即SSI(SingleSystemImage),就是使用軟件或硬件的方式給用戶(hù)造成一種幻覺(jué),-使多個(gè)計(jì)算元素統(tǒng)一為單一計(jì)算資源。換句話說(shuō),即使用戶(hù)實(shí)際上面對(duì)的是一個(gè)分布式環(huán)境,但整個(gè)系統(tǒng)給用戶(hù)的感覺(jué)并不是一個(gè)分布式環(huán)境,用戶(hù)在使用這個(gè)系統(tǒng)時(shí),他感覺(jué)不到系統(tǒng)中分布資源的存在,而是覺(jué)得自己正在使用一臺(tái)獨(dú)立的PC或工作站,只不過(guò)臺(tái)獨(dú)立的Pc或工作站的功能要強(qiáng)大得多。一般來(lái)說(shuō),單一系統(tǒng)映像具有以下幾個(gè)特性1、單一系統(tǒng)。從用戶(hù)視圖來(lái)看,系統(tǒng)是一個(gè)具有多個(gè)CPU的單個(gè)系統(tǒng),是一個(gè)整體的概念。2、單點(diǎn)控制。用戶(hù)在使用系統(tǒng)時(shí),通過(guò)單一的接口從同一點(diǎn)獲取服務(wù);系統(tǒng)管理員在對(duì)系統(tǒng)進(jìn)行管理和控制時(shí),也是通過(guò)單一的接口向整個(gè)系統(tǒng)發(fā)送控制信息的。3、對(duì)稱(chēng)性。用戶(hù)可以在不同的結(jié)點(diǎn)獲得相同的服務(wù),也就是說(shuō),整個(gè)系統(tǒng)對(duì)用戶(hù)而言是對(duì)稱(chēng)的。4、位置透明性。在系統(tǒng)中,提供服務(wù)的物理設(shè)備位置對(duì)于用戶(hù)是透明的。目前,為分布式系統(tǒng)提供單一系統(tǒng)映像支持方面的研究已經(jīng)成為當(dāng)前并行計(jì)算機(jī)研究領(lǐng)域的一個(gè)重點(diǎn)方向。通過(guò)以單一系統(tǒng)映l象實(shí)現(xiàn)的層次為標(biāo)準(zhǔn)可將現(xiàn)有的代表系統(tǒng)分為以下三類(lèi)。1、在操作系統(tǒng)級(jí)實(shí)現(xiàn)單一系統(tǒng)映像有些系統(tǒng)的實(shí)現(xiàn)是在操作系統(tǒng)級(jí)進(jìn)行的,通??梢圆捎眯薷囊延械霓飨到y(tǒng)源代碼的方式,將單一系統(tǒng)映像的實(shí)現(xiàn)特征和內(nèi)容加入到現(xiàn)有操作系統(tǒng)的內(nèi)核中去,或者采用直接實(shí)現(xiàn)一個(gè)新的單映傳4喿作系統(tǒng)內(nèi)核的方式來(lái)實(shí)現(xiàn)單一系統(tǒng)映像。在這一級(jí)別實(shí)現(xiàn)的代表系統(tǒng)有SolarisMC、SCONSCUnixWare等。2、在中間件級(jí)(Middleware)實(shí)現(xiàn)單一系統(tǒng)映像在操作系統(tǒng)和應(yīng)用程序之間附加一個(gè)單一系統(tǒng)映像層,由這一層來(lái)實(shí)現(xiàn)各種單一系統(tǒng)映像的功能。這是目前最為普遍的一種實(shí)現(xiàn)方式,典型的系統(tǒng)有Berkeley大學(xué)的GLUnix系統(tǒng)以及一些針對(duì)單地址空間的虛共享系統(tǒng),如TreadMark,Condor等。3、在應(yīng)用級(jí)實(shí)現(xiàn)單一系統(tǒng)映傳_這種實(shí)現(xiàn)方式是直接面向應(yīng)用程序的??梢圆捎迷趹?yīng)用程序中加入一些單系統(tǒng)映像的特征和擴(kuò)展,以達(dá)到用戶(hù)對(duì)應(yīng)用程序的需求,但是以這種方式實(shí)現(xiàn)單一系統(tǒng)映像時(shí),底層的分布集群環(huán)境對(duì)程序員來(lái)說(shuō)并非完全透明。這種方式的典型代表是并行數(shù)據(jù)庫(kù)軟件如ParallelOracle和并行系統(tǒng)管理軟件如PARMON等。要完整地實(shí)現(xiàn)一個(gè)單一系統(tǒng)映像系統(tǒng),具體內(nèi)容很多,其中比較重要的方面包括1、單入口點(diǎn)在支持單一系統(tǒng)映像的并行計(jì)算機(jī)系統(tǒng)中,一般有多個(gè)物理主機(jī)結(jié)點(diǎn)提供完全相同的登錄服務(wù);另外,一般都使用某種策略來(lái)平衡各登錄點(diǎn)的負(fù)載。2、位置透明的全局文件系統(tǒng)各結(jié)點(diǎn)的局部磁盤(pán)和文件系統(tǒng)集成為統(tǒng)一的文件映像,用戶(hù)從任意結(jié)點(diǎn)可以訪問(wèn)分布在不同結(jié)點(diǎn)的文件系統(tǒng),并且全局文件系統(tǒng)具有位置透明性。3、單點(diǎn)控制系統(tǒng)管理員可以從任何一個(gè)結(jié)點(diǎn)登錄,通過(guò)單一的控制點(diǎn)配置、監(jiān)測(cè)和管理整個(gè)系統(tǒng)。4、單網(wǎng)絡(luò)從任何一個(gè)結(jié)點(diǎn)都可以使用分布在不同結(jié)點(diǎn)的網(wǎng)絡(luò)設(shè)備。5、單1/0從任何一個(gè)結(jié)點(diǎn)都可以使用分布在不同結(jié)點(diǎn)的I/O設(shè)備。6、單一進(jìn)程空間運(yùn)行在整個(gè)系統(tǒng)中的進(jìn)程都具有全局進(jìn)程標(biāo)識(shí),由虛擬的進(jìn)程對(duì)象進(jìn)行全局控制,并且應(yīng)該具有一套一致性進(jìn)程轉(zhuǎn)移機(jī)制,包括進(jìn)程的創(chuàng)建、遷移、跟蹤和調(diào)度等等。7、單一存儲(chǔ)空間在單一系統(tǒng)映像系統(tǒng)中,所有結(jié)點(diǎn)的存儲(chǔ)空間在邏輯上是全局編址的,通過(guò)相應(yīng)的一致性模型和一致性協(xié)議來(lái)保證和維護(hù)各個(gè)結(jié)點(diǎn)地址空間的一致性,同時(shí),單一存儲(chǔ)空間為程序員提供了基于共享變量的用戶(hù)編程接口,體現(xiàn)了相對(duì)于基于消息傳遞的編程模型的優(yōu)越性。以上這些內(nèi)容如果根據(jù)實(shí)現(xiàn)難易程度可分為兩類(lèi)一類(lèi)是在許多實(shí)際系統(tǒng)中已經(jīng)得到了較好支持的內(nèi)容,包括單入口、單點(diǎn)控制、單網(wǎng)絡(luò)等;另一類(lèi)是目前實(shí)現(xiàn)上還存在較大困難的內(nèi)容,包括單一存儲(chǔ)空間映像和單一進(jìn)程空間映像等。虛擬化的本質(zhì)是通過(guò)抽象物理資源使硬件結(jié)構(gòu)細(xì)節(jié)對(duì)軟件系統(tǒng)透明,實(shí)現(xiàn)軟件系統(tǒng)與硬件系統(tǒng)相隔離,單一系統(tǒng)映像的目標(biāo)是隱藏分布式硬件環(huán)境,使多結(jié)點(diǎn)系統(tǒng)呈現(xiàn)單一系統(tǒng)視圖,二者的目標(biāo)是一致的,因此,可以利用虛擬化技術(shù)實(shí)現(xiàn)單一系統(tǒng)映像。但現(xiàn)有的技術(shù)方法有的不能實(shí)現(xiàn)這個(gè)目標(biāo),有的能夠?qū)崿F(xiàn)但存在不足,如分別存在成本高、不能完全實(shí)現(xiàn)單一系統(tǒng)映像、透明性不好、靈活性差等缺陷。
發(fā)明內(nèi)容本發(fā)明需要解決的技術(shù)問(wèn)題就在于克服現(xiàn)有技術(shù)的缺陷,提供一種具備單一系統(tǒng)映像的服務(wù)器機(jī)群系統(tǒng),它基于對(duì)硬件資源的虛擬化,在操作系統(tǒng)之下實(shí)現(xiàn)了服務(wù)器機(jī)群系統(tǒng)的單一系統(tǒng)映像。它是在商用的服務(wù)器棵機(jī)上,設(shè)計(jì)、開(kāi)發(fā)并部署分布式虛擬機(jī)監(jiān)視器DVMM(DistributedVirtualMachineMonitor),通過(guò)分布式虛擬4幾監(jiān)3見(jiàn)器實(shí)現(xiàn)單個(gè)服務(wù)器結(jié)點(diǎn)的物理資源的虛擬化,通過(guò)分布式虛擬機(jī)監(jiān)視器之間的通信協(xié)作,實(shí)現(xiàn)全局資源的感知、整合、管理和調(diào)度,為上層操作系統(tǒng)呈現(xiàn)一個(gè)具有單一系統(tǒng)映^f象的cc-NUMA結(jié)構(gòu)特征的虛擬月l務(wù)器。為解決上述問(wèn)題,本發(fā)明采用如下技術(shù)方案本發(fā)明一種具備單一系統(tǒng)映像的服務(wù)器機(jī)群系統(tǒng),所述系統(tǒng)包括硬件層、分布式虛擬機(jī)監(jiān)視器層和操作系統(tǒng)層;所述硬件層包括多個(gè)結(jié)點(diǎn),所述結(jié)點(diǎn)的CPU支持硬件虛擬化,各結(jié)點(diǎn)通過(guò)高速網(wǎng)絡(luò)連接;所述分布式虛擬機(jī)監(jiān)視器層為在每個(gè)結(jié)點(diǎn)的硬件之上部署一個(gè)虛擬機(jī)監(jiān)視器,各結(jié)點(diǎn)上的虛擬機(jī)監(jiān)視器之間通過(guò)底層通信軟件、經(jīng)由高速網(wǎng)絡(luò)進(jìn)行通信;操作系統(tǒng)層為支持cc-NUMA的各類(lèi)商用操作系統(tǒng);現(xiàn)行的各類(lèi)面向cc-NUMA架構(gòu)的并行軟件可以不經(jīng)^修改地運(yùn)行于所述系統(tǒng)之上。所述結(jié)點(diǎn)為SMP服務(wù)器結(jié)點(diǎn),每個(gè)結(jié)點(diǎn)有若干個(gè)CPU,每個(gè)CPU具有若干個(gè)計(jì)算核,CPU支持硬件虛擬化。所述虛擬機(jī)監(jiān)視器由初始化模塊、eBIOS模塊、指令集系統(tǒng)虛擬化模塊、1/0虛擬化模塊、中斷虛擬化模塊、MMU虛擬化模塊、DSM模塊和通信模塊構(gòu)成所述初始化模塊是在各個(gè)結(jié)點(diǎn)上引導(dǎo)并運(yùn)行分布式虛擬機(jī)監(jiān)視器;包括加載分布式虛擬機(jī)監(jiān)視器映像;初始化基本的軟件運(yùn)行環(huán)境;初始化分布式虛擬機(jī)監(jiān)視器的各個(gè)模塊所必須的數(shù)據(jù)結(jié)構(gòu);為分布式虛擬機(jī)監(jiān)視器各個(gè)模塊構(gòu)建必要的上下文環(huán)境;加載分布式虛擬機(jī)監(jiān)視器的各個(gè)功能模塊;為引導(dǎo)客戶(hù)操作系統(tǒng)做準(zhǔn)備;所述指令集虛擬化模塊是虛擬機(jī)監(jiān)視器的入口點(diǎn)和出口點(diǎn),所述指令集虛擬化模塊可以調(diào)用通信模塊以外的所有模塊,也會(huì)被這些模塊調(diào)用;所述通信模塊是各結(jié)點(diǎn)虛擬機(jī)監(jiān)視器間協(xié)作的基礎(chǔ),該模塊調(diào)用指令集虛擬化模塊以外的所有模塊,也會(huì)被這些模塊調(diào)用;所述通信模塊將其他模塊的通信請(qǐng)求可靠、高效地送達(dá)目的結(jié)點(diǎn),同時(shí)處理其它結(jié)點(diǎn)發(fā)來(lái)的通信請(qǐng)求,根據(jù)不同的請(qǐng)求調(diào)用相應(yīng)模塊進(jìn)行服務(wù);所述eBIOS模塊僅在初始化分布式虛擬機(jī)監(jiān)視器和啟動(dòng)操作系統(tǒng)時(shí)起作用,指令集虛擬化模塊捕獲操作系統(tǒng)引導(dǎo)時(shí)的中斷調(diào)用,將信息傳遞給eBIOS,eBIOS根據(jù)請(qǐng)求信息的類(lèi)型,以傳統(tǒng)BIOS兼容的方式將整個(gè)系統(tǒng)的虛擬資源信息反饋給操作系統(tǒng),完成操作系統(tǒng)啟動(dòng)時(shí)BIOS調(diào)用的功能,eBIOS模塊通過(guò)中斷虛擬化模塊、1/0虛擬化模塊、通信模塊完成操作系統(tǒng)引導(dǎo)前BIOS所做工作,感知并生成整個(gè)系統(tǒng)的資源信息;所述I/O虛擬化模塊接受指令集虛擬化模塊的請(qǐng)求,若判別為遠(yuǎn)程I/0操作,則調(diào)用通信模塊,向遠(yuǎn)程結(jié)點(diǎn)發(fā)出1/0操作請(qǐng)求,接收遠(yuǎn)程操作結(jié)果,更新客戶(hù)系統(tǒng)狀態(tài),完成此次I/0操作;當(dāng)I/0虛擬化模塊接收到遠(yuǎn)程I/O請(qǐng)求后,對(duì)本地I/O設(shè)備進(jìn)行操作,將結(jié)果經(jīng)由通信系統(tǒng)返回至請(qǐng)求結(jié)點(diǎn);指令集虛擬化模塊調(diào)用中斷虛擬化模塊模擬操作系統(tǒng)對(duì)虛擬中斷控制器操作的結(jié)果;將外部中斷向量轉(zhuǎn)化為操作系統(tǒng)可識(shí)別的虛擬中斷向量,并向操:作系統(tǒng)注入一個(gè)虛擬中斷;所述MMU虛擬化模塊只被指令集虛擬化模塊調(diào)用,當(dāng)指令集虛擬化模塊捕獲客戶(hù)指令流中MMU相關(guān)操作,或者與MMU有關(guān)異常時(shí),調(diào)用MMU虛擬化模塊進(jìn)行處理;當(dāng)MMU虛擬化模塊發(fā)現(xiàn)客戶(hù)所請(qǐng)求的頁(yè)面不在本結(jié)點(diǎn)時(shí),調(diào)用DSM模塊進(jìn)行頁(yè)面遷移,被MMU虛擬化模塊調(diào)用時(shí),DSM模塊通過(guò)通信系統(tǒng)向遠(yuǎn)程結(jié)點(diǎn)請(qǐng)求相應(yīng)的頁(yè)面;被通信模塊調(diào)用時(shí),DSM模塊對(duì)請(qǐng)求進(jìn)行服務(wù),并通過(guò)通信系統(tǒng)發(fā)送結(jié)果。本發(fā)明基于硬件虛擬化技術(shù)實(shí)現(xiàn)SMP服務(wù)器機(jī)群的單一系統(tǒng)映像。在SMP服務(wù)器機(jī)群硬件之上構(gòu)建一層分布式虛擬機(jī)監(jiān)視器層,由分布于各結(jié)點(diǎn)之上的虛擬機(jī)監(jiān)視器組成,各虛擬機(jī)監(jiān)視器完全對(duì)稱(chēng);在分布式虛擬機(jī)監(jiān)視器之上運(yùn)行支持cc-NUMA的操作系統(tǒng);分布式虛擬機(jī)監(jiān)視器感知整個(gè)機(jī)群的物理資源并分類(lèi)整合生成全局物理資源信息,虛擬化全局物理資源,構(gòu)建全局虛擬資源信息并呈現(xiàn)給操作系統(tǒng);操作系統(tǒng)基于所感知的虛擬資源集,調(diào)度、執(zhí)行進(jìn)程,管理、分配資源,對(duì)底層的分布式虛擬機(jī)監(jiān)視器透明;分布式虛擬機(jī)監(jiān)視器截獲并代理操作系統(tǒng)執(zhí)行訪問(wèn)資源的操作,實(shí)現(xiàn)虛擬資源到物理資源的映射,操縱物理資源。這樣,保證了操作系統(tǒng)既能夠感知到機(jī)群系統(tǒng)所擁有的資源,又能夠管理和使用所感知的資源,從而隱藏了底層硬件的分布式特性,使整個(gè)機(jī)群對(duì)操作系統(tǒng)呈現(xiàn)為一臺(tái)cc-NUMA虛擬機(jī),實(shí)現(xiàn)了SMP服務(wù)器機(jī)群的單一系統(tǒng)映像。分布式虛擬機(jī)監(jiān)視器的功能是感知、整合、虛擬化底層的物理資源,將整合后的全局系統(tǒng)資源呈現(xiàn)給客戶(hù)操作系統(tǒng),截獲并代理操作系統(tǒng)執(zhí)行所有的資源訪問(wèn)操作,向操作系統(tǒng)通報(bào)中斷信息等。操作系統(tǒng)的功能是管理、分配它所感知到的全局虛擬資源,加載用戶(hù)作業(yè)運(yùn)行,處理虛擬中斷等。本發(fā)明通過(guò)分布式虛擬機(jī)監(jiān)視器和操作系統(tǒng)的配合與協(xié)作成功地實(shí)現(xiàn)了整個(gè)機(jī)群系統(tǒng)的單一系統(tǒng)映像,具有下列優(yōu)點(diǎn)1、單入口點(diǎn)因?yàn)槊總€(gè)結(jié)點(diǎn)上部署的分布式虛擬機(jī)監(jiān)視器是完全對(duì)等的,在其之上運(yùn)行的操作系統(tǒng)只有一個(gè),所以用戶(hù)無(wú)論從哪個(gè)結(jié)點(diǎn)登陸系統(tǒng)所獲得的用戶(hù)視圖是一致的,也就是說(shuō),在用戶(hù)看來(lái)整個(gè)機(jī)群就是一個(gè)系統(tǒng)環(huán)境。同理,單點(diǎn)控制得到支持。2、位置透明的全局文件系統(tǒng)由于操作系統(tǒng)是基于分布式虛擬機(jī)監(jiān)視器為其整合的全局資源來(lái)加載和運(yùn)行的,并且操作系統(tǒng)負(fù)責(zé)管理和分配全局虛擬資源,因此整個(gè)虛擬文件系統(tǒng)是由操作系統(tǒng)創(chuàng)建和管理的,也就是說(shuō)整個(gè)系統(tǒng)只有一個(gè)文件系統(tǒng),所以對(duì)用戶(hù)來(lái)說(shuō)是位置透明的。3、單一I/O空間首先,操作系統(tǒng)感知到的是全局的I/O資源;其次,才乘作系統(tǒng)負(fù)責(zé)管理和分配虛擬的I/0資源,不受分布式虛擬機(jī)監(jiān)視器的干涉;最后,操作系統(tǒng)在分布式虛擬才幾監(jiān)^L器的支持下能夠進(jìn)行跨結(jié)點(diǎn)的1/0操作,也能夠響應(yīng)跨結(jié)點(diǎn)的1/0設(shè)備中斷。因此,對(duì)于操作系統(tǒng)和用戶(hù)來(lái)說(shuō)整個(gè)系統(tǒng)的I/O空間是統(tǒng)一的。4、單一存儲(chǔ)空間首先,分布式虛擬機(jī)監(jiān)視器通過(guò)MMU虛擬化模塊、DSM模塊、指令集虛擬化模塊和通信模塊的協(xié)作,將整個(gè)機(jī)群的內(nèi)存資源整合為一個(gè)統(tǒng)一的內(nèi)存空間,并將客戶(hù)搡作系統(tǒng)負(fù)責(zé)管理和使用的內(nèi)存空間通過(guò)eBIOS模塊呈現(xiàn)給客戶(hù)操作系統(tǒng);其次,客戶(hù)操作系統(tǒng)能夠自由地管理和分配其所感知的全局虛擬內(nèi)存資源;最后,分布式虛擬機(jī)監(jiān)視器通過(guò)MMU虛擬化(影子頁(yè)表技術(shù))技術(shù)和DSM技術(shù)支持客戶(hù)操作系統(tǒng)進(jìn)行跨結(jié)點(diǎn)的內(nèi)存訪問(wèn)。所以,通過(guò)虛擬化技術(shù),整個(gè)機(jī)群呈現(xiàn)給客戶(hù)操作系統(tǒng)的是一個(gè)統(tǒng)一的存儲(chǔ)空間。5、單一進(jìn)程空間首先,分布式虛擬機(jī)監(jiān)視器通過(guò)指令集虛擬化模塊整合全局的處理器資源并呈現(xiàn)給客戶(hù)操作系統(tǒng);其次,客戶(hù)操作系統(tǒng)負(fù)責(zé)管理和分配所有的虛擬處理器資源,并基于此加載客戶(hù)進(jìn)程運(yùn)行;再次,由于所有進(jìn)程都是由客戶(hù)操作系統(tǒng)進(jìn)行管理和調(diào)度,不受分布式虛擬機(jī)監(jiān)視器的影響,所以進(jìn)程號(hào)是統(tǒng)一的;最后,進(jìn)程的指令和數(shù)據(jù)的跨機(jī)器傳輸是通過(guò)缺頁(yè)異常的方式實(shí)現(xiàn)的,也就是通過(guò)內(nèi)存一致性算法解決的。這樣,通過(guò)單一的物理地址空間來(lái)確保單一進(jìn)程空間的正確性。比如,GuestOS將某個(gè)進(jìn)程加載到另一臺(tái)物理機(jī)器上的某個(gè)CPU上運(yùn)行,該CPU的指令指針就會(huì)指向該進(jìn)程代碼段的第一條指令的地址,CPU在取指令時(shí),發(fā)現(xiàn)指令所在頁(yè)面不在本機(jī)上,則通過(guò)DSM算法將該頁(yè)面讀入本機(jī),然后進(jìn)行取指、執(zhí)行。這樣就通過(guò)內(nèi)存管理策略,透明地實(shí)現(xiàn)了進(jìn)程跨物理節(jié)點(diǎn)執(zhí)行,也就是實(shí)現(xiàn)了單一的進(jìn)程空間。本發(fā)明基于虛擬化技術(shù),通過(guò)分布式虛擬機(jī)監(jiān)視器和支持cc-NUMA架構(gòu)的客戶(hù)操作系統(tǒng)的密切配合,成功地實(shí)現(xiàn)了整個(gè)服務(wù)器機(jī)群系統(tǒng)的單一系統(tǒng)映像。具有透明性好、性能較高、應(yīng)用面廣和實(shí)現(xiàn)難度適中等優(yōu)勢(shì)。圖1為本發(fā)明所述系統(tǒng)結(jié)構(gòu)框圖。圖2為本發(fā)明所述DVMM結(jié)構(gòu)框圖。圖3為本發(fā)明所述DVMM各個(gè)模塊之間的關(guān)系框圖。具體實(shí)施方式實(shí)施例1本發(fā)明在商用的SMP服務(wù)器棵機(jī)上,設(shè)計(jì)、開(kāi)發(fā)并部署分布式虛擬才幾監(jiān)一見(jiàn)器DVMM(DistributedVirtualMachineMonitor),通過(guò)DVMM實(shí)現(xiàn)單個(gè)SMP服務(wù)器結(jié)點(diǎn)的物理資源的虛擬化,通過(guò)分布式DVMM之間的通信協(xié)作,實(shí)現(xiàn)全局資源的感知、整合、管理和調(diào)度,為上層操作系統(tǒng)呈現(xiàn)一個(gè)具有單一系統(tǒng)映像的cc-NUMA結(jié)構(gòu)特征的虛擬服務(wù)器。如圖1所示,本發(fā)明整個(gè)系統(tǒng)邏輯上分成三個(gè)層次,自下而上,分別為物理硬件層、分布式虛擬機(jī)監(jiān)視器DVMM層、操作系統(tǒng)層。各層的構(gòu)成和功能如下第一層為物理硬件層。該層可以包括若干個(gè)SMP架構(gòu)的物理服務(wù)器結(jié)點(diǎn),每個(gè)結(jié)點(diǎn)可以有若干個(gè)CPU,每個(gè)CPU可以具有若干個(gè)計(jì)算核,CPU支持硬件虛擬化(IntelVT-x);各物理結(jié)點(diǎn)通過(guò)千兆以太網(wǎng)連接(或者通過(guò)infiniband等高速網(wǎng)絡(luò)連接)。如圖1所示,本實(shí)施例系統(tǒng)中包括四個(gè)SMP架構(gòu)的物理服務(wù)器結(jié)點(diǎn),每個(gè)結(jié)點(diǎn)具有兩個(gè)CPU,每個(gè)CPU具有兩個(gè)計(jì)算核,CPU支持硬件虛擬化(IntelVT-x);每個(gè)結(jié)點(diǎn)具有4G字節(jié)的物理內(nèi)存空間,73G的SAS硬盤(pán)存儲(chǔ)器;四個(gè)結(jié)點(diǎn)通過(guò)千兆以太網(wǎng)連接起來(lái),構(gòu)成系統(tǒng)的物理硬件結(jié)構(gòu)。該層是整個(gè)系統(tǒng)的物理基礎(chǔ)。第二層是分布式虛擬機(jī)監(jiān)視器(DVMM)層,由各結(jié)點(diǎn)上的虛擬機(jī)監(jiān)視器(VMM)共同組成。在每個(gè)結(jié)點(diǎn)的硬件之上,部署一個(gè)虛擬機(jī)監(jiān)視器(VMM),通過(guò)VMM實(shí)現(xiàn)本結(jié)點(diǎn)硬件資源的虛擬化和管理;各結(jié)點(diǎn)VMM之間通過(guò)底層通信軟件,經(jīng)由千兆以太網(wǎng)進(jìn)行相互通信,實(shí)現(xiàn)各VMM之間的協(xié)作。通過(guò)各VMM之間的協(xié)作,實(shí)現(xiàn)對(duì)全局硬件資源的感知和整合,并按照搡作系統(tǒng)啟動(dòng)時(shí)所需要的信息格式進(jìn)行整合,使整個(gè)機(jī)群系統(tǒng)對(duì)操作系統(tǒng)呈現(xiàn)為具有單一系統(tǒng)映像的cc-NUMA架構(gòu)特征的虛擬服務(wù)器系統(tǒng),即,整個(gè)系統(tǒng)具有統(tǒng)一的內(nèi)存空間,統(tǒng)一的進(jìn)程空間,統(tǒng)一的控制點(diǎn)。第三層是操作系統(tǒng)層,可選用支持cc-NUMA架構(gòu)的各種操作系統(tǒng)。本實(shí)施例所述系統(tǒng)選用LINUX的支持cc-NUMA架構(gòu)的版本。操作系統(tǒng)基于DVMM所整合的系統(tǒng)資源集進(jìn)行加載和初始化,因而,操作系統(tǒng)感知到的是整個(gè)系統(tǒng)的全部硬件資源,而不是單一結(jié)點(diǎn)的硬件資源。操作系統(tǒng)以其感知的資源為基礎(chǔ),進(jìn)行進(jìn)程的調(diào)度和資源的分配與管理。通常的指令執(zhí)行和虛擬資源的分配、管理由操作系統(tǒng)負(fù)責(zé),對(duì)底層的DVMM是透明的;當(dāng)操作系統(tǒng)執(zhí)行敏感指令、出現(xiàn)中斷或異常時(shí),由硬件虛擬化機(jī)制保證系統(tǒng)控制權(quán)切換到DVMM,DVMM區(qū)分不同原因進(jìn)行針對(duì)性的處理,將結(jié)果返回給操作系統(tǒng);必要時(shí),各結(jié)點(diǎn)DVMM之間會(huì)進(jìn)行協(xié)作,共同完成任務(wù)?,F(xiàn)行的各類(lèi)面向cc-NUMA架構(gòu)的并行軟件可以不經(jīng)^修改地運(yùn)4亍于該虛擬服務(wù)器之上。如圖2所示,DVMM按照功能分成如下幾個(gè)模塊。DVMM初始化模塊該模塊的功能是在各個(gè)結(jié)點(diǎn)上引導(dǎo)并運(yùn)行DVMM。具體包括加載DVMM映像;初始化基本的軟件運(yùn)行環(huán)境;初始化DVMM的各個(gè)模塊所必須的數(shù)據(jù)結(jié)構(gòu);為DVMM各個(gè)模塊構(gòu)建必要的上下文環(huán)境;加載DVMM的各個(gè)功能模塊;為引導(dǎo)客戶(hù)操作系統(tǒng)做準(zhǔn)備。eBIOS才莫塊(extendedBasicInput/OutputSystem擴(kuò)展的基本輸入輸出系統(tǒng))該模塊的主要功能是收集、整合并向客戶(hù)操作系統(tǒng)提供整個(gè)系統(tǒng)的資源配置。eBIOS模塊在DVMM初始化階段,一方面通過(guò)本機(jī)BIOS獲得本結(jié)點(diǎn)的資源信息,另一方面通過(guò)與其它VMM之間的通信收集其它結(jié)點(diǎn)的資源信息,然后按照操作系統(tǒng)引導(dǎo)所需要的格式將所感知的全局資源信息進(jìn)行整合,并在客戶(hù)操作系統(tǒng)引導(dǎo)時(shí)依照客戶(hù)操作系統(tǒng)的請(qǐng)求呈現(xiàn)給客戶(hù)操作系統(tǒng),使得客戶(hù)操作系統(tǒng)不但可以獲得啟動(dòng)所必須的信息,同時(shí)也能感知到整個(gè)系統(tǒng)的資源。指令集系統(tǒng)(ISAInstructionSystemArchitecture)虛擬化才莫塊該模塊的功能是實(shí)現(xiàn)指令集系統(tǒng)虛擬化,并與中斷虛擬化模塊協(xié)作使客戶(hù)操作系統(tǒng)如同控制本地CPU—樣地控制分布于不同物理結(jié)點(diǎn)上的CPU,從而使客戶(hù)操作系統(tǒng)能夠管理和調(diào)度整個(gè)機(jī)群系統(tǒng)的計(jì)算資源。具體是在IntelVT-X技術(shù)的支持下,利用VT提供的陷入/返回功能在執(zhí)行客戶(hù)指令流的特定情況下觸發(fā)陷入(這些特定情況包括執(zhí)行特權(quán)指令、發(fā)生異常和發(fā)生硬件中斷),將控制權(quán)轉(zhuǎn)移至DVMM,DVMM區(qū)分陷入原因,有針對(duì)性地進(jìn)行處理后,將控制權(quán)返還客戶(hù)操作系統(tǒng),從而實(shí)現(xiàn)DVMM對(duì)客戶(hù)操作系統(tǒng)的監(jiān)視和控制。I/O虛擬化模塊(Input/Output輸入輸出系統(tǒng))該模塊的功能是使客戶(hù)操作系統(tǒng)可以感知并使用整個(gè)機(jī)群上的I/O資源。具體是通過(guò)指令集虛擬化的方式接管客戶(hù)操作系統(tǒng)的1/0操作,根據(jù)由eBIOS模塊所生成的全局I/O資源表,判別是否本地I/0操作,如果是本地I/0操作,則DVMM執(zhí)行所截獲的I/O指令,并將結(jié)果反饋給客戶(hù)操作系統(tǒng),隨后將系統(tǒng)控制權(quán)返還客戶(hù)操作系統(tǒng);如果是跨結(jié)點(diǎn)的I/0操作,貝'jDVMM將I/O指令傳至宿主結(jié)點(diǎn)(I/O設(shè)備所在結(jié)點(diǎn))的DVMM,宿主結(jié)點(diǎn)的DVMM執(zhí)行I/0指令,并將結(jié)果傳回請(qǐng)求結(jié)點(diǎn)DVMM,請(qǐng)求結(jié)點(diǎn)的DVMM將結(jié)果反饋給客戶(hù)操作系統(tǒng),隨后將系統(tǒng)控制權(quán)返還客戶(hù)操作系統(tǒng)。這樣,客戶(hù)操作系統(tǒng)就能像利用本地資源一樣利用整個(gè)機(jī)群的I/O資源。中斷虛擬化模塊該模塊的功能是實(shí)現(xiàn)中斷控制機(jī)制的虛擬化,負(fù)責(zé)以虛擬中斷的方式通知客戶(hù)操作系統(tǒng)中斷事件的到達(dá)。是實(shí)現(xiàn)I/O虛擬化和CPU虛擬化的基礎(chǔ)。具體是通過(guò)軟件對(duì)各種可編程中斷控制邏輯進(jìn)行模擬,一方面,該模塊截獲客戶(hù)操作系統(tǒng)對(duì)可編程中斷控制器的操作,并相應(yīng)地修改虛擬可編程中斷控制器的內(nèi)容以反映客戶(hù)操作的效果,另一方面,該才莫塊根據(jù)硬件中斷的情況,修改虛擬可編程中斷控制器的內(nèi)容以便將硬件中斷的情況呈現(xiàn)給客戶(hù)操作系統(tǒng),同時(shí),通過(guò)底層通信機(jī)制實(shí)現(xiàn)跨結(jié)點(diǎn)的中斷通知。MMU虛擬化才莫塊(MemoryManagementUnit內(nèi)存管理單元)該模塊的功能是在保證客戶(hù)線性地址到客戶(hù)物理地址映射的同時(shí),實(shí)現(xiàn)客戶(hù)線性地址到機(jī)器物理地址的映射,保證客戶(hù)操作系統(tǒng)在虛擬化的地址空間中正確地運(yùn)行。同時(shí)也是實(shí)現(xiàn)DSM(DistributedSharedMemory)的基礎(chǔ)。具體是將地址空間區(qū)分為三個(gè)層次,即客戶(hù)線性地址、物理地址和機(jī)器地址,其中,線性地址是指客戶(hù)操作系統(tǒng)尋址空間0-4G,物理地址是DVMM分配給客戶(hù)操作系統(tǒng)使用的物理內(nèi)存的編址,機(jī)器地址是真實(shí)的物理內(nèi)存的地址,也就是總線地址??蛻?hù)操作系統(tǒng)管理的頁(yè)表維護(hù)線性地址到物理地址的映射,但這只是形式上的,不是真正的操作地址;DVMM維護(hù)一個(gè)與客戶(hù)頁(yè)表保持一致的頁(yè)表,稱(chēng)為客戶(hù)頁(yè)表的影子頁(yè)表,影子頁(yè)表中維護(hù)客戶(hù)線性地址到機(jī)器地址的映射,這才是真正的用于機(jī)器尋址的頁(yè)表;DVMM通過(guò)截獲缺頁(yè)故障、TLB刷新等操作,維持影子頁(yè)表與客戶(hù)頁(yè)表的一致。通過(guò)影子頁(yè)表與客戶(hù)頁(yè)表的同步,也就反映了客戶(hù)操作系統(tǒng)的地址映射操作的效果。DSM模塊(DistributedSharedMemory分布式共享存儲(chǔ))該模塊的功能是在MMU虛擬化的基礎(chǔ)上實(shí)現(xiàn)透明的DSM,將整個(gè)系統(tǒng)的內(nèi)存資源整合成一個(gè)分布式共享內(nèi)存,為上層客戶(hù)操作系統(tǒng)提供一個(gè)虛擬化的單一客戶(hù)物理地址空間,客戶(hù)操作系統(tǒng)如同在本地運(yùn)行一樣地運(yùn)行于該單一客戶(hù)物理地址空間中,保證客戶(hù)操作系統(tǒng)可以充分利用整個(gè)系統(tǒng)的內(nèi)存資源。具體策略是采用IVY算法,實(shí)現(xiàn)順序一致性模型;DVMM維護(hù)物理地址到機(jī)器地址的映射表P2M表,其中包含內(nèi)存頁(yè)面所在結(jié)點(diǎn)的信息。當(dāng)客戶(hù)所要讀取的頁(yè)面在本地結(jié)點(diǎn)時(shí),直接根據(jù)影子頁(yè)表的尋址結(jié)果進(jìn)行讀寫(xiě)操作即可;當(dāng)客戶(hù)所要讀寫(xiě)的內(nèi)存頁(yè)面不在本結(jié)點(diǎn)時(shí),若為讀操作,則拷貝該頁(yè)面的一個(gè)副本到本地結(jié)點(diǎn),再?gòu)脑摳北卷?yè)面中讀取數(shù)據(jù),若為寫(xiě)操作,則將目標(biāo)頁(yè)面遷移至本結(jié)點(diǎn),將頁(yè)面的所有者更新為本結(jié)點(diǎn),使該頁(yè)面的所有副本頁(yè)面無(wú)效,然后再對(duì)目標(biāo)頁(yè)面進(jìn)行寫(xiě)操作。這樣,就既維持整個(gè)內(nèi)存系統(tǒng)的一致性,又實(shí)現(xiàn)了單一的內(nèi)存空間,4吏客戶(hù)系統(tǒng)像使用本地內(nèi)存一樣地使用外部結(jié)點(diǎn)的內(nèi)存資源。通信模塊該模塊的功能是為運(yùn)行于各個(gè)結(jié)點(diǎn)上的相互協(xié)作的各個(gè)DVMM提供低延遲、高帶寬、可靠的通信服務(wù)。具體是在無(wú)操作系統(tǒng)支持的情況下,通過(guò)底層通信軟件,實(shí)現(xiàn)DVMM之間的通信和協(xié)作。包括設(shè)計(jì)、實(shí)現(xiàn)簡(jiǎn)潔清晰的協(xié)議棧和網(wǎng)卡驅(qū)動(dòng)程序兩個(gè)部分。DVMM各個(gè)才莫塊之間的關(guān)系如圖3所示,指令集虛擬化模塊是整個(gè)DVMM系統(tǒng)的入口點(diǎn),在以下三種情況下,VT-x會(huì)中斷客戶(hù)指令流的執(zhí)行,陷入到DVMM中1、客戶(hù)執(zhí)行必須由DVMM模擬執(zhí)行才能得到預(yù)期結(jié)果的指令,這些是特權(quán)指令和敏感指令。2、客戶(hù)指令的執(zhí)行引發(fā)異常,而該異常必須由DVMM捕獲才能實(shí)現(xiàn)相應(yīng)的虛擬化策略。3、外部設(shè)備中斷產(chǎn)生,DVMM負(fù)責(zé)按照I/O虛擬化策略處理中斷。當(dāng)產(chǎn)生陷入時(shí),DVMM的指令集虛擬化模塊負(fù)責(zé)分析引發(fā)陷入的原因,并調(diào)用DVMM的其它模塊模擬相應(yīng)指令的執(zhí)行、處理異?;蛑袛嗷蛘邔?shí)現(xiàn)相應(yīng)的虛擬化策略。eBIOS模塊僅在客戶(hù)操作系統(tǒng)啟動(dòng)時(shí)起作用。指令集虛擬化模塊捕獲客戶(hù)操作系統(tǒng)在引導(dǎo)時(shí)的中斷調(diào)用,并將相應(yīng)的信息傳遞給eBIOS模塊。eBIOS模塊根據(jù)客戶(hù)操作系統(tǒng)請(qǐng)求信息的類(lèi)型,按照與傳統(tǒng)BIOS兼容的方式將整個(gè)機(jī)群的信息反饋給客戶(hù)操作系統(tǒng),完成客戶(hù)操作系統(tǒng)啟動(dòng)時(shí)BIOS調(diào)用的功能。eBIOS模塊同時(shí)通過(guò)中斷虛擬化模塊、I/O虛擬化模塊、通信模塊完成客戶(hù)操作系統(tǒng)引導(dǎo)前BIOS所做工作,感知并生成整個(gè)系統(tǒng)的資源信息,一方面用于DVMM對(duì)全局資源的虛擬化,另一方面用于確??蛻?hù)操作系統(tǒng)的順利引導(dǎo)。通信模塊是各結(jié)點(diǎn)DVMM中相同模塊之間協(xié)作的基礎(chǔ),通信模塊將本地各模塊的遠(yuǎn)程通信請(qǐng)求經(jīng)過(guò)協(xié)議棧處理后可靠、高效地送達(dá)目的結(jié)點(diǎn)。同時(shí)負(fù)責(zé)處理其它結(jié)點(diǎn)發(fā)來(lái)的通信請(qǐng)求,并根據(jù)不同的請(qǐng)求調(diào)用相應(yīng)模塊進(jìn)行服務(wù)。指令集虛擬化模塊與通信模塊都可能調(diào)用其它模塊。一般地,由指令集虛擬化模塊發(fā)起的調(diào)用都是為本地客戶(hù)指令流提供服務(wù),由通信模塊發(fā)起的調(diào)用都是為遠(yuǎn)程客戶(hù)指令流提供服務(wù)。I/O虛擬化模塊在接受到從指令集虛擬化模塊發(fā)出的請(qǐng)求后,首先判斷本次I/O是否為本地I/O,如果是則直接操縱本地外部設(shè)備完成此次請(qǐng)求;如果是遠(yuǎn)程I/0請(qǐng)求,則調(diào)用通信模塊,向遠(yuǎn)程結(jié)點(diǎn)發(fā)出1/0操作請(qǐng)求。當(dāng)1/0虛擬化模塊接收到遠(yuǎn)程I/0請(qǐng)求后,對(duì)本地I/0設(shè)備進(jìn)行操作,并將結(jié)果經(jīng)由通信系統(tǒng)返回至請(qǐng)求結(jié)點(diǎn),請(qǐng)求結(jié)點(diǎn)根據(jù)收到的操作結(jié)果,相應(yīng)地更新客戶(hù)系統(tǒng)的狀態(tài)以體現(xiàn)此次I/O操作的結(jié)果,這樣就完成一次I/0操作的模擬。中斷虛擬化模塊主要是為客戶(hù)操作系統(tǒng)提供虛擬的可編程中斷控制器服務(wù)。當(dāng)指令集虛擬化模塊發(fā)起調(diào)用時(shí),中斷虛擬化模塊要負(fù)責(zé)處理模擬客戶(hù)操作系統(tǒng)對(duì)虛擬可編程中斷控制器操作執(zhí)行的結(jié)果;將DVMM可見(jiàn)的外部中斷向量經(jīng)過(guò)相應(yīng)的可編程中斷控制器模擬例程轉(zhuǎn)化為客戶(hù)操作系統(tǒng)可識(shí)別的虛擬中斷向量,并向客戶(hù)操作系統(tǒng)注入一個(gè)虛擬的中斷。當(dāng)通信系統(tǒng)發(fā)起對(duì)中斷虛擬化模塊的調(diào)用時(shí),是為了模擬跨處理器中斷的執(zhí)行。MMU虛擬化模塊一般只由指令集虛擬化模塊調(diào)用,當(dāng)指令集虛擬化模塊捕獲客戶(hù)指令流中MMU相關(guān)操作,或者與MMU有關(guān)異常時(shí),調(diào)用MMU虛擬化模塊進(jìn)行處理。當(dāng)MMU虛擬化模塊發(fā)現(xiàn)需要實(shí)現(xiàn)分布式共享存儲(chǔ)時(shí),也就是客戶(hù)所請(qǐng)求的頁(yè)面不在本結(jié)點(diǎn)時(shí),會(huì)調(diào)用DSM模塊進(jìn)行頁(yè)面遷移。當(dāng)DSM模塊被MMU虛擬化模塊調(diào)用時(shí),DSM模塊作為請(qǐng)求發(fā)起者通過(guò)通信系統(tǒng)向遠(yuǎn)程結(jié)點(diǎn)請(qǐng)求相應(yīng)的頁(yè)面。當(dāng)DSM模塊被通信模塊調(diào)用時(shí),DSM模塊作為服務(wù)方,對(duì)DSM請(qǐng)求進(jìn)行服務(wù),并通過(guò)通信系統(tǒng)發(fā)送結(jié)果。當(dāng)不同模塊完成各自任務(wù)需要返回時(shí),會(huì)調(diào)用指令集虛擬化模塊返回客戶(hù)指令流。通過(guò)以上各才莫塊間的緊密協(xié)作,利用分步式虛擬機(jī)監(jiān)視器,在具有SMP架構(gòu)的物理服務(wù)器機(jī)群上虛擬出一個(gè)具有單一系統(tǒng)映像的cc-NUMA架構(gòu)的虛擬服務(wù)器,使支持cc-NUMA架構(gòu)的客戶(hù)操作系統(tǒng)可以不經(jīng)修改地運(yùn)行于該虛擬服務(wù)器之上。本發(fā)明整個(gè)虛擬機(jī)系統(tǒng)的工作流程分為兩個(gè)大的階段,即初始化階段和運(yùn)行階段。初始化階段包括DVMM自身的加載、運(yùn)行階段和客戶(hù)操作系統(tǒng)的加載和啟動(dòng)階段;運(yùn)行階段是指客戶(hù)操作系統(tǒng)運(yùn)行后,執(zhí)行用戶(hù)軟件的階段。(1)初始化階段開(kāi)機(jī)后,DVMM初始化模塊開(kāi)始運(yùn)行,它主要完成以下工作。①加載DVMM映像,然后進(jìn)行單結(jié)點(diǎn)的初始化工作,主要包括創(chuàng)建內(nèi)存分配表、中斷向量表(IDT)、全局描述符表(GDT);②初始化網(wǎng)卡設(shè)備和通信子系統(tǒng),加載eBIOS模塊,通過(guò)各結(jié)點(diǎn)eBIOS模塊之間的通信,感知其它結(jié)點(diǎn)的資源信息,將感知到的全局資源信息按照BIOS的常規(guī)格式進(jìn)行分類(lèi)整合,生成全局資源信息;③DVMM基于全局資源表進(jìn)行全局內(nèi)存的初始分配,進(jìn)行單結(jié)點(diǎn)處理器的初始化工作,加載MMU虛擬化模塊、DSM虛擬化模塊、I/O虛擬化模塊和中斷虛擬化模塊,完成單結(jié)點(diǎn)的啟動(dòng)和初始化;④進(jìn)行跨結(jié)點(diǎn)多CPU的初始化,建立全局中斷向量表,為客戶(hù)操作系統(tǒng)構(gòu)建全局信息表;⑤加載處理器虛擬化模塊,啟動(dòng)客戶(hù)操作系統(tǒng)。在客戶(hù)操作系統(tǒng)啟動(dòng)的過(guò)程中,eBIOS模塊負(fù)責(zé)為其提供系統(tǒng)擁有的資源信息,這樣保證客戶(hù)操作系統(tǒng)能夠感知到整個(gè)機(jī)群系統(tǒng)的資源,并能夠管理和使用這些資源,也就是說(shuō)整個(gè)機(jī)群系統(tǒng)呈現(xiàn)給客戶(hù)操作系統(tǒng)的是一個(gè)單一映4象的cc-NUMA系統(tǒng)。(2)運(yùn)行階段客戶(hù)操作系統(tǒng)基于全局資源信息啟動(dòng)以后,基于其所管理的資源進(jìn)行進(jìn)程的調(diào)度和資源分配,正常地運(yùn)行作業(yè),無(wú)需DVMM的干預(yù),也就是說(shuō),客戶(hù)軟件的運(yùn)行對(duì)DVMM是透明的。只有當(dāng)客戶(hù)執(zhí)行特權(quán)指令、出現(xiàn)異?;虬l(fā)生硬件中斷時(shí),才由硬件虛擬化機(jī)制觸發(fā)VMexit,進(jìn)入DVMM環(huán)境,DVMM分析退出的原因,調(diào)用相應(yīng)的功能模塊進(jìn)行處理,期間可能需要進(jìn)行跨結(jié)點(diǎn)DVMM之間的協(xié)作才能完成月1務(wù)。完成月l務(wù)后,DVMM通過(guò)VMentry才幾制返回客戶(hù)狀態(tài),期間有可能通過(guò)VMCS結(jié)構(gòu)向客戶(hù)操作系統(tǒng)注入中斷。此后客戶(hù)操作系統(tǒng)繼續(xù)執(zhí)行用戶(hù)作業(yè)。例如,當(dāng)客戶(hù)操作系統(tǒng)發(fā)生缺頁(yè)異常時(shí),就會(huì)引起VMexit進(jìn)入DVMM環(huán)境,DVMM通過(guò)分析退出原因獲知客戶(hù)發(fā)生了缺頁(yè)異常,接著會(huì)檢查內(nèi)部數(shù)據(jù)結(jié)構(gòu)P2M表確定請(qǐng)求的頁(yè)面是否在本結(jié)點(diǎn),分別進(jìn)行處理。如果請(qǐng)求頁(yè)在本結(jié)點(diǎn),則DVMM調(diào)用MMU虛擬化才莫塊更新客戶(hù)頁(yè)表以及由DVMM維護(hù)的與客戶(hù)頁(yè)表保持一致的"影子頁(yè)表",然后返回客戶(hù)環(huán)境繼續(xù)執(zhí)行;如果請(qǐng)求頁(yè)面在遠(yuǎn)程結(jié)點(diǎn),則MMU虛擬化纟莫塊調(diào)用DSM才莫塊,通過(guò)通信^/L制向遠(yuǎn)程結(jié)點(diǎn)的DVMM請(qǐng)求頁(yè)面,遠(yuǎn)程結(jié)點(diǎn)的DVMM收到頁(yè)面請(qǐng)求后,調(diào)用MMU虛擬化模塊和DSM模塊,經(jīng)由通信機(jī)制將請(qǐng)求頁(yè)面發(fā)送給請(qǐng)求結(jié)點(diǎn),請(qǐng)求結(jié)點(diǎn)收到所需頁(yè)面后,更新客戶(hù)頁(yè)表和"影子頁(yè)表"的映射項(xiàng),然后返回客戶(hù)環(huán)境繼續(xù)執(zhí)行。這樣就完成了一次缺頁(yè)異常的處理,也是完成了客戶(hù)操作系統(tǒng)和DVMM之間的一次交互過(guò)程。綜上所述,在系統(tǒng)運(yùn)行期間,虛擬資源的管理和分配,用戶(hù)進(jìn)程的調(diào)度、執(zhí)行由客戶(hù)操作系統(tǒng)負(fù)責(zé),客戶(hù)操作系統(tǒng)和DVMM之間的唯一交互途徑是通過(guò)VT-x所提供的VMexit和VMentry機(jī)制。通過(guò)客戶(hù)操作系統(tǒng)和DVMM之間的相互協(xié)作,實(shí)現(xiàn)了整個(gè)服務(wù)器機(jī)群系統(tǒng)的單一系統(tǒng)映像,從而在分布式的服務(wù)器機(jī)群之上可以透明地運(yùn)行支持cc-NUMA架構(gòu)的客戶(hù)操作系統(tǒng)和客戶(hù)應(yīng)用程序。DVMM與VirtualMultiprocessor牙口vNUMA比專(zhuān)交層次技術(shù)難透對(duì)性SMP結(jié)架構(gòu)度明稱(chēng)能占j、*、Multiprocessor應(yīng)用泛虛擬高差否低不支持IA-32<table>tableseeoriginaldocumentpage23</column></row><table>由表1可知,與VirtualMultiprocessor和vNUMA相比,本發(fā)明DVMM具有如下優(yōu)勢(shì)首先,DVMM支持SMP結(jié)點(diǎn),能夠?qū)崿F(xiàn)SMP服務(wù)器機(jī)群的單一系統(tǒng)映像,而VirtualMultiprocessor和vNUMA都不支持SMP結(jié)點(diǎn),因而不能夠?qū)崿F(xiàn)SMP服務(wù)器機(jī)群的單一系統(tǒng)映像;其次,DVMM利用最新的硬件虛擬化技術(shù),在硬件的支持下實(shí)現(xiàn)全虛擬化,無(wú)需修改客戶(hù)操作系統(tǒng),因而設(shè)計(jì)和實(shí)現(xiàn)難度較低,而VirtualMultiprocessor和vNUMA分別采用泛虛擬化和預(yù)虛擬化4支術(shù),都需要修改客戶(hù)操作系統(tǒng),實(shí)現(xiàn)難度高且應(yīng)用受限;再次,DVMM在硬件輔助下實(shí)現(xiàn),運(yùn)行在棵機(jī)之上,因而性能高,而VirtualMultiprocessor和vNUMA都是以純軟件方式實(shí)現(xiàn),性能較低,并且VirtualMultiprocessor實(shí)現(xiàn)在應(yīng)用層,穿越的軟件層次多,因而性能更低;最后,DVMM中的各節(jié)點(diǎn)是對(duì)稱(chēng)的,而VirtualMultiprocessor和vNUMA中的節(jié)點(diǎn)都有主次之分。此外,DVMM實(shí)現(xiàn)在系統(tǒng)軟件層而VirtualMultiprocessor實(shí)現(xiàn)在應(yīng)用層,因而DVMM在透明性方面優(yōu)于VirtualMultiprocessor;IA-32比IA64應(yīng)用廣泛,因而DVMM比vNUMA具有更廣的應(yīng)用前景和更高的實(shí)用價(jià)值。最后應(yīng)說(shuō)明的是以上實(shí)施例僅用以說(shuō)明本發(fā)明而并非限制本發(fā)明所描述的技術(shù)方案;因此,盡管本說(shuō)明書(shū)參照上述的各個(gè)實(shí)施例對(duì)本發(fā)明已進(jìn)行了詳細(xì)的說(shuō)明,但是,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,仍然可以對(duì)本發(fā)明進(jìn)行修改或等同替換;而一切不脫離本發(fā)明的精神和范圍的技術(shù)方案及其改進(jìn),均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍中。權(quán)利要求1、一種具備單一系統(tǒng)映像的服務(wù)器機(jī)群系統(tǒng),其特征在于所述系統(tǒng)包括硬件層、分布式虛擬機(jī)監(jiān)視器層和操作系統(tǒng)層;所述硬件層包括多個(gè)結(jié)點(diǎn),所述結(jié)點(diǎn)的CPU支持硬件虛擬化,各結(jié)點(diǎn)通過(guò)高速網(wǎng)絡(luò)連接;所述分布式虛擬機(jī)監(jiān)視器層為在每個(gè)結(jié)點(diǎn)的硬件之上部署一個(gè)虛擬機(jī)監(jiān)視器,各結(jié)點(diǎn)上的虛擬機(jī)監(jiān)視器之間通過(guò)底層通信軟件、經(jīng)由高速網(wǎng)絡(luò)進(jìn)行通信;操作系統(tǒng)層為支持cc-NUMA的各類(lèi)商用操作系統(tǒng);現(xiàn)行的各類(lèi)面向cc-NUMA架構(gòu)的并行軟件可以不經(jīng)修改地運(yùn)行于所述系統(tǒng)之上。2、如權(quán)利要求1所述的具備單一系統(tǒng)映像的服務(wù)器機(jī)群系統(tǒng),其特征在于所述結(jié)點(diǎn)為SMP服務(wù)器結(jié)點(diǎn),每個(gè)結(jié)點(diǎn)有若干個(gè)CPU,每個(gè)CPU具有若干個(gè)計(jì)算核,CPU支持硬件虛擬化。3、如權(quán)利要求2所述的具備單一系統(tǒng)映像的服務(wù)器機(jī)群系統(tǒng),其特征在于所述虛擬機(jī)監(jiān)視器由初始化模塊、eBIOS模塊、指令集系統(tǒng)虛擬化模塊、1/0虛擬化模塊、中斷虛擬化模塊、MMU虛擬化模塊、DSM模塊和通信模塊構(gòu)成所述初始化模塊是在各個(gè)結(jié)點(diǎn)上引導(dǎo)并運(yùn)行分布式虛擬機(jī)監(jiān)視器;包括加載分布式虛擬機(jī)監(jiān)視器映像;初始化基本的軟件運(yùn)行環(huán)境;初始化分布式虛擬機(jī)監(jiān)視器的各個(gè)模塊所必須的數(shù)據(jù)結(jié)構(gòu);為分布式虛擬機(jī)監(jiān)視器各個(gè)模塊構(gòu)建必要的上下文環(huán)境;加載分布式虛擬機(jī)監(jiān)視器的各個(gè)功能模塊;為引導(dǎo)客戶(hù)操作系統(tǒng)做準(zhǔn)備;所述指令集虛擬化模塊是虛擬機(jī)監(jiān)視器的入口點(diǎn)和出口點(diǎn),所述指令集虛擬化模塊可以調(diào)用通信模塊以外的所有模塊,也會(huì)被這些模塊調(diào)用;所述通信模塊是各結(jié)點(diǎn)虛擬機(jī)監(jiān)視器間協(xié)作的基礎(chǔ),該模塊調(diào)用指令集虛擬化模塊以外的所有模塊,也會(huì)被這些模塊調(diào)用;所述通信模塊將其他模塊的通信請(qǐng)求可靠、高效地送達(dá)目的結(jié)點(diǎn),同時(shí)處理其它結(jié)點(diǎn)發(fā)來(lái)的通信請(qǐng)求,根據(jù)不同的請(qǐng)求調(diào)用相應(yīng)模塊進(jìn)行服務(wù);所述eBIOS模塊僅在初始化分布式虛擬機(jī)監(jiān)視器和啟動(dòng)操作系統(tǒng)時(shí)起作用,指令集虛擬化模塊捕獲操作系統(tǒng)引導(dǎo)時(shí)的中斷調(diào)用,將信息傳遞給eBIOS,eBIOS根據(jù)請(qǐng)求信息的類(lèi)型,以傳統(tǒng)BIOS兼容的方式將整個(gè)系統(tǒng)的虛擬資源信息反饋給操作系統(tǒng),完成操作系統(tǒng)啟動(dòng)時(shí)BIOS調(diào)用的功能,eBIOS模塊通過(guò)中斷虛擬化模塊、I/O虛擬化模塊、通信模塊完成操作系統(tǒng)引導(dǎo)前BIOS所做工作,感知并生成整個(gè)系統(tǒng)的資源信息;所述I/O虛擬化模塊接受指令集虛擬化模塊的請(qǐng)求,若判別為遠(yuǎn)程I/0操作,則調(diào)用通信模塊,向遠(yuǎn)程結(jié)點(diǎn)發(fā)出1/0操作請(qǐng)求,接收遠(yuǎn)程操作結(jié)果,更新客戶(hù)系統(tǒng)狀態(tài),完成此次I/0操作;當(dāng)I/0虛擬化模塊接收到遠(yuǎn)程I/0請(qǐng)求后,對(duì)本地I/0設(shè)備進(jìn)行操作,將結(jié)果經(jīng)由通信系統(tǒng)返回至請(qǐng)求結(jié)點(diǎn);指令集虛擬化模塊調(diào)用中斷虛擬化模塊模擬操作系統(tǒng)對(duì)虛擬中斷控制器才喿作的結(jié)果;將外部中斷向量轉(zhuǎn)化為才喿作系統(tǒng)可識(shí)別的虛擬中斷向量,并向才喿作系統(tǒng)注入一個(gè)虛擬中斷;所述MMU虛擬化模塊只被指令集虛擬化模塊調(diào)用,當(dāng)指令集虛擬化模塊捕獲客戶(hù)指令流中MMU相關(guān)操作,或者與MMU有關(guān)異常時(shí),調(diào)用MMU虛擬化才莫塊進(jìn)^f亍處理;當(dāng)MMU虛擬化模塊發(fā)現(xiàn)客戶(hù)所請(qǐng)求的頁(yè)面不在本結(jié)點(diǎn)時(shí),調(diào)用DSM模塊進(jìn)行頁(yè)面遷移,被MMU虛擬化模塊調(diào)用時(shí),DSM模塊通過(guò)通信系統(tǒng)向遠(yuǎn)程結(jié)點(diǎn)請(qǐng)求相應(yīng)的頁(yè)面;被通信模塊調(diào)用時(shí),DSM模塊對(duì)請(qǐng)求進(jìn)行服務(wù),并通過(guò)通信系統(tǒng)發(fā)送結(jié)果。全文摘要本發(fā)明公開(kāi)了一種具備單一系統(tǒng)映像的服務(wù)器機(jī)群系統(tǒng),所述系統(tǒng)包括硬件層、分布式虛擬機(jī)監(jiān)視器層和操作系統(tǒng)層;所述硬件層包括多個(gè)結(jié)點(diǎn),所述結(jié)點(diǎn)的CPU支持硬件虛擬化,各結(jié)點(diǎn)通過(guò)高速網(wǎng)絡(luò)連接;所述分布式虛擬機(jī)監(jiān)視器層為在每個(gè)結(jié)點(diǎn)的硬件之上部署一個(gè)虛擬機(jī)監(jiān)視器,各結(jié)點(diǎn)上的虛擬機(jī)監(jiān)視器之間通過(guò)底層通信軟件、經(jīng)由高速網(wǎng)絡(luò)進(jìn)行通信;操作系統(tǒng)層為支持cc-NUMA的各類(lèi)商用操作系統(tǒng);現(xiàn)行的各類(lèi)面向cc-NUMA架構(gòu)的并行軟件可以不經(jīng)修改地運(yùn)行于所述系統(tǒng)之上。它基于對(duì)硬件資源的虛擬化,在操作系統(tǒng)之下實(shí)現(xiàn)了服務(wù)器機(jī)群系統(tǒng)的單一系統(tǒng)映像。具有透明性好、性能較高、應(yīng)用面廣和實(shí)現(xiàn)難度適中等優(yōu)勢(shì)。文檔編號(hào)G06F9/46GK101271401SQ20081009423公開(kāi)日2008年9月24日申請(qǐng)日期2008年4月23日優(yōu)先權(quán)日2008年4月23日發(fā)明者彭近兵,簫王,祝明發(fā),肖利民,翔龍申請(qǐng)人:北京航空航天大學(xué)