共享虛擬存儲(chǔ)器的制作方法

文檔序號(hào)：6596157閱讀：543來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：共享虛擬存儲(chǔ)器的制作方法
共享虛擬存儲(chǔ)器
背景技術(shù)：
這通常涉及共享虛擬存儲(chǔ)器實(shí)施方式。計(jì)算工業(yè)正在朝向多樣性的平臺(tái)體系結(jié)構(gòu)發(fā)展，該平臺(tái)體系結(jié)構(gòu)由通用CPU以及作為分離設(shè)備或集成設(shè)備而附連的可編程GPU所構(gòu)成。這些GPU通過連續(xù)或非連續(xù)互連來連接，具有不同的工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)并可使用它們自己的操作系統(tǒng)。由通用處理器(CPU)以及圖形處理器(GPU)的組合所組成的計(jì)算平臺(tái)已經(jīng)無處不在，特別是在客戶機(jī)計(jì)算空間中。如今，幾乎所有桌面和筆記本平臺(tái)都載有一個(gè)或多個(gè)CPU以及集成或分離的GPU。例如，一些平臺(tái)具有與集成圖形芯片組成對(duì)的處理器，而其余的使用通過諸如PCI-Express之類的接口連接的分離圖形處理器。一些平臺(tái)載有CPU和GPU的組合。例如，它們中的一些包括更為集成的CPU-GPU平臺(tái)，而其他的包括圖形處理器以補(bǔ)償集成GPU供給。這些CPU-GPU平臺(tái)可提供在圖形處理、醫(yī)療成像、數(shù)據(jù)挖掘、以及其他領(lǐng)域的非圖形工作負(fù)載上的極大的性能提升。大量的數(shù)據(jù)并行GPU可被用于獲取代碼的高度并行部分上的高吞吐量。多樣性的CPU-GPU平臺(tái)可具有多個(gè)獨(dú)特的體系結(jié)構(gòu)約束，諸如 GPU可以集成和分離的方式連接。例如，一些圖形處理器與芯片組集成。另一方面，其他當(dāng)前的GPU以分離方式通過諸如PCI-Express之類的接口附連。雖然硬件可提供CPU和集成圖形處理器之間的緩存一致性，但是對(duì)分離的GPU卻很難如此。系統(tǒng)也可具有混合配置，其中低功率低性能GPU與CPU集成，且具有更高性能的分離GPU。最終，平臺(tái)也可具有多個(gè)GPU卡。
CPU和GPU可具有不同的操作系統(tǒng)。例如，處理器可具有它自己的操作系統(tǒng)內(nèi)核。這意味著虛擬存儲(chǔ)器翻譯機(jī)制在CPU和GPU之間可能是不同的。相同的虛擬地址可能被通過CPU和GPU上的兩個(gè)不同的頁表被同時(shí)映射到兩個(gè)不同的物理地址。這也意味著系統(tǒng)環(huán)境(加載器、鏈接器、等等)在CPU和GPU之間可以是不同的。例如，加載器可將應(yīng)用加載在CPU和GPU上的不同基地址。
CPU和GPU可具有不同的ISA，并因此相同的代碼可能無法在兩個(gè)處理器上運(yùn)行。附圖簡(jiǎn)述圖I是根據(jù)一個(gè)實(shí)施例的CPU-GPU存儲(chǔ)器模型的圖示。圖2是用于增加了所有權(quán)權(quán)限的共享存儲(chǔ)器模型的一個(gè)實(shí)施例的流程圖。圖3是共享存儲(chǔ)器模型的一個(gè)實(shí)施例的流程圖。圖4是利用PCI開口的共享存儲(chǔ)器模型的一個(gè)實(shí)施例的流程圖。圖5是利用PCI開口的共享存儲(chǔ)器模型的一個(gè)實(shí)施例的流程圖。圖6是操作中的共享存儲(chǔ)器模型的一個(gè)實(shí)施例的流程圖。詳細(xì)描述本發(fā)明的多個(gè)實(shí)施例提供了用于CPU-GPU平臺(tái)的編程模型。特別是，本發(fā)明的多個(gè)實(shí)施例提供用于集成和分離設(shè)備的統(tǒng)一編程模型。該模型也可以統(tǒng)一地對(duì)多個(gè)GPU卡和混合GPU系統(tǒng)(分離的和集成的)工作。這允許軟件銷售商編寫單個(gè)應(yīng)用堆棧并將使其面向所有不同的平臺(tái)。此外，本發(fā)明的實(shí)施例提供了在CPU和GPU之間的共享存儲(chǔ)器模型。代替了共享整個(gè)虛擬地址空間，僅僅一部分虛擬地址空間需要被共享。這允許在分離的和集成的設(shè)置中的有效實(shí)現(xiàn)。進(jìn)一步的，語言注釋可被用于區(qū)分必須被運(yùn)行在GPU上的代碼。語言支持可被擴(kuò)展為包括諸如函數(shù)指針之類的特征。共享存儲(chǔ)器模型的諸實(shí)施例提供了新穎的編程式樣。特別是，數(shù)據(jù)結(jié)構(gòu)可以在CPU和GPU之間無縫共享，并且可以從一端向另一端傳遞指針而不要求任何格式編組。例如，在一個(gè)實(shí)施例中，游戲引擎和包括物理、人工智能(Al)以及渲染。物理和Al代碼最好在CPU上執(zhí)行，而渲染最好在GPU上執(zhí)行。諸如場(chǎng)景圖片之類的數(shù)據(jù)結(jié)構(gòu)可能需要在CPU和GPU之間共享。在一些當(dāng)前的編程環(huán)境中這樣的執(zhí)行模型可能是行不通的，因?yàn)閳?chǎng)景圖片需要被來來回回地串行化(或格式編組)。然而在共享存儲(chǔ)器模型的諸實(shí)施例中，場(chǎng)景圖片可簡(jiǎn)單地位于共享存儲(chǔ)器中，并可被CPU和GPU共同訪問。在一個(gè)實(shí)施例中，實(shí)現(xiàn)了包括語言和運(yùn)行時(shí)支持的完全編程環(huán)境。多個(gè)高度并行的非圖形負(fù)載可經(jīng)由端口與該環(huán)境對(duì)接。該實(shí)現(xiàn)可工作在多樣性的操作系統(tǒng)上，即，在CPU和GPU上運(yùn)行不同操作系統(tǒng)。此外，可在CPU和GPU之間允許用戶級(jí)通信。這可使得應(yīng)用堆棧更為高效，因?yàn)榭梢韵鼵PU-GPU通信中的OS驅(qū)動(dòng)器堆棧的開銷。該編程環(huán)境可經(jīng)由端口與兩個(gè)不同的多樣性CPU-GPU平臺(tái)模擬器對(duì)接一一個(gè)模擬作為分離設(shè)備附加到CPU的GPU，另一個(gè)模擬集成CPU-GPU平臺(tái)?？傊?，CPU-GPU平臺(tái)的編程模型的諸實(shí)施例可以為分離的、集成的、多GPU卡和混合GPU配置提供統(tǒng)一編程模型。在CPU和GPU之間提供共享存儲(chǔ)器語義，允許在CPU和GPU之間自由地傳遞指針并共享數(shù)據(jù)結(jié)構(gòu)。被實(shí)現(xiàn)在具有CPU和GPU上不同的ISA和不同操作系統(tǒng)的多樣性的CPU-GPU平臺(tái)中。在CPU和GPU之間使能用戶級(jí)通信，因此使得應(yīng)用堆棧更為高效。存儲(chǔ)器模型圖I是根據(jù)一個(gè)實(shí)施例的GPU-CPU存儲(chǔ)器模型的圖示。在一個(gè)實(shí)施例中，存儲(chǔ)器模型100提供CPU 110和GPU 120之間的共享虛擬地址窗口 130，諸如以分割全局地址空間(PGAS)語言。在CPU 100和GPU 120之間共享的任何數(shù)據(jù)結(jié)構(gòu)通常必須被編程者分配在該空間130中。本系統(tǒng)可提供將數(shù)據(jù)分配在該空間130中的特殊存儲(chǔ)器分配(malloc)函數(shù)。靜態(tài)變量可被注釋以類型量詞，以使它們被分配在共享窗口 130中。然而，與PGAS語言不同，在共享窗口中沒有親和力(affinity)的概念。這是因?yàn)樵诠蚕砜臻g130中的數(shù)據(jù)隨著它被每個(gè)處理器所使用而在CPU和GPU高速緩存之間遷移。也與PGAS實(shí)現(xiàn)方式不同，指針的表示在共享和私有空間中不發(fā)生改變。剩余的虛擬地址空間對(duì)CPU 110和GPU 120而言是私有的。默認(rèn)地，數(shù)據(jù)被分配在該空間130中，且對(duì)另一側(cè)不可見。該分割地址空間方式可削減需要保持一致性的存儲(chǔ)量，并實(shí)現(xiàn)對(duì)分離設(shè)備的更為高效的實(shí)施。該存儲(chǔ)器模型的實(shí)施例可被擴(kuò)展到多GPU和混合配置中。特別是，共享虛擬地址窗口可以跨所有的設(shè)備而擴(kuò)展。被分配在該共享地址窗口 130中的任何數(shù)據(jù)結(jié)構(gòu)可對(duì)所有代理而言都是可見的，且該空間中的指針可以自由地交換。此外，每個(gè)代理具有其自有的私有存儲(chǔ)器。由于多個(gè)原因，可使用共享地址空間中的釋放一致性。第一，本系統(tǒng)僅僅需要記住連續(xù)釋放指針之間的所有寫入，而不是單獨(dú)寫入的序列。這更易于在釋放點(diǎn)進(jìn)行批量轉(zhuǎn)換(諸如，在同一時(shí)間對(duì)若干頁)，這在分離配置中很重要。第二，這允許存儲(chǔ)器更新被完全保持在本地直到釋放點(diǎn)，這在分離配置中很重要。第三，釋放一致性模型可以對(duì)CPU-GPU平臺(tái)的編程模式是良好的匹配，因?yàn)榇嬖谧匀会尫藕瞳@取點(diǎn)。例如，從CPU到GPU的調(diào)用是一個(gè)這樣的點(diǎn)。在調(diào)用之前使得任何CPU更新對(duì)GPU可見可能不起到任何作用，并且對(duì)向CPU更新如何變得可見強(qiáng)加任何命令都是沒有意義的，只要它們都在GPU開始執(zhí)行之前是可見的既可。進(jìn)一步的，所提出的C/C++存儲(chǔ)器模型可被容易地映射到共享存儲(chǔ)器空間。通常，非競(jìng)爭(zhēng)程序可能不受共享存儲(chǔ)器空間的弱連續(xù)性模型的影響。該實(shí)現(xiàn)方式可能不需要被限制在為競(jìng)爭(zhēng)程序提供更強(qiáng)的保證。然而，不同的實(shí)施例可選擇為共享空間提供不同的連續(xù)性模型。圖2是用于增加了所有權(quán)權(quán)限的共享存儲(chǔ)器模型的一個(gè)實(shí)施例的流程圖。順序 200可被實(shí)現(xiàn)在固件、軟件或硬件中。軟件實(shí)施例可被存儲(chǔ)在諸如光盤、磁盤或半導(dǎo)體存儲(chǔ)器之類的計(jì)算機(jī)可讀介質(zhì)上。特別是，可向共享存儲(chǔ)器模型的諸實(shí)施例添加所有權(quán)權(quán)限以實(shí)現(xiàn)進(jìn)一步的一致性優(yōu)化。在共享虛擬地址窗口中，CPU或GPU可指定其擁有特定的地址塊(框210)。如果在共享窗口中的地址范圍是由CPU所擁有的(框220)，那么CPU知道GPU無法訪問那些地址并因此不需要維持那些地址與GPU的一致性(框230)。例如，這可以避免向GPU發(fā)送任何監(jiān)聽或其他一致性信息。對(duì)于GPU擁有的地址也一樣。如果GPU訪問CPU擁有的地址，那么該地址變?yōu)榉菗碛械?對(duì)于GPU擁有的地址存在對(duì)稱的行為)?；蛘?，由GPU(CPU)對(duì)CPU (GPU)擁有的地址的訪問可以觸發(fā)錯(cuò)誤情況。本發(fā)明的諸實(shí)施例可提供這些所有權(quán)權(quán)限以利用公共CPU-GPU使用模型。例如，CPU首先訪問一些數(shù)據(jù)(諸如，初始化數(shù)據(jù)結(jié)構(gòu))，并且隨后將其轉(zhuǎn)交給GPU(諸如，以數(shù)據(jù)并行方式在數(shù)據(jù)結(jié)構(gòu)上進(jìn)行計(jì)算)，并隨后CPU分析計(jì)算結(jié)構(gòu)，等等。所有權(quán)權(quán)限允許應(yīng)用通知系統(tǒng)該臨時(shí)局部性，并優(yōu)化一致性實(shí)施方式。注意到，這些所有權(quán)權(quán)限是優(yōu)化提示，并且本系統(tǒng)可以合法地忽略這些提示。私有化和全局化在一個(gè)實(shí)施例中，共享數(shù)據(jù)可通過從共享空間復(fù)制到私有空間而被私有化。不含指針數(shù)據(jù)結(jié)構(gòu)可簡(jiǎn)單地通過復(fù)制存儲(chǔ)器內(nèi)容而被私有化。當(dāng)復(fù)制含指針數(shù)據(jù)結(jié)構(gòu)時(shí)，指向共享數(shù)據(jù)的指針必須被轉(zhuǎn)換為指向私有數(shù)據(jù)的指針。私有數(shù)據(jù)可以通過從私有空間復(fù)制到共享空間并對(duì)其他計(jì)算可見而被全局化。不含指針數(shù)據(jù)結(jié)構(gòu)可簡(jiǎn)單地通過復(fù)制存儲(chǔ)器內(nèi)容而被全局化。當(dāng)復(fù)制含指針數(shù)據(jù)結(jié)構(gòu)時(shí)，指向私有數(shù)據(jù)的指針必須被轉(zhuǎn)換為指向共享數(shù)據(jù)的指針(私有化示例的相反示例)。例如，在一個(gè)實(shí)施例中，考慮在私有和共享空間中的節(jié)點(diǎn)鏈表。對(duì)于私有鏈表的類型定義是標(biāo)準(zhǔn)的typedef struct {int val ；// 僅僅是 int 字段Node*next ；}Node ；
對(duì)于共享鏈表的類型定義如下所示。注意，指向下一節(jié)點(diǎn)的指針被定義為放置在共享空間中。用戶必須明確地聲明類型的私有和共享版本。typedef struct {shared int val ；shared Node*shared next ；} shared Node ；現(xiàn)在用戶可通過下面的代碼而明確地將私有鏈表復(fù)制到共享空間…myNode = (shared Node*) sharedMal Ioc ( )；//指向私有鏈表的頭指針myNode- > val = head- > valmyNode- > next = (shared Node*) sharedMal Ioc ( )；…由編譯器使用的運(yùn)行時(shí)API如下示出//分配并釋放私有地址空間中的存儲(chǔ)器Maps to regular mallocvoid*privateMalloc(int)；void privateFree(void*)；Il從共享空間分配并釋放。shared void*sharedMalloc(size_t size)；void sharedFree(shared void氺ptr)；Il對(duì)于共享存儲(chǔ)器的存儲(chǔ)器連續(xù)性void sharedAcquire ()；void sharedRelease ()；最后，運(yùn)行時(shí)也為互斥體(mutex)和屏障體(barrier)提供API,以允許應(yīng)用執(zhí)行顯式同步。這些結(jié)構(gòu)經(jīng)常分配在共享區(qū)域中。本語言提供了自然獲取和釋放點(diǎn)。例如，從CPU向GPU的調(diào)用是CPU上的釋放點(diǎn)緊接著在GPU上的獲取點(diǎn)。類似地，從GPU的返回是在GPU上的釋放點(diǎn)以及在CPU上的獲取點(diǎn)。獲取互斥體(mutex)的所有權(quán)并釋放互斥體(mutex)分別是處理器進(jìn)行互斥(mutex)操作的獲取點(diǎn)和釋放點(diǎn)，而命中屏障體(barrier)并通過屏障體(barrier)也是釋放點(diǎn)和獲取點(diǎn)。在一個(gè)實(shí)施例中，運(yùn)行時(shí)系統(tǒng)可為所有權(quán)的獲取和釋放提供API調(diào)用。例如，sharedMemoryAcquire ()和sharedMemoryRelease ()可以獲取并釋放整個(gè)存儲(chǔ)器范圍的所有權(quán)?；蛘?，系統(tǒng)可提供 sharedMemoryAcquire (addr, len)和 sharedMemoryRelease (addr,Ien)以獲取特定地址范圍內(nèi)的所有權(quán)。實(shí)現(xiàn)在一個(gè)實(shí)施例中，編譯器生成兩種二進(jìn)制代碼一一個(gè)用于在GPU上執(zhí)行，而另一個(gè)用于CPU執(zhí)行。生成兩種不同的可執(zhí)行代碼，因?yàn)閮蓚€(gè)操作系統(tǒng)可能具有不同的可執(zhí)行代碼格式。GPU 二進(jìn)制代碼包含將在GPU上執(zhí)行的代碼，而CPU 二進(jìn)制代碼包含CPU函數(shù)。運(yùn)行時(shí)庫包括CPU和GPU部分，其與CPU和GPU應(yīng)用二進(jìn)制代碼相鏈接以創(chuàng)建CPU和GPU可執(zhí)行代碼。當(dāng)CPU 二進(jìn)制代碼開始執(zhí)行時(shí)，它調(diào)用運(yùn)行時(shí)函數(shù)，該運(yùn)行時(shí)函數(shù)加載GPU可執(zhí)行代碼。CPU和GPU 二進(jìn)制代碼都創(chuàng)建用于CPU-GPU通信的虛擬線程。實(shí)施CPU-GPU共享存儲(chǔ)器圖3是共享存儲(chǔ)器模型的一個(gè)實(shí)施例的流程圖。順序300可被實(shí)現(xiàn)在固件、軟件或硬件中。在一個(gè)實(shí)施例中，CPU和GPU可具有不同的頁表以及不同的虛擬到物理存儲(chǔ)器翻譯(框310)。因此，為了在CPU和GPU之間(諸如，在釋放點(diǎn))同步虛擬地址V的內(nèi)容，不同物理地址的內(nèi)容(諸如，CPU上的Pl和GPU上的P2)被同步(框320)。然而，CPU可能不具有對(duì)GPU頁表的訪問權(quán)(且因此不知道P2)，并且GPU不具有對(duì)CPU頁表的訪問權(quán)因此不知道Pl。這個(gè)問題可通過以新穎的方式來使用PCI開口而解決。圖4是利用PCI開口的共享存儲(chǔ)器模型的一個(gè)實(shí)施例的流程圖。序列400可被實(shí)現(xiàn)在固件、軟件或硬件中。在初始化時(shí)，PCI開口空間的一部分可被映射到應(yīng)用的用戶空間，并且以任務(wù)隊(duì)列、消息隊(duì)列以及復(fù)制緩沖器來例示(框410)。當(dāng)需要復(fù)制頁(例如，從CPU到GPU)時(shí)(框420)，運(yùn)行時(shí)將頁復(fù)制到PCI開口復(fù)制緩沖器中，并使用虛擬地址和進(jìn)程標(biāo)識(shí)符對(duì)緩沖器進(jìn)行標(biāo)記(框430)。在GPU側(cè)，虛擬線程通過使用虛擬地址標(biāo)記將緩沖器的內(nèi)容復(fù)制到它的地址空間(框440)。因此，該復(fù)制可以以2步進(jìn)程來執(zhí)行一CPU從其地址空間復(fù)制到CPU和GPU都可訪問的公共緩沖器(PCI開口)，而GPU從該公共緩沖器提取頁到其地址空間。GPU-CPU復(fù)制可以類似方式來完成。因?yàn)殚_口是插針存儲(chǔ)器，如果CPU或GPU進(jìn)程發(fā)生上下文切換，開口的內(nèi)容不會(huì)丟失。這允許兩個(gè)處理器異步地執(zhí)行，這是非常關(guān)鍵的，因?yàn)閮蓚€(gè)處理器可能具有不同的操作系統(tǒng)并且因此上下文切換可能不是同步的。進(jìn)一步的，開口空間可被映射到應(yīng)用的用戶空間中，由此實(shí)現(xiàn)用戶級(jí)的CPU-GPU通信。這使得應(yīng)用堆棧比起通過OS驅(qū)動(dòng)器堆棧而目聞效得多。本發(fā)明的諸實(shí)施例可使用傳統(tǒng)軟件DSM和CPU-GPU平臺(tái)之間的另一個(gè)差別。傳統(tǒng)DSM被設(shè)計(jì)為規(guī)模在中型或大型群集。相反，CPU-GPU系統(tǒng)是非常小規(guī)模的群集。超過手持大小的GPU卡和CPU插槽在未來被良好使用幾乎不太可能。此外，PCI開口提供了在不同處理器之間的方便共享的物理存儲(chǔ)器空間。本發(fā)明的諸實(shí)施例能夠集中許多數(shù)據(jù)結(jié)構(gòu)并使得實(shí)施更為高效。圖5是利用PCI開口的共享存儲(chǔ)器模型的一個(gè)實(shí)施例的流程圖。序列500可被實(shí)現(xiàn)在固件、軟件或硬件中。參考框510，將包括與共享地址區(qū)域中的頁有關(guān)的元數(shù)據(jù)的目錄放置在PCI開口中。元數(shù)據(jù)描述了 CPU或GPU是否保持頁的貴重副本(該頁的主頁)，包含了追蹤頁的更新次數(shù)的版本號(hào)、在更新頁之前獲取的互斥體(mutexes)、以及各種元數(shù)據(jù)。該目錄可由頁的虛擬地址來索引(框520)。CPU和GPU運(yùn)行時(shí)系統(tǒng)都維持類似的私有結(jié)構(gòu)，該私有結(jié)構(gòu)包含頁的本地訪問許可以及頁的本地版本號(hào)。圖6是操作中的共享存儲(chǔ)器模型的一個(gè)實(shí)施例的流程圖。序列500可被實(shí)現(xiàn)在固件、軟件或硬件中。在一個(gè)實(shí)施例中，序列600可被實(shí)現(xiàn)在固件、軟件或硬件中。當(dāng)GPU執(zhí)行獲取操作時(shí)(框610)，對(duì)應(yīng)的頁可被設(shè)置為在GPU上是不可訪問的￠20)。在后續(xù)的讀取操作時(shí)，如果在最后一次GPU獲取之后頁已經(jīng)被CPU更新并釋放(630)，則GPU上的頁面錯(cuò)誤管理器從CPU復(fù)制頁(框640)。目錄和私有版本號(hào)可被用于確定該情況。該頁隨后被設(shè)置為只讀(框650)。在后續(xù)的寫入操作時(shí)，頁錯(cuò)誤管理器創(chuàng)建頁的備份副本，將頁標(biāo)記為可讀寫并遞增頁的本地版本號(hào)(框660)。在釋放點(diǎn)，使用頁的備份副本執(zhí)行差異處理(diff)，并將更改發(fā)送到主頁位置，同時(shí)遞增目錄版本號(hào)(框670)。差異處理(diff)操作計(jì)算兩個(gè)頁(即，頁及其備份)之間存儲(chǔ)器位置的差異，以尋找已經(jīng)被執(zhí)行的更改。CPU操作以對(duì)稱的方式來完成。因此，在獲取點(diǎn)和釋放點(diǎn)之間，GPU和CPU超出它們的本地存儲(chǔ)器和高速緩存而操作并僅僅在顯式同步點(diǎn)上彼此進(jìn)行通信。
在開始時(shí)，本實(shí)施方式確定將在CPU和GPU之間共享的地址范圍，并確保該地址范圍一直保持映射(諸如，使用Linux上的_ap)。該地址范圍可以動(dòng)態(tài)地增長(zhǎng),并不需要是連續(xù)的，雖然在64位地址空間中，運(yùn)行時(shí)系統(tǒng)在最開始可能保留連續(xù)的塊。本發(fā)明的諸實(shí)施例可被實(shí)現(xiàn)在基于處理器的系統(tǒng)中，在一個(gè)實(shí)施例中該系統(tǒng)可包括耦合到芯片組的通用處理器。芯片組可耦合到系統(tǒng)存儲(chǔ)器和圖形處理器。圖形處理器可耦合到幀緩沖器，并依次耦合到顯示器。在一個(gè)實(shí)施例中，

圖1-6中示出的本發(fā)明的諸實(shí)施例可被實(shí)現(xiàn)為存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)(諸如，系統(tǒng)存儲(chǔ)器)中的軟件。然而，本發(fā)明的諸實(shí)施例也可被實(shí)現(xiàn)為硬件或固件。本編程模型的諸實(shí)施例提供了用于CPU-GPU平臺(tái)的共享存儲(chǔ)器模型，其實(shí)現(xiàn)了CPU和GPU之間的細(xì)?；恢滦??？梢詾榉蛛x配置以及集成配置、以及多GPU和混合配置實(shí)現(xiàn)本統(tǒng)一編程模型。用戶注釋也被用于區(qū)分CPU和GPU執(zhí)行的代碼?？稍贑PU和GPU之間提供用戶級(jí)通信，因此消除了 OS驅(qū)動(dòng)器調(diào)用的開銷?？梢詾榫幊棠Ｐ蛯?shí)現(xiàn)完全的軟件堆棧，包括編譯器和運(yùn)行時(shí)支持。在說明書通篇中提及的“一個(gè)實(shí)施例”、“實(shí)施例”意味著結(jié)合該實(shí)施例所描述的特定特征、結(jié)構(gòu)或特性被包括在本發(fā)明內(nèi)涵蓋的至少一個(gè)實(shí)現(xiàn)中。因此，短語“一個(gè)實(shí)施例”或“在實(shí)施例中”的出現(xiàn)不一定是指同一個(gè)實(shí)施例。此外，還可以以除所示出的特定實(shí)施例以外的其他合適的形式構(gòu)成該特定特征、結(jié)構(gòu)或特性，所有這樣的形式都可以涵蓋在本申請(qǐng)的權(quán)利要求書內(nèi)。盡管本發(fā)明已針對(duì)有限數(shù)量的實(shí)施例作了描述，然而本領(lǐng)域技術(shù)人員將會(huì)從其中領(lǐng)會(huì)到許多修改和變型。所附權(quán)利要求旨在覆蓋所有這樣的修改和變型，只要其落在本發(fā)明的真實(shí)精神和范圍內(nèi)。
權(quán)利要求
1.ー種方法，包括在CPU和GPU之間共享存儲(chǔ)器語義，包括允許在CPU和GPU之間傳遞指針并共享數(shù)據(jù)結(jié)構(gòu)。
2.如權(quán)利要求I所述的方法，其特征在于，還包括在CPU和GPU之間共享地址，包括向存儲(chǔ)器空間分配在CPU和GPU之間共享的數(shù)據(jù)結(jié)構(gòu)。
3.如權(quán)利要求I所述的方法,其特征在于,還包括在CPU和GPU之間共享虛擬地址，但使所述虛擬地址被映射到CPU和GPU上不同的物理地址。
4.如權(quán)利要求3所述的方法，其特征在干，向存儲(chǔ)器空間分配在CPU和GPU之間共享的數(shù)據(jù)結(jié)構(gòu)進(jìn)ー步包括使用在存儲(chǔ)器空間中分配數(shù)據(jù)的存儲(chǔ)器分配(malloc)函數(shù)。
5.如權(quán)利要求4所述的方法，其特征在干，向存儲(chǔ)器空間分配在CPU和GPU之間共享的數(shù)據(jù)結(jié)構(gòu)進(jìn)ー步包括靜態(tài)變量的編程者注釋，使它們被分配在共享存儲(chǔ)器空間中。
6.如權(quán)利要求I所述的方法，其特征在于，還包括當(dāng)共享在存儲(chǔ)器空間中的數(shù)據(jù)被CPU或GPU使用吋，將共享在存儲(chǔ)器空間中的數(shù)據(jù)在CPU和GPU存儲(chǔ)器之間按需遷移。
7.如權(quán)利要求I所述的方法，其特征在于，還包括將地址空間分割為CPU和GPU之間的共享地址空間以及對(duì)CPU或GPU私有的剩余地址空間；以及將默認(rèn)數(shù)據(jù)分配到私有空間，其中所述默認(rèn)數(shù)據(jù)對(duì)另ー側(cè)是不可見的。
8.如權(quán)利要求7所述的方法，其特征在于，指針的表示在共享和私有空間之間不發(fā)生改變。
9.如權(quán)利要求7所述的方法，其特征在于，還包括 CPU或GPU指定其在共享虛擬地址空間中擁有特定的地址塊。
10.如權(quán)利要求7所述的方法，其特征在于，CPU或GPU指定其在共享虛擬地址空間中擁有特定的地址塊進(jìn)一歩包括當(dāng)共享虛擬地址中的地址范圍由CPU所擁有吋，CPU知道GPU無法訪問那些地址，并且不需要維持那些地址與GPU的一致性；以及當(dāng)CPU擁有的地址被GPU訪問時(shí)，所述地址變?yōu)榉菗碛械摹?br> 11.如權(quán)利要求I所述的方法，其特征在于，還包括確定CPU和GPU是否具有不同的頁表和不同的虛擬到物理存儲(chǔ)器翻譯；以及響應(yīng)于不同的頁表和不同的虛擬到物理存儲(chǔ)器翻譯，同步在CPU和GPU之間的虛擬地址內(nèi)容以及不同物理地址的內(nèi)容。
12.如權(quán)利要求11所述方法，其特征在干，響應(yīng)于不同的頁表和不同的虛擬到物理存儲(chǔ)器翻譯，同步在CPU和GPU之間的虛擬地址內(nèi)容以及不同物理地址的內(nèi)容進(jìn)ー步包括在初始化時(shí)，將PCI開ロ的一部分映射到應(yīng)用的用戶空間，并使用任務(wù)隊(duì)列、消息隊(duì)列以及復(fù)制緩沖器來例示所述用戶空間，所述PCI開ロ的一部分是對(duì)CPU和GPU都可訪問的；對(duì)于從CPU到GPU的頁復(fù)制，將頁從CPU地址空間復(fù)制到PCI開口中，并使GPU從PCI開ロ將頁存取到其地址空間；以及對(duì)于從GPU到CPU的頁復(fù)制，將頁從GPU地址空間復(fù)制到PCI開口中，并使CPU從PCI開ロ將頁存取到其地址空間。
13.如權(quán)利要求12所述的方法，其特征在于，所述PCI開ロ可以被映射到應(yīng)用的用戶空間，因此實(shí)現(xiàn)了用戶級(jí)CPU和GPU通信。
14.如權(quán)利要求13所述的方法，其特征在于，還包括將包括與共享地址區(qū)域中的頁有關(guān)的元數(shù)據(jù)的目錄放置在PCI開口中，其中所述元數(shù)據(jù)指示CPU或GPU是否保持頁的主頁，包含了追蹤對(duì)頁的更新次數(shù)的版本號(hào)以及在更新頁之前獲取的互斥體(mutexes)。
15.如權(quán)利要求14所述的方法，其特征在于，所述目錄可以通過頁的虛擬地址來索引。
16.權(quán)利要求I所述的方法，其特征在干，GPU包括離散的設(shè)備或集成的設(shè)備或以不同配置的多個(gè)GPU的組合。
17.權(quán)利要求I所述的方法，其特征在干，進(jìn)ー步包括對(duì)于多個(gè)圖形卡和混合圖形系統(tǒng)，統(tǒng)一地共享存儲(chǔ)器語義。
18.—種共享存儲(chǔ)器，其中在CPU和GPU之間共享數(shù)據(jù)結(jié)構(gòu)并且可將指針從ー側(cè)傳遞到另ー側(cè)而不需要要求任何格式編組。
19.如權(quán)利要求18所述的共享存儲(chǔ)器，其特征在干，場(chǎng)景圖片位于共享存儲(chǔ)器中，并且可以由CPU和GPU來訪問。
20.如權(quán)利要求18所述的共享存儲(chǔ)器，其特征在于，在CPU和GPU上運(yùn)行不同的操作系統(tǒng)的情況下實(shí)現(xiàn)所述共享存儲(chǔ)器。
21.如權(quán)利要求18所述的共享存儲(chǔ)器，其特征在于，在GPU以分離設(shè)備附加到CPU上的情況下實(shí)現(xiàn)所述共享存儲(chǔ)器。
22.如權(quán)利要求18所述的共享存儲(chǔ)器，其特征在于，在集成CPU-GPU平臺(tái)中實(shí)現(xiàn)所述共享存儲(chǔ)器。
23.一種存儲(chǔ)指令的計(jì)算機(jī)可讀介質(zhì)，當(dāng)指令被執(zhí)行時(shí)使得基于處理器的系統(tǒng) 在CPU和GPU之間共享存儲(chǔ)器語義，包括允許在CPU和GPU之間傳遞指針并共享數(shù)據(jù)結(jié)構(gòu)。
24.如權(quán)利要求23所述的計(jì)算機(jī)可讀介質(zhì)，其特征在于，進(jìn)ー步存儲(chǔ)指令以在CPU和GPU之間共享地址，包括向存儲(chǔ)器空間分配在CPU和GPU之間共享的數(shù)據(jù)結(jié)構(gòu)。
25.如權(quán)利要求24所述的計(jì)算機(jī)可讀介質(zhì)，其特征在于，進(jìn)ー步存儲(chǔ)指令以在CPU和GPU之間共享虛擬地址，并且使所述虛擬地址被映射到CPU和GPU上不同的物理地址。
全文摘要
本發(fā)明的多個(gè)實(shí)施例提供了用于CPU-GPU平臺(tái)的編程模型。特別是，本發(fā)明的多個(gè)實(shí)施例提供用于集成和分離設(shè)備的統(tǒng)一編程模型。該模型也可以統(tǒng)一地對(duì)多個(gè)GPU卡和混合GPU系統(tǒng)(分離的和集成的)工作。這允許軟件銷售商編寫單個(gè)應(yīng)用堆棧并使其面向所有不同的平臺(tái)。此外，本發(fā)明的實(shí)施例提供了在CPU和GPU之間的共享存儲(chǔ)器模型。代替了共享整個(gè)虛擬地址空間，僅僅虛擬地址空間的一部分需要被共享。這允許在分離的和集成的設(shè)置中的高效實(shí)施。
文檔編號(hào)G06F9/46GK102625934SQ200980154460
公開日2012年8月1日申請(qǐng)日期2009年11月5日優(yōu)先權(quán)日2008年11月13日
發(fā)明者A·孟德爾森, B·薩哈, H·陳, J·方, P·張, S·閆, Y·高, 周小成, 莫罕·拉賈戈帕蘭申請(qǐng)人:英特爾公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：H·陳;Y·高;周小成;S·閆;P·張;J·方;A·孟德爾森;B·薩哈;莫罕·拉賈戈帕蘭
技術(shù)所有人：英特爾公司
我是此專利的發(fā)明人

上一篇：通過自動(dòng)語音郵件預(yù)覽的增強(qiáng)的語音郵件使用的制作方法
上一篇：操作裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

虛擬存儲(chǔ)器相關(guān)技術(shù)

虛擬存儲(chǔ)器的最大容量相關(guān)技術(shù)

虛擬存儲(chǔ)器管理實(shí)驗(yàn)相關(guān)技術(shù)

什么是虛擬存儲(chǔ)器相關(guān)技術(shù)

虛擬存儲(chǔ)器管理相關(guān)技術(shù)

頁式虛擬存儲(chǔ)器相關(guān)技術(shù)

采用虛擬存儲(chǔ)器的目的相關(guān)技術(shù)

linux虛擬存儲(chǔ)器系統(tǒng)相關(guān)技術(shù)