每個(gè)圖形 引擎被配置為執(zhí)行特定圖形任務(wù),或執(zhí)行特定類型的工作負(fù)荷。
[0018] 存儲(chǔ)器設(shè)備104可包括隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、閃存、或任何其 它適當(dāng)存儲(chǔ)器系統(tǒng)。例如,存儲(chǔ)器設(shè)備104可包括動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)。存儲(chǔ)器設(shè) 備104可包括被配置為執(zhí)行用于優(yōu)化圖像存儲(chǔ)器訪問(wèn)的指令的設(shè)備驅(qū)動(dòng)器110。設(shè)備驅(qū)動(dòng) 器110可W是軟件、應(yīng)用程序、應(yīng)用代碼等。
[0019] 計(jì)算設(shè)備100包括圖像捕獲機(jī)構(gòu)112。在實(shí)施例中,圖像捕獲機(jī)構(gòu)112是攝像機(jī)、 立體攝像機(jī)、紅外傳感器等。圖像捕獲機(jī)構(gòu)112被用于捕獲圖像信息。相應(yīng)地,計(jì)算設(shè)備 100還包括一個(gè)或多個(gè)傳感器114。在示例中,傳感器114還可W是用于捕獲圖像紋理信息 的圖像傳感器。此外,圖像傳感器可W是電荷禪合設(shè)備(CCD)圖像傳感器、互補(bǔ)金屬氧化物 半導(dǎo)體(CMOS)圖像傳感器、片上系統(tǒng)(S0C)圖像傳感器、具有光敏薄膜晶體管的圖像傳感 器、或其任意組合。設(shè)備驅(qū)動(dòng)器110可使用步進(jìn)瓦工引擎來(lái)訪問(wèn)由傳感器114捕獲的圖像。
[0020] CPU102可W經(jīng)由總線106連接到被配置為將計(jì)算設(shè)備100連接到一個(gè)或多個(gè)1/ 0設(shè)備118的輸入/輸出(I/O)設(shè)備接口 116。I/O設(shè)備118可W包括例如鍵盤和定點(diǎn)設(shè) 備,其中定點(diǎn)設(shè)備可包括觸摸板或觸摸屏等。I/O設(shè)備118可W是計(jì)算設(shè)備100的內(nèi)置部 件,或可W是外部連接到計(jì)算設(shè)備100的設(shè)備。
[0021]CPU102還可經(jīng)由總線106鏈接到被配置為將計(jì)算設(shè)備100連接到顯示設(shè)備122 的顯示接口 120。顯示設(shè)備122可包括為計(jì)算設(shè)備100的內(nèi)置部件的顯示屏。顯示設(shè)備122 還可包括外部連接到計(jì)算設(shè)備100的計(jì)算機(jī)監(jiān)視器、電視機(jī)、或投影儀等。
[0022] 計(jì)算設(shè)備還包括存儲(chǔ)設(shè)備124。存儲(chǔ)設(shè)備124是諸如硬盤驅(qū)動(dòng)器、光驅(qū)、拇指驅(qū)動(dòng) 器、驅(qū)動(dòng)器陣列或其任意組合的物理存儲(chǔ)器。存儲(chǔ)設(shè)備124還可包括遠(yuǎn)程存儲(chǔ)驅(qū)動(dòng)器。存 儲(chǔ)設(shè)備124包括被配置為在計(jì)算設(shè)備100上運(yùn)行的任何數(shù)量的應(yīng)用126。應(yīng)用126可用于 處理圖像數(shù)據(jù)。在示例中,應(yīng)用126可被用于優(yōu)化圖像存儲(chǔ)器訪問(wèn)。此外,在示例中,應(yīng)用 126可訪問(wèn)存儲(chǔ)器中的圖像W便執(zhí)行對(duì)圖像的各種處理。存儲(chǔ)器中的圖像可W使用下文描 述的步進(jìn)瓦工引擎來(lái)訪問(wèn)。
[0023] 計(jì)算設(shè)備100還可包括可被配置為經(jīng)由總線106將計(jì)算設(shè)備100連接到網(wǎng)絡(luò)130 的網(wǎng)絡(luò)接口控制器(NIC) 128。網(wǎng)絡(luò)130可W是廣域網(wǎng)(WAN)、局域網(wǎng)(LAN)或因特網(wǎng)等。
[0024] 在一些實(shí)施例中,應(yīng)用126可發(fā)送來(lái)自計(jì)算設(shè)備100的圖像到打印引擎132。打印 引擎可發(fā)送圖像到打印設(shè)備134。打印設(shè)備134可包括打印機(jī)、傳真機(jī)和可使用打印對(duì)象模 塊136打印各個(gè)圖像的其他打印設(shè)備。在實(shí)施例中,打印引擎132可跨網(wǎng)絡(luò)130發(fā)送數(shù)據(jù) 到打印設(shè)備134。此外,諸如圖像捕獲機(jī)構(gòu)112的設(shè)備可使用本文描述的技術(shù)來(lái)處理像素陣 列。顯示設(shè)備122還可使用本文在實(shí)施例中描述的技術(shù)W加速顯示器上的像素的處理。
[0025] 圖1的框圖非旨在指示計(jì)算設(shè)備100將包括圖1中示出的所有部件。此外,取決 于【具體實(shí)施方式】的細(xì)節(jié),計(jì)算設(shè)備100可包括圖1中未示出的任何數(shù)量的附加部件。
[0026] 圖2是根據(jù)實(shí)施例,圖示圖像到一維陣列中的布置方案200的圖。在訪問(wèn)存儲(chǔ)器 中的圖像之前,布置方案200可由步進(jìn)瓦工引擎和矩形組裝器邏輯執(zhí)行,W改進(jìn)訪問(wèn)存儲(chǔ) 器中的圖像的過(guò)程的效率。步進(jìn)瓦工引擎可提供存儲(chǔ)器緩沖,其中W過(guò)程的方式快速處理 二維圖像202的區(qū)域。步進(jìn)瓦工可使用步進(jìn)高速緩存來(lái)存儲(chǔ)在成像訪問(wèn)期間二維圖像的所 選區(qū)域。應(yīng)當(dāng)注意的是,在本文公開的實(shí)施例中,可使用能夠快速訪問(wèn)的任何高速緩存。
[0027] 存儲(chǔ)器104 (圖1)中的二維圖像202可被劃分為多個(gè)像素區(qū)域204。每個(gè)像素區(qū) 域204可包含一個(gè)或多個(gè)像素。在實(shí)施例中,每個(gè)像素區(qū)域204可表示像素的矩形成組,或 像素的行,或由行和矩形一起構(gòu)成的區(qū)域。在圖像存儲(chǔ)器訪問(wèn)期間,每個(gè)像素區(qū)域204可被 放入高速緩存中,在高速緩存中,圖像區(qū)域204將由CPU102處理,并且在處理之后被順序 從高速緩存110移除。除了CPU之外,實(shí)施例可使用任何其它處理架構(gòu)或方法,包括但不限 于邏輯塊、單指令多數(shù)據(jù)(SIMD)、GPU、數(shù)字信號(hào)處理器(DSP)、圖像信號(hào)處理器(ISP)或超 長(zhǎng)指令字(VLIW)機(jī)器。
[002引步進(jìn)瓦工引擎可將二維圖像202重新配置為區(qū)域的一維陣列206的集合,例如行 和矩形。因此,與非線性存儲(chǔ)器區(qū)域相對(duì)的,可W將任何訪問(wèn)模式封裝在線性1D陣列中W 易于存儲(chǔ)器訪問(wèn)并且易于計(jì)算。一維陣列206的每個(gè)塊可表示像素區(qū)域204,像素區(qū)域204 可W是像素的矩形成組或行。盡管在圖2中示出通過(guò)將二維圖像202的每個(gè)矩形塊轉(zhuǎn)換為 一維陣列206的像素區(qū)域204來(lái)將二維圖像202組裝為一維陣列206的集合的過(guò)程,但是 可使用任何類型的訪問(wèn)模式。例如,還可將二維圖像204的每個(gè)列組裝為ID陣列。
[0029] 與二維陣列的不規(guī)則模式相對(duì)的,通過(guò)步進(jìn)瓦工的該配置允許CPU102W線性順 序模式處理每個(gè)像素區(qū)域204。不規(guī)則存儲(chǔ)器訪問(wèn)模式可引起在處理中的延遲,因?yàn)樵撛L問(wèn) 模式不能W可預(yù)測(cè)方式被讀取或?qū)懭?。此外,存?chǔ)器系統(tǒng)可由各種大小和級(jí)的高速緩存構(gòu) 成,其中當(dāng)與更遠(yuǎn)離處理器的其他存儲(chǔ)器相比時(shí),更靠近處理器的高速緩存具有更快的訪 問(wèn)時(shí)間。通過(guò)將存儲(chǔ)器訪問(wèn)優(yōu)化為線性1D陣列,可利用處理階段來(lái)優(yōu)化和流水線化存儲(chǔ)器 性能。在實(shí)施例中,可從左到右或從右到左讀取像素區(qū)域204。隨著一個(gè)像素區(qū)域204正被 處理,可將在序列中的下一像素區(qū)域從存儲(chǔ)器儲(chǔ)存設(shè)備104傳輸?shù)礁咚倬彺?,而可W從高 速緩存移除先前已被處理的另一像素區(qū)域。
[0030] 經(jīng)由步進(jìn)瓦工引擎,可使用自動(dòng)遞增指令來(lái)快速訪問(wèn)一維陣列206的每個(gè)像素區(qū) 域204。例如,諸如通常在C++中使用的*data++之類的快速融合存儲(chǔ)器自動(dòng)遞增指令可訪 問(wèn)圖像數(shù)據(jù)的任何部分,而不使用特別存儲(chǔ)器訪問(wèn)模式。自動(dòng)遞增指令可使用基址和偏移 來(lái)訪問(wèn)數(shù)據(jù),其通常要求一個(gè)計(jì)算來(lái)找到在陣列中的目標(biāo)數(shù)據(jù)的地址。因此,當(dāng)與被用于訪 問(wèn)陣列中的數(shù)據(jù)的尋址模式相比時(shí),自動(dòng)遞增指令使能更快的存儲(chǔ)器訪問(wèn)。例如,使用C++, 將使用諸如data[x] [y]的指令來(lái)訪問(wèn)2D陣列,其中X表示行,并且y表示目標(biāo)數(shù)據(jù)的列。 然而,在獲得目標(biāo)數(shù)據(jù)地址之前,該樣的指令通常要求幾個(gè)計(jì)算。相應(yīng)地,當(dāng)與2D陣列相比 時(shí),將數(shù)據(jù)布置在順序的1D陣列中使能了更快的數(shù)據(jù)訪問(wèn)。
[0031] 圖3是圖示根據(jù)實(shí)施例的矩形組裝器300的圖。矩形組裝器300可W是可用于準(zhǔn) 備二維圖像用于存儲(chǔ)器緩沖的步進(jìn)瓦工中的引擎、命令或邏輯。矩形組裝器300可在二維 陣列302上操作W將它們組裝為一維陣列304或面積矢量。二維陣列302中的每個(gè)包含像 素區(qū)域,像素區(qū)域在一些實(shí)施例中可表示二維圖像的像素或像素的成組。二維陣列302中 的每個(gè)塊可W被給予對(duì)應(yīng)于在二維陣列302內(nèi)的像素區(qū)域的X和Y坐標(biāo)的命名。如上文討 論的,C++中用于訪問(wèn)像素區(qū)域的指令將是"data[x] [y]"。
[0032] 矩形組裝器300可將每個(gè)二維陣列302組裝為一維陣列304,使得W順序次序布置 每個(gè)陣列內(nèi)包含的塊,允許更快、更可預(yù)測(cè)的訪問(wèn)模式。如上文討論的,CPU可利用自動(dòng)遞 增機(jī)器指令形式來(lái)依次訪問(wèn)每個(gè)塊,其可在相同融合指令中執(zhí)行處理和存儲(chǔ)器遞增二者, 該比發(fā)出第一指令W改變或遞增存儲(chǔ)器地址并且發(fā)出第二指令W執(zhí)行處理更高效。例如, 用于訪問(wèn)塊的序列的C++軟件中的指令可包含指令"*data++",該將允許生成代碼來(lái)使用 自動(dòng)遞增指令形式W指示CPU在處理當(dāng)前塊之后訪問(wèn)每個(gè)隨后的塊。通過(guò)將行訪問(wèn)模式的 矩形格式化為封裝的線性1D陣列,步進(jìn)瓦工引擎提供高效的融合處理和存儲(chǔ)器自動(dòng)遞增 指令W及訪問(wèn)存儲(chǔ)器的增大速度,因?yàn)?D陣列可W是使得1D陣列能夠被保持為在高速緩 存中靠近處理器的大小。
[0033] 圖4A、4B和4C圖示了根據(jù)實(shí)施例使用矩形緩沖器線性處理圖像的示例。圖4A、 4B和4B圖示了使用具有將被處理的矩形區(qū)域的步進(jìn)瓦工引擎,該矩形區(qū)域可跨行緩沖器 的集合被移動(dòng)并且被包含在步進(jìn)瓦工快速高速緩存中。步進(jìn)瓦工引擎可在行被需要之前預(yù) 取行,W允許矩形組裝器W流水線方式將矩形區(qū)域預(yù)組裝為封裝線性1D陣列的集合用于 處理。行可W被預(yù)取并且存儲(chǔ)在作為用于提取矩形的容器的快速步進(jìn)瓦工高速緩存中。在 圖中,圖像400中的像素區(qū)域或遞增區(qū)域可W被切開并且指明為處理區(qū)域401、活動(dòng)緩沖器 402、收回緩沖器404和預(yù)取緩沖器406。該區(qū)域緩沖器中的每個(gè)的大小和形狀可W在處理 之前定義。
[0034]處理區(qū)域