專利名稱:一種整像素精度運動估計方法及其系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及數(shù)字圖像處理及數(shù)字視頻編解碼技術領域,尤其涉及一種整像素精度運動估計方法及其系統(tǒng)。
背景技術:
隨著信息產(chǎn)業(yè)的日新月異,人們對多媒體業(yè)務的需求也在急劇增長。在多媒體業(yè)務中,視頻應用因其巨大的數(shù)據(jù)量,對網(wǎng)絡帶寬和存儲空間提出了極高的要求,高效高質(zhì)量的視頻壓縮算法和結構越來越受業(yè)界青睞。由于視頻數(shù)據(jù)在空間和時間上都具有很強的相關性,視頻編碼算法通常采用幀內(nèi)編碼和幀間編碼來消除空間和時間的相關性,從而有效地減小冗余數(shù)據(jù)量。在幀間編碼中,運動估計(ME)發(fā)揮了至關重要的作用;良好的運動估計算法,能夠以極低的數(shù)據(jù)量,帶來非常良好的視頻編碼質(zhì)量。從早期的MPEG標準開始,到目前主流的視頻編解碼標準,大都采用了基于圖像塊進行的混合編碼方法。整像素運動估計(ME)是運動估計的主要部分,其主要作用是在參考圖像里尋找與當前圖像塊最匹配的位置。目前,運動估計的大多數(shù)算法都是基于軟件實現(xiàn)的,而且表現(xiàn)出了非常良好的性能,例如固定模式的快速捜索算法(三步、菱形等)、基于時空相關性和視覺特性的快速塊匹配。不過這些算法在硬件實現(xiàn)吋,由于結構復雜度以及存儲帶寬等要求,大多很難滿足芯片面積、功耗等設計約束。硬件實現(xiàn)中,全搜索是一種高質(zhì)量、結構容易實現(xiàn)的常見方法;但是因其計算量大,在實時性編碼方面,面臨很大的挑戰(zhàn)。尤其在高清和超高清等應用場合,在保證編碼質(zhì)量和壓縮效率的前提下,既要達到處理速度的要求,也要盡量節(jié)省資源開銷,從而降低功耗和成本。逐層漸進式搜索(也稱分級搜索、金字塔捜索)是對全捜索進行簡化后的ー種大范圍快速捜索途徑,可以對每層的搜索窗進行降采樣后,再使用全捜索。各層之間可以并行搜索,或者串行搜索。如何能在保證搜索準確度的同時,盡量節(jié)省搜索時間,提高搜索效率,是分層多分辨率搜索的ー個難點。在運動估計系統(tǒng)中,內(nèi)部緩存參考像素的存儲器既要在搜索過程中不斷輸出數(shù)據(jù)用來計算運動估計代價,還要及時從外部存儲器輸入?yún)⒖紨?shù)據(jù),以便準備好搜索窗數(shù)據(jù)給之后編碼的宏塊進行運動估計。此外,整像素精度運動估計和分數(shù)像素精度運動估計在參考數(shù)據(jù)方面,如何能有效地共用存儲空間,同時保證數(shù)據(jù)訪問效率,也是ー個問題。良好的數(shù)據(jù)訪問仲裁策略在運動估計方法中,是相當重要的。目前常見的方法是采用ping-pong方式或者使用兩份RAM解決數(shù)據(jù)訪問的需要,但是這樣RAM利用率只有50%左右,無疑在芯片設計等硬件實施中,帶來了很多新的困擾。
發(fā)明內(nèi)容
本發(fā)明解決的技術問題在于如何提高大范圍搜索運動估計的執(zhí)行效率,并盡可能緩解外部存儲器的帶寬訪問壓力。
為了解決以上問題,本發(fā)明公開了ー種整像素精度運動估計方法,基于逐層漸進式搜索,level-2、level-1、Ievel-O層的搜索步長依次為4、2、1,搜索精度逐層加強。為了滿足搜索步長的需要,在level-2層、Ievel-I層對搜索窗里的像素點進行16:1、4:1 ニ維降采樣,并在降采樣后的窗里執(zhí)行全捜索;ievei-o層執(zhí)行未降采樣的全捜索。每層采用雙路運動估計并行搜索模式,按照宏塊列進行逐列運動搜索(每路按照“弓”字型掃描半個宏塊列)。逐層漸進式搜索主要過程如下步驟I :獲取圖像級控制信息,并初始化參考數(shù)據(jù)窗,將運動估計使用的參考像素,分離為16種類型點的子集(記為Ptl, P1, , P15,或按16進制數(shù)記為Ptl, P1, , Pf),并按照奇、偶宏塊列分別存儲,其中每ー種類型點都是通過對參考圖像進行16:1 ニ維降采樣取得的;步驟2 :獲取宏塊級控制信息、當前編碼的原始宏塊、預測的運動矢量PMV,然后根據(jù)參考索引標志位,分別在相應的參考圖像內(nèi)進行3層漸進式運動估計,并更新參考數(shù)據(jù)窗;3層漸進式運動估計步驟如下
步驟3 :level-2層以原點O作為搜索中心,按照搜索范圍(SRx,SRy)劃定未降采樣的搜索窗W,然后將W平均劃分為16個子區(qū)域m . . .,W15)并行執(zhí)行16:1 ニ維降采樣捜索在每個子區(qū)域Wi (i = 0,I,. . .,15)里面,分別抽取一種類型像素點Pパj = 0,I,...,15),形成16:1 ニ維降采樣搜索子窗w' = 0,1,...,15) (16X16的宏塊降采樣為4x4的點陣),然后對降采樣后的子窗V i,按雙“弓”字型掃描逐個宏塊列,進行雙路并行全搜索,找到該子區(qū)域里的最優(yōu)W。步驟4 :level-l層從level-2層找到的16個最優(yōu)MV里面篩選出三個最優(yōu)的,カロ上預測的運動矢量(PMV),作為4個搜索中心(CtlX1X^C3),按照搜索范圍(SR' X,SR' y,)劃定4個未降采樣的捜索區(qū)域(Stl, S1, S2,S3),然后并行執(zhí)行4:1 ニ維降采樣搜索在每個區(qū)域SiQ = 0,1,2,3)里,分別抽取出間隔為2的4種類型的像素點Pj.、Pj.+2、Pj.+8、Pj.+1Q(j = 0,1,2,3),形成4:1 ニ維降采樣搜索窗s' 1(1=0,1,2,3),然后對降采樣后的搜索窗8' i;按雙“弓”字型掃描逐個宏塊列,進行雙路并行全捜索,找出該區(qū)域的最優(yōu)W。步驟5 :從Ievel-I層找到的4個最優(yōu)MV里面,篩選出最優(yōu)的I個,作為Ievel-O層的搜索中心,然后在其四周,利用所有類型像素點,劃定未降采樣的搜索窗,然后按雙“弓”字型掃描逐個宏塊列,執(zhí)行步長為I的雙路并行全捜索,找到整像素精度最優(yōu)MV ;在Ievel-O層搜索的同時,圍繞Ievel-O層搜索中心,預裝搜索窗給分數(shù)像素精度運動估計FME。三層的搜索窗都是可配置的,在高分辨或者運動劇烈時,可以調(diào)大捜索窗。在低分辨率或者運動平緩時,可以縮小捜索窗,或者跳過level-2、level-1兩層搜索,只執(zhí)行Ievel-O層搜索。優(yōu)選地,3層漸進式捜索吋,每層運動估計都按照雙路“弓”字型軌跡,掃描逐個宏塊列,在抽取出的類型點所形成的捜索窗里進行全捜索在level-2層,每個子區(qū)域按照16:1 ニ維降采樣搜索,16x16點的宏塊被抽取為4x4點陣,按照雙路“弓”字型掃描逐個宏塊列時,姆一路先橫向向右搜2個MV,然后下移一次,再橫向向左搜2個MV,然后下移一次,再橫向向右搜2個MV,如此繼續(xù)下去,直到掃描完一列;在Ievel-I層,每個區(qū)域按照4:1 ニ維降米樣搜索,16x16點的宏塊被抽取為8x8點陣,按照雙路“弓”字型掃描逐個宏塊列時,姆一路橫向每次搜4個MV ;在Ievel-O層,整個區(qū)域按照未降采樣執(zhí)行全捜索,按照雙路“弓”字型掃描逐個宏塊列吋,每一路橫向每次搜8個W。優(yōu)選地,3層漸進式搜索時,每層捜索的運動估計代價都是基于16種類型像素點的4x4點運動估計代價計算的。level-2層姆個子區(qū)域按照16:1 ニ維降采樣搜索時,16x16點的宏塊降采樣抽取后變?yōu)?x4點陣,每個子區(qū)域只抽取ー種類型像素點進行搜索,使用該類型像素點的4x4點SAD(以及由此得到的運動估計代價)進行比較和選擇最優(yōu)MV。在Ievel-I層每個區(qū)域按照4:1 ニ維降采樣搜索吋,16x1 6點的宏塊降采樣抽取后變?yōu)?x8點陣;每個區(qū)域抽取4種類型點進行搜索,使用這4種類型點的4x4點SAD (以及由此得到的運動估計代價)拼湊求和得出8x8點SAD(以及由此得到的運動估計代價)進行比較和選擇最優(yōu)MV
權利要求
1.一種整像素精度運動估計方法,其特征在于,包括如下步驟 步驟I:獲取圖像級控制信息,并初始化參考數(shù)據(jù)窗,將運動估計使用的參考像素,分離為16種類型點的子集(Ptl, P1, ...,P15),并按照奇、偶宏塊列分別存儲,其中每ー種類型點都是通過對參考圖像進行16:1 ニ維降采樣取得的; 步驟2 :獲取宏塊級控制信息、當前編碼的原始宏塊、預測的運動矢量PMV,然后根據(jù)參考索引標志位,分別在相應的參考圖像內(nèi)進行3層漸進式運動估計,并更新參考數(shù)據(jù)窗;3層漸進式運動估計步驟如下 步驟3 :level-2層以原點O作為搜索中心,劃定未降采樣的搜索窗W,然后將W平均劃分為16個子區(qū)域(Wtl, W1, ...,W15)并行搜索在每個子區(qū)域里面,分別抽取一種類型像素點,形成16:1 ニ維降采樣搜索子窗,并按雙“弓”字型掃描逐個宏塊列,對降采樣后的捜索子窗執(zhí)行雙路并行全捜索,找到該子區(qū)域里的最優(yōu)運動矢量MV ; 步驟4 :從level-2層找到的16個最優(yōu)MV里面篩選出三個最優(yōu)的,加上預測得到的運動矢量PMV,作為Ievel-I層的4個搜索中心,Ievel-I層在每個搜索中心四周劃定搜索區(qū)域并行搜索在每個區(qū)域里,分別抽取出4種類型的像素點,形成4:1 ニ維降采樣搜索窗,然后按雙“弓”字型掃描逐個宏塊列,對降采樣后的捜索窗執(zhí)行雙路并行全捜索,找出該區(qū)域的最優(yōu)MV ; 步驟5 :從Ievel-I層找到的4個最優(yōu)MV里面,篩選出最優(yōu)的I個,作為Ievel-O層的捜索中心,然后在其四周,利用所有類型像素點,劃定未降采樣的搜索窗,然后按雙“弓”字型掃描逐個宏塊列,執(zhí)行步長為I的雙路并行全捜索,找到整像素精度最優(yōu)MV ;在Ievel-O層搜索的同時,圍繞Ievel-O層搜索中心,預裝搜索窗給分數(shù)像素精度運動估計FME。
2.根據(jù)權利要求I所述的ー種整像素精度運動估計方法,其特征在干,每層運動估計都按照雙路“弓”字型軌跡掃描逐個宏塊列進行捜索在level-2層的16個子區(qū)域中,每個子區(qū)域里雙路并行,每路按照“弓”字型掃描時,橫向每次搜2個MV ;leVel-l層的4個區(qū)域里,每個區(qū)域里雙路并行,每路按照“弓”字型掃描時,橫向每次搜4個MV ;level-0層搜索窗里雙路并行,每路按照“弓”字型掃描時,橫向每次搜8個MV。
3.根據(jù)權利要求I所述的ー種整像素精度運動估計方法,其特征在于,每層搜索的運動估計代價都是基于16種類型像素點的4x4點運動估計絕對殘差和SAD計算的在level-2層進行16:1 ニ維降采樣搜索時,每個子區(qū)域分別使用一種類型點的4x4點SAD以及由此得到的運動估計代價進行MV比較和選擇;在Ievel-I層進行4:1 ニ維降采樣搜索吋,每個區(qū)域分別使用4種類型點的4x4點SAD拼湊求和得出8x8點SAD以及由此得到的運動估計代價進行MV比較和選擇;leVel-0層進行未降采樣全搜索時,先將每個類型點的4x4點SAD拆成4個2x2點SAD計算,按照在宏塊中的位置將它們拼湊求和,計算出原始宏塊按8x8分割時4個子塊的8x8點SAD以及由此得到的運動估計代價,進而拼湊求和獲得8x16,16x8,16x16塊模式的SAD以及由此得到的運動估計代價,然后分別進行各種塊分割模式的MV比較和選擇。
4.一種整像素精度運動估計系統(tǒng),其特征在于,包括如下部分 參考數(shù)據(jù)窗管理與地址映射模塊(201),一方面接收從外部存儲器輸入的搜索窗數(shù)據(jù),按照16種類型分別抽取出來,然后根據(jù)像素點類型及像素位于奇宏塊列還是偶宏塊列,換算寫地址,存入相應的奇、偶RAM(202);另一方面,對運動捜索或分數(shù)精度運動估計預裝窗的讀請求做出響應,換算讀地址,控制奇、偶RAM(202)輸出正確的參考數(shù)據(jù)到4x8點參考像素寄存陣列(203)或分數(shù)精度預裝窗模塊(209); 16對參考像素奇、偶RAM(202),在參考數(shù)據(jù)窗管理與地址映射模塊(201)的控制下,將運動估計的參考數(shù)據(jù)窗按16種類型點并劃分為奇、偶宏塊列進行存儲和更新;每ー對奇偶RAM對應了一種類型像素點,并且只向該類型對應的4x8點參考像素寄存陣列(203)加載參考數(shù)據(jù); 16個4x8點參考像素寄存陣列(203),每個對應ー種類型像素點,在運動搜索過程中,隨著運動矢量的上下左右移動,可以相應地按行進行上移、下移、從ー對奇偶RAM加載新數(shù)據(jù),或者按列進行循環(huán)左移、循環(huán)右移,從而參與計算SAD ;每ー個4x8點參考像素寄存陣列(203)只從該類型對應的奇、偶RAM(202)加載參考數(shù)據(jù),加載時,按照陣列當前所處的移動狀態(tài),先要對奇、偶RAM(202)給出的數(shù)據(jù)進行重排; 16個雙4x4點運動估計運算単元(204),分別對應16種類型的像素點,每ー個包括兩個用來計算4x4點SAD以及由此得到的運動估計代價的處理單元PE,這兩個PE共享ー個4x8點參考像素寄存陣列(203),對應同樣類型的像素點;兩個PE并行運算,可以同時計算出一種類型點的兩個4x4點SAD以及由此得到的運動估計代價;由這些基本的雙路運動估計單元,可以拼湊求和得出8x8、16x8、8xl6、16xl6塊模式的SAD以及由此得到的運動估計代價; I個16x16點原始像素寄存陣列(205),被所有運動估計單元(204)共享;外部輸入的原始宏塊數(shù)據(jù)預先緩存在ー個FIFO里,然后在每個宏塊的運動估計開始吋,從FIFO讀取到16x16點原始像素寄存陣列(205);在運動搜索過程中,隨著運動矢量的上下左右移動,可以相應地按行進行循環(huán)上移、循環(huán)下移,按列進行循環(huán)左移、循環(huán)右移,參與計算SAD ; level-2層搜索控制模塊(206),產(chǎn)生從奇、偶RAM(202)讀取搜索窗數(shù)據(jù)的地址、運動矢量MV、4x8點參考像素寄存陣列(203)和16x16點原始像素寄存陣列(205)的移動信號等信息,控制16個子區(qū)域進行16:1 ニ維降采樣搜索; Ievel-I層搜索控制模塊(207),產(chǎn)生從奇、偶RAM(202)讀取搜索窗數(shù)據(jù)的地址、運動矢量MV、4x8點參考像素寄存陣列(203)和16x16點原始像素寄存陣列(205)的移動信號等信息,控制4個區(qū)域進行4:1 ニ維降采樣搜索; Ievel-O層搜索控制模塊(208),產(chǎn)生從奇、偶RAM(202)讀取搜索窗數(shù)據(jù)的地址、運動矢量MV、4x8點參考像素寄存陣列(203)和16x16點原始像素寄存陣列(205)的移動信號等信息,控制其捜索區(qū)域內(nèi)進行未降采樣的全捜索; 分數(shù)像素精度運動估計預裝窗模塊(209),發(fā)起對奇、偶RAM(202)的訪問請求,從16種類型像素點的奇、偶RAM(202)獲取數(shù)據(jù),存入內(nèi)部包含的4個FIFO緩沖隊列;根據(jù)輪詢仲裁機制,依次選擇ー個FIFO,輸出數(shù)據(jù)給分數(shù)像素精度運動估計。
此外,還包括圖像級和宏塊級控制信息獲取、多個運動捜索通路調(diào)度、運動搜索通路控制及分層復用MUX、三層運動估計代價比較和最優(yōu)MV選擇、三層運動矢量有效性檢查等模塊。
5.根據(jù)權利要求4所述的ー種整像素精度運動估計系統(tǒng),其特征在于在參考數(shù)據(jù)的存儲和組織方面,將參考數(shù)據(jù)窗進行擴展,預存參考數(shù)據(jù)給隨后編碼的宏塊,并采用Z字型宏塊編碼模式,后編碼的宏塊,復用前一編碼宏塊的搜索窗數(shù)據(jù),平均每編碼3個宏塊,只需要更新一列窗數(shù)據(jù);場編碼吋,將頂場和底場的參考數(shù)據(jù)窗上下拼接起來,然后按照幀編碼的存儲方法存儲;多個參考索引的參考數(shù)據(jù)分別按照這種方式存儲和管理,從而支持圖像級幀場自適應PAFF編碼。
6.根據(jù)權利要求4所述的ー種整像素精度運動估計系統(tǒng),其特征在干,將參考數(shù)據(jù)擴展窗里的數(shù)據(jù)分為16種類型像素點分別存儲時,對于每種類型的像素點,按照其在參考數(shù)據(jù)擴展窗里位于奇宏塊列還是偶宏塊列,分別存儲在ー對奇、偶RAM里。
7.根據(jù)權利4所述的ー種整像素精度運動估計系統(tǒng),其特征在干,3層漸進式捜索串行完成,分時復用全部運動估計運算単元、參考像素存儲陣列、原始像素存儲陣列16個雙 4X4點運動估計單元,包含16個參考像素存儲陣列,分別對應了 16種類型像素點,按16進制數(shù)標記為0-9A-F,在level-2層16個子區(qū)域中,每個子區(qū)域分別使用I個雙4x4點運動估計運算單元進行雙路“弓”字型捜索;在Ievel-I層4個區(qū)域中,每個區(qū)域使用4個雙4x4點運動估計單元進行雙路“弓”字型捜索,區(qū)域I使用0、2、8、A,區(qū)域2使用1、3、9、B,區(qū)域3使用4、6、C、E,區(qū)域4使用5、7、D、D ;level-0層使用全部的雙4x4點運動估計單元進行雙路“弓”字型搜索。
8.根據(jù)權利4或6所述的ー種整像素精度運動估計系統(tǒng),其特征在干,3層漸進式捜索過程中,16種類型點的奇、偶RAM在每ー層進行分配,提高了運動估計內(nèi)部參考數(shù)據(jù)RAM的帶寬利用率,使運動估計可以高效并行地執(zhí)行l(wèi)eVel-2層16個子區(qū)域一一對應了 16種類型像素點,每個子區(qū)域在搜索過程中,只從I對奇偶RAM里面讀取參考像素,因此16個子區(qū)域可以并行捜索;Ievel-I層4個區(qū)域,每個區(qū)域分別包含4抽取4種類型像素點進行搜索和運算,并且只從4對奇偶RAM讀取參考像素,因此4個區(qū)域可以并行捜索;Ievel-O層只有一個搜索區(qū)域,使用全部像素點進行搜索和運算,并且從全部奇偶RAM讀取參考像素。
9.根據(jù)權利要求4所述的ー種整像素精度運動估計系統(tǒng),其特征在于,在Ievel-O層搜索過程中,圍繞Ievel-O層搜索中心,從整像素精度運動估計搜索窗里,劃定比Ievel-O層搜索窗大的數(shù)據(jù)子窗,作為分數(shù)像素精度運動估計FME的搜索窗;利用Ievel-O層搜索訪問奇、偶RAM的時間空隙,將子窗內(nèi)每種類型像素點取出,重新拼湊后,按行分別存入4個FIFO里;然后通過輪詢仲裁策略,從4個FIFO依次輸出每行宏塊數(shù)據(jù)給分數(shù)精度運動估計。
全文摘要
本發(fā)明公開了一種整像素精度運動估計方法及系統(tǒng),通過將搜索窗數(shù)據(jù)分為16種類型像素點并按奇偶宏塊列分別存入32片RAM里,并使用16個雙4x4點運動代價運算單元分別計算各種類型像素點的運動估計代價,然后在分層搜索時,對這些運算單元進行分配和組合,按照雙“弓”字型模式掃描逐個宏塊列,實現(xiàn)步長分別為4、2、1的逐層漸進式搜索。本發(fā)明通過參考數(shù)據(jù)窗存儲和管理機制,以及預存分數(shù)精度搜索窗等手段,降低了外部存儲器訪問帶寬,提高了內(nèi)部存儲器帶寬利用率,進而大大提高了運動搜索的并行度,并提高了大范圍搜索運動估計的執(zhí)行效率。同時減小了分層搜索硬件實現(xiàn)的復雜度,節(jié)省芯片面積。
文檔編號H04N7/26GK102647594SQ20121011568
公開日2012年8月22日 申請日期2012年4月18日 優(yōu)先權日2012年4月18日
發(fā)明者吉祥虎, 楊富強, 解曉東, 賈惠柱, 高文 申請人:北京大學