專利名稱:一種基于視覺的多視點視頻信號編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻信號處理技術(shù),尤其是涉及一種基于視覺的多視點視頻信號編碼方法。
背景技術(shù):
隨著計算機技術(shù)以及圖形圖像處理等多媒體技術(shù)的發(fā)展,尤其是近年來3D顯示技術(shù)的長足進步,使人們希望自由地選擇視點欣賞場景的愿望逐漸成為可能。這種自由視點視頻系統(tǒng)(FVV,F(xiàn)ree Viewpoint Video)在影視娛樂、教育、產(chǎn)品展示、醫(yī)療、安全監(jiān)控和虛擬現(xiàn)實等領(lǐng)域具有廣闊的應用前景,是下一代多媒體技術(shù)的核心。自由視點視頻是通過多相機系統(tǒng)進行捕獲,各視點獨立地接受來自同一場景的特定攝像點的視頻,并通過繪制技術(shù)來生成任意視點視頻,從而達到使人們能欣賞到任意位置視點圖像的目的。傳統(tǒng)的虛擬視點的繪制方法可以采用兩路彩色視頻信號進行繪制。而由于深度視頻中只有亮度信號需要編碼,相對于彩色視頻信號具有更小的碼流,因此采用基于深度圖的繪制技術(shù)(DIBR, Depth Image Based Rendering),更加適合于表示和實現(xiàn)FVV系統(tǒng)。由于單路視頻信號及對應的深度視頻僅允許在較小的范圍內(nèi)進行交互式地自由切換視點,所以國際標準化組織采用多路彩色視頻信號及對應多路深度視頻信號(MVD,MultiviewView plus Depth)來擴展FVV的視頻切換范圍。
圖1是用多路彩色視頻信號及對應多路深度視頻信號表示和實現(xiàn)的FVV的框圖。從該框圖可以看出,自由視點視頻的核心技術(shù)是多視點視頻信號編解碼和實時的圖像繪制。和傳統(tǒng)的單通道視頻相比,多視點視頻中彩色視頻的數(shù)據(jù)量隨著相機數(shù)量的增加而成倍增長,且每幅彩色視頻圖像都對應一幅深度圖,使得MVD的數(shù)據(jù)量更為驚人。為了能有效存儲、傳輸MVD信號,并且在應用中能實現(xiàn)用戶和系統(tǒng)之間的交互操作、視點間的自由切換,必須對多視點視頻信號進行高效的壓縮。目前,很多FVV系統(tǒng)框架中的多視點視頻信號編碼壓縮方法中采用了如圖2所示的分層B幀(HBP,HierarchicalB Pictures)預測編碼結(jié)構(gòu)。HBP結(jié)構(gòu)除了采用運動估計消除時間上的信號冗余外,還采用了視差估計來消除視點間的空間冗余,能夠?qū)Χ嘁朁c視頻信號進行較好的壓縮。JMVM(Joint Multiview Video Model)是國際標準組織的聯(lián)合視頻編碼組JVT用于多視點視頻編碼研究的基于H. 264編碼標準的多視點視頻編碼校驗模型。在JMVM中,編碼量化策略是根據(jù)B幀所在層次決定的,具體的方案是如果基準量化步長參數(shù)BasicQP確定,那么其它編碼幀的量化步長參數(shù)QP是通過QP = QPX+C得到的。1表示在HBP結(jié)構(gòu)中的幀層次,當1 = 1時,QP1 = BasicQP, C = 3;當1>1時,C=l。通過這種分幀層量化的方法可以獲得較高的編碼效率。然而,在JMVM校檢模型中,編碼也僅僅是從傳統(tǒng)的空間、時間和視點間的信號冗余的角度出發(fā),而沒有挖掘視頻圖像中大量存在的視覺冗余。大量人類視覺生理學和視覺心理學實驗表明,針對一幅視頻圖像,人眼對其中的內(nèi)容并非一視同仁, 而是往往表現(xiàn)出選擇性和遷移性,即人眼會下意識地或者有意地將一幅圖像劃分為若干個不同的區(qū)域,并將注意力集中在人眼比較感興趣的區(qū)域;如果感興趣區(qū)域不止一個的話,注
5意力在這些區(qū)域中也往往會有個遷移的過程,即注意力首先集中在最感興趣的區(qū)域,一定的時間段之后再轉(zhuǎn)移到次感興趣的區(qū)域,依次類推,當人眼關(guān)注度比較低的區(qū)域發(fā)生某些變化時,甚至不能引起人眼的察覺。人類視覺的這種特性對圖像觀察者理解圖像內(nèi)容和評價圖像質(zhì)量起著至關(guān)重要的作用。因此,在編碼過程中充分考慮人類視覺特性,有助于在保證人眼的主觀視覺效果的同時提高編碼壓縮效率。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種基于視覺的多視點視頻信號編碼方法,根據(jù)人眼視覺特性劃分視頻圖像中人眼感興趣區(qū)域,并以此為基礎(chǔ),對人眼感興趣區(qū)域和非感興趣區(qū)域采用不同的量化參數(shù)進行編碼,以提高多視點視頻信號編碼效率。本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案為一種基于視覺的多視點視頻信號編碼方法,其特征在于首先建立被編碼的視頻圖像的視覺顯著性圖以對視頻圖像感興趣區(qū)域進行劃分,在其后的編碼過程中,在人眼比較感興趣的區(qū)域分配較多的碼率,而在人眼不太感興趣的區(qū)域分配較少的碼率,具體包括以下步驟①計算得到靜態(tài)視覺的亮度顯著性圖A1、顏色顯著性圖Ah,s和方向顯著性圖A0 Al.記多視點視頻中當前正在處理的t時刻的彩色圖像為Ct,把彩色圖像Ct轉(zhuǎn)換到HSI彩色空間表示,彩色圖像Ct的色調(diào)分量表示為C〗、彩色圖像Ct的飽和度分量表示為 α,彩色圖像Ct的亮度分量表示為Ci ;采用Gabor方向濾波器對彩色圖像Ct的亮度分量Qi 進行濾波,得到彩色圖像Ct在0°、45°、90°和135°四個方向的方向分量,分別記為C;、 ^45°、^^90。禾口Cl35。;A2.對彩色圖像 Ct 的每一個圖像分量CLP G {H,s,l,0°,45°,90°,135° },分別進行高斯金字塔運算,得到彩色圖像Ct的各個圖像分量的不同層次的圖像特征圖, 1 彡 η 彡 8,這里,C; [n) = SubSamplelCpin -1) * Gaussian],其中為第 η 層高斯金字塔運算的結(jié)果,Gaussian是高斯函數(shù)卷積核,符號“*”表示卷積運算,SubSample [Image]表示對輸入圖像Image的水平和垂直方向均進行1/2下采樣;當η = 1時,即為G ;A3.對于彩色圖像Ct的各個圖像分量匸丨,計算其高斯金字塔不同層次的圖像特征圖的 Center-Surround 差異Ctp(U),CP(iJ) = ^(1^(^,其中,0(,+)和巧⑴分別表示
彩色圖像Ct的圖像分量0丨的高斯金字塔第i層和第j層的圖像特征圖,i e {2,3,4}, j = i+d,d e {3,4};符號“ Θ ”表示將第j層的圖像特征圖C〗(_/+)上采樣到第i層的圖像特征圖的尺寸大小,然后將這2幅圖像特征圖對應像素點進行相減,“| · |”表示取絕對值;A4.對于彩色圖像Ct的亮度分量Ci,對其6幅Center-Surround差異計算結(jié)果 Ci(2,5)、Ci(2,6)、C!(3,6)、C!(3,7)、C;(4,7) , C!(4,8)進行 Across-Scale 融合,即
_ 4 i+4
Z1 =gg3AT[Ci(/,_/+)],其中,y表示局部迭代歸一化過程,若令M是局部迭代歸一化過
程的輸入圖像,則AT[M] = LM+M*ZXX -C」,這里DOG是高斯差分函數(shù),c是一個常量,
符號“*”表示卷積運算;符號“ φ ”表示先將6幅Center-Surround差異計算結(jié)果局部迭
代歸一化后得到的圖像A^Cia/)]均下采樣到高斯金字塔中第4層圖像特征圖的尺寸大
小,即長寬均為彩色圖像Ct長寬的1/16,然后將經(jīng)上述處理后的6幅Center-Surround差異計算結(jié)果相加;對于彩色圖像Ct的色調(diào)分量C〗和飽和度分量C〗,對其12幅 Center-Surround 差異計算結(jié)果CM2,5)、C^(2,6) , C; (3,6), ^(3,7)<(4,7) , C; (4,8) 以及 C〗(2,5)、C〗(2,6)、C〗(3,6)、C〗(3,7)、C〗(4,7)、C^(4,8)進行
權(quán)利要求
1. 一種基于視覺的多視點視頻信號編碼方法,其特征在于首先建立被編碼的視頻圖像的視覺顯著性圖以對視頻圖像感興趣區(qū)域進行劃分,在其后的編碼過程中,在人眼比較感興趣的區(qū)域分配較多的碼率,而在人眼不太感興趣的區(qū)域分配較少的碼率,具體包括以下步驟①計算得到靜態(tài)視覺的亮度顯著性圖A1、顏色顯著性圖Ah,s和方向顯著性圖A0 Al.記多視點視頻中當前正在處理的t時刻的彩色圖像為Ct,把彩色圖像Ct轉(zhuǎn)換到 HSI彩色空間表示,彩色圖像Ct的色調(diào)分量表示為C〗、彩色圖像Ct的飽和度分量表示為 Cl,彩色圖像Ct的亮度分量表示為C!;采用Gabor方向濾波器對彩色圖像Ct的亮度分量 Ci進行濾波,得到彩色圖像Ct在0°、45°、90°和135°四個方向的方向分量,分別記為Ct Ct Ct in Ct .v^qo、 ^45°、 ^90° ‘ ^135°,A2.對彩色圖像Ct的每一個圖像分量CLP G {H, S, 1,0°,45°,90°,135° },分別進行高斯金字塔運算,得到彩色圖像Ct的各個圖像分量的不同層次的圖像特征圖Ctp(Ti), 1彡η彡8,這里,<^( )=汝辦&—財<^( -1)*(^"她《 ],其中G(W)為第η層高斯金字塔運算的結(jié)果,Gaussian是高斯函數(shù)卷積核,符號“*”表示卷積運算,SubSample [Image]表示對輸入圖像Image的水平和垂直方向均進行1/2下采樣;當n= 1時,即為Ctp;A3.對于彩色圖像Ct的各個圖像分量6計算其高斯金字塔不同層次的圖像特征圖的 Center-Surround 差異 Ctp(U), G(U) =,其中,^⑴和分別表示彩色圖像Ct的圖像分量C丨的高斯金字塔第i層和第j層的圖像特征圖,i e {2,3,4}, j = i+d,de {3,4};符號“Θ”表示將第j層的圖像特征圖GC/+)上采樣到第i層的圖像特征圖的尺寸大小,然后將這2幅圖像特征圖對應像素點進行相減,“| · |”表示取絕對值; A4.對于彩色圖像Ct的亮度分量C!,對其6幅Center-Surround差異計算結(jié)果 Ci(2,5)、Ci(2,6)、C!(3,6)、C;(3,7), C;(4,7) , C!(4,8)進行 Across-Scale 融合,即一4 i+4Γ-ιZ1_/+)],其中,y表示局部迭代歸一化過程,若令M是局部迭代歸一化過程的輸入圖像,則AT[M] = LM+M*ZXX -C」,這里DOG是高斯差分函數(shù),c是一個常量, 符號“*”表示卷積運算;符號“ Θ ”表示先將6幅Center-Surround差異計算結(jié)果局部迭代歸一化后得到的圖像AT[Ci(/,_/+)]均下采樣到高斯金字塔中第4層圖像特征圖的尺寸大小,即長寬均為彩色圖像Ct長寬的1/16,然后將經(jīng)上述處理后的6幅Center-Surround 差異計算結(jié)果相加;對于彩色圖像Ct的色調(diào)分量C〗和飽和度分量C〗,對其12幅 Center-Surround 差異計算結(jié)果 G(2,5)、¢^(2,6)、C^1 (3,6), C^1 (3,7)C^1 (4,8)以及 C〗(2,5)、C〗(2,6)、C〗(3,6)、ClO,7)、C〗(4,7)、C^(4,8)進行 Across-Scale融合,即ΑΗβ = Θ旦(i, j)] + Ai[Cs (/, _/+)Jj ;對于彩色圖像Ct的四個方向分量 Ct0O、Ct45O、Ct90O 和 C1;,對其 M 幅 Center-Surround 差異計算結(jié)果進行 Across4cale 融合,—Γ 4 i+4~即
2.根據(jù)權(quán)利要求1所述的一種基于視覺的多視點視頻信號編碼方法,其特征在于所述的步驟④中的亮度特征、顏色特征、方向特征、運動特征和深度特征的權(quán)重系數(shù)α、β、Y、 λ 和 η 的取值分別是 α = 0. 3、β = 0. U γ = 0. 1、λ = 0. 4 和 η = 0. 1。
3.根據(jù)權(quán)利要求1所述的一種基于視覺的多視點視頻信號編碼方法,其特征在于所述的步驟⑤中 α 丄=6. 27,β 丄=-0. 10 ; α 2 = -2. 75,β2 = -52. 10, Y2 = 18. 3, ω2 = 4. 17 ; α 3 = -0. 05, β 3 = "δ- 57,Y3 = 3. 21 ; μ = 0· 08。μ·Τ-bWmax-WmiJ是彩色圖像Ct的第
全文摘要
本發(fā)明公開了一種基于視覺的多視點視頻信號編碼方法,通過建立被編碼的視頻圖像的視覺顯著性圖對視頻圖像感興趣區(qū)域進行劃分,在其后的編碼過程中,在人眼比較感興趣的區(qū)域采用較小的編碼量化參數(shù),而在人眼不太感興趣的區(qū)域采用較大的編碼量化參數(shù)。雖然本發(fā)明在人眼關(guān)注度比較低的區(qū)域分配較少的碼率,但這些區(qū)域由于編碼所造成的失真不會或很少引起人眼的察覺,因而對圖像整體質(zhì)量的影響并不明顯,而與此同時卻極大地節(jié)省了碼率;而在人眼關(guān)注度比較高的區(qū)域分配較多的碼率,可以提高解碼圖像的整體主觀視覺質(zhì)量,從而提高多視點視頻信號編碼效率。
文檔編號H04N7/50GK102158712SQ201110069318
公開日2011年8月17日 申請日期2011年3月22日 優(yōu)先權(quán)日2011年3月22日
發(fā)明者盧小明, 彭宗舉, 蔣剛毅, 邵楓, 郁梅 申請人:寧波大學