專利名稱:基于多顯示支持多視圖視頻對象的編碼設備和方法以及使用這種編碼設備和方法的基于 ...的制作方法
技術領域:
本發(fā)明涉及基于多顯示支持多視圖視頻對象的編碼設備和方法,以及使用基于多視圖視頻對象的編碼設備和方法的基于對象的發(fā)送/接收系統(tǒng)和方法;并且,更具體地說,涉及通過傳輸相應顯示模式的必需編碼位流,并利用涉及具有可編碼結構的形狀或紋理的運動和差異技術,可以消除時間和空間冗余的基于多視圖視頻對象的編碼設備和方法,以及使用基于多視圖視頻對象的編碼設備和方法的基于對象的發(fā)送/接收系統(tǒng)和方法。
背景技術:
二維圖像是由在單一時間軸上的單目圖像組成的,而三維圖像是由在單一時間軸上具有兩個或多個視圖的多視像組成的。在多視圖視頻的編碼方法中,有一種雙目視頻編碼方法,它能編碼對應于雙目的兩個視圖的視頻圖像,以顯示立體的圖像。執(zhí)行非基于對象編碼和解碼的MPEG-2MVP是一種非基于對象的雙目視頻編碼的代表性方法。它的基層具有與MPEG-2主要檔次(main profile,MP)的基層相同的結構,其中,只利用右眼圖像和左眼圖像之中的一個圖像來執(zhí)行編碼。因此,以MPEG-2 MVP方法編碼的圖像可以用傳統(tǒng)的二維視頻解碼器進行解碼,并且它還可以應用于傳統(tǒng)的二維視頻顯示模式中??傊?,它與傳統(tǒng)的二維視頻系統(tǒng)是兼容的。
利用右圖像和左圖像之間的相關信息對增強層的圖像進行編碼。也就是說,MPEG-2 MVP方法是基于使用時間可量測性(scalability)的編碼器。而且,基層和增強層輸出基于幀的兩信道位流,每一個分別對應于右眼圖像和左眼圖像。與雙目三維視頻編碼相關的當前技術是基于第二層MPEG-2MVP編碼器。而且,與基層和增強層中右眼圖像和左眼圖像相對應的基于幀的兩信道技術也是基于兩信道的MPEG-2 MVP編碼器。
1997年3月18日授權的專利號為5,612,735的美國專利“利用兩個差異估計的數(shù)字3D/立體視頻壓縮技術”中公開了相關的技術。如圖1所示,該專利涉及利用時間可量測性的非基于對象的編碼方法,并且,利用運動補償和基于DCT的算法對基層中左眼圖像進行編碼,利用基層和增強層之間的差異信息對增強層中右眼圖像進行編碼,而不使用右眼圖像之間的運動補償。
圖1是表示被執(zhí)行兩次的估計差異補償?shù)膫鹘y(tǒng)方法的示圖。在圖中,I、P和B表示在MPEG標準中定義的三個屏幕類型。屏幕I(內部編碼的)只存在于基層中,并且該屏幕是不利用運動補償?shù)暮唵尉幋a。在屏幕P(被預測的)中,利用屏幕I或另一個屏幕P來執(zhí)行運動補償。在屏幕B(兩向預測編碼的)中,利用存在于時間軸上該屏幕B之前和之后的兩個屏幕來執(zhí)行運動補償?;鶎又械木幋a順序與MPEG-2 MP的編碼順序相同。
在增強層中,只存在屏幕B。利用相同時間軸上存在的幀和該幀之后存在的屏幕的差異補償對屏幕B進行編碼。
在1997年4月8日授權的,專利號為5,619,256的美國專利“利用差異和運動補償預測的數(shù)字3D/立體視頻壓縮技術”中公開了相關的現(xiàn)有技術。專利號為5,619,256的美國專利的方法也是非基于對象的。它利用時間的可量測性,通過使用運動補償和基于DCT的算法,對基層中的左眼圖像進行編碼,而在增強層中,它使用了右眼圖像之間的運動補償以及基層和增強層之間的差異信息。
如上所示,有各種用于運動補償和差異補償?shù)墓烙嫹椒▉韴?zhí)行編碼。圖2的方法表示了用于估計運動和差異補償?shù)膫鹘y(tǒng)方法,是一種公知的代表性的估計方法。在圖2的基層中,以與圖1估計方法相同的方法執(zhí)行屏幕估計。從基層的屏幕I估計增強層中的屏幕P,以執(zhí)行差異補償。而且,從在相同增強層中之前的屏幕以及相同時間軸上基層的屏幕來估計增強層中的屏幕B,以執(zhí)行運動補償和差異補償。
當接收終端使用二維單目顯示模式時,這兩種現(xiàn)有技術僅傳輸從基層輸出的位流,而當接收終端采用三維基于幀的時間延遲顯示模式時,傳輸從基層和增強層輸出的全部位流以恢復圖像。但是,當接收終端的顯示模式是三維基于場的時間延遲顯示模式時,這是大多數(shù)PC中采用的模式,在這兩個專利中的方法的問題是,在解碼器中,圖像恢復的量和解碼時間延遲增加了,傳輸效率降低了,因為無關緊要的數(shù)據(jù),即左眼圖像的偶數(shù)場對象和右眼圖像的奇數(shù)場圖像,應該被丟棄。
有一種視頻編碼方法是減小右眼和左眼圖像一半,并將右和左兩個信道圖像轉換成一個信道圖像。為此,1996年2月在加利福尼亞召開的第七屆立體顯示和應用會議的SPIE會議論文集第2653a卷上,作者Andrew Wood,Tom Docherty和Rolf Koch發(fā)表的“3D視頻標準轉換”論文中公開了5種方法。
與上述技術相關,在1997年5月27日授權的專利號為5,633,682的美國專利“立體編碼系統(tǒng)”中建議了一種方法。傳統(tǒng)二維視頻圖像的非基于對象的MPEG編碼是通過選擇左眼圖像的奇數(shù)場和右眼圖像的偶數(shù)場,并將兩信道圖像轉換成一個信道圖像來實現(xiàn)的。該方法的優(yōu)點是,可以使用二維視頻圖像的傳統(tǒng)MPEG編碼,并且當在編碼過程中執(zhí)行場估計時,可以自然地使用運動和差異信息。但是,在執(zhí)行幀估計的情況下,只使用了運動信息,而沒有考慮差異信息。再者,當執(zhí)行場估計時,雖然多數(shù)的相關圖像是存在于相同時間軸上的圖像,但是,屏幕B是從存在于該屏幕B之前和之后的屏幕I和屏幕P估計出來以執(zhí)行差異補償?shù)?,雖然多數(shù)相關圖像不是屏幕I和P,而是另一部分中相同時間軸上的另一個屏幕。
另外,該方法考慮基于場的時間延遲來根據(jù)場一個一個地顯示右圖像和左圖像,以形成三維視頻圖像。因此,該方法不適合基于幀的時間延遲顯示模式,因為其中右眼和左眼圖像會被同時顯示。于是,在該技術領域,要求這樣一種方法,該方法采用基于對象的編碼器和解碼器,并依據(jù)接收部分的顯示模式,如二維單目顯示模式或三維視頻基于場/幀的時間延遲顯示模式,通過僅傳輸必需的位流來恢復圖像。
發(fā)明內容
因此,本發(fā)明的一個目的是提供一種基于對象的編碼設備和方法,其中用于右眼和左眼的一對多視圖對象圖像被分離成偶數(shù)和奇數(shù)場對象,并且編碼/解碼是利用形狀和紋理的基于對象的編碼/解碼方法,以便給多視圖視頻以立體效果,還提供了一種使用基于對象的編碼設備和方法的基于對象的發(fā)送/接收系統(tǒng)。
依據(jù)本發(fā)明的一個方面,提供了一種基于多顯示支持多視圖視頻對象的編碼設備,包括形狀提取裝置,分別從外部接收左眼圖像對象視頻(L)和右眼圖像對象視頻(R),并提取左對象圖像(LS)和右對象圖像(RS),以提取多視圖視頻的形狀信息;數(shù)據(jù)分離裝置,從外部接收右/左眼圖像對象視頻(L/R)和從形狀提取裝置中發(fā)送的右/左形狀(LS/RS)信息,并且將這些視頻和形狀信息分離成奇數(shù)場對象和偶數(shù)場對象,以便僅傳輸用于多視圖視頻的顯示模式的必需位流;形狀補償裝置,補償由數(shù)據(jù)分離裝置分離成奇數(shù)場和偶數(shù)場的形狀信息((LO,LE)/(RO,RE)對象的形狀)的失真;以及基于對象的編碼裝置,接收從形狀補償裝置輸入的基于對象的信息和從數(shù)據(jù)分離裝置輸入的基于對象的信息,形成四個層,即LO流、LE流、RO流和RE流,并基于形狀編碼和形狀紋理來執(zhí)行運動和差異估計,以對分離成奇數(shù)行和偶數(shù)行的基于對象的數(shù)據(jù)進行編碼。
依據(jù)本發(fā)明的一個方面,提供了一種基于多顯示支持多視圖視頻對象的編碼方法,并應用到基于多視圖視頻對象的編碼設備,包括步驟a)分別從外部接收左眼圖像對象視頻(L)和右眼圖像對象視頻(R),并提取左對象圖像(LS)和右對象圖像(RS),以提取多視圖視頻的形狀信息;b)從外部接收左眼圖像對象視頻(L)和右眼圖像對象視頻(R),以及從步驟a)發(fā)送來的右/左形狀(LS/RS)信息,并且將這些視頻和形狀信息分離成奇數(shù)場和偶數(shù)場對象,以便僅發(fā)送多視圖視頻的顯示模式的必需位流;c)補償被分離成奇數(shù)場和偶數(shù)場的形狀信息((LO,LE)/(RO,RE)對象的形狀)的失真;以及d)接收所補償?shù)幕趯ο蟮男畔⒑退蛛x的基于對象的信息,形成四個層,即LO流、LE流、RO流和RE流,并基于形狀編碼和形狀紋理執(zhí)行運動和差異估計,以便對被分離成奇數(shù)行和偶數(shù)行的基于對象的數(shù)據(jù)進行編碼。
依據(jù)本發(fā)明的一個方面,提供了一種基于多顯示支持多視圖視頻對象的發(fā)送系統(tǒng),包括基于對象的編碼裝置,分別從外部接收右眼和左眼的右和左兩個信道的視頻(L和R),并將這些視頻分離成奇數(shù)場和偶數(shù)場對象,即左眼圖像的奇數(shù)場對象(LO),右眼圖像的偶數(shù)場對象(RE),左眼圖像的偶數(shù)場對象(LE),以及右眼圖像的奇數(shù)場對象(RO),從這些分離的場對象中形成主層和子層,并執(zhí)行編碼,以便根據(jù)雙目三維視頻顯示模式,僅傳輸發(fā)送/接收終端所需要的必需位流;以及系統(tǒng)多路復用裝置,用于接收從基于對象的編碼裝置發(fā)送來的左眼圖像的奇數(shù)場對象(LO)的位流,右眼圖像的偶數(shù)場對象(RE)的位流,左眼圖像的偶數(shù)場對象(LE)的位流,和右眼圖像的奇數(shù)場對象(RO)的位流,以及用戶顯示信息,并且僅多路復用必需的位流。
依據(jù)本發(fā)明的一個方面,提供了一種基于多顯示支持多視圖視頻對象的接收系統(tǒng),包括系統(tǒng)多路分解裝置,基于用戶顯示模式多路分解從外部傳輸來的位流,并將多路分解的位流輸出為多信道位流;基于對象的解碼裝置,用于基于用戶顯示模式對多個信道(即2信道或4信道)的基于對象的位流進行解碼;以及顯示裝置,根據(jù)來自用戶的請求執(zhí)行二維視頻顯示或基于雙目場/幀的時間延遲顯示,以便顯示由基于對象的視頻解碼裝置所恢復的視頻。
依據(jù)本發(fā)明的一個方面,提供了一種基于多顯示支持多視圖視頻對象的發(fā)送方法,包括步驟a)從外部接收右眼和左眼的右和左兩個信道圖像(L和R),并將這些圖像分離成奇數(shù)場和偶數(shù)場對象,即左眼圖像的奇數(shù)場對象(LO),右眼圖像的偶數(shù)場對象(RE),左眼圖像的偶數(shù)場對象(LE)和右眼圖像的奇數(shù)場對象(RO),形成被分離的場對象的主層和子層,并執(zhí)行編碼,以便根據(jù)雙目三維視頻顯示模式僅傳輸發(fā)送/接收終端所必需的位流;以及b)接收場對象的編碼的位流,即左眼圖像的奇數(shù)場對象(LO)的位流,右眼圖像的偶數(shù)場對象(RE)的位流,左眼圖像的偶數(shù)場對象(LE)的位流,和右眼圖像的奇數(shù)場對象(RO)的位流,以及用戶顯示信息,并且只多路復用必需的位流。
依據(jù)本發(fā)明的一個方面,提供了一種基于多顯示支持多視圖視頻對象的接收方法,包括步驟a)基于用戶顯示模式多路分解從系統(tǒng)多路復用單元發(fā)送來的位流,并將多路分解的位流輸出為多信道位流;b)基于用戶顯示模式對多信道(即2信道或4信道)輸入的基于對象的位流進行解碼;以及c)當接收到來自用戶的請求時,執(zhí)行二維視頻顯示或基于雙目場/幀的時間延遲顯示,以顯示在步驟b)恢復的圖像。
本發(fā)明的方法考慮了三種顯示模式,即對于用戶終端顯示的基于場的時間延遲顯示模式、基于幀時間延遲顯示模式和二維單目顯示模式。通過在其它多視像中選擇適合雙目條件的一對對象視頻圖像來獲得多視圖雙目的立體效果。通過利用形狀和紋理的運動和差異估計的基于對象的雙目視頻編碼方法來對兩視像進行編碼。
在編碼之前,每個右和左對象視頻圖像被劃分成四個場對象,每個視頻圖像的奇數(shù)行和偶數(shù)行,并利用形狀和紋理的運動和差異信息進行編碼。在四個編碼的位流中,只有被用戶顯示模式所要求的必需位流才被多路復用和發(fā)送。在接收端,雖然接收到四個位流的一部分,但是基于要求的用戶顯示模式,要將所接收的位流多路分解,并且恢復圖像。在接收端使用基于三維視頻場的時間延遲顯示模式和二維視頻顯示模式的情況下,基于MPEG-2 MVP的雙目三維解碼設備請求所有數(shù)據(jù)傳輸?shù)狡渲校@里該解碼設備利用從基層和增強層輸出的全部兩個編碼的位流來執(zhí)行解碼,雖然它應該丟棄一半的傳輸數(shù)據(jù)。因此,傳輸效率降低了,且解碼的時間變長了。
另一方面,本發(fā)明的編碼設備僅發(fā)送由每個用戶顯示所要求的必需場對象以進行解碼,因此,使得由于不必要數(shù)據(jù)傳輸造成的不必要的信道占用最小化,并使得解碼時間的延遲最小化。
編碼和解碼方法采用多層編碼技術,其中右和左圖像的奇數(shù)場和偶數(shù)場對象因此被輸入以形成四個編碼層。基于場對象之間的估計關系,這四層被分為主層和子層。接收端能夠只利用與主層相應的場對象的編碼位流執(zhí)行解碼。與子層相應的場對象的位流不能被單獨解碼,但可以依賴于主層自身的位流被解碼。
以下說明主層和子層的結構。左眼圖像的奇數(shù)場對象被當作主層,并被獨立編碼/解碼。然后,右眼圖像的偶數(shù)場對象,左眼圖像的偶數(shù)場對象和右眼圖像的奇數(shù)場對象成為第一子層、第二子層和第三子層。這些子層使用主層和其它子層的信息。
基本上,傳輸在主層中被編碼的左眼圖像的奇數(shù)場對象位流,而與用戶的顯示模式無關。在用戶使用基于場的時間延遲顯示模式的情況下,從主層和第一子層輸出的位流被多路復用并被傳輸,而在他使用基于幀的時間延遲顯示模式的情況下,從主層和所有三個子層輸出的位流被多路復用和被傳輸。而且,在用戶使用二維視頻顯示的情況下,通過傳輸從主層和第二子層輸出的位流,只有左眼圖像被恢復并被顯示。雖然當編碼/解碼子層時,不能使用所有存在的對象信息,但是,該方法對于將三維圖像傳輸給沒有雙目顯示設備的那些來說是有用的,因為該圖像被轉換成了二維視頻。
因此,通過增大傳輸效率和簡化解碼過程,基于對象的編碼/解碼設備具有減小顯示延遲的作用,因為依據(jù)用戶的顯示模式,即二維單目顯示模式或基于雙目視頻場/幀的時間延遲顯示模式,僅傳輸必需位流以使接收端執(zhí)行解碼。
結合附圖,從下面對給定優(yōu)選實施例的說明中,本發(fā)明的上述和其它目的和特點將變得更加清楚,其中圖1是表示執(zhí)行了兩次的估計差異補償?shù)膫鹘y(tǒng)方法的示圖;圖2是說明估計運動和差異補償?shù)膫鹘y(tǒng)方法的示圖;圖3是描述依據(jù)本發(fā)明實施例的基于多視圖視頻對象的編碼設備的結構的方框圖;圖4是表示依據(jù)本發(fā)明實施例,使用基于多視圖視頻對象的編碼設備的基于對象的發(fā)送/接收系統(tǒng)的結構的方框圖;圖5是表示依據(jù)本發(fā)明實施例,將對象圖像分離成奇數(shù)場對象和偶數(shù)場對象的奇數(shù)/偶數(shù)場對象分離器的示例圖;圖6是說明依據(jù)本發(fā)明實施例,估計支持三維或二維視頻顯示的形狀和紋理運動和差異補償?shù)姆椒ǖ氖緢D;圖7是表示依據(jù)本發(fā)明實施例,基于雙目場的時間延遲顯示方法的示例圖;圖8是表示依據(jù)本發(fā)明實施例,基于雙目幀的時間延遲顯示方法的示例圖;和圖9是解釋依據(jù)本發(fā)明的二維單目顯示方法的示例圖;具體實施方式
結合附圖,從以下對實施例的說明中,本發(fā)明的其它目的和方面將變得更加清楚。
圖3是描述依據(jù)本發(fā)明實施例,基于多視圖視頻對象的編碼設備的結構的方框圖。如圖所示,本發(fā)明的基于多視圖視頻對象的編碼設備包括形狀提取單元31,用于從外部接收左眼圖像對象視頻(L)和右眼圖像對象視頻(R),分別提取左對象圖像(LS)和右對象圖像(RS),以提取多視圖三維視頻的形狀信息;數(shù)據(jù)分離單元32,用于從外部接收左眼圖像對象視頻(L)和右眼圖像對象視頻(R),以及從形狀提取單元31發(fā)送的右/左形狀(LS/RS)信息,并將它們分離成奇數(shù)場和偶數(shù)場對象,以便僅發(fā)送雙目三維視頻顯示模式需要的必需位流;形狀補償單元33,用于補償由數(shù)據(jù)分離單元32分離為奇數(shù)場和偶數(shù)場的形狀信息((LO,LE)/(RO,RE)對象的形狀)的失真;以及基于四層對象的編碼單元34,用于接收從形狀補償單元33輸入的基于對象的信息和從數(shù)據(jù)分離單元32輸入的基于對象的信息,形成四個層,即LO流、LE流、RO流和RE流,并基于形狀編碼和形狀紋理執(zhí)行運動和差異估計,以對分離成奇數(shù)行和偶數(shù)行的基于對象的數(shù)據(jù)進行編碼。
這里,形狀提取單元31使用左眼圖像作為參考視圖,并且它包括分別用于接收左眼圖像對象視頻(L)和右眼圖像對象視頻(R)的形狀提取單元1和形狀提取單元2。在從左眼圖像提取的形狀信息被提交給右眼圖像處理的情況下,接收右眼圖像的形狀提取單元2參考左眼圖像的形狀信息,并從形狀提取單元1提取右眼圖像形狀。當左眼圖像的形狀信息的沒有被提交給右眼圖像處理的情況下,形狀提取單元2獨立于形狀提取單元1進行操作。
數(shù)據(jù)分離單元32接收與形狀信息相應的左對象圖像(LS)和右對象圖像(RS),并且輸出基于場的形狀信息。它還接收左眼圖像對象視頻(L)和右眼圖像對象視頻(R),并輸出左眼圖像的奇數(shù)場對象(LO),右眼圖像的偶數(shù)場對象(RE),左眼圖像的偶數(shù)場對象(LE)和右眼圖像的奇數(shù)場對象(RO)。
形狀補償單元33對由于將形狀信息分離成不連續(xù)場而引起的形狀失真補償從數(shù)據(jù)分離單元32輸出的基于場對象的形狀。
四層基于對象編碼的單元34由處理這些場對象的四個層形成,以對被分離成奇數(shù)行和偶數(shù)行的基于對象的數(shù)據(jù)進行編碼。
圖4是表示依據(jù)本發(fā)明實施例,使用基于多視圖視頻對象的編碼設備的基于對象發(fā)送/接收系統(tǒng)的結構方框圖。基于對象的發(fā)送/接收系統(tǒng)包括發(fā)送終端,提供有基于多顯示支持對象的編碼單元41和系統(tǒng)多路復用單元42;和接收端,提供有系統(tǒng)多路分解單元43、基于多顯示支持對象的解碼單元44以及顯示單元45。
發(fā)送系統(tǒng)包括基于多顯示支持對象的編碼單元41,分別從外部接收右和左兩信道視頻(L和R),并將這些視頻分離成奇數(shù)場和偶數(shù)場對象,即左眼圖像的奇數(shù)場對象(LO),右眼圖像的偶數(shù)場對象(RE),左眼圖像的偶數(shù)場對象(LE)和右眼圖像的奇數(shù)場對象(RO),從被分離的場對象中形成主層和子層,并執(zhí)行編碼,以便依據(jù)雙目三維視頻顯示方法,僅傳輸用于發(fā)送端和接收端的必需位流;還有系統(tǒng)多路復用單元42,接收從基于對象編碼單元41發(fā)送來的左眼圖像的奇數(shù)場對象(LO)的位流,右眼圖像的偶數(shù)場對象(RE)的位流,左眼圖像的偶數(shù)場對象(LE)的位流和右眼圖像的奇數(shù)場對象(RO)的位流,以及用戶顯示信息,并且僅多路復用必需的位流。
這里,基于多顯示支持對象的編碼單元41的分離器將左和右兩個信道視頻分離成奇數(shù)場和偶數(shù)場對象,并輸出四個信道的輸入圖像。如圖5所示,該分離器還根據(jù)圖像的第一行將右眼和左眼視頻對象分離成奇數(shù)行和偶數(shù)行。另外,該分離器將圖像輸入分離成四個分離的基于對象的層,以便利用形狀和紋理執(zhí)行運動和差異估計,并僅傳輸顯示模式所需要的必需位流。
基于多顯示支持對象的編碼單元41從一對右眼和左眼圖像分離得到的四個信道奇數(shù)/偶數(shù)場對象中形成主層和子層,以對被分離成奇數(shù)行和偶數(shù)行的場對象視頻進行編碼。
系統(tǒng)多路復用單元42接收左眼圖像奇數(shù)場對象(LO)的位流,右眼圖像的偶數(shù)場對象(RE)的位流,左眼圖像的偶數(shù)場對象(LE)的位流和右眼圖像的奇數(shù)場對象(RO)的位流,以及用戶顯示信息,并僅多路復用必需的位流。系統(tǒng)多路復用單元42執(zhí)行適合于三種顯示模式的多路復用。為了詳細說明,在模式1(基于雙目場的時間延遲顯示模式)的情況下,LO和RE的位流相應于右和左圖像一半的信息。在模式2(基于雙目幀的時間延遲顯示模式)的情況下,四個編碼位流LO、LE、RO和RE被多路復用,因為在右和左圖像幀中的所有信息都被使用了。在模式3(二維單目顯示模式)情況下,LO和LE的編碼位流被多路復用并被發(fā)送,以在右眼和左眼圖像之間表示左眼圖像。
接收系統(tǒng)包括系統(tǒng)多路分解單元43,基于用戶顯示模式對從系統(tǒng)多路復用單元42發(fā)送的位流進行多路分解,并將多路分解的位流輸出為多信道位流;基于多顯示支持對象的解碼單元44,用于對于依據(jù)用戶顯示模式輸入的多信道(即2信道或4信道)的基于對象的位流進行解碼;以及顯示單元45,當接收到來自用戶的請求時,執(zhí)行二維視頻顯示或基于雙目場/幀的時間延遲顯示,以便顯示由基于多顯示支持對象的解碼單元44所恢復的圖像。
這里,系統(tǒng)多路分解單元43根據(jù)用戶顯示模式對所傳輸?shù)奈涣鬟M行多路分解,并將它們輸出給為信道位流。在模式1和3中,輸出兩信道編碼的位流,而在模式2中,輸出四信道的編碼位流。
基于多顯示支持對象的解碼單元44是雙目視頻解碼設備,并且它利用形狀和紋理的運動和差異估計信息對分離成奇數(shù)行和偶數(shù)行的場對象進行解碼。另外,基于多顯示支持對象的解碼單元44對于依據(jù)顯示模式從系統(tǒng)多路分解單元43輸入的2信道和4信道的基于對象的位流進行解碼。它與基于多顯示支持對象的編碼單元41具有相同的層結構。
如圖7到9所示,顯示單元45依據(jù)來自用戶的請求在三種顯示模式中選擇一種顯示模式,這三種顯示模式也就是二維視頻顯示、基于雙目場的時間延遲顯示或基于雙目幀的時間延遲顯示模式,并執(zhí)行解碼以顯示由基于多顯示支持對象的解碼單元44恢復的圖像。也就是說,如圖7所示,在基于雙目場的時間延遲顯示模式中,從與左眼相對應的圖像的奇數(shù)場對象所恢復的output-LO和從與右眼相對應的圖像的偶數(shù)場對象所恢復的output-RE,在時間t1/2和t1被順序地顯示出來。如圖8所示,在基于雙目幀的時間延遲顯示模式中,順序地從與左眼相對應的圖像的奇數(shù)場和偶數(shù)場對象恢復的output-LO和output-LE分別在時間t1/2被顯示出來,而從與右眼相對應的圖像的奇數(shù)場和偶數(shù)場對象恢復的output-RO和output-RE在時間t1被分別顯示出來。如圖9所示,在二維顯示模式中,將恢復一只眼圖像的output-LO和output-LE,或output-RO和output-RE在時間t1被顯示出來。
如上所述,本發(fā)明基于對象的編碼/解碼方法使用多層編碼技術,在其中,同時從四個編碼層中接收用于右和左圖像的被分離成奇數(shù)行和偶數(shù)行的場對象。根據(jù)對象圖像和對象紋理之間的估計關系,四個編碼層形成主層和子層。圖6表示了一個示例。
圖6是說明依據(jù)本發(fā)明實施例,用于估計支持三維/二維視頻顯示的形狀和紋理的運動和差異補償方法的示圖。如圖所示,存在于顯示時間t1上的主層的場對象1被編碼成對象I,而根據(jù)在主層的相同時間軸上的場對象1,通過執(zhí)行對象差異估計,將第一子層的場對象2編碼成對象P。
根據(jù)主層的場對象1,通過執(zhí)行對象運動估計,將第二個子層的場對象3編碼成對象P。通過根據(jù)主層的場對象1執(zhí)行對象差異估計,并根據(jù)第一子層的場對象2執(zhí)行對象運動估計,對第三個子層的場對象4進行編碼。
存在于這些層上的顯示時間t4的對象被編碼和解碼。通過根據(jù)場對象1執(zhí)行對象運動估計,主層的場對象13被編碼成對象P。通過根據(jù)在相同時間軸上的主層的場對象13執(zhí)行對象差異估計,并根據(jù)相同層的場對象2執(zhí)行對象運動估計,第一子層的場對象14被編碼成對象B。通過根據(jù)主層的場對象13和相同層的場對象3執(zhí)行運動估計,第二子層的場對象15被編碼成對象B。通過根據(jù)主層的場對象13執(zhí)行對象差異估計和根據(jù)第一子層的場對象14執(zhí)行對象運動估計,第三子層的場對象16被編碼成對象B。
按照顯示時間t2和t3的順序,對每層中的對象進行編碼。也就是說,通過根據(jù)相同層的場對象1和13執(zhí)行對象運動估計,主層的場對象5被編碼成對象B。通過根據(jù)在相同時間軸上的主層的場對象5執(zhí)行對象差異估計,并根據(jù)相同層的場對象2執(zhí)行對象運動估計,第一子層的場對象6被編碼成對象B。通過根據(jù)在主層的場對象1和相同層的場對象3執(zhí)行對象運動估計,第二子層的場對象7被編碼成對象B。
通過根據(jù)相同層的場對象4執(zhí)行對象運動估計,并根據(jù)第二子層的場對象7執(zhí)行對象差異估計,對第三子層的場對象8進行編碼。通過根據(jù)場對象1和13執(zhí)行對象運動估計,主層的場對象9被編碼成對象B。通過根據(jù)在相同時間軸上的主層的場對象9執(zhí)行對象差異估計,并根據(jù)相同層的場對象14執(zhí)行對象運動估計,將第一子層的場對象10編碼成對象B。通過根據(jù)相同層的場對象3和主層場對象13執(zhí)行對象運動估計,將第二子層的場對象11編碼成對象B。通過根據(jù)相同層的場對象8執(zhí)行對象運動估計,并根據(jù)第二子層的場對象11執(zhí)行對象差異估計,對第三子層的場對象12進行編碼。因此,以IPBB…形式對在主層中的對象場進行編碼/解碼,并分別以PBBB…、PBBB…和BBBB…的形式對第一、第二和第三子層的對象場進行編碼/解碼。
總之,當基于多顯示支持對象的編碼單元41根據(jù)層間關系執(zhí)行運動和差異估計時,它使用形狀和紋理,這使得依據(jù)雙目三維視頻顯示模式僅向發(fā)送/接收終端傳輸必需的位流成為可能。還根據(jù)兩層之間的關系使用形狀和紋理執(zhí)行運動和差異估計,僅對二維單目顯示模式所需要的場對象進行編碼,其中二維單目顯示模式即左眼圖像的奇數(shù)場和偶數(shù)場對象,和右眼圖像的奇數(shù)場和偶數(shù)場對象?;诙囡@示支持對象的編碼單元41,根據(jù)兩層之間的關系,使用形狀和紋理執(zhí)行運動和差異估計,對三維場快門(shuttering)視頻顯示模式所需要的左眼圖像的一個場對象和右眼圖像的一個場對象進行編碼。
另外,當基于多顯示支持對象的解碼單元44根據(jù)層間關系執(zhí)行運動和差異估計時,它使用形狀和紋理,使得依據(jù)雙目三維視頻顯示模式僅向發(fā)送/接收終端傳輸必需的位流成為可能。還根據(jù)兩層之間的關系使用形狀和紋理執(zhí)行運動和差異估計,僅對二維單目顯示模式所需要的場對象進行解碼,其中二維單目顯示模式即左眼圖像的奇數(shù)場和偶數(shù)場對象,和右眼圖像的奇數(shù)場和偶數(shù)場對象?;诙囡@示支持對象的解碼單元44,根據(jù)兩層之間的關系,使用形狀和紋理執(zhí)行運動和差異估計,對三維場快門視頻顯示模式所需要的左眼圖像的一個場對象和右眼圖像的一個場對象進行解碼。
支持多顯示模式并具有上述體系結構的本發(fā)明的基于多視圖視頻對象的編碼/解碼的設備的操作如下所述。
如上所述,本發(fā)明涉及在雙目三維視頻顯示模式中,僅傳輸發(fā)送/接收終端所需要的必需位流的基于多視圖視頻對象的編碼/解碼技術?;诙嘁晥D視頻對象的編碼/解碼是利用對象的形狀和紋理信息執(zhí)行的。在本發(fā)明中,考慮到根據(jù)用于獲得雙目立體效果的顯示模式,必需數(shù)據(jù)的數(shù)量和形狀是不同,所以執(zhí)行基于對象的編碼/解碼。
本發(fā)明的編碼設備將對象圖像分離成奇數(shù)行和偶數(shù)行,并以奇數(shù)場對象和偶數(shù)場對象的形式對圖像進行編碼,以支持多顯示模式,這就給多視圖視頻以雙目立體效果。為了執(zhí)行基于對象的編碼,本發(fā)明的編碼設備從右眼圖像和左眼圖像中提取形狀信息。它還允許參考視像的形狀信息被提交給提取其它圖像形狀的處理當中。因此,不僅可以處理和顯示雙目三維視頻,而且也可以處理和顯示多視圖三維視頻。
為了支持多顯示模式,右和左圖像與右和左形狀信息都被分離成奇數(shù)行和偶數(shù)行,然后輸入到編碼設備中。這里,如果圖像被以場的基礎來劃分,那么,就應該執(zhí)行形狀失真補償,因為每個場對象包含不連續(xù)的圖像行,因此,形狀信息會失真,而這應該得到補償。
編碼設備包括四層,用于處理四個輸入,即右眼圖像的奇數(shù)場對象(RO),右眼圖像的偶數(shù)場對象(RE),左眼圖像的奇數(shù)場對象(LO),左眼圖像的偶數(shù)場對象(LE)。在多路復用處理中,在四層的各層被編碼的四個位流中,依據(jù)用戶顯示模式,即基于場的時間延遲顯示模式,基于幀時間延遲顯示模式和二維單目顯示模式,只選擇和多路復用必需的位流。然后,發(fā)送多路復用的必需位流。
由于每個對象視頻被分離成奇數(shù)場和偶數(shù)場對象并被編碼,這就可能僅傳輸用戶顯示模式所需要的必需位流,并且使由于不必要的多視圖視頻數(shù)據(jù)所造成的信道占用最小化。另外,即使改變了顯示模式,編碼/解碼系統(tǒng)也可以快速處理,而不用改變其編碼/解碼方法,因此使得由于用戶顯示模式中變化所可能引起的傳輸和解碼時間延遲最小化。
在用戶使用基于雙目場視頻的時間延遲顯示模式的情況下,只有左眼圖像的奇數(shù)場對象(LO)或偶數(shù)場對象(LE),和右眼圖像的奇數(shù)場對象(RO)或偶數(shù)場對象(RE)編碼的兩個位流被發(fā)送和解碼。在用戶使用基于三維幀的視頻時間延遲顯示模式的情況下,全部位流,即右眼和左眼圖像中的各個圖像的奇數(shù)場和偶數(shù)場對象(LO、LE、RO和RE)被發(fā)送和解碼。
當在多視像中的兩視像配對成為一個單一雙目組,并在基于對象的編碼/解碼處理中被傳輸時,通過僅發(fā)送顯示模式,即二維單目顯示模式或三維基于場/幀的視頻時間延遲顯示模式所需要的必需位流,就可以對雙目圖像進行解碼。通過增加編碼層,可以將雙目視頻編碼設備擴展為多視圖視頻編碼設備。
本發(fā)明的方法提取與右眼和左眼相應的一對對象圖像,將視頻分離成奇數(shù)場和偶數(shù)場對象,并根據(jù)用戶顯示模式,即基于場的時間延遲顯示模式、基于幀的時間延遲顯示模式或二維單目顯示模式,執(zhí)行基于對象的編碼/解碼。
具有基層和增強層,如MPEG-2 MVP的體系結構的傳統(tǒng)編碼和解碼設備應該發(fā)送所有數(shù)據(jù)以執(zhí)行視頻解碼,即使在場快門期間也應該丟棄一半傳輸數(shù)據(jù)。因此,傳統(tǒng)的方法傳輸效率低、解碼時間長。而且由于傳統(tǒng)的編碼方法不是基于對象的,所以,它與MPEG-4標準不兼容,并降低了編碼效率。
以上說明的本發(fā)明的方法可以由程序具體實現(xiàn),并被保存在基于計算機的記錄媒介中,如CD-ROM、RAM、ROM、軟盤、硬盤、磁光盤等。
本發(fā)明的方法,通過在多視像中選擇一對兩視像并將它們分離成四個場對象,即右眼圖像的奇數(shù)行、右眼圖像的偶數(shù)行、左眼圖像的奇數(shù)行和左眼圖像的偶數(shù)行,并利用形狀和紋理的運動和差異補償,在多層體系結構中執(zhí)行基于對象的編碼/解碼,僅傳輸用戶顯示模式,即基于雙目場/幀時間延遲顯示模式或二維單目顯示模式的必需位流。接收終端可以只利用所輸入的必需位流執(zhí)行解碼。因此,本發(fā)明的方法的優(yōu)點是,可以提高傳輸效率,簡化解碼處理,并使由于用戶改變顯示模式的請求所可能引起的顯示時間延遲最小化。
雖然關于特定優(yōu)選實施例對本發(fā)明做了說明,但是,在不脫離本發(fā)明下面的權利要求中定義的發(fā)明范圍情況下,很顯然,本領域的普通技術人員可以做各種改變和修改。
權利要求
1.一種基于多顯示支持多視圖視頻對象的編碼設備,包括形狀提取裝置,用于從外部接收左眼圖像對象視頻(L)和右眼圖像對象視頻(R),并分別提取左對象圖像(LS)和右對象圖像(RS),以提取多視圖視頻的形狀信息;數(shù)據(jù)分離裝置,用于從外部接收右/左眼圖像對象視頻(L/R),以及從形狀提取裝置發(fā)送的右/左形狀(LS/RS)信息,并將所述視頻和形狀信息分離成奇數(shù)場對象和偶數(shù)場對象,以便僅發(fā)送用于多視圖視頻的顯示模式的必需的位流;形狀補償裝置,用于補償被數(shù)據(jù)分離裝置分離為奇數(shù)場和偶數(shù)場的形狀((LO,LE)/(RO,RE)對象的形狀)信息的失真;以及基于對象的編碼裝置,用于接收從形狀補償裝置輸入的基于對象的信息和從數(shù)據(jù)分離裝置輸入的基于對象的信息,形成四個層,即LO流、LE流、RO流和RE流,并根據(jù)形狀編碼和形狀紋理來執(zhí)行運動和差異估計,以便對被分離成奇數(shù)行和偶數(shù)行的基于對象的數(shù)據(jù)進行編碼。
2.如權利要求1所述的設備,其中形狀提取裝置包括形狀分離器1和形狀分離器2,分別用于接收左眼圖像對象視頻(L)和右眼圖像對象視頻(R),并且,如果從左眼圖像提取的形狀信息被提交給右眼圖像處理,那么,接收右眼圖像的形狀提取器2參考在形狀提取器1中的左眼形狀信息,并提取右眼圖像,或者,如果左眼圖像形狀信息沒有被提交給右眼圖像處理,那么,形狀提取器2獨立于形狀提取器1進行操作,并參考從作為左眼圖像的參考視像中所提取的形狀信息,以提取其它視像的形狀。
3.如權利要求1所述的設備,其中數(shù)據(jù)分離裝置接收與形狀信息相對應的左對象圖像(LS)和右對象圖像(RS),以輸出基于場的形狀信息,并接收左眼圖像對象視頻(L)和右眼對象視頻(R),以輸出基于場的左眼圖像的奇數(shù)場對象、右眼圖像的偶數(shù)場對象(RE)、左眼圖像的偶數(shù)場對象(LE)、和右眼圖像的奇數(shù)場對象(RO),其也是基于場的圖像。
4.依據(jù)權利要求3所述的設備,其中,形狀補償裝置對從數(shù)據(jù)分離裝置輸出的基于場對象的形狀執(zhí)行補償,以補償由于以場的基礎分離形狀信息可能引起的形狀失真,每場包含不連續(xù)的圖像行,并且補償由于將形狀信息分離成兩個或多個形狀信息所引起的形狀失真。
5.如權利要求4所述的設備,其中基于對象的編碼裝置由用于處理場對象的四個層組成,以便對分離成奇數(shù)行和偶數(shù)行的基于對象的數(shù)據(jù)進行編碼。
6.一種基于多顯示支持多視圖視頻對象的編碼方法,并被應用到基于多視圖視頻對象的編碼設備,包括步驟a)分別從外部接收左眼圖像對象視頻(L)和右眼圖像對象視頻(R),并提取左對象圖像(LS)和右對象圖像(RS),以提取多視圖視頻的形狀信息;b)從外部接收左眼圖像對象視頻(L)和右眼圖像對象視頻(R),和從步驟a)發(fā)送的右/左形狀(LS/RS)信息,并將所述視頻和形狀信息分離成奇數(shù)場和偶數(shù)場對象,以便僅發(fā)送用于多視圖視頻的顯示模式的必需的位流;c)補償被分離成奇數(shù)場和偶數(shù)場的形狀信息((LO,LE)/(RO,RE)對象的形狀)的失真;以及d)接收被補償?shù)幕趯ο蟮男畔⒑捅环蛛x的基于對象的信息,形成四個層,即LO流、LE流、RO流和RE流,并根據(jù)形狀編碼和形狀紋理來執(zhí)行運動和差異估計,以變對分離成奇數(shù)行和偶數(shù)行的基于對象的數(shù)據(jù)進行編碼。
7.一種基于多顯示支持多視圖視頻對象的發(fā)送系統(tǒng),包括基于對象的編碼裝置,用于從外部接收右眼和左眼的右和左兩信道視頻(L和R),分別將所述視頻分別分離為奇數(shù)場和偶數(shù)場對象,即左眼圖像的奇數(shù)場對象(LO)、右眼圖像的偶數(shù)場對象(RE)、左眼圖像的偶數(shù)場對象(LE)、和右眼圖像的奇數(shù)場對象(RO),從分離的場對象中形成主層和子層,并執(zhí)行編碼,以便依據(jù)雙目三維視頻顯示模式僅傳輸發(fā)送/接收終端所需要的必需位流;以及系統(tǒng)多路復用裝置,用于接收左眼圖像的奇數(shù)場對象(LO)位流、右眼圖像的偶數(shù)場對象(RE)位流、左眼圖像的偶數(shù)場對象(LE)位流、和右眼圖像的奇數(shù)場對象(RO)位流,它們都是從基于場的編碼裝置發(fā)送的,以及用戶顯示信息,并僅多路復用必需的位流。
8.如權利要求7所述的發(fā)送系統(tǒng),其中基于對象的編碼裝置包括形狀提取單元,用于從外部接收左眼圖像對象視頻(L)和右眼圖像對象視頻(R),并分別提取左對象圖像(LS)和右對象圖像(RS),以提取多視圖視頻的形狀信息;數(shù)據(jù)分離單元,用于從外部接收左眼圖像對象視頻(L)和右眼圖像對象視頻(R),以及從形狀提取單元發(fā)送的右/左形狀(LS/RS)信息,并將所述視頻和形狀信息分離成奇數(shù)場和偶數(shù)場對象,以便僅發(fā)送用于多視圖視頻的顯示模式的必需的位流;形狀補償單元,用于補償由數(shù)據(jù)分離單元分離成奇數(shù)場和偶數(shù)場的形狀信息((LO,LE)/(RO,RE)對象的形狀)的失真;以及基于對象的編碼單元,用于接收從形狀補償單元輸入的基于對象的信息和從數(shù)據(jù)分離單元輸入的基于對象的信息,形成四個層,即LO流、LE流、RO流和RE流,并根據(jù)形狀編碼和形狀紋理來執(zhí)行運動和差異估計,以便對分離成奇數(shù)行和偶數(shù)行的基于對象的數(shù)據(jù)進行編碼。
9.如權利要求7所述的發(fā)送系統(tǒng),其中,基于對象的編碼裝置根據(jù)層間關系,使用形狀和紋理執(zhí)行運動和差異估計,依據(jù)雙目三維視頻顯示模式僅允許傳輸發(fā)送接/收端要求的必需的位流。
10.如權利要求7所述的發(fā)送系統(tǒng),其中基于對象的編碼裝置,根據(jù)兩層之間的關系,使用形狀和紋理來執(zhí)行運動和差異補償,對二維單目視頻顯示模式所要求的左眼圖像的奇數(shù)場和偶數(shù)場對象,或者右眼圖像的奇數(shù)場和偶數(shù)場對象進行編碼。
11.如權利要求7所述的發(fā)送系統(tǒng),其中基于對象的編碼裝置,根據(jù)兩層之間的關系,使用形狀和紋理來執(zhí)行運動和差異補償,對雙目三維場快門視頻顯示模式所要求的左眼圖像的一個場對象和右眼圖像的一個場對象進行編碼。
12.一種基于多顯示支持多視圖視頻對象的接收系統(tǒng),包括系統(tǒng)多路分解裝置,用于根據(jù)用戶顯示模式,對從外部發(fā)送的位流進行多路分解,并輸出多路分解的位流,成為多信道位流。基于對象的解碼裝置,用于根據(jù)用戶的顯示模式,將多個信道的,即2個信道或4個信道的,基于對象的位流進行解碼。顯示裝置,用于根據(jù)來自用戶的要求,執(zhí)行二維的視頻顯示或基于雙目場/幀的時間延遲顯示,以便顯示由基于對象的視頻解碼裝置所恢復的視頻。
13.如權利要求12所述的接收系統(tǒng),其中,基于對象的解碼裝置根據(jù)層間關系,使用形狀和紋理執(zhí)行運動和差異估計,依據(jù)雙目三維視頻顯示模式僅允許傳輸發(fā)送/接收端所要求的必需的位流。
14.如權利要求12所述的發(fā)送系統(tǒng),其中基于對象的解碼裝置,根據(jù)兩層之間的關系,使用形狀和紋理來執(zhí)行運動和差異補償,對二維單目視頻顯示模式所要求的左眼圖像的奇數(shù)場和偶數(shù)場對象,或者右眼圖像的奇數(shù)場和偶數(shù)場對象進行編碼。
15.如權利要求12所述的發(fā)送系統(tǒng),其中基于對象的解碼裝置,根據(jù)兩層之間的關系,使用形狀和紋理來執(zhí)行運動和差異估計,對雙目三維場快門視頻顯示模式所要求的左眼圖像的一個場對象和右眼圖像的一個場對象進行編碼。
16.一種基于多顯示支持多視圖視頻對象的發(fā)送方法,包括步驟a)從外部接收右眼和左眼的右和左兩信道圖像(L和R),將圖像分離為奇數(shù)場和偶數(shù)場對象,即左眼圖像的奇數(shù)場對象的(LO)、右眼圖像的偶數(shù)場對象(RE)、左眼圖像的偶數(shù)場對象(LE)、以及右眼圖像的奇數(shù)場對象(RO),形成分離的場對象主層和子層,并執(zhí)行編碼,以便依據(jù)雙目三維視頻顯示模式,僅傳輸發(fā)送/接收端所需要的必需的位流;b)接收場對象的被編碼的位流,即左眼圖像的奇數(shù)場對象(LO)、右眼圖像的偶數(shù)場對象(RE)、左眼圖像的偶數(shù)場對象(LE)、和右眼圖像的奇數(shù)場對象(RO),以及用戶顯示信息,并僅多路復用必需的位流。
17.如權利要求16所述的發(fā)送方法,其中,步驟a)的編碼過程通過層間關系,使用形狀和紋理來執(zhí)行運動和差異補償,依據(jù)雙目三維視頻顯示模式僅允許傳輸發(fā)送/接收端所要求的必需的位流。
18.一種基于多顯示支持多視圖視頻對象的接收方法,包括步驟a)對于從系統(tǒng)多路復用單元發(fā)送的位流進行多路分解,并根據(jù)用戶顯示模式輸出多路分解的位流,成為多信道位流。b)根據(jù)用戶顯示模式,對于多個信道即兩信道或四個信道所輸入的基于對象的位流進行解碼;c)當接收到來自用戶的請求時,執(zhí)行二維視頻顯示或基于雙目場/幀的時間延遲顯示,以顯示在步驟b)恢復的圖像時。
19.如權利要求18所述的接收方法,其中,步驟b)的解碼處理,通過層間關系,使用形狀和紋理來執(zhí)行運動和差異補償,依據(jù)雙目三維視頻顯示模式僅允許傳輸發(fā)送/接收端所要求的必需的位流。
全文摘要
提供了一種基于多顯示支持多視圖視頻對象的編碼設備和方法,以及使用該編碼設備和方法的基于對象的發(fā)送/接收系統(tǒng)和方法。編碼設備包括形狀提取裝置,用于接收右/左眼圖像對象視頻,并分別提取右/左對象圖像,以提取多視圖視頻的形狀信息;數(shù)據(jù)分離裝置,用于接收右/左眼圖像對象視頻,和右/左形狀信息,并將它們分離成奇數(shù)場對象和偶數(shù)場對象,以僅發(fā)送用戶顯示模式所必需的位流;形狀補償裝置,用于補償被分離成奇數(shù)場和偶數(shù)場的形狀信息的失真;以及基于對象的編碼裝置,用于從形狀補償裝置中接收基于對象的信息,以及從數(shù)據(jù)分離裝置中接收基于對象的信息,形成四個層,并執(zhí)行運動和差異估計,以便對被分離成奇數(shù)行和偶數(shù)行的基于對象的數(shù)據(jù)進行編碼。
文檔編號H04N7/24GK1685729SQ02829717
公開日2005年10月19日 申請日期2002年12月11日 優(yōu)先權日2002年8月30日
發(fā)明者崔潤靜, 曹叔嬉, 尹國鎮(zhèn), 李珍煥, 咸永權, 安致得 申請人:韓國電子通信研究院