專利名稱:幀兼容三維傳輸中全分辨率圖形、菜單和字幕的支持的制作方法
技術領域:
本公開涉及可伸縮的三維(3D)視頻應用。更具體地,其涉及用于在可伸縮3D視頻應用中嵌入字幕和/或圖形覆蓋的方法。
圖1示出多層3D編碼系統(tǒng)的圖。圖2示出視頻圖像的并排打包。圖3示出視頻圖像的上下打包。圖4示出在并排打包視頻圖像中嵌入字幕的傳統(tǒng)方式。圖5示出在上下打包視頻圖像中嵌入字幕的傳統(tǒng)方式。圖6示出在并排打包視頻圖像中嵌入字幕和圖形覆蓋二者的傳統(tǒng)方式。圖7示出在上下打包視頻圖像中嵌入字幕和圖形覆蓋二者的傳統(tǒng)方式。圖8示出并排幀打包排列的基礎層圖像。圖9示出并排幀打包排列的增強層圖像。圖10示出根據本公開實施例的具有字幕的基礎層。圖11示出根據本公開實施例的具有字幕的增強層。圖12示出本公開的實施例,其中,示出了可伸縮、全分辨率、幀兼容3D系統(tǒng)中字幕和/或圖形覆蓋的支持。在將數(shù)據復用到單獨、左和右視圖中之前,在每層中通過適當偏移量分別添加字幕和/或圖形覆蓋。圖13示出本公開的另一實施例,其中,通過與基礎層覆蓋生成器相關聯(lián)的預測模塊提供一個或更多增強層的覆蓋生成。圖14示出具有字幕文本(再混合之后)的最終左視圖。圖15示出具有字幕文本(再混合之后)的最終右視圖。
具體實施例方式本公開描述支持可伸縮系統(tǒng)的幀兼容3D傳輸中全分辨率圖形覆蓋(例如,圖片信息中的圖形、菜單、箭頭、按鈕、標題、橫幅、圖片)和字幕的系統(tǒng)和方法。根據第一方面,提供了用于在包括基礎層和至少一個增強層的幀兼容3D視頻編碼系統(tǒng)中嵌入字幕和/或圖形覆蓋的方法,該方法包括對基礎層和至少一個增強層單獨提供字幕和/或圖形覆蓋。根據第二方面,提供了用于在包括多個層和至少一個增強層的幀兼容3D視頻編
4碼系統(tǒng)中嵌入字幕和/或圖形覆蓋的方法,該方法包括對每一層單獨提供字幕和/或圖形覆蓋,其中,根據一個或更多其它層提供的字幕和/或圖形覆蓋預測從一些層提供的字幕和/或圖形覆蓋。根據第三方面,提供了用于在包括基礎層和一個或更多增強層的幀兼容3D視頻可伸縮系統(tǒng)中嵌入字幕和/或圖形覆蓋的系統(tǒng),該系統(tǒng)包括基礎層字幕和/或圖形覆蓋生成器;以及針對各個一個或更多增強層的一個或更多增強層字幕和/或圖形覆蓋生成器。根據第四方面,提供了用于在包括基礎層和一個或更多增強層的幀兼容3D視頻可伸縮系統(tǒng)中嵌入字幕和/或圖形覆蓋的系統(tǒng),該系統(tǒng)包括基礎層字幕和/或圖形覆蓋生成器;與基礎層字幕和/或圖形覆蓋生成器連接的預測器,該預測器處理基礎層字幕和/或圖形覆蓋并生成一個或更多增強層的增強層字幕和/或圖形覆蓋??缮炜s系統(tǒng)包括多個層,基礎和若干(一個或更多)增強層,其中,基礎層可以實現(xiàn)視頻信號在解碼時的第一表示。在此場景中,基礎層表示基于兩個立體視圖的幀復用 (例如,并排或上下(幀兼容3D)),并在給定每個立體視圖的采樣過程的情況下實質上分辨率為一半。在可用和被解碼的情況下,附加的增強層允許進一步的質量增強和實質上這兩個視圖的全分辨率信號重建的進一步質量增強。在2009年7月4日提交的美國臨時申請 61/223,027號中描述了這種系統(tǒng),其整個內容通過引用合并于此??梢詫⒈竟_的教導應用于視頻著作系統(tǒng)、視頻編碼器和解碼器(諸如藍光播放器、機頂盒、軟件播放器等)、顯示器以及編碼器/解碼器芯片。視頻著作系統(tǒng)是允許DVD、 藍光或者其它多媒體存儲格式(包括在線多媒體格式)編輯和創(chuàng)建的工具。編輯過程可以包括對視頻和音頻信號的任何修改,諸如不同轉變的創(chuàng)建、調整、修剪等,在不同時間間隔對視頻剪輯的布置,以及以不同語言對菜單、圖形以及字幕的創(chuàng)建等。按照本公開的實施例,可以使用包括多個層(諸如形成本申請說明書一部分的附錄A中所述的基礎層和一個或更多增強層)的可伸縮視頻編碼系統(tǒng)向顧客提供3D視頻內容。在基礎層中將來自兩個單獨、子采樣視圖的3D視頻信息使用各種排列(諸如并排、隔行或者上下等)一起復用到單個幀中??赡苁褂酶鞣N采樣方法(諸如水平、豎直以及五點梅花形等)進行了子采樣。該層中的復用幀實質上特性與2D視頻幀非常相似,并可以使用諸如視頻編碼標準和編解碼器(如,MPEG-2、MPEG-4AVC/H. 264以及VC-I等)的傳統(tǒng)方法進行編碼。可以在沒有任何其它硬件輔助的情況下使用單個解碼器系統(tǒng),并使用諸如微極化(micropolarized)顯示器的適當顯示設備解碼該層,使得即使在減小的分辨率,觀看者也能夠體驗3D影片。如附錄A中所示,然而,使用該系統(tǒng)的增強層,可以使得能夠進行全分辨率3D信號的重建。實質上,一個或多個增強層包含基礎層的創(chuàng)建期間丟失了的來自基礎層的缺失信息,諸如樣本或頻率信息。為了效率的目的,一個或多個增強層由于在當前增強層樣本與其它層樣本之間存在很高的相關性所以使用基礎、和/或先前編碼的增強層作為預測器。該過程可以包括可以進一步增加相關性的附加機制,諸如插值濾波器、運動估算和補償以及加權預測等。在解碼器處,在增強層的重建之后,執(zhí)行將基礎層的該數(shù)據與增強層的數(shù)據組合的附加過程以重建全分辨率3D圖像。在本申請的圖1中示出了整個過程,在整體經引用并入本文的2009年7月4日提交的美國臨時申請61/223,027號中也描述了它。特別是參見說明書的有關部分和圖11。
雖然視頻信息在該系統(tǒng)中的重要性最高,但其它信息也可以具有高重要性并可以影響用戶的3D體驗。特別是,可能期望使用可以與視頻相關聯(lián)的適當圖形信息向用戶提供視頻上的圖形覆蓋和/或字幕信息,包括3D字幕,或加亮顯示的特定內容。在要將視頻內容封裝在諸如DVD或藍光盤的媒體設備上的情況下,或者甚至在互聯(lián)網、線纜或者衛(wèi)星系統(tǒng)上傳輸?shù)那闆r下尤其如此。用戶將會預期到包括用以通過適當2D和甚至3D菜單導航的能力和存在的這種功能將會在只使用基礎層時或在使用所有可用層時可用。對于基礎層,提供這種功能的最簡單方法是在著作過程期間,在考慮幀打包方法 (例如,并排(見圖2、4和6)或上下(見圖3、5和7))的同時,創(chuàng)建圖形覆蓋和/或字幕。根據本公開的實施例,內容創(chuàng)建器通過考慮使用的3D視頻格式著作內容,并復制每個片段的該信息,其中,片段在此處表示對應于某個視圖(即,左或右視圖)的幀中的區(qū)域。也可以在可選地考慮允許對內容創(chuàng)建器進一步靈活性的深度信息的同時呈現(xiàn)(render) 這些圖形。例如,與左片段相關聯(lián)的字幕文本(subtitle text)對與右片段相關聯(lián)的字幕文本的不同偏移量造成文本在與視頻信號中其它信息相對的不同深度水平的觀看者錯覺。 事實上可以通過修改這種偏移量向景象內的不同對象分配不同深度。雖然已經對諸如并排(圖2和4)和上下打包(圖3和5)信息的幀兼容信號進行了此內容,但按照本公開的實施例,非常期望在使用附錄A中涵蓋和先前討論的多層系統(tǒng)時也保留同樣功能。即使在增加這種信息的一個方法會是全分辨率圖像的重建之后單獨圖形引擎的增加的情況下,這也由于如下內容所以使得系統(tǒng)的設計較昂貴和較不靈活它將會意味著在給定保存不同格式化的基礎層圖形信息的情況下,在視頻內存在附加字幕軌跡,并且在系統(tǒng)中存在附加控制和處理,而使得實施這種解決方案較昂貴。再次可能太復雜的不同方法將會是重新處理基礎層信息并且單獨提取左和右圖像的圖形并將它們增加回全分辨率圖像。代替地,按照本公開的教導,提出了在不顯著破壞系統(tǒng)設計的情況下,也實現(xiàn)圖形信息全分辨率重建的較簡單方法。特別地,代替直接在最終、重建的左和右圖像上增加圖形元素,在最終視圖重建過程以前單獨地在基礎和增強層信息這二者上增加圖形元素。這意味著根據用于視頻信號的打包排列在這些層的頂部再次增加圖形。更具體地,如果使用并排打包排列生成視頻信號, 則使用同樣排列創(chuàng)建圖形,并在基礎層和增強層這二者上增加圖形(例如,字幕、標題等)。對于基礎層在圖8中示出了實例,對于增強層在圖9中示出了實例。如圖10和圖 11中也所示,通過只在這兩個圖像上添加了所有圖形之后執(zhí)行視圖重建來合成具有適當全分辨率圖形(即,通過與也如何合成實際圖像類似地組合基礎層和增強層圖形生成的圖形)的最終單獨視像。圖12中示出根據本公開的系統(tǒng)和方法,其中,基礎層或增強層被解碼之后,還創(chuàng)建并在視頻數(shù)據的上部添加適當圖形(例如,交互式圖形IG和/或演示圖形PG)。然后,將具有覆蓋圖形的新視頻數(shù)據復用在一起以生成最終、單獨的3D圖像,如也在圖14和圖15 中示出的。轉到圖12的描述,應當注意可以分別在圖1中示出的系統(tǒng)的地點(1110)、 (1120)、(1130)處提供覆蓋生成器(710)、(720)、(730)。特別地,如圖12中所示,覆蓋生成器(710)、(720)、(730)在視頻解碼器(770)、(780)和(790)的輸出處分別作用于圖形平面(740)、(750)、(760)。因此,按照本公開的實施例,對基礎層和至少一個增強層中的每
一個單獨提供字幕和/或圖形覆蓋。此外,根據本公開的進一步實施例,如本公開中稍后也注意到的,可以通過對基礎層數(shù)據進行插值提供一個或多個增強層的字幕和/或覆蓋圖形的生成。根據本公開的實施例,也將針對基礎層對增強層執(zhí)行的不同采樣考慮在內。特別是,對于基礎層和對于并排打包,可以通過跳過從列0開始的每隔一個水平像素采樣了左視圖,而可以通過跳過從列-1開始的每隔一個水平像素采樣了右視圖。另一方面,反轉增強層的采樣,即,采樣對于左視圖從列-1開始且對于右視圖從列0開始。在給定基礎層和增強層的這些特性的情況下,將會期望也使用確切一樣的方法對圖形進行采樣。另外,在一些系統(tǒng)中,可以通過禁用抗混疊和/或濾波進行字幕和/或圖形覆蓋的采樣以允許使用基礎層和增強層的同樣采樣方法對字幕和/或圖形覆蓋進行采樣,這將會確保圖形的全分辨率重建未丟失任何信息。在不同實施例中,將可以根據基礎層的圖形數(shù)據,以與視頻數(shù)據類似的方式預測或重建增強層圖形數(shù)據。特別是,代替需要多次發(fā)送信息,在基礎層和增強層這二者中,可以只在基礎層中存在數(shù)據。然而,圖12的覆蓋生成器(710)、(720)、(730)或基礎層和增強層圖形單元這二者可以在不需要執(zhí)行任何附加呈現(xiàn)的情況下使用同樣數(shù)據生成或合成圖形覆蓋信息,諸字幕文本。然后,分別將基礎層和合成的增強層圖形覆蓋添加到基礎和增強視頻層。在單獨實施例中,增強層單元(720)、(730)可以執(zhí)行附加的處理(例如,不同濾波或插值/采樣)以在不需要單獨呈現(xiàn)圖形覆蓋的情況下,使用基礎層的圖形的不同采樣生成圖形。例如,可以通過簡單地拷貝來自基礎層的數(shù)據或通過使用諸如H. 264六抽頭插值濾波器、雙線性插值、雙三次插值或lanczos插值的水平插值濾波器對基礎層數(shù)據進行插值,來生成增強層圖形覆蓋。在圖13中示出了本公開的進一步的實施例,其中,示出了與基礎層覆蓋生成器 (810)相連的預測模塊(895),其中,預測模塊(8%)作為一個或更多增強層的覆蓋生成器工作。如果期望,則預測模塊(8%)可以執(zhí)行基礎層數(shù)據的插值并將插值數(shù)據提供給增強層。根據進一步的實施例,在具有多個層的系統(tǒng)的情形下,可以根據某個層或某些層進行預測。換言之,生成N個層,預測M個層。對于多視圖編碼的情形會尤其如此??梢蕴砑拥膱D形可以包括字幕信息、標題、按鈕、箭頭以及其它圖形,但是也可以包括紋理和/或圖像。這些圖形可以是靜止或運動的,2D和3D。在特殊情形中,這可能涉及解碼器可能希望在3D視頻的頂部覆蓋不同節(jié)目的畫中畫信號的添加。在此情形中,將會需要在左和右視圖這二者上恰當呈現(xiàn)該視頻。對于基礎層,這意味著信號將需要被適當?shù)夭蓸?即,使用用來生成視頻基礎層的相同采樣),并在使用的幀打包排列的左和右子圖像這二者上呈現(xiàn),并且該信號應當在基礎層和增強層這二者的頂部上被覆蓋。除了解碼器以外,本公開的實施例提供如先前章節(jié)中所討論的允許這種適當圖形信息的創(chuàng)建的著作(author)和編碼方法和系統(tǒng)。這種著作方法和系統(tǒng)的目的可以是創(chuàng)建和著作諸如藍光盤的盤存儲介質,或者用于諸如廣播、衛(wèi)星和/或互聯(lián)網的其它發(fā)布系統(tǒng)。
本公開的教導還應用于景象的多于兩個視圖可用的多視圖情形。可以在硬件、軟件、固件或其組合中實施本公開中描述的方法和系統(tǒng)??梢砸黄?(例如,在諸如集成邏輯器件的邏輯器件中)或單獨(例如,作為單獨連接的邏輯器件)實施作為塊、模塊或部件描述的特征。本公開方法的軟件部分可以包括包括在執(zhí)行時至少部分地執(zhí)行所描述方法的指令的計算機可讀介質。計算機可讀介質可以包括例如隨機存取存儲器(RAM)和/或只讀存儲器(ROM)??梢酝ㄟ^處理器(例如,數(shù)字信號處理器(DSP)、專用集成電路(ASIC)或者現(xiàn)場可編程邏輯陣列(FPGA))執(zhí)行指令。以上敘述的實例提供成為本領域普通技術人員給出如何做出和使用用于公開內容的幀兼容3D傳輸中全分辨率圖形、菜單和字幕支持的方法實施例的完整公開內容和描述,并且并非旨在限制發(fā)明人視為他們公開內容的范圍。用于執(zhí)行公開內容的上述模式的變型可以由視頻領域技術人員使用,并旨在以下權利要求的范圍內。說明書中提到的所有專利和出版物可以表明公開內容所屬領域技術人員的技術水平。本公開中引述的所有參考在如同每個參考各自整體經引用并入了的同樣程度上經引用并入。應該理解公開內容不限于特定方法或系統(tǒng),它們當然可以變化。還應該理解本文中使用的術語只用于描述特定實施例的目的,并非旨在限制。如本說明書和所附權利要求中所使用的,單數(shù)形式“一”、“一個”以及“該”如非內容清楚地另作規(guī)定則包括復數(shù)指示物。術語“多個”如非內容清楚地另作規(guī)定則包括兩個或更多指示物。如非另作定義,則本文中使用的所有技術和科學術語的含義與公開內容所屬領域普通技術人員通常理解的一樣。描述了公開內容的大量實施例。然而,將會理解可以在不脫離本公開精神和范圍的情況下做出各種變形。相應地,其它實施例在所附權利要求的范圍內。
權利要求
1.一種用于在包括基礎層和至少一個增強層的幀兼容3D視頻編碼系統(tǒng)中嵌入字幕和 /或圖形覆蓋的方法,所述方法包括分別針對所述基礎層和所述至少一個增強層提供字幕和/或圖形覆蓋。
2.如權利要求1所述的方法,其中,所述字幕和/或圖形覆蓋包括深度信息。
3.如權利要求1所述的方法,其中,根據第一采樣方法對所述基礎層進行采樣,且根據第二采樣方法對所述至少一個增強層進行采樣,所述方法還包括根據所述第一采樣方法對針對所述基礎層的所述字幕和/或圖形覆蓋進行采樣;以及根據所述第二采樣方法對針對所述至少一個增強層的所述字幕和/或圖形覆蓋進行采樣。
4.如權利要求3所述的方法,其中,所述第一采樣方法和所述第二采樣方法包括禁用抗混疊和濾波中的至少之一。
5.如權利要求1所述的方法,其中,對每一層獨立地提供所述字幕和/或圖形覆蓋。
6.如權利要求1所述的方法,其中,根據針對所述基礎層提供的所述字幕和/或圖形覆蓋預測針對所述至少一個增強層提供的所述字幕和/或圖形覆蓋。
7.如權利要求6所述的方法,其中,通過插值來根據針對所述基礎層提供的所述字幕和/或圖形覆蓋預測針對所述至少一個增強層提供的所述字幕和/或圖形覆蓋。
8.一種用于在包括多個層和至少一個增強層的幀兼容3D視頻編碼系統(tǒng)中嵌入字幕和 /或圖形覆蓋的方法,所述方法包括分別針對每一層提供字幕和/或圖形覆蓋,其中,根據由一個或更多其它層提供的字幕和/或圖形覆蓋預測從一些層提供的字幕和/或圖形覆蓋。
9.一種包括如權利要求1所述方法的著作方法。
10.一種用于在包括基礎層和一個或更多增強層的幀兼容3D視頻可伸縮系統(tǒng)中嵌入字幕和/或圖形覆蓋的系統(tǒng),所述系統(tǒng)包括基礎層字幕和/或圖形覆蓋生成器;以及針對相應的所述一個或更多增強層的一個或更多增強層字幕和/或圖形覆蓋生成器。
11.如權利要求10所述的系統(tǒng),其中,所述基礎層包括基礎層視頻解碼器,且所述一個或更多增強層包括各自的增強層視頻解碼器,以及其中所述基礎層字幕和/或圖形覆蓋生成器對所述基礎層視頻解碼器的輸出中的基礎層圖形平面進行操作,以及所述一個或更多增強層的每一個增強層字幕和/或圖形覆蓋生成器對相應增強層視頻解碼器的輸出中的增強層圖形平面進行操作。
12.如權利要求10所述的系統(tǒng),其中,所述字幕和/或圖形覆蓋包括深度信息。
13.如權利要求10所述的系統(tǒng),其中,相對于由所述基礎層字幕和/或圖形覆蓋生成器采用的采樣,所述一個或更多增強層字幕和/或圖形覆蓋生成器采用不同的采樣。
14.一種用于在包括基礎層和一個或更多增強層的幀兼容3D視頻可伸縮系統(tǒng)中嵌入字幕和/或圖形覆蓋的系統(tǒng),所述系統(tǒng)包括基礎層字幕和/或圖形覆蓋生成器;與所述基礎層字幕和/或圖形覆蓋生成器連接的預測器,所述預測器處理所述基礎層字幕和/或圖形覆蓋并生成針對一個或更多增強層的增強層字幕和/或圖形覆蓋。
15.如權利要求14所述的系統(tǒng),其中,所述預測器通過插值來生成針對所述一個或更多增強層的增強層字幕和/或圖形覆蓋。
全文摘要
描述了可伸縮系統(tǒng)的幀兼容3D傳輸中的全分辨率圖形覆蓋(例如,圖片信息中的圖片、橫幅、標題、按鈕、箭頭、菜單、圖形)和字幕。
文檔編號H04N7/50GK102474603SQ201080029992
公開日2012年5月23日 申請日期2010年6月30日 優(yōu)先權日2009年7月4日
發(fā)明者亞歷山德羅斯·圖拉皮斯, 凱文·J·斯特茨 申請人:杜比實驗室特許公司