活動圖像編碼方法、活動圖像解碼方法、活動圖像編碼裝置、活動圖像解碼裝置、活動圖像 ...的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及對多視點活動圖像進行編碼和解碼的活動圖像編碼方法、活動圖像解 碼方法、活動圖像編碼裝置、活動圖像解碼裝置、活動圖像編碼程序、以及活動圖像解碼程 序。
[0002] 本申請基于在2013年10月17日向日本申請的特愿2013-216526號要求優(yōu)先權(quán),并 將其內(nèi)容引用于此。
【背景技術(shù)】
[0003] 以往,已知由使用多個攝像機拍攝了相同的被攝物和背景的多個圖像構(gòu)成的多視 點圖像(Multiview images:多視點圖像)。將該使用多個攝像機拍攝的活動圖像稱為多視 點活動圖像(或多視點視頻)。在以下的說明中,將使用1個攝像機拍攝的圖像(活動圖像)稱 為"二維圖像(二維活動圖像)",將使用位置、方向(以下稱為視點)不同的多個攝像機拍攝 了相同的被攝物和背景的二維圖像(二維活動圖像)組稱為"多視點圖像(多視點活動圖 像)"。
[0004] 二維活動圖像關(guān)于時間方向具有強的相關(guān)性,通過利用該相關(guān)性,從而能夠提高 編碼效率。另一方面,在多視點圖像或多視點活動圖像中,在各攝像機被同步的情況下,各 攝像機的視頻的相同的時刻所對應的幀(圖像)是從不同的位置拍攝了完全相同的狀態(tài)的 被攝物和背景的幀(圖像),因此,在攝像機間(相同的時刻的不同的二維圖像間)具有強的 相關(guān)性。在多視點圖像或多視點活動圖像的編碼中,通過利用該相關(guān)性,從而能夠提高編碼 效率。
[0005] 在此,對與二維活動圖像的編碼技術(shù)相關(guān)的現(xiàn)有技術(shù)進行說明。在以作為國際編 碼標準的!1.264、10^6-2、10^6-4為首的以往的許多二維活動圖像編碼方式中,利用運動補 償預測、正交變換、量化、熵編碼這樣的技術(shù)來進行高效率的編碼。例如,在H. 264中,能夠?qū)?現(xiàn)利用了與編碼對象幀過去或未來的多個幀的時間相關(guān)性的編碼。
[0006] 關(guān)于在H. 264中使用的運動補償預測技術(shù)的細節(jié),例如被記載在非專利文獻1中。 對在H. 264中使用的運動補償預測技術(shù)的概要進行說明。H. 264的運動補償預測將編碼對象 幀分割為各種尺寸的塊,在各塊中允許具有不同的運動矢量和不同的參照幀。通過在各塊 中使用不同的運動矢量,從而實現(xiàn)對按照每個被攝物而不同的運動進行補償后的精度高的 預測。另一方面,通過在各塊中使用不同的參照幀,從而實現(xiàn)考慮了由于時間變化而產(chǎn)生的 遮擋(occlusion)的精度高的預測。
[0007] 接著,對以往的多視點圖像、多視點活動圖像的編碼方式進行說明。多視點圖像的 編碼方法與多視點活動圖像的編碼方法的不同在于,在多視點活動圖像中除了攝像機間的 相關(guān)性之外還同時存在時間方向的相關(guān)性??墒牵谀囊环N情況下均能使用相同的方法來 利用攝像機間的相關(guān)性。因此,在此,對在多視點活動圖像的編碼中使用的方法進行說明。
[0008] 關(guān)于多視點活動圖像的編碼,為了利用攝像機間的相關(guān)性,以往存在利用將運動 補償預測應用于相同時刻的被不同攝像機拍攝的圖像的"視差補償預測"來對多視點活動 圖像高效率地進行編碼的方式。在此,視差是指在配置于不同的位置的攝像機的圖像平面 上被攝物上的相同部分所存在的位置的差。圖8是示出在攝像機(第一攝像機和第二攝像 機)間產(chǎn)生的視差的概念圖。在圖8所示的概念圖中,垂直地俯視光軸平行的攝像機的圖像 平面。像這樣,在不同的攝像機的圖像平面上投影被攝物上的相同的部分的位置通常被稱 為對應點。
[0009] 在視差補償預測中,基于其對應關(guān)系,根據(jù)參照幀來預測編碼對象幀的各像素值, 對其預測殘差和表示對應關(guān)系的視差信息進行編碼。視差按照作為對象的攝像機對、位置 的每一個發(fā)生變化,因此,需要按照進行視差補償預測的每個區(qū)域?qū)σ暡钚畔⑦M行編碼。實 際上,在H.264的多視點活動圖像編碼方式中,按照使用視差補償預測的每個塊對表示視差 ?目息的矢量進行編碼。
[0010] 關(guān)于根據(jù)視差信息提供的對應關(guān)系,通過使用攝像機參數(shù),從而能夠基于對極幾 何約束用表示被攝物的三維位置的一維量而不是二維矢量來進行表示。作為表示被攝物的 三維位置的信息,存在各種表現(xiàn),但是,使用從成為基準的攝像機到被攝物的距離或者與攝 像機的圖像平面不平行的軸上的坐標值的情況較多。再有,也存在不使用距離而使用距離 的倒數(shù)的情況。此外,由于距離的倒數(shù)為與視差成比例的信息,所以,也存在設(shè)定2個成為基 準的攝像機并將三維位置表現(xiàn)為在被這些攝像機拍攝的圖像間的視差量的情況。無論使用 了怎樣的表現(xiàn),都沒有本質(zhì)的不同,因此,在以下,不進行根據(jù)表現(xiàn)的區(qū)別,將表示這些三維 位置的信息表現(xiàn)為深度。
[0011] 圖9是對極幾何約束的概念圖。根據(jù)對極幾何約束,與某個攝像機的圖像上的點對 應的另外的攝像機的圖像上的點被約束在極線這樣的直線上。此時,在得到了針對其像素 的深度的情況下,對應點被唯一地確定在極線上。例如,如圖9所示那樣,針對在第一攝像機 圖像中被投影到m的位置的被攝物的在第二攝像機圖像中的對應點在實空間中的被攝物的 位置為M'的情況下被投影到極線上的位置m',在實空間中的被攝物的位置為M' '的情況下 被投影到極線上的位置m' '。
[0012]在非專利文獻2中,利用該性質(zhì),按照由針對參照幀的深度圖(距離圖像)提供的各 被攝物的三維信息,根據(jù)參照幀生成針對編碼對象幀的合成圖像,將所生成的合成圖像作 為每個區(qū)域的預測圖像的候補,由此,實現(xiàn)精度高的預測,實現(xiàn)高效的多視點活動圖像的編 碼。再有,基于該深度生成的合成圖像被稱為視點合成圖像、視點內(nèi)插圖像或視差補償圖 像。
[0013]現(xiàn)有技術(shù)文獻 非專利文獻 非專利文獻 I: ITU-T Recommendation Η· 264 (03/2009),"Advanced video coding for generic audiovisual services",2009年3月; 非專利文南犬2: S. Shimizu, Η. Kimata, and Y. Ohtani , "Adaptive appearance compensated view synthesis prediction for Multiview Video Coding",2009 16th IEEE International Conference on Image Processing (ICIP), pp. 2949-2952, 7-10 2009年 11 月。
【發(fā)明內(nèi)容】
[0014]發(fā)明要解決的課題 根據(jù)非專利文獻2所記載的方法,能夠通過使用根據(jù)深度圖得到的被攝物的三維信息 來進行高精度的視差補償?shù)囊朁c合成圖像來實現(xiàn)高效率的預測。此外,通過按照每個區(qū)域 選擇現(xiàn)有的預測和利用視點合成圖像的預測,從而即使在受到深度圖的品質(zhì)、遮擋的影響 而部分地生成精度低的視點合成圖像的情況下,也能夠通過按照每個區(qū)域選擇是否將視點 合成圖像作為預測圖像來防止碼量增加。
[0015]可是,在非專利文獻2所記載的方法中,在由深度圖表現(xiàn)的三維信息的精度低的情 況下,與使用了通常的視差矢量的視差補償預測相比,只能以低的精度補償視差,因此,存 在不能實現(xiàn)高效率的預測的這樣的問題。
[0016] 本發(fā)明是鑒于這樣的情況而完成的,其目的在于提供即使在由深度圖表現(xiàn)的視差 量的精度低的情況下也能夠?qū)崿F(xiàn)精度高的預測來實現(xiàn)高效率的編碼的活動圖像編碼方法、 活動圖像解碼方法、活動圖像編碼裝置、活動圖像解碼裝置、活動圖像編碼程序、以及活動 圖像解碼程序。
[0017] 用于解決課題的方案 本發(fā)明的一個方式是,一種活動圖像編碼裝置,在對由多個不同的視點的活動圖像構(gòu) 成的多視點活動圖像的1幀進行編碼時,使用針對與編碼對象圖像不同的參照視點的參照 視點圖像的運動信息即參照視點運動信息和針對所述多視點活動圖像中的被攝物的深度 圖,一邊在不同的視點間進行預測一邊按照作為對所述編碼對象圖像進行分割后的區(qū)域的 編碼對象區(qū)域的每一個進行編碼,其中,所述活動圖像編碼裝置具備:對應區(qū)域設(shè)定部,針 對所述編碼對象區(qū)域設(shè)定所述深度圖上的對應區(qū)域;區(qū)域分割部,設(shè)定作為對所述編碼對 象區(qū)域進行分割后的區(qū)域的預測區(qū)域;視差矢量生成部,按照每個所述預測區(qū)域,使用所述 對應區(qū)域內(nèi)的該預測區(qū)域所對應的區(qū)域中的深度信息來生成針對所述參照視點的視差矢 量;運動信息生成部,基于針對所述參照視點的所述視差矢量,根據(jù)所述參照視點運動信息 來生成所述預測區(qū)域中的運動信息;以及預測圖像生成部,使用所述預測區(qū)域中的所述運 動信息來生成針對所述預測區(qū)域的預測圖像。
[0018] 在本發(fā)明的活動圖像編碼裝置中,所述視差矢量生成部還針對所述編碼對象區(qū)域 生成針對所述深度圖的視差矢量,所述對應區(qū)域設(shè)定部將由針對所述深度圖的所述視差矢 量示出的區(qū)域設(shè)定為所述對應區(qū)域也可。
[0019] 在本發(fā)明的活動圖像編碼裝置中,所述視差矢量生成部使用在對與所述編碼對象 區(qū)域鄰接的區(qū)域進行編碼時使用的視差矢量來設(shè)定針對所述深度圖的所述視差矢量也可。
[0020] 在本發(fā)明的活動圖像編碼裝置中,所述區(qū)域分割部基于所述對應區(qū)域內(nèi)的深度信 息來設(shè)定針對所述編碼對象區(qū)域的區(qū)域分割也可。
[0021] 在本發(fā)明的活動圖像編碼裝置中,所述視差矢量生成部按照每個所述預測區(qū)域根 據(jù)所述對應區(qū)域內(nèi)的該預測區(qū)域所對應的所述區(qū)域中的所述深度信息設(shè)定代表深度,基于 該代表深度來設(shè)定針對所述參照視點的所述視差矢量也可。
[0022] 在本發(fā)明的活動圖像編碼裝置中,所述運動信息生成部使用針對所述預測區(qū)域預 先確定的像素的位置和針對所述參照視點的所述視差矢量來求取在所述參照視點的對應 位置,將所述參照視點運動信息之中的針對包含該對應位置的區(qū)域提供的運動信息作為所 述預測區(qū)域中的所述運動信息也可。
[0023] 在本發(fā)明的活動圖像編碼裝置中,還具備參照圖像設(shè)定部,所述參照圖像設(shè)定部 針對所述編碼對象圖像將在編碼對象視點的與所述編碼對象圖像不同的已經(jīng)編碼完畢的1 幀設(shè)定為參照圖像,所述運動信息生成部配合所述編碼對象圖像與所述參照圖像的時間間 隔縮放根據(jù)所述參照視點運動信息得到的運動信息,由此,生成所述預測區(qū)域中的所述運 動信息也可。
[0024] 在本發(fā)明的活動圖像編碼裝置中,所述預測圖像生成部使用第一預測圖像和第二 預測圖像來生成針對所述預測區(qū)域的所述預測圖像,所述第一預測圖像使用所述預測區(qū)域 中的所述運動信息來生成,所述第二預測圖像使用針對所述參照視點的所述視差矢量和所 述參照視點圖像來生成也可。
[0025] 本發(fā)明的一個方式是,一種活動圖像解碼裝置,在根據(jù)由多個不同的視點的活動 圖像構(gòu)成的多視點活動圖像的碼數(shù)據(jù)對解碼對象圖像進行解碼時,使用針對與所述解碼對 象圖像不同的參照視點的參照視點圖像的運動信息即參照視點運動信息和針對所述多視 點活動圖像中的被攝物的深度圖,一邊在不同的視點間進行預測一邊按照作為對所述解碼 對象圖像進行分割后的區(qū)域的解碼對象區(qū)域的每一個進行解碼,其中,所述活動圖像解碼 裝置具備:對應區(qū)域設(shè)定部,針對所述解碼對象區(qū)域設(shè)定所述深度圖上的對應區(qū)域;區(qū)域分 割部,設(shè)定作為對所述解碼對象區(qū)域進行分割后的區(qū)域的預測區(qū)域;視差矢量生成部,按照 每個所述預測區(qū)域,使用所述對應區(qū)域內(nèi)的該預測區(qū)域所對應的區(qū)域中的深度信息來生成 針對所述參照視點的視差矢量;運動信息生成部,基于針對所述參照視點的所述視差矢量, 根據(jù)所述參照視點運動信息來生成所述預測區(qū)域中的運動信息;以及預測圖像生成部,使 用所