在視頻編碼中適應(yīng)魯棒性的制作方法
【專利說明】在視頻編碼中適應(yīng)魯棒性
【背景技術(shù)】
[0001] 在現(xiàn)代通信系統(tǒng)中,視頻信號(hào)可以通過諸如有線和/或無線網(wǎng)絡(luò)(通常,諸如因特 網(wǎng)之類的基于分組的網(wǎng)絡(luò))之類的介質(zhì)從一個(gè)終端被發(fā)送到另一個(gè)。典型地,在發(fā)送終端處 用編碼器對(duì)視頻的幀進(jìn)行編碼以便對(duì)其壓縮以用于通過網(wǎng)絡(luò)進(jìn)行傳輸。用于給定幀的編碼 可以包括幀內(nèi)編碼,其中塊相對(duì)于在同一幀中的其他塊而被編碼。在這種情形下,目標(biāo)塊通 過在那個(gè)塊和相鄰塊之間的差異(殘差(residual))而被編碼??商鎿Q地,用于某些幀的編 碼可以包括幀間編碼,其中典型地基于運(yùn)動(dòng)預(yù)測(cè),在目標(biāo)幀中的塊是相對(duì)于在前的幀的相 應(yīng)部分而被編碼。在這個(gè)情況下,目標(biāo)塊是通過標(biāo)識(shí)在塊和該塊根據(jù)其要被預(yù)測(cè)的相應(yīng)的 部分之間的偏移的運(yùn)動(dòng)向量,以及在該塊和該塊根據(jù)其而被預(yù)測(cè)的對(duì)應(yīng)的部分之間的差異 而被編碼。在接收器處對(duì)應(yīng)的解碼器基于合適的預(yù)測(cè)類型來對(duì)所接收到的視頻信號(hào)的幀進(jìn) 行解碼,以便將它們解壓縮(decompress)以用于向屏幕輸出。
[0002] 但是,幀或者幀的部分會(huì)在傳輸中丟失。例如,典型地,基于分組的網(wǎng)絡(luò)不保證所 有分組的遞送,例如,分組中的一個(gè)或多個(gè)可能由于擁塞(congestion)而在中間路由器處 被丟棄。作為另一個(gè)示例,數(shù)據(jù)可能由于網(wǎng)絡(luò)介質(zhì)的較差的情況(例如,噪聲或者干擾)而損 壞(corrupt)?;诒话ㄔ诰幋a的比特流中的冗余信息,前向糾錯(cuò)(FEC)或者其他這樣的 錯(cuò)誤保護(hù)技術(shù)有時(shí)可以被用來恢復(fù)丟失的分組。但是,沒有一種錯(cuò)誤保護(hù)技術(shù)是完美的,并 且某些分組在嘗試糾正之后可能仍然不會(huì)被恢復(fù)。可替換地,系統(tǒng)設(shè)計(jì)者可能不想要引入 (incur)被用于錯(cuò)誤保護(hù)的冗余信息的開銷,至少不是在所有的情況下。所以,丟失可能仍 然發(fā)生。
[0003] 魯棒性指的是編碼方案對(duì)丟失不敏感的能力,依據(jù)在存在丟失的情況下失真如何 被影響。幀間編碼幀(inter frame)相比于幀內(nèi)編碼幀(intra frame),要求更少的比特來 編碼,但是由于幀間編碼幀引入了對(duì)在前幀處的依賴性,所以它是更不魯棒的。即使幀間 編碼幀被接收,但是如果在其歷史中的某些幀已經(jīng)被丟失(包括對(duì)其預(yù)測(cè)所依據(jù)的參考的 幀或幀的一部分,或者對(duì)參考預(yù)測(cè)所依據(jù)的幀或者幀的一部分),則其可能無法被合適地解 碼。所以,由于丟失的失真可能在多個(gè)幀上擴(kuò)散。幀內(nèi)編碼是更為魯棒的,這是因?yàn)槠鋬H僅 依賴在當(dāng)前幀中的參考的接收,所以即使已經(jīng)存在之前的丟失,解碼狀態(tài)仍然可以被恢復(fù)。 負(fù)面是幀內(nèi)編碼在編碼的比特流中引入更多的比特。改善魯棒性的另一個(gè)可能的訣竅是使 得解碼器反饋被成功接收和解碼的幀或者幀的一部分的確認(rèn),并且使用確認(rèn)的參考模式, 其限制編碼器僅僅相對(duì)于確認(rèn)的參考而對(duì)當(dāng)前塊進(jìn)行編碼。但是,這將用于預(yù)測(cè)的候選限 制為在時(shí)間上進(jìn)一步向后的參考,其傾向于更不相似,并且因此在預(yù)測(cè)方面實(shí)現(xiàn)了更少的 增益(即,導(dǎo)致更大的殘差)。
[0004] 考慮各種可能的編碼模式(比如,幀內(nèi)編碼、幀間編碼以及相對(duì)于確認(rèn)的參考的編 碼),因此在魯棒性(在防衛(wèi)潛在的失真方面)以及在編碼的信號(hào)中引入的比特率之間的折 中要被做出。丟失適應(yīng)的速率失真優(yōu)化(LARD0)是一種可以在解碼器側(cè)被應(yīng)用來嘗試優(yōu)化 這個(gè)折中的技術(shù)。對(duì)于每個(gè)考慮的宏塊,LARD0測(cè)量通過在多個(gè)可用的編碼模式中的每個(gè) 中對(duì)宏塊進(jìn)行編碼而經(jīng)歷失真D的估計(jì)和使用這些編碼模式中的每個(gè)時(shí)將要被引入在編 碼的比特流中的比特率。失真D的估計(jì)可能考慮到源編碼失真(例如,由于量化)以及由于 丟失的潛在的失真的估計(jì)(基于在所考慮的信道中出現(xiàn)丟失的可能性)兩者。在編碼器處的 LARDO過程然后選擇編碼模式,所述編碼模式使形如D+XR (其中,λ是表征折中的參數(shù)) 的函數(shù)最小化。
【發(fā)明內(nèi)容】
[0005] 根據(jù)一個(gè)方面,本公開涉及一種裝置,所述裝置具有用于接收包括多個(gè)幀的視頻 信號(hào)的輸入,每一個(gè)幀包括多個(gè)圖像部分,以及用于對(duì)圖像部分的每一個(gè)進(jìn)行編碼以便生 成編碼的信號(hào)的編碼器。例如,所考慮的圖像部分可能是任何合適的編解碼器的塊或者宏 塊,或者幀的任何其他所期望的劃分(division)。編碼器能夠使用兩個(gè)或多個(gè)不同的編碼 模式中的任何所選擇的一個(gè)對(duì)部分(例如,每個(gè)塊或者宏塊)中的每一個(gè)進(jìn)行編碼,并具有 不同的速率失真折中。例如,編碼模式可以包括幀內(nèi)編碼模式、幀間編碼模式和/或目標(biāo)部 分被相對(duì)于確認(rèn)的參考(確認(rèn)為已被接收端接收)而被編碼的模式。
[0006] 為了控制這一點(diǎn),裝置包括被布置來選擇被用于對(duì)圖像部分中的每一個(gè)相應(yīng)地進(jìn) 行編碼的編碼模式的適應(yīng)模塊。適應(yīng)使用速率失真優(yōu)化過程,由此其平衡失真和比特率的 函數(shù)。該函數(shù)是編碼模式的函數(shù),并且至少包括表示如果利用某個(gè)編碼模式對(duì)目標(biāo)部分進(jìn) 行編碼而在解碼器處將要經(jīng)歷的潛在失真的估計(jì)的部分以及表示通過使用那個(gè)編碼模式 對(duì)圖像部分進(jìn)行編碼而在所編碼的信號(hào)中將要引入的比特率的部分。因此,適應(yīng)模塊能夠 考慮根據(jù)多個(gè)不同的編碼模式中的每一個(gè)對(duì)目標(biāo)部分進(jìn)行編碼的潛在的速率失真折中,并 且它根據(jù)某種最優(yōu)化準(zhǔn)則選擇被估計(jì)來提供最佳的折中的模式。
[0007] 進(jìn)一步,適應(yīng)模塊也可以被配置來在幀中確定具有不同感知顯著性的至少兩個(gè)不 同的區(qū)域。例如,這可以包括確定至少一個(gè)感興趣區(qū)域,例如視頻通話中的面部,其具有比 感興趣區(qū)域之外的背景區(qū)域更大的顯著性。在實(shí)施例中,適應(yīng)模塊可以確定具有各種不同 區(qū)域(至少多于兩個(gè))的感知敏感性映射,并且針對(duì)每個(gè)區(qū)域確定感知顯著性水平。該水平 可以從各種不同的可能水平中(同樣,至少多于兩個(gè))確定。上文所提到的函數(shù)然后可以根 據(jù)正在被編碼的圖像部分處在哪個(gè)區(qū)域中而被適應(yīng),例如,根據(jù)相應(yīng)區(qū)域的感知顯著性,來 適應(yīng)被應(yīng)用于函數(shù)的各部分之一上的加權(quán)。
[0008] 在實(shí)施例中,表示失真的函數(shù)的部分至少包括由于丟失的潛在失真的估計(jì),例如 考慮目標(biāo)圖像被丟失或者在其歷史中的事物被丟失的可能性。在實(shí)施例中,失真的估計(jì)可 以考慮源編碼失真以及丟失可能性兩者。因此,在實(shí)施例中,更高的魯棒性(對(duì)丟失更低的 敏感性)可以以在編碼信號(hào)中更多的比特為代價(jià)而被應(yīng)用于感興趣的區(qū)域或者更高感知顯 著性的區(qū)域,而更低的魯棒性(對(duì)丟失更高的敏感性)可以被應(yīng)用于一個(gè)或多個(gè)其他區(qū)域, 從而因使用較少比特來對(duì)這些區(qū)域進(jìn)行編碼而得到節(jié)省。
[0009] 本
【發(fā)明內(nèi)容】
被提供來以簡化的形式介紹概念的選擇,在下文【具體實(shí)施方式】中進(jìn)一 步對(duì)其描述。本
【發(fā)明內(nèi)容】
不是旨在標(biāo)識(shí)要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在 被用來限制要求保護(hù)的主題的范圍。所要求保護(hù)的主題不局限于解決在【背景技術(shù)】部分所指 出的缺點(diǎn)中的任何一個(gè)或者全部的實(shí)現(xiàn)方式。
【附圖說明】
[0010] 圖1是視頻流的示意性表示, 圖2是通信系統(tǒng)的示意性框圖, 圖3是編碼的視頻流的示意性表示, 圖4是編碼器的示意性框圖, 圖5是解碼器的示意性框圖,以及 圖6是要被編碼的視頻圖像的示意性表示以及對(duì)應(yīng)的感知重要性映射的示例。
【具體實(shí)施方式】
[0011] 如果優(yōu)化函數(shù)被強(qiáng)加權(quán)成以高比特率為代價(jià)避免失真,則諸如LARD0之類的魯棒 性工具在速率失真性能方面是昂貴的。在其他方面,如果對(duì)于比特率的節(jié)省被過多加權(quán),則 類似LARD0的魯棒性工具可以產(chǎn)生在良好網(wǎng)絡(luò)情況下無法保證的顯著的質(zhì)量下降。
[0012] 下面的實(shí)施例將魯棒性適應(yīng)于幀內(nèi)的主觀重要性??梢詫?duì)LARD0類型的工具(相 對(duì)于確認(rèn)的參考、幀內(nèi)塊等等而進(jìn)行編碼)應(yīng)用空間選擇性。例如,在幀內(nèi)的感興趣區(qū)域 (R0I)可以在編碼器側(cè)被確定,并且相比在感興趣區(qū)域外部的那些,可以將更大的魯棒性給 予正在感興趣區(qū)域內(nèi)進(jìn)行編碼的塊或者宏塊(例如,在LARD0優(yōu)化中,以更高的比特率為代 價(jià),將對(duì)抗失真的更大的加權(quán)給予在R0I中的宏塊,而在R0I之外,花費(fèi)更少的比特)。將這 個(gè)想法擴(kuò)展,LARD0類型的工具可以以連續(xù)的方式(例如,與空間失真敏感性成比例地)應(yīng) 用空間選擇性。例如,感知敏感性映射可以被確定,其中不同的區(qū)域可以被給予來自一個(gè)范 圍的各種不同水平的(多于兩個(gè)水平)不同的感興趣水平,例如,將不同的水平映射到在幀 內(nèi)的每個(gè)塊或者宏塊。然后,魯棒性可以根據(jù)與每個(gè)區(qū)域相關(guān)聯(lián)的水平而被適應(yīng)(例如,在 LARD0優(yōu)化函數(shù)中的加權(quán)可以根據(jù)感知顯著性水平而被適應(yīng),從而相比于具有更低水平的 那些宏塊,將對(duì)抗失真的更大的加權(quán)給予具有更高顯著性水平的那些宏塊)。
[0013] 這些工具的使用也可以與R0I感知隱藏(concealment)質(zhì)量估計(jì)進(jìn)行組合,以便 在隱藏質(zhì)量被估計(jì)為是低的時(shí)候來確定是否幀可以被丟棄。
[0014] 因此,相比于當(dāng)前可能的,實(shí)施例可以在丟失期間以在一個(gè)或多個(gè)感興趣區(qū)域中 可接受的質(zhì)量以更小的比特率開銷產(chǎn)生更高的幀率。
[0015] 圖1給出輸入視頻信號(hào)的示意性圖示,所述視頻信號(hào)從攝像機(jī)被捕獲,并且被劃 分成準(zhǔn)備好由視頻編碼器進(jìn)行編碼以生成編碼的比特流的各部分。該信號(hào)包括在時(shí)間上被 劃分成多個(gè)幀(F)的移動(dòng)視頻圖像,每個(gè)幀表示在時(shí)間上t+L···)不同的相應(yīng)的 時(shí)刻的圖像。在每個(gè)幀內(nèi),該幀在空間上被劃分成多個(gè)部分,每個(gè)部分表示多個(gè)像素。例 如,這些部分可以被稱為塊。在某些方案中,該幀被劃分和子劃分成不同水平的部分或者 塊。例如,每個(gè)幀可以被劃分成宏塊(MB ),并且每個(gè)宏塊可以被劃分成塊(b ),例如,每個(gè)塊 表示幀內(nèi)的8 X 8像素的區(qū)域,以及每個(gè)宏塊表示2 X 2塊(16 X 16像素)的區(qū)域。在某些方 案中,每個(gè)幀也可以被劃分成片(slice),每個(gè)片包括多個(gè)宏塊。
[0016] 在輸入信號(hào)中的塊可以初始地在空間域中被表示,其中每個(gè)通道被表示為在塊內(nèi) 的空間位置的函數(shù),例如,亮度(Y)和色度(U,V)通道中的每一個(gè)是笛卡爾坐標(biāo)X和y的函 數(shù),Y(x,y),U(x,y)和V(x,y)。在這個(gè)表示中,每個(gè)塊或者部分可以由在不同的空間坐標(biāo) (例如,X和y坐標(biāo))處的一組像素值所表示,以便顏色空間的每個(gè)通道通過在塊內(nèi)的特定位 置的特定值、在該塊內(nèi)的另一個(gè)位置的另一個(gè)值和其他等等而被表示。
[0017] 但是,作為編碼過程的一部分,該塊可以被變換到變換域(典型地,空頻域表示,某 些時(shí)候僅被稱之為頻域)表示。在頻域,該塊通過表示在該塊內(nèi)的每個(gè)顏色空間通道中的變 化(例如,在該塊內(nèi)的亮度Y和兩個(gè)色度U和V中的每一個(gè)中的變化)的頻率分量的系統(tǒng)而 被表示。從數(shù)學(xué)上講,在頻域,通道中的每一個(gè)(亮度和兩個(gè)色度通道或者這樣類似的通道 的每一個(gè))被表示為空頻的函數(shù),尺寸為1/給定方向的長度。例如,這可以相應(yīng)地由在水平 和垂直方向上的波數(shù)1和ky所表示,所以該通道可以被相應(yīng)地表達(dá)為Y(kx,ky