專利名稱:用于自適應(yīng)播放視頻幀的方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及處理視頻,更具體地,涉及基于視覺復(fù)雜度自適應(yīng)播放壓縮視頻。
背景技術(shù):
在現(xiàn)有技術(shù)中,視頻摘要和視頻的自適應(yīng)重放經(jīng)常被理解為同一且相同的。因此,為了識別本發(fā)明,提供了以下定義。
視頻摘要視頻摘要是以降低的和壓縮的形式產(chǎn)生視頻內(nèi)容的主旨或主要點的過程。通常,視頻摘要通過從原始視頻中選擇一個幀子集而產(chǎn)生,以制造摘要視頻,它是比原始視頻更短的視頻。摘要可以包括所選擇的靜止幀和/或短的所選擇的連續(xù)序列,以傳達原始視頻的要素。該摘要可以按照所選幀的順序被表現(xiàn)為節(jié)目順序表,或鑲嵌式。也可能文本地或語言地概括視頻。
通常,視頻摘要基于用戶輸入和視頻內(nèi)容。內(nèi)容的分析可以基于例如紋理、運動、顏色、對比度、亮度等低層特征,以及例如風(fēng)格、戲劇性強度、幽默、活動級別、美觀、抒情等高層語義特征。
自適應(yīng)重放自適應(yīng)重放是以時間偏差方式呈現(xiàn)視頻的過程。在最通常的意義上,通過改變幀速率選擇性地提高或降低視頻播放速度,或者通過選擇性地除去幀以增加播放速度,或者增加幀以降低播放速度。如果視頻的自適應(yīng)重放比原始視頻短,且該重放傳達視頻內(nèi)容的要素,則它可以被認為是一種類型的摘要。然而,存在視頻的自適應(yīng)重放比原始視頻更長的情況。例如,如果視頻包含復(fù)雜場景或大量運動,則以更慢的速度播放視頻可以為觀看者提供更好的視頻細節(jié)理解。該類型的自適應(yīng)重放是視頻的放大或增大,而不是摘要。
摘要的主要目的是在更短量的時間內(nèi)輸出視頻的要素,因此該過程基本上基于內(nèi)容分析。
與之相對照,自適應(yīng)重放的主要目的是改進視頻對于人類視覺系統(tǒng)的感覺,其中該改進基于視頻的視覺復(fù)雜度。因此,自適應(yīng)的關(guān)注點更多地基于視頻的心理-物理特征而不是內(nèi)容,且該過程更是一種表現(xiàn)技術(shù),而不是內(nèi)容分析方法。
自動視頻摘要方法是眾所周知的,參閱S.Pfeiffer等人的“Abstracting Digital Movies Automatically”,J.Visual Comm.ImageRepresentation,vol.7,no.4,pp.345-353,1996年12月,以及Hanjalic等人的“An Integrated Scheme for Automated Video AbstractionBased on Unsupervised Cluster-Validity Analysis”,IEEE Trans.OnCircuits and Systems for Video Technology,Vol.9,No.8,1999年12月。
多數(shù)已知的視頻摘要方法關(guān)注基于顏色的摘要。Pfeiffer等人還使用運動,組合其它特征以產(chǎn)生視頻摘要。然而,他們的方法僅使用加權(quán)的組合,它忽略了組合特征之間可能的相關(guān)性。雖然顏色描述符是可靠的,但是它們并不包括視頻內(nèi)容的運動特征。然而,運動描述符傾向于比顏色描述符對噪聲更敏感。視頻中運動活動性的級別可以是由視頻獲得的場景變化多少的度量。因此,運動活動性可以被認為是視頻的“可概括性”的度量。例如,與新聞評論員的場景相比,高速汽車追逐中將當(dāng)然具有更多的“變化”,因此高速汽車追逐場景將比新聞評論員需要更多用于視覺摘要的資源。
在某種意義上,摘要可以被看作冗余度的減少。這可以通過對相似視頻幀進行聚類,并且從這些聚類中選擇代表性的幀來完成,參閱Yeung等人的“Efficient matching and clustering of video shots”,ICIP’95,pp.338-341,1995,Zhong等人的“Clustering methods forvideo browsing and annotation”,SPIE Storage and Retrieval forImage and Video Databases IV,pp.239-246,1996,以及Ferman等人的“Efficient filtering and clustering methods for temporal videosegmentation and visual summarization”,J.Vis.Commun.& ImageRep.,9336-351,1998。
在另一種方法中,視頻內(nèi)容中的變化隨時間流逝被度量,且只要變化變得顯著,則具有代表性的幀被選擇,參閱DeMenthon等人的“Video Summarization by Curve Simplification”,ACM Multimedia98,pp.211-218,1998年9月,以及Divakaran等人的“Motion Activitybased extraction of key frames from video shots”,Proc.IEEE Int’lConf.on Image Processing,2002年9月。
在另一種方法中,為視頻的不同部分分配有效性度量。隨后,不那么有效的部分可以被濾除,參閱Ma等人的“A User Attention Modelfor Video Summarization”,ACM Multimedia’02,pp.533-542,2002年12月。
一種自適應(yīng)視頻摘要方法由Divakaran等人的“Videosummarization using descriptors of motion activity”,Journal ofElectronic Imaging,Vol.10,No.4,October 2001,Peker等人的“Constant pace skimming and temporal sub-sampling of video usingmotion activity”,Proc.IEEE Int’l Conf.on Image Processing,2001年10月,Peker等人于2000年11月17日提交的美國專利申請序列號09/715,639,以及Divakaran等人于2000年8月9日提交的美國專利申請序列號09/654,364中描述,這些文獻通過參考被并入于此。其中,運動活動性描述符被用來產(chǎn)生具有常數(shù)“步調(diào)”的摘要。該運動活動性描述符是MPEG壓縮視頻中運動矢量的平均大小。
現(xiàn)有技術(shù)視頻處理方法主要關(guān)注了考慮內(nèi)容提供可理解的摘要。然而,需要不同的方法以根據(jù)視覺復(fù)雜度以不同速度自適應(yīng)地播放視頻。這些方法應(yīng)該考慮人眼能夠以多快的速度跟蹤隨時空復(fù)雜度變化的動作流。
發(fā)明內(nèi)容
心理物理實驗已經(jīng)顯示,人類視覺系統(tǒng)僅對一定時空窗內(nèi)的視覺激勵敏感。運動圖像在該時空空間中的位置通過圖像區(qū)域的空間頻率內(nèi)容及其速度被確定。
本發(fā)明提供視頻中的時空復(fù)雜度(STC)的一種度量,它可以被用來確定該視頻應(yīng)該被播放得多快或多慢以匹配人類感覺極限?;蛘?,該度量使得一個人能夠確定可接受的視頻播放速度所需的時空濾除。
時空復(fù)雜度被直接從視頻中度量,使得內(nèi)容可以從任意點被正向播放。根據(jù)本發(fā)明的自適應(yīng)重放方法基于人類視覺系統(tǒng)的視覺特征,因此,本方法不依賴于視頻摘要將需要的內(nèi)容特征和語義。
因此,根據(jù)本發(fā)明的方法可以被應(yīng)用于很大范圍的視頻,不依賴于它們的內(nèi)容。而且,本方法可以被用于低的時間摘要,其中被感知的內(nèi)容和時間連續(xù)性隨著時間的流逝被保持,且丟失重要事件的風(fēng)險被最小化。
配置了視頻的視覺復(fù)雜度的度量,視頻可以用兩種可相互替代的方法被播放。在一種方法中,確定視頻可以被播放的最優(yōu)速度以最大化感覺。在第二種方法中,視覺復(fù)雜度部分是空間復(fù)雜度的函數(shù),它可以通過濾除高頻空間分量,且通過時空平滑而被降低。降低視覺復(fù)雜度并不意味著如摘要的情形中那樣視頻的某些部分被除去,而是需要更少的時間通過人類視覺系統(tǒng)傳達內(nèi)容,與該內(nèi)容是什么無關(guān)。
根據(jù)本發(fā)明的視覺復(fù)雜度度量并不暗示任何語義的推論。播放速度適合于內(nèi)容的低層物理特征,而不是高層認知階段。在這方面,自適應(yīng)重放更是一種表現(xiàn)方法,而不是語義內(nèi)容分析。因此,根據(jù)本發(fā)明的自適應(yīng)重放是對已知摘要方法的補充。
雖然本發(fā)明的優(yōu)選實施例作用于通過離散余弦系數(shù)被空間壓縮且通過運動矢量被時間壓縮的視頻,應(yīng)該理解本發(fā)明也可以作用于未壓縮視頻。
附圖簡述
圖1是線性運動的1-D脈沖的示意圖;
圖2是圖1的脈沖的定時示意圖;圖3是圖1的信號的傅立葉變換;圖4是帶寬受限信號的示意圖;圖5是圖4的信號的傅立葉變換;圖6是用于圖5的信號的可視性窗的示意圖;圖7和圖8比較混疊和可視性約束的窗;圖9是用于平移1-D正弦信號的時間帶寬和其時間頻率的推導(dǎo)的示意圖;圖10是具有與波前垂直的頻率向量的2D正弦的示意圖;圖11是用于運動物體的運動矢量的示意圖;圖12是比較角度和距離觀看單元的關(guān)系的示意圖;圖13是比較用于一段籃球視頻的運動活動性和視覺復(fù)雜度的示意圖;以及圖14是比較用于一段高爾夫視頻的運動活動性和視覺復(fù)雜度的示意圖。
本發(fā)明的優(yōu)選實施方式本發(fā)明以為對其內(nèi)容的可接受的理解而調(diào)整的速度自適應(yīng)地播放視頻,與該內(nèi)容是什么無關(guān)。我們的播放速度主要是場景復(fù)雜度和人類視覺系統(tǒng)的處理容量的函數(shù)。這些因素極大地影響人類視覺系統(tǒng)的幀處理時間。
眾所周知,人類視覺系統(tǒng)僅對一定時空窗內(nèi)的激勵敏感,見下文中的圖6,該時空窗被稱作可視性窗,參閱Watson等人的“Window ofvisibilitya psychophysical theory of fidelity in time-sampled visualmotion displays”,J.Opt.Soc.Am.A,Vol.3,No.3,pp.300-307,1986年3月。Watson等人提出,對于時間采樣的視頻,要與其連續(xù)視頻的感覺相同,這兩種形式應(yīng)該在變換域中的可視性窗內(nèi)看上去相同。
我們還認識到,高于一定空間解析度和時間頻率極限,人類無法觀看并理解。因此,我們平衡視覺激勵的空間帶寬和速度之間的關(guān)系,以當(dāng)播放視頻時保持常數(shù)感覺視覺質(zhì)量,視覺激勵的速度即視頻幀以怎樣的速率呈現(xiàn)。
圖1用從左至右線性運動的1-D脈沖信號101圖示了這個概念,運動速度為v,使得x=v.t,見圖2,其中x軸和t軸被分別標(biāo)記為201-202。這對應(yīng)x-t空間中的直線203。如圖3所示,該信號的傅立葉變換也是通過原點的直線301,斜率為 其中w302是時間頻率,且f303是空間頻率。在時間上,1-D信號平移的頻譜位于通過原點的直線上。
圖4示出了帶寬為(-U,U)401的帶寬受限信號。如圖5所示,時空(傅立葉)變換為從(U,-v.U)延伸至(-U,v.U)的直線501。
當(dāng)運動的信號在時間上被采樣時,在變換域的時間頻率軸ω上產(chǎn)生了原始信號的傅立葉變換的復(fù)制,每個均間隔ωs,其中ωs是時間采樣頻率。
根據(jù)心理物理理論,如圖6所示,對于傅立葉域,只要采樣的復(fù)制602位于可視性窗610以外,時間采樣帶寬受限信號601與連續(xù)形式感覺相同。復(fù)制602位于可視性窗以外,只要ωs≥ωl≥+vU,其中l(wèi)為可視性窗在時間頻率軸上的一個邊緣。
另一個考慮是由采樣引起的時間混疊效應(yīng)。采樣頻率ωs必須至少為2.v.U,以避免混疊?;殳B與可視性窗約束的比較被圖示于具有采樣信號的時間頻譜701和801的圖7和圖8。在計算機圖形中,混疊時常利用空間平滑或運動模糊來處理。因此,視覺激勵的時間帶寬是對時間采樣頻率的限制因素。
如圖9所示,對于1-D正弦901及其位移形式902,用于平移1-D信號的時間帶寬為v.U。在2-D的情況下,運動正弦的時間頻率由頻率矢量和速度矢量的點積給出 其中v=d/td,且d是相對位移距離。
圖10示出了具有垂直于波前1002的頻率矢量f1001的2D正弦。矢量v1003示出了速度的平移。在圖10中,正弦為cos(2π1Nx+2π4Ny),]]>其中原點在左上角,且y軸正半軸示于下方。2D正弦的每個1-D橫斷面都是1-D正弦。該正弦沿x軸的頻率為fx=1/2,且沿y軸的頻率為fy=2。我們用頻率矢量f→=(0.5,2)]]>表示該正弦,它指向最高頻率方向,即沿著梯度。
如果描述該正弦的平移的運動矢量由v→=(vx,vy)]]>給出,則運動矢量 的空間方向上的1-D橫斷面的空間頻率為fv=(fx·vx+fy·vy)vx2+vy2=f→·v→|v→|.]]>因此,具有空間頻率 和速度 的平移2D信號時間頻率由fv|v→|=f→·v→]]>給出。
根據(jù)本發(fā)明,我們將這種標(biāo)量積定義為時空或視覺復(fù)雜度度量。
壓縮視頻中的時空復(fù)雜度作用于壓縮視頻的方法因為顯著節(jié)約處理時間、緩沖和存儲要求,所以是有優(yōu)勢的。在很多應(yīng)用中,作用于壓縮視頻的過程是唯一可行的解決方法。為了根據(jù)本發(fā)明在壓縮視頻中度量視覺復(fù)雜度,我們使用了離散余弦變換(DCT)系數(shù)的宏塊和運動矢量。
如上所述,本視覺復(fù)雜度由 給出。DCT變換的基函數(shù)具有如下形式cos(πkx(2x+1)2N)·cos(πky(2y+1)2N)]]>=cos(2πkx2Nx+2πk4N)·cos(2πky2Ny+2πk4N),]]>它是頻率為 和 的兩個1-D正弦的乘積,其x方向頻率為fx且y方向頻率為fy,并且被表示為cos(2πfxNx+2πfyNy).]]>使用恒等式cos(a·b)=12[cos(a+b)+cos(a-b)],]]>我們可以將該DCT基寫作cos(2πkx2Nx+2πkx4N)·cos(2πky2Ny+2πky4N)]]>=12cos(2πkx2Nx+2πky2Ny+2πkx+ky4N)+cos(2πkx2Nx-2πky2Ny+2πkx-ky4N)]]>因此,每個DCT基為兩個2D正弦的疊加,一個具有空間頻率f1→=(kx2,ky2),]]>另一個具有空間頻率f2→=(kx2,ky2).]]>則,由(kx,ky)DCT系數(shù)和運動矢量v→=(vx,vy)]]>得出的時間頻率或時空復(fù)雜度為ω1=f1→·v1→=kx2vx+ky2vy,]]>以及ω2=f2→·v2→=kx2vx-ky2vy,]]>它們的單位為周期每塊,因為(kx,ky)具有這種單位。為了將頻率轉(zhuǎn)換成周期每幀,我們通過(kx,ky)除以例如8的宏塊大小,將其轉(zhuǎn)換為周期每像素。此外,我們在過程中使用絕對值|ω1|和|ω2|,因為頻率的符號在一個維度中是無關(guān)的。用于將DCT展開為正弦的和的1/2因子也是無關(guān)的,因為所有項都具有相同的因子。因此,由每個DCT系數(shù)貢獻的時空復(fù)雜度項的最終形式為ω1=|kxvx+kyvy|16,]]>ω2=|kxvx-kyvy|16]]>周期/幀。
每個DCT系數(shù)將等于其能量的值貢獻給對應(yīng)于時空復(fù)雜度直方圖中的ω1和ω2的直方圖槽,如下所述。
運動矢量和DCT估計在MPEG視頻中,確定壓縮運動矢量以最大化壓縮效率。因為運動矢量并不預(yù)測真實的運動,運動矢量是不可靠的。常會出現(xiàn)偽矢量,尤其當(dāng)編碼器沒有被最優(yōu)化時。為了減少偽運動矢量,我們丟棄具有低紋理的塊,因為用于尋找運動矢量的塊匹配對這些塊更加不可靠。
我們通過對每個塊的空間帶寬設(shè)置門限進行丟棄,我們已經(jīng)對視覺復(fù)雜度度量確定該空間帶寬。注意,具有低紋理或低空間帶寬的塊被期望具有低的視頻復(fù)雜度。因此,丟失有效塊的風(fēng)險最小。然后,我們應(yīng)用中值濾除以進一步減少偽運動矢量。我們運用插值為沒有運動矢量的幀內(nèi)編碼宏塊填補運動矢量信息。
可以為各塊適配全局運動模型以進一步減少偽運動矢量。然而,這也將影響前景物體的運動。然而,如果該應(yīng)用允許,則全局運動適配,尤其通過迭代的加權(quán)最小平方,可以增加運動矢量場的可靠性。模型適配還消除了幀內(nèi)編碼宏塊的問題。根據(jù)按照人類視覺系統(tǒng)跟蹤運動物體,不同地對待運動物體與主要靜止的背景是有意義的。
對于MPEG壓縮視頻的I幀,具有DCT系數(shù)而沒有運動矢量。
類似地,對于P幀,具有運動矢量且DCT系數(shù)僅用于運動殘余。通過應(yīng)用運動補償或估計而不解碼,我們可以確定P幀塊的DCT系數(shù)。另一種可供替換的解決方法將從I幀到后面的P幀或其它幀的運動矢量看作I幀中的非規(guī)則網(wǎng)格上的塊的運動。然后,我們可以對運動矢量場進行插值或適配參數(shù)模型以得到用于I幀的塊的運動矢量。這是更簡單且更快速的方法。然而,如果為不規(guī)則運動場適配參數(shù)模型,前景物體運動可能被丟失。
視頻段的時空復(fù)雜度我們?yōu)橐曨l的一部分的視覺復(fù)雜度同時定義基于直方圖的度量和單數(shù)度量。對于每個宏塊,我們確定對每個DCT系數(shù)的時空復(fù)雜度貢獻(ω1和ω2),并且構(gòu)建復(fù)雜度分布的直方圖。我們通過平均宏塊復(fù)雜度直方圖,為該幀確定復(fù)雜度直方圖??梢詫σ欢〝?shù)目的幀執(zhí)行該平均,以確定視頻段的復(fù)雜度。
時空復(fù)雜度直方圖使得我們能夠度量高于給定時間頻率的能量。該度量被用于調(diào)整摘要因子或用于每個視頻幀或段的播放速度,使得感覺質(zhì)量對于視頻的所有幀為常數(shù)。
對于直方圖過于復(fù)雜的某種應(yīng)用,可以使用更加簡潔的度量。例如,平均或者某種百分位數(shù)可以被用作對視頻段的時空復(fù)雜度的單個代表性度量。時空復(fù)雜度直方圖類似于功率譜,而單數(shù)與帶寬度量相似。
實際上,視覺復(fù)雜度度量是視頻段的時間帶寬的一種近似。理想地,時間帶寬可以通過3D快速傅立葉變換(FFT)或DCT來確定。然而對于多數(shù)視頻,由于計算復(fù)雜度和緩沖器要求,這將是不實際的。使用運動矢量中的分段線性運動假設(shè)使得我們能夠以直接的方式估計壓縮視頻中的時間帶寬。
具有時空復(fù)雜度度量的形式的估計的時間帶寬可以高于由時間采樣速率給出的最高可能頻率。這是由于幾個因素,例如運動矢量中的固有錯誤,基于塊的運動矢量場的低分辨率,塊的運動殘余,對于一定數(shù)目幀的線性運動假設(shè),等等。
例如,如圖11中所夸大描繪的,對于例如遠距離監(jiān)視視頻中的高速汽車1101或卡車1102的小物體,像素運動,運動矢量1103可以大于物體的大小。實際上,對于某些宏塊,這種區(qū)域中的時空復(fù)雜度可以高達1.6,其中0.5是時間混疊極限。然而,時空復(fù)雜度仍然是一種好的近似,并且是視覺場景復(fù)雜度的直觀的指示符,因為它組合了兩種重要的視覺復(fù)雜度分量,即視頻幀的空間細節(jié)和運動活動性級別。
自適應(yīng)重放在適宜的條件下,人類視覺系統(tǒng)可以感覺高達約60周期/度的空間解析度。然而,這個數(shù)字根據(jù)激勵的亮度、對比度和視網(wǎng)膜中央凹位置而不同。Watson等人報告了6至17周期/度的空間解析度極限,這反映了更容易在控制或攝影棚設(shè)置以外的普通場景的視頻中找到的不完美的照明和對比度。在相同的條件下所報告的時間頻率極限約為30Hz,它可以與24和25或30fps的電影和電視幀速率相比較。對于標(biāo)準解析度電視,建議的水平觀看角度約為10°,且對于HDTV為30°。如圖12所示,這對應(yīng)觀看距離d和屏幕高度h分別為8和3,使得θ=2tan-1h2d,]]>用于為了解析度計算,在角度和距離單位之間進行轉(zhuǎn)換的目的。
因為水平屏幕解析度分別為720(360周期)和1920(960周期),我們具有大約30周期/度的空間解析度。VCD格式具有水平和垂直解析度,例如352×240 NTSC MPEG-1,幾乎是DVD的一半,DVD例如720×480 NTSC MPEG-2,且由于它接近VHS質(zhì)量,所以被接受。我們將取30周期/度作為高質(zhì)量空間解析度極限(DVD),15周期/度作為可接受質(zhì)量解析度(VHS),且7周期/度作為低端可接受解析度。
我們?nèi)∫曨l的原始幀速率作為視覺時間頻率極限ω1,因為該速率與所估計的實際值足夠接近,并且考慮了人類視覺系統(tǒng)而被確定。它還定義了原始內(nèi)容中的最高時間頻率。在這種條件下,可視性窗約束所允許的最高時間頻率等于對于原始幀速率的奈奎斯特頻率。例如,在(8,n)或(m,8)系數(shù)之一處具有有效能量的DCT塊在該方向上可以僅具有1像素/幀的運動。一般地,ω1≤12]]>且ω2≤12,]]>因此|kxvx±kyvy|≤8,其中(kx,ky),1≤kx,ky≤8,為DCT系數(shù)的數(shù)目。
這可以被解釋為給定塊運動的可用空間帶寬。結(jié)果,當(dāng)播放速度增加時,運動矢量被放大,且所允許的空間帶寬成比例地縮小。給定視頻段的時空復(fù)雜度,時間混疊被感知以前可以被用來播放視頻的最大加速因子為f≤12ω,]]>其中ω時空復(fù)雜度。
如上所述,原始時空復(fù)雜度值有時高于混疊極限,如圖11所示。雖然,總的物體仍然可以被看見,但是細節(jié)可以被看清楚之前,視頻需要以更慢的速度被播放。在實際生活中,這對應(yīng)于眼睛跟蹤快速運動的物體,它降低有效速度,并且增加給定速度下所允許的空間解析度。
在視頻以高于時空復(fù)雜度所指示的速度被播放的情況下,時空濾除或運動模糊可以被應(yīng)用以避免混疊。在這種有損耗的情況下,時空復(fù)雜度直方圖允許我們確定對于給定播放速度的必須被濾除的能量的量。則視頻的各種部分可以被加速使得它貫穿整個視頻具有相同的丟失級別。如果使用更簡單的單數(shù)時空復(fù)雜度度量,視頻段與其時空復(fù)雜度值成反比例地被加速。
時空平滑是包括空間和時間維度的3D空間中的一種濾除操作。通過MPEG解碼器中的緩沖幀的加權(quán)平均完成時間濾除。時間濾除消除了視頻信號位于可視性窗以外的部分,在本例中,它等價于時間混疊極限。因為視頻段的時間帶寬是空間帶寬和運動的乘積,我們可以通過空間濾除以及時間平滑降低時間帶寬。
例如核化的技術(shù)允許壓縮視頻的有效空間濾除。核化是一種用于從圖像中消除噪聲的著名技術(shù)。該技術(shù)將被噪聲惡化的圖像變換為頻域表示。之后,通過非線性核化函數(shù)減少圖像變換系數(shù)。對核化后的系數(shù)進行反變換之后,得到降噪的圖像。然而,在需要低復(fù)雜度的應(yīng)用中,可以使用未濾除的視頻,即使它包含一些人為污染。
另一種可以被運用的依賴于應(yīng)用的修改是對視頻序列的時空復(fù)雜度曲線的平滑和/或量化。在某些情況下,播放速度的連續(xù)改變不是可行的或需要的。在這些應(yīng)用中,對于給定的時間的最小長度,例如對于每一個鏡頭,可以確定播放速度。此外,允許的播放速度可以被限制于一組預(yù)先確定的值,作為對商業(yè)廣告視頻和DVD播放器可能的值。
因此,在重放期間,視頻的時間失真可以通過使用視覺復(fù)雜度的量化,通過視覺復(fù)雜度的平滑和濾除,通過視覺復(fù)雜度的分段線性近似使得視覺復(fù)雜度基本上為線性,或者通過將常數(shù)視覺復(fù)雜度分配給例如一個鏡頭的視頻的一致時間段,而被最小化。
圖13和14還圖示了現(xiàn)有技術(shù)運動活動性度量和根據(jù)本發(fā)明的時空復(fù)雜度度量之間的差異。對于MPEG7測試集中的一段籃球視頻段,圖13將運動活動性和時空復(fù)雜度(STC)繪制為幀的函數(shù)。這兩種度量是類似的,除了最后的部分(≈幀550)它是對運動員的近距離攝影。在此,時空復(fù)雜度度量基本上更低,因為與所有運動員的廣角鏡頭相比圖像更大具有更少細節(jié)。圖14繪出了空高爾夫球道的鏡頭,之后是球座鏡頭,以及運動員走向下一塊草地。
雖然優(yōu)選實施例是按照壓縮視頻進行描述的,應(yīng)該理解,本發(fā)明也可以如下被應(yīng)用于未壓縮視頻。
雖然本發(fā)明是用由壓縮域所獲得的例子進行描述的,應(yīng)該理解,本發(fā)明也可以作用于未壓縮視頻。
本發(fā)明的基本思想是使用視頻的時空復(fù)雜度度量,以控制視頻的自適應(yīng)重放。時空復(fù)雜度可以通過用速度(時間)乘以帶寬(空間)來近似。特別地,在2D真實圖像中用純正弦的平移度量空域的帶寬。
本發(fā)明的頂級概念度量空間帶寬和時間帶寬或頻譜。當(dāng)視頻被加速或放慢時,時間頻率分量成比例地放大或縮小。即使視頻沒有在時間或空間上被采樣,例如NTSC模擬視頻,這也是正確的??臻g帶寬可以用若干種方式進行度量,例如,通過采取對給定視頻段的3D FFT,或當(dāng)視頻為模擬時采用模擬傅立葉變換。時間帶寬可以通過采取空間頻率分量及其速度的點積來進行估計。
這本質(zhì)上是一種直觀的、經(jīng)驗性的度量,它組合了空間復(fù)雜度,即紋理級別,和運動復(fù)雜度,即運動活動性級別。注意,該視頻可以是壓縮的或未壓縮的,或數(shù)字的或模擬的。該點積是給定視頻段的時空復(fù)雜度。雖然視頻的視覺復(fù)雜度包括空間和時間帶寬,時間帶寬是數(shù)字視頻的自適應(yīng)重放中的決定因素。對于要被使用的以上近似,我們識別空間頻率分量的單個運動,即2D中的純正弦,它們組成了視頻圖像。如果視頻的圖像中的整個場景均勻地運動,如在遠鏡頭上的攝像機搖拍,即平移運動,所有空間頻率分量以相同的速度v運動。則該圖像可以通過使用2D FFT被分解為這些分量。
運動產(chǎn)生的時間頻率分量可以通過使用點積估計被確定每個空間分量。然而,多數(shù)視頻的場景中的運動通常比簡單的搖拍復(fù)雜得多。因此,本發(fā)明使用壓縮域中的宏塊運動矢量。
為每個宏塊定義單個平移運動,如塊運動矢量中所表達。因此,組成具體宏塊的每個空間頻率分量以關(guān)聯(lián)于該塊的塊運動矢量所給定的速度運動。
我們使用點積對產(chǎn)生于該塊中每個空間頻率分量的運動的時間頻率分量進行估計。此外,我們獲得空間頻率分量,一般通過使用壓縮視頻中可用的DCT系數(shù)的FFT獲得。
但是,遵循局部化區(qū)域方法中的速度*空間頻率近似,我們可以確定圖像中每個像素處或者更一般地對于每個像素附近的窗的運動和空間分解。
每個點處的時間帶寬(運動)可以通過光流分析被確定。對于空間帶寬,我們可以使用每個像素附近的窗,并且計算短時FFT,等等。則我們可以利用該窗確定每個像素處或像素附近的時空復(fù)雜度。
我們所描述的壓縮視頻的例子是一種特殊的情況,其中窗是宏塊,且運動由塊運動矢量描述。
像素處的紋理的量緊密地與該像素處的強度的梯度相關(guān)。光流也可以由梯度確定。
雖然本發(fā)明已經(jīng)通過優(yōu)選實施例的方式被描述,但是應(yīng)該理解,各種其它適應(yīng)和修改可以在本發(fā)明的實質(zhì)和范圍內(nèi)做出。因此,所附權(quán)利要求書的目標(biāo)是涵蓋所有這種屬于本發(fā)明的真實本質(zhì)和范圍內(nèi)的變化和修改。
權(quán)利要求書(按照條約第19條的修改)1.一種用于自適應(yīng)播放視頻幀的方法,包含度量視頻幀內(nèi)的像素的空間頻率;度量視頻幀之間的相應(yīng)像素的時間速度;用該時間速度乘以該空間頻率以獲得視頻幀的視覺復(fù)雜度的度量;以對應(yīng)于該視覺復(fù)雜度的速度播放視頻幀。
2.權(quán)利要求1的方法,其中該視頻是被壓縮的。
3.權(quán)利要求2的方法,其中空間頻率根據(jù)幀中像素的離散余弦變換系數(shù)被度量,而時間速度根據(jù)幀之間的相應(yīng)像素的運動矢量被度量。
4.權(quán)利要求3的方法,其中離散余弦變換的基函數(shù)具有如下形式cos(πkx(2x+1)2N)·cos(πky(2y+1)2N)]]>=cos(2πkx2Nx+2πk4N)·cos(2πky2Ny+2πk4N),]]>其中kx是幀中x方向的頻率fx,ky是幀中y方向的頻率fy,表示為cos(2πfxNx+2πfyNy),]]>其中對于DCT宏塊,N為8。
5.權(quán)利要求4的方法,其中每個基函數(shù)是兩個2D正弦的疊加,一個具有空間頻率f1→=(kx2,ky2),]]>且另一個具有空間頻率f2→=(kx2,ky2).]]>6.權(quán)利要求5的方法,其中具體的運動矢量為v→=(vx,vy).]]>7.權(quán)利要求6的方法,其中由離散余弦系數(shù)和運動矢量得出的視覺復(fù)雜度是ω1=f1→·v1→=kx2vx+ky2vy,]]>以及ω2=f2→·v2→=kx2vx-ky2vy.]]>8.權(quán)利要求3的方法,還包含
權(quán)利要求
1.一種用于自適應(yīng)播放視頻幀的方法,包含度量視頻幀內(nèi)的像素的空間頻率;度量視頻幀之間的相應(yīng)像素的時間速度;用該時間速度乘以該空間頻率以獲得視頻幀的視覺復(fù)雜度的度量;以對應(yīng)于該視覺復(fù)雜度的速度播放視頻幀。
2.權(quán)利要求1的方法,其中該視頻是被壓縮的。
3.權(quán)利要求2的方法,其中空間頻率根據(jù)幀中像素的離散余弦變換系數(shù)被度量,而時間速度根據(jù)幀之間的相應(yīng)像素的運動矢量被度量。
4.權(quán)利要求3的方法,其中離散余弦變換的基函數(shù)具有如下形式cos(πkx(2x+1)2N)·cos(πky(2y+1)2N)]]>=cos(2πkx2Nx+2πk4N)·cos(2πky2Ny+2πk4N),]]>其中kx是幀中x方向的頻率fx,ky是幀中y方向的頻率fy,表示為cos(2πfxNx+2πfyNy),]]>其中對于DCT宏塊,N為8。
5.權(quán)利要求5的方法,其中每個基函數(shù)是兩個2D正弦的疊加,一個具有空間頻率f→1=(kx2,ky2),]]>且另一個具有空間頻率f→2=(kx2,ky2).]]>
6.權(quán)利要求5的方法,其中具體的運動矢量為v→=(vx,vy).]]>
7.權(quán)利要求6的方法,其中由離散余弦系數(shù)和運動矢量得出的視覺復(fù)雜度是ω1=f→1·v→1=kx2vx+ky2vy,]]>以及ω2=f→2·v→2=kx2vx-ky2vy.]]>
8.權(quán)利要求3的方法,還包含丟棄具有低紋理度的運動矢量;對運動矢量進行中值濾除;以及為運動矢量適配全局運動模型,以減少偽運動矢量。
9.權(quán)利要求3的方法,其中壓縮視頻包括I幀和P幀,而且該方法還包含通過應(yīng)用運動補償確定P幀的離散余弦變換系數(shù);以及通過內(nèi)插P幀的運動矢量確定用于I幀的運動矢量。
10.權(quán)利要求1的方法,還包含對一組幀對視覺復(fù)雜度求平均以確定視頻段的復(fù)雜度。
11.權(quán)利要求1的方法,還包含播放視頻時應(yīng)用運動模糊以降低混疊。
12.權(quán)利要求1的方法,其中播放速度與視覺復(fù)雜度成反比。
13.權(quán)利要求1的方法,還包含播放時應(yīng)用核化以對視頻進行空間濾除。
14.權(quán)利要求1的方法,其中該視頻是未壓縮的。
15.權(quán)利要求1的方法,其中視頻的空間失真在重放期間被最小化。
16.權(quán)利要求15的方法,其中該最小化使用了視覺復(fù)雜度的量化。
17.權(quán)利要求15的方法,其中該最小化使用了視覺復(fù)雜度的平滑和濾除。
18.權(quán)利要求15的方法,其中該最小化構(gòu)建了視覺復(fù)雜度的分段線性近似,使得視覺復(fù)雜度基本上是線性的。
19.權(quán)利要求15的方法,其中該最小化將常數(shù)視覺復(fù)雜度分配給視頻的一致時間段。
全文摘要
一種根據(jù)視頻的視覺復(fù)雜度自適應(yīng)地播放視頻幀的方法。首先度量視頻幀中的像素的空間頻率,以及視頻幀之間的相應(yīng)像素的時間速度。用空間頻率乘以時間速度以獲得視頻幀的視覺復(fù)雜度的度量。視頻幀接著以對應(yīng)于該視覺復(fù)雜度的速度被播放。
文檔編號H04N5/783GK1698385SQ20048000054
公開日2005年11月16日 申請日期2004年6月25日 優(yōu)先權(quán)日2003年7月10日
發(fā)明者卡迪爾·A·皮克, 阿加伊·迪瓦卡蘭 申請人:三菱電機株式會社