專利名稱:基于區(qū)域多重選擇的視頻運(yùn)動(dòng)對(duì)象分割提取方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息處理的視頻分析領(lǐng)域,涉及MPEG-4視頻編碼國(guó)際標(biāo)準(zhǔn)中基于內(nèi)容的編碼和對(duì)象交互式操作,具體涉及一種基于區(qū)域多重選擇的視頻運(yùn)動(dòng)對(duì)象分割提取方法。
背景技術(shù):
隨著多媒體技術(shù)的發(fā)展,人們對(duì)多媒體信息的需求也從簡(jiǎn)單的播放要求轉(zhuǎn)向基于內(nèi)容的訪問、檢索和操作,傳輸碼流應(yīng)能適應(yīng)不同的網(wǎng)絡(luò)環(huán)境和各種終端。為此,MPEG組織制定了MPEG-4標(biāo)準(zhǔn),它實(shí)質(zhì)上是一個(gè)廣泛適用的多媒體數(shù)據(jù)壓縮編解碼框架,主要規(guī)定了基于對(duì)象的編解碼與操作、分級(jí)編解碼功能、傳輸碼流格式、誤碼檢錯(cuò)和糾錯(cuò)功能等。MPEG-4采納了基于對(duì)象的編碼技術(shù),引入了VO(Video Object)的概念,它是視頻場(chǎng)景中具有語義的某個(gè)物體,具有生命周期,由時(shí)間上連續(xù)的許多幀構(gòu)成?;趯?duì)象的編碼是MPEG-4的一個(gè)重要特點(diǎn),它要求對(duì)圖像和視頻(自然的或合成的)作更多的分析,甚至是理解。對(duì)象區(qū)域代表了視頻視序列中的重要信息,是需要與其它部分的信息區(qū)別對(duì)待的。例如,將視頻對(duì)象分為運(yùn)動(dòng)物體對(duì)象和靜止不動(dòng)的背景對(duì)象,通過對(duì)各個(gè)對(duì)象其重要性程度的不同采用不同的壓縮方法和壓縮比,從而在一定碼率的要求下可提供更好的圖像質(zhì)量。MPEG-4的另一個(gè)重要特點(diǎn)是提供了基于對(duì)象的交互功能,用戶能夠訪問(搜索和瀏覽)和操作(剪貼、移動(dòng))一個(gè)場(chǎng)景中的各個(gè)對(duì)象。
基于對(duì)象的編碼和交互首先需要分割提取出視頻圖象中的各個(gè)對(duì)象,盡管MPEG-4的框架已經(jīng)制定,但是最為關(guān)鍵的對(duì)象分割問題卻一直未得到較好的解決,為了推動(dòng)MPEG-4標(biāo)準(zhǔn)的廣泛應(yīng)用,基于對(duì)象的分割技術(shù)目前已成為一個(gè)研究的熱點(diǎn),現(xiàn)有的研究可分為兩類方法,第一類為只需設(shè)置幾個(gè)參數(shù)的自動(dòng)分割方法,其基本原理是根據(jù)對(duì)象的運(yùn)動(dòng)信息和空間關(guān)聯(lián)性,建立一定的數(shù)學(xué)模型,進(jìn)行對(duì)象的提取,特點(diǎn)是分割過程不需要人工參與,速度較快,但精度較低;第二類方法是需人機(jī)交互的半自動(dòng)分割方法,其基本原理是在分割開始后需指定初始對(duì)象倫廓,然后進(jìn)行對(duì)象跟蹤,主要特點(diǎn)是分割過程需人工參與,分割精度較高,但分割過程增加的用戶負(fù)擔(dān),耗時(shí)較多。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供基于區(qū)域多重選擇的視頻運(yùn)動(dòng)對(duì)象分割提取方法,即一種能準(zhǔn)確提取視頻對(duì)象的自動(dòng)視頻分割方法,以較好解決上述現(xiàn)有技術(shù)所存在的缺陷,具有分割速度快、精度高的特點(diǎn)。為達(dá)到上述目的,本發(fā)明的構(gòu)思如下如前所述,視頻場(chǎng)景按其所包含的內(nèi)容一般可分為兩個(gè)大的部分運(yùn)動(dòng)對(duì)象和靜止背景,這兩個(gè)部分按其像素值的變化情況又可劃分為很多小的區(qū)域。如果我們?cè)诓恢缹?duì)象區(qū)域和背景區(qū)域的情況下,通過幀內(nèi)空間分割,得到一些小的同質(zhì)區(qū)域,然后根據(jù)序列的時(shí)空信息,通過區(qū)域分類和選擇的方式得到對(duì)象區(qū)域,原則上就可實(shí)現(xiàn)視頻對(duì)象的分割。
但由于序列中的對(duì)象運(yùn)動(dòng)情況是非常復(fù)雜的,比如對(duì)象在運(yùn)動(dòng)過程中會(huì)出現(xiàn)某一部分局部停止的現(xiàn)象,這很難通過運(yùn)動(dòng)檢測(cè)到這部分區(qū)域;同時(shí)由于噪聲的影響,有些靜止的背景區(qū)域很有被檢測(cè)為運(yùn)動(dòng)區(qū)域,另外,由于背景與運(yùn)動(dòng)對(duì)象的相互遮擋,也有可能造成各種誤分割現(xiàn)象。以上所有這些問題的存在,使得僅僅依靠某種單一的方法得到準(zhǔn)確的視頻對(duì)象十分困難。因此,本發(fā)明以基于區(qū)域的多重選擇方式來有效地減少這些問題的影響。
根據(jù)上述構(gòu)思,本發(fā)明采用的技術(shù)方案如下一種基于區(qū)域多重選擇的視頻運(yùn)動(dòng)對(duì)象分割提取方法。其步驟如下(1)當(dāng)前幀輸入,對(duì)當(dāng)前幀進(jìn)行區(qū)域劃分,得到基于區(qū)域的空間圖;(2)前幀或后幀輸入,進(jìn)行跳幀窗口差分運(yùn)動(dòng)信息計(jì)算,計(jì)算出當(dāng)前象素的運(yùn)動(dòng)信息;(3)依據(jù)幀間運(yùn)動(dòng)信息進(jìn)行區(qū)域初始分類選擇,區(qū)域內(nèi)運(yùn)動(dòng)象素點(diǎn)較多的確定為對(duì)象區(qū)域,運(yùn)動(dòng)點(diǎn)非常少的為背景區(qū)域,而介于其中間的區(qū)域?yàn)楹蜻x區(qū)域;(4)對(duì)候選區(qū)域,建立時(shí)空區(qū)域能量模型,進(jìn)一步確定候選區(qū)域的歸屬;(5)對(duì)所得到的對(duì)象區(qū)域,進(jìn)行梯度補(bǔ)充、馬爾可夫模型及區(qū)域標(biāo)記后處理,得到完整的對(duì)象掩模,通過映射,獲得運(yùn)動(dòng)的視頻對(duì)象。
上述的當(dāng)前幀區(qū)域劃分方法是在視頻序列當(dāng)前輸入幀內(nèi)利用象素亮度值,把亮度接近的象素劃分為相同的區(qū)域,不需要事先確定區(qū)域類數(shù),劃分時(shí)以當(dāng)前像素的部分鄰域?yàn)橹饕獏⒖?,所有象素僅遍歷一次即可完成區(qū)域劃分。其步驟如下a初始區(qū)域的確定及分割區(qū)域閾值若Ik(x,y)為序列第k幀,(x,y)為圖象的行列坐標(biāo);確定象素Ik(1,1)為第一個(gè)區(qū)域的第一個(gè)象素;區(qū)域之間的閾值T根據(jù)人眼的視覺特性獲得;b當(dāng)前象素的區(qū)域確定方法對(duì)象素Ik(x,y),可以計(jì)算其與已8-鄰域象素區(qū)域均值的絕對(duì)差值最小值,如小于閾值T,歸為同一區(qū)域,否則標(biāo)記為新的區(qū)域;c區(qū)域均值的計(jì)算區(qū)域每加入一個(gè)新的象素,要重新計(jì)算其區(qū)域均值,并對(duì)當(dāng)前象素進(jìn)行相同的標(biāo)記。
上述的跳幀窗口差分運(yùn)動(dòng)信息計(jì)算是在連繼兩幀中計(jì)算,隔一幀或幾幀進(jìn)行計(jì)算;然后用鄰域求和的方法計(jì)算當(dāng)前象素的運(yùn)動(dòng)信息。
上述的建立時(shí)空區(qū)域能量模型是以時(shí)空能量判斷候選區(qū)歸屬,步驟如下a區(qū)域能量模型區(qū)域能量模型由時(shí)間和空間兩部分構(gòu)成,時(shí)間能量以其運(yùn)動(dòng)信息成正比,而空間能量由其相鄰區(qū)域的特征構(gòu)成;空間能量的產(chǎn)生原則如下如果相鄰區(qū)域?yàn)楸尘?,空間能量減少,相鄰區(qū)域?yàn)閷?duì)象,空間能量增加,其它情況能量保持不變,。
b區(qū)域細(xì)分對(duì)區(qū)域能量進(jìn)行歸一化,能量大的區(qū)域劃歸為對(duì)象區(qū),能量小的劃歸為背景區(qū)。
上述的區(qū)域分類后處理步驟為a對(duì)象區(qū)的梯度補(bǔ)充進(jìn)行區(qū)域劃分時(shí),因利用的是區(qū)域均值,為避免對(duì)一些緩變區(qū)域因可能的錯(cuò)誤分割所造成的對(duì)象區(qū)缺失,可利用幀內(nèi)圖象梯度模值二值化后取其運(yùn)動(dòng)部分,添加到對(duì)象區(qū)域;b用馬爾可夫模型處理噪聲及邊緣以初始標(biāo)記場(chǎng)和觀察場(chǎng)為對(duì)象區(qū)二值化模板,經(jīng)迭代模式(ICM)一般迭代3-5次即可去除噪聲和修正邊緣;c用區(qū)域標(biāo)記法進(jìn)行處理內(nèi)部空洞對(duì)一些較大的內(nèi)部空洞,可對(duì)所有被標(biāo)記為背景的區(qū)域重新標(biāo)記,而對(duì)區(qū)域像素?cái)?shù)較少的區(qū)域標(biāo)記為對(duì)象區(qū)域。
下面對(duì)上述內(nèi)容作進(jìn)一步詳細(xì)說明1.幀內(nèi)圖象區(qū)域劃分。幀內(nèi)圖象的分割以區(qū)域增長(zhǎng)為基本框架,不需要事先確定區(qū)域類數(shù),分割準(zhǔn)則為a確定區(qū)域分割閾值為T1,第k幀首像素Ik(1,1)為第一個(gè)區(qū)域。
b對(duì)于Ik(x,y)當(dāng)前象素的值,其8鄰域中已確定區(qū)域的象素為左象素Ik(x,y-1)、左上像素Ik(x-1,y-1)、上象素Ik(x-1,y)、右上象素Ik(x-1,y+1)可以通過下式計(jì)算其絕對(duì)差值的最小值dmin=min[abs[I(x,y)-I(x,y-1),I(x,y)-I(x-1,y-1),I(x,y)-I(x-1,y),I(x,y)-I(x-1,y+1)]] (1)如果dmin<T1,Ik(x,y)歸為dmin所在的區(qū)域,否則重新開始新的區(qū)域。
c為了使結(jié)果更為精確,用各自的區(qū)域均值代替鄰域象素值。
d對(duì)所有象素都按(b)進(jìn)行計(jì)算2.跳幀窗口運(yùn)動(dòng)信息的計(jì)算。為了減少運(yùn)算的復(fù)雜度,運(yùn)動(dòng)信息計(jì)算采用跳幀窗口差分法,a計(jì)算幀差圖象dk(x,y)=Ik+n(x,y)-Ik(x,y)(2)一般情況下,n取1,但對(duì)于某些對(duì)象運(yùn)動(dòng)速度較慢的序列,n可取3-5。
b為了更準(zhǔn)確的檢測(cè)運(yùn)動(dòng)信息,可取差分圖象8-鄰域(3×3的窗口)的和為當(dāng)前像素的值Dk(x,y)=18Σ(i,j)∈Ndk(i,j)----(3)]]>N為(x,y)的鄰域。
c對(duì)幀差圖象進(jìn)行二值化,圖象中用0表示背景,1表示對(duì)象。二值化后的圖象稱為掩模,閾值T2的選取采用高階統(tǒng)計(jì)量法。
3.區(qū)域的初始分割。區(qū)域的初始分割以MASK1為基礎(chǔ),計(jì)算每個(gè)區(qū)域的運(yùn)動(dòng)像素?cái)?shù),并進(jìn)行歸一化。
ρi=nimi----(5)]]>mi為第i個(gè)區(qū)域內(nèi)總的象素?cái)?shù),ni為區(qū)域內(nèi)運(yùn)動(dòng)變化的象素?cái)?shù)(區(qū)域?qū)?yīng)在MASK1值為1的象素?cái)?shù))。如果ρi>0.8,說明區(qū)域i有80%的象素由于運(yùn)動(dòng)而發(fā)生了變化,判定該區(qū)域?yàn)檫\(yùn)動(dòng)對(duì)象區(qū)域。同理,ρi<0.2,說明該區(qū)域內(nèi)僅有少于20%的象素因運(yùn)動(dòng)而發(fā)生了運(yùn)動(dòng)變化,可判定該區(qū)域?yàn)殪o止背景區(qū)域。由于運(yùn)動(dòng)而引起的遮擋現(xiàn)象,以及噪聲的影響,以幀差圖象來表示運(yùn)動(dòng)并不準(zhǔn)確,因此,對(duì)于0.2<ρi<0.8的區(qū)域,并不能進(jìn)行準(zhǔn)確的判別,可暫時(shí)把這部分區(qū)域歸為候選區(qū)域,以便做進(jìn)一步的選擇判斷。
4.候選區(qū)域的劃分。對(duì)于候選區(qū)的判別,可依據(jù)區(qū)域時(shí)空能量模型來進(jìn)行。
定義第i個(gè)候選區(qū)域的時(shí)間能量為Etemporali=Σ(x,y)∈MiMASK1i(x,y)----(6)]]>Mi為第i個(gè)區(qū)域的定義域。
定義空間能量為Espatiali=Σ(x,y)∈MiV(x,y)----(7)]]>V(x,y)為象素(x,y)的空間能量,由下式計(jì)算 n(x,y)為象素(x,y)的4鄰域,B為背景區(qū),M為運(yùn)動(dòng)對(duì)象區(qū),C為候選區(qū)。當(dāng)鄰域中多個(gè)區(qū)域共存時(shí),可按(8)式所示的B、M、C優(yōu)先順序進(jìn)行。
根據(jù)時(shí)空兩個(gè)分量的能量,可以計(jì)算總的能量,為了便于在不同大小的區(qū)域之間進(jìn)行比較,對(duì)總能量進(jìn)行歸一化Etotali=12N(Etemporali+Espatiali)----(9)]]>N為區(qū)域總象素?cái)?shù),當(dāng)Etotali>T3時(shí),該區(qū)域?yàn)閷?duì)象區(qū)域,否則為背景區(qū)域,T3為能量閾值。這樣就可以得到反映背景區(qū)與運(yùn)動(dòng)對(duì)象區(qū)域的掩模 5.運(yùn)動(dòng)對(duì)象邊界的梯度補(bǔ)充。對(duì)一些象素緩變區(qū)域,空間區(qū)域分割法并不總是能夠有效的分割,從而可能造成某些運(yùn)動(dòng)對(duì)象邊界或區(qū)域的缺失,對(duì)這種情況可以用梯度法補(bǔ)充。首先根據(jù)下式求得梯度值grad(x,y)=(dI(x,y)/dx)2+(dI(x,y)/dy)2----(11)]]>對(duì)grad用閾值T4進(jìn)行二值化 通過下式,可以得到新的梯度補(bǔ)充掩模
MASK4=(MASK3×MASK1)+MASK2(13)式中的運(yùn)算符為邏輯運(yùn)算符號(hào)。
6.馬爾可夫處理。雖然基于區(qū)域的處理過程能夠去除大部分噪聲的影響,但還是會(huì)有一部分噪聲影響最后的結(jié)果。反映在從(13)式中得到的掩模MASK4中包含有一些小的噪聲區(qū)域,且對(duì)象邊緣不夠光滑。為了解決這個(gè)問題,建立基于馬爾可夫(MRF)和吉布斯(Gibbs)分布的二維離散隨機(jī)場(chǎng)Z的模型p(Z)=1QΣωe-U(Z)/Tδ(Z-ω)----(14)]]>其中,ω表示隨機(jī)場(chǎng)Z的狀態(tài),δ(·)表示狄拉克函數(shù);T是用于控制分布的尖峰;Q是歸一化因子,由下式給出Q=Σωe-U(Z=ω)/T----(15)]]>U(Z)表示吉布斯勢(shì)能,定義為U(Z)=ΣC∈CIVC(Z)----(16)]]>VC(Z)稱為基團(tuán)勢(shì)能,它的值只依賴于Z(X)X∈C(鄰域)。
式(14)的吉布斯隨機(jī)場(chǎng)概率分布p(Z)是一個(gè)聯(lián)合概率分布,所有可能的狀態(tài)都具有非零的概率,且每個(gè)特定點(diǎn)X的局部條件概率Z(X)僅僅依賴于該點(diǎn)的鄰域內(nèi)的隨機(jī)場(chǎng)分布。U(Z)為隨機(jī)場(chǎng)Z的勢(shì)能函數(shù),U(ω)越小,則隨機(jī)場(chǎng)Z處于狀態(tài)ω的概率就越大。
為了得到最大的標(biāo)記概率,勢(shì)能U(Z)為最小值。定義ω=1表示該隨機(jī)點(diǎn)的狀態(tài)為對(duì)象,ω=0表示隨機(jī)點(diǎn)的狀態(tài)為背景。定義 式中(m,n)為(i,j)的二階鄰域。把MASK4作為隨機(jī)場(chǎng)Z的初始狀態(tài)場(chǎng),象素點(diǎn)(i,j)標(biāo)記為不同的狀態(tài),分別用(16)、(17)計(jì)算其勢(shì)能,能量小的標(biāo)記狀態(tài)保留。從(17)式可以看出,當(dāng)前象素點(diǎn)與鄰域點(diǎn)有不同的標(biāo)記狀態(tài)的,能量值較大,為了得到較小能量,原有的標(biāo)記會(huì)被改變。噪聲是突變點(diǎn),在大多數(shù)情況下與鄰域點(diǎn)有不同的標(biāo)記,其標(biāo)記會(huì)被周圍點(diǎn)“淹沒”。同理,不光滑的邊緣會(huì)被其鄰域“趨同”而變得光滑。一般情況下,初始狀態(tài)場(chǎng)MASK4經(jīng)過上述步驟重復(fù)計(jì)算3-5次即可得到穩(wěn)定的標(biāo)記場(chǎng)MASK5。
7.內(nèi)部小區(qū)域的標(biāo)記處理。在某些運(yùn)動(dòng)變化較慢的序列中,對(duì)象區(qū)域內(nèi)部的局部區(qū)域會(huì)出現(xiàn)暫時(shí)停滯現(xiàn)象,雖然在運(yùn)動(dòng)檢測(cè)中采用了一些補(bǔ)償措施,但還不能完全消除。這種現(xiàn)象表現(xiàn)在由上一步驟得到的掩模MASK5內(nèi)部有一些較大的空洞(值為零的區(qū)域)??梢詫?duì)MASK5中所有值為零的區(qū)域以8鄰接方式重新進(jìn)行標(biāo)記,然后對(duì)像素?cái)?shù)較小的區(qū)域置為1,得到完整的掩模MASK6。將MASK6通過簡(jiǎn)單映射的方式就可以得到所需的對(duì)象。
本發(fā)明的特點(diǎn)與效果本發(fā)明提出了一種基于區(qū)域多重選擇的視頻運(yùn)動(dòng)對(duì)象分割提取方法。本方法重點(diǎn)考慮了分割的準(zhǔn)確性,同時(shí)盡可能地降低運(yùn)算復(fù)雜度和提高穩(wěn)健性。本方法無需人機(jī)交互,只需設(shè)定閾值參數(shù)T1-T4,就可從具有復(fù)雜運(yùn)動(dòng)的視頻序列中分割提取出視頻對(duì)象。適用于基于MPEG-4的面向?qū)ο蠛徒换バ缘囊曨l,基于MPEG-7的視頻數(shù)據(jù)庫(kù)檢索和具有視頻對(duì)象提取功能的智能監(jiān)控系統(tǒng)等。
圖1是本發(fā)明的視頻運(yùn)動(dòng)對(duì)象分割提取方法程序框圖。
圖2是Mother&daughter序列第一幀分割過程圖。
其中(a)圖為原始序列第一幀,(b)圖為空間區(qū)域分割圖,(c)圖為區(qū)域均值圖,(d)圖為原始序列第五幀,(e)圖為直接差分圖,(f)圖為改進(jìn)的差分圖,(g)圖為區(qū)域初始分類圖,(h)圖為區(qū)域時(shí)空能量選擇圖,(i)圖為空間梯度圖(j)圖為梯度補(bǔ)充圖,(k)圖為馬爾可夫處理圖,(l)圖為小區(qū)域標(biāo)記處理圖 (m)圖為掩模映射結(jié)果圖。
圖3 Mother&daughter序列各個(gè)典型幀的分割結(jié)果圖。
其中(a)圖為原始序列第10幀圖,(b)圖為原始序列第20幀圖,(c)圖為原始序列第50幀圖,(d)圖為第10幀分割結(jié)果圖,(e)圖為第20幀分割結(jié)果圖,(f)圖為第50幀分割結(jié)果圖。
圖4 Akiyo序列各個(gè)典型幀的分割結(jié)果圖。
其中(a)圖為原始序列第10幀圖,(b)圖為原始序列第30幀圖,(c)圖為原始序列第80幀圖,(d)圖為第10幀分割結(jié)果圖,(e)圖為第30幀分割結(jié)果圖,(f)圖為第80幀分割結(jié)果圖。
具體實(shí)施例方式本發(fā)明的實(shí)施例按圖1所示程序框圖,在MATLAB測(cè)試平臺(tái)上編程實(shí)現(xiàn),以圖2、圖3和圖4示出仿真結(jié)果。
以下結(jié)合附圖描述本發(fā)明的實(shí)施例。
Mother&daughter序列是一個(gè)標(biāo)準(zhǔn)的測(cè)試序列,其分割過程具有一定的典型性,用其作例子能較好地說明問題。圖1顯示該序列第一幀的具體分割過程,其實(shí)施步驟詳述如下①對(duì)原始圖象第一幀,首先進(jìn)行閾值為20的空間區(qū)域分割。(b)為以邊界線表示的區(qū)域分割圖,(c)為以區(qū)域均值表示的區(qū)域圖。
②進(jìn)行跳幀差分。圖(e)為對(duì)第一幀和第五幀直接進(jìn)行差分后的二值化圖,圖(f)為用窗口技術(shù)改進(jìn)后的差分圖,二值化閾值分別為3和15。
③根據(jù)得到的運(yùn)動(dòng)信息,對(duì)區(qū)域進(jìn)行初始分類選擇。(g)為初始分類圖,黑色為背景區(qū),白色為確定的對(duì)象區(qū),灰色為候選區(qū)。
④用時(shí)空能量模型對(duì)候選區(qū)進(jìn)一步選擇,能量大的保留為對(duì)象區(qū),小的為背景區(qū)。劃分閾值為0.2。圖(h)為能量選擇后的結(jié)果圖,可以看出,經(jīng)能量選擇分割后僅有少部分邊緣出現(xiàn)了漏分和不整齊現(xiàn)象。
⑤對(duì)上述漏分的邊界進(jìn)行梯度補(bǔ)充。圖(i)為空間梯度二值化圖,圖(j)為梯度補(bǔ)充后的掩模圖,邊界區(qū)域的缺失已得到了修復(fù)。
⑥對(duì)出現(xiàn)的噪聲用馬爾可夫模型進(jìn)行處理,圖(k)為用二階鄰域模型迭代2次后的圖,噪聲的影響已完全消除。
⑦對(duì)一些較大的內(nèi)部空洞區(qū)域,用標(biāo)記的方法進(jìn)行去除,圖(l)為最終的掩模圖,(m)為映射后得到的結(jié)果圖,運(yùn)動(dòng)的對(duì)象已完全從背景中分離出來。
本發(fā)明的具體實(shí)例圖3和圖4為本發(fā)明的兩個(gè)具體實(shí)例,為了說明效果,圖中上半部分給出了原始序列,下半部分為用區(qū)域選擇技術(shù)分割的對(duì)應(yīng)結(jié)果。可以看出,本發(fā)明十分有效,分割的運(yùn)動(dòng)對(duì)象完整而準(zhǔn)確,能夠滿足基于內(nèi)容的編碼和交互式操作。
權(quán)利要求
1.一種基于區(qū)域多重選擇的視頻運(yùn)動(dòng)對(duì)象分割提取方法,其特征步驟如下a.當(dāng)前幀輸入,對(duì)當(dāng)前幀進(jìn)行區(qū)域劃分,得到基于區(qū)域的空間圖;b.前幀或后幀輸入,進(jìn)行跳幀窗口差分運(yùn)動(dòng)信息計(jì)算,計(jì)算出當(dāng)前象素的運(yùn)動(dòng)信息;c.依據(jù)幀間運(yùn)動(dòng)信息進(jìn)行區(qū)域初始分類選擇,區(qū)域內(nèi)運(yùn)動(dòng)象素點(diǎn)較多的確定為對(duì)象區(qū)域,運(yùn)動(dòng)點(diǎn)非常少的為背景區(qū)域,而介于其中間的區(qū)域?yàn)楹蜻x區(qū)域;d.對(duì)候選區(qū)域,建立時(shí)空區(qū)域能量模型,進(jìn)一步確定候選區(qū)域的歸屬;e.對(duì)所得到的對(duì)象區(qū)域,進(jìn)行梯度補(bǔ)充、馬爾可夫模型及區(qū)域標(biāo)記后處理,得到完整的對(duì)象掩模,通過映射,獲得運(yùn)動(dòng)的視頻對(duì)象。
2.根據(jù)權(quán)利要求1所述的基于區(qū)域多重選擇的視頻運(yùn)動(dòng)對(duì)象分割提取方法,其特征在于當(dāng)前幀區(qū)域劃分方法是在視頻序列當(dāng)前輸入幀內(nèi)利用象素亮度值,把亮度接近的象素劃分為相同的區(qū)域,不需要事先確定區(qū)域類數(shù),劃分時(shí)以當(dāng)前像素的部分鄰域?yàn)橹饕獏⒖?,所有象素僅遍歷一次即可完成區(qū)域劃分。其步驟如下a.初始區(qū)域的確定及分割區(qū)域閾值若Ik(x,y)為序列第k幀,(x,y)為圖象的行列坐標(biāo);確定象素Ik(1,1)為第一個(gè)區(qū)域的第一個(gè)象素;區(qū)域之間的閾值T根據(jù)人眼的視覺特性獲得;b.當(dāng)前象素的區(qū)域確定方法對(duì)象素Ik(x,y),可以計(jì)算其與已8-鄰域象素區(qū)域均值的絕對(duì)差值最小值,如小于閾值T,歸為同一區(qū)域,否則標(biāo)記為新的區(qū)域;c.區(qū)域均值的計(jì)算區(qū)域每加入一個(gè)新的象素,要重新計(jì)算其區(qū)域均值,并對(duì)當(dāng)前象素進(jìn)行相同的標(biāo)記。
3.根據(jù)權(quán)利要求1所述的基于區(qū)域多重選擇的視頻運(yùn)動(dòng)對(duì)象分割提取方法,其特征在于先用跳幀的方法計(jì)算幀間差分,即差分不是在連繼兩幀中計(jì)算,隔一幀或幾幀進(jìn)行計(jì)算;然后用鄰域求和的方法計(jì)算當(dāng)前象素的運(yùn)動(dòng)信息。
4.根據(jù)權(quán)利要求1所述的基于區(qū)域多重選擇的視頻運(yùn)動(dòng)對(duì)象分割提取方法,其特征在于建立時(shí)空能量模型,判斷候選區(qū)歸屬的步驟如下a.區(qū)域能量模型區(qū)域能量模型由時(shí)間和空間兩部分構(gòu)成,時(shí)間能量以其運(yùn)動(dòng)信息成正比,而空間能量由其相鄰區(qū)域的特征構(gòu)成;空間能量的產(chǎn)生原則如下如果相鄰區(qū)域?yàn)楸尘?,空間能量減少,相鄰區(qū)域?yàn)閷?duì)象,空間能量增加,其它情況能量保持不變,。b.區(qū)域細(xì)分對(duì)區(qū)域能量進(jìn)行歸一化,能量大的區(qū)域劃歸為對(duì)象區(qū),能量小的劃歸為背景區(qū)。
5.根據(jù)權(quán)利要求1所述的基于區(qū)域多重選擇的視頻運(yùn)動(dòng)對(duì)象分割提取方法,其特征在于區(qū)域分類后的處理步驟為a.對(duì)象區(qū)的梯度補(bǔ)充進(jìn)行區(qū)域劃分時(shí),因利用的是區(qū)域均值,為避免對(duì)一些緩變區(qū)域因可能的錯(cuò)誤分割所造成的對(duì)象區(qū)缺失,可利用幀內(nèi)圖象梯度模值二值化后取其運(yùn)動(dòng)部分,添加到對(duì)象區(qū)域;b.用馬爾可夫模型處理噪聲及邊緣以初始標(biāo)記場(chǎng)和觀察場(chǎng)為對(duì)象區(qū)二值化模板,經(jīng)迭代模式(ICM)一般迭代3-5次即可去除噪聲和修正邊緣;c.用區(qū)域標(biāo)記法進(jìn)行處理內(nèi)部空洞對(duì)一些較大的內(nèi)部空洞,可對(duì)所有被標(biāo)記為背景的區(qū)域重新標(biāo)記,而對(duì)區(qū)域像素?cái)?shù)較少的區(qū)域標(biāo)記為對(duì)象區(qū)域。
全文摘要
本發(fā)明涉及一種基于區(qū)域多重選擇的視頻運(yùn)動(dòng)對(duì)象分割提取方法。其步驟如下(1)當(dāng)前幀輸入,對(duì)當(dāng)前幀進(jìn)行區(qū)域劃分,得到基于區(qū)域的空間圖;(2)前幀或后幀輸入,進(jìn)行跳幀窗口差分運(yùn)動(dòng)信息計(jì)算,計(jì)算出當(dāng)前象素的運(yùn)動(dòng)信息;(3)依據(jù)幀間運(yùn)動(dòng)信息進(jìn)行區(qū)域初始分類選擇,區(qū)域內(nèi)運(yùn)動(dòng)象素點(diǎn)較多的確定為對(duì)象區(qū)域,運(yùn)動(dòng)點(diǎn)非常少的為背景區(qū)域,而介于其中間的區(qū)域?yàn)楹蜻x區(qū)域;(4)對(duì)候選區(qū)域,建立時(shí)空區(qū)域能量模型,進(jìn)一步確定候選區(qū)域的歸屬;(5)對(duì)所得到的對(duì)象區(qū)域,進(jìn)行梯度補(bǔ)充、馬爾可夫模型及區(qū)域標(biāo)記后處理,得到完整的對(duì)象掩模,通過映射,獲得運(yùn)動(dòng)的視頻對(duì)象。本發(fā)明提供的方法具有分割速度快、精度高的特點(diǎn),適用于MPEG-4的面向?qū)ο蠛徒换バ缘囊曨l、基于MPEG-7的視頻數(shù)據(jù)庫(kù)檢索和具有視頻對(duì)象提取功能的智能監(jiān)控系統(tǒng)等。
文檔編號(hào)H04N7/26GK1588450SQ20041005264
公開日2005年3月2日 申請(qǐng)日期2004年7月8日 優(yōu)先權(quán)日2004年7月8日
發(fā)明者張兆揚(yáng), 包紅強(qiáng), 安平 申請(qǐng)人:上海大學(xué)