專利名稱:一種視頻文字多幀融合的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于視頻內(nèi)容分析和檢索技術(shù)領(lǐng)域,具體涉及一種視頻文字多幀融合的方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)與多媒體技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)上出現(xiàn)了海量的視頻內(nèi)容;由于業(yè)務(wù)的需要,電視臺等媒體單位積累了大量的視頻資料;遠程教學(xué),視頻點播,數(shù)字圖書館等多媒體技術(shù)的廣泛應(yīng)用,也產(chǎn)生了大量的視頻。面對如此海量視頻信息,如何對之進行索引,使用戶能夠迅速檢索到想要的內(nèi)容,成為了一個急待解決的問題。傳統(tǒng)的方法基于人工標(biāo)注的關(guān)鍵詞進行檢索,這種方法因為主觀性強,手工標(biāo)注等缺點,不能適用于海量視頻內(nèi)容的分析與檢索,因此,基于內(nèi)容的視頻檢索技術(shù)成為了研究的熱點。在現(xiàn)有的相關(guān)研究中,大量視頻包含了豐富的文字信息,這些文字信息一般同視頻的內(nèi)容密切相關(guān),能夠?qū)χM行較為準(zhǔn)確的描述,如果能夠正確識別這些文字,必將大大有利于視頻檢索技術(shù)的發(fā)展。
現(xiàn)有的視頻文字識別方法主要是基于單幀的,這些方法把視頻看作是相互獨立的視頻幀序列,在各個視頻幀中分別提取和識別文字。然而,視頻中的文字一般會持續(xù)出現(xiàn)于多個連續(xù)的視頻幀中,存在著冗余的信息,對這些冗余的文字信息進行融合,可以達到平滑文字背景,提高文字對比度和獲取清晰文字筆畫的目的,從而大大提高文字提取與識別的準(zhǔn)確率。因此,近年來,一些研究者提出了多幀融合的方法,對出現(xiàn)在多個連續(xù)視頻幀中,包含相同內(nèi)容的文字區(qū)域進行融合。
把出現(xiàn)在連續(xù)視頻幀中,包含相同文字的多個文字區(qū)域稱為一個文字區(qū)域組,現(xiàn)有的多幀融合方法主要解決兩個問題即文字區(qū)域組的識別,和文字區(qū)域組的融合。在現(xiàn)有關(guān)于文字區(qū)域組識別的研究中,有的方法采用了圖像匹配的方法在相鄰的視頻幀中搜索包含相同文字的區(qū)域,這種方法較為準(zhǔn)確,但復(fù)雜度較高;其它一些方法簡單地認為在相鄰視頻幀的同一位置上檢測到的文字區(qū)域包含了相同的文字,這種方法效率較高,但其準(zhǔn)確度較差,當(dāng)不同的文字在相鄰視頻幀中出現(xiàn)的時候,容易發(fā)生錯誤。在關(guān)于文字組融合的研究中,現(xiàn)有方法有的采用了平均融合,這種方法能夠?qū)喕瘡?fù)雜的背景,但不能提高文字與背景的對比度;有的方法采用了最小值融合,這種方法可以提高文字與背景的對比度,但容易受到噪聲的影響,產(chǎn)生含有模糊文字的融合結(jié)果。這些方法都不能同時取得簡單的背景,較高的對比度以及清晰的文字。此外,現(xiàn)有多幀融合方法的另一個不足之處在于,這些方法都沒有考慮融合過程中模糊文字對于融合結(jié)果的影響,而這些模糊的文字會對多幀融合的結(jié)果產(chǎn)生較大影響,使得融合得到的文字模糊不清,從而導(dǎo)致較差的文字提取與識別結(jié)果。
2002年在IEEE International Conference on Image Processing上發(fā)表的文獻“A comprehensive method for multilingual video text detection,localization,andextraction”(作者是Xian-Sheng Hua,Pei Yin和Hong-Jiang Zhang),提出了一種視頻文字多幀融合的方法。
該文獻認為,相同文字在連續(xù)視頻幀中持續(xù)出現(xiàn),并處于同樣的位置,因此首先根據(jù)文字區(qū)域的位置信息來識別具有相同內(nèi)容的多個文字區(qū)域;然后根據(jù)文字區(qū)域內(nèi)是否包含一定數(shù)量的低灰度值像素,來判斷文字區(qū)域是否具有較高的對比度,并舍棄那些對比度較低的文字區(qū)域;最后對具有較高對比度的文字區(qū)域進行融合,得到融合結(jié)果。經(jīng)過該方法的處理,能夠得到文字筆畫更為清晰的文字區(qū)域,從而有效改進了文字提取與識別的結(jié)果。然而,這種方法具有如下不足當(dāng)含有不同內(nèi)容的文字區(qū)域在連續(xù)視頻幀中處于相近位置時,容易把它們錯誤判斷為含有相同的文字;同時,該方法也沒有考慮模糊的文字區(qū)域?qū)τ谌诤辖Y(jié)果的影響,對于圖像質(zhì)量比較差的視頻,融合結(jié)果較差,因此,該方法還需要得到改進。
發(fā)明內(nèi)容
針對現(xiàn)有方法的不足,本發(fā)明提出了一種視頻文字多幀融合的方法,用于對出現(xiàn)在連續(xù)視頻幀中,包含相同內(nèi)容的多個文字區(qū)域進行融合。
本發(fā)明的技術(shù)方案如下 一種視頻文字多幀融合的方法,用于對出現(xiàn)在多個連續(xù)視頻幀中,包含相同內(nèi)容的文字區(qū)域進行融合,包括如下步驟 1)在連續(xù)視頻幀的文字區(qū)域檢測結(jié)果中識別文字區(qū)域組,所述文字區(qū)域組指包含相同內(nèi)容的多個文字區(qū)域; 2)對步驟1)中得到的文字區(qū)域組進行過濾,去除會對融合結(jié)果造成負面影響的模糊文字區(qū)域; 3)對步驟2)中過濾后的文字區(qū)域組進行融合,得到融合結(jié)果。
進一步,上述的一種視頻文字多幀融合的方法,所述步驟1)中,按照如下方法識別文字區(qū)域組維護一個緩沖區(qū)Tbuffer,初始情況下,Tbuffer為空;按照時間順序?qū)σ曨l幀進行處理,設(shè)fcurr為當(dāng)前正在處理的視頻幀,Tcurr為在fcurr中檢測到的文字區(qū)域集合,tcurr為Tcurr中的任一文字區(qū)域,把tcurr同Tbuffer中的所有文字區(qū)域進行比較,如果tcurr同Tbuffer中的任一文字區(qū)域tbuffer包含相同的內(nèi)容,則把tcurr加入tbuffer所屬的文字區(qū)域組,如果tcurr和Tbuffer中的所有文字區(qū)域都不含相同的內(nèi)容,則把tcurr放入Tbuffer中,并把tcurr看作是一個新文字區(qū)域組的開始;檢查Tbuffer中的任一文字區(qū)域tbuffer,若tbuffer既不是在當(dāng)前幀fcurr中新檢測到的文字區(qū)域,也不和Tcurr中的任何文字區(qū)域包含相同內(nèi)容,則認為tbuffer是其所屬文字區(qū)域組的結(jié)束,并把tbuffer移出Tbuffer。
進一步,上述的一種視頻文字多幀融合的方法,所述識別文字區(qū)域組時,判斷兩個文字區(qū)域包含相同內(nèi)容的方法是,兩個文字區(qū)域同時滿足如下三個條件 條件一兩個文字區(qū)域在連續(xù)視頻幀中處于相近的位置; 條件二兩個文字區(qū)域包含相似的邊緣分布; 條件三兩個文字區(qū)域包含相近的對比度。
若兩個文字區(qū)域同時滿足上述三個條件,則認為它們包含相同的內(nèi)容。
進一步,上述的一種視頻文字多幀融合的方法,所述識別文字區(qū)域組時,判斷兩個文字區(qū)域ta和tb滿足上述三個條件的具體方法是,ta和tb同時滿足以下三個公式 公式一Overlap(ta,tb)>r1×Min(area(ta),area(tb)) Overlap(ta,tb)表示文字區(qū)域ta與tb在不同視頻幀中位置上重疊的部分,r1是取值范圍為0到1的一個常數(shù),Min(area(ta),area(tb))是ta和tb中較小文字區(qū)域的面積,該公式表示,若ta與tb有足夠大的重疊面積,則認為文字區(qū)域ta與tb在不同視頻幀中處于相近的位置; 公式二NoneZero(Ea,Eb)>r2×Overlap(ta,tb) Ea與Eb分別是ta和tb的邊緣圖,NoneZero(Ea,Eb)是在Ea與Eb中邊緣強度值都不為0的像素集合,NoneZero(Ea,Eb)={p|Ea(p)>0 & Eb(p)>0},NoneZero(Ea,Eb)用來衡量Ea與Eb中邊緣分布的情況,r2是取值范圍0到1之間的一個常數(shù),該公式表示,當(dāng)NoneZero(Ea,Eb)中包含的像素個數(shù)大于r2與Overlap(ta,tb)的乘積時,認為ta與tb具有類似的邊緣分布; 公式三EdgeIDiff(ta,tb)<DMAX×Overlap(ta,tb) DMAX是一個預(yù)先定義的閾值,是取值范圍0到255之間的一個常數(shù),EdgeDiff(ta,tb)是邊緣圖Ea與Eb中位置相同的邊緣點強度值之差的累加和,即EdgeIDiff(ta,tb)=Sum(|Ea(p)-Eb(p)|),該公式表示,當(dāng)EdgeDiff(ta,tb)的值小于DMAX與Overlap(ta,tb)的乘積時,認為ta與tb對比度差異不大,它們具有相似的對比度。
進一步,上述的一種視頻文字多幀融合的方法,所述步驟2)中,對文字區(qū)域組進行過濾時,首先計算得到文字區(qū)域組內(nèi)任一文字區(qū)域ti的文字筆畫強度圖TIMapi,1≤i≤M,然后把TIMapi分成兩個部分文字部分TIMapitext和背景部分TIMapiback,并在文字部分TIMapitext上計算ti的文字筆畫清晰程度TextClarityi,TextClarityi越高,表示文字越清晰,反之文字越模糊,過濾時,去除那些TextClarityi值較小的模糊文字區(qū)域;這樣,設(shè)過濾之前,文字區(qū)域組中包含M個文字區(qū)域,記為t1,t2,...tM;過濾后,文字區(qū)域組就只剩下M′個TextClarityi值較大的文字區(qū)域,記為t′1,t′2,...t′M′。
進一步,上述的一種視頻文字多幀融合的方法,所述對文字區(qū)域組進行過濾時,文字筆畫強度圖由公式四計算得到 公式四 在公式四中,TIntiH,TIntiV,TIntiLD和TIntiRD分別表示用水平、垂直,左對角線,和右對角線四個方向上的文字筆畫強度檢測算子在原圖ti上進行卷積得到的文字筆畫強度圖。
進一步,上述的一種視頻文字多幀融合的方法,按照公式五、六將文字筆畫強度圖TIMapitext分成文字部分和背景部分 公式五 公式六 其中,tAvg是對文字區(qū)域組中的文字區(qū)域t1,t2,...tM進行平均得到的圖像,Hotsu是在tAvg中用OTSU方法求得的局部閾值,p是TIMapi中的一個像素,tAvg(p)是該像素在tAvg中相應(yīng)位置的強度值,如果tAvg(p)大于Hotsu,則認為該p屬于文字部分TIMapitext,否則屬于背景部分TIMapiback,這是因為在視頻中,相對于背景,文字一般具有較高的強度值。
進一步,上述的一種視頻文字多幀融合的方法,所述表示文字清晰程度的TextClarityi值由公式七計算得到,其中,TIMapitext表示TIMapi中的文字部分,p是TIMapitext中的像素,|TIMapitext|是TIMapitext中像素的數(shù)目; 公式七 進一步,上述的一種視頻文字多幀融合的方法,所述步驟3)中,在文字區(qū)域的文字部分和背景部分分別采用不同的方法進行融合,融合方法如公式八所示在背景部分取像素的平均值;在文字部分取像素的最小值; 公式八 公式九t′itext={p|tAvg(p)>Hotsu} 公式十t′iback={p|tAvg(p)≤Hotsu} 其中,t′1,t′2,...t′M′是文字區(qū)域組t1,t2,...tM中過濾后的,含有較為清晰文字筆畫的文字區(qū)域,tint是多幀融合的結(jié)果,t′itext和t′iback分別代表t′1,t′2,...t′M′的文字部分和背景部分,1≤i≤M′,它們由公式九、十計算得到;公式九、十中,tAvg是對文字區(qū)域t1,t2,...tM進行平均得到的圖像,Hotsu是在tAvg中用OTSU方法求得的局部閾值,p表示文字區(qū)域t′1,t′2,...t′M′中同一位置的一個像素,tAvg(p)是這個像素在tAvg中相應(yīng)位置的強度值,如果tAvg(p)大于Hotsu,則認為該p屬于文字部分t′itext,否則屬于背景部分t′iback。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下三個優(yōu)點(1)在文字區(qū)域組的識別中,綜合考慮了文字區(qū)域的三個有效特征,包括位置、邊緣分布以及對比度等,能夠高效準(zhǔn)確地檢測連續(xù)視頻幀中包含相同內(nèi)容的多個文字區(qū)域;(2)引入了文字區(qū)域組過濾,用文字筆畫強度圖來衡量圖像中文字的清晰程度,只選取那些含有清晰筆畫的文字區(qū)域進行融合,從而避免了模糊文字區(qū)域?qū)τ谌诤辖Y(jié)果的影響;(3)在文字區(qū)域組融合中,綜合了平均融合和最小值融合的優(yōu)點,在圖像的文字和背景部分分別采用了平均融合和最小值融合,能夠在簡化背景的同時,得到較高的對比度和清晰的文字融合結(jié)果。
圖1a是水平方向上的文字筆畫強度檢測算子; 圖1b是垂直方向上的文字筆畫強度檢測算子; 圖1c是左對角線方向上的文字筆畫強度檢測算子; 圖1d是右對角線方向上的文字筆畫強度檢測算子; 圖2是包含本發(fā)明方法的視頻文字識別流程示意圖。
具體實施例方式 下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細的描述。
如附圖2所示,基于多幀的視頻文字識別方法主要包含四個步驟視頻文字檢測步驟,多幀融合步驟,視頻文字提取步驟和OCR軟件識別步驟。本發(fā)明主要是關(guān)于多幀融合方法的,因此,本實施方式在其他三個步驟上采用了現(xiàn)有的方法,其中,在視頻文字檢測和視頻文字提取步驟采用了2005年在IEEE Transactions on Circuits and Systems for Video Technology上發(fā)表的文獻“A comprehensive method for multilingual video text detection,localization,andextraction”(作者是Michael R.Lyu,Jiqiang Song,Min Cai,頁碼是243-254)中的方法來檢測文字區(qū)域,和把文字從圖像背景中提取出來;在OCR軟件識別步驟,采用了現(xiàn)有的商業(yè)軟件,方正銳思OCR來識別二值文字圖像,得到文本結(jié)果。本發(fā)明對文字區(qū)域檢測結(jié)果進行融合,得到背景更為平滑,對比度更高和筆畫更為清晰的文字區(qū)域圖像,主要包括以下步驟 (1)在連續(xù)視頻幀的文字區(qū)域檢測結(jié)果中按照如下方法識別文字區(qū)域組。
維護一個緩沖區(qū)Tbuffer,初始情況下,Tbuffer為空;按照時間順序?qū)σ曨l幀進行處理,設(shè)fcurr為當(dāng)前正在處理的視頻幀,Tcurr為在fcurr中檢測到的文字區(qū)域集合,tcurr為Tcurr中的任一文字區(qū)域,把tcurr同Tbuffer中的所有文字區(qū)域進行比較,如果tcurr同Tbuffer中的任一文字區(qū)域tbuffer包含相同的內(nèi)容,則把tcurr加入tbuffer所屬的文字區(qū)域組,如果tcurr和Tbuffer中的所有文字區(qū)域都不含相同的內(nèi)容,則把tcurr放入Tbuffer中,并把tcurr看作是一個新文字區(qū)域組的開始;檢查Tbuffer中的任一文字區(qū)域tbuffer,若tbuffer既不是在當(dāng)前幀fcurr中新檢測到的文字區(qū)域,也不和Tcurr中的任何文字區(qū)域包含相同內(nèi)容,則認為tbuffer是其所屬文字區(qū)域組的結(jié)束,并把tbuffer移出Tbuffer。
在上述過程中,判斷兩個文字區(qū)域是否包含相同內(nèi)容,就看這兩個文字區(qū)域是否同時滿足如下三個條件 條件一兩個文字區(qū)域在連續(xù)視頻幀中處于相近的位置; 條件二兩個文字區(qū)域包含相似的邊緣分布; 條件三兩個文字區(qū)域包含相近的對比度。
若兩個文字區(qū)域同時滿足這三個條件,則認為它們包含相同的內(nèi)容。
判斷文字區(qū)域ta和tb是否滿足上述三個條件的具體方法是,看ta和tb是否同時滿足如下三個公式 公式一Overlap(ta,tb)>r1×Min(area(ta),area(tb)) Overlap(ta,tb)表示文字區(qū)域ta與tb在不同視頻幀中位置上重疊的部分,r1是取值范圍為0到1的一個常數(shù),Min(area(ta),area(tb))是ta和tb中較小文字區(qū)域的面積,該公式表示,若ta與tb有足夠大的重疊面積,則認為文字區(qū)域ta與tb在不同視頻幀中處于相近的位置,在本實施例中,r1的值取為0.9; 公式二NoneZero(Ea,Eb)>r2×Overlap(ta,tb) Ea與Eb分別是ta和tb的邊緣圖,NoneZero(Ea,Eb)是在Ea與Eb中邊緣強度值都不為0的像素集合,NoneZero(Ea,Eb)={p|Ea(p)>0 & Eb(p)>0},NoneZero(Ea,Eb)用來衡量Ea與Eb中邊緣分布的情況,r2是取值范圍0到1之間的一個常數(shù),該公式表示,當(dāng)NoneZero(Ea,Eb)中包含的像素個數(shù)大于r2與Overlap(ta,tb)的乘積時,認為ta與tb具有類似的邊緣分布,在本實施例中,r2的值取為0.85; 公式三EdgeIDiff(ta,tb)<DMAX×Overlap(ta,tb) DMAX是一個預(yù)先定義的閾值,取值范圍為1到255,EdgeDiff(ta,tb)是邊緣圖Ea與Eb中位置相同的邊緣點強度值之差的累加和,即EdgeIDiff(ta,tb)=Sum(|Ea(p)-Eb(p)|),該公式表示,當(dāng)EdgeDiff(ta,tb)的值小于DMAX與Overlap(ta,tb)的乘積時,認為ta與tb對比度差異不大,它們具有相似的對比度,在本實施例中,DMAX的值取為40。
除上述方法之外,還有其他方法可以實現(xiàn)文字區(qū)域組的識別,例如,2002年在IEEE International Conference on Image Processing上發(fā)表的文獻“Acomprehensive method for multilingual video text detection,localization,andextraction”(作者是Xian-Sheng Hua,Pei Yin和Hong-Jiang Zhang)中認為,出現(xiàn)在連續(xù)視頻幀中,具有相近位置的文字區(qū)域包含了相同的文字,這種方法只考慮了位置信息,當(dāng)不同文字位于視頻中的相同位置時,容易出錯,因此該方法不如本實施例的方法更為有效。
(2)對文字區(qū)域組進行過濾,去除會對融合結(jié)果造成負面影響的模糊文字區(qū)域。
對文字區(qū)域組進行過濾時,首先計算得到文字區(qū)域組內(nèi)任一文字區(qū)域ti的文字筆畫強度圖TIMapi,1≤i≤M,然后把TIMapi分成兩個部分文字部分TIMapitext和背景部分TIMapiback,并在文字部分TIMapitext上計算ti的文字筆畫清晰程度TextClarityi,TextClarityi越高,表示文字越清晰,反之文字越模糊,過濾時,去除那些TextClarityi值較小的模糊文字區(qū)域。
在上述過程中,文字筆畫強度圖TIMapi由公式四計算得到,其中,TIntiH,TIntiV,TIntiLD和TIntiRD分別是用圖1a、圖1b、圖1c和圖1d中所示的四個方向上的文字筆畫強度檢測算子在原圖上進行卷積得到的水平,垂直以及兩個對角線方向的文字筆畫強度圖。
公式四 在上述過程中,在得到文字筆畫強度圖之后,按照公式五、六將文字筆畫強度圖TIMapi分成文字部分和背景部分。其中,tAvg是對文字區(qū)域組中的文字區(qū)域t1,t2,...tM進行平均得到的圖像,Hotsu是在tAvg中用OTSU方法求得的局部閾值,p是TIMapi中的一個像素,tAvg(p)是該像素在tAvg中相應(yīng)位置的強度值,如果tAvg(p)大于Hotsu,則認為該p屬于文字部分TIMapitext,否則屬于背景部分TIMapiback。
公式五 公式六 在上述過程中,表示文字清晰程度的TextClarityi值由公式七計算得到,其中,TIMapitext表示TIMapi中的文字部分,p是TIMapitext中的像素,|TIMapitext|是TIMapitext中像素的數(shù)目。
公式七 除上述方法之外,還有其他方法可以實現(xiàn)文字區(qū)域組的過濾,例如,2002年在IEEE International Conference on Image Processing上發(fā)表的文獻“Acomprehensive method for multilingual video text detection,localization,andextraction”(作者是Xian-Sheng Hua,Pei Yin和Hong-Jiang Zhang)過濾掉對比度較低的文字區(qū)域,但這種方法沒有考慮模糊文字區(qū)域的影響,對于圖像質(zhì)量較差的視頻,融合效果較差。
(3)對文字區(qū)域組進行融合,得到融合結(jié)果。
設(shè)過濾之前,文字區(qū)域組中包含M個文字區(qū)域,記為t1,t2,...tM;過濾后,文字區(qū)域組就只剩下M′個TextClarityi值較大的文字區(qū)域,記為t′1,t′2,...t′M′。在文字區(qū)域的文字部分和背景部分分別采用不同的策略對t′1,t′2,...t′M′進行融合,融合方法如公式八所示在背景部分取像素的平均值;在文字部分取像素的最小值。在公式八中,tint是多幀融合的結(jié)果,t′itext和t′iback分別代表t′1,t′2,...t′M′的文字部分和背景部分,1≤i≤M′,它們由公式九、十計算得到;公式九、十中,tAvg是對文字區(qū)域t1,t2,...tM進行平均得到的圖像,Hotsu是在tAvg中用OTSU方法求得的局部閾值,p表示文字區(qū)域t′1,t′2,...t′M′中同一位置的一個像素,tAvg(p)是這個像素在tAvg中相應(yīng)位置的強度值,如果tAvg(p)大于Hotsu,則認為該p屬于文字部分t′itext,否則屬于背景部分t′iback。
公式八 公式九t′itext={p|tAvg(p)>Hotsu} 公式十t′iback={p|tAvg(p)≤Hotsu} 除上述方法之外,還有其他方法可以實現(xiàn)文字區(qū)域組的融合,例如,2002年在IEEE Transactions on Circuits and Systems for Video Technology上發(fā)表的文獻“Localizing and Segmenting Text in Images and Videos”(作者是R.Lienhart和A.Wernicke,頁碼是256-268)采用了最小值融合來對整個文字區(qū)域進行融合,然而,這種方法容易受到噪聲的影響。
下面的實驗結(jié)果表明,與現(xiàn)有方法相比,本發(fā)明可以取得更好地融合視頻中冗余的文字信息,得到背景更為簡化,文字對比度更高和筆畫更為清晰的文字區(qū)域,從而得到更好的視頻文字提取與識別結(jié)果,充分發(fā)揮視頻文字信息在視頻內(nèi)容分析和檢索中的巨大作用。
本實施例中建立的數(shù)據(jù)庫包含10段從多個著名的網(wǎng)站上下載到的視頻,如CCTV,Xinhuanet,以及China News等,分辨率為320×240.經(jīng)統(tǒng)計,這些視頻中共包含1809行不同內(nèi)容的文字,每行文字均出現(xiàn)在多個連續(xù)的相鄰視頻幀中,總字數(shù)為11312.這些視頻中的背景往往比較復(fù)雜,具有較低的對比度.同時,由于這些視頻的壓縮率較高,圖像質(zhì)量較差,文字也比較模糊,因此對之進行檢測和提取更為困難,有助于證明本發(fā)明方法對各種情況的適應(yīng)性以及最終結(jié)果的有效性。
如上所述,本實施例在視頻文字檢測步驟,視頻文字提取步驟和OCR軟件識別步驟采用了現(xiàn)有的方法,而在多幀融合步驟采用了本發(fā)明的方法,多幀融合方法的性能可以用文字識別的結(jié)果進行評測。為了同現(xiàn)有的方法進行比較,我們在多幀融合步驟測試了以下三種不同的方法作為實驗對比 I.現(xiàn)有方法2002年在IEEE International Conference on ImageProcessing上發(fā)表的文獻“A comprehensive method for multilingual video textdetection,localization,and extraction”(作者是Xian-Sheng Hua,Pei Yin和Hong-Jiang Zhang),該方法首先根據(jù)文字區(qū)域的位置信息來識別具有相同內(nèi)容的多個文字區(qū)域;然后根據(jù)文字區(qū)域內(nèi)是否包含一定數(shù)量的低灰度值像素,來判斷文字區(qū)域是否具有較高的對比度,并舍棄那些對比度較低的文字區(qū)域;最后對具有較高對比度的文字區(qū)域進行融合,得到融合結(jié)果。
II.本具體實施例用本具體實施例的文字區(qū)域組識別方法代替在上述現(xiàn)有方法中識別包含相同內(nèi)容文字區(qū)域的部分; III.本具體實施例包括文字區(qū)域組識別,文字區(qū)域組過濾和文字區(qū)域組融合。
實驗采用了三個評價指標(biāo),文字識別查全率(Recall),文字識別查準(zhǔn)率(Precision)和文字識別重復(fù)率(Repeat)。其中,文字識別查全率和文字識別查準(zhǔn)率被用來衡量正確識別文字的能力,這兩個指標(biāo)都是越高越好;而文字識別重復(fù)率用來同一文字被重復(fù)識別的頻率,這個指標(biāo)則是越低越好。在視頻文字識別中,文字識別查全率和文字識別查準(zhǔn)率更為重要,因為正確識別文字的能力遠比是否重復(fù)識別了文字更有意義,這三個指標(biāo)的定義如下 Recall=WNcorrect/WNall Precision=WNallcorrect/WNall Repeat=WNrepeat/WNall 其中,WNcorrect是正確識別的文字數(shù)目,去除了重復(fù)識別的部分;WNrepeat是正確識別的文字中重復(fù)識別的部分;WNallcorrect是正確識別的所有文字的數(shù)目,WNallcorrect等于WNcorrect與WNrepeat之和;WNall是識別出的所有文字數(shù)目,包括了正確識別和錯誤識別的文字。
表1 實驗結(jié)果對比
從表1中可以看出,本發(fā)明的方法II和方法III在文字識別查全率和查準(zhǔn)率上都比現(xiàn)有方法I要高,這是因為,本發(fā)明綜合考慮了文字區(qū)域的三個有效特征,包括位置、邊緣分布以及對比度等,能夠高效準(zhǔn)確地檢測連續(xù)視頻幀中包含相同內(nèi)容的多個文字區(qū)域,從而能夠正確地對包含相同內(nèi)容的文字區(qū)域進行融合。對比本發(fā)明的方法II和III,方法III比方法II取得了更好的文字識別結(jié)果,這是因為本發(fā)明引入的文字區(qū)域組過濾方法能夠有效去除那些較為模糊的文字區(qū)域,從而避免了模糊文字區(qū)域?qū)τ谌诤辖Y(jié)果的影響;同時,本發(fā)明綜合了平均融合和最小值融合的優(yōu)點,在圖像的文字和背景部分分別采用了平均融合和最小值融合,能夠在簡化背景的同時,得到較高的對比度和清晰的文字融合結(jié)果。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1、一種視頻文字多幀融合的方法,用于對出現(xiàn)在多個連續(xù)視頻幀中的相同文字區(qū)域進行融合,包括如下步驟
1)在連續(xù)視頻幀的文字區(qū)域檢測結(jié)果中識別文字區(qū)域組,所述文字區(qū)域組指包含相同內(nèi)容的多個文字區(qū)域;
2)對步驟1)中得到的文字區(qū)域組進行過濾,去除會對融合結(jié)果造成負面影響的模糊文字區(qū)域;
3)對步驟2)中過濾后的文字區(qū)域組進行融合,得到融合結(jié)果。
2、如權(quán)利要求1中所述的視頻文字多幀融合方法,其特征在于,所述步驟1)中,按照如下方法識別文字區(qū)域組維護一個緩沖區(qū)Tbuffer,初始情況下,Tbuffer為空;按照時間順序?qū)σ曨l幀進行處理,設(shè)fcurr為當(dāng)前正在處理的視頻幀,Tcurr為在fcurr中檢測到的文字區(qū)域集合,tcurr為Tcurr中的任一文字區(qū)域,把tcurr同Tbuffer中的所有文字區(qū)域進行比較,如果tcurr同Tbuffer中的任一文字區(qū)域tbuffer包含相同的內(nèi)容,則把tcurr加入tbuffer所屬的文字區(qū)域組,如果tcurr和Tbuffer中的所有文字區(qū)域都不含相同的內(nèi)容,則把tcurr放入Tbuffer中,并把tcurr看作是一個新文字區(qū)域組的開始;檢查Tbuffer中的任一文字區(qū)域tbuffer,若tbuffer既不是在當(dāng)前幀fcurr中新檢測到的文字區(qū)域,也不和Tcurr中的任何文字區(qū)域包含相同內(nèi)容,則認為tbuffer是其所屬文字區(qū)域組的結(jié)束,并把tbuffer移出Tbuffer。
3、如權(quán)利要求1或2所述的視頻文字多幀融合方法,其特征在于,判斷兩個文字區(qū)域包含相同內(nèi)容的方法是,兩個文字區(qū)域同時滿足如下三個條件
條件一兩個文字區(qū)域在連續(xù)視頻幀中處于相近的位置;
條件二兩個文字區(qū)域包含相似的邊緣分布;
條件三兩個文字區(qū)域包含相近的對比度。
4、如權(quán)利要求3所述的視頻文字多幀融合方法,其特征在于,判斷兩個文字區(qū)域ta和tb同時滿足三個條件的具體方法是
ta和tb同時滿足以下三個公式
公式一Overlap(ta,tb)>r1×Min(area(ta),area(tb))
Overlap(ta,tb)表示文字區(qū)域ta與tb在不同視頻幀中位置上重疊的部分,r1是取值范圍為0到1的一個常數(shù),Min(area(ta),area(tb))是ta和tb中較小文字區(qū)域的面積,該公式表示,若ta與tb有足夠大的重疊面積,則認為文字區(qū)域ta與tb在不同視頻幀中處于相近的位置;
公式二NoneZero(Ea,Eb)>r2×Overlap(ta,tb)
Ea與Eb分別是ta和tb的邊緣圖,NoneZero(Ea,Eb)是在Ea與Eb中邊緣強度值都不為0的像素集合,NoneZero(Ea,Eb)={p|Ea(p)>0&Eb(p)>0},NoneZero(Ea,Eb)用來衡量Ea與Eb中邊緣分布的情況,r2是取值范圍0到1之間的一個常數(shù),該公式表示,當(dāng)NoneZero(Ea,Eb)中包含的像素個數(shù)大于r2與Overlap(ta,tb)的乘積時,認為ta與tb具有類似的邊緣分布;
公式三EdgeIDiff(ta,tb)<DMAX×Overlap(ta,tb)
DMAX是一個預(yù)先定義的閾值,是取值范圍0到255之間的一個常數(shù),EdgeDiff(ta,tb)是邊緣圖Ea與Eb中位置相同的邊緣點強度值之差的累加和,即EdgeIDiff(ta,tb)=Sum(|Ea(p)-Eb(p)|),該公式表示,當(dāng)EdgeDiff(ta,tb)的值小于DMAX與Overlap(ta,tb)的乘積時,認為ta與tb對比度差異不大,它們具有相似的對比度。
5、如權(quán)利要求1中所述的視頻文字多幀融合方法,其特征在于,所述步驟2)中對文字區(qū)域組進行過濾時,首先計算得到文字區(qū)域組內(nèi)任一文字區(qū)域ti的文字筆畫強度圖TIMapi,1≤i≤M,然后把TIMapi分成兩個部分文字部分TIMapitext和背景部分TIMapiback,并在文字部分TIMapitext上計算ti的文字筆畫清晰程度TextClarityi,TextClarityi越高,表示文字越清晰,反之文字越模糊,過濾時,去除那些TextClarityi值較小的模糊文字區(qū)域;這樣,設(shè)過濾之前,文字區(qū)域組中包含M個文字區(qū)域,記為t1,t2,...tM;過濾后,文字區(qū)域組就只剩下M′個TextClarityi值較大的文字區(qū)域,記為t′1,t′2,...t′M′。
6、如權(quán)利要求5中所述的視頻文字多幀融合方法,其特征在于,所述的文字筆畫強度圖由公式四計算得到
公式四
在公式四中,TIntiH,TIntiV,TIntiLD和TIntiRD分別表示用水平、垂直,左對角線,和右對角線四個方向上的文字筆畫強度檢測算子在原圖ti上進行卷積得到的文字筆畫強度圖。
7、如權(quán)利要求5中所述的視頻文字多幀融合方法,其特征在于,所述的將文字筆畫強度圖TIMapi分成文字部分和背景部分按照公式五、六計算得到
公式五
公式六
其中,tAvg是對文字區(qū)域組中的文字區(qū)域t1,t2,...tM進行平均得到的圖像,Hotsu是在tAvg中用OTSU方法求得的局部閾值,p是TIMapi中的一個像素,tAvg(p)是該像素在tAvg中相應(yīng)位置的強度值,如果tAvg(p)大于Hotsu,則認為該p屬于文字部分TIMapitext,否則屬于背景部分TIMapiback。
8、如權(quán)利要求5中所述的視頻文字多幀融合方法,其特征在于,所述表示文字清晰程度的TextClarityi值由公式七計算得到,其中,TIMapitext表示TIMapi中的文字部分,p是TIMapitext中的像素,|TIMapitext|是TIMapitext中像素的數(shù)目;
公式七
9、如權(quán)利要求1中所述的視頻文字多幀融合方法,其特征在于,所述步驟3)中的融合方法在文字區(qū)域的文字部分和背景部分分別采用不同的方法進行融合,融合方法如公式八所示在背景部分取像素的平均值;在文字部分取像素的最小值;
公式八
公式九t′itext={p|tAvg(p)>Hotsu}
公式十t′iback={p|tAvg(p)≤Hotsu}
其中,t′1,t′2,...t′M′是文字區(qū)域組t1,t2,...tM中過濾后的,含有較為清晰文字筆畫的文字區(qū)域,tint是多幀融合的結(jié)果,t′itext和t′iback分別代表t′1,t′2,...t′M′的文字部分和背景部分,1≤i≤M′,它們由公式九、十計算得到;公式九、十中,tAvg是對文字區(qū)域t1,t2,...tM進行平均得到的圖像,Hotsu是在tAvg中用OTSU方法求得的局部閾值,p表示文字區(qū)域t′1,t′2,...t′M′中同一位置的一個像素,tAvg(p)是這個像素在tAvg中相應(yīng)位置的強度值,如果tAvg(p)大于Hotsu,則認為該p屬于文字部分t′itext,否則屬于背景部分t′iback。
全文摘要
本發(fā)明公開了一種視頻文字多幀融合的方法,用于對出現(xiàn)在多個連續(xù)視頻幀的相同文字區(qū)域進行融合,包括如下步驟1)在連續(xù)視頻幀的文字區(qū)域檢測結(jié)果中識別文字區(qū)域組,所述文字區(qū)域組指包含相同內(nèi)容的多個文字區(qū)域;2)對步驟1)中得到的文字區(qū)域組進行過濾,去除會對融合結(jié)果造成負面影響的模糊的文字區(qū)域;3)對步驟2)中過濾后的文字區(qū)域組進行融合,得到融合結(jié)果。使用本發(fā)明的方法避免了模糊文字區(qū)域?qū)τ谌诤辖Y(jié)果的影響;能夠高效準(zhǔn)確地檢測連續(xù)視頻幀中包含相同內(nèi)容的多個文字區(qū)域;能夠在簡化背景的同時,得到較高的對比度和清晰的文字融合結(jié)果。
文檔編號G06K9/62GK101615255SQ20091008887
公開日2009年12月30日 申請日期2009年7月21日 優(yōu)先權(quán)日2009年7月21日
發(fā)明者劍 易, 彭宇新, 肖建國 申請人:北京大學(xué)