两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

音視頻內(nèi)容檢索系統(tǒng)及其方法

文檔序號(hào):6425672閱讀:198來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):音視頻內(nèi)容檢索系統(tǒng)及其方法
技術(shù)領(lǐng)域
本發(fā)明關(guān)于一種音視頻內(nèi)容檢索系統(tǒng)及其方法,特別是關(guān)于一種基于音視頻指紋的音視頻內(nèi)容檢索系統(tǒng)及其方法。
背景技術(shù)
隨著網(wǎng)絡(luò)和多媒體技術(shù)的迅猛發(fā)展,音視頻媒體的數(shù)量呈爆炸性增長(zhǎng),人們對(duì)數(shù)字音視頻內(nèi)容進(jìn)行準(zhǔn)確有效地管理和訪問(wèn)變得十分困難。近年來(lái),基于內(nèi)容的音視頻檢索出現(xiàn)了許多新的研究和發(fā)展方向,音視頻指紋技術(shù)應(yīng)運(yùn)而生。音頻指紋(audio fingerprinting)技術(shù)在很早以前就被提出,例如,Jaap Haitsma和Ton Kalke在2002年音樂(lè)搜索進(jìn)展國(guó)際會(huì)議上發(fā)表了“一種高可靠性的音頻指紋系統(tǒng)”(AHighly Robust Audio Fingerprinting System),這種系統(tǒng)通過(guò)信號(hào)處理的方法,將音頻文件中每隔一段時(shí)間(例如11.6ms)的音頻信號(hào),轉(zhuǎn)化為一個(gè)32比特(bit)大小的指紋(fingerprint),通過(guò)這種方法一個(gè)音頻文件就可以被轉(zhuǎn)換為一個(gè)指紋文件,系統(tǒng)在對(duì)所有的音頻指紋文件做索引后,就可以快速的音頻指紋檢索了。與音頻指紋技術(shù)原理相似,視頻指紋(video fingerprinting)系統(tǒng)將每一幀或者幾幀轉(zhuǎn)化為很小的指紋(例如32比特大小),然后進(jìn)行檢索。例如國(guó)際專(zhuān)利號(hào)為 W02007/127590A2 的“Method and system for fingerprinting digital video object based on multiresolution, multirat and temporal signatures” 公開(kāi)了一禾中)1^ ^言號(hào)的每幀轉(zhuǎn)化為84比特或132比特的視頻指紋處理方法,通過(guò)這種方法一個(gè)視頻文件就可以被轉(zhuǎn)換成一個(gè)很小的指紋文件??梢?jiàn),現(xiàn)有的音視頻指紋技術(shù)通常都是首先對(duì)輸入的音視頻內(nèi)容進(jìn)行指紋特征提取,然后按照指紋特征的幀序,按順序在指紋數(shù)據(jù)庫(kù)中進(jìn)行倒排索引的檢索。然而這種做法卻存在如下問(wèn)題由于音視頻的碼率、格式和噪聲干擾,會(huì)導(dǎo)致指紋特征變形,影響檢索效果。綜上所述,可知先前技術(shù)的音視頻檢索技術(shù)存在由于音視頻碼率、格式及噪聲干擾導(dǎo)致指紋特征變形進(jìn)而影響檢索效果的問(wèn)題,因此實(shí)有必要提出改進(jìn)的技術(shù)手段,來(lái)解決此一問(wèn)題。

發(fā)明內(nèi)容
為克服上述現(xiàn)有技術(shù)的音視頻檢索技術(shù)存在由于音視頻碼率、格式及噪聲干擾導(dǎo)致指紋特征變形進(jìn)而影響檢索效果的問(wèn)題,本發(fā)明的主要目的在于提供一種音視頻內(nèi)容檢索系統(tǒng)及其方法,其通過(guò)預(yù)先計(jì)算每一幀指紋特征的抗干擾程度,并按指紋特征的抗干擾程度排序后進(jìn)行檢索,可以大大提高檢索速度。為達(dá)上述及其它目的,本發(fā)明一種音視頻內(nèi)容檢索系統(tǒng),至少包括接收模組,用于接收一音視頻片斷;指紋特征提取模組,用于提取該音視頻片斷每一幀的指紋特征;
抗干擾程度計(jì)算模組,構(gòu)建一抗干擾程度計(jì)算模型,依據(jù)該抗干擾程度計(jì)算模型計(jì)算每幀指紋的抗干擾程度;排序模組,依照每幀指紋的抗干擾程度進(jìn)行幀排序;以及檢索模組,根據(jù)幀排序結(jié)果在指紋數(shù)據(jù)庫(kù)中進(jìn)行指紋檢索。進(jìn)一步地,該指紋特征提取模組通過(guò)計(jì)算同一幀內(nèi)相鄰兩子帶能量差分和相鄰兩幀同一子帶的能量差分來(lái)獲得每一幀的指紋特征。進(jìn)一步地,該抗干擾程度計(jì)算模型為
ΓΠΠ1 fil rvKncf Γη、一 ’ . ‘ ‘ 、一” ’、 一 _L . "“ 二…— 一 ;. 、一 - , — ·
Lww ι υ」 IVU U \Λο I ν 11 / ——- - - “ -、一、..... ““ · ““ ■ ~ “ ‘ “ “ - ““ '“‘ "‘**■'々,其中Robust(Ii)表示第η幀指紋的抗干擾程度,E (n,m)表示第η幀的第m個(gè)子帶
的能量。進(jìn)一步地,每幀指紋的抗干擾程度可通過(guò)原始能量差分?jǐn)?shù)值的絕對(duì)值最高的若干維來(lái)計(jì)算獲得。進(jìn)一步地,該抗干擾程度計(jì)算模型為Robust (η) =T ^z12 E fr^nie soitui.k');其中Robust (η)表示第 η 幀指紋的抗干擾程度,E_frame_sort (n, k) = sortm = 1, 32 (ABS (Ε (η, m) -E (η, m+l)-(E (η_1,m) -E (η_1,m+1))),E (η,m)表示第 η 幀的第 m 個(gè)子帶的能量,SOTtO表示排序。進(jìn)一步地,該抗干擾程度計(jì)算模組還可通過(guò)頻譜值或色彩值來(lái)計(jì)算每一幀指紋的抗干擾程度。為達(dá)到上述及其他目的,本發(fā)明還提供一種音視頻內(nèi)容檢索方法,該方法至少包括如下步驟接收一音視頻片斷;提取該音視頻片斷每一幀的指紋特征;利用一抗干擾程度計(jì)算模型計(jì)算每一幀指紋的抗干擾程度;按照每幀指紋的抗干擾程度進(jìn)行幀排序;以及依據(jù)幀排序的結(jié)果在指紋數(shù)據(jù)庫(kù)中進(jìn)行指紋檢索。進(jìn)一步地,每一幀指紋特征是通過(guò)計(jì)算同一幀內(nèi)相鄰兩子帶能量差分和相鄰兩幀同一子帶的能量差分來(lái)獲得的。進(jìn)一步地,該抗干擾程度計(jì)算模型為
Γγ\γ\ο -j "I Τ) ι c十(ti、——、…■,二二 'ο ·一 ·..,· 二 -一二「一 " ■ ‘ 一 ■■, !. ‘ — ·
\_\jkjo ι 」 IViJUllIbL ν 11 / — — - - · “ “ ..... ““ "·“ “·、·· · ^- “ ·■ “" ‘“ ^ - - 5其中Robust(Ii)表示第η幀指紋的抗干擾程度,E (n,m)表示第η幀的第m個(gè)子帶
的能量。進(jìn)一步地,該抗干擾程度計(jì)算模型還可以為Robust ( η) =IjJ=: E—f: a ι 〗ι f—s—s oit ; ι , k);其中Robust (η)表示第 η 幀指紋的抗干擾程度,E_frame_sort (n, k) = sortm = 1, 32 (ABS (Ε (η, m) -E (η, m+1)-(E (η_1,m) -E (η_1,m+1))),E (η,m)表示第 η 幀的第 m 個(gè)子帶的能量,SOTtO表示排序。進(jìn)一步地,每一幀指紋的抗干擾程度還可通過(guò)頻譜值或色彩值來(lái)計(jì)算獲得。
與現(xiàn)有技術(shù)相比,本發(fā)明一種音視頻內(nèi)容檢索系統(tǒng)及方法通過(guò)預(yù)先計(jì)算需要檢索的音視頻的每一幀指紋的抗干擾程度,并按照指紋的抗干擾程度排序后檢索,抗干擾程度高的優(yōu)先檢索,而不是按幀序檢索,可以大大提高檢索速度。


圖1為本發(fā)明一種音視頻內(nèi)容檢索系統(tǒng)的系統(tǒng)架構(gòu)圖;圖2為本發(fā)明一種音視頻內(nèi)容檢索方法的步驟流程圖。
具體實(shí)施例方式以下通過(guò)特定的具體實(shí)例并結(jié)合

本發(fā)明的實(shí)施方式,本領(lǐng)域技術(shù)人員可由本說(shuō)明書(shū)所揭示的內(nèi)容輕易地了解本發(fā)明的其它優(yōu)點(diǎn)與功效。本發(fā)明亦可通過(guò)其它不同的具體實(shí)例加以施行或應(yīng)用,本說(shuō)明書(shū)中的各項(xiàng)細(xì)節(jié)亦可基于不同觀點(diǎn)與應(yīng)用,在不背離本發(fā)明的精神下進(jìn)行各種修飾與變更。圖1為本發(fā)明一種音視頻內(nèi)容檢索系統(tǒng)的架構(gòu)圖,以下將先以圖1來(lái)說(shuō)明本發(fā)明的系統(tǒng)運(yùn)作。如圖1所示,本發(fā)明一種音視頻內(nèi)容檢索系統(tǒng)至少包含接收模組101、指紋特征提取模組102、抗干擾程度計(jì)算模組103、排序模組104以及檢索模組105。接收模組101用于接收一流媒體文件,該流媒體文件中至少包含一音視頻片斷, 該音視頻片斷可以為音頻文件,也可以是視頻文件。指紋特征提取模組102與接收模組101相連接,在接收模組101接收到音視頻片斷后,指紋特征提取模組102則用于提取該音視頻片斷中每一幀音頻或每一幀視頻的指紋特征,以下具體說(shuō)明指紋特征提取模組102提取指紋特征的工作過(guò)程。在此以提取音頻指紋特征為例,首先,指紋特征提取模組102對(duì)于固定采樣率的單聲道音頻,按固定幀移將音頻分成若干毫秒的音頻幀,并加漢明窗(Harming Window);其次,對(duì)每一幀音頻幀做傅立葉變換,提取功率譜,將某段頻帶(例如300Ηζ-4000Ηζ)采用對(duì)數(shù)刻度均勻分為互不相交的33個(gè)子帶,并計(jì)算每一幀的子帶能量;最后,計(jì)算同一幀內(nèi)相鄰兩子帶能量差分和相鄰兩幀同一子帶的能量差分,得到指紋特征值,可通過(guò)如下計(jì)算公式獲得
Γ1, E(n, m) - E(n, m + Y)- (E(n -\m)~ E(n _ 1, to +1)) > 0F(n, m)= <其中用E(n,m)表示第η幀的第m個(gè)子帶的能量,F(xiàn) (n, m)表示第η幀對(duì)應(yīng)的指紋特征中的第m維特征。利用上述公式提取的特征共32個(gè)bit (比特),正好一個(gè)long型數(shù)據(jù)的長(zhǎng)度??梢钥吹剑恳粠拿恳痪S均由原始的能量差分?jǐn)?shù)值量化成了 0或者1,如果能量差分?jǐn)?shù)值的絕對(duì)值越大,該幀的該維就越難受到噪聲干擾,如果原始能量差分?jǐn)?shù)值的絕對(duì)值越小,該幀的該維就越容易受到噪聲干擾。雖然本發(fā)明較佳實(shí)施例僅以原始能量差分?jǐn)?shù)值的方法來(lái)獲得每幀的指紋特征,但本發(fā)明不以此為限,當(dāng)然也可以通過(guò)頻譜值、色彩值等其他方法來(lái)獲得每幀的指紋特征,在此不予贅述。與音頻指紋特征提取類(lèi)似,對(duì)于視頻指紋特征的提取,既可以采取原始的能量差分?jǐn)?shù)值方法來(lái)獲得,也可以通過(guò)頻譜值、色彩值等其他方法來(lái)獲得,視頻指紋特征的提取為習(xí)知的現(xiàn)有技術(shù),在此不予贅述。 在指紋特征提取模組102提取出每一幀音頻和每一幀視頻的指紋特征后,抗干擾程度計(jì)算模組103則構(gòu)建一抗干擾程度計(jì)算模型來(lái)計(jì)算每一幀指紋的抗干擾程度。對(duì)于每幀指紋的抗干擾程度,可以通過(guò)采用原始能量差分的數(shù)值來(lái)計(jì)算,也可以采用頻譜值或色彩值來(lái)計(jì)算,本發(fā)明不以此為限,在本發(fā)明較佳實(shí)施例中,則仍以采用原始能量差分的數(shù)值來(lái)計(jì)算為例,抗干擾程度計(jì)算模型為
^ooso] ^^^obust ( n) ——.j . _ .. - - - - - ““ - *..... - ■ - - - , *這里表示第η幀指紋的抗干擾程度,E (n,m)表示第η幀的第m個(gè)子帶的能量。較佳的,每幀指紋的抗干擾程度還可以通過(guò)原始能量差分?jǐn)?shù)值的絕對(duì)值最高的若干維來(lái)計(jì)算E_frame_sort (n,k) = sortm = 1 32 (ABS (Ε (η, m)_E(n,m+l)-(E(n_l,m-E(n_l, m+l))),其中,sortO表示排序;則抗干擾程度計(jì)算模型可以為Robust (η) =I^z51 H^^-^icr 表示計(jì)算每幀絕對(duì)值最高的第1維到第32維。排序模組104用于按照每幀指紋的抗干擾程度Robust (η)進(jìn)行幀排序;檢索模組 105按照抗干擾程度的幀排序結(jié)果在指紋數(shù)據(jù)庫(kù)中進(jìn)行指紋檢索。具體地說(shuō),檢索模組105 檢索時(shí)不是按照常用的幀序進(jìn)行檢索,而是按照表示該幀指紋抗干擾程度的Robust(Ii)的排序結(jié)果進(jìn)行檢索,Robust(Ii)越高的優(yōu)先檢索,Robust(Ii)越低的滯后檢索。圖2為本發(fā)明一種音視頻內(nèi)容檢索方法的步驟流程圖。如圖2所示,本發(fā)明一種音視頻內(nèi)容檢索方法包括下列步驟接收一音視頻片斷(步驟201);提取該音視頻片斷的每一幀指紋特征(步驟20 ;利用抗干擾程度計(jì)算模型計(jì)算每一幀指紋的抗干擾程度(步驟20 ;按照每幀指紋的抗干擾程度進(jìn)行幀排序(步驟204);以及依據(jù)幀排序的結(jié)果至指紋數(shù)據(jù)庫(kù)進(jìn)行指紋檢索(步驟205)。對(duì)于步驟203,每幀指紋的抗干擾程度,可以通過(guò)采用原始能量差分的數(shù)值來(lái)計(jì)算,也可以采用頻譜值或色彩值來(lái)計(jì)算,在本發(fā)明較佳實(shí)施例中,則以采用原始能量差分的數(shù)值來(lái)計(jì)算為例,因此,抗干擾程度計(jì)算模型為
____/\T-" ~ “‘=" .-.— -曲.- .、》.
Γ Λ Λ C Q ΠT^T^i/\\ b i.e. —α. Λ. ^t Ab- iV -、,-....... fa :m. . f . ........ - fa ."............-、、,....... U與 ............;、‘ 廣·
LUUJDy」 _tC0DUSt ν 11 / —·~·^- -—-、-—’..... ~~ ..... ~ ,?、 -- -·· ‘ - ‘9這里表示第η幀指紋的抗干擾程度,E (n,m)表示第η幀的第m個(gè)子帶的能量。較佳的,每幀指紋的抗干擾程度,還可以通過(guò)原始能量差分?jǐn)?shù)值的絕對(duì)值最高的若干維來(lái)計(jì)算E—frame—sort (η,k) = sortm = ^32 (AES (Ε (n,m)_E(n,m+l)-(E(n_l,m)-E(n_l, m+l))),其中,sortO表示排序;則抗干擾程度計(jì)算模型可以為Robust (η) =v-;, ν_:·. ,;,_;,;;;;,;;;表示計(jì)算每幀絕對(duì)值最高的第1維到第32維。綜上所述,本發(fā)明一種音視頻內(nèi)容檢索系統(tǒng)及方法通過(guò)預(yù)先計(jì)算需要檢索的音視頻的每一幀指紋的抗干擾程度,并按照指紋的抗干擾程度排序后檢索,抗干擾程度高的優(yōu)先檢索,而不是按幀序檢索,大大提高了音視頻指紋檢索的速度。上述實(shí)施例僅例示性說(shuō)明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何本
領(lǐng)域技術(shù)人員均可在不違背本發(fā)明的精神及范疇下,對(duì)上述實(shí)施例進(jìn)行修飾與改變。因此,本發(fā)明的權(quán)利保護(hù)范圍,應(yīng)如權(quán)利要求書(shū)所列。
權(quán)利要求
1.一種音視頻內(nèi)容檢索系統(tǒng),至少包括 接收模組,用于接收一音視頻片斷;指紋特征提取模組,用于提取該音視頻片斷每一幀的指紋特征; 抗干擾程度計(jì)算模組,構(gòu)建一抗干擾程度計(jì)算模型,依據(jù)該抗干擾程度計(jì)算模型計(jì)算每幀指紋的抗干擾程度;排序模組,依照每幀指紋的抗干擾程度進(jìn)行幀排序;以及檢索模組,根據(jù)幀排序結(jié)果在指紋數(shù)據(jù)庫(kù)中進(jìn)行指紋檢索。
2.如權(quán)利要求1所述的音視頻內(nèi)容檢索系統(tǒng),其特征在于該指紋特征提取模組通過(guò)計(jì)算同一幀內(nèi)相鄰兩子帶能量差分和相鄰兩幀同一子帶的能量差分來(lái)獲得每一幀的指紋特征。
3.如權(quán)利要求2所述的音視頻內(nèi)容檢索系統(tǒng),其特征在于,該抗干擾程度計(jì)算模型為 其中Robust(Ii)表示第η幀指紋的抗干擾程度,E(n,m)表示第η幀的第m個(gè)子帶的能量。
4.如權(quán)利要求2所述的音視頻內(nèi)容檢索系統(tǒng),其特征在于每幀指紋的抗干擾程度可通過(guò)原始能量差分?jǐn)?shù)值的絕對(duì)值最高的若干維來(lái)計(jì)算獲得。
5.如權(quán)利要求4所述的音視頻內(nèi)容檢索系統(tǒng),其特征在于該抗干擾程度計(jì)算模型為 其中Robust (η)表示第η幀指紋的抗干擾程度,E_frame_sort (n, k) = sortm = 1, 32 (ABS (Ε (η, m) -E (η, +1) - (Ε (η_1,m) -E (η_1,m+1))),E (η,m)表示第 η 幀的第 m 個(gè)子帶的能量,sort ()表示排序。
6.如權(quán)利要求1所述的音視頻內(nèi)容檢索系統(tǒng),其特征在于該抗干擾程度計(jì)算模組通過(guò)頻譜值或色彩值來(lái)計(jì)算每一幀指紋的抗干擾程度。
7.一種音視頻內(nèi)容檢索方法,至少包括如下步驟 接收一音視頻片斷;提取該音視頻片斷每一幀的指紋特征; 利用一抗干擾程度計(jì)算模型計(jì)算每一幀指紋的抗干擾程度; 按照每幀指紋的抗干擾程度進(jìn)行幀排序;以及依據(jù)幀排序的結(jié)果在指紋數(shù)據(jù)庫(kù)中進(jìn)行指紋檢索。
8.如權(quán)利要求7所述的音視頻內(nèi)容檢索方法,其特征在于每一幀指紋特征是通過(guò)計(jì)算同一幀內(nèi)相鄰兩子帶能量差分和相鄰兩幀同一子帶的能量差分來(lái)獲得的。
9.如權(quán)利要求8所述的音視頻內(nèi)容檢索方法,其特征在于,該抗干擾程度計(jì)算模型為 其中Robust(Ii)表示第η幀指紋的抗干擾程度,E(n,m)表示第η幀的第m個(gè)子帶的能量。
10.如權(quán)利要求8所述的音視頻內(nèi)容檢索方法,其特征在于,該抗干擾程度計(jì)算模型為
11.如權(quán)利要求7所述的音視頻內(nèi)容檢索方法,其特征在于每一幀指紋的抗干擾程度可通過(guò)頻譜值或色彩值來(lái)計(jì)算獲得。
全文摘要
本發(fā)明公開(kāi)一種音視頻內(nèi)容檢索系統(tǒng)及方法,該檢索方法至少包含接收一音視頻片斷;提取該音視頻片斷每一幀的指紋特征;利用一抗干擾程度計(jì)算模型計(jì)算每一幀指紋的抗干擾程度;按照每幀指紋的抗干擾程度進(jìn)行幀排序;以及依據(jù)幀排序的結(jié)果在指紋數(shù)據(jù)庫(kù)中進(jìn)行指紋檢索,本發(fā)明通過(guò)先計(jì)算每一幀指紋特征的抗干擾程度,并按指紋特征的抗干擾程度排序后進(jìn)行檢索,大大提高了音視頻指紋檢索的速度。
文檔編號(hào)G06F17/30GK102214218SQ20111015142
公開(kāi)日2011年10月12日 申請(qǐng)日期2011年6月7日 優(yōu)先權(quán)日2011年6月7日
發(fā)明者張峰, 黃偉 申請(qǐng)人:盛樂(lè)信息技術(shù)(上海)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
孝昌县| 玉环县| 内江市| 聊城市| 达孜县| 松滋市| 凤凰县| 东兰县| 英德市| 肥西县| 泗阳县| 紫阳县| 兴业县| 漳平市| 丰城市| 靖宇县| 招远市| 宾阳县| 隆回县| 肇源县| 崇礼县| 白玉县| 华安县| 四平市| 静宁县| 秭归县| 台南市| 松潘县| 竹北市| 湖州市| 错那县| 汤原县| 怀集县| 黄冈市| 甘洛县| 宁强县| 阜宁县| 济源市| 雅安市| 周至县| 都安|