專利名稱:一種重復(fù)性音視頻片段的檢測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻視頻片段的檢測(cè)技術(shù)領(lǐng)域,特別是涉及一種重復(fù)性音視頻片段的檢測(cè)方法。
背景技術(shù):
音視頻的自動(dòng)檢測(cè)就是利用計(jì)算機(jī)從一段視、音流中自動(dòng)檢測(cè)出特定音視頻片段并精確地定位該特定音視頻片段的位置。目前常見的音視頻的自動(dòng)檢測(cè)的方法是基于規(guī)則的方法、基于標(biāo)識(shí)的方法、基于識(shí)別的方法等。基于規(guī)則的方法,是針對(duì)音視頻的一些特點(diǎn)人為的去制定一些規(guī)則。但現(xiàn)有技術(shù)方法的缺陷是選擇表示音視頻的特征有時(shí)不是足夠的穩(wěn)定,所以通過這些特征很難建立統(tǒng)一的檢測(cè)系統(tǒng)?;跇?biāo)識(shí)的方法,如通過電視臺(tái)的臺(tái)標(biāo)來檢測(cè)音視頻片段,但是,目前很多電視臺(tái)在插播特定音視頻片段(如廣告)的時(shí)候不隱去臺(tái)標(biāo),而且這種現(xiàn)象越來越多,所以這種通過臺(tái)標(biāo)檢測(cè)音視頻片段的方法就失效了?;谧R(shí)別的方法,此方法要求事先有一個(gè)很大很全的存儲(chǔ)廣告的數(shù)據(jù)庫,然后利用此數(shù)據(jù)庫識(shí)別嵌入在電視節(jié)目里面的音視頻片段,此方法不能檢測(cè)出數(shù)據(jù)庫中不存在的音視頻片段。同時(shí)上述現(xiàn)有的檢測(cè)方法幾乎都是通過視頻特征來實(shí)現(xiàn)音視頻的檢測(cè)。由于視頻本身的特點(diǎn),這些方法所需數(shù)據(jù)量大,特征復(fù)雜性高,計(jì)算速度慢。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種重復(fù)性音視頻片段的檢測(cè)方法和系統(tǒng),其能夠更準(zhǔn)確、高效地檢測(cè)出音視頻中的特定音視頻片段。為實(shí)現(xiàn)本發(fā)明目的而提供的一種重復(fù)性音視頻片段的檢測(cè)方法,包括下列步驟步驟A,將待檢測(cè)的音視頻片段中的視頻流進(jìn)行分割得到視頻流片段,并從每一視頻流片段中提取視頻特征;步驟B,在音視頻片段中檢測(cè)與視頻流片段匹配的具有重復(fù)性的音視頻片段的視頻序列,得到重復(fù)性音視頻片段。步驟C,對(duì)所述重復(fù)性音視頻片段,利用細(xì)粒度的視頻匹配來精確地定位重復(fù)性音視頻片段的起始和結(jié)束時(shí)間點(diǎn);步驟D,對(duì)步驟C中精確地定位的重復(fù)性音視頻片段,使用基于序列的方法對(duì)匹配對(duì)進(jìn)行合并,得到完整的重復(fù)性音視頻片段。所述步驟A包括下列步驟步驟Al,將待檢測(cè)的音視頻片段中的視頻流分割為多個(gè)視頻流片段,每個(gè)視頻流片段為以一時(shí)間單元為一個(gè)單位進(jìn)行標(biāo)記;步驟A2,從視頻流片段中提取視頻特征參數(shù)。所述視頻特征參數(shù)包括美爾倒譜系數(shù),過零率和短時(shí)能量中一個(gè)參數(shù)或者一個(gè)以上的參數(shù)組合。
所述提取美爾倒譜系數(shù),過零率和短時(shí)能量,包括下列步驟:以40ms采集的視頻數(shù)據(jù)量為一幀,相鄰視頻幀沒有重復(fù),提取12個(gè)美爾倒譜系數(shù)、過零率和短時(shí)能量共14個(gè)參數(shù),來構(gòu)成14維的幀特征參數(shù)。所述在音視頻流中檢測(cè)與視頻流片段匹配的具有重復(fù)性的音視頻片段的視頻序列,是通過利用歐氏距離作為粗粒度相似性匹配的距離測(cè)度實(shí)現(xiàn)的。所述利用歐氏距離作為粗粒度相似性匹配的距離測(cè)度,包括下列步驟:利用歐氏距離作為粗粒度相似性匹配的距離測(cè)度找到所有和它匹配的具有重復(fù)性的音視頻小片段,并規(guī)定兩個(gè)小片段中重復(fù)的部分大于一半才為匹配片段序列。所述步驟D中,對(duì)匹配對(duì)進(jìn)行合并,包括下列步驟:對(duì)于檢測(cè)匹配到的每一對(duì)精確匹配的重復(fù)性音視頻片段,分別查找和它們的時(shí)間間隔小于預(yù)先設(shè)定好的閾值TT的所有匹配對(duì),把新找到的匹配對(duì)和原來的匹配對(duì)進(jìn)行連接,然后再次的重復(fù)檢測(cè)匹配過程,直到?jīng)]有滿足條件的匹配對(duì)存在,得到的新的匹配對(duì)的開始和結(jié)束時(shí)間就是一個(gè)完整的重復(fù)性音視頻片段的起始和結(jié)束時(shí)間。本發(fā)明的有益效果是:本發(fā)明的重復(fù)性音視頻片段的檢測(cè)方法,利用重復(fù)性音視頻片段)的重復(fù)性是重復(fù)性音視頻片段的最為穩(wěn)定的特征,比其它的特點(diǎn)和規(guī)則要穩(wěn)定,所以準(zhǔn)確率會(huì)更高。此外本發(fā)明是采用視頻特征檢測(cè)重復(fù)性音視頻片段,只用視頻信息就足以表示、區(qū)分重復(fù)性音視頻片段和正常節(jié)目,而視頻信息比視頻信息具有更少的數(shù)據(jù)量、復(fù)雜性更低的辨別特征以及更少的計(jì)算量和更加高效的計(jì)算速度。
圖1為本發(fā)明重復(fù)性音視頻片段的檢測(cè)方法流程具體實(shí)施例方式下面結(jié)合上述目標(biāo)詳細(xì)介紹本發(fā)明重復(fù)性音視頻片段的檢測(cè)方法,包括下列步驟:步驟S100,將待檢測(cè)的音視頻片段中的視頻流進(jìn)行分割得到視頻流片段,并從每一視頻流片段中提取視頻特征;步驟S110,將待檢測(cè)的音視頻片段中的視頻流分割為多個(gè)視頻流片段,每個(gè)視頻流片段為以一時(shí)間單元為一個(gè)單位進(jìn)行標(biāo)記。將待檢測(cè)的音視頻片段中的視頻流提取出來,把該段視頻流分割成一個(gè)個(gè)小視頻片段,是視頻檢測(cè)的一個(gè)重要的準(zhǔn)備步驟。這里所謂的分割并不是把一大段視頻流真正的分割成一個(gè)個(gè)η (如η=5)秒的小片段,而是人為的每隔η秒片段作一個(gè)標(biāo)記,然后以η秒視頻流為一個(gè)單位的視頻流進(jìn)行處理。其主要目的是更加方便的提取特征、更加高效進(jìn)行各種處理。本發(fā)明以沒有重疊的長(zhǎng)度為10秒的視頻流片段,作為分割視頻流的基本單元,對(duì)待檢測(cè)的音視頻片段中的視頻流進(jìn)行分割。選擇10秒為一個(gè)檢測(cè)單元,是因?yàn)橹貜?fù)性音視頻片段的長(zhǎng)度一般都大于10秒,所以就不用去檢測(cè)這10秒內(nèi)是否有重復(fù)匹配的重復(fù)性音視頻片段,而且還能保證找到所有重復(fù)的重復(fù)性音視頻片段序列。
步驟S120,從視頻流片段中提取視頻特征參數(shù)。視頻特征參數(shù)特征提取是指尋找原始視頻信號(hào)表達(dá)形式,提取能代表原始信號(hào)的數(shù)據(jù)。本發(fā)明以40ms采集的視頻數(shù)據(jù)量為一幀,相鄰視頻幀沒有重復(fù)、即幀移也是40ms,提取 12 個(gè)美爾倒譜系數(shù)(Mel Frequency Cepstrum Coeficient,MFCC)、過零率和短時(shí)能量共14個(gè)參數(shù),來構(gòu)成14維的巾貞特征參數(shù)。I)提取美爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCC) MFCC特征是語音識(shí)別和說話人識(shí)別中經(jīng)常采用的特征,它是利用三角濾波器組對(duì)傅立葉變換能量系數(shù)濾波而得,并且對(duì)其頻域進(jìn)行美爾(Mel)尺度變換,更符合人類的聽覺特性。2)提取過零率(Zero-Crossing Rate, ZCR)過零率是指單位時(shí)間內(nèi)信號(hào)值通過零值的次數(shù)。其一定程度上說明了平均信號(hào)頻率。當(dāng)離散的時(shí)間信號(hào)相鄰的兩個(gè)取樣具有不同的符號(hào)時(shí),便出現(xiàn)“過零”現(xiàn)象。
權(quán)利要求
1.一種重復(fù)性音視頻片段的檢測(cè)方法,其特征在于,包括下列步驟: 步驟A,將待檢測(cè)的音視頻片段中的視頻流進(jìn)行分割得到視頻流片段,并從每一視頻流片段中提取視頻特征; 步驟B,在音視頻片段中檢測(cè)與視頻流片段匹配的具有重復(fù)性的音視頻片段的視頻序列,得到重復(fù)性音視頻片段。
步驟C,對(duì)所述重復(fù)性音視頻片段,利用細(xì)粒度的視頻匹配來精確地定位重復(fù)性音視頻片段的起始和結(jié)束時(shí)間點(diǎn); 步驟D,對(duì)步驟C中精確地定位的重復(fù)性音視頻片段,使用基于序列的方法對(duì)匹配對(duì)進(jìn)行合并,得到完整的重復(fù)性音視頻片段。
2.根據(jù)權(quán)利要求1所述的重復(fù)性音視頻片段的檢測(cè)方法,其特征在于,所述步驟A包括下列步驟: 步驟Al,將待檢測(cè)的音視頻片段中的視頻流分割為多個(gè)視頻流片段,每個(gè)視頻流片段為以一時(shí)間單元為一個(gè)單位進(jìn)行標(biāo)記; 步驟A2,從視頻流片段中提取視頻特征參數(shù)。
3.根據(jù)權(quán)利要求2所述的重復(fù)性音視頻片段的檢測(cè)方法,其特征在于,所述視頻特征參數(shù)包括美爾倒譜系數(shù),過零率和短時(shí)能量中一個(gè)參數(shù)或者一個(gè)以上的參數(shù)組合。
4.根據(jù)權(quán)利要求3所述的重復(fù)性音視頻片段的檢測(cè)方法,其特征在于,所述提取美爾倒譜系數(shù),過零率和短時(shí)能量,包括下列步驟: 以40ms采集的視頻數(shù)據(jù)量為一幀,相鄰視頻幀沒有重復(fù),提取12個(gè)美爾倒譜系數(shù)、過零率和短時(shí)能量共14個(gè)參數(shù),來構(gòu)成14維的幀特征參數(shù)。
5.根據(jù)權(quán)利要求1或2所述的重復(fù)性音視頻片段的檢測(cè)方法,其特征在于,所述在音視頻流中檢測(cè)與視頻流片段匹配的具有重復(fù)性的音視頻片段的視頻序列,是通過利用歐氏距離作為粗粒度相似性匹配的距離測(cè)度實(shí)現(xiàn)的。
6.根據(jù)權(quán)利要求5所述的重復(fù)性音視頻片段的檢測(cè)方法,其特征在于,所述利用歐氏距離作為粗粒度相似性匹配的距離測(cè)度,包括下列步驟: 利用歐氏距離作為粗粒度相似性匹配的距離測(cè)度找到所有和它匹配的具有重復(fù)性的音視頻小片段,并規(guī)定兩個(gè)小片段中重復(fù)的部分大于一半才為匹配片段序列。
7.根據(jù)權(quán)利要求1所述的重復(fù)性音視頻片段的檢測(cè)方法,其特征在于,所述步驟D中,對(duì)匹配對(duì)進(jìn)行合并,包括下列步驟: 對(duì)于檢測(cè)匹配到的每一對(duì)精確匹配的重復(fù)性音視頻片段,分別查找和它們的時(shí)間間隔小于預(yù)先設(shè)定好的閾值TT的所有匹配對(duì),把新找到的匹配對(duì)和原來的匹配對(duì)進(jìn)行連接,然后再次的重復(fù)檢測(cè)匹配過程,直到?jīng)]有滿足條件的匹配對(duì)存在,得到的新的匹配對(duì)的開始和結(jié)束時(shí)間就是一個(gè)完整的重復(fù)性音視頻片段的起始和結(jié)束時(shí)間。
全文摘要
本發(fā)明公開了一種重復(fù)性音視頻片段的檢測(cè)方法。該方法包括下列步驟將待檢測(cè)的音視頻片段中的視頻流進(jìn)行分割得到視頻流片段,并從每一視頻流片段中提取視頻特征;在音視頻片段中檢測(cè)與視頻流片段匹配的具有重復(fù)性的音視頻片段的視頻序列,得到重復(fù)性音視頻片段;對(duì)所述重復(fù)性音視頻片段,利用細(xì)粒度的視頻匹配來精確地定位重復(fù)性音視頻片段的起始和結(jié)束時(shí)間點(diǎn);步驟D,對(duì)步驟C中精確地定位的重復(fù)性音視頻片段,使用基于序列的方法對(duì)匹配對(duì)進(jìn)行合并,得到完整的重復(fù)性音視頻片段。其能夠更準(zhǔn)確、高效地檢測(cè)出音視頻中的特定音視頻片段。
文檔編號(hào)H04N21/845GK103077203SQ201210580259
公開日2013年5月1日 申請(qǐng)日期2012年12月28日 優(yōu)先權(quán)日2012年12月28日
發(fā)明者李偉忠, 楊磊 申請(qǐng)人:青島愛維互動(dòng)信息技術(shù)有限公司