一種基于音頻指紋的直播流媒體識(shí)別系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)字音頻信號處理技術(shù),特別涉及一種基于音頻指紋的直播流媒體識(shí)別系統(tǒng)。
【背景技術(shù)】
[0002]在電視臺(tái)或電臺(tái)等直播運(yùn)營機(jī)構(gòu),在調(diào)查各個(gè)電臺(tái)或電視臺(tái)的收視率/收聽率,或者節(jié)目進(jìn)行的時(shí)刻,與收視用戶實(shí)施多方異地互動(dòng),都需識(shí)別用戶正在收視的電臺(tái)或電視臺(tái),此即頻道識(shí)別。
[0003]多個(gè)頻道的識(shí)別就是各個(gè)直播流媒體的識(shí)別。用戶可用手機(jī)或其他終端設(shè)備將相關(guān)信息通過網(wǎng)絡(luò)發(fā)送到運(yùn)營商的服務(wù)器,服務(wù)器端再對信號進(jìn)行處理并作出響應(yīng)。
[0004]現(xiàn)有的實(shí)現(xiàn)方法中有將各個(gè)節(jié)目的流媒體信號進(jìn)行預(yù)處理,加上各自獨(dú)立的logo標(biāo)志,比如在視頻中添加的水印,在音頻中加入的超聲波等。檢測用戶傳回的信號中的logo標(biāo)志等,就能識(shí)別所收視的直播媒體流所在的頻道。這些方法需要對節(jié)目流媒體信號進(jìn)行預(yù)先加工,抗干擾能力有限。
【發(fā)明內(nèi)容】
[0005]基于此,有必要提供一種不需要對節(jié)目信號進(jìn)行預(yù)先加工處理,可在廣播電視、網(wǎng)絡(luò)直播等場景下實(shí)時(shí)識(shí)別終端播放信號,抗干擾能力強(qiáng)的基于音頻指紋的直播流媒體識(shí)別系統(tǒng)。
[0006]根據(jù)本發(fā)明的一方面,提供了一種基于音頻指紋的直播流媒體識(shí)別系統(tǒng),包括服務(wù)器端和用戶端,服務(wù)器端包括音頻指紋采集模塊、指紋管理模塊和指紋比對模塊,用戶端包括現(xiàn)場指紋采集模塊。
[0007]在其中一個(gè)實(shí)施例中,音頻指紋采集模塊用于直播流媒體的音頻信號指紋。
[0008]在其中一個(gè)實(shí)施例中,指紋管理模塊用于保存音頻信號指紋。
[0009]在其中一個(gè)實(shí)施例中,現(xiàn)場指紋采集模塊用于頻道播放及接收的現(xiàn)場音頻的指紋。
[0010]這種基于音頻指紋的直播流媒體識(shí)別系統(tǒng),結(jié)構(gòu)簡單,服務(wù)器端與用戶端運(yùn)算量小,識(shí)別率高,節(jié)目信號不必預(yù)先加工處理,抗干擾能力強(qiáng),因此可以在廣播電視播出,網(wǎng)絡(luò)直播等場景下,實(shí)時(shí)識(shí)別終端的播放信號,可以作為內(nèi)容提供者與觀眾的橋梁,也為觀眾喜愛節(jié)目的統(tǒng)計(jì)提供了有效手段。
【附圖說明】
[0011]圖1為本發(fā)明一實(shí)施方式的一種音頻指紋直播流媒體識(shí)別的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0012]為了便于理解本發(fā)明,下面將用具體實(shí)施例對本發(fā)明進(jìn)行更全面的描述。但是,本發(fā)明可以以許多不同的形式來實(shí)現(xiàn),并不限于本文所描述的實(shí)施例。相反地,提供這實(shí)施例的目的是使對本發(fā)明的公開內(nèi)容的理解更加透徹全面。
[0013]如圖1所示,為本發(fā)明一實(shí)施例的一種基于音頻指紋的直播流媒體識(shí)別系統(tǒng),包括服務(wù)器端10和用戶端30,服務(wù)器端10包括音頻指紋采集模塊110、指紋管理模塊130和指紋比對模塊150,用戶端30包括現(xiàn)場指紋采集模塊310。
[0014]服務(wù)器端10用于采集各個(gè)頻道直播節(jié)目流媒體之音頻指紋,實(shí)時(shí)更新頻道指紋庫。服務(wù)器端10用于響應(yīng)用戶的請求,對比指紋庫與用戶傳回的指紋數(shù)據(jù),進(jìn)行指紋的相似度比對以識(shí)別用戶正在收視的直播流。具體地,音頻指紋采集模塊110用于直播流媒體的音頻信號指紋。指紋管理模塊130用于保存音頻信號指紋。現(xiàn)場指紋采集模塊310用于頻道播放及接收的現(xiàn)場音頻的指紋。
[0015]圖1中對于多頻道電視直播而言,各直播流對應(yīng)于各電視頻道。此外,網(wǎng)絡(luò)直播,及其他直播流媒體應(yīng)用的場景,如多會(huì)場節(jié)目整合與觀眾互動(dòng)等,直播流的識(shí)別都可采用上述機(jī)制。
[0016]服務(wù)器端10在傳送音視頻信號的同時(shí),采集各個(gè)直播流媒體(比如各個(gè)電視臺(tái)實(shí)時(shí)播放的節(jié)目信號)的音頻信號指紋,建立動(dòng)態(tài)指紋庫。每個(gè)流的指紋庫實(shí)時(shí)更新,其容量只需5秒至10秒的音頻指紋,4k大小就已足夠。用戶端30采集收視現(xiàn)場500毫秒至I秒的音頻指紋,通過網(wǎng)絡(luò)傳送到服務(wù)器,服務(wù)器端10將用戶傳來的指紋與動(dòng)態(tài)指紋庫中的指紋進(jìn)行比對,即可識(shí)別用戶收視的流媒體頻道。
[0017]這種基于音頻指紋的直播流媒體識(shí)別系統(tǒng),結(jié)構(gòu)簡單,服務(wù)器端10與用戶端30運(yùn)算量小,識(shí)別率高,節(jié)目信號不必預(yù)先加工處理,抗干擾能力強(qiáng),因此可以在廣播電視播出,網(wǎng)絡(luò)直播等場景下,實(shí)時(shí)識(shí)別終端的播放信號,可以作為內(nèi)容提供者與觀眾的橋梁,也為觀眾喜愛節(jié)目的統(tǒng)計(jì)提供了有效手段。
[0018]具體地,本實(shí)施例的系統(tǒng)中用戶端30的運(yùn)算量:采集I秒左右的音頻數(shù)據(jù),將指紋傳送至服務(wù)器。音頻時(shí)間長度與指紋長度成正比關(guān)系,在本實(shí)施例的系統(tǒng)中,I秒的音頻可大約生成近100個(gè)指紋,400個(gè)字節(jié)。
[0019]具體地,本實(shí)施例的系統(tǒng)中服務(wù)器端10的運(yùn)算量:實(shí)施更新指紋庫的指紋隊(duì)列,采用與用戶端30同樣的指紋生成算法。另外,服務(wù)器端10還需將從用戶端30傳來的指紋與指紋隊(duì)列中的指紋進(jìn)行匹配。本實(shí)施例的系統(tǒng)中,每個(gè)指紋4個(gè)字節(jié)(32位b i t)對應(yīng)1毫秒的音頻。
[0020]假設(shè)服務(wù)器擁有媒體流的個(gè)數(shù)為N,每個(gè)指紋庫隊(duì)列的長度為L(個(gè)指紋)。從用戶端30傳來的待測音頻指紋串長度為d(個(gè)指紋),這里要求d<L/2。
[0021]完整的搜索過程如下:從每個(gè)隊(duì)列開始,從頭至尾,匹配長度為d的指紋串,共需(L-d)次匹配,如果在某一隊(duì)列未能匹配成功,則從下一個(gè)隊(duì)列開始繼續(xù)搜索,直至匹配成功或搜索完所有隊(duì)列。
[0022]每次匹配都是累加d個(gè)指紋對的漢明距離,S卩d次4Byte整數(shù)異或運(yùn)算與(d-Ι)次整數(shù)加法運(yùn)算。為計(jì)算方便,將-1略去,這不影響大致的運(yùn)算量計(jì)算結(jié)果。距離累加和越小,則兩者的相似度越大;超過設(shè)定的閥值,即為匹配成功。
[0023]每次匹配最多需要進(jìn)行大約N*(L-d)*d次的異或與加法運(yùn)算,加上N*(L-d)次整數(shù)比較;平均值則取其一半。
[0024]考慮到音頻數(shù)據(jù)的短時(shí)穩(wěn)定性,沒有必要從隊(duì)列頭到隊(duì)列尾依次搜索所有的指紋串,可以先按指紋幀寬一半的距離(本系統(tǒng)中是5個(gè)指紋)跳躍式地先進(jìn)行粗匹配,若粗匹配結(jié)果在一可接受的閥值以內(nèi)(預(yù)示這一段指紋內(nèi)極有可能有匹配成功),再進(jìn)行上述精細(xì)匹配。這樣,實(shí)際上的最大運(yùn)算量是約N*((L_d)/5+10)*d次的異或與加法運(yùn)算,加上N*((L_d)/5+10)次比較;平均則是N*((L-d)/5+10)*d/2次異或加法,及N*((L-d)/5+10)比較。
[0025]以18個(gè)流、隊(duì)列長度為10秒、待測I秒音頻指紋串為例,則每次匹配搜索的最大計(jì)算量約為18*((1000-100)/5+10)*100 = 342000次異或與加法,與3420次比較。以目前的電腦性能來看,上述運(yùn)算量是非常小的。
[0026]本實(shí)施例的音頻指紋采集模塊110和現(xiàn)場指紋采集模塊310的指紋生成算法是基于已有的音頻指紋生成算法。其原理是將音頻信號進(jìn)行傅立葉變換,再將其各頻段能量進(jìn)行比較后編碼,即生成了指紋。在實(shí)施此算法的過程中,本實(shí)施例的算法在降采樣之前增加了前端降噪處理,以濾除高頻成分,避免采樣增加音樂噪音。
[0027]此外,對于同樣的音頻數(shù)據(jù),分幀時(shí)間點(diǎn)的偏移會(huì)造成指紋某些bit的改變。而待測音頻的分幀位置不可能與生成指紋庫參考指紋的分幀位置完全重合。故偶爾也有指紋搜索失敗的情況。改進(jìn)的方法可以是可以使用兩套指紋庫,其一是從原始音頻信號中提取的指紋,其二是將原始音頻信號偏移4毫秒,從此偏移信號提取的指紋。這樣兩套指紋庫可以增加指紋搜索成功的命中率。
[0028]以上所述實(shí)施例僅表達(dá)了本發(fā)明的個(gè)別實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【主權(quán)項(xiàng)】
1.一種基于音頻指紋的直播流媒體識(shí)別系統(tǒng),其特征在于,包括服務(wù)器端和用戶端,所述服務(wù)器端包括音頻指紋采集模塊、指紋管理模塊和指紋比對模塊,所述用戶端包括現(xiàn)場指紋采集模塊。2.根據(jù)權(quán)利要求1所述的一種基于音頻指紋的直播流媒體識(shí)別系統(tǒng),其特征在于,所述音頻指紋采集模塊用于直播流媒體的音頻信號指紋。3.根據(jù)權(quán)利要求2所述的一種基于音頻指紋的直播流媒體識(shí)別系統(tǒng),其特征在于,所述指紋管理模塊用于保存所述音頻信號指紋。4.根據(jù)權(quán)利要求1所述的一種基于音頻指紋的直播流媒體識(shí)別系統(tǒng),其特征在于,所述現(xiàn)場指紋采集模塊用于頻道播放及接收的現(xiàn)場音頻的指紋。
【專利摘要】本發(fā)明公開了一種基于音頻指紋的直播流媒體識(shí)別系統(tǒng),包括服務(wù)器端和用戶端,服務(wù)器端包括音頻指紋采集模塊、指紋管理模塊和指紋比對模塊,用戶端包括現(xiàn)場指紋采集模塊,這種基于音頻指紋的直播流媒體識(shí)別系統(tǒng),結(jié)構(gòu)簡單,服務(wù)器端與用戶端運(yùn)算量小,識(shí)別率高,節(jié)目信號不必預(yù)先加工處理,抗干擾能力強(qiáng),因此可以在廣播電視播出,網(wǎng)絡(luò)直播等場景下,實(shí)時(shí)識(shí)別終端的播放信號,可以作為內(nèi)容提供者與觀眾的橋梁,也為觀眾喜愛節(jié)目的統(tǒng)計(jì)提供了有效手段。
【IPC分類】H04N21/81, H04N21/258, H04N21/266, H04N21/439, H04N21/442, H04N21/835
【公開號】CN105554590
【申請?zhí)枴緾N201510902809
【發(fā)明人】李宏元, 郭偉偉, 孫彥龍
【申請人】杭州當(dāng)虹科技有限公司
【公開日】2016年5月4日
【申請日】2015年12月10日