專利名稱:音頻指紋檢索方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻處理技術(shù),尤其涉及一種音頻指紋檢索方法及裝置。
背景技術(shù):
音頻指紋(fingerprint)是根據(jù)音頻信號計算出的一組獨特標(biāo)識(如,符號或數(shù))。音頻指紋檢索可以是指:用戶輸入一個音頻片段,將該音頻片段的音頻信號計算所得的音頻指紋提交到網(wǎng)絡(luò)服務(wù)器,網(wǎng)絡(luò)服務(wù)器根據(jù)所述音頻指紋從索引庫內(nèi)獲取所述音頻片段所在音頻文件(如,歌曲)的原始信息,如歌曲的名稱、歌曲的歌手名稱等信息。該音頻指紋檢索技術(shù)可實現(xiàn)錄音后搜索歌曲名、mp3的自動命名和歌詞自動匹配、音視頻排重等有價值的應(yīng)用,尤其在無線互聯(lián)網(wǎng)上將會有更大的產(chǎn)品價值。目前,現(xiàn)有的音頻指紋檢索主要包括以下的兩種方法:第一種方法,將給定音頻文件的音頻信號以一定時間間隔進(jìn)行均勻分幀,并得到所述音頻信號對應(yīng)的一組32bit的整數(shù),即得到所述音頻信號的音頻指紋,并將所述音頻信號的音頻指紋、以及所述音頻信號所對應(yīng)的音頻文件信息對應(yīng)存儲到一個哈希(hash)表中。需要檢索音頻片段所對應(yīng)音頻文件的相關(guān)信息時,首先對所述音頻片段的音頻信號進(jìn)行均勻分幀,并得到該音頻信號對應(yīng)的一組32bit整數(shù),即得到音頻指紋,再基于該音頻指紋從所述hash表中查詢相匹配的音頻文件信息,并對查詢到的音頻文件信息進(jìn)行篩選,最終得到所述音頻片段所對應(yīng)音頻文件的信息。第二種方法:對一些音頻文件的音頻信號以一定時間間隔隨機(jī)提取其11.6*w毫秒窗長的頻譜圖。對每一幀的頻譜圖,計算頻譜圖的小波變換、保留小波變換所得到的、能量最高的top-t個小波系數(shù)、用二進(jìn)制表示所保留下來的小波系數(shù)、用最小哈希(min-hash)將二進(jìn)制變換后的小波系數(shù)變換成一組音頻指紋,用位置敏感哈希(LocalitySensitive Hashing)方法將所述音頻指紋分成b塊(bin),并將所述b塊音頻指紋、與所對應(yīng)的音頻文件信息對應(yīng)存儲到N個哈希表中,其中,b為不小于I的整數(shù),N為不小于I的整數(shù)。需要檢索用戶輸入的音頻片段所對應(yīng)音頻文件的相關(guān)信息時,首先得到所述音頻片段的音頻信號對應(yīng)的音頻指紋,再從所述N個哈希表中找到與所述音頻指紋近似匹配的音頻文件信息,對找到的音頻文件信息進(jìn)行篩選后,用動態(tài)規(guī)劃算法在時間軸上合并篩選后的音頻文件信息,最后得到與用戶所輸入音頻片段相對應(yīng)的音頻文件信息。上述兩種方法的共同之處是在存儲時都進(jìn)行了均勻的分幀處理。而分幀的時間間隔與存儲的空間大小直接相關(guān)。例如,分別以5暈秒和500暈秒為時間間隔,前后存儲空間相差100倍,原因是前者的片段數(shù)是后者的100倍。如果將音頻指紋檢索應(yīng)用于在線搜索,耗費的存儲空間便會是內(nèi)存。一般來說,搜索引擎收錄的音頻文件數(shù)量巨大,如果應(yīng)用上述的兩種方法,音頻指紋檢索將會消耗過大的內(nèi)存和過多的查找時間,檢索效率低。如果將分幀的時間間隔定得比較長,時間間隔會相應(yīng)增加,檢索時能夠取得的原始音頻文件的音頻片段會較長,相應(yīng)的,也就需要用戶輸入更長的音頻片段才能夠進(jìn)行檢索,如此,在音頻片段查詢時準(zhǔn)確率就會降低,檢索中的匹配處理過程中也會消耗比較長的時間,而且還不利于用戶的操作、影響用戶體驗。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種音頻指紋檢索方法及裝置,能夠在保證音頻指紋檢索準(zhǔn)確率的前提下,解決現(xiàn)有音頻指紋檢索方法消耗過大內(nèi)存和過多時間、以及檢索效率低的問題。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:本發(fā)明提供了一種音頻指紋檢索方法,所述方法包括:對音頻片段的音頻信號進(jìn)行分幀處理;通過起始點檢測算法(ODF)確定所述分幀處理所得到的各分幀中的關(guān)鍵幀;得到所述關(guān)鍵幀的音頻指紋,并根據(jù)所得到的音頻指紋進(jìn)行檢索,得到對應(yīng)所述音頻片段的音頻文件信息。在上述方案中,所述通過起始點檢測算法確定所述音頻信號各分幀中的關(guān)鍵幀,包括:對所述分幀處理后得到的各分幀進(jìn)行快速傅氏變換(FFT),并提取所述各分幀的ODF特征參數(shù),根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀。 在上述方案中,所述根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀,具體為:將所述ODF特征參數(shù)滿足預(yù)設(shè)ODF閾值條件的分幀確定為關(guān)鍵幀。在上述方案中,所述提取所述各分幀的ODF特征參數(shù),通過如下的任意一種或多種算法實現(xiàn):能量算法、差分相位算法、高頻分量算法、改進(jìn)的庫爾貝克和萊伯勒散度算法、美爾倒譜系數(shù)、線譜對和加權(quán)相位差分。在上述方案中,所述得到所述關(guān)鍵幀的音頻指紋,具體為:基于離散余弦變換(DCT)和最小哈希算法得到所述關(guān)鍵幀的音頻指紋。在上述方案中,所述基于DCT和最小哈希算法得到所述關(guān)鍵幀的音頻指紋,包括:對所述關(guān)鍵幀進(jìn)行短時的DCT,并保留部分DCT系數(shù);將所保留的DCT系數(shù)采用二進(jìn)制表示;采用最小哈希算法將采用二進(jìn)制表示的DCT系數(shù)轉(zhuǎn)換為音頻指紋。本發(fā)明還提供了一種音頻指紋存儲方法,所述方法包括:對音頻文件的音頻信號進(jìn)行分幀處理;通過ODF確定所述音頻信號各分幀中的關(guān)鍵幀;得到所述關(guān)鍵幀的音頻指紋;將所述音頻指紋與所述音頻文件的信息對應(yīng)保存。本發(fā)明還提供了一種音頻指紋檢索裝置,所述裝置包括:分幀處理單元、確定單元和檢索單元,其中:分幀處理單元,用于對音頻片段的音頻信號進(jìn)行分幀處理;確定單元,用于通過ODF確定所述分幀處理單元所得到的各分幀中的關(guān)鍵幀;檢索單元,用于得到所述確定單元所確定的關(guān)鍵幀的音頻指紋,并根據(jù)所得到的音頻指紋進(jìn)行檢索,得到對應(yīng)所述音頻片段的音頻文件信息。在上述方案中,所述確定單元,具體用于:對所述分幀處理處理單元得到的各分幀進(jìn)行FFT,并提取所述各分幀的ODF特征參數(shù),根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵中貞。在上述方案中,所述檢索單元,還用于基于DCT和最小哈希算法得到所述關(guān)鍵幀的音頻指紋。本發(fā)明還提供了一種音頻指紋存儲裝置,所述裝置包括:分幀處理單元、確定單元、存儲單元,其中,分幀處理單元,用于對音頻文件的音頻信號進(jìn)行分幀處理;確定單元,用于通過ODF確定所述分幀處理單元所得到各分幀中的關(guān)鍵幀;存儲單元,用于得到所述確定單元所確定關(guān)鍵幀的音頻指紋,并將所述音頻指紋與所述音頻文件的信息對應(yīng)保存。本發(fā)明通過ODF確定音頻信號的分幀中的關(guān)鍵幀,基于該關(guān)鍵幀進(jìn)行音頻指紋存儲、以及音頻指紋檢索,如此,只需要基于音頻信號的關(guān)鍵幀進(jìn)行音頻指紋檢索,在存儲時也只需基于音頻信號的關(guān)鍵幀的音頻指紋進(jìn)行,從而大大減少音頻檢索所消耗的內(nèi)存,并且音頻檢索時的耗時也會大大減少,在保證音頻指紋檢索準(zhǔn)確率的前提下,提高了檢索效率。此外,本發(fā)明通過DCT得到音頻指紋,能夠針對音頻信號在時間軸上的特點進(jìn)行音頻指紋計算,如此,大幅度提升音頻指紋的抗噪性,且無需增加音頻指紋的存儲空間。
圖1為本發(fā)明音頻指紋檢索方法的實現(xiàn)流程圖;圖2為10秒音頻信號的譜能量特征分布圖;圖3為本發(fā)明ODF的實現(xiàn)過程示意圖;圖4為本發(fā)明實施例一中音頻指紋存儲過程的實現(xiàn)示意圖;圖5為本發(fā)明實施例一中音頻指紋檢索過程的實現(xiàn)示意圖。
具體實施例方式本發(fā)明實施例在根據(jù)音頻片段的音頻信號,查詢相應(yīng)的音頻文件信息時,對所述音頻片段的音頻信號進(jìn)行分幀后,基于起始點檢測算法確定關(guān)鍵幀,提取關(guān)鍵幀的音頻指紋;根據(jù)所述關(guān)鍵幀的音頻指紋,查詢到與所輸入音頻片段相關(guān)的音頻文件信息,如此,只需要基于音頻信號的關(guān)鍵幀進(jìn)行音頻指紋檢索,在存儲時也只需基于音頻信號的關(guān)鍵幀的音頻指紋進(jìn)行,從而大大減少音頻檢索所消耗的內(nèi)存,并且音頻檢索時的耗時也會大大減少,在保證音頻指紋檢索準(zhǔn)確率的前提下,提高了檢索效率。本發(fā)明的一種音頻指紋檢索方法,參照圖1所示,主要可以包括如下步驟:步驟101:對音頻片段的音頻信號進(jìn)行分幀;具體地,可以以ts秒/N(N為正整數(shù))的時間間隔對音頻信號進(jìn)行分幀處理,這里,t可以根據(jù)實際應(yīng)用需要預(yù)先設(shè)置。經(jīng)過分幀處理后得到的分幀可以是分幀頻譜圖。步驟102:通過起始點檢測算法(ODF, onset detection function)確定所述音頻信號各分幀中的關(guān)鍵幀;步驟103:得到所述關(guān)鍵幀的音頻指紋,并根據(jù)所得到的音頻指紋進(jìn)行檢索,得到對應(yīng)所述音頻片段的音頻文件信息。相應(yīng)的,本發(fā)明還提供了一種音頻指紋存儲方法,所述方法包括:對音頻文件的音頻信號進(jìn)行分幀處理;通過ODF確定所述音頻信號各分幀中的關(guān)鍵幀;得到所述關(guān)鍵幀的音頻指紋;將所述音頻指紋與所述音頻文件的信息對應(yīng)保存。實際應(yīng)用中,音頻信號是一種短時信號,通俗的說就是在小時間單位(比如20毫秒)內(nèi)信號在頻域上變化不大。隨著時間的變化,音頻信號的變化會逐漸加大,例如對于歌曲的音頻信號,歌手的演唱歌詞的改變或又是歌曲配樂的變化等,因此,音頻信號會在時間軸上呈不均勻變化,如圖2所示,由于音頻信號本身在時間軸上存在著這種不均衡性,可以選取音頻信號的關(guān)鍵幀,即音頻信號中能量最集中變化最劇烈的幀進(jìn)行音頻指紋檢索,選取音頻信號關(guān)鍵幀的處理過程稱為ODF。具體地,如圖3所示,對輸入的音頻信號進(jìn)行分幀處理后,ODF的具體實現(xiàn)流程可以包括:對分幀處理后得到的分幀進(jìn)行快速傅氏變換(FFT,F(xiàn)ast FourierTransformation),并從所述各分巾貞中提取ODF所需的ODF特征參數(shù),根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀。具體地,可以將所述ODF特征參數(shù)滿足預(yù)設(shè)的ODF閾值條件的分幀確定為關(guān)鍵幀。這里,所述ODF閾值條件具體可以是不低于預(yù)設(shè)的ODF閾值,也可以根據(jù)實際應(yīng)用的需要進(jìn)行設(shè)置;0DF閾值與所述ODF特征參數(shù)相對應(yīng),可以包含所述ODF特征參數(shù)的取值閾值和/或分幀的時間閾值。例如,圖2中能量為"le7"的位置所在平行于時間軸的橫線表示ODF閾值條件,圖2中高于該橫線的所有分幀為關(guān)鍵幀,具體為圖2中黑點所標(biāo)記的點。這里,從所述各分幀中提取ODF所需的ODF特征參數(shù),可以采用如下的任意一個或多個算法實現(xiàn):能量算法、差分相位算法、高頻分量(HFC, High-frequency Content)算法、改進(jìn)的庫爾貝克和萊伯勒散度(Modified Kullback-Leibler divergence)算法、美爾倒譜系數(shù)(MFCC, Mel Frequency Cepstrum Coefficient)、線譜對(LSP, Linear SpectralPair)和加權(quán)相位差分(WPD, Weighted Phase Deviation)等?;谏鲜鯫DF特征參數(shù)的ODF能保證一定的準(zhǔn)確率,且計算量相對較小,能滿足實時檢測應(yīng)用的需求。其中,得到所述關(guān)鍵幀的音頻指紋可以為:基于離散余弦變換(DCT,DiscreteCosine Transform)和最小哈希算法得到所述關(guān)鍵巾貞的音頻指紋。具體地,對所述關(guān)鍵幀進(jìn)行短時的DCT,并保留部分DCT系數(shù),將所保留的DCT系數(shù)采用二進(jìn)制表示,采用最小哈希算法將采用二進(jìn)制表示的DCT系數(shù)轉(zhuǎn)換為音頻指紋。例如,在對DCT系數(shù)按照從大到小排序后,保留前N個DCT系數(shù),這里的N可以根據(jù)實際需要確定,N為大于零的整數(shù)。相應(yīng)的,本發(fā)明還提供了一種音頻指紋檢索裝置,所述裝置包括:分幀處理單元、確定單元和檢索單元,其中:分幀處理單元,用于對音頻片段的音頻信號進(jìn)行分幀處理;確定單元,用于通過ODF確定所述分幀處理單元所得到各分幀中的關(guān)鍵幀;檢索單元,用于得到所述確定單元所確定關(guān)鍵幀的音頻指紋,并根據(jù)所得到的音頻指紋進(jìn)行檢索,得到對應(yīng)所述音頻片段的音頻文件信息。其中,所述確定單元,具體可以用于:對所述分幀處理處理單元得到的各分幀進(jìn)行FFT,并提取所述各分幀的ODF特征參數(shù),根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀。其中,所述檢索單元,還用于基于DCT和最小哈希算法得到所述關(guān)鍵幀的音頻指紋。本發(fā)明還提供了一種音頻指紋存儲裝置,所述裝置包括:存儲單元和上述的分幀處理單元和確定單元,其中,存儲單元,用于得到所述確定單元所確定關(guān)鍵幀的音頻指紋,并將所述音頻指紋與所述音頻文件的信息對應(yīng)保存。這里,所述分幀處理單元,具體用于對給定音頻文件的音頻信號進(jìn)行分幀處理。所述存儲單元,也可以用于基于DCT和最小哈希算法得到所述關(guān)鍵幀的音頻指紋。
實施例一本實施例中,以歌曲為例,對音頻指紋的檢索過程做詳細(xì)說明。具體地,首先將歌曲的音頻指紋和歌曲信息對應(yīng)存儲到哈希表中,需要進(jìn)行音頻指紋檢索時,用戶輸入音頻片段,基于該音頻片段的音頻信號得到音頻指紋,再根據(jù)該音頻指紋從所述哈希表中查詢對應(yīng)的歌曲信息,得到包含所述音頻片段的歌曲信息。如圖4所示,將一整首歌曲的音頻指紋和歌曲信息進(jìn)行存儲的過程,具體可以包括如下步驟:步驟1:對給定的整首歌曲的音頻信號,平均以d/N毫秒時間隨機(jī)提取其11.6*w毫秒窗長的頻譜圖,得到分幀頻譜圖;步驟2:通過起始點檢測算法檢測各分幀頻譜圖是否對應(yīng)關(guān)鍵幀,將對應(yīng)關(guān)鍵幀的分幀頻譜圖保留,拋棄不是對應(yīng)關(guān)鍵幀的分幀頻譜圖;步驟3:對于所保留的各分幀頻譜圖進(jìn)行處理,得到各分幀頻譜圖的音頻指紋;具體地,對于分幀頻譜圖進(jìn)行如下處理,得到其音頻指紋:對分幀頻譜圖進(jìn)行短時的離散余弦變換(DCT, Discrete Cosine Transform),保留主要的DCT系數(shù);將所保留的DCT系數(shù)采用二進(jìn)制表示;采用最小哈希算法將采用二進(jìn)制表示的DCT系數(shù)轉(zhuǎn)換為音頻指紋。這里,所述保留主要的DCT系數(shù),為:將所有DCT系數(shù)按大小排序后,保留前N (N為大于O的整數(shù))個DCT系數(shù),例如,可以保留前20個DCT系統(tǒng)。步驟4:對于提取到的音頻指紋:用位置敏感哈希方法將各音頻指紋分為b塊音頻子指紋,并將所述b塊音頻子指紋分別存儲到M個哈希子表中。如圖4所示的“ ABCDEFGHIJKLMNOPQRSTUVWXY ”表示提取得到的一個音頻指紋,“AB⑶E”、“EFGHI”........“UVWXY”分別表示由分割一個音頻指紋后得到的音頻子指紋。如圖4所示,將所述b塊音頻子指紋分別存儲到M個哈希子表中時,將音頻子指
紋“AB⑶E ”、“EFGHI ”、......、“UVffXY”與對應(yīng)的歌曲信息分別對應(yīng)存儲到哈希表1、哈希表
2、......、哈希表M中。其中,各哈希表中的7、12、50、92、102、302均表示歌曲信息,例如,
可以分別表示歌曲的ID。如圖5所示,需要進(jìn)行音頻檢索時,根據(jù)用戶輸入的音頻片段進(jìn)行音頻檢索的過程,具體可以包括如下步驟:步驟1:對用戶所輸入音頻片段的音頻信號,平均以d/N毫秒時間隨機(jī)提取其
11.6*w毫秒窗長的頻譜圖,得到分幀頻譜圖;步驟2:通過起始點檢測算法檢測所得到的各分幀頻譜圖是否對應(yīng)關(guān)鍵幀,將對應(yīng)關(guān)鍵幀的分幀頻譜圖保留,拋棄不是對應(yīng)關(guān)鍵幀的分幀頻譜圖;步驟3:對于所保留的各分幀頻譜圖進(jìn)行處理,得到各分幀頻譜圖的音頻指紋;具體地,對于分幀頻譜圖進(jìn)行如下處理,得到其音頻指紋:對分幀頻譜圖進(jìn)行短時的離散余弦變換(DCT, Discrete Cosine Transform),保留主要的DCT系數(shù);將所保留的DCT系數(shù)采用二進(jìn)制表示;采用最小哈希算法將采用二進(jìn)制表示的DCT系數(shù)轉(zhuǎn)換為音頻指紋。步驟4:對于所得到的各音頻指紋,用位置敏感哈希方法將各音頻指紋分為m塊(m為正整數(shù))音頻子指紋,得到各音頻指紋的音頻子指紋組,并分別從所述M個哈希子表中,查詢與所述音頻子指紋組中各音頻子指紋近似匹配的音頻子指紋,得到各音頻子指紋組的近似匹配音頻子指紋組;這里,從M個哈希子表中查詢與一個音頻子指紋的近似匹配音頻子指紋具體為:從M個哈希字表中查詢有一個或多個維度的取值、與所述音頻子指紋的對應(yīng)維度的取值相同的音頻子指紋,放棄維度匹配次數(shù)小于預(yù)設(shè)的匹配閾值V的音頻子指紋,所保留的即為與所述音頻子指紋近似匹配的音頻子指紋。如圖5所示,“abcdefghi jklmnopqrstuvwxy”表示提取得到的一個音頻指紋,
“abcde”、“efghi”、......、“uvwxy”分別表示由分割一個音頻指紋后得到的音頻子指紋。
音頻文件的信息7、12、50、92、102、302所對應(yīng)的音頻子指紋與所述音頻子指紋的匹配次數(shù)分別為1、1、1、3、2、1。當(dāng)前預(yù)設(shè)的匹配閾值V為2,則音頻文件信息92、102所對應(yīng)的音頻子指紋為要查詢的近似匹配音頻子指紋。其中,音頻子指紋一般為一組向量,即多維數(shù)組,例如,音頻子指紋為25維的數(shù)組時,如果設(shè)置匹配閾值V為5,則兩個音頻子指紋之間有5維數(shù)組相同時,則認(rèn)為該兩個音頻子指紋之間近似匹配。步驟5:對于所得到的各近似匹配音頻子指紋組:根據(jù)所述近似匹配音頻子指紋與所述各音頻子指紋的哈明距離(Hamming distance),計算出匹配誤差,根據(jù)匹配誤差,查詢得到精確匹配音頻子指紋,得到精確匹配音頻子指紋組;如圖5所示,分別計算音頻文件信息92、102所對應(yīng)的音頻子指紋對應(yīng)的匹配誤差,如果音頻文件信息92對應(yīng)的匹配誤差較小,則將音頻文件信息92對應(yīng)的音頻子指紋作為精確匹配音頻子指紋。步驟6:將與所述精確匹配音頻子指紋組對應(yīng)的歌曲信息,用動態(tài)規(guī)劃算法或直線檢測算法在時間軸上合并所查詢到的歌曲信息后,得到包含有用戶所輸入音頻片段的歌曲信息并輸出,如圖5所示的92。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種音頻指紋檢索方法,其特征在于,所述方法包括: 對音頻片段的音頻信號進(jìn)行分幀處理; 通過起始點檢測算法(ODF)確定所述分幀處理所得到的各分幀中的關(guān)鍵幀; 得到所述關(guān)鍵幀的音頻指紋,并根據(jù)所得到的音頻指紋進(jìn)行檢索,得到對應(yīng)所述音頻片段的音頻文件信息。
2.根據(jù)權(quán)利要求1所述音頻指紋檢索方法,其特征在于,所述通過起始點檢測算法確定所述音頻信號各分幀中的關(guān)鍵幀,包括: 對所述分幀處理后得到的各分幀進(jìn)行快速傅氏變換(FFT),并提取所述各分幀的ODF特征參數(shù),根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀。
3.根據(jù)權(quán)利要求2所述音頻指紋檢索方法,其特征在于,所述根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀,具體為: 將所述ODF特征參數(shù)滿足預(yù)設(shè)ODF閾值條件的分幀確定為關(guān)鍵幀。
4.根據(jù)權(quán)利要求2或3所述音頻指紋檢索方法,其特征在于,所述提取所述各分幀的ODF特征參數(shù),通過如下的任意一種或多種算法實現(xiàn): 能量算法、差分相位算法、高頻分量算法、改進(jìn)的庫爾貝克和萊伯勒散度算法、美爾倒譜系數(shù)、線譜對和加權(quán)相位差分。
5.根據(jù)權(quán)利要求1所述音頻指紋檢索方法,其特征在于,所述得到所述關(guān)鍵幀的音頻指紋,具體為: 基于離散余弦變換(DCT)和最小哈希算法得到所述關(guān)鍵幀的音頻指紋。
6.根據(jù)權(quán)利要求5所述音頻指紋檢索方法,其特征在于,所述基于DCT和最小哈希算法得到所述關(guān)鍵巾貞的音頻指紋,包括: 對所述關(guān)鍵幀進(jìn)行短時的DCT,并保留部分DCT系數(shù); 將所保留的DCT系數(shù)采用二進(jìn)制表示; 采用最小哈希算法將采用二進(jìn)制表示的DCT系數(shù)轉(zhuǎn)換為音頻指紋。
7.一種音頻指紋存儲方法,其特征在于,所述方法包括: 對音頻文件的音頻信號進(jìn)行分幀處理; 通過ODF確定所述音頻信號各分幀中的關(guān)鍵幀; 得到所述關(guān)鍵巾貞的首頻指紋; 將所述音頻指紋與所述音頻文件的信息對應(yīng)保存。
8.一種音頻指紋檢索裝置,其特征在于,所述裝置包括:分幀處理單元、確定單元和檢索單元,其中: 分幀處理單元,用于對音頻片段的音頻信號進(jìn)行分幀處理; 確定單元,用于通過ODF確定所述分幀處理單元所得到的各分幀中的關(guān)鍵幀; 檢索單元,用于得到所述確定單元所確定的關(guān)鍵幀的音頻指紋,并根據(jù)所得到的音頻指紋進(jìn)行檢索,得到對應(yīng)所述音頻片段的音頻文件信息。
9.根據(jù)權(quán)利要求8所述音頻指紋檢索裝置,其特征在于,所述確定單元,具體用于: 對所述分幀處理處理單元得到的各分幀進(jìn)行FFT,并提取所述各分幀的ODF特征參數(shù),根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀。
10.根據(jù)權(quán)利要求8所述音頻指紋檢索裝置,其特征在于,所述檢索單元,還用于基于DCT和最小哈希算法得到所述關(guān)鍵幀的音頻指紋。
11.一種音頻指紋存儲裝置,其特征在于,所述裝置包括:分幀處理單元、確定單元、存儲單元,其中, 分幀處理單元,用于對音頻文件的音頻信號進(jìn)行分幀處理; 確定單元,用于通過ODF確定所述分幀處理單元所得到各分幀中的關(guān)鍵幀; 存儲單元,用于得到所述確定單元所確定關(guān)鍵幀的音頻指紋,并將所述音頻指紋與所述音頻文件的信息對應(yīng)保存 。
全文摘要
本發(fā)明公開了一種音頻指紋檢索方法及裝置,所述方法包括對音頻片段的音頻信號進(jìn)行分幀處理;通過起始點檢測算法(ODF)確定所述分幀處理所得到各分幀中的關(guān)鍵幀;得到所述關(guān)鍵幀的音頻指紋,并根據(jù)所得到的音頻指紋進(jìn)行檢索,得到對應(yīng)所述音頻片段的音頻文件信息。相應(yīng)的,本發(fā)明還公開了一種音頻指紋存儲方法及裝置,能夠大大減少音頻檢索所消耗的內(nèi)存,并且音頻檢索耗時也會大大減少,在保證音頻指紋檢索準(zhǔn)確率的前提下,提高了檢索效率。
文檔編號G06F17/30GK103093761SQ20111034009
公開日2013年5月8日 申請日期2011年11月1日 優(yōu)先權(quán)日2011年11月1日
發(fā)明者易立夫, 張遠(yuǎn)濤 申請人:騰訊科技(深圳)有限公司