音頻指紋檢索方法及裝置的制作方法

文檔序號：6437105閱讀：341來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：音頻指紋檢索方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及音頻處理技術(shù)，尤其涉及一種音頻指紋檢索方法及裝置。
背景技術(shù)：
音頻指紋(fingerprint)是根據(jù)音頻信號計算出的一組獨特標(biāo)識(如，符號或數(shù))。音頻指紋檢索可以是指:用戶輸入一個音頻片段，將該音頻片段的音頻信號計算所得的音頻指紋提交到網(wǎng)絡(luò)服務(wù)器，網(wǎng)絡(luò)服務(wù)器根據(jù)所述音頻指紋從索引庫內(nèi)獲取所述音頻片段所在音頻文件(如，歌曲)的原始信息，如歌曲的名稱、歌曲的歌手名稱等信息。該音頻指紋檢索技術(shù)可實現(xiàn)錄音后搜索歌曲名、mp3的自動命名和歌詞自動匹配、音視頻排重等有價值的應(yīng)用，尤其在無線互聯(lián)網(wǎng)上將會有更大的產(chǎn)品價值。目前，現(xiàn)有的音頻指紋檢索主要包括以下的兩種方法:第一種方法，將給定音頻文件的音頻信號以一定時間間隔進(jìn)行均勻分幀，并得到所述音頻信號對應(yīng)的一組32bit的整數(shù)，即得到所述音頻信號的音頻指紋，并將所述音頻信號的音頻指紋、以及所述音頻信號所對應(yīng)的音頻文件信息對應(yīng)存儲到一個哈希(hash)表中。需要檢索音頻片段所對應(yīng)音頻文件的相關(guān)信息時，首先對所述音頻片段的音頻信號進(jìn)行均勻分幀，并得到該音頻信號對應(yīng)的一組32bit整數(shù)，即得到音頻指紋，再基于該音頻指紋從所述hash表中查詢相匹配的音頻文件信息，并對查詢到的音頻文件信息進(jìn)行篩選，最終得到所述音頻片段所對應(yīng)音頻文件的信息。第二種方法:對一些音頻文件的音頻信號以一定時間間隔隨機(jī)提取其11.6*w毫秒窗長的頻譜圖。對每一幀的頻譜圖，計算頻譜圖的小波變換、保留小波變換所得到的、能量最高的top-t個小波系數(shù)、用二進(jìn)制表示所保留下來的小波系數(shù)、用最小哈希(min-hash)將二進(jìn)制變換后的小波系數(shù)變換成一組音頻指紋,用位置敏感哈希(LocalitySensitive Hashing)方法將所述音頻指紋分成b塊(bin),并將所述b塊音頻指紋、與所對應(yīng)的音頻文件信息對應(yīng)存儲到N個哈希表中，其中，b為不小于I的整數(shù)，N為不小于I的整數(shù)。需要檢索用戶輸入的音頻片段所對應(yīng)音頻文件的相關(guān)信息時，首先得到所述音頻片段的音頻信號對應(yīng)的音頻指紋，再從所述N個哈希表中找到與所述音頻指紋近似匹配的音頻文件信息，對找到的音頻文件信息進(jìn)行篩選后，用動態(tài)規(guī)劃算法在時間軸上合并篩選后的音頻文件信息，最后得到與用戶所輸入音頻片段相對應(yīng)的音頻文件信息。上述兩種方法的共同之處是在存儲時都進(jìn)行了均勻的分幀處理。而分幀的時間間隔與存儲的空間大小直接相關(guān)。例如，分別以5暈秒和500暈秒為時間間隔,前后存儲空間相差100倍，原因是前者的片段數(shù)是后者的100倍。如果將音頻指紋檢索應(yīng)用于在線搜索，耗費的存儲空間便會是內(nèi)存。一般來說，搜索引擎收錄的音頻文件數(shù)量巨大，如果應(yīng)用上述的兩種方法，音頻指紋檢索將會消耗過大的內(nèi)存和過多的查找時間，檢索效率低。如果將分幀的時間間隔定得比較長，時間間隔會相應(yīng)增加，檢索時能夠取得的原始音頻文件的音頻片段會較長，相應(yīng)的，也就需要用戶輸入更長的音頻片段才能夠進(jìn)行檢索，如此，在音頻片段查詢時準(zhǔn)確率就會降低，檢索中的匹配處理過程中也會消耗比較長的時間，而且還不利于用戶的操作、影響用戶體驗。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明的主要目的在于提供一種音頻指紋檢索方法及裝置，能夠在保證音頻指紋檢索準(zhǔn)確率的前提下，解決現(xiàn)有音頻指紋檢索方法消耗過大內(nèi)存和過多時間、以及檢索效率低的問題。為達(dá)到上述目的，本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:本發(fā)明提供了一種音頻指紋檢索方法，所述方法包括:對音頻片段的音頻信號進(jìn)行分幀處理；通過起始點檢測算法(ODF)確定所述分幀處理所得到的各分幀中的關(guān)鍵幀；得到所述關(guān)鍵幀的音頻指紋，并根據(jù)所得到的音頻指紋進(jìn)行檢索，得到對應(yīng)所述音頻片段的音頻文件信息。在上述方案中，所述通過起始點檢測算法確定所述音頻信號各分幀中的關(guān)鍵幀，包括:對所述分幀處理后得到的各分幀進(jìn)行快速傅氏變換(FFT)，并提取所述各分幀的ODF特征參數(shù)，根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀。在上述方案中，所述根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀，具體為:將所述ODF特征參數(shù)滿足預(yù)設(shè)ODF閾值條件的分幀確定為關(guān)鍵幀。在上述方案中，所述提取所述各分幀的ODF特征參數(shù)，通過如下的任意一種或多種算法實現(xiàn):能量算法、差分相位算法、高頻分量算法、改進(jìn)的庫爾貝克和萊伯勒散度算法、美爾倒譜系數(shù)、線譜對和加權(quán)相位差分。在上述方案中，所述得到所述關(guān)鍵幀的音頻指紋，具體為:基于離散余弦變換(DCT)和最小哈希算法得到所述關(guān)鍵幀的音頻指紋。在上述方案中，所述基于DCT和最小哈希算法得到所述關(guān)鍵幀的音頻指紋，包括:對所述關(guān)鍵幀進(jìn)行短時的DCT，并保留部分DCT系數(shù)；將所保留的DCT系數(shù)采用二進(jìn)制表示；采用最小哈希算法將采用二進(jìn)制表示的DCT系數(shù)轉(zhuǎn)換為音頻指紋。本發(fā)明還提供了一種音頻指紋存儲方法，所述方法包括:對音頻文件的音頻信號進(jìn)行分幀處理；通過ODF確定所述音頻信號各分幀中的關(guān)鍵幀；得到所述關(guān)鍵幀的音頻指紋；將所述音頻指紋與所述音頻文件的信息對應(yīng)保存。本發(fā)明還提供了一種音頻指紋檢索裝置，所述裝置包括:分幀處理單元、確定單元和檢索單元，其中:分幀處理單元，用于對音頻片段的音頻信號進(jìn)行分幀處理；確定單元，用于通過ODF確定所述分幀處理單元所得到的各分幀中的關(guān)鍵幀；檢索單元，用于得到所述確定單元所確定的關(guān)鍵幀的音頻指紋，并根據(jù)所得到的音頻指紋進(jìn)行檢索，得到對應(yīng)所述音頻片段的音頻文件信息。在上述方案中，所述確定單元，具體用于:對所述分幀處理處理單元得到的各分幀進(jìn)行FFT，并提取所述各分幀的ODF特征參數(shù)，根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵中貞。在上述方案中，所述檢索單元，還用于基于DCT和最小哈希算法得到所述關(guān)鍵幀的音頻指紋。本發(fā)明還提供了一種音頻指紋存儲裝置，所述裝置包括:分幀處理單元、確定單元、存儲單元，其中，分幀處理單元，用于對音頻文件的音頻信號進(jìn)行分幀處理；確定單元，用于通過ODF確定所述分幀處理單元所得到各分幀中的關(guān)鍵幀；存儲單元，用于得到所述確定單元所確定關(guān)鍵幀的音頻指紋，并將所述音頻指紋與所述音頻文件的信息對應(yīng)保存。本發(fā)明通過ODF確定音頻信號的分幀中的關(guān)鍵幀，基于該關(guān)鍵幀進(jìn)行音頻指紋存儲、以及音頻指紋檢索，如此，只需要基于音頻信號的關(guān)鍵幀進(jìn)行音頻指紋檢索，在存儲時也只需基于音頻信號的關(guān)鍵幀的音頻指紋進(jìn)行，從而大大減少音頻檢索所消耗的內(nèi)存，并且音頻檢索時的耗時也會大大減少，在保證音頻指紋檢索準(zhǔn)確率的前提下，提高了檢索效率。此外，本發(fā)明通過DCT得到音頻指紋，能夠針對音頻信號在時間軸上的特點進(jìn)行音頻指紋計算，如此，大幅度提升音頻指紋的抗噪性，且無需增加音頻指紋的存儲空間。

圖1為本發(fā)明音頻指紋檢索方法的實現(xiàn)流程圖；圖2為10秒音頻信號的譜能量特征分布圖；圖3為本發(fā)明ODF的實現(xiàn)過程示意圖；圖4為本發(fā)明實施例一中音頻指紋存儲過程的實現(xiàn)示意圖；圖5為本發(fā)明實施例一中音頻指紋檢索過程的實現(xiàn)示意圖。
具體實施例方式本發(fā)明實施例在根據(jù)音頻片段的音頻信號，查詢相應(yīng)的音頻文件信息時，對所述音頻片段的音頻信號進(jìn)行分幀后，基于起始點檢測算法確定關(guān)鍵幀，提取關(guān)鍵幀的音頻指紋；根據(jù)所述關(guān)鍵幀的音頻指紋，查詢到與所輸入音頻片段相關(guān)的音頻文件信息，如此，只需要基于音頻信號的關(guān)鍵幀進(jìn)行音頻指紋檢索，在存儲時也只需基于音頻信號的關(guān)鍵幀的音頻指紋進(jìn)行，從而大大減少音頻檢索所消耗的內(nèi)存，并且音頻檢索時的耗時也會大大減少，在保證音頻指紋檢索準(zhǔn)確率的前提下，提高了檢索效率。本發(fā)明的一種音頻指紋檢索方法，參照圖1所示，主要可以包括如下步驟:步驟101:對音頻片段的音頻信號進(jìn)行分幀；具體地，可以以ts秒/N(N為正整數(shù))的時間間隔對音頻信號進(jìn)行分幀處理，這里，t可以根據(jù)實際應(yīng)用需要預(yù)先設(shè)置。經(jīng)過分幀處理后得到的分幀可以是分幀頻譜圖。步驟102:通過起始點檢測算法(ODF, onset detection function)確定所述音頻信號各分幀中的關(guān)鍵幀；步驟103:得到所述關(guān)鍵幀的音頻指紋，并根據(jù)所得到的音頻指紋進(jìn)行檢索，得到對應(yīng)所述音頻片段的音頻文件信息。相應(yīng)的，本發(fā)明還提供了一種音頻指紋存儲方法，所述方法包括:對音頻文件的音頻信號進(jìn)行分幀處理；通過ODF確定所述音頻信號各分幀中的關(guān)鍵幀；得到所述關(guān)鍵幀的音頻指紋；將所述音頻指紋與所述音頻文件的信息對應(yīng)保存。實際應(yīng)用中，音頻信號是一種短時信號，通俗的說就是在小時間單位(比如20毫秒)內(nèi)信號在頻域上變化不大。隨著時間的變化，音頻信號的變化會逐漸加大，例如對于歌曲的音頻信號，歌手的演唱歌詞的改變或又是歌曲配樂的變化等，因此，音頻信號會在時間軸上呈不均勻變化，如圖2所示，由于音頻信號本身在時間軸上存在著這種不均衡性，可以選取音頻信號的關(guān)鍵幀，即音頻信號中能量最集中變化最劇烈的幀進(jìn)行音頻指紋檢索，選取音頻信號關(guān)鍵幀的處理過程稱為ODF。具體地，如圖3所示，對輸入的音頻信號進(jìn)行分幀處理后，ODF的具體實現(xiàn)流程可以包括:對分幀處理后得到的分幀進(jìn)行快速傅氏變換(FFT，F(xiàn)ast FourierTransformation),并從所述各分巾貞中提取ODF所需的ODF特征參數(shù),根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀。具體地，可以將所述ODF特征參數(shù)滿足預(yù)設(shè)的ODF閾值條件的分幀確定為關(guān)鍵幀。這里，所述ODF閾值條件具體可以是不低于預(yù)設(shè)的ODF閾值，也可以根據(jù)實際應(yīng)用的需要進(jìn)行設(shè)置；0DF閾值與所述ODF特征參數(shù)相對應(yīng)，可以包含所述ODF特征參數(shù)的取值閾值和/或分幀的時間閾值。例如，圖2中能量為"le7"的位置所在平行于時間軸的橫線表示ODF閾值條件，圖2中高于該橫線的所有分幀為關(guān)鍵幀，具體為圖2中黑點所標(biāo)記的點。這里，從所述各分幀中提取ODF所需的ODF特征參數(shù)，可以采用如下的任意一個或多個算法實現(xiàn):能量算法、差分相位算法、高頻分量(HFC, High-frequency Content)算法、改進(jìn)的庫爾貝克和萊伯勒散度(Modified Kullback-Leibler divergence)算法、美爾倒譜系數(shù)(MFCC, Mel Frequency Cepstrum Coefficient)、線譜對(LSP, Linear SpectralPair)和加權(quán)相位差分(WPD, Weighted Phase Deviation)等?；谏鲜鯫DF特征參數(shù)的ODF能保證一定的準(zhǔn)確率，且計算量相對較小，能滿足實時檢測應(yīng)用的需求。其中，得到所述關(guān)鍵幀的音頻指紋可以為:基于離散余弦變換(DCT，DiscreteCosine Transform)和最小哈希算法得到所述關(guān)鍵巾貞的音頻指紋。具體地，對所述關(guān)鍵幀進(jìn)行短時的DCT，并保留部分DCT系數(shù)，將所保留的DCT系數(shù)采用二進(jìn)制表示，采用最小哈希算法將采用二進(jìn)制表示的DCT系數(shù)轉(zhuǎn)換為音頻指紋。例如，在對DCT系數(shù)按照從大到小排序后，保留前N個DCT系數(shù)，這里的N可以根據(jù)實際需要確定，N為大于零的整數(shù)。相應(yīng)的，本發(fā)明還提供了一種音頻指紋檢索裝置，所述裝置包括:分幀處理單元、確定單元和檢索單元，其中:分幀處理單元，用于對音頻片段的音頻信號進(jìn)行分幀處理；確定單元，用于通過ODF確定所述分幀處理單元所得到各分幀中的關(guān)鍵幀；檢索單元，用于得到所述確定單元所確定關(guān)鍵幀的音頻指紋，并根據(jù)所得到的音頻指紋進(jìn)行檢索，得到對應(yīng)所述音頻片段的音頻文件信息。其中，所述確定單元，具體可以用于:對所述分幀處理處理單元得到的各分幀進(jìn)行FFT,并提取所述各分幀的ODF特征參數(shù)，根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀。其中，所述檢索單元，還用于基于DCT和最小哈希算法得到所述關(guān)鍵幀的音頻指紋。本發(fā)明還提供了一種音頻指紋存儲裝置，所述裝置包括:存儲單元和上述的分幀處理單元和確定單元，其中，存儲單元，用于得到所述確定單元所確定關(guān)鍵幀的音頻指紋，并將所述音頻指紋與所述音頻文件的信息對應(yīng)保存。這里，所述分幀處理單元，具體用于對給定音頻文件的音頻信號進(jìn)行分幀處理。所述存儲單元，也可以用于基于DCT和最小哈希算法得到所述關(guān)鍵幀的音頻指紋。
實施例一本實施例中，以歌曲為例，對音頻指紋的檢索過程做詳細(xì)說明。具體地，首先將歌曲的音頻指紋和歌曲信息對應(yīng)存儲到哈希表中，需要進(jìn)行音頻指紋檢索時，用戶輸入音頻片段，基于該音頻片段的音頻信號得到音頻指紋，再根據(jù)該音頻指紋從所述哈希表中查詢對應(yīng)的歌曲信息，得到包含所述音頻片段的歌曲信息。如圖4所示，將一整首歌曲的音頻指紋和歌曲信息進(jìn)行存儲的過程，具體可以包括如下步驟:步驟1:對給定的整首歌曲的音頻信號，平均以d/N毫秒時間隨機(jī)提取其11.6*w毫秒窗長的頻譜圖，得到分幀頻譜圖；步驟2:通過起始點檢測算法檢測各分幀頻譜圖是否對應(yīng)關(guān)鍵幀，將對應(yīng)關(guān)鍵幀的分幀頻譜圖保留，拋棄不是對應(yīng)關(guān)鍵幀的分幀頻譜圖；步驟3:對于所保留的各分幀頻譜圖進(jìn)行處理，得到各分幀頻譜圖的音頻指紋；具體地，對于分幀頻譜圖進(jìn)行如下處理，得到其音頻指紋:對分幀頻譜圖進(jìn)行短時的離散余弦變換(DCT, Discrete Cosine Transform),保留主要的DCT系數(shù)；將所保留的DCT系數(shù)采用二進(jìn)制表示；采用最小哈希算法將采用二進(jìn)制表示的DCT系數(shù)轉(zhuǎn)換為音頻指紋。這里，所述保留主要的DCT系數(shù)，為:將所有DCT系數(shù)按大小排序后，保留前N (N為大于O的整數(shù))個DCT系數(shù)，例如，可以保留前20個DCT系統(tǒng)。步驟4:對于提取到的音頻指紋:用位置敏感哈希方法將各音頻指紋分為b塊音頻子指紋，并將所述b塊音頻子指紋分別存儲到M個哈希子表中。如圖4所示的“ ABCDEFGHIJKLMNOPQRSTUVWXY ”表示提取得到的一個音頻指紋，“AB⑶E”、“EFGHI”........“UVWXY”分別表示由分割一個音頻指紋后得到的音頻子指紋。如圖4所示，將所述b塊音頻子指紋分別存儲到M個哈希子表中時，將音頻子指
紋“AB⑶E ”、“EFGHI ”、......、“UVffXY”與對應(yīng)的歌曲信息分別對應(yīng)存儲到哈希表1、哈希表
2、......、哈希表M中。其中，各哈希表中的7、12、50、92、102、302均表示歌曲信息，例如，
可以分別表示歌曲的ID。如圖5所示，需要進(jìn)行音頻檢索時，根據(jù)用戶輸入的音頻片段進(jìn)行音頻檢索的過程，具體可以包括如下步驟:步驟1:對用戶所輸入音頻片段的音頻信號，平均以d/N毫秒時間隨機(jī)提取其
11.6*w毫秒窗長的頻譜圖，得到分幀頻譜圖；步驟2:通過起始點檢測算法檢測所得到的各分幀頻譜圖是否對應(yīng)關(guān)鍵幀，將對應(yīng)關(guān)鍵幀的分幀頻譜圖保留，拋棄不是對應(yīng)關(guān)鍵幀的分幀頻譜圖；步驟3:對于所保留的各分幀頻譜圖進(jìn)行處理，得到各分幀頻譜圖的音頻指紋；具體地，對于分幀頻譜圖進(jìn)行如下處理，得到其音頻指紋:對分幀頻譜圖進(jìn)行短時的離散余弦變換(DCT, Discrete Cosine Transform),保留主要的DCT系數(shù)；將所保留的DCT系數(shù)采用二進(jìn)制表示；采用最小哈希算法將采用二進(jìn)制表示的DCT系數(shù)轉(zhuǎn)換為音頻指紋。步驟4:對于所得到的各音頻指紋，用位置敏感哈希方法將各音頻指紋分為m塊(m為正整數(shù))音頻子指紋，得到各音頻指紋的音頻子指紋組，并分別從所述M個哈希子表中，查詢與所述音頻子指紋組中各音頻子指紋近似匹配的音頻子指紋，得到各音頻子指紋組的近似匹配音頻子指紋組；這里，從M個哈希子表中查詢與一個音頻子指紋的近似匹配音頻子指紋具體為:從M個哈希字表中查詢有一個或多個維度的取值、與所述音頻子指紋的對應(yīng)維度的取值相同的音頻子指紋，放棄維度匹配次數(shù)小于預(yù)設(shè)的匹配閾值V的音頻子指紋，所保留的即為與所述音頻子指紋近似匹配的音頻子指紋。如圖5所示，“abcdefghi jklmnopqrstuvwxy”表示提取得到的一個音頻指紋，
“abcde”、“efghi”、......、“uvwxy”分別表示由分割一個音頻指紋后得到的音頻子指紋。
音頻文件的信息7、12、50、92、102、302所對應(yīng)的音頻子指紋與所述音頻子指紋的匹配次數(shù)分別為1、1、1、3、2、1。當(dāng)前預(yù)設(shè)的匹配閾值V為2，則音頻文件信息92、102所對應(yīng)的音頻子指紋為要查詢的近似匹配音頻子指紋。其中，音頻子指紋一般為一組向量，即多維數(shù)組，例如，音頻子指紋為25維的數(shù)組時，如果設(shè)置匹配閾值V為5，則兩個音頻子指紋之間有5維數(shù)組相同時，則認(rèn)為該兩個音頻子指紋之間近似匹配。步驟5:對于所得到的各近似匹配音頻子指紋組:根據(jù)所述近似匹配音頻子指紋與所述各音頻子指紋的哈明距離(Hamming distance),計算出匹配誤差,根據(jù)匹配誤差,查詢得到精確匹配音頻子指紋，得到精確匹配音頻子指紋組；如圖5所示，分別計算音頻文件信息92、102所對應(yīng)的音頻子指紋對應(yīng)的匹配誤差，如果音頻文件信息92對應(yīng)的匹配誤差較小，則將音頻文件信息92對應(yīng)的音頻子指紋作為精確匹配音頻子指紋。步驟6:將與所述精確匹配音頻子指紋組對應(yīng)的歌曲信息，用動態(tài)規(guī)劃算法或直線檢測算法在時間軸上合并所查詢到的歌曲信息后，得到包含有用戶所輸入音頻片段的歌曲信息并輸出，如圖5所示的92。以上所述，僅為本發(fā)明的較佳實施例而已，并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種音頻指紋檢索方法，其特征在于，所述方法包括: 對音頻片段的音頻信號進(jìn)行分幀處理；通過起始點檢測算法(ODF)確定所述分幀處理所得到的各分幀中的關(guān)鍵幀；得到所述關(guān)鍵幀的音頻指紋，并根據(jù)所得到的音頻指紋進(jìn)行檢索，得到對應(yīng)所述音頻片段的音頻文件信息。
2.根據(jù)權(quán)利要求1所述音頻指紋檢索方法，其特征在于，所述通過起始點檢測算法確定所述音頻信號各分幀中的關(guān)鍵幀，包括: 對所述分幀處理后得到的各分幀進(jìn)行快速傅氏變換(FFT)，并提取所述各分幀的ODF特征參數(shù)，根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀。
3.根據(jù)權(quán)利要求2所述音頻指紋檢索方法，其特征在于，所述根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀，具體為: 將所述ODF特征參數(shù)滿足預(yù)設(shè)ODF閾值條件的分幀確定為關(guān)鍵幀。
4.根據(jù)權(quán)利要求2或3所述音頻指紋檢索方法，其特征在于，所述提取所述各分幀的ODF特征參數(shù)，通過如下的任意一種或多種算法實現(xiàn): 能量算法、差分相位算法、高頻分量算法、改進(jìn)的庫爾貝克和萊伯勒散度算法、美爾倒譜系數(shù)、線譜對和加權(quán)相位差分。
5.根據(jù)權(quán)利要求1所述音頻指紋檢索方法，其特征在于，所述得到所述關(guān)鍵幀的音頻指紋，具體為: 基于離散余弦變換(DCT)和最小哈希算法得到所述關(guān)鍵幀的音頻指紋。
6.根據(jù)權(quán)利要求5所述音頻指紋檢索方法，其特征在于，所述基于DCT和最小哈希算法得到所述關(guān)鍵巾貞的音頻指紋，包括: 對所述關(guān)鍵幀進(jìn)行短時的DCT，并保留部分DCT系數(shù)；將所保留的DCT系數(shù)采用二進(jìn)制表示；采用最小哈希算法將采用二進(jìn)制表示的DCT系數(shù)轉(zhuǎn)換為音頻指紋。
7.一種音頻指紋存儲方法，其特征在于，所述方法包括: 對音頻文件的音頻信號進(jìn)行分幀處理；通過ODF確定所述音頻信號各分幀中的關(guān)鍵幀；得到所述關(guān)鍵巾貞的首頻指紋；將所述音頻指紋與所述音頻文件的信息對應(yīng)保存。
8.一種音頻指紋檢索裝置，其特征在于，所述裝置包括:分幀處理單元、確定單元和檢索單元，其中: 分幀處理單元，用于對音頻片段的音頻信號進(jìn)行分幀處理；確定單元，用于通過ODF確定所述分幀處理單元所得到的各分幀中的關(guān)鍵幀；檢索單元，用于得到所述確定單元所確定的關(guān)鍵幀的音頻指紋，并根據(jù)所得到的音頻指紋進(jìn)行檢索，得到對應(yīng)所述音頻片段的音頻文件信息。
9.根據(jù)權(quán)利要求8所述音頻指紋檢索裝置，其特征在于，所述確定單元，具體用于: 對所述分幀處理處理單元得到的各分幀進(jìn)行FFT，并提取所述各分幀的ODF特征參數(shù)，根據(jù)所述ODF特征參數(shù)確定所述各分幀中的關(guān)鍵幀。
10.根據(jù)權(quán)利要求8所述音頻指紋檢索裝置，其特征在于，所述檢索單元，還用于基于DCT和最小哈希算法得到所述關(guān)鍵幀的音頻指紋。
11.一種音頻指紋存儲裝置，其特征在于，所述裝置包括:分幀處理單元、確定單元、存儲單元，其中，分幀處理單元，用于對音頻文件的音頻信號進(jìn)行分幀處理；確定單元，用于通過ODF確定所述分幀處理單元所得到各分幀中的關(guān)鍵幀；存儲單元，用于得到所述確定單元所確定關(guān)鍵幀的音頻指紋，并將所述音頻指紋與所述音頻文件的信息對應(yīng)保存。
全文摘要
本發(fā)明公開了一種音頻指紋檢索方法及裝置，所述方法包括對音頻片段的音頻信號進(jìn)行分幀處理；通過起始點檢測算法(ODF)確定所述分幀處理所得到各分幀中的關(guān)鍵幀；得到所述關(guān)鍵幀的音頻指紋，并根據(jù)所得到的音頻指紋進(jìn)行檢索，得到對應(yīng)所述音頻片段的音頻文件信息。相應(yīng)的，本發(fā)明還公開了一種音頻指紋存儲方法及裝置，能夠大大減少音頻檢索所消耗的內(nèi)存，并且音頻檢索耗時也會大大減少，在保證音頻指紋檢索準(zhǔn)確率的前提下，提高了檢索效率。
文檔編號G06F17/30GK103093761SQ20111034009
公開日2013年5月8日申請日期2011年11月1日優(yōu)先權(quán)日2011年11月1日
發(fā)明者易立夫, 張遠(yuǎn)濤申請人:騰訊科技(深圳)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：易立夫;張遠(yuǎn)濤
技術(shù)所有人：騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：用于自動生成應(yīng)用的設(shè)備和方法
上一篇：一種動態(tài)生成設(shè)置項列表視圖的方法及裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

音頻指紋相關(guān)技術(shù)

音頻指紋技術(shù)相關(guān)技術(shù)

音頻指紋識別相關(guān)技術(shù)

音頻指紋提取相關(guān)技術(shù)

音頻指紋提取算法相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

音頻指紋檢索方法及裝置的制作方法