一種基于som算法的音頻指紋提取方法
【專利摘要】本發(fā)明涉及一種使用于音樂檢索系統(tǒng)的音頻指紋提取方法。該發(fā)明屬于基于內(nèi)容的音樂檢索【技術(shù)領(lǐng)域】,具體為一種基于SOM(自組織特征映射)算法的音頻指紋提取方法。本發(fā)明主要完成在音頻指紋系統(tǒng)中實(shí)現(xiàn)音頻指紋的提取功能,本方法首先將時(shí)域音頻信號(hào)轉(zhuǎn)化為頻域信號(hào),然后提取頻域信號(hào)的能量信息,最后獲得相關(guān)音頻特征。為了減少音頻特征的數(shù)據(jù)量,減少存儲(chǔ)音頻所需的存儲(chǔ)空間,提高數(shù)據(jù)的檢索效率,采用了SOM算法實(shí)現(xiàn)對(duì)音頻特征數(shù)據(jù)的降維處理。本發(fā)明能夠有效的在移動(dòng)嵌入式設(shè)備上運(yùn)行實(shí)現(xiàn),具有執(zhí)行速度快、指紋數(shù)據(jù)量較少、音頻檢索速度快等特點(diǎn)。
【專利說明】一種基于SOM算法的音頻指紋提取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及基于內(nèi)容的音頻指紋領(lǐng)域,具體涉及一種基于S0M算法的音頻指紋提 取方法。
【背景技術(shù)】
[0002] 音頻指紋是指基于內(nèi)容的引用檢測【技術(shù)領(lǐng)域】,可以代表一段音樂重要聲學(xué)特征的 基于內(nèi)容的緊致的數(shù)字簽名,其主要目的是建立一種有效的機(jī)制來比較兩個(gè)音頻數(shù)據(jù)的感 知和聽覺質(zhì)量的相似程度,使人們可以僅僅通過一個(gè)沒有任何文本標(biāo)記的音頻片段,便可 以得到和該音頻片段相關(guān)的元數(shù)據(jù),如音頻的名字。這里不是直接比較通常很大的音頻數(shù) 據(jù)本身,而是比較其相應(yīng)通常較小的數(shù)字指紋。大量音頻數(shù)據(jù)的指紋和其相應(yīng)的元數(shù)據(jù)比 如歌曲名稱、詞曲作者、歌詞等內(nèi)容一起存儲(chǔ)在一個(gè)數(shù)據(jù)庫中,并采用指紋作為相應(yīng)元數(shù)據(jù) 的索引。
[0003] 音頻指紋有著較多好處,具體來說。首先:因?yàn)橹讣y占用的存儲(chǔ)空間遠(yuǎn)小于音頻數(shù) 據(jù)本身,這樣可以節(jié)省很多的計(jì)算和內(nèi)存要求。其次,指紋往往保留了音頻數(shù)據(jù)在聽覺感知 上的一些不變特性,因此,能夠在音頻遭受到信號(hào)攻擊后,數(shù)據(jù)本身遭到破壞,而感知特性 變化較小時(shí),依然可以進(jìn)行有效比對(duì)。最后,保持指紋的數(shù)據(jù)庫往往遠(yuǎn)小于媒體數(shù)據(jù)庫,這 樣可以進(jìn)行高效的搜索。音頻指紋現(xiàn)在已經(jīng)有著很多發(fā)展較為明朗的商業(yè)應(yīng)用場景,主要 如下:音頻識(shí)別、內(nèi)容完整性校驗(yàn)、廣播監(jiān)聽等領(lǐng)域。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于針對(duì)已有技術(shù)存在的不足,提供一種基于S0M算法的音頻指紋 提取方法,是一種魯棒的音頻指紋提取算法,其巧妙地利用了 S0M算法的特性,有效地提高 了音頻特征的緊致程度,最終實(shí)現(xiàn)對(duì)音頻指紋數(shù)據(jù)的降維,減少音頻指紋的數(shù)據(jù)量,提高檢 索效率。本發(fā)明的實(shí)現(xiàn)步驟包括指紋的構(gòu)造過程。
[0005] 如圖1所示,具體的指紋構(gòu)造過程如下: 步驟1將輸入的音頻信號(hào)轉(zhuǎn)化為單聲道:對(duì)輸入的音頻信號(hào)做基本的預(yù)處理,將音頻 信號(hào)數(shù)據(jù)歸一化,提取標(biāo)準(zhǔn)的PCM音頻信號(hào)對(duì)其做判斷,如果此音頻信號(hào)不是單聲道,則將 此音頻信號(hào)數(shù)據(jù)轉(zhuǎn)換為單聲道。
[0006] 步驟2將音頻信號(hào)統(tǒng)一到8kHz采樣率:判斷轉(zhuǎn)換后的音頻信號(hào)的采樣率是否大 于8kHz,如果大于8kHz,則通過FIR濾波器將其降采樣到8kHz。
[0007] 步驟3重疊分幀并加漢明窗:將歸一化后的音頻信號(hào)進(jìn)行重疊分幀,每幀幀長為 0. 256秒,按照相鄰巾貞重疊率為31/32做分巾貞處理,然后對(duì)處理后的音頻信號(hào)加漢明窗。
[0008] 步驟4 FFT時(shí)頻變換:對(duì)分幀的音頻信號(hào)進(jìn)行時(shí)頻變換,通過2048位的FFT變換 來實(shí)現(xiàn)該轉(zhuǎn)換,最終獲得2048位的頻域系數(shù)。
[0009] 步驟5獲取低1024位特征數(shù)據(jù):考慮4kHz以下的能量點(diǎn)作為該指紋的音頻特 征,將2048位的頻域系數(shù)中的低1024位系數(shù)作為該指紋的音頻特征數(shù)據(jù)。
[0010] 步驟6計(jì)算特征數(shù)據(jù)的SOM特征:其步驟為 1) 將獲取的低位的1〇24位特征值11內(nèi),...5.%24初始化為向量1,設(shè)所選擇的幀數(shù)為 M,故每位均為《I維,gp
【權(quán)利要求】
1. 一種基于SOM算法的音頻指紋提取方法,其特征在于具體步驟如下: 步驟1將輸入的音頻信號(hào)轉(zhuǎn)化為單聲道:對(duì)輸入的音頻信號(hào)做基本的預(yù)處理,將音頻 信號(hào)數(shù)據(jù)歸一化,提取標(biāo)準(zhǔn)的PCM音頻信號(hào)對(duì)其做判斷,如果此音頻信號(hào)不是單聲道,則將 此音頻信號(hào)數(shù)據(jù)轉(zhuǎn)換為單聲道; 步驟2將音頻信號(hào)統(tǒng)一到8kHz采樣率:判斷轉(zhuǎn)換后的音頻信號(hào)的采樣率是否大于 8kHz,如果大于8kHz,則通過FIR濾波器將其降采樣到8kHz ; 步驟3重疊分幀并加漢明窗:將歸一化后的音頻信號(hào)進(jìn)行重疊分幀,每幀幀長為 0. 256秒,按照相鄰巾貞重疊率為31/32做分巾貞處理,然后對(duì)處理后的音頻信號(hào)加漢明窗; 步驟4 FFT時(shí)頻變換:對(duì)分幀的音頻信號(hào)進(jìn)行時(shí)頻變換,通過2048位的FFT變換來實(shí) 現(xiàn)該轉(zhuǎn)換,最終獲得2048位的頻域系數(shù); 步驟5獲取低1024位特征數(shù)據(jù):考慮4kHz以下的能量點(diǎn)作為該指紋的音頻特征,將 2048位的頻域系數(shù)中的低1024位系數(shù)作為該指紋的音頻特征數(shù)據(jù); 步驟6計(jì)算特征數(shù)據(jù)的S0M特征:其步驟為 將獲取的低位的1024位特征值,Χ2,.··5:?1?24初始化為向量f,設(shè)所選擇的幀數(shù)為《 ,故每位均為挪維,即
同時(shí)初始化m X1024的權(quán)值向量Μ (0)(可依照經(jīng)驗(yàn)選?。?br>
分別對(duì)JT;和Μ (0)按照式(1)和式(2)進(jìn)行歸一化處理得到結(jié)果.和尹(0):
其中:
歸一化權(quán)值向量
2) 其中:
從向量f中選取樣本及其對(duì)應(yīng)權(quán)值向量樣本,按照式(3)計(jì)算其歐式距離<
其中:/7為迭代次數(shù),表示第/?次迭代所對(duì)應(yīng)的權(quán)倌; 通過式(4)計(jì)算歐式距離最小的標(biāo)準(zhǔn),來獲取輸出矩陣方,從而實(shí)現(xiàn)矩陣的降維過 程;
其中i = l,2,...,m , I'和為滿足式(4)的特征向量和權(quán)值向量,由此構(gòu)成新的降 維矩陣; 按照式(5)更新參數(shù)?7,通過式(6)更新權(quán)值向量% ; η{η) = 0. 2(1 - -^) (5) ( mono
其中? = 1,2,...,/h,/?表不迭代次數(shù); 按照式(7)對(duì)更新后的權(quán)值向量&重新進(jìn)行歸一化處理;
其中 i = l,2,...5m 判斷輸出矩陣的大小是否等于32個(gè)向量,如果等于則結(jié)束迭代,如果大于則回到公蟲 繼續(xù)迭代; 步驟7相鄰幀比對(duì),獲得二進(jìn)制指紋:由步驟6中的7),當(dāng)輸出矩陣的大小等于32個(gè) 向量,將最終獲得的32個(gè)特征值設(shè)為依據(jù)公式(8)計(jì)算相鄰幀之間指紋的符號(hào)差 異,作為最終的存儲(chǔ)數(shù)據(jù)Si*·),就的到了二進(jìn)制指紋;
其中#為子幀內(nèi)數(shù)據(jù)的個(gè)數(shù),這里為32。
【文檔編號(hào)】G06F17/30GK104050259SQ201410266868
【公開日】2014年9月17日 申請(qǐng)日期:2014年6月16日 優(yōu)先權(quán)日:2014年6月16日
【發(fā)明者】余小清, 汪文根, 熊瑋, 萬旺根, 王牧昕 申請(qǐng)人:上海大學(xué)