專利名稱:一種基于詞匯樹的音頻片段檢索算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種音頻基于內(nèi)容的片段檢索的領(lǐng)域下,基于詞匯樹的量化方法,結(jié)合旋律線匹配,查找原始音頻的檢索算法。
背景技術(shù):
隨著現(xiàn)代信息技術(shù),特別是網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的迅速發(fā)展,多媒體數(shù)據(jù)已成為互聯(lián)網(wǎng)上所傳送數(shù)據(jù)的主要部分,聲音媒體是除視覺媒體外最重要的媒體?;趦?nèi)容的音頻信息檢索技術(shù)有著廣泛的應(yīng)用前景(1)它是音頻信息搜索引擎的關(guān)鍵技術(shù),用戶可通過(guò)該技術(shù)快速獲取所需的信息資源,還可以根據(jù)音頻信息的內(nèi)容實(shí)現(xiàn)更加靈活的信息搜索策略;( 它可實(shí)現(xiàn)對(duì)音視頻點(diǎn)播和網(wǎng)上電視節(jié)目等媒體中的音頻信息進(jìn)行實(shí)時(shí)檢索、審查和有效監(jiān)控;可應(yīng)用于市場(chǎng)調(diào)查、網(wǎng)絡(luò)管理、信息安全等諸多領(lǐng)域;它可用于各種數(shù)字音頻產(chǎn)品的版權(quán)保護(hù),如音樂(lè)的版權(quán)保護(hù),即搜索未經(jīng)授權(quán)的使用等;(4)它在音頻信息分類與統(tǒng)計(jì)技術(shù)的研究中扮演重要的角色。如在廣播電視新聞節(jié)目、 學(xué)術(shù)會(huì)議的錄音報(bào)告、數(shù)字圖書館等內(nèi)容中包含著大量的語(yǔ)音、音樂(lè)等信息,使用音頻信息檢索技術(shù)可以有效地對(duì)這些信息進(jìn)行分類、統(tǒng)計(jì)與檢索,更好地利用這些資源?;谠~匯樹的音頻片段檢索就是一種基于內(nèi)容的音頻信息檢索技術(shù),可以實(shí)現(xiàn)用小的片段,即時(shí)間比較短的片段,一般為10s,檢索出原始的音頻文件,并且較高的準(zhǔn)確率和較短的響應(yīng)時(shí)間。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題基于音頻數(shù)據(jù)內(nèi)容的音頻信息的片段檢索。本發(fā)明采用的技術(shù)方案一種基于詞匯樹的音頻片段檢索方案,其特征在于步驟如下(1)采用一定量的MFCC Peaks特征,使用k-means的聚類方法訓(xùn)練出一棵詞匯樹。 詞匯樹是層次化的樹,每一層表現(xiàn)為子節(jié)點(diǎn)是父父節(jié)點(diǎn)數(shù)據(jù)的k個(gè)分類。詞匯樹的每個(gè)葉子節(jié)點(diǎn)被記為一個(gè)單詞。(2)在插入數(shù)據(jù)的時(shí)候,首先提取出MFCC Peaks特征,使用詞匯樹將特征變成單詞,將單詞按照文本檢索的方法存儲(chǔ)。同時(shí)還需要提取旋律線的特征,用字符串的形式存儲(chǔ)在數(shù)據(jù)庫(kù)中。這是一個(gè)離線的過(guò)程。(3)在獲得一個(gè)查詢片段的時(shí)候,首先從片段提取MFCC Peaks特征,使用相同的詞匯樹將特征變成單詞,使用文件檢索中的計(jì)算得分的方式計(jì)算庫(kù)中音頻的得分,根據(jù)得分的大小排序,獲得前5個(gè)結(jié)果。同時(shí)需要對(duì)檢索的片段提取出旋律線,在前面獲得的前 5個(gè)結(jié)果中,進(jìn)一步用旋律線進(jìn)行字符串的相似匹配,根據(jù)這個(gè)得分重新對(duì)這5個(gè)結(jié)果進(jìn)行排序。根據(jù)本發(fā)明的又一個(gè)方面,其中步驟(1)又進(jìn)一步包括對(duì)MFCC Peaks特征的定義。MFCC Peaks特征定義為在MFCC上面的包含峰值點(diǎn)的向量。具體提取包括
(a)首先提取音頻文件的MFCC特征。(b)在MFCC維度和時(shí)間的二維圖上,以某個(gè)點(diǎn)為中心的一個(gè)大小為P的范圍內(nèi),沒有一個(gè)點(diǎn)的值大于這個(gè)點(diǎn),這個(gè)點(diǎn)就認(rèn)為是峰值點(diǎn)。MFCC Peaks特征指的是包含這樣的峰值點(diǎn)的一個(gè)MFCC向量。根據(jù)本發(fā)明的又一個(gè)方面,其中步驟(1)還包括詞匯樹的構(gòu)建(a)詞匯樹的構(gòu)建首先將所有訓(xùn)練數(shù)據(jù)劃分成K類,記下每類的中心點(diǎn)。然后把每類的數(shù)據(jù)再劃分成K類,記下每類的中心點(diǎn)。這樣遞歸,構(gòu)造成一棵L層的樹,并給樹的每個(gè)葉子節(jié)點(diǎn)賦值一個(gè)單詞。其中步驟(3)還包括詞匯樹的使用。(a)詞匯樹的使用當(dāng)有一個(gè)特征需要轉(zhuǎn)化為單詞時(shí),首先與樹的根節(jié)點(diǎn)所記下的中心點(diǎn)比較,找到距離最近的點(diǎn),移動(dòng)到對(duì)應(yīng)的子節(jié)點(diǎn),直到遇到葉子節(jié)點(diǎn)為止,當(dāng)前葉子節(jié)點(diǎn)的單詞就是這個(gè)特征所量化的單詞。
圖1為本發(fā)明的方法基本流程圖。
具體實(shí)施例方式下面參考附圖1,對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)的說(shuō)明。本發(fā)明的方法原理為使用詞匯樹的方法把音頻片段檢索的問(wèn)題轉(zhuǎn)化為文本的檢索問(wèn)題,同時(shí)可以結(jié)合現(xiàn)有的旋律線匹配等方法進(jìn)一步調(diào)整前5個(gè)返回結(jié)果,實(shí)現(xiàn)高效率、 高準(zhǔn)確率的音頻片段檢索。具體而言,本發(fā)明所提出的方法基本流程如圖1所示。本發(fā)明主要包括如下步驟(1)采用一定量的MFCC Peaks特征,使用k-means的聚類方法訓(xùn)練出一棵詞匯樹, 詞匯樹是層次化的樹,每一層表現(xiàn)為子節(jié)點(diǎn)是父父節(jié)點(diǎn)數(shù)據(jù)的k個(gè)分類,詞匯樹的每個(gè)葉子節(jié)點(diǎn)被記為一個(gè)單詞;(2)在插入數(shù)據(jù)的時(shí)候,首先提取出MFCC Peaks特征,使用詞匯樹將特征變成單詞,將單詞按照文本檢索的方法存儲(chǔ),同時(shí)還需要提取旋律線的特征,用字符串的形式存儲(chǔ)在數(shù)據(jù)庫(kù)中,這是一個(gè)離線的過(guò)程;(3)在獲得一個(gè)查詢片段的時(shí)候,首先從片段提取MFCC Peaks特征,使用相同的詞匯樹將特征變成單詞,使用文件檢索中的計(jì)算得分的方式計(jì)算庫(kù)中音頻的得分,根據(jù)得分的大小排序,獲得前5個(gè)結(jié)果,同時(shí)需要對(duì)檢索的片段提取出旋律線,在前面獲得的前5 個(gè)結(jié)果中,進(jìn)一步用旋律線進(jìn)行字符串的相似匹配,根據(jù)這個(gè)得分重新對(duì)這5個(gè)結(jié)果進(jìn)行排序;根據(jù)本發(fā)明的又一個(gè)方面,其中步驟(1)又進(jìn)一步包括對(duì)MFCC Peaks特征的定義。MFCC Peaks特征定義為在MFCC上面的包含峰值點(diǎn)的向量。具體提取包括(a)首先提取音頻文件的MFCC特征;(b)在MFCC維度和時(shí)間的二維圖上,以某個(gè)點(diǎn)為中心的一個(gè)大小為P的范圍內(nèi),沒有一個(gè)點(diǎn)的值大于這個(gè)點(diǎn),這個(gè)點(diǎn)就認(rèn)為是峰值點(diǎn),MFCC Peaks特征指的是包含這樣的峰值點(diǎn)的一個(gè)MFCC向量;根據(jù)本發(fā)明的又一個(gè)方面,其中步驟(1)進(jìn)一步包括詞匯樹的構(gòu)建,步驟C3)又進(jìn)一步包括詞匯樹的使用。具體包括(a)詞匯樹的構(gòu)建首先將所有訓(xùn)練數(shù)據(jù)劃分成K類,記下每類的中心點(diǎn),然后把每類的數(shù)據(jù)再劃分成K類,記下每類的中心點(diǎn),依次遞歸,構(gòu)造成一棵L層的樹,并給樹的每個(gè)葉子節(jié)點(diǎn)賦值一個(gè)單詞;(b)詞匯樹的使用當(dāng)有一個(gè)特征需要轉(zhuǎn)化為單詞時(shí),首先與樹的根節(jié)點(diǎn)所記下的中心點(diǎn)比較,找到距離最近的點(diǎn),移動(dòng)到對(duì)應(yīng)的子節(jié)點(diǎn),直到遇到葉子節(jié)點(diǎn)為止,當(dāng)前葉子節(jié)點(diǎn)的單詞就是這個(gè)特征所量化的單詞;綜上所述,根據(jù)上述方法就可以實(shí)現(xiàn)快速有效的基于內(nèi)容的音頻片段的檢索。對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)可顯而易見的得出其他優(yōu)點(diǎn)和修改。因此,具有更廣方面的本發(fā)明并不局限于這里所示出的并且所描述的具體說(shuō)明及示例性實(shí)施例。因此,在不脫離由隨后權(quán)利要求及其等價(jià)體所定義的一般發(fā)明構(gòu)思的精神和范圍的情況下, 可對(duì)其作出各種修改。
權(quán)利要求
1.一種基于詞匯樹的音頻片段檢索方法,其特征在于步驟如下(1)采用一定量的MFCCPeaks特征,使用k-means的聚類方法訓(xùn)練出一棵詞匯樹,詞匯樹是層次化的樹,每一層表現(xiàn)為子節(jié)點(diǎn)是父節(jié)點(diǎn)數(shù)據(jù)的k個(gè)分類,詞匯樹的每個(gè)葉子節(jié)點(diǎn)被記為一個(gè)單詞;(2)在插入數(shù)據(jù)的時(shí)候,首先提取出MFCCPeaks特征,使用詞匯樹將特征變成單詞,將單詞按照文本檢索的方法存儲(chǔ),同時(shí)還需要提取旋律線的特征,用字符串的形式存儲(chǔ)在數(shù)據(jù)庫(kù)中,這是一個(gè)離線的過(guò)程;(3)在獲得一個(gè)查詢片段的時(shí)候,首先從片段提取MFCCPeaks特征,使用相同的詞匯樹將特征變成單詞,使用文件檢索中的計(jì)算得分的方式計(jì)算庫(kù)中音頻的得分,根據(jù)得分的大小排序,獲得前5個(gè)結(jié)果,同時(shí)需要對(duì)檢索的片段提取出旋律線,在前面獲得的前5個(gè)結(jié)果中,進(jìn)一步用旋律線進(jìn)行字符串的相似匹配,根據(jù)這個(gè)得分重新對(duì)這5個(gè)結(jié)果進(jìn)行排序。
2.根據(jù)權(quán)利要求1所述的一種基于詞匯樹的音頻片段檢索方法,其特征在于其中步驟(1)又進(jìn)一步包括對(duì)MFCC Peaks特征定義為在MFCC上面的包含峰值點(diǎn)的向量,具體提取步驟包括(a)首先提取音頻文件的MFCC特征;(b)在MFCC維度和時(shí)間的二維圖上,以某個(gè)點(diǎn)為中心的一個(gè)大小為P的范圍內(nèi),如果沒有一個(gè)點(diǎn)的值大于這個(gè)點(diǎn),這個(gè)點(diǎn)就認(rèn)為是峰值點(diǎn);MFCC Peaks特征指的是包含這樣的峰值點(diǎn)的一個(gè)MFCC向量。
3.根據(jù)權(quán)利要求1所述的一種基于詞匯樹的音頻片段檢索方法,其特征在于其中所述步驟(1)中還包括詞匯樹的構(gòu)建(a)構(gòu)建詞匯樹首先將所有訓(xùn)練數(shù)據(jù)劃分成K類,記下每類的中心點(diǎn),然后把每類的數(shù)據(jù)再劃分成K類,記下每類的中心點(diǎn),依次遞歸,構(gòu)造成一棵L層的樹,并給樹的每個(gè)葉子節(jié)點(diǎn)賦值一個(gè)單詞;所述步驟(3)中還包括詞匯樹的使用(a)使用詞匯樹當(dāng)有一個(gè)特征需要轉(zhuǎn)化為單詞時(shí),首先與樹的根節(jié)點(diǎn)所記下的中心點(diǎn)比較,找到距離最近的點(diǎn),移動(dòng)到對(duì)應(yīng)的子節(jié)點(diǎn);直到遇到葉子節(jié)點(diǎn)為止,當(dāng)前葉子節(jié)點(diǎn)的單詞就是這個(gè)特征所量化的單詞。
全文摘要
一種基于詞匯樹的音頻片段檢索算法(1)通過(guò)聚類的方法訓(xùn)練一個(gè)層次化的用于量化特征的詞匯樹;(2)從音頻文件提取MFCC Peaks特征,通過(guò)詞匯樹量化成單詞;(3)將單詞以文本檢索的倒排文件索引的方式存儲(chǔ)和索引;(4)在得到最匹配的結(jié)果數(shù)據(jù)集后用旋律線匹配的方式調(diào)整順序提高排名第一的結(jié)果的準(zhǔn)確率。本發(fā)明提出一種新的音頻特征MFCC Peaks,并根據(jù)該特征的特點(diǎn)設(shè)計(jì)了一套基于詞匯樹的檢索方案,本方法具有檢索效率高和準(zhǔn)確率高的特點(diǎn)。
文檔編號(hào)G06F17/30GK102253993SQ20111019072
公開日2011年11月23日 申請(qǐng)日期2011年7月8日 優(yōu)先權(quán)日2011年7月8日
發(fā)明者余韡, 劉祥龍, 李未, 許恬菁, 郎波 申請(qǐng)人:北京航空航天大學(xué)