專利名稱:一種基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法和裝置的制作方法
技術(shù)領域:
本發(fā)明屬于計算機技術(shù)應用領域,具體的涉及一種查詢音頻數(shù)據(jù)庫的方法和裝 置,尤其涉及一種基于內(nèi)容的樣例音頻檢索方法,即通過錄制的原始音頻片斷搜索到整個 音頻的完整信息。
背景技術(shù):
隨著現(xiàn)代信息技術(shù),特別是多媒體技術(shù)和網(wǎng)絡技術(shù)的迅速發(fā)展,大量的多媒體信 息都可以從網(wǎng)上獲得。而各種音頻文件更成為各搜索引擎(例如百度、Google等)中最常 被使用者查找的對象。傳統(tǒng)的音頻信息檢索技術(shù)主要是基于文本的,然而傳統(tǒng)的基于文本 的音頻信息檢索無法滿足人們對音頻檢索的需求。也就是說,如果用戶聽到一段很熟悉的 音頻,想通過錄制幾秒鐘的片斷來查詢整段音頻的信息,目前在技術(shù)上仍然存在較大的實 現(xiàn)難度。目前互聯(lián)網(wǎng)上的音頻搜索服務從本質(zhì)上來說只是一種文本搜索,是通過匹配音頻 相關文字內(nèi)容、關鍵字詞而返回結(jié)果。要想對錄制的音頻片斷進行搜索,就涉及到基于內(nèi)容 的樣例音頻檢索。而現(xiàn)有的音頻檢索技術(shù)尚不能滿足人們的需求。近年來,基于內(nèi)容的音 頻檢索技術(shù)成為了一個研究熱點,眾多領域的科學家開始探討這一新的技術(shù)挑戰(zhàn)。基于內(nèi)容的音頻檢索,通過錄制幾秒鐘的片斷來實現(xiàn)查詢是最基本的實現(xiàn)方式之 一,即樣例檢索。它指的是用戶輸入音頻片斷或者通過麥克風錄制一段音頻,這些片斷中可 能含有各種噪聲,系統(tǒng)能正確返回音頻片斷的相關信息?;跇永囊纛l檢索,通??梢苑譃閮蓚€子問題1)把詢問的音頻片斷轉(zhuǎn)為具有 代表性的特征序列組成聲紋(聲紋是指能代表一段音頻并能構(gòu)建索引的特征序列)2)在庫 中搜索與特征序列最相似的候選片斷。比較經(jīng)典的音頻檢索方法主要有兩類基于局部特 征點或者全局結(jié)構(gòu)信息的音頻檢索方法?;诰植刻卣鼽c的方法,一般是從頻譜中尋找一 些典型的特征點,例如英國的Shazam公司,提取頻譜峰值信息,然后將特征點組成特征點 對,把特征點對作為該片段的聲紋;搜索時候建立哈希索引實現(xiàn)快速搜索。此方法的特點是 不需要保留頻譜的全局信息,特征具有代表性,抗造性能強,缺點是信息量少,聲紋構(gòu)建索 引時碰撞比較嚴重?;谌纸Y(jié)構(gòu)信息的方法,是保留整個頻譜的全局信息,信息量大,但 是抗噪性能不強,信息代表性差,例如荷蘭的Philips研究所提出的方法,把300-2000HZ之 間的頻譜分成33個非重疊的子頻帶,最終子頻帶由0或者1來表示,這些0、1序列組成聲 紋;搜索時候也使用聲紋構(gòu)建哈希表來加快搜索速度。這些音頻檢索方法在小規(guī)模應用中可以得到比較好的效果,但是當音頻庫為海量 時,會有很多問題出現(xiàn),比如索引碰撞嚴重,搜索時間過長。由于提取的特征信息量不夠,導 致建立索引時碰撞嚴重,搜索時間比較長,如果用特征點對組成聲紋來增加聲紋信息量,減 少索引碰撞,又會降低聲紋穩(wěn)定性,檢索精度下降,也就是說聲紋碰撞率和穩(wěn)定性之間是一 個矛盾,低碰撞率必然會帶來聲紋的穩(wěn)定性下降。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種基于長時結(jié)構(gòu)聲紋和多層濾波的音頻檢索方 法,有效解決聲紋穩(wěn)定性與碰撞率之間相互矛盾的問題,對于海量音頻數(shù)據(jù)庫,本發(fā)明可以 有效提高音頻檢索的檢索正確率、檢索效率以及抗噪聲性能。為了實現(xiàn)上述發(fā)明目的,本發(fā)明采用下述技術(shù)方案一種基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法,其特征在于(1)提取用戶輸入音頻片斷的穩(wěn)定特征,例如頻譜峰值特征;(2)根據(jù)特征點生成具有長時結(jié)構(gòu)信息的聲紋(英文名為audio fingerprint,是 指能代表一段音頻并能構(gòu)建索引的特征序列);(3)經(jīng)過第一層濾波器,以所有聲紋為查找項,查找哈希索引,得到候選片斷中 間結(jié)果,并使用原始頻譜特征點計算中間結(jié)果相似度,然后根據(jù)相似度對中間結(jié)果進行排 序;(4)對第一層濾波器排名第一的候選結(jié)果進行置信度打分,如果超過預定門限值, 則輸出結(jié)果,否則轉(zhuǎn)入第5步;(5)擴展查詢聲紋數(shù)目,進入第二層濾波器,根據(jù)索引表,查找更多中間結(jié)果,并計 算中間結(jié)果相似度,然后對第一二層濾波器結(jié)果根據(jù)相似度進行排序;(6)選擇相似度最高的音頻片斷信息返回用戶。其中,被查詢的音頻數(shù)據(jù)庫通過如下步驟獲得(1)提取音頻數(shù)據(jù)庫穩(wěn)定特征,例如頻譜峰值特征;(2)生成具有長時結(jié)構(gòu)信息的聲紋;(3)使用所有數(shù)據(jù)庫聲紋構(gòu)建哈希索引,鍵為聲紋,值為聲紋所在音頻文件名以及 聲紋所在音頻文件中的位置。本發(fā)明還公開了一種基于長時結(jié)構(gòu)聲紋和多層濾波的音頻檢索裝置,包括音頻 數(shù)據(jù)庫單元101,即構(gòu)成查詢庫的音頻數(shù)據(jù)庫。聲紋構(gòu)建單元102,即提取特征點,用具有長時信息的多個特征點構(gòu)建聲紋;構(gòu)建索引單元103,對于音頻庫中音頻文件,用所有的聲紋構(gòu)建一個哈希表索引, 聲紋為鍵,聲紋所在音頻文件名字以及所在音頻文件位置是值。輸入單元104,輸入為復雜環(huán)境中錄制的原始音頻片斷;濾波器單元105和108,包括三步,分別為根據(jù)哈希索引表查找候選中間結(jié)果,計 算中間結(jié)果相似度,根據(jù)相似度對結(jié)果排序。單元105和單元108的不同之處在于輸入的 查詢聲紋不同,單元105的輸入為查詢片斷原始聲紋,單元108的輸入為經(jīng)過查詢擴展的具 有容錯能力的聲紋。置信度計算單元106,對第一層濾波器輸出結(jié)果進行置信度打分,評價可信度;查詢擴展單元107,使用一種基于容錯的查詢擴展對詢問聲紋進行擴展;檢索結(jié)果輸出單元109,輸出檢索結(jié)果。本發(fā)明所提供的基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法,構(gòu)建索引時使用的 基于長時結(jié)構(gòu)信息的聲紋信息量大,索引碰撞率低,計算相似度時采用的是原始峰值特征, 穩(wěn)定性強,并且使用具有容錯機制的查詢聲紋擴展實現(xiàn)二次濾波,提高了聲紋的穩(wěn)定性,顯 著的提高了查詢的速度和精度。用本發(fā)明的方法,對于10000首歌曲的音頻數(shù)據(jù)庫,當詢問
5片斷為5秒且信噪比為Odb時,能達到99. 7%的第一位命中率。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹。圖1為本發(fā)明實施例的裝置框圖。圖2為本方法的基于長時結(jié)構(gòu)信息的聲紋構(gòu)建圖。圖3為基于索引的濾波算法示意圖。圖4為基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法流程圖。
具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?本發(fā)明中的實施例,本領域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。如圖1所示,為本發(fā)明實施例的裝置框圖,包括對于數(shù)據(jù)庫中的音頻數(shù)據(jù)(單元101),提取特征,用具有長時結(jié)構(gòu)信息的多個特 征點構(gòu)建聲紋(單元102),然后使用聲紋構(gòu)建數(shù)據(jù)庫索引(單元103)。檢索階段,對于輸入的詢問片斷(單元104),提取特征構(gòu)建具有長時結(jié)構(gòu)信息的 聲紋(單元102),經(jīng)過第一層濾波器(單元105),即根據(jù)哈希索引表查找候選中間結(jié)果,計 算中間結(jié)果相似度,根據(jù)相似度對結(jié)果排序,然后對初始結(jié)果進行置信度打分(單元106), 判決是否經(jīng)過基于容錯的查詢擴展(單元107)進入第二層濾波器(單元108),最終輸出結(jié) 果給用戶(單元109)。下面,結(jié)合圖2-圖4,說明本發(fā)明實施例所提供的基于長時結(jié)構(gòu)聲紋的多層濾波 音頻檢索方法在基于內(nèi)容的音頻檢索中,都是先對音頻數(shù)據(jù)經(jīng)過處理,提取音頻特征。這種音頻 特征要具有代表性,能唯一代表這段音頻,并且抗噪性能要強,當有環(huán)境噪聲時,特征仍然 保持不變或者較小的變化。目前最常見的音頻數(shù)據(jù)都是波形文件,格式一般是wav,其他格式的音頻文件很容 易通過軟件轉(zhuǎn)化為wav文件。因此,本實施例中,音頻庫和用戶錄制片斷均采用波形文件 wav格式。建立數(shù)據(jù)庫索引和查詢過程都要用到聲紋,方法是一樣的,下面先說明聲紋的生 成過程。聲紋生成包括特征提取和聲紋構(gòu)建兩個部分。特征提取算法包括以下幾個過程 首先,音頻數(shù)據(jù)被分割成有重疊的幀,經(jīng)過加窗處理和時頻變換,最后從這些幀中提取頻譜 峰值點。聲紋構(gòu)建時,采用一種叫做錨點擴展的方法來構(gòu)建聲紋,即用多個特征點來構(gòu)建 聲紋(圖2),增加聲紋的長時結(jié)構(gòu)信息,構(gòu)建公式如下hash (fi fi+1, · · ·,fi+rt) = fi+f^^n+. · · + ^—^ιΓ1 [1]
上述為r個特征點構(gòu)建聲紋的公式,其中,f為音頻特征,η為特征點取值范圍上 限。所謂錨點指的是用來構(gòu)建聲紋的一個主特征點,如公式1所示,即為錨點。實 際中可以根據(jù)不用的情況來調(diào)整特征點之間的距離以及每個錨點組成聲紋的數(shù)目。假設特 征點滿足均勻分布,最大頻率是n,組成聲紋的特征點數(shù)目為r,如果每個點都是一個錨點, 并且每個錨點組成聲紋數(shù)目是m,那么最大聲紋信息就是m*rf。假如m = Ln = 256,r = 4,則最大聲紋信息是32bit,聲紋信息量很大,構(gòu)建索引時會極大的加快搜索速度。當m不 等于1時,可以構(gòu)建m個哈希表來加速搜索減少碰撞。由于本發(fā)明考慮的數(shù)據(jù)庫是海量的, 優(yōu)先考慮聲紋的碰撞嚴重性,對于每個錨點,本方法增加3個點來構(gòu)建聲紋。特征提取過程 中,如果某個頻率段峰值持續(xù)很長時間,就可能出現(xiàn)連續(xù)幾幀提取的峰值點一樣的情況,使 相鄰特征點之間存在極大的相關性,為了消除此相關性,聲紋構(gòu)建時特征點之間間隔取2, 具體計算公式如下hash(fi; fi+3, fi+6, fi+9, ) = ^+ ^*η+ · +6*η2+ · +9*η3 [2]上式中,f代表特征點的相對頻率,η是頻率點取值范圍上限。這種方法構(gòu)建的聲 紋碰撞很小,但是聲紋正確匹配概率是每個特征點正確概率的乘積,因此此錨點擴展方法 必然會引起聲紋的不穩(wěn)定,本發(fā)明采用一種獨特的搜索策略來彌補這種不足。綜合考慮搜索效率和精度問題,發(fā)明人使用一種有選擇的兩層濾波的檢索方法。 如圖4所示,檢索方法由兩層濾波器組成,兩層濾波器均包括三步,首先根據(jù)聲紋查找候選 片斷,然后是候選片斷的精確相似度計算,最后根據(jù)相似度進行排序,輸出排序結(jié)果。由于 聲紋穩(wěn)定性差,對于每一個對應聲紋的候選片斷,都進行第二步的精確相似度計算,相似度 計算時采用的是原始特征點,原始特征點要比聲紋穩(wěn)定性好很多,這樣可以消除聲紋不穩(wěn) 定帶來的影響。這兩層濾波器的不同點是輸入聲紋數(shù)目不同,查找速度和精度不一樣。根 據(jù)第一層濾波器的輸出結(jié)果,可以計算對應的置信度,如果置信度比較低,經(jīng)過聲紋擴展, 增加聲紋數(shù)目,再通過第二層濾波器,輸出比較精確的結(jié)果。實驗結(jié)果顯示,當詢問片斷受 噪聲影響嚴重時,第二層濾波器能極大的提高整個系統(tǒng)的檢索正確率。下面對查詢?yōu)V波算法中的幾個關鍵點分別做具體說明。首先說明一下濾波器算法。此兩層濾波器的檢索算法是一樣的。對于音頻庫中音 頻文件,用所有的聲紋構(gòu)建一個哈希表,聲紋為鍵,聲紋所在音頻文件名字以及所在音頻文 件位置是值。檢索階段(圖3),提取查詢片斷的聲紋,經(jīng)過索引查找,就可以找到對應的庫 存音頻聲紋以及所在位置,根據(jù)這些聲紋就可以找到與查詢對應的片段,所有這些片段都 是候選片段。由于構(gòu)成此索引的聲紋信息量大,碰撞比較少,所以查找速度非???。假如音 頻庫由10000首歌曲組成,平均每首歌曲5分鐘,單個特征點的最大值是256(8bit),聲紋由 4個特征點組成,則聲紋信息量是32bit,平均每個聲紋對應0. 01個候選片段,10秒錄制片 斷提取約300個聲紋,可以找到約3個候選片段,實際情況中由于特征的分布比較集中,導 致候選片斷多幾十倍,但經(jīng)過此索引仍能排除絕大部分不可能的歌曲,僅僅保留較少的候 選片段。找到候選片段后,對候選片段進行排序,使用構(gòu)成聲紋的原始特征來計算候選片斷 的相似度,就可以得到準確的歌曲信息,計算公式如下s 小Σ,:戶Hi)2,C) [3]
N-C
7
其中,S」是第j個片段的相似度,Qi是詢問片斷的特征點,Cli是對應的庫中片段的 特征點,N是特征總數(shù)目,C是一個固定的常數(shù),能夠限制噪聲帶來的影響,可以設置成比3 小的整數(shù)。實驗證明,引入此常數(shù)可以極大地提高系統(tǒng)的檢索性能。由于此相似度計算方 法使用的是原始特征點,原始特征點本身就比聲紋穩(wěn)定的多,因此用此方法求出的相似度 更準確,排序后輸出結(jié)果更可靠。此搜索算法是基于一個假設至少有一個聲紋是精確匹配的,如果此假設成立,那 么那些需要計算相似度的片段僅僅是詢問片斷聲紋對應的庫存音頻片段。為了證明此假設 的有效性,可以用下面的公式計算至少有一個聲紋正確的概率P = l-(l-qr)n[4]q是每個特征點正確的概率,r是組成聲紋的特征點個數(shù),η是提取的聲紋總數(shù)目。 假如q = 0. 4,r = 4,詢問片斷長度是10秒,那么η ^ 300,則計算P近似為0. 999。如果 q很小,那么P也很小,這種情況下,精確的相似度計算也很難找到正確的結(jié)果,因此本算法 是有效的。實際上,r的選擇可以根據(jù)幀長、索引量、特征的穩(wěn)定性以及對速度的要求來選 擇。當數(shù)據(jù)為海量時,基于速度的優(yōu)先考慮,r設置為4。判斷是否進入第二層濾波器前,對第一層濾波器結(jié)果有一個置信度計算過程,用 來估計結(jié)果的可信度,置信度計算方法有多種,本方法中輸出結(jié)果置信度計算如下c = 77 [5]C是輸出結(jié)果的置信度,S1是第一候選的相似度,S2是第二候選的相似度。如果第 一層濾波器輸出結(jié)果的置信度低于一個閾值,就經(jīng)過第二層濾波器,得到一個更精確的結(jié)^ ο如果詢問片斷受噪聲影響嚴重,由特征點構(gòu)成的聲紋可能沒有一個是完全一致 的,針對這種情況,本發(fā)明提出了一種增強搜索算法,聲紋由r-Ι個點組成,建立數(shù)據(jù)庫索 引時用r-Ι個點的聲紋構(gòu)建第二個索引,用于第二層濾波器搜索匹配,第二層濾波器算法 與第一層一樣,僅僅是聲紋的構(gòu)建以及索引不一樣。如果第一層濾波器輸出結(jié)果的置信度 低于一個閾值,就經(jīng)過第二層濾波器,得到一個更精確的結(jié)果。經(jīng)過統(tǒng)計發(fā)現(xiàn),詢問片斷中 錯誤特征點的頻率值一般都在原始頻率上下波動,并且相差1的概率很大,遠遠高于其他 頻率值的可能性,因此,本發(fā)明人又提出了 一種基于容錯的查詢擴展算法,構(gòu)建第二層濾波 器時,和第一層濾波器公用同一個索引,僅僅擴展詢問片斷聲紋,通過擴展詢問片斷的特征 點來增加聲紋的數(shù)目,這樣就減少了對內(nèi)存的需求,僅需構(gòu)建一個索引,同時也達到了快速 準確的要求。假如每個點都擴展為原來的三倍,即上下波動1,并且由4個點構(gòu)成聲紋,那么 可以得到80倍的原始聲紋數(shù)目。這里并沒有對原始聲紋重新檢索,僅僅把第一層濾波器相 似度計算結(jié)果和第二層濾波器結(jié)果一起排序,然后輸出最終結(jié)果。實際上,只需要對那些置 信度低的特征點實現(xiàn)特征擴展,特征置信度計算如下F^fjEiINU
'.=。 [6]Ei是特征點的能量,N是特征總數(shù)目,λ是一個系數(shù),可以調(diào)整此系數(shù)控制特征擴 展的數(shù)目。事實上,由于第一層濾波器輸出結(jié)果置信度閾值的存在,僅當音頻片斷變質(zhì)嚴重 時,才會經(jīng)過第兩層濾波器,這種情況下,第兩層濾波器能極大的提高整個系統(tǒng)的性能。通 過使用這種查詢擴展算法,可以花費比較少的時間來達到很好的性能。
8
經(jīng)統(tǒng)計發(fā)現(xiàn),對于原始片斷,當幀之間無重疊,并且取幀時正好相差半幀時,有大 約1/4的峰值點發(fā)生偏差,這種由于幀邊界選取不一致引起的特征提取錯誤稱之為邊界效 應。由于邊界效應的存在,導致特征提取錯誤,因此幀之間的重疊率應該越大越好,即幀移 越小越好,以便減小邊界效應帶來的影響。本專利方法中,為了減少索引的總量并且盡量減 小邊界效應,庫中音頻重疊率是1/2,詢問片斷重疊率是3/4。由于重疊率不同,采用如下公 式計算相似度
權(quán)利要求
一種基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法,其特征在于(1)提取用戶輸入音頻片斷的穩(wěn)定特征,例如頻譜峰值特征;(2)構(gòu)建具有長時結(jié)構(gòu)信息的聲紋;(3)經(jīng)過第一層濾波器,以所有聲紋為查找項,查找數(shù)據(jù)庫索引,得到候選中間結(jié)果,并根據(jù)原始特征計算中間結(jié)果相似度,然后根據(jù)相似度對中間結(jié)果進行排序;(4)對第一層濾波器排名第一的候選結(jié)果進行置信度打分,如果超過預定門限值,則輸出結(jié)果,否則轉(zhuǎn)入第5步;(5)擴展查詢聲紋,進入第二層濾波器,根據(jù)索引表,查找更多中間結(jié)果,并計算中間結(jié)果相似度,然后把第一二層濾波器結(jié)果根據(jù)相似度進行排序;(6)根據(jù)排序結(jié)果,選擇相似度最高的音頻片段信息返回用戶。
2.根據(jù)權(quán)利1要求所述的基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法,其特征在于 被查詢的音頻數(shù)據(jù)庫通過如下步驟獲得(1)提取音頻數(shù)據(jù)庫穩(wěn)定特征,例如頻譜峰值特征;(2)生成具有長時結(jié)構(gòu)信息的聲紋;(3)使用所有數(shù)據(jù)庫聲紋構(gòu)建哈希索引,鍵為聲紋,值為聲紋所在音頻文件名以及聲紋 所在音頻文件中的位置。
3.根據(jù)權(quán)利1和權(quán)利2要求所述的基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法,其特 征在于具有長時結(jié)構(gòu)信息的聲紋構(gòu)建方法,采用多個特征點構(gòu)建聲紋,組成聲紋的特征點數(shù) 目以及特征點之間的間隔可以根據(jù)實際情況調(diào)整,構(gòu)建公式如下hash(fi7 fi+1, · · ·,^+廣丄)=fi+fi+1*n+. . . +fi+^^n^1上述為r個特征點構(gòu)建聲紋的公式,其中,f為音頻特征,η為特征點取值范圍上限。
4.根據(jù)權(quán)利1要求所述的基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法,其特征在于 查詢結(jié)果置信度計算,對第一層濾波器輸出結(jié)果進行置信度計算,用來評價第一層濾波器輸出結(jié)果的可信度。置信度計算方法有多種,本方法中輸出結(jié)果置信度計算公式如 下C是輸出結(jié)果的置信度,S1是第一候選的相似度,S2是第二候選的相似度。
5.根據(jù)權(quán)利1要求所述的基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法,其特征在于 基于容錯的查詢聲紋擴展方法,是對錄制片斷的每個特征點上下浮動幾個位置,使得輸入片段的聲紋擴展為多個聲紋,做為第二次檢索的查詢輸入,例如上下浮動1,特征點擴 展為原來的3倍,聲紋數(shù)目擴展成原來的Y倍,r為構(gòu)建一個聲紋的特征點數(shù)目。
6.根據(jù)權(quán)利1要求所述的基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法,其特征在于 濾波器算法包括三步1、根據(jù)數(shù)據(jù)庫索引表查找候選中間結(jié)果;2、計算中間結(jié)果相似度;3、根據(jù)相似度對中間結(jié)果排序。
7.根據(jù)權(quán)利1要求所述的基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法,其特征在于 有選擇的兩層濾波算法,即通過計算第一層濾波器輸出結(jié)果的可信度,來選擇是否進行更為復雜的第二次濾波,即當?shù)谝粚咏Y(jié)果不可信時才經(jīng)過查詢擴展進入第二層濾波。
8.根據(jù)權(quán)利1和權(quán)利2要求所述的基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法,其特 征在于錄制片斷特征提取時幀移是數(shù)據(jù)庫中音頻數(shù)據(jù)幀移的一半。
9.根據(jù)權(quán)利1要求所述的基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法,其特征在于 作為第二層濾波器的一種替代算法,第二層濾波器可以使用更精確的索引結(jié)構(gòu),例如每個聲紋由較少的特征點構(gòu)建,來提高檢索性能。
10.一種基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索裝置,包括(1)離線數(shù)據(jù)庫索引構(gòu)建模塊;音頻數(shù)據(jù)庫單元,即構(gòu)成查詢庫的音頻數(shù)據(jù)庫。聲紋構(gòu)建單元,即提取音頻數(shù)據(jù)特征點,用具有長時結(jié)構(gòu)信息的多個特征點構(gòu)建聲紋;構(gòu)建索引單元,對于音頻庫中音頻文件,用所有的聲紋構(gòu)建一個哈希表索引,聲紋為 鍵,聲紋所在音頻文件名字以及所在音頻文件位置是值。(2)在線查詢搜索模塊。輸入單元,輸入為復雜環(huán)境中錄制的原始音頻片斷; 聲紋構(gòu)建單元,即提取特征點,用具有長時結(jié)構(gòu)信息的多個特征點構(gòu)建聲紋; 濾波器單元,包括三步,分別為根據(jù)哈希索引表查找候選中間結(jié)果,計算中間結(jié)果相 似度,根據(jù)相似度對結(jié)果排序。置信度計算單元,對第一層濾波器輸出結(jié)果進行置信度打分,評價可信度; 查詢擴展單元,使用一種基于容錯的查詢擴展對詢問聲紋進行擴展; 檢索結(jié)果輸出單元,輸出檢索結(jié)果。
全文摘要
本發(fā)明實施例公開了一種基于樣例的音頻檢索方法,即一種基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索方法,能夠通過錄制的音頻片斷搜索到整個音頻的完整信息。本發(fā)明提出了一種新的具有長時結(jié)構(gòu)信息的聲紋生成方法,并采用兩層濾波的方法提高檢索效果。檢索時先提取輸入片斷聲紋特征,通過第一層濾波器,然后計算結(jié)果可信度,決定是否進行第二次濾波,并通過查詢聲紋擴展實現(xiàn)二次濾波。還公開了一種基于長時結(jié)構(gòu)聲紋的多層濾波音頻檢索裝置。實驗表明,利用本發(fā)明實施例,對于10000首歌曲的音頻庫,當詢問片斷為5秒且信噪比為0db時,能達到99.7%的準確率。
文檔編號G10L15/08GK101980197SQ20101052483
公開日2011年2月23日 申請日期2010年10月29日 優(yōu)先權(quán)日2010年10月29日
發(fā)明者劉剛, 王鏹, 郭軍 申請人:北京郵電大學