專利名稱:聲音空間基準(zhǔn)模型的在線自適應(yīng)調(diào)節(jié)方法及裝置和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及AV數(shù)據(jù)處理,具體涉及一種對聲音空間的基準(zhǔn)模型進行在線自適應(yīng)調(diào)節(jié)的方法和和裝置,以及包含該裝置的AV設(shè)備。
背景技術(shù):
視頻內(nèi)容中包含了大量的音頻信息,這些音頻信息和視頻的種類之間有著密切的關(guān)系。例如,小孩子相關(guān)的視頻中有大量的小孩子的聲音,外出旅游的視頻中會有野外的具有空曠感的聲音,家庭聚會的視頻會有家庭成員的笑聲和大聲叫喊聲,以及飯店聚會的視頻中會有嗡嗡的環(huán)境噪音和酒杯碰撞的聲音等?;旧厦總€種類的視頻都有其獨特的相對應(yīng)的聲音。利用這些聲音信息,可以對視頻內(nèi)容的種類進行自動標(biāo)記和聚類,把內(nèi)容相近的視頻聚到一起,從而達到方便用戶管理和查找視頻的目的。利用聲音信息對視頻內(nèi)容進行分類的方法基本上分為下面三種方法第一種是對每個視頻分類中的各種特征聲音進行建模,然后通過識別視頻中的每種特征聲音,從而確定視頻種類,比如有孩子哭聲的視頻可能是孩子相關(guān)的視頻,有海浪聲音的視頻可能是去海邊旅游的視頻等。第二種是在聲音空間上建立基準(zhǔn)模型(anchor model),然后把視頻的聲音信息向聲音空間的基準(zhǔn)模型進行投影,最后通過計算投影之間的距離來進行視頻的分類。第三種方法也是在聲音空間建立基準(zhǔn)模型(anchor model),同樣的也要把視頻的聲音信息向聲音空間的基準(zhǔn)模型進行投影,但是最后的距離計算不是計算投影之間的距離,而是通過投影和聲音空間的基準(zhǔn)模型來計算原始視頻之間的聲學(xué)特征距離比如KL距離和散度距離。無論是哪種方法對視頻內(nèi)容進行分類識別,都需要收集一些視頻訓(xùn)練數(shù)據(jù),然后根據(jù)視頻數(shù)據(jù)的音頻信息預(yù)先訓(xùn)練聲音模型。這里通常使用的聲音模型有兩種對應(yīng)于某種聲音或者某類視頻的混合高斯模型(GMM)模型和聲學(xué)空間的基準(zhǔn)模型。第一種聲音模型——混合高斯模型,已經(jīng)在語音識別或者圖像識別中已經(jīng)獲得了大量的成功應(yīng)用。這種模型采用的是極大似然準(zhǔn)則對需要建模的聲音或者視頻種類進行模型的參數(shù)估計的,訓(xùn)練后的模型要求能夠精確的描述待建模對象的主要特征,而忽略其次要特征。對于第二種聲音模型——聲學(xué)空間的基準(zhǔn)模型的訓(xùn)練,其訓(xùn)練的準(zhǔn)則是使得基準(zhǔn)模型最大程度的覆蓋原始的聲音空間。模型參數(shù)估計通常采用的是K-means聚類、LBG分裂或者EM算法進行模型的參數(shù)估計的。無論是采用哪種模型進行視頻分類,都會遇到一個模型訓(xùn)練的視頻數(shù)據(jù)和實際模型使用場合的測試數(shù)據(jù)不相互匹配的問題,這種不匹配會嚴(yán)重的消弱模型在視頻分類中的作用,極大的降低視頻分類的準(zhǔn)確性。因此需要采用一種自適應(yīng)調(diào)節(jié)技術(shù),能夠根據(jù)實際的測試數(shù)據(jù)對模型的參數(shù)進行在線的調(diào)整,以較小或者消除訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)不匹配所造成的系統(tǒng)性能的降低。聲音空間模型的在線自適應(yīng)被認(rèn)為是解決上面問題的一個方法。傳統(tǒng)的基于極大似然概率最大的MAP和MLLR算法曾經(jīng)是自適應(yīng)混合高斯模型(GMM)最有效的方法,但是這些方法在自適應(yīng)聲音空間模型的時候卻存在著理論上的缺陷。因為這些方法都是基于極大似然概率準(zhǔn)則的,而不是保證對聲音空間覆蓋的完備性的。例如,用戶需要分類的一段一個小時的視頻中恰好有半分鐘的哭聲,而在原始的聲音空間模型中不包含任何的哭聲信息,這樣的話哭聲就不能在整個聲音空間中找到自己的映射,這樣兩段同樣的擁有孩子哭聲的視頻在計算距離的時候就很難保證它們之間距離非常近。對于上面的例子中,孩子哭聲只有半分鐘,但是視頻長度卻有一個小時,因此采用極大似然概率準(zhǔn)則的方法來自適應(yīng)聲音空間的基準(zhǔn)模型的話,也只可能是把聲音空間模型調(diào)向當(dāng)前測試視頻中的大概率時間,而孩子哭聲這樣的小概率事件將被忽略。
發(fā)明內(nèi)容
本發(fā)明的目的是提出一種根據(jù)輸入的音頻數(shù)據(jù)對聲音空間的基準(zhǔn)模型進行在線自適應(yīng)調(diào)節(jié)的方法和裝置以及AV系統(tǒng)。在本發(fā)明的一個方面,提供了一種在AV設(shè)備中用輸入的AV流中包含的音頻流對聲音空間的基準(zhǔn)模型進行在線自適應(yīng)調(diào)節(jié)的方法,包括步驟估計音頻流中每個聲音事件的單一概率模型,所述聲音事件具有單一的聲學(xué)特征;針對事先存儲的至少一個單一概率模型和各個聲音事件的單一概率模型進行聚類,以更新所述聲音空間的基準(zhǔn)模型。在本發(fā)明的另一方面,提供了一種在AV設(shè)備中用輸入的AV流中包含的音頻流對聲音空間的基準(zhǔn)模型進行在線自適應(yīng)調(diào)節(jié)的裝置,包括存儲單元,存儲至少一個單一概率模型;估計單元,估計音頻流中每個聲音事件的單一概率模型,所述聲音事件具有單一的聲學(xué)特征;聚類單元,針對存儲單元中事先存儲的至少一個單一概率模型和估計單元估計的各個聲音事件的單一概率模型進行聚類,以更新所述聲音空間的基準(zhǔn)模型。利用上述方案,可以根據(jù)隨時輸入的AV流來自適應(yīng)在線調(diào)節(jié)聲音空間的基準(zhǔn)模型,從而避免了聚類過程中的遺漏。即使對于較長AV流中的一小段聲音事件,也能夠?qū)崿F(xiàn)正確的聚類。另外,根據(jù)本發(fā)明的實施例,把訓(xùn)練數(shù)據(jù)的聲音信息表示成一種模型信息,然后在測試的時候會把測試數(shù)據(jù)的聲音信息也轉(zhuǎn)化成一種模型信息。兩種模型信息相結(jié)合,進行快速的自適應(yīng)更新,形成新的能夠完全覆蓋測試數(shù)據(jù)的聲音空間的基準(zhǔn)模型。
通過下面結(jié)合
本發(fā)明的優(yōu)選實施例,將使本發(fā)明的上述及其它目的、特征和優(yōu)點更加清楚,其中圖1是描述聲音空間的基準(zhǔn)模型的特點的示意圖;圖2示出了根據(jù)本發(fā)明實施例的AV設(shè)備和對聲音空間的基準(zhǔn)模型進行在線自適應(yīng)調(diào)節(jié)的裝置的結(jié)構(gòu)框圖;圖3示出了圖2所示的裝置中對單高斯模型進行快速聚類的過程;以及圖4示出了根據(jù)本發(fā)明實施例的對聲音空間的基準(zhǔn)模型進行在線自適應(yīng)調(diào)節(jié)和音頻聚類方法的流程圖。
具體實施方式
下面參照附圖對本發(fā)明的優(yōu)選實施例進行詳細(xì)說明,在描述過程中省略了對于本發(fā)明來說是不必要的細(xì)節(jié)和功能,以防止對本發(fā)明的理解造成混淆。本發(fā)明的實施例中采用聲音空間的聲音基準(zhǔn)模型。聲音空間的基準(zhǔn)模型的種類很多,但是其核心思想是利用某種模型對聲學(xué)空間進行全面的覆蓋,從而組成類似于坐標(biāo)系的一個空間坐標(biāo)系統(tǒng)。任何兩段聲學(xué)特征不同的音頻文件都應(yīng)該被映射到這個坐標(biāo)系中的不同的兩個不同的點。圖1示出了根據(jù)本發(fā)明實施例的聲音空間的基準(zhǔn)模型的例子。對于 AV節(jié)目的聲音空間而言,例如用多個并行的高斯模型來描述聲音空間中的各個點的聲學(xué)特征。根據(jù)本發(fā)明的實施例,AV流是音頻流或者是包含了音頻流的視頻流。如圖1所示,盡管聲音空間的基準(zhǔn)模型的形式可以有很多中,本發(fā)明的實施例中采用基于Universal background model (UBM)的聲音基準(zhǔn)模型。UBM模型實際上是由許多平行的單個高斯模型組成的模型,其數(shù)學(xué)表示形式為{Ν(μ σ 汐 |N 彡 i 彡 1}, ...... (1)其中μ ” σ i分別表示第i個高斯模型的均值和方差。每個高斯模型都是對其均值附近的聲學(xué)空間的一子區(qū)域的描述,這些個高斯模型組合在一起形成一個UBM模型,是對整個聲音空間的一個具體描述。根據(jù)另一實施例,也可以采用與高斯分布模型比較類似的指數(shù)分布模型來描述聲音空間的基準(zhǔn)模型。圖2示出了根據(jù)本發(fā)明實施例的AV設(shè)備以及對聲音空間的基準(zhǔn)模型進行在線自適應(yīng)調(diào)節(jié)的裝置的結(jié)構(gòu)框圖。如圖2所示,根據(jù)本發(fā)明實施例的AV設(shè)備能夠根據(jù)AV流中的音頻流對AV流進行聚類,輸出類別,供用戶加上標(biāo)簽或者進行其他操作。本發(fā)明實施例的AV設(shè)備包括特征提取單元11、映射單元12和AV聚類單元13。特征提取單元11提取輸入的音頻流中的特征,例如梅爾倒譜等。然后,映射單元 12計算每個測試聲音頻段到聲音空間的基準(zhǔn)模型上的映射。通常用的映射就是計算當(dāng)前音段中的每一幀特征的到聲音空間的基準(zhǔn)模型的后驗概率,然后把這些后驗概率加起來除以總的特征幀數(shù)。AV聚類單元13可以采用任何聚類算法基于音段之間的距離來進行音段的聚類了。根據(jù)本發(fā)明的一個實施例,采用基于自低向上的逐步合并的方法進行聚類。根據(jù)本發(fā)明的實施例,兩個音段之間的距離是通過在聲音空間的基準(zhǔn)模型上的映射和聲音空間的基準(zhǔn)模型計算出來的。這里聲音空間的基準(zhǔn)模型可以組合在一起組成一個高斯模型組群,而每個音段在聲音空間的基準(zhǔn)模型上的映射則組成這個高斯模型組群的權(quán)重。這樣音段之間的距離就被定義成這兩個加權(quán)高斯模型群組的距離。最經(jīng)常采用的距離就是KL距離來衡量這兩個音段之間的距離。在上述聲音空間基準(zhǔn)模型的聚類方法中,如果聲音空間基準(zhǔn)模型能夠完整的覆蓋整個聲音空間,那么任何兩個需要計算相互之間距離的音段都可以在聲音空間的基準(zhǔn)模型之上找到自己的映射,這樣通過映射計算的KL距離才能準(zhǔn)確的反映原始兩個音段之間的距離。反之,就可能出現(xiàn)音段無法找到自己對應(yīng)的映射,這樣的距離計算也會出現(xiàn)偏差。但是在實際的應(yīng)用中,用戶可能要聚類的AV文件中所包含的聲音必然尤其自身的特點。這需要對聲音空間的基準(zhǔn)模型進行更新或調(diào)整,以更大限度地覆蓋聲音空間
例如,通過一大堆視頻數(shù)據(jù)訓(xùn)練出一個聲音空間的基準(zhǔn)模型,這個聲音空間的基準(zhǔn)模型覆蓋的聲音空間包括多種聲音,但是唯獨缺少了孩子的哭聲的相關(guān)信息。如果用戶需要分類的一段一個小時的視頻中恰好有半分鐘的哭聲,這樣的話哭聲就不能在整個聲音空間中找到自己的映射,從而導(dǎo)致聚類失敗或者不全面。為了能夠?qū)β曇艨臻g的描述進行更大限度的覆蓋,尤其是在用戶輸入新的AV流進行聚類的情況下,本發(fā)明實施例提出利用用戶輸入的AV流中的音頻流對聲音空間的基準(zhǔn)模型進行在線自適應(yīng)調(diào)整。根據(jù)本發(fā)明的實施例,AV設(shè)備還包括分割單元14、模型估計單元15、存儲基于訓(xùn)練數(shù)據(jù)的模型集合16和基于測試數(shù)據(jù)的模型集合17的存儲器、對單一概率模型進行快速聚類操作的模型聚類單元18、對聚類得到的聲音空間的基準(zhǔn)模型進行調(diào)節(jié)的調(diào)節(jié)單元19, 以及存儲基準(zhǔn)模型的存儲單元20。當(dāng)經(jīng)過特征提取的連續(xù)音頻流進入時,分割單元14音頻流分割成一些音頻小片段,每個音頻小片段應(yīng)該具備單一的聲學(xué)特性,可以把這種具備單一聲學(xué)特征的音頻小片段理解成一個聲音事件。根據(jù)本發(fā)明實施例,分割單元14采用的是基于滑動窗的音頻特征最大跳變點檢測的方法來進行連續(xù)音頻流的分割的。采用一定窗長的滑動窗,按照一定步長在整個音頻特征的特征流上滑動。每次滑動時,滑動窗的中間點都是一個分割點。定義分割點的分割散度如下oi+1,(V2,一CVt代表窗長為τ的滑動窗內(nèi)的語音特征數(shù)據(jù),i是當(dāng)前的滑動窗的起始點。數(shù)據(jù)0i+1,0i+2,"·0 +τ的方差為Σ,數(shù)據(jù)0i+1,0i+2,".Oi^2的方差為乙i,數(shù)據(jù)0i+T/2+1, 0i+T/2+2,…0i+T的方差為Σ 2,則分割點(滑動窗中間點)的分割散度定義為分割散度=log(Σ )-(log( Σ 0+1(^( Σ 2))……(2)分割散度越大,說明這段數(shù)據(jù)窗左右兩端的數(shù)據(jù)的聲學(xué)特征差異越大。最終我們挑選分割散度最大的一些分割點把連續(xù)音頻數(shù)據(jù)分割成聲學(xué)特征單一的音頻小段。在得到音頻小段后,由模型估計單元15針對每個小段進行單高斯模型估計。假設(shè)一個聲學(xué)特征單一的音頻小段的數(shù)據(jù)幀的定義為0t,0t+1,一Ottlm,則其對應(yīng)的單高斯模型的均值參數(shù)和方差參數(shù)估計如下
權(quán)利要求
1.一種在AV設(shè)備中用輸入的AV流中包含的音頻流對聲音空間的基準(zhǔn)模型進行在線自適應(yīng)調(diào)節(jié)的方法,包括步驟估計音頻流中每個聲音事件的單一概率模型,所述聲音事件具有單一的聲學(xué)特征;針對事先存儲的至少一個單一概率模型和各個聲音事件的單一概率模型進行聚類,以更新所述聲音空間的基準(zhǔn)模型。
2.如權(quán)利要求1所述的方法,其中所述事先存儲的至少一個單一概率模型是基于訓(xùn)練數(shù)據(jù)而形成的。
3.如權(quán)利要求1所述的方法,其中所述事先存儲的至少一個單一概率模型是基于之前輸入的AV流而形成的。
4.如權(quán)利要求1所述的方法,所述估計音頻流中每個聲音事件的單一概率模型的步驟包括基于聲音事件將所述音頻流分割成多個音頻段;估計每個音頻段的單一概率模型。
5.如權(quán)利要求1所述的方法,所述針對事先存儲的至少一個單一概率模型和各個聲音事件的單一概率模型進行聚類的步驟包括基于樹分裂的方法來進行聚類,使得概率模型的類別數(shù)目達到預(yù)定數(shù)。
6.如權(quán)利要求5所述的方法,所述基于樹分裂的方法進行聚類的步驟包括將散度距離最大的模型類的中心分裂成兩個概率模型;對散度距離最大的模型類進行聚類,以便將所述模型類分裂成兩個模型類。
7.如權(quán)利要求1所述的方法,還包括步驟針對原有的基準(zhǔn)模型和更新的基準(zhǔn)模型,合并散度小于預(yù)定閾值的概率模型。
8.如權(quán)利要求1所述的方法,其中所述聲音空間的基準(zhǔn)模型是由多個平行的概率模型組成的UBM模型。
9.如權(quán)利要求1所述的方法,其中所述概率模型是高斯概率模型或者指數(shù)分布概率模型。
10.如權(quán)利要求1所述的方法,其中所述聲學(xué)特征包括梅爾倒譜。
11.一種在AV設(shè)備中用輸入的AV流中包含的音頻流對聲音空間的基準(zhǔn)模型進行在線自適應(yīng)調(diào)節(jié)的裝置,包括存儲單元,存儲至少一個單一概率模型;估計單元,估計音頻流中每個聲音事件的單一概率模型,所述聲音事件具有單一的聲學(xué)特征;聚類單元,針對存儲單元中事先存儲的至少一個單一概率模型和估計單元估計的各個聲音事件的單一概率模型進行聚類,以更新所述聲音空間的基準(zhǔn)模型。
12.如權(quán)利要求11所述的裝置,其中所述事先存儲的至少一個單一概率模型是基于訓(xùn)練數(shù)據(jù)而形成的。
13.如權(quán)利要求11所述的裝置,其中所述事先存儲的至少一個單一概率模型是基于之前輸入的AV流而形成的。
14.如權(quán)利要求11所述的裝置,所述估計單元包括分割單元,基于聲音事件將所述音頻流分割成多個音頻段;模型估計單元,估計每個音頻段的單一概率模型。
15.如權(quán)利要求11所述的裝置,所述聚類單元基于樹分裂的方法來進行聚類,使得概率模型的類別數(shù)目達到預(yù)定數(shù)。
16.如權(quán)利要求15所述的裝置,所述聚類單元將散度距離最大的模型類的中心分裂成兩個概率模型,并對散度距離最大的模型類進行聚類,以便將所述模型類分裂成兩個模型類。
17.如權(quán)利要求11所述的裝置,還包括調(diào)節(jié)單元,針對原有的基準(zhǔn)模型和更新的基準(zhǔn)模型,合并散度小于預(yù)定閾值的概率模型。
18.如權(quán)利要求11所述的裝置,其中所述聲音空間的基準(zhǔn)模型是由多個平行的概率模型組成的UBM模型。
19.如權(quán)利要求11所述的裝置,其中所述概率模型是高斯概率模型或者指數(shù)分布概率模型。
20.如權(quán)利要求11所述的裝置,其中所述聲學(xué)特征包括梅爾倒譜。
21.—種AV設(shè)備,包括 如權(quán)利要求11所述的裝置;AV聚類單元,基于所述裝置輸出的聲音空間的基準(zhǔn)模型對輸入的AV流進行聚類。
全文摘要
公開了一種在AV設(shè)備中用輸入的AV流中包含的音頻流對聲音空間的基準(zhǔn)模型進行在線自適應(yīng)調(diào)節(jié)的方法和裝置及設(shè)備。該方法包括步驟估計音頻流中每個聲音事件的單一概率模型,所述聲音事件具有單一的聲學(xué)特征;針對事先存儲的至少一個單一概率模型和各個聲音事件的單一概率模型進行聚類,以更新所述聲音空間的基準(zhǔn)模型。利用上述方案,可以根據(jù)隨時輸入的AV流來自適應(yīng)在線調(diào)節(jié)聲音空間的基準(zhǔn)模型,從而避免了聚類過程中的遺漏。即使對于較長AV流中的一小段聲音事件,也能夠?qū)崿F(xiàn)正確的聚類。
文檔編號G10L15/12GK102237084SQ20101015567
公開日2011年11月9日 申請日期2010年4月22日 優(yōu)先權(quán)日2010年4月22日
發(fā)明者小沼知浩, 張丙奇, 沈海峰, 賈磊, 馬龍 申請人:松下電器產(chǎn)業(yè)株式會社