專利名稱:為聲音信號分配聲級的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及把聲音信號分類成反映語義的聲級的領(lǐng)域。
本發(fā)明更精確地涉及用于自動(dòng)提取聲音信號、語義信息的領(lǐng)域,例如音樂、語音、噪聲、無聲、男聲、女聲、搖滾樂、爵士樂等。
背景技術(shù):
在現(xiàn)有技術(shù)中,豐富的多媒體文件需要索引,索引需要大量的人為干涉,這構(gòu)成要連續(xù)進(jìn)行昂貴而耗時(shí)的操作。因此,語義信息的自動(dòng)提取構(gòu)成了寶貴的幫助,能促進(jìn)和加速分析和索引工作。
在許多應(yīng)用中,對聲音信號設(shè)想其它分析和處理之前,聲帶的語義分段和分類頻繁地構(gòu)成必要操作。
需要語義分段和分類的已知應(yīng)用涉及自動(dòng)語音識(shí)別系統(tǒng),也稱為語音處理系統(tǒng),適合于把語音帶轉(zhuǎn)錄成文本。對于容許的性能等級而言,把聲帶分段和分類成音樂/語音段是基本步驟。
使用自動(dòng)語音識(shí)別系統(tǒng)經(jīng)由視聽文件的內(nèi)容,例如電視新聞進(jìn)行索引,需要消除非語音段以便降低錯(cuò)誤率。而且,原則上,如果說話者(男生或女生)的知識(shí)是可用的,則使用自動(dòng)語音識(shí)別系統(tǒng)能實(shí)現(xiàn)性能的顯著提高。
需要求助于聲帶的語義分段和分類的另一公知的應(yīng)用涉及統(tǒng)計(jì)和監(jiān)控系統(tǒng)。實(shí)際上,對于有關(guān)版權(quán)或有關(guān)廣播時(shí)間定額的問題,管理和檢查機(jī)關(guān),如法國的CSA或SACEM,必須基于具體報(bào)告,例如關(guān)于政治家在CSA電視網(wǎng)上的廣播持續(xù)時(shí)間,以及由SAGEM無線電傳送的歌曲名稱和持續(xù)時(shí)間。自動(dòng)統(tǒng)計(jì)和監(jiān)控系統(tǒng)的實(shí)施是以預(yù)先的音樂/語音聲帶的分段和分類為基礎(chǔ)的。
另一可能的應(yīng)用涉及自動(dòng)視聽節(jié)目摘要或過濾系統(tǒng)。對于許多應(yīng)用,例如,移動(dòng)電話或郵購視聽節(jié)目量,似乎必須根據(jù)用戶的興趣中心把兩個(gè)小時(shí)的視聽節(jié)目盡可能地概述成幾分鐘的強(qiáng)瞬時(shí)編輯。這樣的概述可以離線或在線產(chǎn)生,離線也就是它涉及預(yù)先計(jì)算與原始節(jié)目相關(guān)的摘要,在線也就是涉及視聽節(jié)目的過濾,只有節(jié)目的強(qiáng)瞬時(shí)才能以廣播或流動(dòng)模式得以保持。強(qiáng)瞬時(shí)依賴于視聽節(jié)目和用戶的興趣中心。例如,在足球比賽中,強(qiáng)瞬時(shí)是有進(jìn)球動(dòng)作的地方。對于動(dòng)作影片,強(qiáng)瞬時(shí)對應(yīng)于戰(zhàn)斗、追擊等。所述強(qiáng)瞬時(shí)更頻繁地導(dǎo)致聲帶上的沖擊。為了識(shí)別它們,感興趣的是在具有或沒有某個(gè)特性的段內(nèi)提取聲帶的分段和分類。
在現(xiàn)有技術(shù)中,存在各種聲音信號分類系統(tǒng)。例如,文件WO9827543描述了把聲音信號分類成音樂或語音的技術(shù)。所述文件設(shè)想研究聲音信號的各種可測量參數(shù),例如4Hz時(shí)的調(diào)制能量、頻譜通量、頻譜通量的變量、過零率等。在一秒或另一持續(xù)時(shí)間的窗口內(nèi)提取所述參數(shù),以便定義頻譜通量的變量或幀,例如過零率。然后,使用各種分類器,例如基于正態(tài)(高斯分布)律混合的分類器或最近鄰(NearestNeihbour)分類器,獲得大約6%的錯(cuò)誤率。執(zhí)行分類器的培訓(xùn)達(dá)到36分鐘,而測試達(dá)到4分鐘。所述結(jié)果顯示提出的技術(shù)需要顯著大小的培訓(xùn)基礎(chǔ),以便實(shí)現(xiàn)95%的識(shí)別率。如果對于四十分鐘的視聽文件來說這是可能的,則所述技術(shù)對于具有很大尺寸的要分類的數(shù)據(jù)似乎不可能進(jìn)行應(yīng)用,其具有各種文件源產(chǎn)生的高度可變性,對于每個(gè)所述文件而言,具有不同等級的噪聲和分辨率。
專利US 5712953描述了使用變量的系統(tǒng),所述變量與第一瞬時(shí)頻譜的時(shí)間有關(guān),所述頻譜與用于檢測音樂信號的頻率有關(guān)。所述文件預(yù)先假設(shè)與其它非音樂信號相比,所述變量相對音樂非常低。不幸地,不同類型的音樂不具有相同的結(jié)構(gòu),這樣例如對于ASR而言,上述系統(tǒng)具有不充分的性能。
歐洲專利請求1100073提出使用十八個(gè)參數(shù)把聲音信號分類成不同種類,例如,信號功率的平均和方差、中間頻率功率等。產(chǎn)生向量量化,并且Mahalanobis距離用于分類。似乎使用信號功率是不穩(wěn)定的,因?yàn)閺牟煌粗挟a(chǎn)生的信號總是用不同等級的頻譜功率來記錄。而且,用于區(qū)別音樂和語音的參數(shù)的使用,例如低頻或高頻功率的使用,是對音樂和語音的極限變量的嚴(yán)重限制。最后,為十八個(gè)不相似參數(shù)的向量選擇適當(dāng)距離不是顯而易見的,因?yàn)樗婕案鶕?jù)所述參數(shù)的重要性為其分配不同的權(quán)重。
同樣,在由ZHU LIU等人撰寫的文章“AUDIO FEATUREEXTRACTION AND ANALYSIS FOR SCENE SEGMENTATION ANDCLASSIFICATION”,JOURNAL OF VLSI SIGNAL PROCESSINGSYSTEMS FOR SIGNAL,IMAGE AND VIDEO TECHNOLOGY,KLUWER ACADEMIC PUBLISHERS,DORDRECHT,NL,Vol.20,no.1/2,1 October 1998(1998年10月1日),第61-78頁,XP 000786728,ISBN0922-5773中,描述了把聲音信號分類成聲級的技術(shù)。所述技術(shù)設(shè)想在幾十毫秒的窗口內(nèi)分割聲音信號并在1秒的窗口內(nèi)組合。通過計(jì)算稱為頻率參數(shù)的某些參數(shù)的平均值而產(chǎn)生組合。為了獲得所述頻率參數(shù),所述方法包括從信號頻譜中提取測量值,例如頻譜中心或低頻(0-630Hz)、中間頻率(630-1720Hz)、高頻(1720-4400Hz)的能量對能量比。
這樣的方法特別提出考慮對頻譜計(jì)算之后提取的參數(shù)。這種方法的實(shí)施不能獲得滿意的識(shí)別率。
發(fā)明內(nèi)容
因此,本發(fā)明旨在通過提出一種技術(shù)來解決上述缺點(diǎn),所述技術(shù)能使聲音信號分類成語義等級,具有高識(shí)別率,同時(shí)需要減少的培訓(xùn)時(shí)間。
為了實(shí)現(xiàn)上述目的,按照本發(fā)明的方法涉及一種用于將為聲音信號分配至少一個(gè)聲級的方法,包括下列步驟·把聲音信號分成具有特定持續(xù)時(shí)間的時(shí)間段,·提取每個(gè)時(shí)間段內(nèi)的聲音信號的頻率參數(shù),·在時(shí)間窗口內(nèi)組合這些參數(shù),時(shí)間窗口具有大于時(shí)間段持續(xù)時(shí)間的特定持續(xù)時(shí)間,·從每個(gè)時(shí)間窗口提取特征分量,·以及根據(jù)提取的特征分量并使用分類器,識(shí)別聲音信號的每個(gè)時(shí)間窗口的聲級。
本發(fā)明的另一目的是提出一種用于為聲音信號分配至少一個(gè)聲級的裝置,包括·用于把聲音信號分成具有特定持續(xù)時(shí)間的時(shí)間段的設(shè)備,·用于提取每個(gè)時(shí)間段內(nèi)的聲音信號的頻率參數(shù)的設(shè)備,
·用于在時(shí)間窗口內(nèi)組合這些參數(shù)的設(shè)備,時(shí)間窗口具有大于時(shí)間段持續(xù)時(shí)間的特定持續(xù)時(shí)間,·用于從每個(gè)時(shí)間窗口提取特征分量的設(shè)備,·以及用于根據(jù)提取的特征分量并使用分類器來識(shí)別聲音信號的時(shí)間窗口的聲級的設(shè)備。
前述參考附圖的說明中出現(xiàn)了各種其它特征,其中這些附圖用非限定實(shí)例的方式圖示了本發(fā)明實(shí)施例的形式。
圖1給出了依據(jù)本發(fā)明實(shí)施聲音信號分類方法的裝置的方框圖;圖2給出了按照本發(fā)明的方法特征步驟的圖,也就是變換圖;圖3給出了本發(fā)明的另一特征步驟的圖;圖4給出了按照本發(fā)明的聲音信號分類步驟;圖5給出了在本發(fā)明范圍內(nèi)使用的神經(jīng)網(wǎng)絡(luò)實(shí)例的圖。
具體實(shí)施例方式
如在圖1中更準(zhǔn)確地描述,本發(fā)明涉及能對任何類型聲級的聲音信號S進(jìn)行分類的裝置1。換句話說,將聲音信號S切割成段,這些段按照它們的內(nèi)容進(jìn)行標(biāo)注。與每個(gè)段相關(guān)的標(biāo)簽,例如音樂、語音、噪音、男生、女生等,把聲音信號分類成語義類別或語義聲級。
依據(jù)本發(fā)明,將要分類的聲音信號S施加到分段設(shè)備10的輸入端,分段設(shè)備10能使聲音信號S分成時(shí)間段T,每個(gè)時(shí)間段T具有特定的持續(xù)時(shí)間。優(yōu)選地,時(shí)間段T都具有優(yōu)選的在10和30毫秒之間的相同持續(xù)時(shí)間。至于每個(gè)時(shí)間段T都具有幾毫秒的持續(xù)時(shí)間,可以認(rèn)為信號是穩(wěn)定的,以使后來可以應(yīng)用改變頻域內(nèi)時(shí)間信號的變換??梢允褂貌煌愋偷臅r(shí)間段,例如,簡單矩形窗口,Hanning窗口或Hamming窗口。
因此,裝置1包括提取設(shè)備20,提取設(shè)備20能提取每個(gè)時(shí)間段T內(nèi)聲音信號的頻率參數(shù)。裝置1也包括設(shè)備30,設(shè)備30用于在時(shí)間窗口F內(nèi)組合所述頻率參數(shù),時(shí)間窗口F具有比時(shí)間段T的持續(xù)時(shí)間更大的特定持續(xù)時(shí)間。
根據(jù)實(shí)施例的優(yōu)選特征,在時(shí)間窗口F內(nèi)組合頻率參數(shù),其中持續(xù)時(shí)間大于0.3秒,優(yōu)選地,在0.5和2秒之間。確定時(shí)間窗口F的大小選擇以便能在聽覺上區(qū)別兩個(gè)不同窗口,例如,語音、音樂、男生、女生、無聲等。例如,如果時(shí)間窗口F是幾十毫秒短,則可以檢測到音量變化類型的局部聽覺變化、樂器的變化、以及單詞的開始或結(jié)束。如果窗口很大,例如幾百毫秒,則可檢測的變化將是更普通的變化類型,例如音樂節(jié)奏或語音節(jié)奏類型的變化。
裝置1也包括提取設(shè)備40,提取設(shè)備40能從每個(gè)時(shí)間窗口F中提取特征分量。根據(jù)提取的所述特征分量并且使用分類器50,識(shí)別設(shè)備60能識(shí)別聲音信號S的每個(gè)時(shí)間窗口F的聲級。
下面的說明描述了聲音信號分類方法實(shí)施例的優(yōu)選變型。
根據(jù)實(shí)施例的優(yōu)選特征,為了從時(shí)域跨過進(jìn)入頻域,在采樣聲音信號的情況下,提取設(shè)備20使用離散傅立葉變換(Discrete FourierTransform,DFT),DFT之后進(jìn)行記錄。離散傅立葉變換為信號幅度值的時(shí)間序列提供一系列頻譜值。離散傅立葉變換公式如下XN(n)=Σk=0N-1x(k)e-j2πkn/N]]>其中x(k)是時(shí)域內(nèi)的信號。
術(shù)語|X(n)|稱為幅譜,它表示信號x(k)幅度的分頻。
術(shù)語arg[X(n)]稱為相譜,它表示信號x(k)相位的分頻。
術(shù)語|X(n)|2稱為能譜,表示信號x(k)能量的分頻。
這些值廣泛用作能譜值。
因此,對于時(shí)間段T內(nèi)的信號x(k)幅度的一系列時(shí)間值而言,獲得位于最小頻率和最大頻率之間的頻率范圍內(nèi)的Xi序列的頻譜值。所述頻率值或參數(shù)的集合稱為“DFT向量”或頻譜向量。每個(gè)Xi向量與每個(gè)時(shí)間段T的頻譜向量對應(yīng),其中i從1到n。
根據(jù)實(shí)施例的優(yōu)選特征,對經(jīng)由變換設(shè)備25預(yù)先獲取的頻率參數(shù)執(zhí)行變換或過濾操作,變換設(shè)備25插在提取設(shè)備20和組合設(shè)備30之間。如在圖2中更準(zhǔn)確地描述,所述變換操作能從Xi頻譜向量中生成變換特征的向量Yi。通過帶有變量即boundary 1,boundary 2和aj的公式y(tǒng)i提供變換,這些變量精確定義變換。
變換可以是同一類型以便Xi特征值不變。根據(jù)所述變換,boundary1和boundary 2等于j,而參數(shù)aj等于1。頻譜向量Xi等于Yi。
變換可以是兩個(gè)相鄰頻率的平均變換。根據(jù)所述變換類型,可以獲得兩個(gè)相鄰頻譜的平均值。例如,可以選擇boundary 1等于j,boundary 2等于j+1,而aj等于0.5。
使用的變換可以是遵循Mel標(biāo)度近似值的變換??梢酝ㄟ^按照下列值改變boundary 1和boundary 2變量而獲得所述變換0,1,2,3,4,5,6,8,9,10,12,15,17,20,23,27,31,37,40,其中aj=1|boundary1-boundary2|]]>例如,通過如上所示選擇boundary 1和boundary 2,使用圖2中所示的方程式,可以從總X維向量40中獲得Y維向量20。
Boundary 1=0→boundary 2=1Boundary 1=1→boundary 2=2Boundary 1=2→boundary 2=3Boundary 1=3→boundary 2=4Boundary 1=4→boundary 2=5Boundary 1=5→boundary 2=6Boundary 1=6→boundary 2=8Boundary 1=8→boundary 2=9boundary 1=9→boundary 2=10boundary 1=10→boundary 2=12boundary 1=12→boundary 2=15boundary 1=15→boundary 2=17boundary 1=17→boundary 2=20boundary 1=20→boundary 2=23boundary 1=23→boundary 2=27boundary 1=27→boundary 2=31boundary 1=31→boundary 2=37boundary 1=37→boundary 2=40關(guān)于Xi頻譜向量的變換根據(jù)應(yīng)用,也就是根據(jù)要分類的聲級,而更有效或更無效。在其余說明書中將提供對所述變換進(jìn)行選擇的實(shí)例。
如從前述說明中得出,按照本發(fā)明的方法包括從每個(gè)時(shí)間窗口F提取特征分量,在具有相對大的持續(xù)時(shí)間的所述窗口上能獲得聲音信號的描述。因此,對于每個(gè)時(shí)間窗口F的Yi向量而言,計(jì)算的特征分量可以是平均數(shù)、方差、瞬間(moment)、頻率監(jiān)控參數(shù)或無聲交叉率(crossing rate)。根據(jù)下列公式執(zhí)行所述特征分量的估算wi→=wi1wi2···wiN]]>μi→=μi1μi2···μiN]]>vi→=vi1vi2···viN]]>xi→=xi1xi2···xiN]]>其中 是平均向量, 是方差向量, 是特征值,所述特征值決不大于前述過濾頻譜向量以便構(gòu)成時(shí)間窗口F。
μij=1MΣl=1Mixlj---j=1,...,N]]>其中j對應(yīng)于頻譜向量 內(nèi)的頻帶,l對應(yīng)于提取向量的時(shí)間或瞬間(時(shí)間段T),N是向量內(nèi)的元素?cái)?shù)量(或頻帶數(shù)量),Mi對應(yīng)于向量數(shù)量以分析它們的統(tǒng)計(jì)量(時(shí)間窗口F),μij內(nèi)的i對應(yīng)于計(jì)算μij的時(shí)間窗口F的瞬時(shí),j對應(yīng)于頻帶。
vij=1MiΣl=1Mi(xlj-μij)2---j=1,...,N]]>其中j對應(yīng)于頻譜向量 和平均向量 內(nèi)的頻帶,l對應(yīng)于提取向量 的時(shí)間或瞬間(時(shí)間段T),N是向量內(nèi)的元素?cái)?shù)量(或頻帶數(shù)量),Mi對應(yīng)于向量數(shù)量以分析它們的統(tǒng)計(jì)量(時(shí)間窗口F),μij和vij內(nèi)的i對應(yīng)于計(jì)算 和 的時(shí)間窗口F的瞬時(shí),j對應(yīng)于頻帶。
瞬間對于描述數(shù)據(jù)狀態(tài)來說可以是重要的,按照下列方法計(jì)算所述瞬間wij=1MiΣl=1Mi(xlj-μij)n---j=1,...,N]]>系數(shù)i,j,N,l,Mi解釋為變量,并且n>2。
按照本發(fā)明的方法也能把參數(shù)FM確定為特征分量,能監(jiān)控頻率。實(shí)際上應(yīng)注意,對于音樂而言存在某種頻率連續(xù)性,也就是信號內(nèi)的最重要頻率,也就是集中最大能量的頻率在某一時(shí)間內(nèi)保持相同,然而,對于語音或?qū)τ谠胍?非諧波)而言,頻率內(nèi)最有效的變化更迅速地出現(xiàn)。根據(jù)所述報(bào)告,提出根據(jù)精確間隔,例如200Hz,同時(shí)執(zhí)行多個(gè)頻率的監(jiān)控。所述選擇由音樂內(nèi)最重要頻率變化的事實(shí)來激發(fā),但以漸進(jìn)的方式。按照下列方式執(zhí)行所述頻率監(jiān)控參數(shù)FM的提取。對于每個(gè)離散傅立葉變換Yi向量而言,例如執(zhí)行五個(gè)最重要頻率的識(shí)別。如果在100Hz頻帶內(nèi)所述頻率之一不出現(xiàn)在離散傅立葉變換向量的五個(gè)最重要頻率內(nèi),則發(fā)出切割信號。計(jì)算每個(gè)時(shí)間窗口F內(nèi)切割的數(shù)量,每個(gè)時(shí)間窗口F內(nèi)切割的數(shù)量定義頻率監(jiān)控參數(shù)FM。用于音樂段的所述參數(shù)FM明顯低于用于語音或噪音的所述參數(shù)FM。同樣,上述參數(shù)對于區(qū)別音樂和語音而言是重要的。
根據(jù)本發(fā)明的另一特征,所述方法包括把無聲交叉率SCR定義為特征分量。所述參數(shù)包括在固定大小的例如兩秒的窗口內(nèi)計(jì)算能量達(dá)到無聲閾值的次數(shù)。實(shí)際上,必須認(rèn)為,在表達(dá)單詞期間聲音信號的能量通常是高的,然而在單詞之間它降低到無聲閾值之下。按照下列方式執(zhí)行參數(shù)的提取。對于每10毫秒信號,計(jì)算信號能量。計(jì)算能量關(guān)于時(shí)間的導(dǎo)數(shù),也就是T+1的能量小于瞬時(shí)T時(shí)的能量。然后在2秒鐘的窗口內(nèi),計(jì)算能量導(dǎo)數(shù)超過某一閾值的次數(shù)。
如在圖3中更準(zhǔn)確地描述,從每個(gè)時(shí)間窗口F提取的參數(shù)定義特征值Z。因此,所述特征值Z是定義的特征分量的串聯(lián),即平均數(shù)、方差、瞬間向量、以及頻率監(jiān)控FM和無聲交叉率SCR。根據(jù)應(yīng)用,由于分類而使用來自特征值Z的分量的僅僅一部分或全部。例如,如果提取頻譜的頻率范圍是在0和4000Hz之間,對于100Hz的頻率間距,每個(gè)頻譜向量獲得40個(gè)元素。如果對于總Xi特征值的變換應(yīng)用等同性,則平均向量獲得40個(gè)元素,方差向量獲得40個(gè)元素,以及瞬間向量獲得40個(gè)元素。在SCR和FM參數(shù)的串聯(lián)和相加之后,獲得帶有122個(gè)元素的特征值Z。根據(jù)應(yīng)用,通過考慮例如40或80個(gè)元素,可以選擇所述特征值的全部或只有子集。
根據(jù)本發(fā)明的優(yōu)選實(shí)施例,所述方法包括使用插在提取設(shè)備40和分類器50之間的標(biāo)準(zhǔn)化設(shè)備45對特征分量進(jìn)行標(biāo)準(zhǔn)化操作。對于平均向量而言,所述標(biāo)準(zhǔn)化包括搜索具有最大值的分量,并且用所述最大值除平均向量的其它分量。對于方差和瞬間向量而言,執(zhí)行類似的操作。對于頻率監(jiān)控FM和無聲雜交率SCR而言,用實(shí)驗(yàn)之后固定的常數(shù)除所述兩個(gè)參數(shù),以便總是獲得0.5和1之間的值。
所述標(biāo)準(zhǔn)化階段之后,獲得特征值,特征值的每個(gè)分量具有0和1之間的值。如果頻譜向量已經(jīng)進(jìn)行了變換,特征值的所述標(biāo)準(zhǔn)化階段可以不是必需的。
如在圖4中更準(zhǔn)確地描述,根據(jù)本發(fā)明的方法包括提取參數(shù)或構(gòu)成特征值Z之后,選擇分類器50,使用識(shí)別或分類設(shè)備60能把每個(gè)向量有效地標(biāo)記為定義的聲級之一。
根據(jù)實(shí)施例的第一實(shí)例,使用的分類器是神經(jīng)網(wǎng)絡(luò),例如具有兩層隱蔽層的多層感知器。圖5給出了神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),例如,包括82個(gè)輸入元素、39個(gè)用于隱藏層的元素、以及7個(gè)輸出元素。當(dāng)然,顯然可以對所述元素?cái)?shù)量進(jìn)行修改。輸入層元素對應(yīng)于特征值Z的分量。例如,如果選擇為80節(jié)點(diǎn)輸入層,則可以使用部分特征值Z,例如對應(yīng)于平均數(shù)和瞬間的分量。對于隱藏層而言,使用的39個(gè)元素似乎足夠了;增加神經(jīng)元的數(shù)量不會(huì)導(dǎo)致性能的顯著提高。用于輸出層的元素?cái)?shù)量對應(yīng)于要分類的等級數(shù)量。如果要分類兩個(gè)聲級,例如音樂和語音,則輸出層包括兩個(gè)節(jié)點(diǎn)。
當(dāng)然,可以使用另一類型的分類器,例如常規(guī)的K-最臨近(NearestNeighbour)(KNN)分類器。在這種情況下,培訓(xùn)知識(shí)簡單地構(gòu)成培訓(xùn)數(shù)據(jù)。培訓(xùn)存儲(chǔ)包括存儲(chǔ)所有培訓(xùn)數(shù)據(jù)。當(dāng)出現(xiàn)特征值Z進(jìn)行分類時(shí),合理的是為所有培訓(xùn)數(shù)據(jù)計(jì)算距離以便選擇最近的等級。
分類器的使用能識(shí)別聲級,例如語音或音樂、男聲或女聲、聲音信號的特征瞬間或非特征瞬間、伴隨表示,例如影片或比賽的視頻信號的特征瞬間或非特征瞬間。
下面的說明提供了按照本發(fā)明把聲帶分成音樂或語音的方法的應(yīng)用實(shí)例。根據(jù)所述實(shí)例,將輸入聲帶分成一連串語音、音樂、無聲或其它間隔。由于無聲段的特征化容易,所以對語音或音樂分割進(jìn)行試驗(yàn)。對于所述應(yīng)用,使用特征值Z的子集,其包含82個(gè)用于平均數(shù)的元素和80個(gè)用于方差的元素,以及一個(gè)用于SCR的元素和一個(gè)用于FM的元素。對向量進(jìn)行等同性變換和標(biāo)準(zhǔn)化。每個(gè)時(shí)間窗口F的大小等于2秒。
為了圖解前述聲音段的特征和提取,使用兩個(gè)分類器,一個(gè)基于神經(jīng)網(wǎng)絡(luò)NN,另一個(gè)使用簡單的k-NN原理,也就是“K-NearestNeighbour”。在測試方法一般性的目的中,對從阿拉伯語的Aljazeerah網(wǎng)“http//www.aljazeera.net/”提取的80秒音樂和80秒語音進(jìn)行NN和k-NN訓(xùn)練。然后,關(guān)于音樂語料庫和語音語料庫,即兩個(gè)高度變化的特性總和為1280秒(大于21分鐘)的語料庫,測試兩個(gè)分類器。關(guān)于音樂段分類的結(jié)果提供在下表中。
表1使用NN和k-NN分類音樂的成功率可以看出,所有的k-NN分類器提供的成功率高于94%,而NN分類器的成功率高達(dá)97.8%。也可以注意到NN分類器的良好概括能力。實(shí)際上,當(dāng)對80秒黎巴嫩音樂進(jìn)行訓(xùn)練時(shí),對于完全不同類型音樂的George Michael產(chǎn)生100%的成功分類,甚至對Metallica產(chǎn)生97.5%的分類成功率,Metallica是被認(rèn)為很難的搖滾樂。
至于對語音段的試驗(yàn),對從英語CNN節(jié)目、法語LCI節(jié)目以及影片“Gladiator”產(chǎn)生的不同提取進(jìn)行試驗(yàn),而以80秒的阿拉伯語音對兩個(gè)分類器進(jìn)行訓(xùn)練。下表提供用于兩個(gè)分類器的結(jié)果。
表2使用NN和k-NN分類語音的成功率表中示出,分類器證明是對法語的LCI提取特別有效,因?yàn)樗a(chǎn)生100%的正確分類。對于英語的CNN提取,它仍然產(chǎn)生大于92.5%的良好分類成功率,全部的NN分類器達(dá)到97%的分類成功率,而k-NN產(chǎn)生87%的良好分類成功率。
根據(jù)另一試驗(yàn),選擇NN分類器的所述支持結(jié)果,并且應(yīng)用于混合語音和音樂的段。為此,通過“Aljazeerah”網(wǎng)廣播的40秒節(jié)目“theLebanese war”產(chǎn)生音樂培訓(xùn),然后,從相同的節(jié)目中提取80秒的阿拉伯語語音。關(guān)于30分鐘的影片“The Avengers”對NN分類器進(jìn)行測試,對影片“The Avengers”進(jìn)行分段和分類。所述試驗(yàn)的結(jié)果提供在下表中。
表3對影片分段-分類的結(jié)果在比較依據(jù)本發(fā)明的分類器和根據(jù)現(xiàn)有技術(shù)的工作的目標(biāo)中,關(guān)于相同的語料庫對由Virage使用的“Muscle Fish”工具(http//musclefish.com/speechMusic.zip)進(jìn)行測試,并且獲得下列結(jié)果
表4Muscle Fish工具對影片分段-分類的結(jié)果可以清楚地注意到,NN分類器在準(zhǔn)確率方面超過Muscle Fish工具10個(gè)點(diǎn)。
最后,也關(guān)于10分鐘的“LCI”節(jié)目對NN分類器進(jìn)行測試,節(jié)目包括“I’édito”、“I’Invité”和Ia vie des medias”,并且獲得下列結(jié)果
表5對LCI節(jié)目分段-分類的結(jié)果而“Muscle Fish“工具提供下列結(jié)果
表6使用Muscle Fish工具對LCI節(jié)目分段-分類的結(jié)果NN分類器的總計(jì)結(jié)果如下
表7對各種視頻分段-分類的結(jié)果可以看出,在所述試驗(yàn)中的50分鐘內(nèi)準(zhǔn)確率高于92%,NN分類器只產(chǎn)生4%的T/T率(培訓(xùn)持續(xù)時(shí)間/測試持續(xù)時(shí)間),其與用于[Will99]系統(tǒng)(Gethin Williams,Daniel Eillis,Speech/music discriminationbased on posterior probability features,Eurospeech 1999)的300%的T/T率相比是非常鼓舞人心的,[Will 99]系統(tǒng)是基于HMM(隱馬爾科夫模型)后概率參數(shù),并且使用GMM。
產(chǎn)生試驗(yàn)的第二實(shí)例以便分類男聲和女聲的聲音信號。根據(jù)所述試驗(yàn),將語音段切割成標(biāo)記有男聲和女聲的塊。對于這個(gè)效果,特征值不包括無聲雜交率和頻率監(jiān)控。因此,所述兩個(gè)參數(shù)的權(quán)重變成0。時(shí)間窗口F的大小固定在1秒。
對來自“Linguistic Data Consortium”LCD(http//www.ldc.upenn.edu)Switchboard中的電話呼叫的數(shù)據(jù)進(jìn)行試驗(yàn)。其被選擇用于在相同類型的揚(yáng)聲器之間進(jìn)行培訓(xùn)和電話呼叫測試,也就是男對男和女對女會(huì)話。關(guān)于從4個(gè)男對男電話呼叫中提取的300秒語音和從4個(gè)女對女電話呼叫中提取的300秒語音來進(jìn)行培訓(xùn)。對按照本發(fā)明的方法測試6000秒(100分鐘),即從10個(gè)男對男呼叫中提取3000s和從10個(gè)女對女呼叫中提取3000秒,10個(gè)男對男呼叫不同于用作培訓(xùn)的呼叫,10個(gè)女對女呼叫也不同于用作培訓(xùn)的呼叫。下表總結(jié)獲取的結(jié)果。
可以看出,對于進(jìn)行培訓(xùn)的語音采樣,全部檢測率都是87.5%,所述語音采樣只是測試語音的10%。也可以注意到,按照本發(fā)明的方法產(chǎn)生比男生(85%)語音檢測更好的女生(90%)語音檢測。如果多數(shù)選舉原則應(yīng)用于盲目分段之后的同類段,并且如果消除長無聲,則還能顯著地提高所述結(jié)果,長無聲比較經(jīng)常地出現(xiàn)在電話對話內(nèi),并且長無聲通過按照本發(fā)明的技術(shù)產(chǎn)生女生標(biāo)記。
另一試驗(yàn)旨在把聲音信號分類成重要瞬間或不在運(yùn)動(dòng)比賽中。在直接視聽轉(zhuǎn)播內(nèi)容的運(yùn)動(dòng)比賽中,例如足球比賽,關(guān)鍵瞬間的檢測對于能自動(dòng)產(chǎn)生視聽摘要來說非常重要,視聽摘要可以是圖像編輯,從而檢測到關(guān)鍵瞬間。在足球比賽的環(huán)境內(nèi),關(guān)鍵瞬間是進(jìn)球動(dòng)作、處罰等出現(xiàn)時(shí)的瞬間。例如,在籃球比賽的環(huán)境中,關(guān)鍵瞬間可以定義為把球放入欄框內(nèi)的動(dòng)作出現(xiàn)時(shí)的瞬間。在橄欖球比賽的環(huán)境中,關(guān)鍵瞬間可以定義為試嘗動(dòng)作出現(xiàn)時(shí)的瞬間。所述關(guān)鍵瞬間的概念當(dāng)然可以應(yīng)用于任何運(yùn)動(dòng)比賽。
以運(yùn)動(dòng)視聽順序的關(guān)鍵瞬間的檢測歸屬于伴隨比賽進(jìn)程的聲帶、地形、協(xié)助和評論員的分類的問題。實(shí)際上,在運(yùn)動(dòng)比賽的重要瞬間內(nèi),例如足球比賽,他們在評論員的解說語調(diào)和觀眾噪聲增強(qiáng)中產(chǎn)生緊張。在所述試驗(yàn)之前,使用的特征值是通過只拿出SCR和FM兩個(gè)參數(shù)來分類音樂/語音而使用的特征值。對總特征值使用的變換是遵循Mel標(biāo)度的變換,然而,標(biāo)準(zhǔn)化階段不應(yīng)用于特征值。時(shí)間窗口F的大小是2秒。
選擇來自UEFA(歐洲足球協(xié)會(huì)聯(lián)盟)杯的三個(gè)足球比賽進(jìn)行試驗(yàn)。對于培訓(xùn),選擇來自第一比賽的20秒關(guān)鍵瞬間和20秒非關(guān)鍵瞬間。因此,存在兩個(gè)聲級關(guān)鍵瞬間或非關(guān)鍵瞬間。
培訓(xùn)之后,對三個(gè)比賽進(jìn)行分類。根據(jù)檢測的進(jìn)球數(shù)并且根據(jù)按照重要性分類的時(shí)間來估算結(jié)果。
表中示出,檢測到所有的進(jìn)球瞬間。另外,對于90分鐘的足球比賽、產(chǎn)生至多包括所有進(jìn)球瞬間的90秒種摘要。
當(dāng)然,重要或不重要瞬間內(nèi)的分類可以歸納成任何視聽文件的聲音分類,例如,動(dòng)作影片或色情影片。
按照本發(fā)明的方法通過任何適當(dāng)設(shè)備能為分配給等級的每個(gè)時(shí)間窗口分配標(biāo)簽,并且能為例如記錄在數(shù)據(jù)庫內(nèi)的聲音信號搜索標(biāo)簽。
本發(fā)明不局限于所述和所示的實(shí)例,因?yàn)榭梢赃M(jìn)行各種修改而不脫離它的范圍。
權(quán)利要求
1.一種用于給聲音信號分配至少一個(gè)聲級的方法,其特征在于包括下列步驟·把聲音信號分成具有特定持續(xù)時(shí)間的時(shí)間段(T),·通過在最小頻率和最大頻率之間的頻率范圍內(nèi)確定一系列頻譜值,提取每個(gè)時(shí)間段(T)內(nèi)的聲音信號的頻率參數(shù),·在時(shí)間窗口(F)內(nèi)組合這些參數(shù),時(shí)間窗口(F)具有大于時(shí)間段(T)持續(xù)時(shí)間的特定持續(xù)時(shí)間,·從每個(gè)時(shí)間窗口(F)提取特征分量,·根據(jù)提取的特征分量并使用分類器,識(shí)別聲音信號的時(shí)間窗口(F)的聲級。
2.按照權(quán)利要求1所述的方法,其特征在于包括在時(shí)間段(T)內(nèi)提取聲音信號,時(shí)間段(T)的持續(xù)時(shí)間在10和30毫秒之間。
3.按照權(quán)利要求1所述的方法,其特征在于包括使用離散傅里葉變換提取頻率參數(shù)。
4.按照權(quán)利要求3所述的方法,其特征在于包括提供變換或過濾頻率參數(shù)的操作。
5.按照權(quán)利要求4所述的方法,其特征在于包括產(chǎn)生等同類型的變換,即兩個(gè)相鄰頻率的平均值,或者按照Mel標(biāo)度的變換。
6.按照權(quán)利要求4或5所述的方法,其特征在包括在持續(xù)時(shí)間大于0.3秒的時(shí)間窗口內(nèi)組合這些頻率參數(shù),持續(xù)時(shí)間優(yōu)選的在0.5和2秒之間。
7.按照權(quán)利要求1所述的方法,其特征在于包括從每個(gè)時(shí)間窗口提取特征分量,例如平均值、方差、瞬間、頻率監(jiān)控參數(shù)或無聲交叉率。
8.按照權(quán)利要求7所述的方法,其特征在于包括使用分類器的一個(gè)或多個(gè)輸入特征分量。
9.按照權(quán)利要求7或8所述的方法,其特征在于包括提供特征分量的標(biāo)準(zhǔn)化操作。
10.按照權(quán)利要求7和9所述的方法,其特征在于所述標(biāo)準(zhǔn)化操作包括·對于平均值、方差或瞬間,搜索具有最大值的分量,并且用所述最大值除其它分量,·對于頻率監(jiān)控或無聲交叉率,用試驗(yàn)之后固定的常數(shù)除每個(gè)所述特征分量以便獲得0.5和1之間的值。
11.按照權(quán)利要求1或8所述的方法,其特征在于包括使用分類器、神經(jīng)網(wǎng)絡(luò)或K-最臨近(K-Nearest Neighbour)。
12.按照權(quán)利要求11所述的方法,其特征在于包括進(jìn)行分類器的聲音信號培訓(xùn)階段。
13.按照權(quán)利要求1至12之一所述的方法,其特征在于包括使用分類器識(shí)別聲級,例如語音或音樂、男聲或女聲、聲音信號的特征瞬間或非特征瞬間、伴隨表示,例如影片或比賽的視頻信號的特征瞬間或非特征瞬間。
14.按照權(quán)利要求13所述的方法,其特征在于包括通過使用平均值、方差、頻率監(jiān)控和無聲交叉率參數(shù)把聲音信號分類成音樂或語音,之后是時(shí)間窗口等于2秒的參數(shù)的標(biāo)準(zhǔn)化。
15.按照權(quán)利要求13所述的方法,其特征在于包括通過使用平均值和方差參數(shù),把信號分類成重要瞬間或不重要瞬間比賽,其中具有按照Mel標(biāo)度的變換,而沒有對特征分量應(yīng)用標(biāo)準(zhǔn)化。
16.按照權(quán)利要求13所述的方法,其特征在于包括在比賽的聲音信號內(nèi)識(shí)別強(qiáng)烈瞬間。
17.按照權(quán)利要求16所述的方法,其特征在于包括使用強(qiáng)烈瞬間的識(shí)別來創(chuàng)建比賽摘要。
18.按照權(quán)利要求13所述的方法,其特征在于包括識(shí)別和監(jiān)控聲音信號內(nèi)的語音。
19.按照權(quán)利要求18所述的方法,其特征在于包括識(shí)別和監(jiān)控聲音信號的語音部分的男生和/或女生的語音。
20.按照權(quán)利要求13所述的方法,其特征在于包括識(shí)別和監(jiān)控聲音信號內(nèi)的音樂。
21.按照權(quán)利要求13所述的方法,其特征在于包括確定聲音信號是否包含語音或音樂。
22.按照權(quán)利要求13所述的方法,其特征在于包括為分配給等級的每個(gè)時(shí)間窗口分配標(biāo)簽。
23.按照權(quán)利要求22所述的方法,其特征在于包括為聲音信號搜索標(biāo)簽。
24.一種用于給聲音信號分配至少一個(gè)聲級的裝置,其特征在于包括·用于把聲音信號(S)分成具有特定持續(xù)時(shí)間的時(shí)間段(T)的設(shè)備(10),·用于提取每個(gè)時(shí)間段(T)內(nèi)的聲音信號的頻率參數(shù)的設(shè)備(20),·用于在時(shí)間窗口(F)內(nèi)組合這些參數(shù)的設(shè)備(30),時(shí)間窗口(F)具有大于時(shí)間段(T)持續(xù)時(shí)間的特定持續(xù)時(shí)間,·用于從每個(gè)時(shí)間窗口(F)提取特征分量的設(shè)備(40),·用于根據(jù)提取的特征分量并使用分類器來識(shí)別聲音信號的時(shí)間窗口(F)的聲級的設(shè)備(60)。
25.按照權(quán)利要求24所述的裝置,其特征在于用于提取頻率參數(shù)的設(shè)備(20)使用離散傅里葉變換。
26.按照權(quán)利要求24或25所述的裝置,其特征在于包括用于提供變換或過濾頻率參數(shù)的操作的設(shè)備(25)。
27.按照權(quán)利要求24至26之一所述的裝置,其特征在于包括用于在持續(xù)時(shí)間大于0.3秒的時(shí)間窗口內(nèi)組合這些頻率參數(shù)的設(shè)備(30),持續(xù)時(shí)間優(yōu)選的在0.5和2秒之間。
28.按照權(quán)利要求24所述的裝置,其特征在于包括從每個(gè)時(shí)間窗口提取特征分量的設(shè)備(40),用于提取平均值、方差、瞬間、頻率監(jiān)控參數(shù)或無聲交叉率的設(shè)備。
29.按照權(quán)利要求28所述的裝置,其特征在于包括特征分量標(biāo)準(zhǔn)化設(shè)備(45)。
30.按照權(quán)利要求24所述的裝置,其特征在于包括分類器、神經(jīng)網(wǎng)或K-Nearest Neighbour。
31.按照權(quán)利要求24所述的裝置,其特征在于包括用于識(shí)別聲級的設(shè)備(60),例如語音或音樂、男聲或女聲、聲音信號的特征瞬間或非特征瞬間、伴隨表示,例如影片或比賽的視頻信號的特征瞬間或非特征瞬間。
32.按照權(quán)利要求24所述的裝置,其特征在于包括用于為分配給等級的每個(gè)時(shí)間窗口分配標(biāo)簽的設(shè)備。
33.按照權(quán)利要求32所述的裝置,其特征在于包括用于為記錄在數(shù)據(jù)庫內(nèi)的聲音信號搜索標(biāo)簽的設(shè)備。
全文摘要
本發(fā)明涉及一種用于給聲音信號分配至少一個(gè)聲級的方法,其特征在于包括下列步驟把聲音信號分成具有特定持續(xù)時(shí)間的時(shí)間段;通過在最小頻率和最大頻率之間的頻率范圍內(nèi)確定一系列頻譜值,提取每個(gè)時(shí)間段內(nèi)的聲音信號的頻率參數(shù);在時(shí)間窗口內(nèi)組合這些參數(shù),時(shí)間窗口具有大于時(shí)間段持續(xù)時(shí)間的特定持續(xù)時(shí)間;從每個(gè)時(shí)間窗口提取特征分量;以及根據(jù)提取的特征分量并使用分類器,識(shí)別聲音信號的時(shí)間窗口的聲級。
文檔編號G10L15/10GK1666252SQ03816205
公開日2005年9月7日 申請日期2003年7月8日 優(yōu)先權(quán)日2002年7月8日
發(fā)明者H·哈布, L·陳 申請人:里昂中央理工學(xué)院