專利名稱:用于區(qū)別口聲和其它聲音的裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于鑒別口聲(vocal sound)的裝置和方法,特別涉及一種用于區(qū)別口聲和其它聲音的裝置和方法。
背景技術(shù):
區(qū)別口聲和其它聲音是聲音識別領(lǐng)域中必須解決的一個課題并且實(shí)際上正在對此進(jìn)行研究。執(zhí)行聲音識別以自動理解例如包括人聲和環(huán)境或自然聲的環(huán)境聲音的起源。即執(zhí)行所述聲音識別以鑒別所述音源是例如人的聲音還是由于地板上一片破碎的玻璃而產(chǎn)生的撞擊聲音。在識別音源的基礎(chǔ)上,可以建立類似于人理解的語義意義,因此,音源的識別是聲音識別技術(shù)的首要目標(biāo)。
由于沒有人能夠斷定在世界中存在有多少種聲音,所以,聲音識別涉及比語音識別更廣泛的聲音領(lǐng)域。因此,所述聲音識別集中在相對接近將被開發(fā)的聲音識別系統(tǒng)的潛在應(yīng)用功能的有限音源。
有各種音源作為將被識別的目標(biāo)。作為在家中可能產(chǎn)生的聲音的例子,可能有由一硬棍敲擊一片玻璃所產(chǎn)生的單一聲音、由于爆炸所產(chǎn)生的復(fù)雜聲音、由一在地板上跳動的硬幣所產(chǎn)生的聲音、諸如說話的口聲、諸如發(fā)笑、哭泣和尖叫的非語言聲音、由人的活動或運(yùn)動產(chǎn)生的聲音以及從廚房、浴室、臥室或家用電器等平常產(chǎn)生的聲音。
由于存在無數(shù)種聲音,所以,就需要一種用于將由人產(chǎn)生的口聲與各種聲音區(qū)別開來的裝置和方法。
發(fā)明內(nèi)容
本發(fā)明提供一種裝置和方法,用于通過從一輸入音頻信息中提取音調(diào)輪廓信息、從所述音調(diào)輪廓信息中提取多個參數(shù)和以預(yù)定方式使用所提取的參數(shù)來區(qū)別口聲和非口聲。
根據(jù)本發(fā)明的一個方面,提供了一種用于區(qū)別口聲和非口聲的裝置,該裝置包括用于將一輸入信號劃分成多個幀的一成幀單元,其中的每個幀都具有一個預(yù)定的長度;一音調(diào)提取單元,用于確定每個幀是一發(fā)音幀還是一非發(fā)音幀并提取用于所述幀的音調(diào)輪廓;一零交叉比計(jì)算器,用于分別計(jì)算每個幀的零交叉比;一參數(shù)計(jì)算器,用于計(jì)算由所述音調(diào)輪廓單元確定的包括所述發(fā)音幀和所述非發(fā)音幀的時(shí)間長度比、所述音調(diào)輪廓的統(tǒng)計(jì)信息和頻譜特征;和一分類器,用于輸入從所述參數(shù)計(jì)算器輸出的零交叉比和參數(shù)并確定所述輸入信號是否是一口聲。
根據(jù)本發(fā)明的另一方面,提供了一種用于區(qū)別口聲和非口聲的方法,該方法包括將一個輸入信號劃分成多個幀,其中的每個幀都具有一預(yù)定的長度;確定每個幀是一發(fā)音幀還是一非發(fā)音幀并提取用于所述幀的音調(diào)輪廓;計(jì)算用于每個幀的零交叉比;計(jì)算包括所確定發(fā)音幀和非發(fā)音幀的時(shí)間長度比、所述音調(diào)輪廓的統(tǒng)計(jì)信息和頻譜特征的參數(shù);和使用所計(jì)算的參數(shù)確定所述輸入信號是否是一口聲。
通過下面結(jié)合附圖對本發(fā)明范例性實(shí)施例的詳細(xì)描述,本發(fā)明的上述和其它特性和優(yōu)點(diǎn)將會變得更加明顯,其中圖1的框圖示出了根據(jù)本發(fā)明一實(shí)施例用于區(qū)別一口聲的裝置;圖2的框圖詳細(xì)地示出了LPC10裝置;圖3A和3B的表格示出了用于12個測試的訓(xùn)練和測試集;圖4的表格示出了根據(jù)圖3A和3B所示表格的測試結(jié)果;圖5的曲線示出了與輸入到一神經(jīng)網(wǎng)絡(luò)的9個特性相關(guān)的區(qū)別性能;和圖6示出了當(dāng)發(fā)音幀和非發(fā)音幀被相互混合時(shí)更新局部V/U時(shí)間長度比的時(shí)間。
具體實(shí)施例方式
下面將結(jié)合其中示出了本發(fā)明實(shí)施例的附圖更加詳細(xì)地描述本發(fā)明。
圖1的框圖示出了根據(jù)本發(fā)明一實(shí)施例用于區(qū)別口聲的裝置,參看圖1,用于區(qū)別口聲的裝置包括成幀單元10、音調(diào)提取單元11、零交叉比計(jì)算器12、參數(shù)計(jì)算器13和分類器14。
參數(shù)計(jì)算器13包括頻譜參數(shù)計(jì)算器131、音調(diào)(pitch)輪廓信息計(jì)算器132以及發(fā)音幀/非發(fā)音幀(voiced/unvoiced)(V/U)時(shí)間長度比計(jì)算器133。
成幀單元10將輸入音頻信號分成多個幀。這里,其為短期限幀的幀表示一視窗處理的數(shù)據(jù)段。所述幀的窗口長度是10ms到30ms,最好是20ms,并對應(yīng)兩個以上的音調(diào)周期。一成幀處理是通過將一窗口在所述幀長度的50%-100%的范圍內(nèi)移位一個幀步(frame step)實(shí)現(xiàn)的。作為本實(shí)施例所述幀步,使用了所述幀長度的50%,即10ms。
音調(diào)提取單元11提取用于每個幀的的音調(diào)。任何一種音調(diào)提取方法都可以被用于所述音調(diào)提取。本發(fā)明采用作為所述音調(diào)提取方法的傳統(tǒng)第10階線性預(yù)測編碼方法(LPC10)的簡化音調(diào)跟蹤器。圖2的框圖詳細(xì)地示出了LPC10裝置。漢明窗口21被用于一信號的多個幀。帶通濾波器22通過漢明窗口21的輸出信號當(dāng)中的60-900Hz頻帶信號。LPC反向?yàn)V波器23輸出所述帶通濾波器信號的LPC的剩余信號。自動關(guān)聯(lián)器24自動關(guān)聯(lián)所述LPC剩余信號并在自動關(guān)聯(lián)的結(jié)果當(dāng)中選擇5個峰值。V/U確定器25使用所述帶通信號、所述自動關(guān)聯(lián)結(jié)果和與所述幀相關(guān)的剩余信號的峰值確定當(dāng)前幀是一發(fā)音幀還是一非發(fā)音幀。音調(diào)跟蹤單元26在V/U確定結(jié)果和5個峰值的基礎(chǔ)上使用一動態(tài)編程方法跟蹤來自3個先前幀的基本頻率,即音調(diào)。最后,音調(diào)跟蹤單元26通過將所述發(fā)音幀的音調(diào)跟蹤結(jié)果與所述非發(fā)音幀的0音調(diào)鏈接在一起提取一音調(diào)輪廓。
零交叉速率計(jì)算器12針對所有的幀計(jì)算一個幀的零交叉速率。
參數(shù)計(jì)算器13基于所提取的音調(diào)輪廓輸出特征值。頻譜參數(shù)計(jì)算器131根據(jù)從音調(diào)提取單元11輸出的音調(diào)輪廓的幅值頻譜計(jì)算頻譜特征。頻譜參數(shù)計(jì)算器131根據(jù)所述音調(diào)輪廓的幅值頻譜通過每0.3秒執(zhí)行一次音調(diào)輪廓的32點(diǎn)FFT計(jì)算一重心(centroid)、一帶寬和一轉(zhuǎn)出(roll-off)頻率。這里,所述轉(zhuǎn)出頻率是指當(dāng)所述音調(diào)輪廓的幅值頻譜從最大功率下降到低于所述最大功率的85%的功率時(shí)的頻率。
當(dāng)f(u)指出一音調(diào)輪廓的幅值頻譜的32點(diǎn)FFT頻譜時(shí),重心(centroid)C、帶寬B和轉(zhuǎn)出頻率SRF可用下列等式1計(jì)算[等式1]C=Σμ=0μ=15u|f(u)|2Σμ=0μ=15|f(u)|2]]>
B=Σμ=0μ=15(u-c)2|f(u)|2Σμ=0μ=15|f(u)|2]]>SRF=max(h|Σμ=0kf(u)<0.85*Σμ=015f(u))]]>音調(diào)輪廓信息計(jì)算器132計(jì)算所述音調(diào)輪廓的平均值和變量。每當(dāng)輸入一個新信號或每當(dāng)一先前信號結(jié)束時(shí),所述音調(diào)輪廓信息被初始化。第一幀的音調(diào)值被設(shè)置為一初始平均值,和所述第一幀的音調(diào)值的二次冪被設(shè)置為一初始變量值。
在執(zhí)行初始化之后,所述音調(diào)輪廓信息計(jì)算器132每一幀步(在本實(shí)施例中是每10ms)更新在一幀單元中的所述音調(diào)輪廓的所述平均值和所述變量,如等式2所示[等式2]u(Pt,t)=u(Pt,t-1)*N-1N+Pt*1N]]>u2(Pt,t)=u2(Pt,t-1)*N-1N+Pt*Pt*1N]]>var(Pt,t)=u2(Pt,t)-u(Pt,t)*u(Pt,t)這里,u(Pt,t)表示在時(shí)間t處的音調(diào)輪廓的平均值,N表示被計(jì)數(shù)幀的數(shù)量,u2(Pt,t)表示所述平均值的二次冪值,vap(Pt,t)表示在時(shí)間t處所述音調(diào)輪廓的變量。音調(diào)輪廓,Pt,表示當(dāng)一輸入幀是發(fā)音幀時(shí)的音調(diào)值,O表示所述輸入幀是一非發(fā)音幀時(shí)的音調(diào)值。
V/U時(shí)間長度比計(jì)算器133計(jì)算局部V/U時(shí)間長度比和總V/U時(shí)間長度比。局部V/U時(shí)間長度比表示一單一發(fā)音幀與一單一非發(fā)音幀的時(shí)間長度比,總V/U時(shí)間長度比表示總發(fā)音幀和總非發(fā)音幀的時(shí)間長度比。
V/U時(shí)間長度比計(jì)算器133包括一總幀計(jì)數(shù)器(未示出),用于單獨(dú)地計(jì)數(shù)累積的發(fā)音和非發(fā)音幀,以便計(jì)算所述總V/U時(shí)間長度比,還包括一局部幀計(jì)數(shù)器(未示出),用于分離地計(jì)數(shù)每個幀的發(fā)音和非發(fā)音幀,以便計(jì)算所述局部V/U時(shí)間長度比。
每當(dāng)輸入一個新信號或每當(dāng)一先前信號段結(jié)束時(shí),通過復(fù)位所述總幀計(jì)數(shù)器初始化所述總V/U時(shí)間長度比。這里,所述信號段表示一具有大于背景聲的能量而沒有持續(xù)時(shí)間限制的信號。
當(dāng)一發(fā)音幀結(jié)束且開始隨后的非發(fā)音幀時(shí),通過復(fù)位所述局部幀計(jì)數(shù)器初始化所述局部V/U時(shí)間長度比。當(dāng)執(zhí)行所述初始化時(shí),根據(jù)所述發(fā)音幀與所述發(fā)音幀加非發(fā)音幀的比值計(jì)算所述局部V/U時(shí)間長度比。另外,每當(dāng)一發(fā)音幀被轉(zhuǎn)移給一非發(fā)音幀時(shí),所述局部V/U時(shí)間長度比被更新。
圖6示出了當(dāng)所述發(fā)音幀和所述非發(fā)音幀被相互混合時(shí)更新局部V/U時(shí)間長度比的時(shí)間。參看圖6,V表示一發(fā)音幀,U表示一非發(fā)音幀。標(biāo)號60表示更新一局部V/U時(shí)間長度比的時(shí)間,即從一發(fā)音幀轉(zhuǎn)移到一非發(fā)音幀的時(shí)間。標(biāo)號61表示更新一非發(fā)音幀時(shí)間長度的時(shí)間,和標(biāo)號62表示等待對一發(fā)音時(shí)間長度計(jì)數(shù)的時(shí)間。
利用下述等式3獲得所述總V/U時(shí)間長度比V/U_GTLR。
V/U_GTLR=NVNV+NU]]>NV++,如果VNU++,如果U這里,NV和NU分別表示發(fā)音幀的數(shù)量和非發(fā)音幀的數(shù)量。
分類器14接受從頻譜參數(shù)計(jì)算器131、音調(diào)輪廓信息計(jì)算器132、V/U時(shí)間長度比計(jì)算器133和零交叉速率計(jì)算器12輸出的各種參數(shù)作為輸入并最后確定所輸入的音頻信號是否是一個口聲。
這里,分類器14還可以包括一位于其輸入側(cè)的同步單元(未示出)。該同步單元使輸入給所述分類器14的參數(shù)同步。由于在不同的時(shí)間處更新所述參數(shù)中的每一個,所以這種同步可能是必須的。例如,每隔10ms就要更新一次零交叉速率、音調(diào)輪廓的平均值和變量以及總V/U時(shí)間長度比,和每隔0.3秒就要更新一次所述音調(diào)輪廓的幅值頻譜的頻譜參數(shù)。每當(dāng)一個幀被從一發(fā)音幀轉(zhuǎn)移到一非發(fā)音幀時(shí),都要隨機(jī)更新所述總V/U時(shí)間長度比。因此,如果當(dāng)前在分類器14的輸入一側(cè)中新的值沒有被更新,那么,就要提供先前的值作為輸入值,和如果輸入了新的值,那么,在該新值被同步之后,提供該被同步的值作為新輸入值。
最好使用一神經(jīng)網(wǎng)絡(luò)作為分類器14。在本實(shí)施例中,使用具有9個輸入神經(jīng)元和一個輸出神經(jīng)元的前饋多層感知機(jī)作為分類器14??梢赃x擇中間層,諸如具有5個神經(jīng)元的第一層和具有2個神經(jīng)元的第二層。所述神經(jīng)網(wǎng)絡(luò)是預(yù)先訓(xùn)練的,從而,使用從一已知聲音信號提取的9個參數(shù)將該已知聲音信號分類成一聲音信號。當(dāng)這種訓(xùn)練完成時(shí),所述神經(jīng)網(wǎng)絡(luò)使用從將被分類的一音頻信號中提取的9個參數(shù)確定該將被分類的音頻信號是否是一聲音信號。所述神經(jīng)網(wǎng)絡(luò)的輸出值表示當(dāng)前信號是否是聲音信號的后驗(yàn)概率(posterior probability)。例如,如果假設(shè)所述后驗(yàn)概率的平均判定值是0.5,那么,當(dāng)所述后驗(yàn)概率大于或等于0.5時(shí),當(dāng)前信號被確定為是一聲音信號,和當(dāng)所述后驗(yàn)概率小于0.5時(shí),則當(dāng)前信號被確定為是除了聲音信號以外的某些其它信號。
表1示出了基于從21種音效CD中收集的周圍環(huán)境聲音識別數(shù)據(jù)庫和現(xiàn)實(shí)世界計(jì)算公司(RWCP)數(shù)據(jù)庫獲得的實(shí)驗(yàn)結(jié)果。數(shù)據(jù)集是一單調(diào)性,采樣速率是16,和每個數(shù)據(jù)的大小是16比特。收集了超過200個相對利用包括英語、法語、西班牙語和俄語的各種語言進(jìn)行從單字到數(shù)分鐘的獨(dú)白的會話、閱讀和廣播的男人聲音的特征。
這里,所述廣播包括新聞、天氣報(bào)告、交通現(xiàn)代化、商業(yè)廣告和體育新聞,所述法語廣播包括新聞和天氣報(bào)告。所述講話包括涉及法院、教堂、警局、醫(yī)院、Casino、影劇院、托兒所和交通等場合產(chǎn)生的口聲。
表2示出了相對女人聲音所獲得的特征數(shù)。
這里,用于新聞廣播的其它語言包括意大利語、漢語、西班牙語和俄語,所述講話包括從涉及警局、影劇院、交通和調(diào)度中心等場合產(chǎn)生的口聲。
除口聲以外的其它聲音包括從屋中的家具、家用電器和實(shí)用物品產(chǎn)生的聲音、各種撞擊聲以及由于手腳的運(yùn)動而產(chǎn)生的聲音。
表3示出了本實(shí)驗(yàn)的細(xì)節(jié)。
該實(shí)驗(yàn)是使用不同訓(xùn)練和測試集執(zhí)行的。圖3A和3B是兩個表,示出了用于12次測試的訓(xùn)練和測試集。在圖3A和3B中,神經(jīng)網(wǎng)絡(luò)的規(guī)模指出輸入神經(jīng)元的數(shù)量、第一中間層的神經(jīng)元的數(shù)量、第二中間層的神經(jīng)元的數(shù)量以及輸出神經(jīng)元的數(shù)量。
圖4的表示出了根據(jù)圖3A和3B所示的表進(jìn)行測試的結(jié)果。在圖4中,假報(bào)警速率是指當(dāng)一測試信號不是口聲但卻被確定為是口聲時(shí)的時(shí)間百分比。
參看圖4,第七測試示出了最佳性能。其中使用1000個人口聲采樣和2000個其它聲音采樣訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)的第一測試沒有示出足夠的口聲鑒別性能。其它使用10000到80000訓(xùn)練采樣的測試示出了類似的口聲鑒別性能。
圖5的曲線示出了關(guān)于向一神經(jīng)網(wǎng)絡(luò)輸入9個特性的鑒別性能。在圖5中,ZCR表示一零交叉速率、PIT表示一個幀的音調(diào)、PIT_MEA表示一音調(diào)輪廓的平均值、PIT_VAR表示一音調(diào)輪廓的變量、PIT_VTR表示總的V/U時(shí)間長度比、PIT_KZB表示局部V/U時(shí)間長度比、PIT_SPE_CEN表示一音調(diào)輪廓的幅值頻譜的重心、PIT_SPE_BAN表示一音調(diào)輪廓的幅值頻譜的帶寬、和PIT_SPE_ROF表示一音調(diào)輪廓的幅值頻譜的轉(zhuǎn)出頻率。參看圖5,PIT和PIT_VTR示出了比其它更佳的性能。
如上所述,根據(jù)本發(fā)明,通過從除一音調(diào)輪廓信息以外的所述音調(diào)輪廓信息的幅值頻譜中提取一重心、一帶寬和一轉(zhuǎn)出頻率并將其用做一分類器的輸入,可以獲得諸如笑聲、哭聲以及說話聲的經(jīng)改善的口聲鑒別性能。因此,本發(fā)明能夠被用于辦公室和家庭的安全系統(tǒng)并能夠用于聲音識別系統(tǒng)中使用音調(diào)信息檢測說話開始的處理器。本發(fā)明還能夠被用于在通信環(huán)境中區(qū)別口聲和其它聲音的聲音交換系統(tǒng)。
本發(fā)明可以通過運(yùn)行來自于計(jì)算機(jī)可讀介質(zhì)的程序在通用計(jì)算機(jī)中加以實(shí)施,所述計(jì)算機(jī)可讀介質(zhì)包括但不限于諸如磁存儲介質(zhì)(ROM、RAM、軟盤、磁帶等)、光可讀介質(zhì)(CD-ROM和DVD等)和載波(經(jīng)互聯(lián)網(wǎng)轉(zhuǎn)移)的存儲介質(zhì)。本發(fā)明還可以作為一計(jì)算機(jī)可讀介質(zhì)加以實(shí)施,所述計(jì)算機(jī)可讀介質(zhì)具有嵌入其中的使一定數(shù)量的計(jì)算機(jī)系統(tǒng)經(jīng)一網(wǎng)絡(luò)相互連接以執(zhí)行分布式處理的計(jì)算機(jī)可讀程序碼單元。通過本發(fā)明所屬現(xiàn)有技術(shù)中的一編程器可以很容易地演繹用于實(shí)施本發(fā)明的所述功能程序、代碼和代碼段。
在本發(fā)明最佳實(shí)施例假設(shè)輸入視頻數(shù)據(jù)是被可變長編碼的同時(shí),本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,根據(jù)本發(fā)明的精神和范圍,也可以實(shí)施所述輸入視頻數(shù)據(jù)的定長編碼。所述最佳實(shí)施例僅僅是被用于描述場合而不是被用于限制。因此,本發(fā)明的范圍并不由本發(fā)明的細(xì)節(jié)描述定義,而是由所附的權(quán)利要求定義,該范圍內(nèi)的所有差異都將被結(jié)構(gòu)在包括在本發(fā)明之中。
權(quán)利要求
1.一種用于鑒別口聲的裝置,該裝置包括一成幀單元,用于將一輸入信號分成多個具有一預(yù)定長度的幀;一音調(diào)提取單元,用于確定每個幀是一發(fā)音幀還是一非發(fā)音幀并從所述幀中提取一音調(diào)輪廓;一零交叉速率計(jì)算器,用于計(jì)算與每個幀相關(guān)的零交叉速率;一參數(shù)計(jì)算器,用于計(jì)算包括與由所述音調(diào)提取單元確定的所述發(fā)音幀和非發(fā)音幀相關(guān)的時(shí)間長度比、所述音調(diào)輪廓的統(tǒng)計(jì)信息和頻譜特征的參數(shù);和一分類器,用于輸入從所述參數(shù)計(jì)算器輸出的所述零交叉速率和所述參數(shù)并確定所述輸入信號是否是一口聲。
2.根據(jù)權(quán)利要求1所述的裝置,其中,所述參數(shù)計(jì)算器包括一發(fā)音幀/非發(fā)音幀時(shí)間長度比計(jì)算器,用于獲得所述發(fā)音幀的時(shí)間長度和所述非發(fā)音幀的時(shí)間長度,并通過將所述發(fā)音幀的時(shí)間長度除以所述非發(fā)音幀的時(shí)間長度計(jì)算一時(shí)間長度比;一音調(diào)輪廓信息計(jì)算器,用于計(jì)算包括所述音調(diào)輪廓的平均值和變量的統(tǒng)計(jì)信息;和一頻譜參數(shù)計(jì)算器,用于計(jì)算與所述音調(diào)輪廓的幅值頻譜相關(guān)的頻譜特征。
3.根據(jù)權(quán)利要求2所述的裝置,其中,所述發(fā)音幀/非發(fā)音幀時(shí)間長度比計(jì)算器計(jì)算一局部發(fā)音幀/非發(fā)音幀時(shí)間長度比,該局部時(shí)間長度比是一單一的發(fā)音幀對一單一的非發(fā)音幀的時(shí)間長度比,還計(jì)算一總的發(fā)音幀/非發(fā)音幀時(shí)間長度比,該總的時(shí)間長度比是總的發(fā)音幀對總的非發(fā)音幀的時(shí)間長度比。
4.根據(jù)權(quán)利要求3所述的裝置,其中,所述發(fā)音幀/非發(fā)音幀時(shí)間長度比計(jì)算器包括一總幀計(jì)數(shù)器和一局部幀計(jì)數(shù)器,每當(dāng)一個新的信號被輸入或每當(dāng)一個先前信號段結(jié)束時(shí)復(fù)位所述總幀計(jì)數(shù)器,和當(dāng)所述發(fā)音幀被轉(zhuǎn)移到所述非發(fā)音幀時(shí)復(fù)位所述局部幀計(jì)數(shù)器。
5.根據(jù)權(quán)利要求3所述的裝置,其中,所述發(fā)音幀/非發(fā)音幀時(shí)間長度比計(jì)算器更新每幀的總發(fā)音幀/非發(fā)音幀時(shí)間長度比一次和每當(dāng)一幀被從所述發(fā)音幀變化為所述非發(fā)音幀時(shí)更新所述局部發(fā)音幀/非發(fā)音幀時(shí)間長度比。
6.根據(jù)權(quán)利要求2所述的裝置,其中,每當(dāng)一個新的信號被輸入或一個先前的信號段結(jié)束時(shí),所述音調(diào)輪廓信息計(jì)算器初始化所述音調(diào)輪廓的平均值和變量。
7.根據(jù)權(quán)利要求6所述的裝置,其中,所述音調(diào)輪廓信息計(jì)算器分別使用第一幀的音調(diào)值和所述第一幀的音調(diào)值的二次冪初始化該音調(diào)值的平均值和變量。
8.根據(jù)權(quán)利要求6所述的裝置,其中,在初始化所述音調(diào)輪廓的平均值和變量之后,所述音調(diào)輪廓信息計(jì)算器使用下述等式更新所述音調(diào)輪廓的平均值和變量(Pt,t)=u(Pt,t-1)*N-1N+Pt*1N]]>u2(Pt,t)=u2(Pt,t-1)*N-1N+Pt*Pt*1N]]>var(Pt,t)=u2(Pt,t)-u(Pt,t)*u(Pt,t)其中,u(Pt,t)表示在時(shí)間t期間所述音調(diào)輪廓的平均值,N表示計(jì)數(shù)幀的數(shù)量,u2(Pt,t)表示所述平均值的二次冪的值,var(Pt,t)表示時(shí)間t處的音調(diào)輪廓的變量,所述音調(diào)輪廓Pt表示當(dāng)一輸入幀是一發(fā)音幀時(shí)的音調(diào)值和O表示當(dāng)一輸入幀是一非發(fā)音幀時(shí)的音調(diào)值。
9.根據(jù)權(quán)利要求3所述的裝置,其中,所述頻譜參數(shù)計(jì)算器計(jì)算所述音調(diào)輪廓的幅值頻譜的一快速傅立葉變換并獲得關(guān)于所述快速傅立葉變換的結(jié)果f(u)的重心C、帶寬B以及轉(zhuǎn)出頻率SRF如下C=Σμ=0μ=15u|f(u)|2Σμ=0μ=15|f(u)|2]]>B=Σμ=0μ=15(u-c)2|f(u)|2Σμ=0μ=15|f(u)|2]]>SRF=max(h|Σμ=0kf(u)<0.85*Σμ=015f(u))]]>
10.根據(jù)權(quán)利要求1所述的裝置,其中,所述分類器是一神經(jīng)網(wǎng)絡(luò),包括多個層,每一層具有多個神經(jīng)元,并基于為鑒別所述口聲而訓(xùn)練的結(jié)果使用從所述零交叉速率計(jì)算器和參數(shù)計(jì)算器輸出的參數(shù)確定所述輸入信號是否是一口聲。
11.根據(jù)權(quán)利要求10所述的裝置,其中,所述分類器還包括一同步單元,用于同步所述參數(shù)。
12.一種鑒別口聲的方法,該方法包括將一輸入信號分成多個幀,每個幀具有一預(yù)定長度;確定每個幀是一發(fā)音幀還是一非發(fā)音幀,并提取所述幀的音調(diào)輪廓;計(jì)算每個幀的一零交叉速率;計(jì)算包括與所確定發(fā)音幀和非發(fā)音幀相關(guān)的時(shí)間長度比的參數(shù)、所述音調(diào)輪廓的統(tǒng)計(jì)信息和頻譜特征;和使用所計(jì)算的參數(shù)確定所述輸入信號是否是所述發(fā)音幀。
13.根據(jù)權(quán)利要求12所述的方法,其中,計(jì)算所述時(shí)間長度比的步驟包括計(jì)算一局部發(fā)音幀/非發(fā)音幀時(shí)間長度比和一總發(fā)音幀/非發(fā)音幀時(shí)間長度比,所述局部時(shí)間長度比是一單一的發(fā)音幀對一單一的非發(fā)音幀的時(shí)間長度比,和所述總發(fā)音幀/非發(fā)音幀時(shí)間長度比是總的發(fā)音幀對總的非發(fā)音幀的時(shí)間長度比。
14.根據(jù)權(quán)利要求13所述的方法,其中,每當(dāng)一個新的信號被輸入或一個先前的信號段結(jié)束時(shí),被累積和計(jì)數(shù)以計(jì)算所述總發(fā)音幀/非發(fā)音幀時(shí)間長度比的發(fā)音和非發(fā)音幀的數(shù)量被復(fù)位,和每當(dāng)所述發(fā)音幀被轉(zhuǎn)移到所述非發(fā)音幀時(shí),被累積和計(jì)數(shù)以計(jì)算所述局部發(fā)音幀/非發(fā)音幀時(shí)間長度比的發(fā)音和非發(fā)音幀的數(shù)量被復(fù)位。
15.根據(jù)權(quán)利要求14所述的方法,其中,所述總發(fā)音幀/非發(fā)音幀時(shí)間長度比每個幀被更新一次,和每當(dāng)所述發(fā)音幀被轉(zhuǎn)移到所述非發(fā)音幀時(shí)所述局部發(fā)音幀/非發(fā)音幀時(shí)間長度比被更新。
16.根據(jù)權(quán)利要求12所述的方法,其中,所述音調(diào)輪廓的統(tǒng)計(jì)信息包括所述音調(diào)輪廓的平均值和變量,和每當(dāng)一個新的信號被輸入或每當(dāng)一個先前信號段結(jié)束時(shí),初始化所述音調(diào)輪廓的所述平均值和變量。
17.根據(jù)權(quán)利要求16所述的方法,其中,分別使用第一幀的音調(diào)值和所述第一幀的音調(diào)值的二次冪值執(zhí)行所述音調(diào)輪廓的平均值和變量的初始化。
18.根據(jù)權(quán)利要求17所述的方法,其中,所述音調(diào)輪廓的平均值和變量被如下更新(Pt,t)=u(Pt,t-1)*N-1N+Pt*1N]]>u2(Pt,t)=u2(Pt,t-1)*N-1N+Pt*Pt*1N]]>var(Pt,t)=u2(Pt,t)-u(Pt,t)*u(Pt,t)其中,u(Pt,t)表示在時(shí)間t處的音調(diào)輪廓的平均值,N表示計(jì)數(shù)幀的數(shù)量,u2(Pt,t)表示所述平均值的二次冪的值,var(Pt,t)表示在時(shí)間t處音調(diào)輪廓的變量,和音調(diào)輪廓Pt表示當(dāng)以輸入幀是發(fā)音幀時(shí)的音調(diào)值,0表示當(dāng)所述輸入幀是以非發(fā)音幀時(shí)的音調(diào)值。
19.根據(jù)權(quán)利要求12所述的方法,其中,所述頻譜特征包括關(guān)于所述音調(diào)輪廓的幅值頻譜的一重心、一帶寬和/或一轉(zhuǎn)出頻率,和所述頻譜特征的計(jì)算包括執(zhí)行所述音調(diào)輪廓的幅值頻譜的一快速傅立葉變換;和獲得關(guān)于所述FFT的結(jié)果f(u)的重心C、帶寬B和轉(zhuǎn)出頻率SRF如下C=Σμ=0μ=15u|f(u)|2Σμ=0μ=15|f(u)|2]]>B=Σμ=0μ=15(u-c)2|f(u)|2Σμ=0μ=15|f(u)|2]]>SRF=max(h|Σμ=0kf(u)<0.85*Σμ=015f(u))]]>
20.根據(jù)權(quán)利要求12所述的方法,其中,確定所述輸入信號是發(fā)音幀的步驟包括從一預(yù)定聲音信號中提取包括零交叉速率、關(guān)于發(fā)音幀和非發(fā)音幀的時(shí)間長度比、音調(diào)輪廓的統(tǒng)計(jì)信息和頻譜特征的參數(shù);通過向該神經(jīng)網(wǎng)絡(luò)輸入所提取的參數(shù)并將該神經(jīng)網(wǎng)絡(luò)的輸出與一預(yù)定值進(jìn)行比較訓(xùn)練所述神經(jīng)網(wǎng)絡(luò),以便將具有所提取參數(shù)特征的信號分類成發(fā)音信號;從所述輸入信號中提取包括零交叉速率、關(guān)于發(fā)音幀和非發(fā)音幀的時(shí)間長度比、音調(diào)輪廓的統(tǒng)計(jì)信息和頻譜特征的參數(shù);將從所述輸入信號中提取的所述參數(shù)輸入給所述經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò);和通過將所述神經(jīng)網(wǎng)絡(luò)的輸出與所述預(yù)定參考值進(jìn)行比較,確定所述輸入信號是否是所述口聲。
21.根據(jù)權(quán)利要求12所述的方法,其中,確定所述口聲的步驟還包括同步所述參數(shù)。
全文摘要
提供了一種用于鑒別口聲的裝置和方法。該裝置包括成幀單元,用于將一輸入信號分成多個幀,每個幀具有一預(yù)定長度;音調(diào)提取單元,用于確定每個幀是一發(fā)音幀還是一非發(fā)音幀并所述幀的音調(diào)輪廓;零交叉速率計(jì)算器,用于計(jì)算每個幀的零交叉速率;參數(shù)計(jì)算器,用于計(jì)算包括由音調(diào)提取單元確定的發(fā)音幀和非發(fā)音幀的時(shí)間長度比、所述音調(diào)輪廓的統(tǒng)計(jì)信息和頻譜特征的參數(shù);和分類器,用于輸入零交叉速率和從參數(shù)計(jì)算器輸出的參數(shù)并確定輸入信號是否是一口聲。
文檔編號G10L15/02GK1655234SQ20051000822
公開日2005年8月17日 申請日期2005年2月6日 優(yōu)先權(quán)日2004年2月10日
發(fā)明者袈娟娟, 李榮范, 李在原 申請人:三星電子株式會社