两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

語音清晰度預(yù)測器及其應(yīng)用的制作方法

文檔序號(hào):2825032閱讀:228來源:國知局
專利名稱:語音清晰度預(yù)測器及其應(yīng)用的制作方法
技術(shù)領(lǐng)域
本申請(qǐng)涉及增強(qiáng)混噪語音的清晰度的信號(hào)處理方法。本申請(qǐng)尤其涉及測量受噪聲影響時(shí)的目標(biāo)語音信號(hào)的清晰度和/或被處理過或修正過的目標(biāo)信號(hào)的清晰度的算法,及其各種應(yīng)用。例如,該算法能夠預(yù)測清晰度測試(即涉及一組聽音者的聽力測試)的結(jié)果。 本申請(qǐng)還涉及一種音頻處理系統(tǒng),例如包含通訊設(shè)備的聽音系統(tǒng)、如助聽器的聽音設(shè)備,助聽器適于利用語音清晰度算法來改善由所討論系統(tǒng)或者設(shè)備所接收或者處理的語音信號(hào)的感知度。本申請(qǐng)還涉及一種包含處理器和程序代碼工具的數(shù)據(jù)處理系統(tǒng),程序代碼工具使處理器執(zhí)行至少上述方法步驟的一部分,并還涉及存儲(chǔ)程序代碼工具的計(jì)算機(jī)可讀介質(zhì)。本申請(qǐng)可以用于如音頻處理系統(tǒng)的應(yīng)用中,例如聽音系統(tǒng)、助聽器系統(tǒng)。
背景技術(shù)
下面的現(xiàn)有技術(shù)的說明涉及本申請(qǐng)的應(yīng)用領(lǐng)域之一,助聽器。語音處理系統(tǒng),例如助聽器中的語音增強(qiáng)方案或者清晰度改進(jìn)算法經(jīng)常引入弱化和修正以消除噪聲語音信號(hào)。 為了確定這些關(guān)于語音清晰度算法的效果,需要進(jìn)行主觀聽力測試和/或客觀清晰度測評(píng) (0ΙΜ)。之前已經(jīng)開發(fā)了這類方案,例如發(fā)音指數(shù)(Al)、語音清晰度指數(shù)(SII)(標(biāo)準(zhǔn)化為 ANSI S3. 5-1997),或者語音傳輸指數(shù)(STI)。

發(fā)明內(nèi)容
盡管剛剛提到的OIM適用于幾種類型的弱化(例如,附加噪聲、混響、過濾、剪切), 但是它們不適于噪聲語音由時(shí)頻(TF)加權(quán)處理的方法。為了更加詳細(xì)地分析某些信號(hào)的弱化對(duì)語音清晰度的影響,OIM必須為簡單結(jié)構(gòu),也就是明顯易懂的。然而,一些OIM是基于針對(duì)某一數(shù)據(jù)組廣泛訓(xùn)練的大量參數(shù)。這使得這些方法不夠明顯易懂,因而更不適于這些評(píng)估目的。另外,OIM通常為整個(gè)語音信號(hào)的長期統(tǒng)計(jì)的函數(shù),并不用于本地短時(shí)TF區(qū)域的中間測量。采用這些方法措施,很難看出局部化的時(shí)頻信號(hào)弱化對(duì)語音清晰度的影響。已經(jīng)劃分了下面三個(gè)可利用清晰度預(yù)測算法的基本領(lǐng)域1)僅有噪聲信號(hào)時(shí)的在線優(yōu)化清晰度(參見示例1)。2)目標(biāo)和干擾信號(hào)分離時(shí)的在線算法優(yōu)化清晰度(參見示例2)。3)離線優(yōu)化,例如用于HA參數(shù)調(diào)整。在這種應(yīng)用中,該算法可以替代具有人類主觀性的聽力測試(參考示例3)。在本文的上下文中,術(shù)語“在線”指的是在例如聽音設(shè)備、聽力儀器的音頻處理系統(tǒng)在正常運(yùn)行(一般為持續(xù)性地)過程中執(zhí)行算法的情形,以將進(jìn)入的聲音處理為有利于終端用戶。另一方面,術(shù)語“離線”指的是算法在調(diào)試過程中執(zhí)行,例如根據(jù)用戶的特定需求在軟件算法的開發(fā)期間或者在設(shè)備的調(diào)試或裝配期間執(zhí)行。本申請(qǐng)的目標(biāo)是提供替代的客觀清晰度測量。另一目的是改善噪聲環(huán)境中的目標(biāo)信號(hào)的清晰度。
本申請(qǐng)的目的通過的權(quán)利要求中描述的以及如下描述的本發(fā)明來實(shí)現(xiàn)。一種提供語咅清晰度預(yù)測器倌的方法本申請(qǐng)的一個(gè)目標(biāo)是通過提供語音清晰度預(yù)測器值的方法來實(shí)現(xiàn),該語音清晰度預(yù)測器值用于當(dāng)目標(biāo)語音信號(hào)經(jīng)過處理算法的處理和/或在噪聲環(huán)境中接收時(shí)估算普通聽音者理解目標(biāo)語音信號(hào)的能力,該方法包括a)提供第一信號(hào)x(n)的時(shí)頻表達(dá)式\ (m),第一信號(hào)χ (η)表示多個(gè)頻帶和多個(gè)時(shí)刻中的目標(biāo)語音信號(hào),j為頻帶指數(shù),m為時(shí)間指數(shù);b)提供第二信號(hào)y(n)的時(shí)頻表達(dá)式h(m),第二信號(hào)為多個(gè)頻帶和多個(gè)時(shí)刻中的所述目標(biāo)語音信號(hào)的噪聲和/或處理過的所述目標(biāo)語音信號(hào);c)以第一和第二信號(hào)或者分別源自于它們的信號(hào)的時(shí)頻表達(dá)式和y/(m) 的形式分別提供第一和第二清晰度預(yù)測輸入;d)基于所述第一和第二清晰度預(yù)測輸入提供時(shí)頻依賴的中間語音清晰度系數(shù) dj(m);e)通過在J個(gè)頻率指數(shù)和M個(gè)時(shí)刻上對(duì)所述的中間語音清晰度系數(shù)…(m)進(jìn)行平均運(yùn)算,計(jì)算最終的語音清晰度預(yù)測器d。這具有提供適于在時(shí)頻環(huán)境中使用的客觀清晰度測量的優(yōu)勢。術(shù)語“源自它們的信號(hào)”在本文的上下文中包括原始信號(hào)s的平均或者比例縮放 (例如歸一化)或者剪切(clip)后的信號(hào)?,或者例如對(duì)原始信號(hào)進(jìn)行非線性轉(zhuǎn)換(例如對(duì)數(shù)或者指數(shù)函數(shù))。在特定的實(shí)施例中,該方法包括確定代表音頻的電信號(hào)是否包括語音信號(hào)(在給定的時(shí)間點(diǎn)上)。語音信號(hào)在本文中被視為包括來自人類的語音信號(hào)。還可包括由人類語音系統(tǒng)產(chǎn)生的其它形式的說話方式(例如唱歌)。在一個(gè)實(shí)施例中,語音活動(dòng)檢測(VAD)適于將用戶的當(dāng)前的聽覺環(huán)境分為語音或者非語音環(huán)境。這樣的優(yōu)點(diǎn)在于可以辨別包括人的話語(例如語音)的電信號(hào)的時(shí)間段,因此能將其從只包括其它聲源(例如人工產(chǎn)生的噪聲)的時(shí)間段中分離開來。優(yōu)選包含非語音活動(dòng)的時(shí)間幀在其經(jīng)過語音清晰度預(yù)測算法之前從信號(hào)中刪除,以使算法只處理包括語音的時(shí)間幀。語音活動(dòng)檢測的算法例如在[4]和 [9]中討論。在特定的實(shí)施例中,該方法包括在步驟d)中中間語音清晰度系數(shù)+(πι)為預(yù)定的 N個(gè)時(shí)間指數(shù)的平均值。在特定的實(shí)施例中,M大于或者等于N。在特定的實(shí)施例中,根據(jù)音素或者詞或者句子的典型長度來確定時(shí)間指數(shù)的個(gè)數(shù)M。在特定的實(shí)施例中,M個(gè)時(shí)間指數(shù)對(duì)應(yīng)于大于 100毫秒的時(shí)間,例如大于400毫秒,例如大于1秒,例如在200毫秒到2秒的范圍內(nèi),例如大于2秒,例如在100毫秒到5秒的范圍內(nèi)。在特定的實(shí)施例中,時(shí)間指數(shù)數(shù)值M大于10, 例如大于50,例如在10到200范圍內(nèi),例如在30到100范圍內(nèi)。在一個(gè)實(shí)施例中,M為預(yù)先確定的?;蛘撸琈可動(dòng)態(tài)地確定(例如,取決于語音的類型(短/長詞、語言等等)).在特定的實(shí)施例中,信號(hào)S(Ii)的時(shí)頻表達(dá)式s(k,m)包括在多個(gè)離散傅立葉變換 DFT塊中由指數(shù)(k,m)定義的該信號(hào)的幅值和/或相位,其中k= 1,...,K表示頻率值的數(shù)量K,m = 1,...,Mx表示時(shí)間幀的數(shù)量Mx,時(shí)間幀由具體的時(shí)間指數(shù)m和對(duì)應(yīng)的K個(gè)DFT 塊定義。例如如

圖1所示,其可以是按時(shí)間幀排列的數(shù)字化信號(hào)的離散傅立葉變換的結(jié)果,每個(gè)時(shí)間幀包括在時(shí)間、=q*(l/fs)中的連續(xù)時(shí)間點(diǎn)處對(duì)輸入信號(hào)(幅值)的多個(gè)數(shù)字化時(shí)間采樣S,,q為采樣指數(shù),例如整數(shù)q = 1,2,...表示采樣數(shù)量,fs為模數(shù)轉(zhuǎn)換器的采樣速率。在特定的實(shí)施例中,定義了具有子頻帶指數(shù)j = 1,2,...的J個(gè)子頻帶,每個(gè)子頻帶包括一個(gè)或者更多的DFT塊,第j個(gè)子頻帶例如包括上限指數(shù)和下限指數(shù)分別為kl (j) 和k2(j)的DFT塊,其限定了第j個(gè)子頻帶的下限和上限截止頻率,具體的時(shí)頻單元(j,m) 由具有的時(shí)間指數(shù)m和所述DFT塊指數(shù)kl(j)-k2(j)限定,例如參考圖1。在特定的實(shí)施例中,時(shí)刻m處的第j個(gè)時(shí)頻單元的信號(hào)~的有效幅值由該時(shí)頻單元中的信號(hào)的能量的平方根確定。信號(hào)s的有效幅值~可采用多種方式確定,例如利用濾波器組執(zhí)行或者DFT實(shí)現(xiàn)。在特定的實(shí)施例中,時(shí)刻m處的第j個(gè)時(shí)頻單元的信號(hào)~的有效幅值由下式定義
權(quán)利要求
1.一種提供語音清晰度預(yù)測器值的方法,該語音清晰度預(yù)測器值用于當(dāng)目標(biāo)語音信號(hào)經(jīng)過算法處理和/或在噪聲環(huán)境中接收時(shí)估算普通聽音者理解所述目標(biāo)語音信號(hào)的能力, 該方法包括a)提供第一信號(hào)χ(η)的時(shí)頻表達(dá)式\(m),第一信號(hào)χ(η)表示多個(gè)頻帶和多個(gè)時(shí)刻中的目標(biāo)語音信號(hào),j為頻帶指數(shù),m為時(shí)間指數(shù);b)提供第二信號(hào)y(η)的時(shí)頻表達(dá)式L (m),第二信號(hào)y (η)為多個(gè)頻帶和多個(gè)時(shí)刻中的所述目標(biāo)語音信號(hào)的噪聲信號(hào)和/或處理過的所述目標(biāo)語音信號(hào);c)以第一和第二信號(hào)或者源自于它們的信號(hào)的時(shí)頻表達(dá)式^c/(m)和y/(m)的形式的分別提供第一和第二清晰度預(yù)測輸入;d)基于所述第一和第二清晰度預(yù)測輸入提供時(shí)頻依賴的中間語音清晰度系數(shù)Clj(Hl);e)通過在J個(gè)頻率指數(shù)和M個(gè)時(shí)間指數(shù)上對(duì)所述的中間語音清晰度系數(shù)…(m)進(jìn)行平均運(yùn)算,計(jì)算最終的語音清晰度預(yù)測器d ;其中,在給定時(shí)刻m的語音清晰度系數(shù)+ (πι)的計(jì)算式為
2.根據(jù)權(quán)利要求1所述的方法,其中M個(gè)時(shí)間指數(shù)對(duì)應(yīng)于大于100毫秒的時(shí)間,例如大于400毫秒,例如大于1秒,例如在200毫秒至2秒的范圍內(nèi),例如大于2秒。
3.根據(jù)權(quán)利要求1所述的方法,其中
4.根據(jù)權(quán)利要求1所述的方法,其中第二清晰度預(yù)測輸入的有效幅值力(m)為所述第二信號(hào)關(guān)于所述目標(biāo)信號(hào)的歸一化形式,;其中歸一化系數(shù)%給定為
5.根據(jù)權(quán)利要求4所述的方法,其中第二信號(hào)的歸一化有效幅值為被剪切處理,以提供經(jīng)剪切的有效幅值/」,其中
6.根據(jù)權(quán)利要求1所述的方法,其中m= m-N+l且N2 = m,以在中間語音清晰度系數(shù) dj(m)的限定中包含當(dāng)前的和之前N-I個(gè)時(shí)刻。
7.根據(jù)權(quán)利要求1所述的方法,其中通過對(duì)d應(yīng)用邏輯轉(zhuǎn)換,將最終的清晰度預(yù)測器d 轉(zhuǎn)換為清晰度分?jǐn)?shù)D'
8.一種改善聽音者在噪聲環(huán)境中對(duì)目標(biāo)語音信號(hào)的理解的方法,該方法包括a)根據(jù)權(quán)利要求1的方法提供最終的語音清晰度預(yù)測器d;b)確定一組優(yōu)化的時(shí)頻依賴的增益&(m)。pt,其中當(dāng)該增益應(yīng)用至所述第一或第二信號(hào)或者源自它們的信號(hào)時(shí),提供最大的最終清晰度預(yù)測器dmax ;c)將所述優(yōu)化的時(shí)頻依賴增益&(m)。pt應(yīng)用至所述第一或第二信號(hào)或者源自它們的信號(hào),從而提供改善信號(hào)h(m)。
9.根據(jù)權(quán)利要求8所述的方法,其中所述第一信號(hào)χ(η)同來自噪聲環(huán)境的噪聲混合, 以混合信號(hào)ζ (η)的形式被提供給聽音者。
10.根據(jù)權(quán)利要求8所述的方法,包括bl)對(duì)混合信號(hào)z(n)和第一信號(hào)x(n)的電表達(dá)式進(jìn)行統(tǒng)計(jì)估算,dl)利用所述第一和混合信號(hào)的統(tǒng)計(jì)估算來估計(jì)所述中間語音清晰度系數(shù)Um)。
11.根據(jù)權(quán)利要求10所述的方法,其中對(duì)所述第一和混合信號(hào)的電表達(dá)式x(n)和 ζ (η)分別進(jìn)行統(tǒng)計(jì)估算的步驟包括分別對(duì)第一和混合信號(hào)的基礎(chǔ)時(shí)頻表達(dá)式\(111)和 Zj(m)的概率分布函數(shù)進(jìn)行估算。
12.根據(jù)權(quán)利要求10所述的方法,其中利用清晰度系數(shù)的統(tǒng)計(jì)學(xué)上的期望值D將最終的語音清晰度預(yù)測器最大化,其中
13.根據(jù)權(quán)利要求8所述的方法,其中將所述第一信號(hào)χ(η)作為單獨(dú)的信號(hào)提供給聽音者。
14.根據(jù)權(quán)利要求13所述的方法,其中將包括來自環(huán)境噪聲的噪聲信號(hào)w(n)提供給聽音者。
15.根據(jù)權(quán)利要求14所述的方法,其中將所述噪聲信號(hào)w(n)轉(zhuǎn)換為表示來自環(huán)境中的噪聲在聽音者耳膜處的信號(hào)W' (η)。
16.一種語音清晰度預(yù)測器(SIP)單元,其適于接收表示目標(biāo)語音的第一信號(hào)χ和作為目標(biāo)語音信號(hào)的噪聲和/或處理過的目標(biāo)語音信號(hào)的第二信號(hào)1,并適于為所述第二信號(hào)提供語音清晰度預(yù)測器值d作為輸出,該語音清晰度預(yù)測器單元包括a)時(shí)間-時(shí)頻轉(zhuǎn)換(T-TF)單元,其適于i)提供第一信號(hào)χ (η)的時(shí)頻表達(dá)式,第一信號(hào)χ (η)表示多個(gè)頻帶和多個(gè)時(shí)刻中的所述目標(biāo)語音信號(hào),j為頻帶指數(shù),且m為時(shí)間指數(shù);和 )提供第二信號(hào)y (η)的時(shí)頻表達(dá)式h(m),第二信號(hào)為多個(gè)頻帶和多個(gè)時(shí)刻中的所述目標(biāo)語音信號(hào)的噪聲和/或處理過的所述目標(biāo)語音信號(hào);b)轉(zhuǎn)換單元,其適于以第一和第二信號(hào)或者源自它們的信號(hào)的時(shí)頻表達(dá)式和 y/(m)的形式分別提供第一和第二清晰度預(yù)測輸入;c)中間語音清晰度計(jì)算單元,其適于基于所述第一和第二清晰度預(yù)測輸入提供時(shí)頻依賴的中間語音清晰度系數(shù)…(m);d)最終的語音清晰度計(jì)算單元,其通過在預(yù)定的J個(gè)頻率指數(shù)和預(yù)定的M個(gè)時(shí)間指數(shù)上對(duì)所述的中間語音清晰度系數(shù)+ (πι)進(jìn)行平均運(yùn)算,計(jì)算最終的語音清晰度預(yù)測器d。
17.根據(jù)權(quán)利要求16所述的語音清晰度預(yù)測器單元,其適于根據(jù)權(quán)利要求1的方法來計(jì)算語音清晰度預(yù)測器值。
18.一種語音清晰度增強(qiáng)(SIE)單元,其適于接收(A)目標(biāo)信號(hào)1和(B)噪聲信號(hào)w, 或者接收(C)目標(biāo)語音信號(hào)和噪聲信號(hào)的混合信號(hào)z,并適于向聽音者提供具有改善的清晰度的改善輸出0,該語音清晰度增強(qiáng)單元包括a)根據(jù)權(quán)利要求16的語音清晰度預(yù)測器單元;b)時(shí)間-時(shí)率轉(zhuǎn)換(T-TF)單元,用來i)在多個(gè)頻帶和多個(gè)時(shí)刻提供所述噪聲信號(hào)w(m)的時(shí)頻表達(dá)式或者所述混合信號(hào)ζ (η)的時(shí)頻表達(dá)式;c)清晰度增益(IG)單元,用來i)確定一組優(yōu)化的時(shí)頻依賴增益&(m)。pt,當(dāng)該增益被應(yīng)用至第一或者第二信號(hào)或者源自于第一或第二信號(hào)的信號(hào)時(shí),提供最大的最終的清晰度預(yù)測器dmax ; )對(duì)所述第一或第二信號(hào)或者源自第一或第二信號(hào)的信號(hào)應(yīng)用所述的優(yōu)化的時(shí)頻依賴增益& (m)。pt,從而提供改善信號(hào)…(m)。
19.根據(jù)權(quán)利要求18所述的語音清晰度增強(qiáng)單元,其適于執(zhí)行權(quán)利要求8的方法。
全文摘要
本申請(qǐng)涉及一種提供語音清晰度預(yù)測器值的方法,該語音清晰度預(yù)測器值用于當(dāng)目標(biāo)語音信號(hào)經(jīng)過算法處理和/或在噪聲環(huán)境中接收時(shí)估算普通聽音者理解所述目標(biāo)語音信號(hào)的能力。本申請(qǐng)還涉及在噪聲環(huán)境中改善聽音者對(duì)目標(biāo)語音信號(hào)的理解的方法以及對(duì)應(yīng)的設(shè)備單元。本申請(qǐng)的目的是提供一種替代的客觀清晰度測量方法,例如適于在時(shí)頻環(huán)境中使用的測量方法。本發(fā)明可用于例如音頻處理系統(tǒng)中、聽音系統(tǒng)、助聽器系統(tǒng)。
文檔編號(hào)G10L19/04GK102194460SQ201110062950
公開日2011年9月21日 申請(qǐng)日期2011年3月11日 優(yōu)先權(quán)日2010年3月11日
發(fā)明者C·H··塔阿爾, J·延森, R·亨德里克斯, R·赫斯登斯, U·克耶姆斯 申請(qǐng)人:奧迪康有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
曲水县| 南丰县| 浮山县| 丰城市| 隆子县| 兰考县| 田阳县| 北安市| 锡林浩特市| 习水县| 江津市| 万盛区| 康保县| 从化市| 博爱县| 泗阳县| 肃南| 综艺| 曲沃县| 克什克腾旗| 保德县| 乾安县| 万州区| 新绛县| 镇巴县| 鹿邑县| 平远县| 泌阳县| 宣威市| 湾仔区| 山东省| 元朗区| 瓦房店市| 环江| 军事| 民县| 柳州市| 海安县| 霍山县| 建始县| 紫金县|