語音清晰度預(yù)測器及其應(yīng)用的制作方法

文檔序號(hào)：2825032閱讀：228來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音清晰度預(yù)測器及其應(yīng)用的制作方法
技術(shù)領(lǐng)域：
本申請(qǐng)涉及增強(qiáng)混噪語音的清晰度的信號(hào)處理方法。本申請(qǐng)尤其涉及測量受噪聲影響時(shí)的目標(biāo)語音信號(hào)的清晰度和/或被處理過或修正過的目標(biāo)信號(hào)的清晰度的算法，及其各種應(yīng)用。例如，該算法能夠預(yù)測清晰度測試(即涉及一組聽音者的聽力測試)的結(jié)果。本申請(qǐng)還涉及一種音頻處理系統(tǒng)，例如包含通訊設(shè)備的聽音系統(tǒng)、如助聽器的聽音設(shè)備，助聽器適于利用語音清晰度算法來改善由所討論系統(tǒng)或者設(shè)備所接收或者處理的語音信號(hào)的感知度。本申請(qǐng)還涉及一種包含處理器和程序代碼工具的數(shù)據(jù)處理系統(tǒng)，程序代碼工具使處理器執(zhí)行至少上述方法步驟的一部分，并還涉及存儲(chǔ)程序代碼工具的計(jì)算機(jī)可讀介質(zhì)。本申請(qǐng)可以用于如音頻處理系統(tǒng)的應(yīng)用中，例如聽音系統(tǒng)、助聽器系統(tǒng)。
背景技術(shù)：
下面的現(xiàn)有技術(shù)的說明涉及本申請(qǐng)的應(yīng)用領(lǐng)域之一，助聽器。語音處理系統(tǒng)，例如助聽器中的語音增強(qiáng)方案或者清晰度改進(jìn)算法經(jīng)常引入弱化和修正以消除噪聲語音信號(hào)。為了確定這些關(guān)于語音清晰度算法的效果，需要進(jìn)行主觀聽力測試和/或客觀清晰度測評(píng) (0ΙΜ)。之前已經(jīng)開發(fā)了這類方案，例如發(fā)音指數(shù)(Al)、語音清晰度指數(shù)(SII)(標(biāo)準(zhǔn)化為 ANSI S3. 5-1997)，或者語音傳輸指數(shù)(STI)。

發(fā)明內(nèi)容
盡管剛剛提到的OIM適用于幾種類型的弱化(例如，附加噪聲、混響、過濾、剪切)，但是它們不適于噪聲語音由時(shí)頻(TF)加權(quán)處理的方法。為了更加詳細(xì)地分析某些信號(hào)的弱化對(duì)語音清晰度的影響，OIM必須為簡單結(jié)構(gòu)，也就是明顯易懂的。然而，一些OIM是基于針對(duì)某一數(shù)據(jù)組廣泛訓(xùn)練的大量參數(shù)。這使得這些方法不夠明顯易懂，因而更不適于這些評(píng)估目的。另外，OIM通常為整個(gè)語音信號(hào)的長期統(tǒng)計(jì)的函數(shù)，并不用于本地短時(shí)TF區(qū)域的中間測量。采用這些方法措施，很難看出局部化的時(shí)頻信號(hào)弱化對(duì)語音清晰度的影響。已經(jīng)劃分了下面三個(gè)可利用清晰度預(yù)測算法的基本領(lǐng)域1)僅有噪聲信號(hào)時(shí)的在線優(yōu)化清晰度(參見示例1)。2)目標(biāo)和干擾信號(hào)分離時(shí)的在線算法優(yōu)化清晰度(參見示例2)。3)離線優(yōu)化，例如用于HA參數(shù)調(diào)整。在這種應(yīng)用中，該算法可以替代具有人類主觀性的聽力測試(參考示例3)。在本文的上下文中，術(shù)語“在線”指的是在例如聽音設(shè)備、聽力儀器的音頻處理系統(tǒng)在正常運(yùn)行(一般為持續(xù)性地)過程中執(zhí)行算法的情形，以將進(jìn)入的聲音處理為有利于終端用戶。另一方面，術(shù)語“離線”指的是算法在調(diào)試過程中執(zhí)行，例如根據(jù)用戶的特定需求在軟件算法的開發(fā)期間或者在設(shè)備的調(diào)試或裝配期間執(zhí)行。本申請(qǐng)的目標(biāo)是提供替代的客觀清晰度測量。另一目的是改善噪聲環(huán)境中的目標(biāo)信號(hào)的清晰度。
本申請(qǐng)的目的通過的權(quán)利要求中描述的以及如下描述的本發(fā)明來實(shí)現(xiàn)。一種提供語咅清晰度預(yù)測器倌的方法本申請(qǐng)的一個(gè)目標(biāo)是通過提供語音清晰度預(yù)測器值的方法來實(shí)現(xiàn)，該語音清晰度預(yù)測器值用于當(dāng)目標(biāo)語音信號(hào)經(jīng)過處理算法的處理和/或在噪聲環(huán)境中接收時(shí)估算普通聽音者理解目標(biāo)語音信號(hào)的能力，該方法包括a)提供第一信號(hào)x(n)的時(shí)頻表達(dá)式\ (m)，第一信號(hào)χ (η)表示多個(gè)頻帶和多個(gè)時(shí)刻中的目標(biāo)語音信號(hào)，j為頻帶指數(shù)，m為時(shí)間指數(shù)；b)提供第二信號(hào)y(n)的時(shí)頻表達(dá)式h(m)，第二信號(hào)為多個(gè)頻帶和多個(gè)時(shí)刻中的所述目標(biāo)語音信號(hào)的噪聲和/或處理過的所述目標(biāo)語音信號(hào)；c)以第一和第二信號(hào)或者分別源自于它們的信號(hào)的時(shí)頻表達(dá)式和y/(m) 的形式分別提供第一和第二清晰度預(yù)測輸入；d)基于所述第一和第二清晰度預(yù)測輸入提供時(shí)頻依賴的中間語音清晰度系數(shù) dj(m)；e)通過在J個(gè)頻率指數(shù)和M個(gè)時(shí)刻上對(duì)所述的中間語音清晰度系數(shù)…(m)進(jìn)行平均運(yùn)算，計(jì)算最終的語音清晰度預(yù)測器d。這具有提供適于在時(shí)頻環(huán)境中使用的客觀清晰度測量的優(yōu)勢。術(shù)語“源自它們的信號(hào)”在本文的上下文中包括原始信號(hào)s的平均或者比例縮放 (例如歸一化)或者剪切(clip)后的信號(hào)？，或者例如對(duì)原始信號(hào)進(jìn)行非線性轉(zhuǎn)換(例如對(duì)數(shù)或者指數(shù)函數(shù))。在特定的實(shí)施例中，該方法包括確定代表音頻的電信號(hào)是否包括語音信號(hào)(在給定的時(shí)間點(diǎn)上)。語音信號(hào)在本文中被視為包括來自人類的語音信號(hào)。還可包括由人類語音系統(tǒng)產(chǎn)生的其它形式的說話方式(例如唱歌)。在一個(gè)實(shí)施例中，語音活動(dòng)檢測(VAD)適于將用戶的當(dāng)前的聽覺環(huán)境分為語音或者非語音環(huán)境。這樣的優(yōu)點(diǎn)在于可以辨別包括人的話語(例如語音)的電信號(hào)的時(shí)間段，因此能將其從只包括其它聲源(例如人工產(chǎn)生的噪聲)的時(shí)間段中分離開來。優(yōu)選包含非語音活動(dòng)的時(shí)間幀在其經(jīng)過語音清晰度預(yù)測算法之前從信號(hào)中刪除，以使算法只處理包括語音的時(shí)間幀。語音活動(dòng)檢測的算法例如在[4]和 [9]中討論。在特定的實(shí)施例中，該方法包括在步驟d)中中間語音清晰度系數(shù)+(πι)為預(yù)定的 N個(gè)時(shí)間指數(shù)的平均值。在特定的實(shí)施例中，M大于或者等于N。在特定的實(shí)施例中，根據(jù)音素或者詞或者句子的典型長度來確定時(shí)間指數(shù)的個(gè)數(shù)M。在特定的實(shí)施例中，M個(gè)時(shí)間指數(shù)對(duì)應(yīng)于大于 100毫秒的時(shí)間，例如大于400毫秒，例如大于1秒，例如在200毫秒到2秒的范圍內(nèi)，例如大于2秒，例如在100毫秒到5秒的范圍內(nèi)。在特定的實(shí)施例中，時(shí)間指數(shù)數(shù)值M大于10，例如大于50，例如在10到200范圍內(nèi)，例如在30到100范圍內(nèi)。在一個(gè)實(shí)施例中，M為預(yù)先確定的?；蛘撸琈可動(dòng)態(tài)地確定(例如，取決于語音的類型(短/長詞、語言等等)).在特定的實(shí)施例中，信號(hào)S(Ii)的時(shí)頻表達(dá)式s(k，m)包括在多個(gè)離散傅立葉變換 DFT塊中由指數(shù)(k，m)定義的該信號(hào)的幅值和/或相位，其中k= 1，...，K表示頻率值的數(shù)量K，m = 1，...，Mx表示時(shí)間幀的數(shù)量Mx，時(shí)間幀由具體的時(shí)間指數(shù)m和對(duì)應(yīng)的K個(gè)DFT 塊定義。例如如

圖1所示，其可以是按時(shí)間幀排列的數(shù)字化信號(hào)的離散傅立葉變換的結(jié)果，每個(gè)時(shí)間幀包括在時(shí)間、=q*(l/fs)中的連續(xù)時(shí)間點(diǎn)處對(duì)輸入信號(hào)(幅值)的多個(gè)數(shù)字化時(shí)間采樣S,，q為采樣指數(shù)，例如整數(shù)q = 1，2，...表示采樣數(shù)量，fs為模數(shù)轉(zhuǎn)換器的采樣速率。在特定的實(shí)施例中，定義了具有子頻帶指數(shù)j = 1,2,...的J個(gè)子頻帶，每個(gè)子頻帶包括一個(gè)或者更多的DFT塊，第j個(gè)子頻帶例如包括上限指數(shù)和下限指數(shù)分別為kl (j) 和k2(j)的DFT塊，其限定了第j個(gè)子頻帶的下限和上限截止頻率，具體的時(shí)頻單元(j，m) 由具有的時(shí)間指數(shù)m和所述DFT塊指數(shù)kl(j)-k2(j)限定，例如參考圖1。在特定的實(shí)施例中，時(shí)刻m處的第j個(gè)時(shí)頻單元的信號(hào)~的有效幅值由該時(shí)頻單元中的信號(hào)的能量的平方根確定。信號(hào)s的有效幅值~可采用多種方式確定，例如利用濾波器組執(zhí)行或者DFT實(shí)現(xiàn)。在特定的實(shí)施例中，時(shí)刻m處的第j個(gè)時(shí)頻單元的信號(hào)~的有效幅值由下式定義
權(quán)利要求
1.一種提供語音清晰度預(yù)測器值的方法，該語音清晰度預(yù)測器值用于當(dāng)目標(biāo)語音信號(hào)經(jīng)過算法處理和/或在噪聲環(huán)境中接收時(shí)估算普通聽音者理解所述目標(biāo)語音信號(hào)的能力，該方法包括a)提供第一信號(hào)χ(η)的時(shí)頻表達(dá)式\(m)，第一信號(hào)χ(η)表示多個(gè)頻帶和多個(gè)時(shí)刻中的目標(biāo)語音信號(hào)，j為頻帶指數(shù)，m為時(shí)間指數(shù)；b)提供第二信號(hào)y(η)的時(shí)頻表達(dá)式L (m)，第二信號(hào)y (η)為多個(gè)頻帶和多個(gè)時(shí)刻中的所述目標(biāo)語音信號(hào)的噪聲信號(hào)和/或處理過的所述目標(biāo)語音信號(hào)；c)以第一和第二信號(hào)或者源自于它們的信號(hào)的時(shí)頻表達(dá)式^c/(m)和y/(m)的形式的分別提供第一和第二清晰度預(yù)測輸入；d)基于所述第一和第二清晰度預(yù)測輸入提供時(shí)頻依賴的中間語音清晰度系數(shù)Clj(Hl)；e)通過在J個(gè)頻率指數(shù)和M個(gè)時(shí)間指數(shù)上對(duì)所述的中間語音清晰度系數(shù)…(m)進(jìn)行平均運(yùn)算，計(jì)算最終的語音清晰度預(yù)測器d ；其中，在給定時(shí)刻m的語音清晰度系數(shù)+ (πι)的計(jì)算式為
2.根據(jù)權(quán)利要求1所述的方法，其中M個(gè)時(shí)間指數(shù)對(duì)應(yīng)于大于100毫秒的時(shí)間，例如大于400毫秒，例如大于1秒，例如在200毫秒至2秒的范圍內(nèi)，例如大于2秒。
3.根據(jù)權(quán)利要求1所述的方法，其中
4.根據(jù)權(quán)利要求1所述的方法，其中第二清晰度預(yù)測輸入的有效幅值力(m)為所述第二信號(hào)關(guān)于所述目標(biāo)信號(hào)的歸一化形式，;其中歸一化系數(shù)％給定為
5.根據(jù)權(quán)利要求4所述的方法，其中第二信號(hào)的歸一化有效幅值為被剪切處理，以提供經(jīng)剪切的有效幅值/」，其中
6.根據(jù)權(quán)利要求1所述的方法，其中m= m-N+l且N2 = m,以在中間語音清晰度系數(shù) dj(m)的限定中包含當(dāng)前的和之前N-I個(gè)時(shí)刻。
7.根據(jù)權(quán)利要求1所述的方法，其中通過對(duì)d應(yīng)用邏輯轉(zhuǎn)換，將最終的清晰度預(yù)測器d 轉(zhuǎn)換為清晰度分?jǐn)?shù)D'
8.一種改善聽音者在噪聲環(huán)境中對(duì)目標(biāo)語音信號(hào)的理解的方法，該方法包括a)根據(jù)權(quán)利要求1的方法提供最終的語音清晰度預(yù)測器d；b)確定一組優(yōu)化的時(shí)頻依賴的增益&(m)。pt，其中當(dāng)該增益應(yīng)用至所述第一或第二信號(hào)或者源自它們的信號(hào)時(shí)，提供最大的最終清晰度預(yù)測器dmax ；c)將所述優(yōu)化的時(shí)頻依賴增益&(m)。pt應(yīng)用至所述第一或第二信號(hào)或者源自它們的信號(hào)，從而提供改善信號(hào)h(m)。
9.根據(jù)權(quán)利要求8所述的方法，其中所述第一信號(hào)χ(η)同來自噪聲環(huán)境的噪聲混合，以混合信號(hào)ζ (η)的形式被提供給聽音者。
10.根據(jù)權(quán)利要求8所述的方法，包括bl)對(duì)混合信號(hào)z(n)和第一信號(hào)x(n)的電表達(dá)式進(jìn)行統(tǒng)計(jì)估算，dl)利用所述第一和混合信號(hào)的統(tǒng)計(jì)估算來估計(jì)所述中間語音清晰度系數(shù)Um)。
11.根據(jù)權(quán)利要求10所述的方法，其中對(duì)所述第一和混合信號(hào)的電表達(dá)式x(n)和 ζ (η)分別進(jìn)行統(tǒng)計(jì)估算的步驟包括分別對(duì)第一和混合信號(hào)的基礎(chǔ)時(shí)頻表達(dá)式\(111)和 Zj(m)的概率分布函數(shù)進(jìn)行估算。
12.根據(jù)權(quán)利要求10所述的方法，其中利用清晰度系數(shù)的統(tǒng)計(jì)學(xué)上的期望值D將最終的語音清晰度預(yù)測器最大化，其中
13.根據(jù)權(quán)利要求8所述的方法，其中將所述第一信號(hào)χ(η)作為單獨(dú)的信號(hào)提供給聽音者。
14.根據(jù)權(quán)利要求13所述的方法，其中將包括來自環(huán)境噪聲的噪聲信號(hào)w(n)提供給聽音者。
15.根據(jù)權(quán)利要求14所述的方法，其中將所述噪聲信號(hào)w(n)轉(zhuǎn)換為表示來自環(huán)境中的噪聲在聽音者耳膜處的信號(hào)W' (η)。
16.一種語音清晰度預(yù)測器(SIP)單元，其適于接收表示目標(biāo)語音的第一信號(hào)χ和作為目標(biāo)語音信號(hào)的噪聲和/或處理過的目標(biāo)語音信號(hào)的第二信號(hào)1，并適于為所述第二信號(hào)提供語音清晰度預(yù)測器值d作為輸出，該語音清晰度預(yù)測器單元包括a)時(shí)間-時(shí)頻轉(zhuǎn)換(T-TF)單元，其適于i)提供第一信號(hào)χ (η)的時(shí)頻表達(dá)式，第一信號(hào)χ (η)表示多個(gè)頻帶和多個(gè)時(shí)刻中的所述目標(biāo)語音信號(hào)，j為頻帶指數(shù)，且m為時(shí)間指數(shù)；和 )提供第二信號(hào)y (η)的時(shí)頻表達(dá)式h(m)，第二信號(hào)為多個(gè)頻帶和多個(gè)時(shí)刻中的所述目標(biāo)語音信號(hào)的噪聲和/或處理過的所述目標(biāo)語音信號(hào)；b)轉(zhuǎn)換單元，其適于以第一和第二信號(hào)或者源自它們的信號(hào)的時(shí)頻表達(dá)式和 y/(m)的形式分別提供第一和第二清晰度預(yù)測輸入；c)中間語音清晰度計(jì)算單元，其適于基于所述第一和第二清晰度預(yù)測輸入提供時(shí)頻依賴的中間語音清晰度系數(shù)…(m)；d)最終的語音清晰度計(jì)算單元，其通過在預(yù)定的J個(gè)頻率指數(shù)和預(yù)定的M個(gè)時(shí)間指數(shù)上對(duì)所述的中間語音清晰度系數(shù)+ (πι)進(jìn)行平均運(yùn)算，計(jì)算最終的語音清晰度預(yù)測器d。
17.根據(jù)權(quán)利要求16所述的語音清晰度預(yù)測器單元，其適于根據(jù)權(quán)利要求1的方法來計(jì)算語音清晰度預(yù)測器值。
18.一種語音清晰度增強(qiáng)(SIE)單元，其適于接收(A)目標(biāo)信號(hào)1和(B)噪聲信號(hào)w，或者接收(C)目標(biāo)語音信號(hào)和噪聲信號(hào)的混合信號(hào)z，并適于向聽音者提供具有改善的清晰度的改善輸出0，該語音清晰度增強(qiáng)單元包括a)根據(jù)權(quán)利要求16的語音清晰度預(yù)測器單元；b)時(shí)間-時(shí)率轉(zhuǎn)換(T-TF)單元，用來i)在多個(gè)頻帶和多個(gè)時(shí)刻提供所述噪聲信號(hào)w(m)的時(shí)頻表達(dá)式或者所述混合信號(hào)ζ (η)的時(shí)頻表達(dá)式；c)清晰度增益(IG)單元，用來i)確定一組優(yōu)化的時(shí)頻依賴增益&(m)。pt，當(dāng)該增益被應(yīng)用至第一或者第二信號(hào)或者源自于第一或第二信號(hào)的信號(hào)時(shí)，提供最大的最終的清晰度預(yù)測器dmax ； )對(duì)所述第一或第二信號(hào)或者源自第一或第二信號(hào)的信號(hào)應(yīng)用所述的優(yōu)化的時(shí)頻依賴增益& (m)。pt，從而提供改善信號(hào)…(m)。
19.根據(jù)權(quán)利要求18所述的語音清晰度增強(qiáng)單元，其適于執(zhí)行權(quán)利要求8的方法。
全文摘要
本申請(qǐng)涉及一種提供語音清晰度預(yù)測器值的方法，該語音清晰度預(yù)測器值用于當(dāng)目標(biāo)語音信號(hào)經(jīng)過算法處理和/或在噪聲環(huán)境中接收時(shí)估算普通聽音者理解所述目標(biāo)語音信號(hào)的能力。本申請(qǐng)還涉及在噪聲環(huán)境中改善聽音者對(duì)目標(biāo)語音信號(hào)的理解的方法以及對(duì)應(yīng)的設(shè)備單元。本申請(qǐng)的目的是提供一種替代的客觀清晰度測量方法，例如適于在時(shí)頻環(huán)境中使用的測量方法。本發(fā)明可用于例如音頻處理系統(tǒng)中、聽音系統(tǒng)、助聽器系統(tǒng)。
文檔編號(hào)G10L19/04GK102194460SQ201110062950
公開日2011年9月21日申請(qǐng)日期2011年3月11日優(yōu)先權(quán)日2010年3月11日
發(fā)明者C·H··塔阿爾, J·延森, R·亨德里克斯, R·赫斯登斯, U·克耶姆斯申請(qǐng)人:奧迪康有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：C·H··塔阿爾;R·亨德里克斯;R·赫斯登斯;U·克耶姆斯;J·延森
技術(shù)所有人：奧迪康有限公司
我是此專利的發(fā)明人

上一篇：基于Teager能量熵的音符切分方法
上一篇：用于處理去相干信號(hào)或組合信號(hào)的設(shè)備和方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音清晰度相關(guān)技術(shù)

語音清晰度測試相關(guān)技術(shù)

顯示器清晰度相關(guān)技術(shù)

三星顯示器最佳清晰度相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

語音清晰度預(yù)測器及其應(yīng)用的制作方法