用于基于說話者詞典的語音建模的系統(tǒng)和方法

文檔序號(hào)：10663719閱讀：307來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于基于說話者詞典的語音建模的系統(tǒng)和方法
【專利摘要】本發(fā)明描述一種用于通過電子裝置進(jìn)行語音建模的方法。所述方法包含基于有噪聲的語音信號(hào)獲得實(shí)時(shí)噪聲參考。所述方法還包含基于所述實(shí)時(shí)噪聲參考獲得實(shí)時(shí)噪聲詞典。所述方法進(jìn)一步包含獲得第一語音詞典和第二語音詞典。所述方法另外包含在第一建模階段基于所述實(shí)時(shí)噪聲詞典和所述第一語音詞典減少殘余噪聲以產(chǎn)生殘余噪聲受抑制的語音信號(hào)。所述方法還包含在第二建模階段基于所述殘余噪聲受抑制的語音信號(hào)和所述第二語音詞典產(chǎn)生經(jīng)重建語音信號(hào)。
【專利說明】
用于基于說話者詞典的語音建模的系統(tǒng)和方法
[0001 ] 相關(guān)申請案
[0002] 本申請案與2014年2月27日申請的第61/945,691號(hào)美國臨時(shí)專利申請案"用于基于說話者詞典的語音建模的系統(tǒng)和方法(SYSTEMS AND METHODS FOR SPEAKER DICTIONARY BASED SPEECH MODELING)"相關(guān)，并主張其優(yōu)先權(quán)。
技術(shù)領(lǐng)域
[0003] 本發(fā)明大體上涉及電子裝置。更確切地說，本發(fā)明涉及用于基于說話者詞典的語音建模的系統(tǒng)和方法。
【背景技術(shù)】
[0004] 在最近幾十年中，電子裝置的使用已變得普遍。明確地說，電子技術(shù)中的進(jìn)步已減少了越來越復(fù)雜且有用的電子裝置的成本。成本降低和消費(fèi)者需求已使電子裝置的使用劇增，使得其在現(xiàn)代社會(huì)中幾乎隨處可見。
[0005] 由于電子裝置的使用已推廣開來，因此具有對電子裝置的新的且改進(jìn)的特征的需求。更確切地說，常常尋求執(zhí)行新功能和/或提供較高質(zhì)量輸出的電子裝置。
[0006] -些電子裝置利用音頻信號(hào)。舉例來說，智能電話可俘獲和處理語音信號(hào)。然而，音頻信號(hào)可在一些情況下包含顯著噪聲，這可使語音信號(hào)的質(zhì)量降級。如由此論述可觀察到，改進(jìn)音頻信號(hào)的系統(tǒng)和方法可為有益的。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明描述一種用于通過電子裝置進(jìn)行語音建模的方法。所述方法包含基于有噪聲的語音信號(hào)獲得實(shí)時(shí)噪聲參考。所述方法還包含基于實(shí)時(shí)噪聲參考獲得實(shí)時(shí)噪聲詞典。所述方法進(jìn)一步包含獲得第一語音詞典和第二語音詞典。所述方法另外包含在第一建模階段基于實(shí)時(shí)噪聲詞典和第一語音詞典減少殘余噪聲以產(chǎn)生殘余噪聲受抑制的語音信號(hào)。所述方法還包含在第二建模階段基于殘余噪聲受抑制的語音信號(hào)和第二語音詞典產(chǎn)生經(jīng)重建語音信號(hào)。所述方法可包含基于重建誤差從經(jīng)重建語音信號(hào)和殘余噪聲受抑制的語音信號(hào)選擇輸出語音信號(hào)。
[0008] 第一建模階段可基于非負(fù)矩陣因子分解(NMF)。第二建模階段可基于非負(fù)矩陣因子分解(NMF)。
[0009] 減少殘余噪聲可包含修正包括第一語音詞典和實(shí)時(shí)噪聲詞典的語音和噪聲詞典。減少殘余噪聲還可包含初始化激活系數(shù)和更新激活系數(shù)直至收斂。
[0010]減少殘余噪聲可包含基于第一語音詞典、實(shí)時(shí)噪聲詞典、經(jīng)調(diào)適語音激活系數(shù)和經(jīng)調(diào)適噪聲激活系數(shù)創(chuàng)建濾波器。減少殘余噪聲還可包含基于濾波器和預(yù)增強(qiáng)輸入估計(jì)殘余噪聲受抑制的語音信號(hào)。
[0011]產(chǎn)生經(jīng)重建語音信號(hào)可包含修正子帶音高特定詞典和更新激活系數(shù)直至收斂。產(chǎn) 生經(jīng)重建語音信號(hào)還可包含基于音高特定詞典和激活系數(shù)產(chǎn)生經(jīng)重建語音信號(hào)。
[0012] 所述方法可包含基于音高從說話者特定詞典確定音高特定詞典。所述方法還可包含基于逐頻段信噪比（SNR)從音高特定詞典確定子帶音高特定詞典。
[0013] 第一語音詞典和第二語音詞典可基于說話者特定語音詞典。獲得第一語音詞典可包含初始化多個(gè)激活系數(shù)和語音基函數(shù)。獲得第一語音詞典還可包含更新參數(shù)直至收斂。
[0014] 獲得第二語音詞典可包含估計(jì)多個(gè)說話者特定語音量值頻譜的諧波性和音高。獲得第二語音詞典還可包含從說話者特定語音量值頻譜選擇具有高于諧波性閾值的對應(yīng)諧波性的語音頻譜。獲得第二語音詞典可進(jìn)一步包含用對應(yīng)音高標(biāo)記選定語音頻譜中的每一者。
[0015] 還描述一種用于語音建模的電子裝置。所述電子裝置包含處理器和與所述處理器進(jìn)行電子通信的存儲(chǔ)器。所述電子裝置還包含存儲(chǔ)于存儲(chǔ)器中的指令。所述指令可執(zhí)行以基于有噪聲的語音信號(hào)獲得實(shí)時(shí)噪聲參考。所述指令還可執(zhí)行以基于實(shí)時(shí)噪聲參考獲得實(shí) 時(shí)噪聲詞典。所述指令進(jìn)一步可執(zhí)行以獲得第一語音詞典和第二語音詞典。所述指令另外可執(zhí)行以在第一建模階段基于實(shí)時(shí)噪聲詞典和第一語音詞典減小殘余噪聲以產(chǎn)生殘余噪聲受抑制的語音信號(hào)。所述指令還可執(zhí)行以在第二建模階段基于殘余噪聲受抑制的語音信號(hào)和第二語音詞典產(chǎn)生經(jīng)重建語音信號(hào)。
[0016] 還描述一種用于語音建模的計(jì)算機(jī)程序產(chǎn)品。計(jì)算機(jī)程序產(chǎn)品包含具有指令的非暫時(shí)性有形計(jì)算機(jī)可讀媒體。所述指令包含用于致使電子裝置基于有噪聲的語音信號(hào)獲得實(shí)時(shí)噪聲參考的代碼。所述指令還包含用于致使電子裝置基于實(shí)時(shí)噪聲參考獲得實(shí)時(shí)噪聲詞典的代碼。所述指令進(jìn)一步包含用于致使電子裝置獲得第一語音詞典和第二語音詞典的代碼。所述指令另外包含用于致使電子裝置在第一建模階段基于實(shí)時(shí)噪聲詞典和第一語音詞典減小殘余噪聲以產(chǎn)生殘余噪聲受抑制的語音信號(hào)的代碼。所述指令還包含用于致使電子裝置在第二建模階段基于殘余噪聲受抑制的語音信號(hào)和第二語音詞典產(chǎn)生經(jīng)重建語音信號(hào)的代碼。
[0017] 還描述一種用于語音建模的設(shè)備。所述設(shè)備包含用于基于有噪聲的語音信號(hào)獲得實(shí)時(shí)噪聲參考的裝置。所述設(shè)備還包含用于基于實(shí)時(shí)噪聲參考獲得實(shí)時(shí)噪聲詞典的裝置。所述設(shè)備進(jìn)一步包含用于獲得第一語音詞典和第二語音詞典的裝置。所述設(shè)備另外包含用于在第一建模階段基于實(shí)時(shí)噪聲詞典和第一語音詞典減少殘余噪聲以產(chǎn)生殘余噪聲受抑制的語音信號(hào)的裝置。所述設(shè)備還包含用于在第二建模階段基于殘余噪聲受抑制的語音信號(hào)和第二語音詞典產(chǎn)生經(jīng)重建語音信號(hào)的裝置。
【附圖說明】
[0018] 圖1為說明其中可實(shí)施用于基于說話者詞典的語音建模的系統(tǒng)和方法的電子裝置的一個(gè)配置的框圖；
[0019] 圖2為說明用于語音建模的方法的一個(gè)配置的流程圖；
[0020] 圖3為說明本文中所揭示的系統(tǒng)和方法的一些配置的較具體概述的功能框圖；
[0021] 圖4為說明其中可實(shí)施用于基于說話者詞典的語音建模的系統(tǒng)和方法的電子裝置的另一配置的框圖；
[0022] 圖5為說明用于語音建模的方法的另一配置的流程圖；
[0023]圖6為說明有噪聲的語音信號(hào)的一個(gè)實(shí)例的曲線；
[0024]圖7為說明噪聲受抑制的語音信號(hào)的一個(gè)實(shí)例的曲線；
[0025]圖8為說明根據(jù)本文中所揭示的系統(tǒng)和方法在第一建模階段處理之后信號(hào)的一個(gè) 實(shí)例的曲線；
[0026]圖9為說明根據(jù)本文中所揭示的系統(tǒng)和方法在第二建模階段處理之后信號(hào)的一個(gè) 實(shí)例的曲線；
[0027] 圖10為說明本文中所揭示的系統(tǒng)和方法的一些配置的概述的一個(gè)實(shí)例的框圖；
[0028] 圖11為說明具有鋼琴和長笛音頻的基于受監(jiān)督非負(fù)矩陣因子分解(NMF)的音頻源分離的一個(gè)實(shí)例的圖；
[0029] 圖12為說明本文中所揭示的系統(tǒng)和方法的較具體配置的功能框圖；
[0030] 圖13為說明用于第一建模階段語音建模的詞典學(xué)習(xí)的較具體實(shí)例的框圖；
[0031] 圖14為說明用于第一建模階段語音建模的詞典的一個(gè)實(shí)例的曲線；
[0032] 圖15為說明用于第二建模階段語音建模的詞典學(xué)習(xí)的較具體實(shí)例的框圖；
[0033]圖16為說明用于第二建模階段語音建模的詞典的一個(gè)實(shí)例的曲線；
[0034]圖17為說明第一建模階段NMF維納濾波的概述的較具體實(shí)例的框圖；
[0035]圖18為說明預(yù)處理的一個(gè)實(shí)例的框圖；
[0036]圖19為說明第一建模階段語音/噪聲分離的一個(gè)實(shí)例的框圖；
[0037]圖20為說明第一建模階段維納濾波重建的一個(gè)實(shí)例的框圖；
[0038] 圖21為說明第二建模階段NMF語音建模的較具體實(shí)例的框圖；
[0039] 圖22為說明其中可實(shí)施用于基于說話者詞典的建模的系統(tǒng)和方法的無線通信裝置的一個(gè)配置的框圖；以及
[0040] 圖23說明可以包含在電子裝置內(nèi)的某些組件。
【具體實(shí)施方式】
[0041] 本文中所揭示的系統(tǒng)和方法涉及基于說話者詞典的語音建模。噪聲抑制是當(dāng)今大多數(shù)通信裝置的一體式組件。許多第一和第二產(chǎn)生系統(tǒng)允許有效地在各種程度減少噪聲功率。然而，所得語音輸出可歸因于侵略性調(diào)諧而在過程中受損。此外，殘余噪聲可歸因于噪聲建模中的失配而仍然存在。更確切地說，語音增強(qiáng)系統(tǒng)的一些問題給定如下。噪聲受抑制的語音輸出可包含歸因于從空間濾波對噪聲參考的估計(jì)不足造成的在感知上顯著的殘余噪聲。另外，語音輸出可歸因于低子帶信號(hào)與噪聲比率（SNR)而遭受子帶中損壞的語音包絡(luò)。相應(yīng)地，需要預(yù)測任何說話者的潔凈語音，而無關(guān)于輸入空間信息、噪聲條件和/或麥克風(fēng)放置。
[0042] 本文中所描述的系統(tǒng)和方法的一些配置可試圖產(chǎn)生近似(例如盡可能接近)潔凈語音的輸出語音。舉例來說，本文中所揭示的系統(tǒng)和方法的一些配置利用針對給定說話者已經(jīng)習(xí)得的語音詞典中編碼的顯式語音模型以及噪聲模型對來自典型噪聲抑制系統(tǒng)的內(nèi) 容輸出進(jìn)行建模。用于這些模型的激活系數(shù)可在第一建模(例如非負(fù)矩陣因子分解(NMF)) 階段習(xí)得以將任何殘余噪聲與(例如，噪聲抑制器)的輸出分離。
[0043]在第二建模階段，可習(xí)得用于經(jīng)改良語音模型的激活系數(shù)以復(fù)原由噪聲抑制(NS) 系統(tǒng)損壞的語音包絡(luò)。最終輸出可主要含有語音要素且可具有接近潔凈語音的話音色彩。
[0044]本文中所揭示的系統(tǒng)和方法的一些配置可包含以下各者中的一或多者。噪聲和/ 或語音數(shù)據(jù)可使用基于詞典的方法建模。可習(xí)得說話者特定語音詞典?？刹捎美梅秦?fù)矩陣因子分解(NMF)的二步基于詞典的語音/噪聲建模。舉例來說，第一建模階段可包含基于 NMF的維納濾波以移除殘余噪聲。第二建模階段可包含基于NMF的包絡(luò)重建以維持潔凈語音包絡(luò)。
[0045] 本文中所揭示的系統(tǒng)和方法的優(yōu)點(diǎn)可包含以下各者中的一或多者。可有效濾除極非靜止噪聲?？删_區(qū)分噪聲和語音諧波結(jié)構(gòu)?？删S持說話者的潔凈濁音語音包絡(luò)。可保留說話者特定語音特性。
[0046] 現(xiàn)在參考圖式描述各種配置，其中相同的參考標(biāo)號(hào)可以指示功能上相似的元件。可以廣泛多種不同配置來布置和設(shè)計(jì)如本文中在各圖中大體描述和說明的系統(tǒng)和方法。因此，對如各圖中所表示的若干配置的以下更詳細(xì)描述并不希望限制如所主張的范圍，而僅表不系統(tǒng)和方法。
[0047] 圖1為說明其中可實(shí)施用于基于說話者詞典的語音建模的系統(tǒng)和方法的電子裝置 102的一個(gè)配置的框圖。電子裝置102的實(shí)例包含智能電話、蜂窩式電話、話音記錄器、數(shù)碼相機(jī)、平板計(jì)算機(jī)裝置、膝上型計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)、視頻相機(jī)、陸線電話等。
[0048] 電子裝置102可包含實(shí)時(shí)噪聲參考確定模塊106、實(shí)時(shí)噪聲詞典確定模塊110、殘余噪聲減少模塊116和重建模塊122中的一或多者。如本文所使用，"模塊"可在硬件（例如電路)或硬件與軟件的組合中實(shí)施。應(yīng)注意，結(jié)合圖1描述的模塊中的一或多者可為任選的。此外，所述模塊中的一或多者可在一些配置中組合或劃分。結(jié)合圖1描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者的較具體實(shí)例可結(jié)合圖2-5、10、12-13、15和17-21中的一或多者給定。
[0049] 電子裝置102可獲得有噪聲的語音信號(hào)104。舉例來說，電子裝置102可使用一或多個(gè)麥克風(fēng)俘獲有噪聲的語音信號(hào)104。另外或替代地，電子裝置102可從另一裝置(例如無線耳機(jī)、另一裝置等)接收有噪聲的語音信號(hào)104。有噪聲的語音信號(hào)104可包含語音和噪聲。噪聲可為干擾所要語音聲音的任何聲音和/或除所要語音聲音外的任何聲音。噪聲的實(shí)例包含背景噪聲、競爭性說話者、風(fēng)噪聲、音樂噪聲、多路重合噪聲、靜止噪聲和/或非靜止噪聲等。在某些狀況下，有噪聲的語音信號(hào)104可包含例如一或多個(gè)濁音部分、非濁音部分、靜默部分、僅噪聲部分和/或僅語音部分。在一些配置中，有噪聲的語音信號(hào)104可劃分成幀 (和任選地子幀），其中幀為在時(shí)間上有噪聲的語音信號(hào)104的一部分。有噪聲的語音信號(hào) 104 (或基于有噪聲的語音信號(hào)104的信號(hào))可提供到實(shí)時(shí)噪聲參考確定模塊106。
[0050] 實(shí)時(shí)噪聲參考確定模塊106可基于有噪聲的語音信號(hào)104獲得實(shí)時(shí)噪聲參考108。舉例來說，實(shí)時(shí)噪聲參考確定模塊106可產(chǎn)生表示有噪聲的語音信號(hào)104中的噪聲的信號(hào)。在一些配置中，實(shí)時(shí)噪聲參考確定模塊106可為噪聲抑制器，可包含在噪聲抑制器內(nèi)和/或可結(jié)合噪聲抑制器利用。結(jié)合圖18給定用于獲得實(shí)時(shí)噪聲參考108的方法的較具體實(shí)例。實(shí) 時(shí)噪聲參考108可提供到實(shí)時(shí)噪聲詞典確定模塊110。
[0051] 實(shí)時(shí)噪聲詞典確定模塊110可基于實(shí)時(shí)噪聲參考108獲得實(shí)時(shí)噪聲詞典112。舉例來說，實(shí)時(shí)噪聲詞典確定模塊110可確定表示實(shí)時(shí)噪聲參考108的一或多個(gè)特性(例如頻率、量值、相位等）的一或多個(gè)基函數(shù)。實(shí)時(shí)噪聲詞典112可包含這些基函數(shù)。結(jié)合圖18給定用于獲得實(shí)時(shí)噪聲詞典112的方法的較具體實(shí)例。實(shí)時(shí)噪聲詞典112可提供到殘余噪聲減少模塊 116〇
[0052] 電子裝置102可獲得第一語音詞典114。舉例來說，第一語音詞典114可由電子裝置 102產(chǎn)生或可從另一電子裝置接收。在一些配置中，電子裝置102可基于語音樣本產(chǎn)生第一語音詞典114。舉例來說，電子裝置102可收集和/或接收潔凈語音信號(hào)(例如，具有高SNR和/ 或無噪聲的語音信號(hào)）。這些潔凈語音信號(hào)可"離線"俘獲，例如在SNR為高的電話呼叫期間、在檢測到極少噪聲或無噪聲時(shí)、在校準(zhǔn)程序期間、在訓(xùn)練程序期間，等等。另外或替代地，電子裝置102可在滿足一或多個(gè)條件時(shí)(例如，在所俘獲語音展現(xiàn)高于閾值的SNR時(shí))選擇特定語音信號(hào)作為潔凈語音信號(hào)。另外或替代地，潔凈語音信號(hào)可由另一裝置俘獲且發(fā)射到電子裝置102。在一些配置中，可僅使用潔凈語音信號(hào)產(chǎn)生第一語音詞典114。在其它配置中，可通過根據(jù)潔凈語音信號(hào)調(diào)適通用語音模型來產(chǎn)生第一語音詞典114。
[0053] 在一些配置中，第一語音詞典114可為低等級語音詞典。舉例來說，低等級語音詞典可為粗略地對特定用戶的語音特性建模的語音詞典。在一些配置中，可經(jīng)由基于NMF的語音詞典學(xué)習(xí)習(xí)得低等級語音詞典。舉例來說，獲得第一語音詞典114可包含初始化一或多個(gè) 激活系數(shù)和/或語音基函數(shù)，以及更新參數(shù)直至收斂。第一語音詞典114可因其大小的緣故而為"低等級"的。舉例來說，第一語音詞典114的大小可相對較小和/或可具有詞典中相對較少數(shù)目的線性獨(dú)立要素(其可例如根據(jù)基于NMF的方法習(xí)得）。相應(yīng)地，習(xí)得的第一語音詞典114可為"低等級"的。在一些配置中，第一語音詞典114的大小可較小和/或與第二語音詞典120相比和/或相對于第二語音詞典120可具有較少線性獨(dú)立要素。
[0054] 第一語音詞典可為說話者特定的。舉例來說，第一語音詞典114可對應(yīng)于單一用戶和/或可表征單一用戶的語音。應(yīng)注意，可產(chǎn)生和/或接收多個(gè)第一語音詞典114,其中第一語音詞典114中的每一者對應(yīng)于不同用戶。結(jié)合圖13描述獲得(例如確定、學(xué)習(xí)等)第一語音詞典114的方法的一個(gè)實(shí)例，且結(jié)合圖14描述第一語音詞典的一個(gè)實(shí)例。第一語音詞典114 可提供到殘余噪聲減少模塊116。
[0055] 殘余噪聲減少模塊116可基于實(shí)時(shí)噪聲詞典112和第一語音詞典114減少殘余噪聲。殘余噪聲可為音頻信號(hào)中剩余的噪聲。舉例來說，殘余噪聲可為已對有噪聲的語音信號(hào) 104執(zhí)行噪聲抑制之后保持的噪聲。殘余噪聲減少模塊116可從噪聲受抑制的語音信號(hào)減少和/或移除此殘余噪聲。應(yīng)注意，可在第一建模階段126內(nèi)或作為第一建模階段126的一部分執(zhí)行減少殘余噪聲。舉例來說，第一建模階段126可為基于NMF的語音和/或噪聲建模的階段。減少殘余噪聲可產(chǎn)生殘余噪聲受抑制的語音信號(hào)118。舉例來說，殘余噪聲受抑制的語音信號(hào)可為具有極少噪聲剩余(如果存在的話)的潔凈語音信號(hào)。然而，殘余噪聲受抑制的語音信號(hào)中的語音可例如歸因于殘余噪聲抑制（以及初始噪聲抑制)而損壞。殘余噪聲受抑制的語音信號(hào)118可提供到重建模塊122。
[0056] 電子裝置102可獲得第二語音詞典120。舉例來說，第二語音詞典120可由電子裝置 102產(chǎn)生或可從另一電子裝置接收。在一些配置中，電子裝置102可基于語音樣本產(chǎn)生第二語音詞典120。舉例來說，電子裝置102可收集潔凈語音信號(hào)(例如具有高SNR和/或無噪聲的語音信號(hào)）。這些潔凈語音信號(hào)可"離線"俘獲，例如在SNR為高的電話呼叫期間、在檢測到極少噪聲或無噪聲時(shí)、在校準(zhǔn)程序期間等等。在一些配置中，第二語音詞典120可僅使用潔凈語音信號(hào)產(chǎn)生。在其它配置中，第二語音詞典120可通過根據(jù)潔凈語音信號(hào)調(diào)適通用語音模型來產(chǎn)生。在一些配置中，用于產(chǎn)生第一語音詞典114的相同潔凈語音也可用于產(chǎn)生第二語音詞典120。在一些配置中，第二語音詞典120可比第一語音詞典114更精細(xì)地表征特定說話者的語首。
[0057]第二語音詞典可為說話者特定的。舉例來說，第二語音詞典120可對應(yīng)于單一用戶和/或可表征單一用戶的語音。應(yīng)注意，可產(chǎn)生和/或接收多個(gè)第二語音詞典120,其中第二語音詞典120中的每一者對應(yīng)于不同用戶。結(jié)合圖15描述獲得(例如確定、學(xué)習(xí)等)第二語音詞典120的方法的一個(gè)實(shí)例，且結(jié)合圖16描述第二語音詞典的一個(gè)實(shí)例。第二語音詞典120 可提供到重建模塊122。
[0058]重建模塊122可基于殘余噪聲受抑制的語音信號(hào)118和第二語音詞典120產(chǎn)生經(jīng)重建語音信號(hào)124。舉例來說，重建模塊122可重建語音頻譜的被損壞部分。應(yīng)注意，可在第二建模階段128內(nèi)或作為第二建模階段128的一部分執(zhí)行產(chǎn)生經(jīng)重建語音信號(hào)124。舉例來說，第二建模階段128可為基于NMF的語音建模的階段。
[0059] 在一些配置中，電子裝置102可編碼、發(fā)射存儲(chǔ)和/或重放經(jīng)重建語音信號(hào)124和/ 或殘余噪聲受抑制的語音信號(hào)118。舉例來說，電子裝置102可編碼經(jīng)重建語音信號(hào)124或殘余噪聲受抑制的語音信號(hào)118,且將其發(fā)射到另一電子裝置(例如蜂窩式電話、智能電話、計(jì) 算機(jī)、游戲控制臺(tái)等）。另外或替代地，電子裝置102可重放經(jīng)重建語音信號(hào)124或殘余噪聲受抑制的語音信號(hào)118。此可通過將信號(hào)提供到一或多個(gè)揚(yáng)聲器來實(shí)現(xiàn)。另外或替代地，電子裝置102可存儲(chǔ)經(jīng)重建語音信號(hào)124或殘余噪聲受抑制的語音信號(hào)118。
[0060] 圖2為說明用于語音建模的方法200的一個(gè)配置的流程圖。方法200可由結(jié)合圖1描述的電子裝置102執(zhí)行。電子裝置102可基于有噪聲的語音信號(hào)104獲得202實(shí)時(shí)噪聲參考。此可(舉例來說)如上文結(jié)合圖1所描述來實(shí)現(xiàn)。
[0061] 電子裝置102可基于實(shí)時(shí)噪聲參考108獲得204實(shí)時(shí)噪聲詞典112。此可(舉例來說）如上文結(jié)合圖1所描述來實(shí)現(xiàn)。
[0062]電子裝置102可獲得206第一語音詞典114和第二語音詞典120。此可(舉例來說)如上文結(jié)合圖1所描述來實(shí)現(xiàn)。
[0063] 電子裝置102可基于實(shí)時(shí)噪聲詞典112和第一語音詞典114減少208殘余噪聲以產(chǎn) 生殘余噪聲受抑制的語音信號(hào)118。此可(舉例來說)如上文結(jié)合圖1所描述來實(shí)現(xiàn)。減少208 殘余噪聲可在第一建模階段126執(zhí)行。第一建模階段126可基于NMF。在一些配置中，減少208 殘余噪聲可包含修正包含第一語音詞典114和實(shí)時(shí)噪聲詞典的語音和噪聲詞典、初始化激活系數(shù)和/或更新激活系數(shù)直至收斂(例如，利用最大數(shù)目的迭代）。另外或替代地，減少208 殘余噪聲可包含基于第一語音詞典、實(shí)時(shí)噪聲詞典、經(jīng)調(diào)適語音激活系數(shù)和/或經(jīng)調(diào)適噪聲激活系數(shù)創(chuàng)建濾波器。減少208殘余噪聲可進(jìn)一步包含基于濾波器和預(yù)增強(qiáng)輸入估計(jì)殘余噪聲受抑制的語音信號(hào)。
[0064] 電子裝置102可基于殘余噪聲受抑制的語音信號(hào)和第二語音詞典產(chǎn)生210經(jīng)重建語音信號(hào)。此可(舉例來說)如結(jié)合圖1所描述來實(shí)現(xiàn)。產(chǎn)生210經(jīng)重建語音信號(hào)可在第二建模階段128執(zhí)行。第二建模階段128可基于NMF。在一些配置中，產(chǎn)生210經(jīng)重建語音信號(hào)可包含修正子帶音高特定詞典、更新激活系數(shù)直至收斂和/或基于音高特定詞典(例如全子帶音高特定詞典)和激活系數(shù)產(chǎn)生經(jīng)重建語音信號(hào)124。
[0065] 圖3為說明本文中所揭示的系統(tǒng)和方法的一些配置的較具體概述的功能框圖。結(jié) 合圖3描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者可為結(jié)合圖1-2中的一或多者描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者的實(shí)例。明確地說，圖3說明噪聲抑制模塊 352、說話者辨識(shí)模塊334、預(yù)處理模塊330、語音詞典選擇模塊336、離線詞典學(xué)習(xí)模塊348、基于NMF的語音/噪聲建模模塊340和信號(hào)選擇模塊344。
[0066]所述概述的更詳細(xì)闡釋提供如下。輸入304(例如有噪聲的語音信號(hào)）可提供到噪聲抑制模塊352和說話者辨識(shí)模塊334。噪聲抑制模塊352可對輸入304(例如有噪聲的語音信號(hào))執(zhí)行噪聲抑制。在一些配置中，噪聲抑制模塊352可基于多個(gè)輸入304信道(例如多個(gè) 麥克風(fēng)信道)執(zhí)行噪聲抑制。舉例來說，噪聲抑制模塊352可抑制輸入304中的靜止和/或非靜止噪聲。在一個(gè)實(shí)例中，噪聲抑制模塊352可確定噪聲抑制輸出量值。噪聲抑制輸出量值可提供到預(yù)處理模塊330。
[0067]預(yù)處理模塊330可獲得實(shí)時(shí)噪聲參考。舉例來說，預(yù)處理模塊330可基于輸入304的初級信道和噪聲抑制輸出量值獲得實(shí)時(shí)噪聲參考。預(yù)處理模塊330可基于輸入304的初級信道和實(shí)時(shí)噪聲參考產(chǎn)生預(yù)增強(qiáng)輸入332(例如X pre)。另外，預(yù)處理模塊330可基于實(shí)時(shí)噪聲參考在線獲得實(shí)時(shí)噪聲詞典312(例如Wn)。結(jié)合圖18描述噪聲抑制和預(yù)處理的較具體實(shí)例。預(yù) 增強(qiáng)輸入332和實(shí)時(shí)噪聲詞典312可提供到基于NMF的語音/噪聲建模模塊340。
[0068]說話者辨識(shí)模塊334可執(zhí)行說話者辨識(shí)。舉例來說，說話者辨識(shí)模塊334可基于輸入304和噪聲抑制模塊352輸出辨識(shí)一或多個(gè)說話者的話音(例如主要說話者的話音）。舉例來說，說話者辨識(shí)模塊334可試圖將輸入304和/或噪聲抑制模塊352輸出的一或多個(gè)特性 (例如頻譜包絡(luò)、共振峰峰值、音高等）與一或多個(gè)已知說話者簡檔匹配。如果說話者經(jīng)辨識(shí)，那么說話者辨識(shí)模塊334可將說話者識(shí)別的指示符提供到語音詞典選擇模塊336。如果說話者辨識(shí)模塊334并未辨識(shí)說話者，那么說話者辨識(shí)模塊334可指示輸入304并不與任何已知(例如所記錄)說話者匹配。
[0069]關(guān)于離線詞典學(xué)習(xí)模塊348,說話者詞典數(shù)據(jù)庫350可用通用說話者詞典初始化。離線詞典學(xué)習(xí)模塊348可在滿足條件時(shí)（例如當(dāng)（舉例來說)輸入語音的SNR測量值高于SNR 閾值時(shí))學(xué)習(xí)特定說話者的語音詞典。
[0070] 語音詞典選擇模塊336可獲得用于第一建模階段語音建模的第一語音詞典314(例如Wsl)。舉例來說，語音詞典選擇模塊336可基于經(jīng)識(shí)別的說話者(如果存在)從說話者詞典數(shù)據(jù)庫350檢索第一語音詞典314。語音詞典選擇模塊336(例如說話者特定語音詞典選擇模塊336)還可選擇用于第二建模階段語音建模的第二語音詞典320(例如W s2)。舉例來說，語音詞典選擇模塊336可基于經(jīng)識(shí)別的說話者(如果存在)從說話者詞典數(shù)據(jù)庫350檢索第二語音詞典320。在一些配置中，第二語音詞典320可為用于第二建模階段語音建模的包絡(luò)-音高特定詞典。如圖3中所說明，第一語音詞典314和第二語音詞典320可各自基于一些配置中的說話者特定語音詞典338(例如，是其子集）。第一語音詞典314和第二語音詞典320可提供到基于NMF的語音/噪聲建模模塊340。
[0071] 基于NMF的語音/噪聲建模模塊340可減少(例如移除）殘余噪聲且產(chǎn)生經(jīng)重建語音信號(hào)324。減少殘余噪聲可在第一建模階段326執(zhí)行，且產(chǎn)生經(jīng)重建語音信號(hào)324可在第二建模階段328執(zhí)行。
[0072] 第一建模階段326可包含基于NMF的維納濾波。舉例來說，對于給定訓(xùn)練語音/噪聲詞典(例如W= [Wsl，Wn])，基于NMF的語音/噪聲建模模塊340可將有噪聲的語音頻譜的每一幀建模為X~1!1。!1=[凡，化]可表示每一詞典的激活權(quán)重(其中凡是第一語音詞典激活權(quán)重，且仏是實(shí)時(shí)噪聲詞典激活權(quán)重）?；贜MF的語音/噪聲建模模塊340可使用維納濾波方法 (
，其中· X為逐要素乘法)產(chǎn)生殘余噪聲受抑制的語音信號(hào)318(例如Xwf)。
[0073] 在一些配置中，基于NMF的語音/噪聲建模模塊340可在第二建模階段328執(zhí)行基于 NMF的包絡(luò)重建，如下。對于給定第二語音詞典320Ws2(例如說話者特定語音詞典），基于NMF 的語音/噪聲建模模塊340可對高SNR子帶語音頻譜建模以產(chǎn)生經(jīng)重建語音信號(hào)324(例如經(jīng) 重建全頻帶語音Xrc=W s2H)。
[0074] 殘余噪聲受抑制的語音信號(hào)318和經(jīng)重建語音信號(hào)324可任選地提供到信號(hào)選擇模塊344。信號(hào)選擇模塊344可基于重建誤差342選擇殘余噪聲受抑制的語音信號(hào)318和經(jīng)重建語音信號(hào)324中的一者作為輸出346(例如輸出語音信號(hào)）。舉例來說，如果重建誤差342 (例如，d IS(X|WH)、dIS或d)為高（例如大于閾值），那么可選擇殘余噪聲受抑制的語音信號(hào) 318 (例如維納濾波輸出Xwf)作為輸出346 (例如，Xc>ut、輸出語音信號(hào)等）。舉例來說，
。另外，如果重建誤差342dIS(X|WH)為高（例如大于相同或不同閾值），那么基于NMF的語音/噪聲建模模塊340可激活離線詞典學(xué)習(xí)模塊348以進(jìn)一步訓(xùn)練語音詞典和/或訓(xùn)練一或多個(gè)額外語音詞典。
[0075]離線詞典學(xué)習(xí)模塊348可執(zhí)行用于第一建模階段326和/或用于第二建模階段328 的詞典學(xué)習(xí)和/或訓(xùn)練。結(jié)合圖13-16提供詞典學(xué)習(xí)和/或訓(xùn)練的更詳細(xì)實(shí)例。
[0076]在一些配置中，所述系統(tǒng)和方法可根據(jù)以下原理中的一或多者操作。第一建模階段326處理可在應(yīng)用后濾波器之前使用NMF程序來獲得和/或從噪聲分離語音分量。實(shí)時(shí)噪聲參考可與預(yù)定義語音詞典(例如第一語音詞典314) -起利用。舉例來說，可獲得實(shí)時(shí)噪聲參考和語音詞典，其可在例如NMF等匹配追蹤的上下文中一起使用。
[0077]在一些配置中，可基于以下假設(shè)每頻段獲得后濾波器增益：可通過從所述頻段中的輸入功率減去噪聲功率來估計(jì)語音功率。然而，根據(jù)本文中所揭示的系統(tǒng)和方法的一些配置，可習(xí)得子帶以用給定訓(xùn)練數(shù)據(jù)盡可能好地闡釋(例如描述、表示等）目標(biāo)說話者，且在應(yīng)用后濾波器之前基于較正確地估計(jì)的語音功率和噪聲功率估計(jì)和/或從噪聲分離語音。此方法可成功，因?yàn)槠淅脴O其準(zhǔn)確的實(shí)時(shí)噪聲參考頻譜，且利用良好訓(xùn)練的目標(biāo)說話者的語音詞典，可比在較簡單常規(guī)方法中更好地估計(jì)和/或分離語音頻譜。應(yīng)注意，為用有限大小(例如量)的訓(xùn)練數(shù)據(jù)構(gòu)造完整語音頻譜詞典，一些子帶原子可組合以闡釋(例如描述、表示等)所有訓(xùn)練數(shù)據(jù)。理論上，如果幾乎無限數(shù)目的基函數(shù)和/或原子被獲得和/或可用于所述詞典，那么用戶的頻譜的幾乎每一快照可用于所有不同種類的發(fā)聲、音高、韻律等。然而，除非用某種方式在一些約束下將大小減小到合理的水平，否則此可能較困難。
[0078]第二建模階段328處理可對于重建包絡(luò)較適合。因?yàn)榈谝徽Z音詞典314(其可在第一建模階段326應(yīng)用）和/或原子可歸因于有限訓(xùn)練數(shù)據(jù)大小而在一些頻率范圍中本地化，所以如果一些頻帶由噪聲主導(dǎo)且如果不存在足夠?qū)捯圆粌H覆蓋那些頻帶而且覆蓋語音主導(dǎo)頻帶的語音原子，那么可能難以復(fù)原所述頻帶(如(舉例來說)常規(guī)后濾波方法中）。然而，應(yīng)注意，可仍存在復(fù)原語音的較好機(jī)率(與常規(guī)方法中相比），只要存在用于目標(biāo)說話者詞典的足夠的語音主導(dǎo)頻段。相應(yīng)地，可利用覆蓋寬得多的范圍的詞典。頻譜快照可為有益的，因?yàn)槠涓采w整個(gè)頻譜。
[0079] 相應(yīng)地，在第二建模階段328處理中，可能有益的是利用頻譜快照，具有一些合理的約束(例如音高和/或可能共振峰結(jié)構(gòu)）。第一建模階段326輸出（例如殘余噪聲受抑制的語音信號(hào)318)可在估計(jì)用于約束的此些特征方面極其有幫助。在一些配置中，可僅提取對應(yīng)于所估計(jì)音高和/或共振峰結(jié)構(gòu)等的頻譜快照。這些可利用為詞典(例如音高特定詞典）來估計(jì)和/或從噪聲分離語音。利用這些約束，詞典可為合理的大小，且NMF或任何恰當(dāng)匹配追蹤算法可在對于存儲(chǔ)器和計(jì)算具有少得多的關(guān)注的情況下應(yīng)用，且仍可復(fù)原目標(biāo)說話者的語音的包絡(luò)。相應(yīng)地，本文中所揭示的系統(tǒng)和方法可提供一種基于前述約束具有合理的詞典大小以及較寬頻譜覆蓋度和合理的復(fù)雜性及存儲(chǔ)器大小且基于詞典恢復(fù)包絡(luò)的新穎方式。
[0080] 在一些配置中，一或多個(gè)方法可包含以下步驟中的一或多者:獲得語音詞典(例如第一語音詞典314);執(zhí)行第一建模階段326處理，其包含基于實(shí)時(shí)噪聲參考和語音詞典(例如第一語音詞典314)執(zhí)行匹配追蹤(例如NMF)以從有噪聲的信號(hào)獲得語音分量;應(yīng)用后濾波器;獲得具有一或多個(gè)約束的另一語音詞典(例如第二語音詞典320);以及執(zhí)行第二建模階段328處理，其包含執(zhí)行匹配追蹤（例如NMF)以復(fù)原語音包絡(luò)。所述系統(tǒng)和方法可另外提供具有執(zhí)行以上程序中的一或多者的組件(例如電路)的電子裝置、具有致使電子裝置執(zhí)行以上程序中的一或多者的指令的計(jì)算機(jī)可讀媒體和/或具有用于執(zhí)行以上程序中的一或多者的裝置的設(shè)備。
[0081] 圖4為說明其中可實(shí)施用于基于說話者詞典的語音建模的系統(tǒng)和方法的電子裝置 402的另一配置的框圖。結(jié)合圖4描述的電子裝置402可為結(jié)合圖1描述的電子裝置102的一個(gè)實(shí)例。
[0082]電子裝置402可包含以下中的一或多者：實(shí)時(shí)噪聲參考確定模塊406、實(shí)時(shí)噪聲詞典確定模塊410、第一語音詞典產(chǎn)生模塊452、殘余噪聲減少模塊416、音高確定模塊456、第二語音詞典產(chǎn)生模塊454、音高特定詞典確定模塊458、子帶確定模塊462、子帶音高特定詞典確定模塊460和語音建模和重建模塊464。實(shí)時(shí)噪聲參考確定模塊406、實(shí)時(shí)噪聲詞典確定模塊410和殘余噪聲減少模塊416可為結(jié)合圖1描述的對應(yīng)組件的實(shí)例。
[0083]在一些配置中，音高確定模塊456、音高特定詞典確定模塊458、子帶確定模塊462、子帶音高特定詞典確定模塊460和語音建模和重建模塊464可包含在結(jié)合圖1描述的重建模塊122內(nèi)。應(yīng)注意，結(jié)合圖4描述的模塊中的一或多者可為任選的。此外，所述模塊中的一或多者可在一些配置中組合或劃分。結(jié)合圖4描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者的較具體實(shí)例可結(jié)合圖5、10、12-13、15和17-21中的一或多者給定。
[0084]電子裝置402可獲得有噪聲的語音信號(hào)404。此可如結(jié)合圖1所描述來實(shí)現(xiàn)。有噪聲的語音信號(hào)404(或基于有噪聲的語音信號(hào)404的信號(hào)）可提供到實(shí)時(shí)噪聲參考確定模塊 406 〇
[0085]實(shí)時(shí)噪聲參考確定模塊406可基于有噪聲的語音信號(hào)404獲得實(shí)時(shí)噪聲參考408。此可如結(jié)合圖1所描述來實(shí)現(xiàn)。結(jié)合圖18給定用于獲得實(shí)時(shí)噪聲參考408的方法的較具體實(shí) 例。實(shí)時(shí)噪聲參考408可提供到實(shí)時(shí)噪聲詞典確定模塊410。
[0086] 實(shí)時(shí)噪聲詞典確定模塊410可基于實(shí)時(shí)噪聲參考408獲得實(shí)時(shí)噪聲詞典412。此可如結(jié)合圖1所描述來實(shí)現(xiàn)。結(jié)合圖18給定用于獲得實(shí)時(shí)噪聲詞典412的方法的較具體實(shí)例。實(shí)時(shí)噪聲詞典412可提供到殘余噪聲減少模塊416。
[0087]第一語音詞典產(chǎn)生模塊452可獲得第一語音詞典414。舉例來說，第一語音詞典產(chǎn) 生模塊452可構(gòu)建和/或訓(xùn)練對一或多個(gè)說話者(例如用戶）的語音建模的第一詞典(例如一組基函數(shù)）?？扇缃Y(jié)合圖1所描述實(shí)現(xiàn)產(chǎn)生第一語音詞典414。第一語音詞典產(chǎn)生模塊452可另外或替代地選擇對應(yīng)于當(dāng)前用戶的第一語音詞典414。
[0088]結(jié)合圖13描述獲得（例如確定、學(xué)習(xí)、產(chǎn)生等）第一語音詞典414的方法的一個(gè)實(shí) 例，且結(jié)合圖14描述第一語音詞典的一個(gè)實(shí)例。第一語音詞典414可提供到殘余噪聲減少模塊 416。
[0089] 殘余噪聲減少模塊416可基于實(shí)時(shí)噪聲詞典412和第一語音詞典414減少殘余噪聲。此可如結(jié)合圖1所描述來實(shí)現(xiàn)。殘余噪聲受抑制的語音信號(hào)418可提供到子帶確定模塊 462和/或音高確定模塊456。
[0090] 音高確定模塊456可基于殘余噪聲受抑制的語音信號(hào)418獲得音高。舉例來說，音高確定模塊456可確定用于殘余噪聲受抑制的語音信號(hào)418的每一幀的音高。所確定的音高可為每一幀中的基本音高(例如基本音高演進(jìn)）。結(jié)合圖21描述音高確定模塊456的實(shí)例。音尚可提供到首尚特定詞典確定t旲塊458。
[0091] 在一些配置中，音高確定模塊456可通過執(zhí)行幀中的殘余噪聲受抑制的語音信號(hào) 418的時(shí)域自相關(guān)且確定音高峰值之間的周期(例如樣本的數(shù)目）來確定音高。另外或替代地，音高確定模塊456可將殘余噪聲受抑制的語音信號(hào)418變換到頻域，且確定發(fā)生最大峰值量值所處的頻率。
[0092]在一些配置中，音高確定模塊456可將殘余噪聲受抑制的信號(hào)418變換到頻域，且確定基頻如下。音高確定模塊456可通過確定和/或移除非諧波峰值、相對于最大峰值來說較小(例如小于閾值)的峰值、具有低(例如小于閾值)音值的峰值、太接近較強(qiáng)峰值(例如在較強(qiáng)峰值的頻率范圍內(nèi)）的峰值和/或從前一幀的非諧波峰值連續(xù)的峰值來確定基頻。隨后，音高確定模塊456可執(zhí)行諧波匹配以確定基頻。舉例來說，音高確定模塊456可尋找具有剩余峰值(例如，fi)的基頻，其中基頻(例如，fo)為剩余峰值的一般化最大公約數(shù)(例如，fi/ fo的分?jǐn)?shù)部分，表示為{fi/f〇}r，對于每一 fi盡可能小）。舉例來說
。此可用于尋找在f 0使每一 { f l/f 0 } r在針對f 0的給定范圍內(nèi)盡可能小的意義上與觀察到的峰值頻率{fl}最佳匹配的f〇。及(/(〇表示諧波匹配頻譜（例如經(jīng)加權(quán)諧波匹配得分），其中
，此為由其振幅&加權(quán)的峰值心的諧波匹配得分的總和。在一些配置中，加權(quán)函數(shù)為其提供用于振幅的權(quán)重。表示諧波匹配量度，其可為例如
。此提供0與1之間的得分，其反映 fi/f 0 與某一整數(shù)接近的程度。
[0093]第二語音詞典產(chǎn)生模塊454可獲得(例如產(chǎn)生、構(gòu)建和/或訓(xùn)練)對一或多個(gè)說話者 (例如用戶）的語音建模的第二語音詞典420(例如一組基函數(shù)）。在一些配置中，產(chǎn)生第二語音詞典420可如結(jié)合圖1所描述來實(shí)現(xiàn)。在一些實(shí)例中，獲得第二語音詞典可包含估計(jì)多個(gè) 說話者特定語音量值頻譜的諧波性和音高。獲得第二語音詞典還可包含從說話者特定語音量值頻譜選擇具有高于諧波性閾值的對應(yīng)諧波性的語音頻譜。獲得第二語音詞典可進(jìn)一步包含用對應(yīng)音高標(biāo)記選定語音頻譜中的每一者。
[0094] 第二語音詞典產(chǎn)生模塊454可另外或替代地選擇對應(yīng)于當(dāng)前用戶的第二語音詞典 420。獲得(例如確定、學(xué)習(xí)等)第二語音詞典420的方法的一個(gè)實(shí)例結(jié)合圖15描述，且第二語音詞典的一個(gè)實(shí)例結(jié)合圖16描述。第二語音詞典420可為說話者特定的音高包絡(luò)特定語音詞典。第二語音詞典420可提供到音高特定詞典確定模塊458。
[0095] 音高特定詞典確定模塊458可基于音高從說話者特定詞典（例如第二語音詞典 420)確定音高特定詞典。舉例來說，音高特定詞典確定模塊458可基于音高從第二語音詞典 420選擇基函數(shù)的子集以便確定音高特定詞典。音高特定詞典可提供到子帶音高特定詞典確定模塊460且提供到語音建模和重建模塊464。
[0096]子帶確定模塊462可基于殘余噪聲受抑制的語音信號(hào)418確定一或多個(gè)子帶。舉例來說，子帶確定模塊462可基于殘余噪聲受抑制的語音信號(hào)418選擇子帶（例如頻段）。舉例來說，子帶確定模塊462可僅選擇殘余噪聲受抑制的語音信號(hào)418的展現(xiàn)高于閾值的SNR的一或多個(gè)子帶。子帶確定模塊462的實(shí)例結(jié)合圖21描述。所述一或多個(gè)子帶可提供到子帶音高特定詞典確定模塊460且提供到語音建模和重建模塊464。
[0097]子帶音高特定詞典確定模塊460可基于所述一或多個(gè)子帶（例如逐頻段信噪比 (SNR))從音高特定詞典確定子帶音高特定詞典。舉例來說，子帶音高特定詞典確定模塊460 可基于子帶從音高特定詞典選擇一或多個(gè)基函數(shù)以產(chǎn)生子帶音高特定詞典。子帶音高特定詞典可提供到語音建模和重建模塊464。
[0098]語音建模和重建模塊464可基于子帶音高特定詞典和所述子帶產(chǎn)生經(jīng)重建語音信號(hào)424。舉例來說，語音建模和重建模塊464可修正子帶音高特定詞典且更新激活系數(shù)直至收斂。語音建模和重建模塊464還可基于音高特定詞典和激活系數(shù)產(chǎn)生經(jīng)重建語音信號(hào)。語音建模和重建模塊464的實(shí)例結(jié)合圖21描述。
[0099] 在一些配置中，電子裝置402可基于重建誤差和一或多個(gè)閾值在殘余噪聲受抑制的語音信號(hào)418與經(jīng)重建語音信號(hào)424之間進(jìn)行選擇。舉例來說，電子裝置402可在重建誤差低于閾值的情況下選擇經(jīng)重建語音信號(hào)424?；蛘?，電子裝置402可在重建誤差高于(例如大于或等于）閾值的情況下選擇殘余噪聲受抑制的語音信號(hào)418。電子裝置402可在一些配置中輸出選定信號(hào)。
[0100]圖5為說明用于語音建模的方法500的另一配置的流程圖。電子裝置402可基于有噪聲的語音信號(hào)404獲得502殘余噪聲受抑制的語音信號(hào)418。此可(舉例來說）如上文結(jié)合圖4所描述來實(shí)現(xiàn)。
[0101]電子裝置402可基于殘余噪聲受抑制的語音信號(hào)418獲得504音高。此可（舉例來說)如上文結(jié)合圖4所描述來實(shí)現(xiàn)。
[0102] 電子裝置402可獲得506第二語音詞典420。此可(舉例來說)如上文結(jié)合圖4所描述來實(shí)現(xiàn)。
[0103] 電子裝置402可基于音高從第二語音詞典420確定508音高特定詞典。此可(舉例來說)如上文結(jié)合圖4所描述來實(shí)現(xiàn)。
[0104] 電子裝置402可基于殘余噪聲受抑制的語音信號(hào)418確定510-或多個(gè)子帶。此可 (舉例來說)如上文結(jié)合圖4所描述來實(shí)現(xiàn)。
[0105] 電子裝置402可基于所述一或多個(gè)子帶從音高特定詞典確定512子帶音高特定詞典。此可(舉例來說)如上文結(jié)合圖4所描述來實(shí)現(xiàn)。
[0106] 電子裝置402可在重建誤差低于閾值的情況下選擇514經(jīng)重建語音信號(hào)。此可（舉例來說)如上文結(jié)合圖4所描述來實(shí)現(xiàn)。
[0107] 圖6為說明有噪聲的語音信號(hào)的一個(gè)實(shí)例的曲線。明確地說，所述曲線為頻率（以赫茲(Hz)計(jì))666隨時(shí)間668 (以小時(shí)、分鐘和秒(hms)計(jì)，其中例如2:50:0表示2分鐘50.0秒）的頻譜圖。在此實(shí)例中，有噪聲的語音信號(hào)為在存在音樂噪聲的情況下包含語音信號(hào)的初級信道輸入。
[0108] 圖7為說明噪聲受抑制的語音信號(hào)的一個(gè)實(shí)例的曲線。明確地說，所述曲線為頻率 (Hz)766隨時(shí)間768的頻譜圖。在此實(shí)例中，噪聲受抑制的信號(hào)為包含具有從音樂噪聲剩余的一些殘余噪聲770的語音信號(hào)的去噪輸出。圖7進(jìn)一步說明一些遺漏的諧波分音和損壞的語音包絡(luò)772。舉例來說，一些類型的噪聲抑制存在的問題可包含殘余噪聲770、遺漏諧波分音和/或損壞的語音包絡(luò)772。
[0109] 圖8為說明根據(jù)本文中所揭示的系統(tǒng)和方法的第一建模階段處理之后信號(hào)的一個(gè) 實(shí)例的曲線。明確地說，所述曲線為頻率(Hz) 866隨時(shí)間868的頻譜圖。在此實(shí)例中，所述頻譜圖說明第一建模階段NMF維納濾波輸出。圖8對應(yīng)于圖6-7中給定的實(shí)例。明確地說，此頻譜圖說明根據(jù)本文中所揭示的系統(tǒng)和方法在噪聲抑制和第一建模階段處理之后從被音樂噪聲損壞的語音信號(hào)獲得的所得殘余噪聲受抑制的語音信號(hào)。如可觀察到，殘余噪聲和隔離的噪聲峰值已經(jīng)減小和/或移除。
[0110] 圖9為說明根據(jù)本文中所揭示的系統(tǒng)和方法的第二建模階段處理之后的信號(hào)的一個(gè)實(shí)例的曲線。明確地說，所述曲線為頻率(Hz)966隨時(shí)間968的頻譜圖。在此實(shí)例中，所述頻譜圖說明第二建模階段NMF包絡(luò)重建輸出（例如經(jīng)重建語音信號(hào)）。圖9對應(yīng)于圖6-8中給定的實(shí)例。明確地說，此頻譜圖說明根據(jù)本文中所揭示的系統(tǒng)和方法在噪聲抑制、第一建模階段處理和第二建模階段處理之后從被音樂噪聲損壞的語音信號(hào)獲得的所得經(jīng)重建語音信號(hào)。如可觀察到，諧波分音已經(jīng)復(fù)原，且已維持潔凈濁音語音包絡(luò)。
[0111] 圖10為說明本文中所揭示的系統(tǒng)和方法的一些配置的概述的一個(gè)實(shí)例的框圖。結(jié) 合圖10描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者可為結(jié)合圖1-5中的一或多者描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者的實(shí)例。此對應(yīng)可用類似項(xiàng)目標(biāo)號(hào)指示。
[0112] 在圖10中說明的配置中，有噪聲的語音信號(hào)1004提供到噪聲抑制模塊1052。噪聲抑制模塊1052可抑制如上文所描述的有噪聲的語音信號(hào)1004中的噪聲。在一些配置中，噪聲抑制模塊1052可產(chǎn)生實(shí)時(shí)經(jīng)調(diào)適噪聲參考信號(hào)1008(例如實(shí)時(shí)噪聲參考)和/或噪聲受抑制的語音量值頻譜1032。舉例來說，為了抑制有噪聲的語音信號(hào)1004中的噪聲，噪聲抑制模塊1052可實(shí)時(shí)確定噪聲參考1008。噪聲參考1008可為有噪聲的語音信號(hào)1004中的噪聲（例如噪聲特性）的估計(jì)。實(shí)時(shí)經(jīng)調(diào)適噪聲參考信號(hào)1008可（由噪聲詞典模塊1010)利用以獲取噪聲詞典。噪聲受抑制的語音信號(hào)的量值頻譜1032可提供到基于NMF的語音/噪聲建模模塊 1040〇
[0113] 所述噪聲受抑制的語音信號(hào)可提供到聲紋模塊1034。聲紋模塊1034可執(zhí)行說話者辨識(shí)。舉例來說，聲紋模塊1034可基于來自語音信號(hào)的特性辨識(shí)一或多個(gè)說話者。聲紋模塊 1034可為結(jié)合圖3描述的說話者辨識(shí)模塊334的一個(gè)實(shí)例。聲紋模塊1034可將說話者辨識(shí)信息提供到語音詞典模塊1036/噪聲詞典模塊1010。
[0114] 語音詞典模塊1036/噪聲詞典模塊1010可基于說話者辨識(shí)信息選擇一或多個(gè)說話者特定詞典和/或可獲取噪聲詞典。舉例來說，說話者特定語音詞典選擇模塊可基于說話者辨識(shí)信息選擇第一詞典和第二詞典。舉例來說，如果當(dāng)前說話者經(jīng)辨識(shí)，那么語音詞典模塊 1036/噪聲詞典模塊1010可選擇對應(yīng)于所述特定說話者的一或多個(gè)詞典(例如，已經(jīng)特定地訓(xùn)練以表示特定說話者的語音特性的詞典）。然而，如果當(dāng)前說話者未經(jīng)辨識(shí)，那么語音詞典模塊1036/噪聲詞典模塊1010可選擇一或多個(gè)通用詞典。
[0115] 所述一或多個(gè)詞典可選自說話者特定詞典數(shù)據(jù)庫1050。舉例來說，電子裝置可離線訓(xùn)練一或多個(gè)潔凈說話者特定詞典。舉例來說，電子裝置可基于潔凈語音樣本針對每一經(jīng)辨識(shí)的說話者訓(xùn)練一或多個(gè)詞典(例如第一詞典和第二詞典）。"潔凈"語音樣本可為具有低噪聲電平的語音樣本(例如，具有大于某一特定閾值的SNR的樣本）。
[0116] 語音詞典模塊1036/噪聲詞典模塊1010可另外獲得實(shí)時(shí)噪聲詞典。獲得實(shí)時(shí)噪聲詞典可基于實(shí)時(shí)(經(jīng)調(diào)適)噪聲參考1008。實(shí)時(shí)噪聲詞典可表示有噪聲的語音信號(hào)中發(fā)生的噪聲的一或多個(gè)特性。相應(yīng)地，語音詞典模塊1036/噪聲詞典模塊1010可利用說話者特定詞典和實(shí)時(shí)噪聲詞典兩者(例如將它們組合）。第一語音詞典、第二語音詞典和實(shí)時(shí)噪聲詞典可提供到基于NMF的語音/噪聲建模模塊1040。
[0117] 基于NMF的語音/噪聲建模模塊1040可執(zhí)行根據(jù)本文中所揭示的系統(tǒng)和方法的第一建模階段和/或第二建模階段處理。第一建模階段處理(例如第一建模階段NMF維納濾波）的實(shí)例的更多細(xì)節(jié)結(jié)合圖15和17-18提供。第二建模階段處理(例如第二建模階段NMF語音建模)的實(shí)例的更多細(xì)節(jié)結(jié)合圖19提供?；贜MF的語音/噪聲建模模塊1040可產(chǎn)生增強(qiáng)型語音1024(例如殘余噪聲受抑制的語音信號(hào)和/或經(jīng)重建語音信號(hào)）。
[0118] 基于NMF的語音/噪聲建模模塊1040可產(chǎn)生(例如計(jì)算、估計(jì)等)建模誤差1042或重建誤差。建模誤差1042可提供到潔凈說話者特定詞典訓(xùn)練模塊1048。如上文所描述，潔凈說話者特定詞典訓(xùn)練模塊1048可訓(xùn)練對應(yīng)于一或多個(gè)說話者的一或多個(gè)詞典。此可離線執(zhí) 行。結(jié)合圖1〇(例如，在圖10的下部部分中）描述的其它操作可在線（例如實(shí)時(shí)、在噪聲抑制使用期間等)執(zhí)行。
[0119] 圖11為說明在鋼琴和長笛音頻的情況下受監(jiān)督的基于NMF的音頻源分離的一個(gè)實(shí) 例的圖。圖11包含曲線A 1174a、曲線B 1174b、曲線C 1174c、曲線D 1174d和曲線E1174e。曲線A 1174a以頻率(Hz) 1166a隨詞典數(shù)目1176說明，曲線B 1174b以頻率(Hz) 1166a隨時(shí)間 1168b說明，曲線C 1174c以頻率（Hz)1166c隨時(shí)間1168c說明，曲線D 1174d以頻率(Hz) 1166d隨時(shí)間1168d說明，且曲線E 1174e以詞典數(shù)目1178隨時(shí)間1168e說明。明確地說，圖11 說明曲線A 1174a中的鋼琴詞典WP和長笛詞典Wf、曲線B 1174b中的鋼琴-長笛混合物X的頻譜圖、曲線E 1174e中的對應(yīng)長笛激活系數(shù)Hf和對應(yīng)鋼琴激活系數(shù)HP、曲線C 1174c中的經(jīng)重建鋼琴XP=WPHP和曲線D 1174d中的經(jīng)重建長笛Xf=WfHf。
[0120] 特定地，說明曲線B 1174b中的混合物頻譜圖X、曲線A 1174a中的預(yù)先訓(xùn)練的詞典 W = [WP，Wf ]和曲線E 1174e中的激活系數(shù)Η = [ HP，Hf ]。所述混合物可建模為X~WH?；旌衔颴的每一列向量表不為非負(fù)詞典W的非負(fù)線性組合。Η的每一列向量表不每一詞典的激活權(quán)重 I
[0121] 混合物X可通過找到激活系數(shù)HjPHf而分解為鋼琴和長笛信號(hào)。Η可通過最小化由
界定的成本函數(shù)來確定或找到，其中dis表示I takura-Sai to 距離。一旦獲得HP和Hf，鋼琴和長笛就分別重建為WPHP和WfHf。
[0122] 圖12為說明本文中所揭示的系統(tǒng)和方法的較具體配置的功能框圖。結(jié)合圖12描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者可為結(jié)合圖1-5和10中的一或多者描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者的實(shí)例。明確地說，圖12說明噪聲抑制模塊1252、聲紋模塊1234、預(yù)處理模塊1230、語音詞典選擇模塊1236、離線詞典學(xué)習(xí)模塊1248、基于NMF 的語音/噪聲建模模塊1240和信號(hào)選擇模塊1244。
[0123] 更詳細(xì)闡釋提供如下。輸入1204(例如有噪聲的語音信號(hào))可提供到噪聲抑制模塊 1252且提供到聲紋模塊1234。噪聲抑制模塊1252可執(zhí)行如上文結(jié)合圖3和10中的一或多者所描述的噪聲抑制。噪聲抑制輸出量值可提供到預(yù)處理模塊1230。
[0124] 預(yù)處理模塊1230可如上文結(jié)合圖3和10中的一或多者所描述獲得實(shí)時(shí)噪聲參考。預(yù)處理模塊1230可基于輸入1204的初級信道和實(shí)時(shí)噪聲參考產(chǎn)生預(yù)增強(qiáng)型輸入1232(例如 Xpre)。另外，預(yù)處理模塊1230可基于實(shí)時(shí)噪聲參考在線獲得實(shí)時(shí)噪聲詞典1212(例如Wn)。結(jié) 合圖18描述噪聲抑制和預(yù)處理的較具體實(shí)例。預(yù)增強(qiáng)型輸入1232和實(shí)時(shí)噪聲詞典1212可提供到基于NMF的語音/噪聲建模模塊1240。
[0125] 聲紋模塊1234可如上文結(jié)合圖3和10中的一或多者所描述執(zhí)行說話者辨識(shí)。舉例來說，聲紋模塊1234可提供說話者識(shí)別的指示或當(dāng)前說話者未經(jīng)識(shí)別或并不與任何已知簡檔匹配的指示。
[0126] 關(guān)于離線詞典學(xué)習(xí)模塊1248,說話者詞典數(shù)據(jù)庫1250可用通用說話者詞典初始化。離線詞典學(xué)習(xí)模塊1248可在滿足條件時(shí)(例如在(舉例來說)輸入語音的SNR測量值高于 SNR閾值時(shí))學(xué)習(xí)特定說話者的語音詞典。
[0127] 語音詞典選擇模塊1236可如上文結(jié)合圖3和10中的一或多者所描述獲得用于第一建模階段語音建模的第一語音詞典1214(例如W sl)。語音詞典選擇模塊1236 (例如說話者特定語音詞典選擇模塊1236)還可如上文結(jié)合圖3和10中的一或多者所描述選擇用于第二建模階段語音建模的第二語音詞典1220(例如W s2)。如圖12中所說明，在一些配置中，第一語音詞典1214和第二語音詞典1220可各自為說話者特定語音詞典1238的子集。第一語音詞典 1214和第二語音詞典1220可提供到基于NMF的語音/噪聲建模模塊1240。
[0128] 基于NMF的語音/噪聲建模模塊1240可減少（例如移除）殘余噪聲且產(chǎn)生經(jīng)重建語音信號(hào)1224。減少殘余噪聲可在第一建模階段1226執(zhí)行，且產(chǎn)生經(jīng)重建語音信號(hào)1224可在第二建模階段1228執(zhí)行。
[0129] 第一建模階段1226可包含基于NMF的維納濾波。舉例來說，對于給定經(jīng)訓(xùn)練語音/ 噪聲詞典(例如1=[131，1"])，基于^^的語音/噪聲建模模塊1240可將有噪聲的語音頻譜的每一幀建模為X~1!1。!1=[&，仏]可表示每一詞典的激活權(quán)重（其中&是第一語音詞典激活權(quán)重，且H n是實(shí)時(shí)噪聲詞典激活權(quán)重）?；诜薋的語音/噪聲建模模塊1240可通過找到Η將有噪聲的語音X分解為語音和噪聲信號(hào)。此可例如通過最小化由
的擬合量度來實(shí)現(xiàn)。舉例來說，第一建模階段1226可修正W、更新(例如調(diào)適)Η且使用維納濾波方法，
產(chǎn)生殘余噪聲受抑制的語首?目號(hào)1218(例如Xwf)，其中· X為逐要素乘法。
[0130]在一些配置中，基于NMF的語音/噪聲建模模塊1240可在第二建模階段1228處執(zhí)行基于NMF的包絡(luò)重建如下。對于給定第二語音詞典1220Ws2(例如說話者特定語音詞典），基于 NMF的語音/噪聲建模模塊1240可將高SNR子帶語音頻譜建模為Xwf，sub~W s2, subH。在一些配置中，基于NMF的語音/噪聲建模模塊1240可修正Ws2, sub、更新（例如調(diào)適)Η且產(chǎn)生經(jīng)重建語音信號(hào)1224(例如經(jīng)重建全頻帶語音Xrc=W s2H)。
[0131]殘余噪聲受抑制的語音信號(hào)1218和經(jīng)重建語音信號(hào)1224可任選地提供到信號(hào)選擇模塊1244。信號(hào)選擇模塊1244可基于重建誤差1242選擇殘余噪聲受抑制的語音信號(hào)1218 和經(jīng)重建語音信號(hào)1224中的一者。舉例來說，如果重建誤差1242(例如，d IS(X|WH)、dIS或d) 為高(例如大于閾值），那么殘余噪聲受抑制的語音信號(hào)1218(例如維納濾波輸出X wf)可選擇為輸出1246(例如Xcmt)。舉例來說：
。另外，如果重建誤差1242dIS(X WH)為高（例如大于相同或不同閾值），那么基于NMF的語音/噪聲建模模塊1240可激活離線詞典學(xué)習(xí)模塊1248以進(jìn)一步訓(xùn)練語音詞典和/或訓(xùn)練一或多個(gè)額外語音詞典。
[0132] 離線詞典學(xué)習(xí)模塊1248可執(zhí)行用于第一建模階段1226和/或用于第二建模階段 1228的詞典學(xué)習(xí)和/或訓(xùn)練。詞典學(xué)習(xí)和/或訓(xùn)練的更詳細(xì)實(shí)例結(jié)合圖13-16提供。
[0133] 圖13為說明用于第一建模階段語音建模的詞典學(xué)習(xí)的較具體實(shí)例的框圖。明確地說，圖13說明基于NMF的語音詞典學(xué)習(xí)模塊1382的一個(gè)實(shí)例?；贜MF的語音詞典學(xué)習(xí)模塊 1382可為上文描述的離線詞典學(xué)習(xí)模塊348、1248和第一語音詞典產(chǎn)生模塊452中的一或多者(或一部分)的一個(gè)實(shí)例。
[0134] 如圖13中所說明，說話者特定潔凈語音量值頻譜1380(例如V)可提供到基于NMF的語音詞典學(xué)習(xí)模塊1382。舉例來說，電子裝置可收集和/或接收潔凈語音信號(hào)（例如具有高 SNR和/或無噪聲的語音信號(hào)）。這些潔凈語音信號(hào)可"離線"俘獲，例如在SNR為高的電話呼叫期間、在檢測到極少噪聲或無噪聲時(shí)、在校準(zhǔn)程序期間、在訓(xùn)練程序期間等。另外或替代地，電子裝置可在滿足一或多個(gè)條件時(shí)(例如在所俘獲語音展現(xiàn)高于閾值的SNR時(shí))選擇特定語音信號(hào)作為潔凈語音信號(hào)。另外或替代地，潔凈語音信號(hào)可由另一裝置俘獲且發(fā)射到電子裝置。應(yīng)注意，在NMF中，V可指代試圖進(jìn)行因子分解的矩陣，如V=WH中。
[0135] 基于NMF的語音詞典學(xué)習(xí)模塊1382可基于匪F學(xué)習(xí)第一語音詞典1314(例如低等級語音詞典、用于第一建模階段的詞典）。舉例來說，基于NMF的語音詞典學(xué)習(xí)模塊1382 可隨機(jī)初始化激活系數(shù)Η和一或多個(gè)語音基函數(shù)Wsl且更新參數(shù)（例如H)直至收斂。在一些配置中，此可根據(jù)等式
和/或根據(jù)等式
實(shí)現(xiàn)，其中β為用以控制更新期間最小化的發(fā)散類型的參數(shù)。應(yīng)注意，在以上等式中，"Τ"表示矩陣轉(zhuǎn)置。
[0136] 圖14為說明用于第一建模階段語音建模的詞典的一個(gè)實(shí)例的曲線。明確地說，用于第一建模階段語音建模的詞典以詞典數(shù)目1486隨頻率1484說明。
[0137] 圖15為說明用于第二建模階段語音建模的詞典學(xué)習(xí)的較具體實(shí)例的框圖。明確地說，圖15說明音高/諧波性估計(jì)模塊1588的一個(gè)實(shí)例。音高/諧波性估計(jì)模塊1588可為上文描述的離線詞典學(xué)習(xí)模塊348、1248和第二語音詞典產(chǎn)生模塊454中的一或多者(或一部分）的一個(gè)實(shí)例。
[0138] 如圖15中所說明，說話者特定(潔凈)語音量值頻譜1580(例如V)可提供到音高/諧波性估計(jì)模塊1588。舉例來說，說話者特定潔凈語音量值頻譜1580可如上文結(jié)合圖1和13中的一或多者所描述而獲得。
[0139] 音高/諧波性估計(jì)模塊1588可估計(jì)每一語音頻譜的諧波性和音高。音高/諧波性估計(jì)模塊1588可選擇具有高諧波性(例如具有高于諧波性閾值的對應(yīng)諧波性）的濁音語音頻譜Vh作為第二語音詞典1520(例如W s2 = Vh)，用對應(yīng)音高標(biāo)記每一語音詞典（例如選定語音頻譜)和/或通過改變每一頻譜詞典的音高豐富當(dāng)前詞典。在一些配置中，音高標(biāo)記的語音詞典可如下來豐富。給定音高標(biāo)記的語音詞典，音高可在頻域中經(jīng)移位而不改變其共振峰或包絡(luò)。以此方式，給定一個(gè)可用語音詞典，可獲得跨越對應(yīng)于特定共振峰結(jié)構(gòu)和/或包絡(luò) 的整個(gè)音高范圍的語音詞典要素的擴(kuò)展集合(例如整個(gè)集合）。
[0140] 圖16為說明用于第二建模階段語音建模的詞典的一個(gè)實(shí)例的曲線。明確地說，用于第二建模階段語音建模的第二語音詞典以頻率1690隨詞典數(shù)目1692說明。
[0141 ]圖17為說明第一建模階段NMF維納濾波的概述的較具體實(shí)例的框圖。明確地說，圖 17說明噪聲抑制模塊1752/預(yù)處理模塊1730、源分離模塊1703和重建模塊1707。結(jié)合圖17描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者可為結(jié)合圖1_5、10、12和21中的一或多者描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者的實(shí)例。
[0142] 在此實(shí)例中，輸入1704(例如有噪聲的語音信號(hào)）提供到噪聲抑制模塊1752/預(yù)處理模塊1730。噪聲抑制模塊1752/預(yù)處理模塊1730可產(chǎn)生噪聲詞典1712和預(yù)增強(qiáng)型輸入 1732。預(yù)增強(qiáng)型輸入1732可提供到源分離模塊1703和重建模塊1707。
[0143] 可從說話者特定語音數(shù)據(jù)庫1750提取(舉例來說用于第一建模階段）的第一語音詞典1714。詞典1701(例如W)可包含第一語音詞典1714和噪聲詞典1712。詞典1701可提供到源分離模塊1703且提供到重建模塊1707。
[0144] 源分離模塊1703可基于激活系數(shù)Η 1711執(zhí)行受監(jiān)督NMF語音分離1705。舉例來說，源分離模塊1703可初始化Η 1713且調(diào)適Η 1715。在收斂后(或舉例來說當(dāng)達(dá)到最大迭代限制時(shí)），經(jīng)調(diào)適Η 1715可提供到重建模塊1707。
[0145] 重建模塊1707可基于詞典1701、預(yù)增強(qiáng)型輸入1732和經(jīng)調(diào)適系數(shù)1715執(zhí)行維納濾波語音重建1709以產(chǎn)生輸出語音量值1718(例如殘余噪聲受抑制的語音信號(hào)）。輸出語音量值1718可提供到第二建模階段1728。關(guān)于圖17的功能、模塊和/或結(jié)構(gòu)的更多細(xì)節(jié)提供于圖 18-20 中。
[0146] 圖18為說明預(yù)處理的一個(gè)實(shí)例的框圖。明確地說，圖18說明預(yù)處理模塊1830的一個(gè)實(shí)例。結(jié)合圖18描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者可為結(jié)合圖1_5、10、 12、17和21中的一或多者描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者的實(shí)例。
[0147] 在此實(shí)例中，輸入1804(例如有噪聲的語音信號(hào)）的兩個(gè)信道提供到噪聲抑制模塊 1852。噪聲抑制模塊1852可產(chǎn)生噪聲抑制輸出相位1819和噪聲抑制輸出量值1821(例如 Xns ) 〇
[0148] 輸入1804的初級信道可提供到快速傅里葉變換(FFT)模塊1817。輸入1804的初級信道可為俘獲最多語音(例如具有最高SNR、最高語音量值等）的輸入的信道(例如麥克風(fēng)）。另外或替代地，可預(yù)先確定輸入1804的初級信道。FFT模塊1817可將輸入1804的初級信道變換到頻域（例如變換為頻譜表示）。所得初級信道輸入（例如X)1823可提供到預(yù)處理模塊 1830。
[0149] 在一些配置中，預(yù)處理模塊1830可確定噪聲參考1808(例如Xn)。此可根據(jù)等式X n = abs(X-i?ns)實(shí)現(xiàn)，其中β為用以將輸入X和噪聲抑制輸出匹配的增益因數(shù)。
[0150]在一些配置中，預(yù)處理模塊1830可根據(jù)等式Xpre = X-c〇Ui定預(yù)增強(qiáng)型輸入信號(hào) 18 32 (例如Xpre)。<1的一個(gè)實(shí)例= 0.8。在一些配置中，預(yù)處理模塊1830可根據(jù)等式
獲得噪聲詞典1812。
[0151] 圖19為說明第一建模階段語音/噪聲分離的一個(gè)實(shí)例的框圖。明確地說，圖19說明源分離模塊1903的一個(gè)實(shí)例。結(jié)合圖19描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者可為結(jié)合圖1-5、10、12、17-18和21中的一或多者描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者的實(shí)例。
[0152] 詞典1901(例如，W)可包含第一語音詞典1914(例如Wsl)和噪聲詞典1912(例如W n)。詞典1901可提供到源分離模塊1903。預(yù)增強(qiáng)型輸入1932(例如Xpre，如結(jié)合圖18所描述)也可提供到源分離模塊1903。
[0153] 源分離模塊1903可基于激活系數(shù)Η 1911執(zhí)行受監(jiān)督NMF語音分離1905。舉例來說，源分離模塊1903可初始化Η 1913且調(diào)適Η 1915直至收斂(或舉例來說直至達(dá)到最大迭代限制)。
[0154] 在一些配置中，源分離模塊1903可根據(jù)等式
操作。舉例來說，修正詞典W 1901，同時(shí)僅可調(diào)適激活系數(shù)Η 1911。對于第一幀，可隨機(jī)初始化激活系數(shù)Η 1911。對于第二幀和之后的幀，源分離模塊1903可利用來自前一幀的經(jīng)更新激活系數(shù)Η 1911來開始迭代。源分離模塊1903可更新激活系數(shù)Η 1911直至收斂?？稍谙惹芭c 當(dāng)前激活系數(shù)之間的改變低于閾值時(shí)檢測到收斂。
[0155] 圖20為說明第一建模階段維納濾波重建的一個(gè)實(shí)例的框圖。明確地說，圖20說明重建模塊2007的一個(gè)實(shí)例。重建模塊2007可包含維納濾波語音重建模塊2009。結(jié)合圖20描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者可為結(jié)合圖1_5、10、12、17-19和21中的一或多者描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者的實(shí)例。
[0156] 詞典2001(例如W)可包含第一語音詞典2014(例如Wsl)和噪聲詞典2012(例如W n)。詞典2001可提供到重建模塊2007(例如提供到維納濾波語音重建模塊2009)。經(jīng)調(diào)適激活系數(shù)H 2011(包含語音激活系數(shù)Hs2025和噪聲激活系數(shù)化2027)可提供到重建模塊2007。預(yù)增強(qiáng)型輸入信號(hào)2032(例如X pre)也可提供到重建模塊2007。
[0157] 重建模塊2 0 0 7可創(chuàng)建濾波器M s。在一些配置中，此可根據(jù)等式
，舉例來說，α可設(shè)定成1或2。重建模塊2007 (例如維納濾波語音重建模塊2009)可根據(jù)等式Xwf = MS · X Xpre估計(jì)語音量值 Xwf2018(例如殘余噪聲受抑制的語音信號(hào)），其中· X為逐要素乘法。
[0158] 圖21為說明第二建模階段NMF語音建模的較具體實(shí)例的框圖。明確地說，圖21說明音高估計(jì)模塊2156、逐頻段SNR模塊2162、受監(jiān)督子帶NMF語音建模模塊2137、語音重建模塊 2141、信號(hào)選擇模塊2144和離線詞典學(xué)習(xí)模塊2148。結(jié)合圖21描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者可為結(jié)合圖1-5、10、12-13、15和17中的一或多者描述的功能、程序、參數(shù)、值和/或結(jié)構(gòu)中的一或多者的實(shí)例。
[0159] 第二建模階段語音建模闡釋給定如下。如圖21中所說明，電子裝置可獲得初級輸入(例如初級信道輸入)Xin2104。噪聲抑制輸出X ns2129可基于輸入2104。在一些配置中，噪聲抑制輸出Xns2129可基于多個(gè)信道。噪聲抑制輸出X ns2129可提供到音高估計(jì)模塊2156和逐頻段SNR模塊2162。
[0160] 在一些配置中，語音量值頻譜Xwf2118(例如維納濾波語音量值頻譜、殘余噪聲受抑制的語音信號(hào)、損壞的語音量值等)可由第一階段(例如第一建模階段)處理2126提供。第一階段處理2126的實(shí)例結(jié)合圖20給出。音高估計(jì)模塊2156可針對每一維納濾波語音量值頻譜 Xwf2118估計(jì)音高和諧波性。音高和/或諧波性可基于噪聲抑制輸出XNS2129和說話者特定詞典12138來估計(jì)。電子裝置(例如電子裝置102)可利用諧波性以確定對應(yīng)幀為濁音還是非濁音。如果幀為非濁音幀，那么可跳過或放棄第二建模階段處理(例如可停止處理和/或可丟棄針對所述幀的經(jīng)重建語音信號(hào)2124)。如果所述幀為濁音幀，那么音高估計(jì)模塊2156 (或另一模塊)可尋找針對給定音高的對應(yīng)語音詞典(例如音高特定詞典W P2131)。
[0161] 逐頻段SNR模塊2162可操作如下。乂^可為初級信道量值輸入，且XNS可為噪聲抑制輸出2129。逐頻段SNR模塊2162可確定逐頻段SNR(針對音高特定詞典W P2131的一或多個(gè)頻帶或"頻段"），其可根據(jù)等式
界定。針對每一濁音幀，子帶置信度分數(shù)可由等式
界定。如果子帶置信度得分小于子帶置
信度閾值(例如置信度 <子帶置信度閾值），那么可針對所述幀(例如整個(gè)幀，其中置信度為逐幀得分)跳過或放棄第二建模階段處理。逐頻段SNR模塊2162(和/或另一模塊)可尋找一或多個(gè)可靠頻帶k (例如其中SNRk >閾值_SNR)和/或可根據(jù)等式生子帶輸入量值頻譜2 133。逐頻段SNR模塊2 162和/或另一模塊可根據(jù)等式
.相關(guān)聯(lián)子帶音高特定語音詞典2135。
[0162] 受監(jiān)督子帶NMF語音建模模塊2137可在一些配置中基于子帶NMF執(zhí)行包絡(luò)重建如下?？赏ㄟ^最小化監(jiān)視建模擬合性的1丨&1〇^^-53；[1:0(15)發(fā)散(例如重建誤差(115 2142)來執(zhí) 行使用子帶語音頻譜Xwf,sub2133和詞典WP,sub2135的子帶NMFJS發(fā)散可根據(jù)等式
[0163] 等監(jiān)督子帶NMF語音建模模塊2137可根據(jù)等式
1修b正詞典WP, sub且更新激活系數(shù)Η 2139直至收斂·
[0164] 語音重建模塊2141可根據(jù)等式Xrc； = WPH以全頻帶詞典WP2131執(zhí)行語音重建。經(jīng)重建語音信號(hào)Xr。2 124可提供到信號(hào)選擇模塊2 144。應(yīng)注意，當(dāng)根據(jù)等式
丨重新合成到時(shí)域信號(hào)時(shí)，電子裝置可利用來自噪聲抑制輸出的相位。
[0165] 輸出質(zhì)量可根據(jù)重建誤差dis(Xwf,sub | WP,subH)控制。舉例來說，如果dis>閾值，那么可激活離線詞典學(xué)習(xí)模塊2148(以舉例來說更新說話者詞典數(shù)據(jù)庫2150)。
[0166] 信號(hào)選擇模塊2144可基于重建誤差2142選擇信號(hào)。舉例來說，如果dIS<閾值，那么 Xwf可選擇為Xcmt。如果dis>閾值，那么Xrc可選擇為Xcmt。舉例來說，經(jīng)重建語音信號(hào)Xrc 2124 可與維納濾波語音輸出Xwf 2118組合以獲得如等式
中提供的最終輸出。在一些配置中，應(yīng)注意，當(dāng)跳過或放棄第二建模階段處理時(shí)，可輸出第一階段處理的輸出（例如輸出語音量值、維納濾波語音輸出Xwf2118等）、噪聲抑制信號(hào)（例如噪聲抑制模塊 1252的輸出、NS輸出2129等)或輸入信號(hào)(例如初級輸入2104)。
[0167] 圖22為說明其中可實(shí)施用于基于說話者詞典的建模的系統(tǒng)和方法的無線通信裝置2202的一個(gè)配置的框圖。圖22中說明的無線通信裝置2202可為本文所描述的電子裝置中的一或多者的實(shí)例。所述無線通信裝置2202可包含應(yīng)用處理器2253。應(yīng)用處理器2253通常處理指令(例如，運(yùn)行程序）以執(zhí)行無線通信裝置2202上的功能。應(yīng)用處理器2253可耦合到音頻譯碼器/解碼器(編解碼器)2251。
[0168] 音頻編解碼器2251可用于對音頻信號(hào)進(jìn)行譯碼和/或解碼。音頻編解碼器2251可耦合到至少一個(gè)揚(yáng)聲器2243、耳機(jī)2245、輸出插孔2247和/或至少一個(gè)麥克風(fēng)2249。揚(yáng)聲器 2243可包含一或多個(gè)將電或電子信號(hào)轉(zhuǎn)換為聲學(xué)信號(hào)的電-聲變換器。舉例來說，揚(yáng)聲器 2243可用于播放音樂或輸出說話者電話對話等。耳機(jī)2245可為可用于將聲學(xué)信號(hào)（例如，語音信號(hào))輸出到用戶的另一揚(yáng)聲器或電-聲變換器。舉例來說，可使用耳機(jī)2245使得僅用戶可確實(shí)地聽到聲學(xué)信號(hào)。輸出插孔2247可用于將其它裝置(例如頭戴式耳機(jī))耦合到無線通信裝置2202以用于輸出音頻。揚(yáng)聲器2243、耳機(jī)2245和/或輸出插孔2247可通常用于從音頻編解碼器2251輸出音頻信號(hào)。所述至少一個(gè)麥克風(fēng)2249可為將聲學(xué)信號(hào)(例如用戶的話音）轉(zhuǎn)換為提供至音頻編解碼器2251的電或電子信號(hào)的聲-電變換器。在一些配置中，音頻編解碼器2251和/或應(yīng)用處理器2253可經(jīng)配置以執(zhí)行本文中所描述的第一建模階段處理和第二建模階段處理中的一或多者(和/或其它功能或程序中的一或多者）。
[0169] 應(yīng)用處理器2253還可耦合到功率管理電路2263。功率管理電路2263的一個(gè)實(shí)例為功率管理集成電路(PMIC)，其可用于管理無線通信裝置2202的電功率消耗。功率管理電路 2263可耦合到電池2265。電池2265可通常將電功率提供到無線通信裝置2202。舉例來說，電池2265和/或功率管理電路2263可耦合到包含于無線通信裝置2202中的元件中的至少一者。
[0170] 應(yīng)用處理器2253可耦合到至少一個(gè)輸入裝置2267以用于接收輸入。輸入裝置2267 的實(shí)例包含紅外傳感器、圖像傳感器、加速度計(jì)、觸摸傳感器、小鍵盤等。輸入裝置2267可允許用戶與無線通信裝置2202的交互。應(yīng)用處理器2253還可耦合到一或多個(gè)輸出裝置2269。輸出裝置2269的實(shí)例包含打印機(jī)、投影儀、屏幕、觸覺裝置等。輸出裝置2269可允許無線通信裝置2202產(chǎn)生可由用戶體驗(yàn)的輸出。
[0171] 應(yīng)用處理器2253可耦合到應(yīng)用存儲(chǔ)器2271。應(yīng)用存儲(chǔ)器2271可為能夠存儲(chǔ)電子信息的任何電子裝置。應(yīng)用存儲(chǔ)器2271的實(shí)例包含雙數(shù)據(jù)速率同步動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器 (DDRAM)、同步動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(SDRAM)、快閃存儲(chǔ)器等。應(yīng)用存儲(chǔ)器2271可提供用于應(yīng) 用處理器2253的存儲(chǔ)。舉例來說，應(yīng)用存儲(chǔ)器2271可存儲(chǔ)用于在應(yīng)用處理器2253上運(yùn)行的程序的運(yùn)作的數(shù)據(jù)和/或指令。
[0172] 應(yīng)用處理器2253可耦合到顯示控制器2273,所述顯示控制器又可耦合到顯示器 2275。顯示控制器2273可為用于在顯示器2275上產(chǎn)生圖像的硬件塊。舉例來說，顯示控制器 2273可將來自應(yīng)用處理器2253的指令和/或數(shù)據(jù)轉(zhuǎn)譯為可呈現(xiàn)在顯示器2275上的圖像。顯示器2275的實(shí)例包含液晶顯示器(IXD)面板、發(fā)光二極管(LED)面板、陰極射線管(CRT)顯示器、等離子顯示器等。
[0173] 應(yīng)用處理器2253可耦合到基帶處理器2255?；鶐幚砥?255通常處理通信信號(hào)。舉例來說，基帶處理器2255可對所接收的信號(hào)進(jìn)行解調(diào)和/或解碼。另外或替代地，基帶處理器2255可對信號(hào)進(jìn)行編碼及/或調(diào)制以準(zhǔn)備發(fā)射。
[0174] 基帶處理器2255可耦合到基帶存儲(chǔ)器2277?；鶐Т鎯?chǔ)器2277可為能夠存儲(chǔ)電子信息的任何電子裝置，例如SDRAM、DDRAM、快閃存儲(chǔ)器等。基帶處理器2255可從基帶存儲(chǔ)器 2277讀取信息（例如指令和/或數(shù)據(jù))和/或?qū)⑿畔懭氲交鶐Т鎯?chǔ)器2277。另外或替代地，基帶處理器2255可使用存儲(chǔ)在基帶存儲(chǔ)器2277中的指令和/或數(shù)據(jù)來執(zhí)行通信操作。
[0175] 基帶處理器2255可耦合到射頻(RF)收發(fā)器2257 AF收發(fā)器2257可耦合到功率放大器2259和一或多個(gè)天線2261 AF收發(fā)器2257可發(fā)射及/或接收射頻信號(hào)。舉例來說，RF收發(fā) 器2257可使用功率放大器2259及至少一個(gè)天線2261發(fā)射RF信號(hào)。RF收發(fā)器2257還可使用所述一或多個(gè)天線2261接收RF信號(hào)。
[0176] 圖23說明可包含在電子裝置2302內(nèi)的某些組件。結(jié)合圖23描述的電子裝置2302可為本文中所描述的電子裝置1〇2、402和無線通信裝置2202中的一或多者的實(shí)例和/或可根據(jù)所述電子裝置1〇2、402和無線通信裝置2202中的一或多者實(shí)施。
[0177] 電子裝置2302包含處理器2395。處理器2395可為通用單或多芯片微處理器（例如 ARM)、專用微處理器(例如數(shù)字信號(hào)處理器(DSP))、微控制器、可編程門陣列等。處理器2395 可被稱為中央處理單元(CPU)。盡管圖23的電子裝置2302中僅展示單一處理器2395,但在替代配置中，可使用處理器(例如ARM和DSP)的組合。
[0178] 電子裝置2302還包含與處理器2395進(jìn)行電子通信的存儲(chǔ)器2379(8卩，處理器2395 可從存儲(chǔ)器2379讀取信息和/或?qū)⑿畔懭氲酱鎯?chǔ)器2379)。存儲(chǔ)器2379可為能夠存儲(chǔ)電子信息的任何電子組件。存儲(chǔ)器2379可為隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(R0M)、磁盤存儲(chǔ) 媒體、光學(xué)存儲(chǔ)媒體、RAM中的快閃存儲(chǔ)器裝置、隨處理器一起包含的機(jī)載存儲(chǔ)器、可編程只讀存儲(chǔ)器(PR0M)、可擦除可編程只讀存儲(chǔ)器(EPR0M)、電可擦除PROM(EEPROM)、寄存器等，包含其組合。
[0179] 數(shù)據(jù)2381和指令2383可存儲(chǔ)于存儲(chǔ)器2379中。指令2383可包含一或多個(gè)程序、例程、子例程、功能、程序、代碼等。指令2383可包含單個(gè)計(jì)算機(jī)可讀語句或許多計(jì)算機(jī)可讀語句。指令2383可由處理器2395執(zhí)行以實(shí)施上文描述的方法200、500中的一或多者。執(zhí)行指令 2383可涉及使用存儲(chǔ)于存儲(chǔ)器2379中的數(shù)據(jù)2381。圖23展示一些指令2383a和數(shù)據(jù)2381a加載到處理器2395。
[0180] 電子裝置2302還可包含發(fā)射器2391和接收器2393以允許在電子裝置2302與遠(yuǎn)程位置(例如基站)之間發(fā)射和接收信號(hào)。發(fā)射器2391和接收器2393可共同稱為收發(fā)器2389。天線2387可電耦合到收發(fā)器2389。電子裝置2302還可包含(未圖示）多個(gè)發(fā)射器、多個(gè)接收器、多個(gè)收發(fā)器和/或多個(gè)天線。
[0181] 電子裝置2302的各種組件可通過一或多個(gè)總線耦合在一起，所述總線可以包含電力總線、控制信號(hào)總線、狀態(tài)信號(hào)總線、數(shù)據(jù)總線等。為簡單起見，各種總線在圖23中說明為總線系統(tǒng)2385。
[0182] 在以上描述中，有時(shí)結(jié)合各種術(shù)語而使用參考標(biāo)號(hào)。在術(shù)語結(jié)合參考標(biāo)號(hào)使用的情況下，此可意味著指代圖中的一或多者中展示的特定元件。在無參考標(biāo)號(hào)的情況下使用術(shù)語的情形下，此可意味著大體指代所述術(shù)語，而不限于任何特定圖。
[0183] 術(shù)語"確定"涵蓋各種各樣的動(dòng)作，且因此"確定"可包含計(jì)算、估算、處理、導(dǎo)出、調(diào) 查、查找(例如，在表、數(shù)據(jù)庫或另一數(shù)據(jù)結(jié)構(gòu)中查找）、查實(shí)及類似者。并且，"確定"可包含接收(例如，接收信息）、存取(例如，在存儲(chǔ)器中存取數(shù)據(jù))及類似者。并且，"確定"可包括解析、選擇、挑選、建立等等。
[0184] 除非以其它方式明確地指定，否則短語"基于"并不意味著"僅基于"。換句話說，短語"基于"描述"僅基于"與"至少基于"兩者。
[0185] 應(yīng)注意，結(jié)合本文中所描述的配置中的任一者描述的特征、功能、程序、參數(shù)、值、組件、元件、結(jié)構(gòu)等中的一或多者可與結(jié)合本文中所描述的其它配置中的任一者描述的功能、程序、參數(shù)、值組件、元件、結(jié)構(gòu)等中的一或多者(在兼容的情況下)組合。換句話說，本文中所描述的功能、程序、參數(shù)、值、組件、元件等的任何兼容組合可根據(jù)本文中所揭示的系統(tǒng) 和方法實(shí)施。
[0186] 可將本文中所描述的功能作為一或多個(gè)指令而存儲(chǔ)在處理器可讀或計(jì)算機(jī)可讀媒體上。術(shù)語"計(jì)算機(jī)可讀媒體"是指可由計(jì)算機(jī)或處理器存取的任何可用媒體。作為實(shí)例而非限制，此類媒體可包括隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPR0M)、快閃存儲(chǔ)器、壓縮光盤只讀存儲(chǔ)器(⑶-ROM)或其它光盤存儲(chǔ)裝置、磁盤存儲(chǔ)器或其它磁性存儲(chǔ)裝置，或可用于以指令或數(shù)據(jù)結(jié)構(gòu)的形式存儲(chǔ)所要的程序代碼且可由計(jì)算機(jī)存取的任何其它媒體。如本文中所使用，磁盤和光盤包含壓縮光盤(CD)、激光光盤、光學(xué)光盤、數(shù)字多功能光盤(DVD)、軟性磁盤和Blu-ra/光盤，其中磁盤通常以磁性方式再現(xiàn)數(shù)據(jù)，而光盤利用激光以光學(xué)方式再現(xiàn)數(shù)據(jù)。應(yīng)注意，計(jì)算機(jī)可讀媒體可為有形且非暫時(shí) 性的。術(shù)語"計(jì)算機(jī)程序產(chǎn)品"是指計(jì)算裝置或處理器，其與可由計(jì)算裝置或處理器執(zhí)行、處理或計(jì)算的代碼或指令(例如，"程序"）結(jié)合。如本文所使用，術(shù)語"代碼"可指可由計(jì)算裝置或處理器執(zhí)行的軟件、指令、代碼或數(shù)據(jù)。
[0187] 還可通過發(fā)射媒體發(fā)射軟件或指令。舉例來說，如果使用同軸電纜、光纖電纜、雙絞線、數(shù)字訂戶線(DSL)或無線技術(shù)(例如，紅外線、無線電及微波)從網(wǎng)站、服務(wù)器或其它遠(yuǎn) 程源發(fā)射軟件，則同軸電纜、光纖電纜、雙絞線、DSL或無線技術(shù)(例如，紅外線、無線電及微波)包含在發(fā)射媒體的定義中。
[0188] 本文中所揭示的方法包括用于達(dá)成所描述的方法的一或多個(gè)步驟或動(dòng)作。在不偏離權(quán)利要求書的范圍的情況下，方法步驟和/或動(dòng)作可彼此互換。換句話說，除非正描述的方法的適當(dāng)操作需要步驟或動(dòng)作的特定次序，否則，在不脫離權(quán)利要求書的范圍的情況下，可修改特定步驟及/或動(dòng)作的次序及/或使用。
[0189] 應(yīng)理解，權(quán)利要求書不限于上文所說明的精確配置和組件。在不脫離權(quán)利要求書的范圍的情況下，可在本文中所描述的系統(tǒng)、方法和設(shè)備的布置、操作和細(xì)節(jié)方面進(jìn)行各種修改、改變和變更。
【主權(quán)項(xiàng)】
1. 一種用于通過電子裝置進(jìn)行語音建模的方法，其包括：基于有噪聲的語音信號(hào)獲得實(shí)時(shí)噪聲參考；基于所述實(shí)時(shí)噪聲參考獲得實(shí)時(shí)噪聲詞典；獲得第一語音詞典和第二語音詞典；在第一建模階段基于所述實(shí)時(shí)噪聲詞典和所述第一語音詞典減少殘余噪聲以產(chǎn)生殘余噪聲受抑制的語音信號(hào)；以及在第二建模階段基于所述殘余噪聲受抑制的語音信號(hào)和所述第二語音詞典產(chǎn)生經(jīng)重建語音信號(hào)。2. 根據(jù)權(quán)利要求1所述的方法，其中所述第一建模階段是基于非負(fù)矩陣因子分解NMF。3. 根據(jù)權(quán)利要求1所述的方法，其中所述第二建模階段是基于非負(fù)矩陣因子分解NMF。4. 根據(jù)權(quán)利要求1所述的方法，其中減少殘余噪聲包括：修正包括所述第一語音詞典和所述實(shí)時(shí)噪聲詞典的語音和噪聲詞典；初始化激活系數(shù)；以及更新所述激活系數(shù)直至收斂。5. 根據(jù)權(quán)利要求1所述的方法，其中減少所述殘余噪聲包括：基于所述第一語音詞典、所述實(shí)時(shí)噪聲詞典、經(jīng)調(diào)適語音激活系數(shù)和經(jīng)調(diào)適噪聲激活系數(shù)創(chuàng)建濾波器；以及基于所述濾波器和預(yù)增強(qiáng)型輸入估計(jì)所述殘余噪聲受抑制的語音信號(hào)。6. 根據(jù)權(quán)利要求1所述的方法，其中產(chǎn)生所述經(jīng)重建語音信號(hào)包括：修正子帶音高特定詞典；更新激活系數(shù)直至收斂；以及基于音高特定詞典和所述激活系數(shù)產(chǎn)生所述經(jīng)重建語音信號(hào)。7. 根據(jù)權(quán)利要求6所述的方法，其進(jìn)一步包括：基于音高從說話者特定詞典確定所述音高特定詞典；以及基于逐頻段信噪比SNR從所述音高特定詞典確定所述子帶音高特定詞典。8. 根據(jù)權(quán)利要求1所述的方法，其進(jìn)一步包括基于重建誤差從所述經(jīng)重建語音信號(hào)和所述殘余噪聲受抑制的語音信號(hào)選擇輸出語音信號(hào)。9. 根據(jù)權(quán)利要求1所述的方法，其中所述第一語音詞典和所述第二語音詞典基于說話者特定語音詞典。10. 根據(jù)權(quán)利要求1所述的方法，其中獲得所述第一語音詞典包括：初始化多個(gè)激活系數(shù)和語音基函數(shù)；以及更新參數(shù)直至收斂。11. 根據(jù)權(quán)利要求1所述的方法，其中獲得所述第二語音詞典包括：估計(jì)用于多個(gè)說話者特定語音量值頻譜的諧波性和音高；從所述說話者特定語音量值頻譜選擇具有高于諧波性閾值的對應(yīng)諧波性的語音頻譜；以及用對應(yīng)音高標(biāo)記所述選定語音頻譜中的每一者。12. -種用于語音建模的電子裝置，其包括：處理器；存儲(chǔ)器，其與所述處理器進(jìn)行電子通信；存儲(chǔ)于所述存儲(chǔ)器中的指令，所述指令可執(zhí)行以：基于有噪聲的語音信號(hào)獲得實(shí)時(shí)噪聲參考；基于所述實(shí)時(shí)噪聲參考獲得實(shí)時(shí)噪聲詞典；獲得第一語音詞典和第二語音詞典；在第一建模階段基于所述實(shí)時(shí)噪聲詞典和所述第一語音詞典減少殘余噪聲以產(chǎn)生殘余噪聲受抑制的語音信號(hào)；以及在第二建模階段基于所述殘余噪聲受抑制的語音信號(hào)和所述第二語音詞典產(chǎn)生經(jīng)重建語音信號(hào)。13. 根據(jù)權(quán)利要求12所述的電子裝置，其中所述第一建模階段是基于非負(fù)矩陣因子分解 NMF〇14. 根據(jù)權(quán)利要求12所述的電子裝置，其中所述第二建模階段是基于非負(fù)矩陣因子分解 NMF〇15. 根據(jù)權(quán)利要求12所述的電子裝置，其中減少殘余噪聲包括：修正包括所述第一語音詞典和所述實(shí)時(shí)噪聲詞典的語音和噪聲詞典；初始化激活系數(shù)；以及更新所述激活系數(shù)直至收斂。16. 根據(jù)權(quán)利要求12所述的電子裝置，其中減少所述殘余噪聲包括：基于所述第一語音詞典、所述實(shí)時(shí)噪聲詞典、經(jīng)調(diào)適語音激活系數(shù)和經(jīng)調(diào)適噪聲激活系數(shù)創(chuàng)建濾波器；以及基于所述濾波器和預(yù)增強(qiáng)型輸入估計(jì)所述殘余噪聲受抑制的語音信號(hào)。17. 根據(jù)權(quán)利要求12所述的電子裝置，其中產(chǎn)生所述經(jīng)重建語音信號(hào)包括：修正子帶音高特定詞典；更新激活系數(shù)直至收斂；以及基于音高特定詞典和所述激活系數(shù)產(chǎn)生所述經(jīng)重建語音信號(hào)。18. 根據(jù)權(quán)利要求17所述的電子裝置，其中所述指令進(jìn)一步可執(zhí)行以：基于音高從說話者特定詞典確定所述音高特定詞典；以及基于逐頻段信噪比SNR從所述音高特定詞典確定所述子帶音高特定詞典。19. 根據(jù)權(quán)利要求12所述的電子裝置，其中所述指令進(jìn)一步可執(zhí)行以基于重建誤差從所述經(jīng)重建語音信號(hào)和所述殘余噪聲受抑制的語音信號(hào)選擇輸出語音信號(hào)。20. 根據(jù)權(quán)利要求12所述的電子裝置，其中所述第一語音詞典和所述第二語音詞典基于說話者特定語音詞典。21. 根據(jù)權(quán)利要求12所述的電子裝置，其中獲得所述第一語音詞典包括：初始化多個(gè)激活系數(shù)和語音基函數(shù)；以及更新參數(shù)直至收斂。22. 根據(jù)權(quán)利要求12所述的電子裝置，其中獲得所述第二語音詞典包括：估計(jì)用于多個(gè)說話者特定語音量值頻譜的諧波性和音高；從所述說話者特定語音量值頻譜選擇具有高于諧波性閾值的對應(yīng)諧波性的語音頻譜；以及用對應(yīng)音高標(biāo)記所述選定語音頻譜中的每一者。23. -種用于語音建模的計(jì)算機(jī)程序產(chǎn)品，其包括上面具有指令的非暫時(shí)性有形計(jì)算機(jī)可讀媒體，所述指令包括：用于致使電子裝置基于有噪聲的語音信號(hào)獲得實(shí)時(shí)噪聲參考的代碼；用于致使所述電子裝置基于所述實(shí)時(shí)噪聲參考獲得實(shí)時(shí)噪聲詞典的代碼；用于致使所述電子裝置獲得第一語音詞典和第二語音詞典的代碼；用于致使所述電子裝置在第一建模階段基于所述實(shí)時(shí)噪聲詞典和所述第一語音詞典減少殘余噪聲以產(chǎn)生殘余噪聲受抑制的語音信號(hào)的代碼；以及用于致使所述電子裝置在第二建模階段基于所述殘余噪聲受抑制的語音信號(hào)和所述第二語音詞典產(chǎn)生經(jīng)重建語音信號(hào)的代碼。24. 根據(jù)權(quán)利要求23所述的計(jì)算機(jī)程序產(chǎn)品，其中產(chǎn)生所述經(jīng)重建語音信號(hào)包括：修正子帶音高特定詞典；更新激活系數(shù)直至收斂；以及基于音高特定詞典和所述激活系數(shù)產(chǎn)生所述經(jīng)重建語音信號(hào)。25. 根據(jù)權(quán)利要求23所述的計(jì)算機(jī)程序產(chǎn)品，其中獲得所述第一語音詞典包括：初始化多個(gè)激活系數(shù)和語音基函數(shù)；以及更新參數(shù)直至收斂。26. 根據(jù)權(quán)利要求23所述的計(jì)算機(jī)程序產(chǎn)品，其中獲得所述第二語音詞典包括：估計(jì)用于多個(gè)說話者特定語音量值頻譜的諧波性和音高；從所述說話者特定語音量值頻譜選擇具有高于諧波性閾值的對應(yīng)諧波性的語音頻譜；以及用對應(yīng)音高標(biāo)記所述選定語音頻譜中的每一者。27. -種用于語音建模的設(shè)備，其包括：用于基于有噪聲的語音信號(hào)獲得實(shí)時(shí)噪聲參考的裝置；用于基于所述實(shí)時(shí)噪聲參考獲得實(shí)時(shí)噪聲詞典的裝置；用于獲得第一語音詞典和第二語音詞典的裝置；用于在第一建模階段基于所述實(shí)時(shí)噪聲詞典和所述第一語音詞典減少殘余噪聲以產(chǎn) 生殘余噪聲受抑制的語音信號(hào)的裝置;以及用于在第二建模階段基于所述殘余噪聲受抑制的語音信號(hào)和所述第二語音詞典產(chǎn)生經(jīng)重建語音信號(hào)的裝置。28. 根據(jù)權(quán)利要求27所述的設(shè)備，其中所述用于產(chǎn)生所述經(jīng)重建語音信號(hào)的裝置包括：用于修正子帶音高特定詞典的裝置；用于更新激活系數(shù)直至收斂的裝置；以及用于基于音高特定詞典和所述激活系數(shù)產(chǎn)生所述經(jīng)重建語音信號(hào)的裝置。29. 根據(jù)權(quán)利要求27所述的設(shè)備，其中所述用于獲得所述第一語音詞典的裝置包括：用于初始化多個(gè)激活系數(shù)和語音基函數(shù)的裝置；以及用于更新參數(shù)直至收斂的裝置。30. 根據(jù)權(quán)利要求27所述的設(shè)備，其中所述用于獲得所述第二語音詞典的裝置包括：用于估計(jì)用于多個(gè)說話者特定語音量值頻譜的諧波性和音高的裝置；
【文檔編號(hào)】G10L21/028GK106030705SQ201580010366
【公開日】2016年10月12日
【申請日】2015年2月24日
【發(fā)明人】郭尹義, 南尤漢, 埃里克·維瑟, 張樹華, 金萊軒
【申請人】高通股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭尹義;南尤漢;埃里克·維瑟;張樹華;金萊軒;
技術(shù)所有人：高通股份有限公司;
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音建模相關(guān)技術(shù)

多邊形建模能用于制造相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于基于說話者詞典的語音建模的系統(tǒng)和方法