利用話音清晰性的語音增強的制作方法

文檔序號：2831824閱讀：219來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：利用話音清晰性的語音增強的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及音頻信號處理。更具體地，本發(fā)明涉及一種用于帶噪音頻語音信號 (noisy audio speech signal)的語音增強和清晰性的處理方法或處理器。本發(fā)明還涉及用于實現(xiàn)這類方法或者控制這類設(shè)備的計算機程序。所結(jié)合的參考文件以下公開文件均通過引用的方式整體結(jié)合于此。[1] S. F. Boll，“ Suppression of acoustic noise in speech using spectralsubtraction，，，IEEE Trans. Acoust.，Speech，Signal Processing，vol.27, pp. 113-120，Apr. 1979.[2]Y. Ephraim, H. Lev-Ari 禾口 W. J. J. Roberts，“A brief survey of SpeechEnhancement，，，The Electronic Handbook，CRC Press，April 2005.[3]Y.Ephraim 禾口 D. Malah，“Speech enhancement using a minimummean square error short time spectral amplitude estimator,"IEEE Trans. Acoust. Speech,Signal processing, vol. 32，pp.1109—1121，Dec.1984.[4] Thomas, I.禾口 Niederjohn，R. ,"Preprocessing of Speech for AddedIntel ligibility in High Ambient Noise，，，34th Audio Engineering SocietyConvention, March 1968.[5]Villchur, E.，“Signal Processing to Improve Speech Intelligibility forthe Hearing Impired，，，99th Audio Engineering Society Convention, September 1995.[6] N. Virag，“Single channel speech enhancement based on maskingproperties of the human auditory system”， IEEE Tran.Speech and AudioProcessing, vol. 7，pp.126-137，Mar.1999.[7]R. Martin，“Spectral subtraction based on minimum statistics”，in Proc. EUSIPC0，1994，pp.1182—1185.[8]P. J.Wolfe*S.J.Godsill，“Efficient alternatives to Ephraim andMalah suppression rule for audio signal enhancement，，，EURASIP Journalon Applied Signal Processing，vol. 2003，Issue 10，Pages 1043-1051，2003.[9]B. Widrow 禾口 S. D. Stearns，Adaptive Signal Processing. EnglewoodCliffs, NJ :Prentice Hall,1985.[10]Y Ephraim禾口D. Malah，“Speech enhancement using a minimummean square error Log-spectral amplitude estimator”，IEEE Trans. Acoust. , Speech，Signal Processing，vol. 33，pp. 443-445，Dec. 1985.[11] E. Terhardt, "Calculating Virtual Pitch，，，Hearing Research， pp. 155-182,1，1979.[12]IS0/IEC JTC1/SC29/WG11， Information technology-Coding ofmovingpictures and associated audio for digital storage media at up to about1. 5Mbit/ s-Part3 =Audio,IS 11172-3,1992.[13] J. Johuston, "Transform coding of audio signals using perceptualnoise criteria，，，IEEE. J Select. Areas Commun. , vol. 6, pp. 314-323, Feb. 1998.[14] S. Gustfsson, P. Jax , P Vary, “ A novel psychoacoustically motivatedaudio enhancement algorithm preserving background noisecharacteristies", Proceedings of the 1998 IEEE International Conferenceon Acoustics, Speech, and Signal Processing,1998. ICASSP' 98.[15] Yi Hu 禾口 P. C. Loizou, ‘‘ Incorporating a psychoacoustic model infrequency domain speech enhancement，，，IEEE Signal Processing Letter, pp. 270-273，vol. 11，no. 2，F(xiàn)eb. 2004.[16]L. Lin, W. H. Holmes, 禾口 Ε· Ambikaira jah, ‘‘ Speech denoising usingperceptual modification of Wiener filtering，，，Electronics Letter, ppl486-1487, vol. 38，Nov,2002.[17]A. M. Kondoz, "Digital Speech :Coding for Low Bit RateCommunication System", John Wiley&Sons，Ltd. , 2nd Edition,2004, Chichester, England, Chapter 10 Voice Activity Detection, pp.357-377.

發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面，對由語音成分和噪聲成分組成的音頻信號的語音成分進行增強。將音頻信號從時域改變?yōu)轭l域內(nèi)的多個子帶。隨后，對音頻信號的子帶進行處理。該處理包括控制音頻信號在所述子帶中的多個子帶內(nèi)的增益，其中，至少通過用于傳送 (convey)增益上的加性/減性的差或增益的相乘比率的處理來控制子帶內(nèi)的增益，以(1) 隨著在子帶內(nèi)噪聲成分的電平相對于語音成分的電平增大而減小子帶內(nèi)的增益，以及(2) 當(dāng)在音頻信號的子帶內(nèi)存在語音成分時增大子帶內(nèi)的增益。這些處理均響應(yīng)于音頻信號的子帶并彼此獨立地控制增益，以提供經(jīng)處理的子帶音頻信號。將經(jīng)處理的子帶音頻信號從頻域改變?yōu)闀r域，以提供增強了語音成分的音頻信號。這些處理可以包括語音增強處理，語音增強處理響應(yīng)于音頻信號的子帶，以隨著在這些子帶內(nèi)的噪聲成分的電平相對于語音成分的電平增大而減小這些子帶內(nèi)的增益。這些處理可以包括話音清晰性處理，話音清晰性處理響應(yīng)于音頻信號的子帶，以當(dāng)在音頻信號的子帶內(nèi)存在語音成分時增大子帶中的多個子帶內(nèi)的增益。當(dāng)從存在語音成分轉(zhuǎn)變?yōu)椴淮嬖谡Z音成分時，可以根據(jù)時間平滑減小增益增量。這些處理還可以包括話音活動檢測處理，話音活動檢測處理響應(yīng)于音頻信號的子帶，以確定何時在帶噪語音信號內(nèi)存在語音，話音清晰性處理還響應(yīng)于所述話音活動檢測處理。當(dāng)這些處理包括響應(yīng)于音頻信號的子帶以確定何時在帶噪語音信號內(nèi)存在語音的話音活動檢測處理時，所述語音增強處理和話音清晰性處理中的每一個還可以響應(yīng)于話音活動檢測處理。
根據(jù)本發(fā)明的另一方面，對由語音成分和噪聲成分組成的音頻信號的語音成分進行增強。將音頻信號從時域改變?yōu)轭l域內(nèi)的多個子帶。隨后，對音頻信號的子帶進行處理。該處理包括當(dāng)在音頻信號的子帶內(nèi)存在語音成分時增大子帶內(nèi)的增益，以提供經(jīng)處理的子帶音頻信號。對經(jīng)處理的子帶音頻信號的子帶進行處理，該處理包括控制經(jīng)處理的子帶音頻信號在所述子帶的多個子帶內(nèi)的增益，其中，隨著在子帶內(nèi)噪聲成分的電平相對于語音成分的電平增大而減小子帶內(nèi)的增益，以提供經(jīng)進一步處理的子帶音頻信號。將該經(jīng)進一步處理的子帶音頻信號從頻域改變?yōu)闀r域，以提供增強了語音成分的音頻信號。處理可以包括語音增強處理，語音增強處理響應(yīng)于音頻信號中經(jīng)處理的子帶，以隨著在這些子帶內(nèi)噪聲成分的電平相對于語音成分的電平增大而減小這些子帶內(nèi)的增益。進一步處理可以包括話音清晰性處理，話音清晰性處理響應(yīng)于音頻信號的子帶，以當(dāng)在音頻信號的子帶內(nèi)存在語音成分時增大子帶中的多個子帶內(nèi)的增益。當(dāng)從存在語音成分轉(zhuǎn)變?yōu)椴淮嬖谡Z音成分時，可以根據(jù)時間平滑減小增益增量。處理和/或進一步處理可以包括話音活動檢測處理，話音活動檢測處理響應(yīng)于音頻信號的子帶，以確定何時在帶噪語音信號內(nèi)存在語音，話音清晰性處理還響應(yīng)于話音活動檢測處理。處理和/或進一步處理可以包括話音活動檢測處理，話音活動檢測處理響應(yīng)于音頻信號的子帶，以確定何時在帶噪語音信號內(nèi)存在語音，所述語音增強處理和所述話音清晰性處理中的每一個還響應(yīng)于話音活動檢測處理。處理可以包括語音活動檢測處理，其響應(yīng)于音頻信號的子帶，以確定何時在帶噪語音信號內(nèi)存在語音，所述語音增強處理和話音清晰性處理中的每一個還響應(yīng)于所述話音活動檢測處理。

圖1是示出本發(fā)明的示例性實施例的功能框圖。圖2是示出本發(fā)明的可選示例性實施例的功能框圖。圖3是示出作為Ek(m)/Emax(Hi)的函數(shù)的GVCk(m)的值的曲線圖。圖4是與圖1的示例性實施例有關(guān)的流程圖。圖5是與圖2的示例性實施例有關(guān)的流程圖。
具體實施例方式圖1示出根據(jù)第一拓?fù)涔δ芘渲玫谋景l(fā)明的各方面的示例性實施例。通過對既包括干凈語音又包括噪聲的模擬語音信號進行數(shù)字化來生成輸入。然后，將未改變的音頻信號7(11)(“帶噪語音”)(其中，11 = 0，1，...是時間指數(shù))發(fā)送至解析濾波器組裝置或功能 (“解析濾波器組” )2，從而產(chǎn)生K多個子帶信號Yk (m)，k = 1，. . .，K，m = 0，1，. . .，c ，其中，k是子帶號，m是每個子帶信號的時間指數(shù)。解析濾波器組2將該音頻信號從時域改變為頻域中的多個子帶。將子帶信號應(yīng)用于噪聲降低裝置或功能(“語音增強”)4、話音活動檢測器或檢測功能(“VAD”)6和話音清晰性改善器或者改善功能(“話音清晰性”)8。響應(yīng)于所輸入的子帶信號并且可選地響應(yīng)于VAD 6，語音增強4控制用于對子帶信號的幅度進行定標(biāo)(scale)的增益定標(biāo)因數(shù)GNRk(m)。這種增益定標(biāo)因數(shù)向子帶信號的應(yīng)用由乘法器符號10象征性地示出。為了表示清楚，附圖示出了生成增益定標(biāo)因數(shù)并將該增益定標(biāo)因數(shù)應(yīng)用于多個子帶信號(k)中的僅一個子帶信號的詳情。通過語音增強4來控制增益定標(biāo)因數(shù)GNRk(Hi)的值，從而大大地抑制噪聲成分(低信噪(“SNR”))占支配地位的子帶，而保留受語音(高SNR)支配的子帶。GNRk(Hi)的值在信噪比(SNR)減小的頻率區(qū)域內(nèi)減小(較強抑制)，反之亦然。響應(yīng)于所輸入的子帶信號，VAD 6確定何時在帶噪語音信號y(η)內(nèi)存在語音，例如，假設(shè)存在語音時VAD = 1輸出，而不存在語音時VAD = 0輸出。響應(yīng)于所輸入的子帶信號并響應(yīng)于VAD 6，話音清晰性8控制用于對子帶信號的幅度進行定標(biāo)的增益定標(biāo)因數(shù)GVC’ k(m)。這種將增益定標(biāo)因數(shù)應(yīng)用于子帶信號由乘法器符號12象征性地示出。通過話音清晰性8來控制增益定標(biāo)因數(shù)GVC’k(m)的值，以加強對語音的可懂度(intelligibility)重要的子帶。通過VAD 6來控制話音清晰性8，從而增益因數(shù)GVC’k(m)提供存在語音時的話音頻譜的至少一部分內(nèi)的加強。如下文進一步說明的，當(dāng)在沒有語音的情況下切斷加強時，可以應(yīng)用平滑以使可聽偽像(audible artifact)的引入最小化。因此，通過將增益定標(biāo)因數(shù)GNRk(Hi)和GVC’k(m)應(yīng)用于未增強的輸入的子帶信號
Yk(Hl)來提供增強后的子帶語音信號巧("O。這可以表示為
Yk (m) = GNRk (m>GFC； (m>l； (m)(1)點符號(“ ·，，)表示乘法?？梢詫⒃鲆娑?biāo)因數(shù)GNRk(m)和GVC’ k(m)以任一順序應(yīng)用于未增強的輸入的子帶信號Yk(Hi)——語音增強4和語音清晰性8彼此去耦合并且對子帶信號獨立地進行運算。然后，可以通過使用產(chǎn)生增強的語音信號的合成濾波器組裝置或處理(“合成濾波器組”)14，來將經(jīng)處理的子帶信號只(w)轉(zhuǎn)換到時域。合成濾波器組將經(jīng)處理的音頻信號從頻域改變到時域。圖4的流程圖示出了基于圖1的示例性實施例的處理。最后的步驟表示接著將時間指數(shù)m加一(“m —m+1”)并重復(fù)圖4的處理。子帶音頻裝置和處理可以使用模擬技術(shù)或數(shù)字技術(shù)，或者這兩種技術(shù)的混合。子帶濾波器組可以通過一組數(shù)字帶通濾波器或者通過一組模擬帶通濾波器來實現(xiàn)。對于數(shù)字帶通濾波器，在濾波之前對輸入信號進行采樣。使樣本通過數(shù)字濾波器組，然后，對樣本進行下采樣以獲得子帶信號。每個子帶信號包括代表輸入信號譜的一部分的樣本。對于模擬帶通濾波器，將輸入信號劃分為幾個模擬信號，其中，每一個模擬信號均具有對應(yīng)于濾波器組帶通濾波器帶寬的帶寬。子帶模擬信號可以保持為模擬形式或者通過采樣并量化而轉(zhuǎn)換成數(shù)字形式?？梢允褂脤崿F(xiàn)幾個時域到頻域變換中的任一個的變換編碼器(其起到一組數(shù)字帶通濾波器的作用)來獲得子帶音頻信號。在濾波之前將采樣后的輸入信號分割成“信號樣本塊”。可以將一個或多個相鄰的變換系數(shù)或面元(bin)組合在一起，以限定具有作為各個變換系數(shù)帶寬的總和的有效帶寬的“子帶”。盡管可以使用模擬或數(shù)字技術(shù)或者甚至這些技術(shù)的混合配置來實現(xiàn)本發(fā)明，但是使用數(shù)字技術(shù)更方便地實現(xiàn)了本發(fā)明，并且本文中所公開的優(yōu)選實施例是數(shù)字實施方式。因此，解析濾波器組2和合成濾波器組14可以分別通過任何適合的濾波器組和逆濾波器組或者變換或逆變換來實現(xiàn)。圖2示出根據(jù)可選的拓?fù)涔δ芘渲玫谋景l(fā)明的示例性實施例。與圖2中的裝置和功能相對應(yīng)的裝置和功能采用相同的參考標(biāo)號。圖2與圖1不同之處在于，語音增強4和話音清晰性8彼此沒有去耦合，并且沒有對子帶信號單獨進行運算。首先，將子帶信號應(yīng)用于話音清晰性8和VAD 6。將話音清晰性增益定標(biāo)因數(shù)GVC’k(m)應(yīng)用于乘法器12。如圖1的拓?fù)浣Y(jié)構(gòu)，通過VAD 6來控制語音清晰性8，從而當(dāng)存在語音時，增益因數(shù)GVC’ k(m)選擇性地提供加強。不同于圖1 的拓?fù)浣Y(jié)構(gòu)，語音增強4接收在乘法器12的輸出端處的經(jīng)語音清晰性處理后的子帶信號 g (m) = (m)并對該子帶信號進行運算，而不是未增強的子帶信號Yk(m)。這可
以表示為<formula>formula see original document page 8</formula>點符號(“ ”)表示乘法。圖1的拓?fù)浣Y(jié)構(gòu)和圖2的拓?fù)浣Y(jié)構(gòu)都允許使用噪聲抑制和信號加強語音增強，而不是取消了噪聲抑制的信號加強。盡管在圖1和圖2中示出了用乘法控制子帶幅度的增益定標(biāo)因數(shù)，但是本領(lǐng)域的普通技術(shù)人員可以明了可以采用等價的加法/減法配置。圖6的流程圖示出基于圖2的示例性實施例的處理。如圖5的流程圖，最后的步驟表示接著將時間指數(shù)m加一(“m —m+1”)并重復(fù)圖6的處理。語音增強4在本發(fā)明的實際實施例中，可以將各種譜增強裝置和功能用于實現(xiàn)語音增強4。在這些譜增強裝置和功能之中，有采用基于VAD的噪聲電平估計器的裝置和功能以及采用基于統(tǒng)計的噪聲電平估計器的裝置和功能。這些有用的譜增強裝置和功能可以包括在上文所列出的參考文件1、2、3、6和7中以及在下列的四份美國臨時專利申請中所述的裝置和功能(1) Rongshan Yu 的"Noise Variance Estimator for SpeechEnhancement，，， S. N. 60/918，964，于 2007 年 3 月 19 日提交；(2) Rongshan Yu 的"Speech Enhancement Employing a PerceptualModel，，， S. N. 60/918，986，于2007年3月19日提交；以及(3)Rongshan Yu 的"Speech Enhancement with Noise LevelEstimation Adjustment”，S. N. 60/993，548，于 2007 年 9 月 12 日提交。(4) C. Philip Brown 的"Speech Enhancement”，S. N. 60/993，601，于 2007 年 9 月
12日提交?？梢詫⒄Z音增強增益因數(shù)GNRk(Hi)稱為“抑制增益”，這是因為其目的是抑制噪聲。一種控制抑制增益的方式被稱為“譜減法”(參考文件[1]、[2]和[7])，其中，應(yīng)用于子帶信號Yk(m)的抑制增益GNRk(Hi)可以表示為
<formula>formula see original document page 9</formula>
其中，Yk(m) I是子帶信號Yk(m)的幅度，λ k(m)是子帶k內(nèi)的噪聲能量，以及a >1是被選擇用來確保應(yīng)用了足夠的抑制增益的“過減法”因數(shù)。在參考文件[7]的第2頁和參考文件6的第127頁進一步說明了 “過減法”。為了確定抑制增益的適當(dāng)量，對輸入信號內(nèi)的子帶進行噪聲能量的精確估計是重要的。然而，當(dāng)在輸入信號中噪聲信號與語音信號混合在一起時，這樣做并不是平常的任務(wù)。解決這個問題的一種方式是使用基于話音活動檢測的噪聲電平估計器(其使用獨立的話音活動檢測器(VAD))，以確定在輸入信號中是否存在語音信號。在不存在語音(VAD =0)的時段期間更新噪聲能量。例如，參見參考文件[3]。在這種噪聲估計器中，關(guān)于時間m的噪聲能量估計Xk(Hl)可以通過下式給出
<formula>formula see original document page 9</formula>
噪聲能量估計Xk(-1)的初始值可以被設(shè)定為零，或者設(shè)定為在該處理的初始化階段期間所測量出的噪聲能量。參數(shù)β是具有值0 << β < 1的平滑因數(shù)。當(dāng)不存在語音(VAD = 0)時，可以通過對輸入信號Yk(Hi)的功率進行第一階時間平滑器操作(有時稱為“漏積分器”)，來獲得噪聲能量的估計。平滑因數(shù)β可以是比一略小的正值。通常，對于固定的輸入信號，接近于一的β值會導(dǎo)致更精確的估計。另一方面，值β不應(yīng)太接近于一，以避免當(dāng)輸入變?yōu)椴还潭〞r損失追蹤噪聲能量的變化的能力。在本發(fā)明的實際實施例中，已經(jīng)找到值β =0.98，用來提供令人滿意的結(jié)果。然而，該值不是關(guān)鍵的。還可以通過使用可以是非線性或線性的更復(fù)雜的時間平滑器(諸如，多極低通濾波器)來估計噪聲能量。如在任何數(shù)字系統(tǒng)中，每個m的時間段是由子帶的采樣率來確定的。所以，其可以隨著輸入信號的采樣率和所使用的濾波器組而變化。在實際的實施方式中，在具有8kHz語音信號并且濾波器組具有32的下采樣因數(shù)的情況下，關(guān)于每個m的時間段是1 (s)/8000女 32 = 4ms。話音活動檢測器(VAD) 6已知多種話音活動檢測器和檢測器功能。在參考文件[17]的第10章及其目錄中描述了適合的這類裝置或功能。話音清晰性6在本發(fā)明的實際實施例中，各種話音清晰性裝置和功能可以用于實現(xiàn)話音清晰性8。語音由在感知時所使用的多個不同的提示(cue)組成。隨著從肺中排出空氣，聲帶振動。隨著空氣逸出，喉、嘴和鼻調(diào)節(jié)(modify)聲能以產(chǎn)生各種各樣的聲音?！霸簟本哂袕娭C波能量的區(qū)域，并且利用未受阻礙的氣流而生成?！拜o音”(包括“無擦通音”、“摩擦音”和“塞音(stop)”)是通過增加的限制性的氣流來生成的，并且具有比元音更高的頻率含量(但具有更弱的能量)。長久以來就知道語音的輔音極大地有助于可懂度；并且盡管元音通常具有更強的能量，但是元音對于可懂度的貢獻相對小?；谠撌聦?，話音清晰性裝置和功能通常使用諸如參考文件[4]中的均衡器、高通斜率濾波器(shelving filter)或高通濾波器來加強頻率范圍，在這些頻率范圍內(nèi)，弱輔音通常存在于語音的更高頻率，以便改善可懂度。如在參考文件[5]中，類似技術(shù)還在用于聽力損傷聽者(他們難以感知語音信號的高頻成分)的助聽器應(yīng)用中使用。譜拉平方法諸如以下所描述的，于2007年9月12 日提交的美國臨時專利申請“，”C. Phillip Brown，序列號60/993，601。話音清晰性增益定標(biāo)因數(shù)增大了語音信號中的相對弱成分的電平，使得它們被人類聽者更好地感知。任何特定的話音清晰性裝置或功能的選擇對于本發(fā)明并不是關(guān)鍵的。
可以通過話音清晰性處理或裝置來產(chǎn)生話音清晰性增益GVC’ k(m)，如下
<formula>formula see original document page 10</formula>GVCk(m)是當(dāng)輸入為語音時的話音清晰性增益，0 < κ < 1是平滑因數(shù)。κ的值控制話音清晰性增益的速度，從而在語音的暫停期間減小至一(不加強)?？梢酝ㄟ^實驗來設(shè)定其最佳值。在本發(fā)明的實際實施例中，已找到κ =0.9的值，用來提供良好的結(jié)果。然而，該值不是關(guān)鍵的。因此，當(dāng)存在語音成分時，話音清晰性處理使增益增大，其中，一旦從存在語音成分轉(zhuǎn)變?yōu)椴淮嬖谡Z音成分，增益隨著時間平滑而減小。具有增益因數(shù)GVCk(m)的目的是加強所選擇的頻率區(qū)域相對于其他頻率區(qū)域的電平，從而改善語音信號的可懂度。在本發(fā)明的一種有用實施方式中，可以將GVCk(m)計算為 Gfflax或具有最高能量的子帶內(nèi)的能量與其他子帶中的每一個內(nèi)的能量的成比例的比率中的較小值
<formula>formula see original document page 10</formula>0< Y < 1是預(yù)先選擇的定標(biāo)因數(shù)，0 << α < 1是平滑因數(shù)，Gmax是預(yù)先選擇的最大增益。可以將初始值Ek(-1)設(shè)定為零。在進行處理后，值Y決定語音中的弱成分的能量與強成分的能量之比。例如，如果Y =0.5，則不管子帶能量Ek(m)比Emax(Hi)小多少，都利用它們的差的一半來加強該子帶能量——實際上用作針對該子帶的2-1壓縮器。Gmax的值控制話音清晰性算法的最大可允許的加強量。值Y和Gmax控制話音清晰性處理的積極性，這是因為它們共同地決定語音中的弱成分的加強量。它們的最佳值隨著在處理的信號的特性、目標(biāo)應(yīng)用的聽覺環(huán)境和用戶偏好而變化。代替加強到固定幅度，可選地，加強可以面向取決于頻率的幅度，諸如由高通傾斜響應(yīng)所限定的幅度。作為實例，圖3示出作為Ek(m)/Emax(Hi)的函數(shù)的GVCk(m)的值。在該實例中，Y = 1和Gmax = 20dB。如關(guān)于上述的平滑因數(shù)，平滑因數(shù)α可以通過諸如單極低通濾波器(有時稱為“漏積分器”)的第一階時間平滑器或者可以非線性或線性(諸如，多極低通濾波器) 的較復(fù)雜的時間平滑器來實現(xiàn)。實施方式
本發(fā)明可以以硬件或軟件、或者兩者的結(jié)合(例如，可編程的邏輯陣列)來實現(xiàn)。除非另外指定，否則所包括的作為本發(fā)明的一部分的處理本質(zhì)上并不與任何特定的計算機或其他設(shè)備相關(guān)。特別地，各種通用機器可以與根據(jù)本文中的教導(dǎo)所寫的程序一起使用，或者其對于構(gòu)造專用設(shè)備(例如，集成電路)以進行所需的方法步驟可以更加方便。因此，本發(fā)明可以以在一個或多個可編程計算機系統(tǒng)上運行的一個或多個計算機程序?qū)崿F(xiàn)，其中，每個可編程計算機系統(tǒng)包括至少一個處理器、至少一個數(shù)據(jù)存儲系統(tǒng)(包括易失性和非易失性存儲器和/或存儲元件)、至少一個輸入裝置或端口以及至少一個輸出裝置或端口。程序代碼應(yīng)用于輸入數(shù)據(jù)，以執(zhí)行本文中所述的功能并生成輸出信息。以已知的方式將輸出信息應(yīng)用于一個或多個輸出裝置。每個這樣的程序可以以任何期望的計算機語言(包括機器語言、匯編語言、或高級過程語言、邏輯語言、或面向?qū)ο蟮木幊陶Z言)實現(xiàn)，以與計算機系統(tǒng)進行通信。在任何情況下，語言可以是編譯或解釋語言。應(yīng)理解，在本文的各個實例中所示出和描述的各種裝置、功能和處理可以以不同于本文的附圖所示的方式的方式來組合或單獨示出。例如，當(dāng)由計算機軟件指令序列實現(xiàn) 時，可以通過在合適的數(shù)字信號處理硬件中運行的多線程軟件指令序列來實現(xiàn)功能，在這種情況下，附圖所示的實例中的各種裝置和功能可以對應(yīng)于軟件指令的一部分。優(yōu)選地，將每個這種計算機程序存儲在或下載到可由通用或?qū)Ｓ玫目删幊逃嬎銠C 讀取的存儲介質(zhì)或裝置(例如，固態(tài)存儲器或介質(zhì)，或者磁性或光學(xué)介質(zhì))，以當(dāng)通過計算機系統(tǒng)讀取存儲介質(zhì)或裝置時對計算機進行配置和操作，以執(zhí)行本文中所描述的過程。還可以將本發(fā)明的系統(tǒng)作為配置有計算機程序的計算機可讀存儲介質(zhì)來實現(xiàn)，其中，這樣配置的存儲介質(zhì)使計算機系統(tǒng)以特定且預(yù)先限定的方式來操作，以執(zhí)行本文中所述的功能。已描述了本發(fā)明的多個實施例。然而，應(yīng)該理解，在不背離本發(fā)明的精神和范圍的情況下，可以進行各種修改。例如，本文中所述的一些步驟可以是順序獨立的，因此，可以以與所述的順序不同的順序來執(zhí)行這些步驟。
權(quán)利要求
一種用于增強由語音成分和噪聲成分組成的音頻信號的語音成分的方法，包括將所述音頻信號從時域改變?yōu)轭l域內(nèi)的多個子帶，對所述音頻信號的子帶進行處理，所述處理包括控制所述音頻信號在所述子帶中的一些子帶內(nèi)的增益，其中，至少通過用于傳送增益上的加性/減性差或增益的相乘比率的處理來控制子帶內(nèi)的增益，以隨著在子帶內(nèi)的噪聲成分的電平相對于語音成分的電平增大而減小該子帶內(nèi)的增益，以及當(dāng)在所述音頻信號的子帶內(nèi)存在語音成分時增大子帶內(nèi)的增益，所述處理均響應(yīng)于所述音頻信號的子帶并彼此獨立地控制增益，以提供經(jīng)處理的子帶音頻信號，以及將所述經(jīng)處理的子帶音頻信號從頻域改變?yōu)闀r域，以提供增強了語音成分的音頻信號。
2.根據(jù)權(quán)利要求1所述的方法，其中，所述處理包括語音增強處理，所述語音增強處理響應(yīng)于所述音頻信號的子帶，以隨著在這些子帶內(nèi)的噪聲成分的電平相對于語音成分的電平增大而減小這些子帶內(nèi)的增益。
3.根據(jù)權(quán)利要求1或權(quán)利要求2所述的方法，其中，所述處理包括話音清晰性處理，所述話音清晰性處理響應(yīng)于所述音頻信號的子帶，以當(dāng)在所述音頻信號的子帶內(nèi)存在語音成分時增大所述多個子帶中的一些子帶內(nèi)的增益。
4.根據(jù)權(quán)利要求3所述的方法，其中，所述處理包括話音活動檢測處理，所述話音活動檢測處理響應(yīng)于所述音頻信號的子帶，以確定何時在帶噪語音信號內(nèi)存在語音，所述話音清晰性處理還響應(yīng)于所述話音活動檢測處理。
5.根據(jù)權(quán)利要求2或權(quán)利要求3所述的方法，其中，所述處理包括話音活動檢測處理，所述話音活動檢測處理響應(yīng)于所述音頻信號的子帶，以確定何時在帶噪語音信號內(nèi)存在語音，所述語音增強處理和所述話音處理中的每一個還響應(yīng)于所述話音活動檢測處理。
6.根據(jù)權(quán)利要求4或5所述的方法，其中，當(dāng)語音成分存在時，所述話音清晰性處理增大增益，當(dāng)從存在語音成分轉(zhuǎn)變?yōu)椴淮嬖谡Z音成分時，所述增益根據(jù)時間平滑而減小。
7.一種用于增強由語音成分和噪聲成分組成的音頻信號的語音成分的方法，包括將所述音頻信號從時域改變?yōu)轭l域內(nèi)的多個子帶，對所述音頻信號的子帶進行處理，所述處理包括當(dāng)在所述音頻信號的子帶內(nèi)存在語音成分時增大子帶內(nèi)的增益，以提供經(jīng)處理的子帶音頻信號，對所述經(jīng)處理的子帶音頻信號的子帶進行處理，所述對經(jīng)處理的子帶音頻信號的子帶進行處理包括控制所述經(jīng)處理的子帶音頻信號在所述子帶的一些子帶內(nèi)的增益，其中，隨著在子帶內(nèi)噪聲成分的電平相對于語音成分的電平增大而減小該子帶內(nèi)的增益，以提供經(jīng) 進一步處理的子帶音頻信號，以及將所述經(jīng)進一步處理的音頻信號從頻域改變?yōu)闀r域，以提供增強了語音成分的音頻信號。
8.根據(jù)權(quán)利要求7所述的方法，其中，所述處理包括語音增強處理，所述語音增強處理響應(yīng)于所述音頻信號經(jīng)處理的子帶，以隨著在這些子帶內(nèi)噪聲成分的電平相對于語音成分的電平增大而減小這些子帶內(nèi)的增益。
9.根據(jù)權(quán)利要求7或權(quán)利要求8所述的方法，其中，所述進一步處理包括話音清晰性處理，所述話音清晰性處理響應(yīng)于所述音頻信號的子帶，以當(dāng)在所述音頻信號的子帶內(nèi)存在語音成分時增大所述子帶中的一些子帶內(nèi)的增益。
10.根據(jù)權(quán)利要求9所述的方法，其中，所述處理和/或所述進一步處理包括話音活動檢測處理，所述話音活動檢測處理響應(yīng)于所述音頻信號的子帶，以確定何時在帶噪語音信號內(nèi)存在語音，所述話音清晰性處理還響應(yīng)于所述話音活動檢測處理。
11.根據(jù)權(quán)利要求8或權(quán)利要求9所述的方法，其中，所述處理和/或所述進一步處理包括話音活動檢測處理，所述話音活動檢測處理響應(yīng)于所述音頻信號的子帶，以確定何時在帶噪語音信號內(nèi)存在語音，所述語音增強處理和所述話音清晰性處理中的每一個還響應(yīng) 于所述話音活動檢測處理。
12.根據(jù)權(quán)利要求10或11所述的方法，其中，所述話音清晰性處理在語音成分存在時增大增益，當(dāng)從存在語音成分轉(zhuǎn)變?yōu)椴淮嬖谡Z音成分時，所述增益根據(jù)時間平滑而減小。
13.一種用于執(zhí)行權(quán)利要求1至12中的任一項所述的方法的設(shè)備。
14.一種存儲在計算機可讀介質(zhì)上的計算機程序，用于使計算機執(zhí)行權(quán)利要求1至12 中的任一項所述的方法。
全文摘要
一種用于增強由語音成分和噪聲成分組成的音頻信號的語音成分的方法對該語音信號的子帶進行處理，該處理包括控制音頻信號在子帶中的多個子帶內(nèi)的增益，其中，至少通過用于傳送增益上的加性/減性的差或增益的相乘的比率的處理來控制子帶內(nèi)的增益，以隨著在子帶內(nèi)噪聲成分的電平相對于語音成分的電平增大而減小子帶內(nèi)的增益，以及當(dāng)在音頻信號的各子帶內(nèi)存在語音成分時增大子帶內(nèi)的增益，這些處理均響應(yīng)于音頻信號的子帶并彼此獨立地控制增益，以提供經(jīng)處理的子帶音頻信號。
文檔編號G10L21/02GK101802910SQ200880106534
公開日2010年8月11日申請日期2008年9月10日優(yōu)先權(quán)日2007年9月12日
發(fā)明者C·菲利普·布朗, 俞容山申請人:杜比實驗室特許公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：俞容山;Ｃ.菲利普.布朗
技術(shù)所有人：杜比實驗室特許公司
我是此專利的發(fā)明人

上一篇：用于鋁的表面處理的工藝和具有電觸點的鋁零件的層結(jié)構(gòu)的制作方法
上一篇：語音增強的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音清晰度相關(guān)技術(shù)

語音清晰度測試相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

利用話音清晰性的語音增強的制作方法