專利名稱:在存在背景噪聲時用于語音增強的方法和設備的制作方法
技術領域:
本發(fā)明涉及一種用于在存在背景噪聲時增強語音信號以改進通信的技術。本發(fā)明特別地但不排他地涉及對于降低語音信號中背景噪聲水平的降噪系統(tǒng)的設計。
背景技術:
降低背景噪聲水平在許多通信系統(tǒng)中至關重要。例如,移動電話在存在高水平背景噪聲的許多環(huán)境中使用。這樣的環(huán)境是在汽車中(這越來越多地變成免提)或者在街道中的使用,由此通信系統(tǒng)需要在存在高水平汽車噪聲或街道噪聲時工作。在比如視頻會議和免提因特網(wǎng)應用的辦公應用中,該系統(tǒng)需要高效地應對辦公噪聲。其它類型的周圍環(huán)境噪聲也能夠在實際中有所體驗。也稱為噪聲抑制或語音增強的降噪對于常常需要用來在低信噪比(SNR)工作的這些應用就變得重要。降噪在越來越多地運用于各類真實環(huán)境中的自動語音識別系統(tǒng)中也是重要的。降噪改進了通常在上述應用中使用的語音編碼算法或語音識別算法的性能。
頻譜減法是使用最多的用于降噪的技術之一(見S.F.Boll,“Suppression of acoustic noise in speech using spectral subtraction”,IEEE Trans.Acoust.,Speech,Signal Processing,vol.ASSP-27,pp.113-120,Apr.1979)。頻譜減法試圖通過從有噪聲的語音中減去噪聲估計來估計語音的短時間頻譜幅度。基于人耳感受不到相位失真的假設,對于有噪聲的語音的相位不進行處理。在實踐中,通過根據(jù)對噪聲頻譜和有噪聲的語音頻譜的估計而形成基于SNR的增益函數(shù)來實施頻譜減法。此增益函數(shù)與輸入頻譜相乘以抑制具有低SNR的頻率成分。使用常規(guī)頻譜減法算法的主要缺點在于由干擾收聽者的“樂音音調(diào)”組成的結果性樂音殘留噪聲以及后續(xù)信號處理算法(比如語音編碼)。樂音音調(diào)主要歸因于頻譜估計中的方差。為了解決此問題,已經(jīng)建議了頻譜平滑,結果是降低的方差和分辨度。用以降低樂音音調(diào)的另一已知方法是使用與頻譜基底(floor)相組合的過度減法因子(見M.Berouti,R.Schwartz和J.Makhoul,“Enhancement of speechcorrupted by acoustic noise”,in Proc.IEEE ICASSP,Washington,DC,Apr.1979,pp.208-211)。此方法具有當充分地降低樂音音調(diào)時卻使語音降級的缺點。其它方式是軟檢測噪聲抑制濾波(見R.J.McAulay和M.L.Malpass,“Speech enhancement using a soft decision noise suppressionfilter”,IEEE Trans.Acoust.,Speech,Signal Processing,vol.ASSP-28,pp.137-145,Apr.1980)和非線性頻譜減法器(NSS)(見P.Lockwood和J.Boudy,“Experiments with a nonlinear spectral subtractor(NSS),hidden Markov models and projection,for robust recognition in cars”,Speech Commun.,vol.11,pp.215-228,June 1992)。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,本發(fā)明提供了一種用于語音信號噪聲抑制的方法,包括對于具有可分到多個頻率倉中的頻域表示的語音信號,為所述頻率倉中的至少一些頻率倉確定縮放增益值以及計算平滑縮放增益值。計算平滑縮放增益值包括對于頻率倉中的至少一些頻率倉,組合當前確定的縮放增益值和先前確定的平滑縮放增益值。
在本發(fā)明的另一方面中,本發(fā)明提供了一種用于語音信號噪聲抑制的方法,包括對于具有可分到多個頻率倉中的頻域表示的語音信號,將多個頻率倉分開到其間具有邊界頻率的第一組鄰接頻率倉和第二組鄰接頻率倉中,其中邊界頻率在噪聲抑制技術之間進行區(qū)分;以及根據(jù)語音信號的頻譜內(nèi)容來改變邊界頻率的值。
在本發(fā)明的又一方面中,本發(fā)明提供了一種語音編碼器,包括噪聲抑制器,該噪聲抑制器用于具有可分到多個頻率倉中的頻域表示的語音信號。噪聲抑制器可操作用以為頻率倉中的至少一些頻率倉確定縮放增益值;以及通過組合當前確定的縮放增益值和先前確定的平滑縮放增益值來為頻率倉中的至少一些頻率倉計算平滑縮放增益值。
在本發(fā)明的再一方面中,本發(fā)明提供了一種語音編碼器,包括噪聲抑制器,噪聲抑制器用于具有可分到多個頻率倉中的頻域表示的語音信號。噪聲抑制器可操作用以將多個頻率倉分開到其間具有邊界頻率的第一組鄰接頻率倉和第二組鄰接頻率倉中。邊界頻率在噪聲抑制技術之間進行區(qū)分。噪聲抑制器還可進一步操作用以根據(jù)語音信號的頻譜內(nèi)容來改變邊界頻率的值。
在本發(fā)明的另一方面中,本發(fā)明提供了一種在計算機可讀介質上實施的計算機程序,包括用于執(zhí)行語音信號噪聲抑制的程序指令,該語音信號噪聲抑制包括如下操作對于具有可分到多個頻率倉中的頻域表示的語音信號,為所述頻率倉中的至少一些頻率倉確定縮放增益值;以及計算平滑縮放增益值,包括對于所述頻率倉中的所述至少一些頻率倉,組合當前確定的縮放增益值和先前確定的平滑縮放增益值。
在本發(fā)明的另一方面中,本發(fā)明提供了一種在計算機可讀介質上實施的計算機程序,包括用于執(zhí)行語音信號噪聲抑制的程序指令,包括如下操作對于具有可分到多個頻率倉中的頻域表示的語音信號,將多個頻率倉分開到其間具有邊界頻率的第一組鄰接頻率倉和第二組鄰接頻率倉中;以及根據(jù)語音信號的頻譜內(nèi)容來改變邊界頻率的值。
在本發(fā)明的再一個而且當然是非限制性的方面中,本發(fā)明提供了一種語音編碼器,包括用于抑制語音信號中的噪聲的裝置,該語音信號具有可分到多個頻率倉中的頻域表示。噪聲抑制裝置包括如下裝置,該裝置用于將多個頻率倉分開到其間具有邊界的第一組鄰接頻率倉和第二組鄰接頻率倉,以及用于根據(jù)語音信號的頻譜內(nèi)容來改變該邊界。噪聲抑制裝置還包括如下裝置,該裝置用于為頻率倉中的至少一些頻率倉確定縮放增益值,以及用于通過組合當前確定的縮放增益值和先前確定的平滑縮放增益值來為頻率倉中的至少一些頻率倉計算平滑縮放增益值。計算平滑縮放增益值優(yōu)選地使用具有如下值的平滑因子,該值確定為使得對于越小的縮放增益值則平滑越強。噪聲抑制裝置還包括如下裝置,該裝置用于為至少一些頻帶確定縮放增益值,其中頻帶包括至少兩個頻率倉,以及用于計算平滑頻帶縮放增益值。噪聲抑制裝置還包括如下裝置,該裝置用于使用平滑縮放增益來縮放語音信號的頻譜,其中對于小于該邊界的頻率,在每個頻率倉的基礎上執(zhí)行縮放,而對于在該邊界以上的頻率,在每個頻帶的基礎上執(zhí)行縮放。
本發(fā)明的前述和其它目的、優(yōu)點及特征將在閱讀以下對其說明性實施例的非限制性描述時變得更為明顯,這些描述是參照附圖僅借助例子來給出。在附圖中圖1是包括降噪的語音通信系統(tǒng)的示意性框圖;圖2示出了頻譜分析中加窗的圖示;圖3給出了降噪算法的說明性實施例的概略圖;以及圖4是具體類別的降噪的說明性實施例的示意性框圖,其中降噪算法依賴于正在處理的語音幀的性質。
具體實施例方式
在本說明書中公開了用于降噪的高效技術。這些技術至少部分地基于在關鍵頻帶中劃分幅度頻譜,而且與在EVRC語音編碼解碼器中使用的方式相似(見3GPP2 C.S0014-0“Enhanced Variable Rate Codec(EVRC)Service Option for Wideband Spread Spectrum CommunicationSystems”,3GPP2 Technical Specification,December 1999),基于每個關鍵頻帶的SNR來計算增益函數(shù)。例如,公開了如下特征,這些特征基于正在處理的語音幀的性質來使用不同的處理技術。在無聲位(unvoiced)的幀中,在整個頻譜中使用每個頻帶的處理。在其中檢測到了上至某一頻率的聲位(voicing)的幀中,在其中檢測到了聲位的該頻譜的下部分中使用每個倉(bin)的處理,而在剩余的頻帶中使用每個頻帶的處理。在背景噪聲幀的情況下,通過在整個頻譜中使用相同的縮放增益來去除恒定的噪聲基底。另外,公開了一種技術,其中使用與實際的縮放增益逆相關的平滑因子(對于越小的增益而平滑越強)來執(zhí)行縮放增益在每一頻帶或頻率倉中的平滑。此方式防止了前面有低SNR幀的高SNR語音段中的失真,這例如就像對于聲位的起始(onset)的情況那樣。
本發(fā)明的一個非限制性方面是提供基于頻譜減法技術的用于降噪的新穎方法,由此該減噪方法依賴于正在處理的語音幀的性質。例如,在有聲位的幀中,可以在某一頻率之下在每個倉的基礎上執(zhí)行處理。
在說明性實施例中,在語音編碼系統(tǒng)之內(nèi)執(zhí)行降噪以在編碼之前降低語音信號中的背景噪聲水平。能夠針對以8000個采樣/秒進行采樣的窄帶語音信號或者以16000個采樣/秒進行采樣的寬帶語音信號(或者以任何其它采樣頻率)來運用所公開的技術。此說明性實施例中使用的編碼器是基于AMR-WB編碼解碼器(見S.F.Boll,“Suppression of acoustic noise in speech using spectral subtraction”,IEEE Trans.Acoust.,Speech,Signal Processing,vol.ASSP-27,pp.113-120,Apr.1979),該編碼解碼器使用內(nèi)部采樣轉換將信號采樣頻率轉換到12800個采樣/秒(在6.4kHz帶寬上工作)。
因而此說明性實施例中公開的降噪技術對于在采樣被轉換到12.8kHz之后的窄帶或寬帶信號進行工作。
在寬帶輸入的情況下,輸入信號須從16kHz抽取(decimate)到12.8kHz。抽取是先通過4倍上采樣,然后經(jīng)過具有截止頻率為6.4kHz的低通FIR濾波器對輸出進行濾波來執(zhí)行的。然后,該信號通過5倍下采樣。濾波延遲在16kHz采樣頻率時是15個采樣。
在窄帶輸入的情況下,該信號須從8kHz上采樣到12.8kHz。這是先通過8倍上采樣,然后經(jīng)過具有截止頻率為6.4kHz的低通FIR濾波器對輸出進行濾波來執(zhí)行的。然后,該信號進行5倍下采樣。濾波延遲在8kHz采樣頻率時是8個采樣。
在采樣轉換之后,在編碼過程之前對信號應用兩個預處理函數(shù)高通濾波和預加重。
高通濾波器用作為對于不希望的低通成分的預防。在該說明性實施例中,使用了具有截止頻率為50kHz的濾波器,該濾波器給定如下Hh1(z)=0.982910156-1.965820313z-1+0.982910156z-21-1.965820313z-1+0.966308593z-2]]>在預加重中,第一階高通濾波器用來加重更高的頻率,而且給定如下Hpre-emph(z)=1-0.68z-1在AMR-WB中使用預加重以改進高頻處的編碼解碼器性能而且在編碼器中所使用的錯誤最小化過程中改進感知加權。
在該說明性實施例的其余部分中,降噪算法輸入處的信號如上所述轉換到12.8kHz采樣頻率而且加以預處理。然而,公開的技術能夠同等地應用到有預處理和沒有預處理的使用比如8kHz或16kHz的其它采樣頻率的信號。
在下文中,將具體地描述降噪算法。在其中使用了降噪算法的語音編碼器對包含了256個采樣的20毫秒幀進行工作,其中256個采樣是以12.8kHz為采樣頻率。另外,編碼解碼器在它的分析中使用了來自將來幀的13毫秒超前(lookahead)。該降噪遵循相同的成幀結構。然而,能夠在編碼器成幀與降噪成幀之間引入一些偏移以最小化該超前的使用。在本描述中,采樣的索引將反映降噪成幀。
圖1示出了包括降噪的語音通信系統(tǒng)的概略圖。在塊101中,如上面描述的說明性例子那樣執(zhí)行預處理。
在塊102中,執(zhí)行頻譜分析和聲位活動檢測(VAD)。使用50%交疊的20毫秒窗在每個幀中執(zhí)行兩個頻譜分析。在塊103中,將降噪應用到頻譜參數(shù),然后使用逆DFT用來將增強的信號轉換回到時域。交疊-相加運算然后用來重建信號。
在塊104中,執(zhí)行線性預測(LP)分析和開環(huán)基音(pitch)分析(通常作為語音編碼算法的一部分)。在該說明性實施例中,從塊104獲得的參數(shù)在判決中用來更新關鍵頻帶中的噪聲估計(塊105)。VAD判決也能夠用作噪聲更新判決。塊105中更新的噪聲能量估計在下一幀中在降噪塊103中用來計算縮放增益。塊106對增強的語音信號執(zhí)行語音編碼。在其它應用中,塊106能夠是語音識別系統(tǒng)。請注意塊104中的功能能夠是語音編碼算法的一體化部分。
頻譜分析離散傅立葉變換用來執(zhí)行頻譜分析和頻譜能量估計。在具有50%交疊的情況下使用256點的快速傅立葉變換(FFT)對每個幀進行兩次頻率分析(如圖2中所示)。分析窗設置為使得所有超前得以利用。第一窗的起始置于語音編碼器當前幀的起始之后的24個采樣。第二窗置于又128個采樣。漢寧窗(等效于正弦窗)的平方根已經(jīng)用來為頻率分析對輸入信號進行加權。此窗特別地適合于交疊-相加方法(因此在基于頻譜減法和交疊-相加分析/合成的噪聲抑制算法中使用此特定的頻譜分析)。漢寧窗的平方根給定如下wFFT(n)=0.5-0.5cos(2πnLFFT)=sin(πnLFFT),n=0,...,LFFT-1---(1)]]>其中LFFT=256是FFT分析的尺寸。請注意由于窗是對稱的,所以僅計算和存儲窗的一半(從0到LFFT/2)。
令s’(n)表示其索引0對應于降噪幀中的第一采樣(在該說明性實施例中它比語音編碼器幀的起始要多24個采樣)的信號。用于頻譜分析的加窗信號獲得如下xw(1)(n)=wFFT(n)s′(n),n=0,...,LFFT-1]]>xw(2)(n)=wFFT(n)s′(n+LFFT/2),n=0,...,LFFT-1]]>其中s’(0)是當前降噪幀中的第一采樣。
對兩個加窗信號執(zhí)行FFT以獲得每幀的兩個頻譜參數(shù)集X(1)(k)=Σn=0N-1xw(1)(n)e-j2πknN,k=0,...,LFFT-1]]>X(2)(k)=Σn=0N-1xw(2)(n)e-j2πknN,k=0,...,LFFT-1]]>FFT的輸出給出了頻譜的實部和虛部,表示為XR(k)(k=0至128)和XI(k)(k=0至127)。請注意XR(0)對應于在0Hz(DC)的頻譜,而XR(128)對應于在6400Hz的頻譜。這些點處的頻譜只是實值化的而且通常在后續(xù)分析中忽略掉。
在FFT分析之后,使用具有以下上限的區(qū)間將結果性的頻譜分到關鍵頻帶中(頻率范圍0-6400Hz中的20個頻帶)關鍵頻帶={100.0,200.0,300.0,400.0,510.0,630.0,770.0,920.0,1080.0,1270.0,1480.0,1720.0,2000.0,2320.0,2700.0,3150.0,3700.0,4400.0,5300.0,6350.0}Hz.
見D.Johnston,“Transform coding of audio signal using perceptualnoise criteria”,IEEE.J.Select.Areas Commun.,vol.6,pp.314-323,F(xiàn)eb.1988。
256點的FFT導致了50Hz的頻率分辨度(6400/128)。因此在忽略頻譜的DC成分之后,每個關鍵頻帶的頻率倉數(shù)目分別是MCB={2,2,2,2,2,2,3,3,3,4,4,5,6,6,8,9,11,14,18,21}關鍵頻帶中的平均能量計算如下ECB(i)=1(LFFT/2)2MCB(i)Σk=0MCB(i)-1(XR2(k+ji)+XI2(k+ji)),i=0,...,19,---(2)]]>其中XR(k)和XI(k)分別是第k頻率倉的實部和虛部,而ji是由ji={1,3,5,7,9,11,13,16,19,22,26,30,35,41,47,55,64,75,89,107}給定的第i關鍵頻帶中第一倉的索引。
頻譜分析模塊也為最先的17個關鍵頻帶(不包括DC分量的74個倉)計算每個頻率倉的能量EBIN(k)EBIN(k)=XR2(k)+XI2(k),k=0,...,73---(3)]]>最后,頻譜分析模塊通過將平均的關鍵頻帶能量ECB相加來為20毫秒幀中的兩個FFT分析計算平均總能量。也就是,對于某一頻譜分析的頻譜能量計算如下Eframe=Σi=019ECB(i)---(4)]]>而且總幀能量計算為幀中兩個頻譜分析的頻譜能量之平均。也就是Ei=10log(0.5(Eframe(0)+Eframe(1)),dB(5)在VAD、降噪和速率選擇模塊中使用頻譜分析模塊的輸出參數(shù),也就是每個關鍵頻帶的平均能量、每個頻率倉的能量和總能量。
請注意對于以8000個采樣/秒進行采樣的窄帶輸入,在采樣轉換到12800個采樣/秒之后,在頻譜的兩端沒有內(nèi)容,因此在輸出參數(shù)的計算中不考慮第一低頻關鍵頻帶以及最后三個高頻頻帶(僅考慮從i=1至16的頻帶)。
聲位活動檢測上面描述的頻譜分析對于每個幀執(zhí)行兩次。令ECB(1)(i)和ECB(2)(i)分別表示對于第一和第二頻譜分析的每個關鍵頻帶信息的能量(如等式(2)中計算的)。對于整個幀和部分前一幀的每個關鍵頻帶的平均能量計算如下Eav(i)=0.2ECB(0)(i)+0.4ECB(1)(i)+0.4ECB(2)(i)---(6)]]>其中ECB(0)(i)表示來自前一幀第二分析的每個關鍵頻帶信息的能量。每個關鍵頻帶的信噪比然后計算如下SNRCB(i)=Eav(i)/NCB(i),界定于SNRCB≥1. (7)其中NCB(i)是下一部分中將說明的每個關鍵頻帶的估計噪聲能量。每幀的平均SNR然后計算如下SNRav=10log(Σi=bminbmaxSNRCB(i)),---(8)]]>其中在寬帶信號的情況下是bmin=0和bmax=19,而在窄帶信號的情況下是bmin=1和bmax=16。
通過將每幀的平均SNR與作為長期SNR函數(shù)的某一閾值進行比較來檢測聲位活動。長期SNR給定如下SNRLT=Ef-Nf(9)其中分別使用等式(12)和(13)來計算Ef和Nf,下面將描述這一點。Ef的初始值是45dB。
該閾值是長期SNR的分段(piece-wise)線性函數(shù)。使用兩個函數(shù),一個用于清晰的語音而一個用于有噪聲的語音。
對于寬帶信號,如果SNRLT<35(有噪聲的語音),則thVAD=0.4346SNRLT+13.9575否則(清晰的語音)thYAD=1.0333SNRLT-7對于窄帶信號,如果SNRLT<29.6(有噪聲的語音),則thVAD=0.313SNRLT+14.6否則(清晰的語音)
thVAD=1.0333SNRLT-7另外,添加了VAD判決中的滯后以防止在活動語音時段結束時的頻繁切換。這是在幀處于軟拖尾(hangover)時段中的情況下或者如果末幀是活動語音幀時應用的。該軟拖尾時段由在長于2個連續(xù)幀的每個活動語音突發(fā)之后的最先的10個幀組成。在有噪聲的語音情況下(SNRLT<35),該滯后減少了VAD判決閾值如下thVAD=0.95thVAD在清晰的語音情況下,該滯后減少了VAD判決閾值如下thVAD=thVAD-11如果每幀的平均SNR大于VAD判決閾值,也就是如果SNRav>thVAD,則將該幀斷定為活動語音幀,而且VAD標志和局部VAD標志設置為1。否則將VAD標志和局部VAD標志設置為0。然而在有噪聲的語音情況下,VAD標志在硬拖尾幀中強制為1,即一個或兩個非活動幀跟隨在長于2個連續(xù)幀的語音時段之后(局部VAD標志然后設置為0而VAD標志強制為1)。
第一級噪聲估計和更新在這部分中,計算總噪聲能量、相對幀能量、長期平均噪聲能量和長期平均幀能量的更新、每個關鍵頻帶的平均能量和噪聲校正因子。另外,給出了噪聲能量初始化和向下更新。
每幀的總噪聲能量給定如下Ntot=10log(Σt=019NCB(i))---(10)]]>其中NCB(i)是每個關鍵頻帶的估計噪聲能量。
幀的相對能量通過以dB為單位的幀能量與長期平均能量之間的差來給定。相對幀能量給定如下Eref=Et-Ef(11)其中Et在等式(5)中給定。
在每一幀中更新長期平均噪聲能量或長期平均幀能量。在活動語音幀(VAD標志=1)的情況下,長期平均幀能量使用如下關系來更新Ef=0.99Ef+0.01Et(12)
其中初始值Ef=45dB。
在非活動語音幀(VAD標志=0)的情況下,長期平均噪聲能量更新如下Nf=0.99Nf+0.01Ntot(13)對于最先的4幀,Nf的初始值設置為等于Ntot。另外,在最先的4幀中,Ef的值界定于Ef≥Ntot+10。
每個關鍵頻帶的幀能量、噪聲初始化和噪聲向下更新通過將來自幀中兩次頻譜分析的能量進行平均,計算對于整幀的每個關鍵頻帶的幀能量。也就是E‾CB(i)=0.5ECD(1)(i)+0.5ECB(2)(i)---(14)]]>每個關鍵頻帶的噪聲能量NCB(i)初始地初始化為0.03。然而在最先的5個子幀中,如果信號能量不是太高或者如果信號不具有強的高頻成分,則使用每個關鍵頻帶的能量來初始化噪聲能量,使得降噪算法從處理的一開始就能夠有效。計算兩個高頻比r15,16是關鍵頻帶15和16的平均能量與最先的10個頻帶中的平均能量之比(兩次頻譜分析的平均值),而r18,19是對于頻帶18和19而言的相同平均能量之比。
在最先的5幀中,如果Et<49以及r15,16<2以及r18,19<1.5,則對于最先的3幀NCB(i)=ECB(i),i=0,...,19(15)而且對于隨后兩幀NCB(i)則更新如下NCB(i)=0.33NCB(i)+0.66ECB(i),i=0,...,19(16)對于隨后的幀,在這一階段,對于關鍵頻帶僅執(zhí)行噪聲能量向下更新,由此能量少于背景噪聲能量。首先,暫時更新的噪聲能量計算如下Ntmp(i)=0.9NCB(i)+0.1(0.25ECB(0)(i)+0.75E‾CB(i))---(17)]]>其中ECB(0)(i)對應于來自前一幀的第二頻譜分析。
然后對i=0至19,如果Ntmp(i)<NCB(i),則NCB(i)=Ntmp(i)。
如果斷定幀為非活動幀,則通過設置NCB(i)=Ntmp(i)來執(zhí)行第二級噪聲更新。將噪聲能量更新分段到兩部分中的理由在于,能夠僅在非活動語音幀期間執(zhí)行噪聲更新,并且因此需要對于語音獲得判決而必需的所有參數(shù)。然而這些參數(shù)依賴于對降噪的語音信號執(zhí)行的LP預測分析和開環(huán)基音分析。為了降噪算法具有盡可能準確的噪聲估計,因此如果幀不活動則在降噪執(zhí)行之前向下更新噪聲估計更新而且稍后向上更新噪聲估計更新。噪聲向下更新是安全的而且能夠獨立于語音活動來完成。
降噪對信號域應用降噪,而且然后使用交疊和相加來重建經(jīng)降噪的信號。該降噪是通過用縮放增益對每個關鍵頻帶中的頻譜進行縮放來執(zhí)行的,該縮放增益限制在gmin與1之間并且是從該關鍵頻帶中的信噪比(SNR)中導出的。噪聲抑制中的新特征在于對于比與信號聲位有關的某一頻率更低的頻率,在頻率倉基礎上而不在關鍵頻帶基礎上執(zhí)行處理。因此,對每一頻率倉應用從該倉中的SNR導出的縮放因子(SNR是用倉能量除以包括該倉的關鍵頻帶的噪聲能量來計算的)。該新特征允許在接近諧波的頻率處保留能量,這就在強烈地降低諧波之間的噪聲的同時防止失真。該特征僅針對有聲位的信號以及在給定所用頻率分析的頻率分辨度時僅針對具有相對短基音時段的信號才能夠使用。然而,這些信號正好就是諧波之間的噪聲在這里最易感知到的信號。
圖3示出了所公開的過程的概略圖。在塊301中,執(zhí)行頻譜分析。塊302檢驗有聲位的關鍵頻帶的數(shù)目是否大于0。如果是這種情況,則在塊304中執(zhí)行降噪,其中在最先的K個有聲位的頻帶中執(zhí)行每個倉的處理,而在剩余的頻帶中執(zhí)行每個頻帶的處理。如果K=0,則對所有關鍵頻帶應用每個頻帶的處理。在頻譜上降噪之后,塊305執(zhí)行逆DFT分析,并且使用交疊-相加運算用來重建經(jīng)增強的語音信號,這一點稍后將進行描述。
最小縮放增益gmin是從以dB為單位的最大允許降噪NRmax導出的。最大允許降噪具有14dB的缺省值。因此最小縮放增益給定如下
gmin=10-NRmax120---(18)]]>而對于14dB的缺省值,它等于0.19953。
在具有VAD=0的非活動幀情況下,相同的縮放應用于整個頻譜上并且如果激活了噪聲抑制(如果gmin小于1)則由gs=0.9gmin來給定。也就是,經(jīng)縮放的頻譜的實部和虛部給定如下X’R(k)=gsXR(k),k=1,...,128,and X’I(k)=gsXI(k),k=1,...,127. (19)請注意對于窄帶輸入,等式(19)中的上限設置為79(上至3590Hz)。
對于活動幀,為最先的有聲位的頻帶根據(jù)每個關鍵頻帶或者倉的SNR,計算縮放增益。如果KVOIC>0,則對最先的KVOIC個頻帶執(zhí)行每個倉的噪聲抑制。對剩余的頻帶使用每個頻帶的噪聲抑制。在KVOIC=0的情況下,對整個頻譜使用每個頻帶的噪聲抑制。如稍后將描述地對KVOIC的值進行更新。KVOIC的最大值是17,因此,僅對對應于最大頻率為3700Hz的最先的17個關鍵頻帶能夠應用每個倉的處理。能夠對之使用每個倉的處理的最大倉數(shù)目是74(最先的17個頻帶中的倉數(shù)目)。對硬拖尾幀則有例外,這一點將在此部分中稍后進行描述。
在備選實施中,KVOIC的值可以固定。在該情況下,在所有類型的語音幀中,執(zhí)行每個倉的處理上至某一頻帶,而對其它頻帶應用每個頻帶的處理。
某一關鍵頻帶中的或者對于某一頻率倉的縮放增益根據(jù)SNR來計算而且給定如下(gs)2=ksSNR+cs,bounded by gmin≤gs≤1 (20)確定ks和cs的值,比如對于SNR=1是gs=gmin,而對于SNR=45是gs=1。也就是,對于1dB和更低的SNR,該縮放限制于gs,而對于45dB和更高的SNR,在給定的關鍵頻帶中不執(zhí)行噪聲抑制(gs=1)。因此,給定這兩個端點,等式(20)中ks和cs的值給定如下ks=(1-gmin2)/44 and cs=(45gmin2-1)/44. (21)等式(20)中的變量SNR是每個關鍵頻帶中的SNR,SNRCB(i)或者是每個頻率倉的SNR,SNRBIN(i),這依賴于處理類型。
每個關鍵頻帶的SNR在幀中的第一頻譜分析情況下計算如下SNRCB(i)=0.2ECB(0)(i)+0.6ECB(1)(i)+0.2ECB(2)(i)NCB(i),i=0,...,19---(22)]]>而對于第二頻譜分析,SNR計算如下SNRCB(i)=0.4ECB(1)(i)+0.6ECB(2)(i)NCB(i),i=0,...,19---(23)]]>其中ECB(1)(i)和ECB(2)(i)分別表示對于第一和第二頻譜分析的每個關鍵頻帶信息的能量(如等式(2)中計算的),ECB(0)(i)表示來自前一幀第二分析的每個關鍵頻帶信息的能量,而NCB(i)表示每個關鍵頻帶的噪聲能量估計。
某一關鍵頻帶i中的每個關鍵倉的SNR在幀中第一頻譜分析的情況下計算如下SNRBIN(k)=0.2EBIN(0)(k)+0.6EBIN(1)(k)+0.2EBIN(2)(k)NCB(i),k=ji,...,ji+MCB(i)-1---(24)]]>而對于第二頻譜分析,SNR計算如下SNRBIN(k)=0.4EBIN(1)(k)+0.6EBIN(2)(k)NCB(i),k=ji,...,ji+MCB(i)-1---(25)]]>其中EBIN(1)(k)和EBIN(2)(k)分別表示對于第一和第二頻譜分析的每個頻率倉的能量(如等式(3)中計算的),EBIN(0)(k)表示來自前一幀第二分析的每個頻率倉的能量,NCB(i)表示每個關鍵頻帶的噪聲能量估計,ji是第i關鍵頻帶中第一倉的索引,而MCB(i)是上面定義的關鍵頻帶i中的倉數(shù)目。
在對于具有索引i的頻帶進行每個關鍵頻帶處理的情況下,在如等式(22)中確定縮放增益并且使用如等式(24)或(25)中定義的SNR之后,使用在每一頻率分析中更新的平滑縮放增益來執(zhí)行實際縮放如下gCB,LP(i)=αgsgCB,LP(i)+(1-αgs)gs(26)在本發(fā)明中,公開了新穎特征,其中平滑因子是自適應的而且它變得與增益本身逆相關。在該說明性實施例中平滑因子通過αgs=1-gs來給定。也就是,對于越小的增益gs則平滑越強。該方式防止了前面有低SNR幀的高SNR語音段中的失真,就像聲位的起始的情況那樣。例如在無聲位的語音幀中SNR較低,因此用強縮放增益來降低頻譜中噪聲。如果聲位的起始跟隨著無聲位的幀,則SNR變高,并且如果增益平滑防止了縮放增益的迅速更新,則可能將對聲位的起始使用強縮放,這將造成不良性能。在提出的方式中,平滑過程能快速地適應而且對該起始使用較低的縮放增益。
關鍵頻帶中的縮放執(zhí)行如下X′R(k+ji)=gCB,LP(i)XR(k+ji),和X′I(k+ji)=gCB,LP(i)XI(k+ji),k=0,...,MCB(i)-1’ (27)其中ji是關鍵頻帶i中第一倉的索引,而MCB(i)是該關鍵頻帶中的倉數(shù)目。
在對于具有索引i的頻帶進行每個倉處理的情況下,在如等式(22)中確定縮放增益并且使用如等式(24)或(25)中定義的SNR之后,使用在每一頻率分析中更新的平滑縮放增益來執(zhí)行實際縮放如下gBIN,LP(k)=αgsgBIN,LP(k)+(1-αgs)gs(28)其中類似于等式(26),αgs=1-gs。
增益的時間平滑防止了可聽見的能量振蕩,同時使用αgs對平滑進行控制防止了前面有低SNR幀的高SNR語音段中的失真,例如就像對于聲位的起始的情況那樣。
關鍵頻帶i中的縮放執(zhí)行如下X′R(k+ji)=gBIN,LP(k+ji)XR(k+ji),和X′I(k+ji)=gBIN,LP(k+ji)XI(k+ji),k=0,...,MCB(i)-1’ (29)其中ji是關鍵頻帶i中第一倉的索引,而MCB(i)是該關鍵頻帶中的倉數(shù)目。
平滑的縮放增益gBIN,LP(k)和gCB,LP(i)初始地設置為1。每當處理非活動的幀時(VAD=0),平滑的增益值重置為等式(18)中定義的gmin。
如上所述,如果KVOIC>0,則使用上面描述的過程對最先的KVOIC個頻帶執(zhí)行每個倉的噪聲抑制,而對于剩余的頻帶執(zhí)行每個頻帶的噪聲抑制。請注意在每次頻譜分析中,為所有關鍵頻帶更新經(jīng)平滑的縮放增益gCB,LP(i)(即使對于用每個倉的處理而處理過的聲位的起始頻帶——在該情況下用屬于頻帶i的gBIN,LP(k)的平均值來更新gCB,LP(i))。類似地,為最先的17個頻帶中的所有頻率倉(上至74個倉)更新縮放增益gBIN,LP(k)。對于用每個頻帶的處理而處理過的頻帶,通過將它們設置為等于這17個具體頻帶中的gCB,LP(i)來更新它們。
請注意,在清晰的語音情況下,在活動的語音幀(VAD=1)中不執(zhí)行噪聲抑制。這是通過找出所有關鍵頻帶中的最大噪聲能量max(NCB(i),i=0,...,19來檢測的,并且如果此值小于或等于15,則不執(zhí)行噪聲抑制。
如上面提到的,對于非活動的幀(VAD=0),在整個頻譜上應用0.9gmin的縮放,這等效于去除恒定的噪聲基底。對于VAD短拖尾幀(VAD=1和局部VAD=0),如上所述對最先的10個頻帶應用每個頻帶的處理(對應于1700Hz),而對于其余的頻譜,通過以恒定值gmin縮放其余的頻譜來減去恒定的噪聲基底。此措施顯著地降低高頻噪聲能量振蕩。對于第10頻帶以上的這些頻帶,并不重置經(jīng)平滑的縮放增益gCB,LP(i)而是讓gs=gmin使用等式(26)來更新它,而且每個倉的經(jīng)平滑的縮放增益gBIN,LP(k)是通過將它們設置為等于對應關鍵頻帶中的gCB,LP(i)來更新的。
上面描述的過程能夠看作具體類別的降噪,其中該降噪算法依賴于正在處理的語音幀的性質。這在圖4中有所圖示。塊410檢驗VAD標志是否為0(非活動的幀)。如果是這種情況,則通過對整個頻譜應用相同的縮放增益來從頻譜中去除恒定的噪聲基底(塊402)。否則,塊403檢驗幀是否為VAD拖尾幀。如果是這種情況,則在最先的10個頻帶中使用每個頻帶的處理,而在剩余的頻帶中使用相同的縮放增益(塊406)。否則,塊405檢驗是否在頻譜的在最先頻帶中檢測到聲位的起始。如果是這種情況,則在最先的K個有聲位的頻帶中執(zhí)行每個倉的處理,而在剩余的頻帶中執(zhí)行每個頻帶的處理(塊406)。如果未檢測到有聲位的頻帶,則在所有關鍵頻帶中執(zhí)行每個頻帶的處理(塊407)。
在處理窄帶信號(上采樣到12800Hz)的情況下,對最先的17個頻帶(上至3700Hz)執(zhí)行噪聲抑制。對于在3700Hz與4000Hz之間剩余的5個頻率倉,使用在位于3700Hz的倉處的最后縮放增益gs來縮放頻譜。對于剩余的頻譜(從4000Hz到6400Hz),將頻譜清零。
降噪信號的重建在確定經(jīng)縮放的頻譜成分X′R(k)和X′I(k)之后,對縮放的頻譜應用逆FFT以在時域中獲得加窗的降噪信號。
xw,d(n)=1NΣk=0N-1X(k)ej2πknN,n=0,...,LFFT-1]]>為幀中的兩次頻譜分析重復這一點以獲得降噪的加窗信號xw,d(1)(n)和xw,d(2)(n)。對于每個半幀,對于該分析的交疊部分使用交疊-相加運算來重建信號。由于在頻譜分析之前對原始信號使用平方根漢寧窗,所以在交疊-相加運算之前在逆FFT的輸出處應用相同的窗。因此,雙加窗的降噪信號給定如下xww.d(1)(n)=wFFT(n)xw,d(1)(n),n=0,...,LFFT-1]]>xww.d(2)(n)=wFFT(n)xw,d(2)(n),n=0,...LFFT-1]]>(30)對于分析窗的前一半,用于重建降噪信號的交疊-相加運算執(zhí)行如下s(n)=xww,d(0)(n+LFFT/2)+xww,d(1)(n),n=0,...,LFFT/2-1]]>而對于分析窗的后一半,用于重建降噪信號的交疊-相加運算執(zhí)行如下s(n+LFFT/2)=xww,d(1)(n+LFFT/2)+xww,d(2)(n),n=0,...LFFT/2-1]]>其中xww,d(0)(n)是來自前一幀中第二分析的雙加窗降噪信號。
請注意對于交疊-相加運算,由于在語音編碼器幀與降噪幀之間的24個采樣偏移,所以不僅重建到當前幀,降噪信號還能夠重建到上至來自從超前起的24個采樣。然而,仍需要另外128個采樣以完成語音編碼器為了線性預測(LP)分析和開環(huán)基音分析而需要的超前。此部分是通過對降噪加窗信號xw,d(2)(n)的后一半進行逆加窗而不執(zhí)行交疊-相加運算來暫時獲得的。也就是s(n+LFFT)=xww,d(2)(n+LFFT/2)/+wFFT2(n+LFFT/2),n=0,...LFFT/2-1]]>請注意這部分信號在下一幀中使用交疊-相加運算來正確地重新計算。
噪聲能量估計更新該模塊為了噪聲抑制而更新每個關鍵頻帶的噪聲能量估計。該更新是在非活動的語音時段期間執(zhí)行的。然而,以每個關鍵頻帶的SNR為基礎的在上面執(zhí)行的VAD判決并不用于確定噪聲能量估計是否更新了。另一判決是基于與每個關鍵頻帶的SNR無關的其它參數(shù)來執(zhí)行的。用于噪聲更新判決的參數(shù)是基音穩(wěn)定性、信號非平穩(wěn)性、聲位以及第2階與第16階之間的LP殘留錯誤能量之比,并且對于噪聲水平變化通常具有低的靈敏度。
未將編碼器VAD判決用于噪聲更新的原因是為了使噪聲估計魯棒以快速地改變噪聲水平。如果編碼器VAD判決用于噪聲更新,則噪聲水平的突增即使對于非活動的語音幀仍會造成SNR的增加,防止噪聲估計量進行更新,這又會在隨后的幀中維持SNR為高等等。因而,將阻止噪聲更新并且將需要一些其它邏輯來恢復噪聲自適應。
在該說明性實施例中,在編碼器處執(zhí)行開環(huán)基音分析以針對每幀分別計算對應于前半幀、后半幀和超前的三個開環(huán)基音d0、d1和d2。基音穩(wěn)定性計數(shù)器計算如下pc=|d0-d-1|+|d1-d0|+|d2-d1| (31)其中d-1是前一幀后半幀的遲延。在該說明性實施例中,對于大于122的基音遲延,開環(huán)基音搜索模塊設置d2=d1。因此,對于這樣的遲延,等式(31)中pc的值乘以3/2以補償?shù)仁街羞z漏的第三項。如果pc的值小于12則基音穩(wěn)定性為真。另外,對于具有低聲位的幀,pc設置為12以指示基音非穩(wěn)定性。也就是If(Cmarm(d0)+Cmarm(d1)+Cmarm(d2))/3+rg<0.7 then pc=12,(32)其中Cmarm(d)是歸一化的原相關性,而rg是可選校正,該可選校正相加到歸一化的相關性以便補償在存在背景噪聲時歸一化相關性的減少。在該說明性實施例中,歸一化的相關性是基于抽取的加權語音信號swd(n)來計算的并且給定如下 其中該求和限制依賴于延遲本身。在該說明性實施例中,開環(huán)基音分析中使用的加權信號通過2倍下采樣來抽取,而且求和限制給定如下
Lscc=40 for d=10,...,16Lscc=40 for d=17,...,31Lsoc=62 for d=32,...,61Lsec=115 for d=62,...,115基于每個關鍵頻帶的能量與每個關鍵頻帶的平均長期能量之間的比例的乘積來執(zhí)行信號非平穩(wěn)性估計。
每個關鍵頻帶的平均長期能量更新如下ECB,LT(i)=αgECB,LT(i)+(1-αg)ECB(i),for i=bminto bmax,(33)其中在寬帶信號的情況下bmin=0和bmaxn=19,而在窄帶信號的情況下bmin=1和bmaxn=16,并且ECB(i)是在等式(14)中定義的每個關鍵頻帶的幀能量。更新因子αg是在等式(5)中定義的總幀能量的線性函數(shù),而且給定如下對于寬帶信號αg=0.0245Etot-0.235,界定于0.5≤αg≤0.99。
對于窄帶信號αg=0.00091Etot+0.3185,界定于0.5≤αg≤0.999。
幀的非平穩(wěn)性是通過每個關鍵頻帶的幀能量與每個平均長期能量之間的比例的乘積來給定的。也就是nonstat=Πi=bminbmaxmax(E‾CB(i),ECB,LT(i))min(E‾CB(i),ECB,LT(i))---(34)]]>用于噪聲更新的聲位因子給定如下voicing=(Cmarm(d0)+Cmarm(d1))/2+rg. (35)最后,在第2階和第16階分析之后LP殘留能量之間的比例給定如下resid_ratio=E(2)/E(16) (36)其中E(2)和E(16)是在第2階和第16階分析之后的LP殘留能量,而且是在本領域技術人員公知的Levinson-Durbin遞歸中計算的。該比例反映了如下事實為了代表信號頻譜包絡,與噪聲相比,對于語音信號而言通常需要更高階的LP。換句話說,與活動語音相比,對于噪聲而言E(2)與E(16)之差推想為更低。
更新判決是基于初始設置為6的變量noise_update來確定的,并且如果檢測到非活動的幀則減少1,如果檢測到活動幀則遞增2。另外,noise_update界定于0和6。噪聲能量僅在noise_update=0時才更新。
變量noise_update的值在每幀中更新如下
如果(nonstat>thstat)OR(pc<12)OR(voicing>0.85)OR(resid_ratio>thresid)noise_update=noise_update+2否則noise_update=noise_update-1其中對于寬帶信號,thstat=350000和thresid=1.9,而對于窄帶信號,thstat=500000和thresid=11。
換句話說,當(nonstat≤thstat)AND(pc≥12)AND(voicing≤0.85)AND(resid_ratio≤thresid)時,幀對于噪聲更新而言斷定為非活動的,并且在噪聲更新發(fā)生之前使用6幀的拖尾。
因此,如果noise_update=0,則for i=0 to 19 NCB(i)=Ntmp(i)其中Ntmp(i)是在等式(17)中已經(jīng)計算的暫時更新的噪聲能量。
聲位截止頻率的更新對截止頻率進行更新,在該頻率以下的信號認為是有聲位的。此頻率用來確定關鍵頻帶的數(shù)目,其中針對這些關鍵頻帶而使用每個倉的處理來執(zhí)行噪聲抑制。
首先,聲位度量計算如下vg=0.4Cnorw(d1)+0.6Cnorw(d2)+rg(37)而聲位截止頻率給定如下fc=0.00017118e17.9772vg,bounded by325≤fc≤3700---(38)]]>然后,確定關鍵頻帶的數(shù)目Kvoic,這些頻帶具有不超過fc的上限頻率。范圍325≤fc≤3700設置為使得對最少3個頻帶和最多17個頻帶執(zhí)行每個倉的處理(參見為上面定義的關鍵頻帶上限)。請注意在聲位度量計算中,給超前的歸一化相關性賦予更多加權,因為確定的有聲位的頻帶數(shù)目將在下一幀中用到。
因此在隨后的幀中,對于最先的Kvoic個關鍵頻帶,噪聲抑制將使用如上文中描述的每個倉的處理。
請注意對于具有低聲位的幀和對于大的基音延遲,僅使用每個關鍵頻帶的處理,因此Kvoic設置為0。使用以下條件
If(0.4Cnarm(d1)+0.6Cnarm(d2)≤0.72)OR(d1>116)OR(d2>116)then Kwic=0.
當然,許多其它修改和變形是可能的。根據(jù)上面對于本發(fā)明實施例的具體說明性描述以及附圖,這樣的其它修改和變形現(xiàn)在對于本領域普通技術人員將變得明顯。同樣應當明顯的是,這樣的其它變形可以在不脫離本發(fā)明的精神和范圍時加以實現(xiàn)。
權利要求
1.一種用于語音信號噪聲抑制的方法,包括對于具有可分到多個頻率倉中的頻域表示的語音信號,為所述頻率倉中的至少一些頻率倉確定縮放增益值;以及計算平滑縮放增益值,包括對于所述頻率倉中的所述至少一些頻率倉,組合當前確定的縮放增益值和先前確定的平滑縮放增益值。
2.如權利要求1中所述的方法,其中確定該縮放增益值包括使用信噪比(SNR)。
3.如權利要求1中所述的方法,其中計算平滑縮放增益值使用具有與該縮放增益逆相關的值的平滑因子。
4.如權利要求1中所述的方法,其中計算平滑縮放增益使用具有如下值的平滑因子,該值被確定為使得對于越小的縮放增益值則平滑性越強。
5.如權利要求1中所述的方法,還包括為至少一些頻帶確定縮放增益值,其中頻帶包括至少兩個頻率倉;以及計算平滑頻帶縮放增益值,包括對于所述頻帶中的所述至少一些頻帶,組合當前確定的縮放增益值和先前確定的平滑頻帶縮放增益值。
6.如權利要求1中所述的方法,其中確定該縮放增益值對于每個語音幀出現(xiàn)n次,其中n大于一。
7.如權利要求6中所述的方法,其中n=2。
8.如權利要求5中所述的方法,還包括使用平滑縮放增益來縮放該語音信號的頻譜,其中對于小于某一頻率的頻率,在每個頻率倉的基礎上執(zhí)行該縮放,而對于在該某一頻率以上的頻率,在每個頻帶的基礎上執(zhí)行該縮放。
9.如權利要求8中所述的方法,其中該某一頻率的值是可變的而且是該語音信號的函數(shù)。
10.如權利要求8中所述的方法,其中該某一頻率在當前語音幀中的值是前一語音幀中該語音信號的函數(shù)。
11.如權利要求8中所述的方法,其中確定該縮放增益值對于每個語音幀出現(xiàn)n次,其中n大于一,以及其中該某一頻率的值是可變的而且是該語音信號的函數(shù)。
12.如權利要求8中所述的方法,其中確定該縮放增益值對于每個語音幀出現(xiàn)n次,其中n大于一,以及其中該某一頻率的值是可變的而且至少部分地是前一語音幀中該語音信號的函數(shù)。
13.如權利要求1中所述的方法,其中在每個頻率倉的基礎上使用平滑縮放增益來縮放該語音信號的頻譜是對與17個頻帶相對應的最多74個倉執(zhí)行的。
14.如權利要求1中所述的方法,其中在每個頻率倉的基礎上使用平滑縮放增益來縮放該語音信號的頻譜是對與3700Hz的頻率相對應的最大數(shù)目的頻率倉執(zhí)行的。
15.如權利要求2中所述的方法,其中對于第一SNR值,將該縮放增益值設置為最小值,而對于大于該第一SNR值的第二SNR值,將該縮放增益值設置為單位一。
16.如權利要求15中所述的方法,其中該第一SNR值約等于1dB,以及其中該第二SNR值約為45dB。
17.如權利要求1中所述的方法,還包括響應于非活動語音幀的出現(xiàn),將多個平滑縮放增益值重置為最小值。
18.如權利要求1中所述的方法,其中在如下活動語音幀中不執(zhí)行噪聲抑制,在該活動語音幀中在多個頻帶中的最大噪聲能量是在閾值以下,其中每個頻帶包括至少兩個頻率倉。
19.如權利要求1中所述的方法,還包括響應于短拖尾語音幀的出現(xiàn),對于最先的x個頻帶,使用在每個頻帶的基礎上確定的平滑縮放增益來縮放該語音信號的頻譜,其中每個頻帶包括至少兩個頻率倉;以及使用對于每個語音幀更新n次的縮放增益的單個值來縮放該語音信號的頻譜的剩余頻帶,其中n大于一。
20.如權利要求19中所述的方法,其中所述最先的x個頻帶對應于上至1700Hz的頻率。
21.如權利要求1中所述的方法,其中對于窄帶語音信號,該方法還包括對于最先的x個頻帶,使用在每個頻帶的基礎上確定的平滑縮放增益來縮放該語音信號的頻譜,其中每個頻帶包括至少兩個頻率倉,并且該最先的x個頻帶對應于上至3700Hz的頻率;使用對應于3700Hz的頻率倉處的縮放增益值來縮放在3700Hz與4000Hz之間的頻率倉的頻譜;以及將該語音信號的頻譜的剩余頻帶清零。
22.如權利要求21中所述的方法,其中該窄帶語音信號是上采樣到12800Hz的語音信號。
23.如權利要求1中所述的方法,包括對該語音信號進行預處理。
24.如權利要求23中所述的方法,其中預處理包括高通濾波和預加重。
25.如權利要求8中所述的方法,其中該某一頻率與聲位截止頻率有關,還包括使用計算出的聲位度量來確定該聲位截止頻率。
26.如權利要求25中所述的方法,還包括確定多個關鍵頻帶,所述關鍵頻帶具有不超過該聲位截止頻率的上限頻率,其中將邊界設置為使得對最少x個頻帶和最多y個頻帶執(zhí)行每個頻率倉的處理,其中每個頻帶包括至少兩個頻率倉。
27.如權利要求26中所述的方法,其中x=3且其中y=17。
28.如權利要求25中所述的方法,其中該聲位截止頻率被界定為等于或大于325Hz而且等于或小于3700Hz。
29.如權利要求26中所述的方法,其中是否在非活動語音時段期間對每個關鍵頻帶的噪聲能量估計進行更新的判決是基于與每個關鍵頻帶的信噪比(SNR)基本上相獨立的參數(shù)的。
30.一種用于語音信號噪聲抑制的方法,包括對于具有可分到多個頻率倉中的頻域表示的語音信號,將所述多個頻率倉分開到其間具有邊界頻率的第一組鄰接頻率倉和第二組鄰接頻率倉中,所述邊界頻率在噪聲抑制技術之間進行區(qū)分;以及根據(jù)該語音信號的頻譜內(nèi)容來改變該邊界頻率的值。
31.如權利要求30中所述的方法,還包括使用平滑縮放增益來縮放該語音信號的頻譜,其中對于小于該邊界頻率的頻率,在每個頻率倉的基礎上執(zhí)行該縮放,而對于該邊界頻率以上的頻率,在每個頻帶的基礎上執(zhí)行該縮放,其中頻帶包括至少兩個頻率倉。
32.如權利要求30中所述的方法,其中所述噪聲抑制技術包括每個頻率倉的技術和每個頻帶的技術,其中頻帶包括至少兩個頻率倉。
33.如權利要求30中所述的方法,其中該邊界頻率在當前語音幀中的值至少部分地是前一語音幀中該語音信號的函數(shù)。
34.如權利要求31中的方法,還包括為所述頻率倉中的至少一些頻率倉確定縮放增益值;以及計算平滑縮放增益值,包括對于所述頻率倉中的所述至少一些頻率倉,組合當前確定的縮放增益值和先前確定的平滑縮放增益值。
35.如權利要求31中所述的方法,其中在每個頻率倉的基礎上縮放該語音信號的頻譜是對與17個頻帶相對應的最多74個倉執(zhí)行的。
36.如權利要求31中所述的方法,其中在每個頻率倉的基礎上縮放該語音信號的頻譜是對與3700Hz的邊界頻率相對應的最大數(shù)目的頻率倉執(zhí)行的。
37.如權利要求34中所述的方法,其中確定縮放增益值包括使用信噪比(SNR)。
38.如權利要求37中所述的方法,其中對于第一SNR值,將該縮放增益值設置為最小值,而對于大于該第一SNR值的第二SNR值,將該縮放增益值設置為單位一。
39.如權利要求38中所述的方法,其中該第一SNR值約等于1dB,以及其中該第二SNR值約為45dB。
40.如權利要求34中所述的方法,其中計算平滑縮放增益值使用具有與該縮放增益逆相關的值的平滑因子。
41.如權利要求34中所述的方法,還包括響應于非活動語音幀的出現(xiàn),將平滑縮放增益值重置為最小值。
42.如權利要求30中所述的方法,其中在如下活動語音幀中不執(zhí)行噪聲抑制,在該活動語音幀中在多個頻帶中的最大噪聲能量是在閾值以下,其中頻帶包括至少兩個頻率倉。
43.如權利要求31中所述的方法,還包括響應于短拖尾語音幀的出現(xiàn),對于最先的x個頻帶,使用在每個頻帶的基礎上確定的平滑縮放增益來縮放該語音信號的頻譜;以及使用對于每個語音幀更新n次的縮放增益的單個值來縮放該語音信號的頻譜的剩余頻帶,其中n大于一。
44.如權利要求43中所述的方法,其中所述最先的x個頻帶對應于上至1700Hz的頻率。
45.如權利要求30中所述的方法,其中對于窄帶語音信號,該方法還包括對于最先的x個頻帶,使用在每個頻帶的基礎上確定的平滑縮放增益來縮放該語音信號的頻譜,其中每個頻帶包括至少兩個頻率倉,并且所述最先的x個頻帶對應于上至3700Hz的頻率;使用對應于3700Hz的頻率倉處的該縮放增益值來縮放在3700Hz與4000Hz之間的頻率倉的頻譜;以及將該語音信號的頻譜的剩余頻帶清零。
46.如權利要求45中所述的方法,其中該窄帶語音信號是上采樣到12800Hz的語音信號。
47.如權利要求30中所述的方法,包括對該語音信號進行預處理。
48.如權利要求47中所述的方法,其中預處理包括高通濾波和預加重。
49.如權利要求34中所述的方法,其中確定該縮放增益值對于每個語音幀出現(xiàn)n次,其中n大于一。
50.如權利要求49中所述的方法,其中n=2。
51.如權利要求30中所述的方法,其中該邊界頻率的值是聲位截止頻率的函數(shù),還包括使用計算出的聲位度量來確定該聲位截止頻率。
52.如權利要求51中所述的方法,還包括確定多個關鍵頻帶,所述關鍵頻帶具有不超過該聲位截止頻率的上限頻率,其中將邊界設置為使得對最少x個頻帶和最多y個頻帶執(zhí)行每個頻率倉的處理。
53.如權利要求52中所述的方法,其中x=3且其中y=17。
54.如權利要求51中所述的方法,其中該聲位截止頻率被界定為等于或大于325Hz并且等于或小于3700Hz。
55.如權利要求52中所述的方法,其中是否在非活動語音時段期間對每個關鍵頻帶的噪聲能量估計進行更新的判決是基于與每個關鍵頻帶的信噪比(SNR)基本上相獨立的參數(shù)的。
56.一種語音編碼器,包括噪聲抑制器,其用于具有可分到多個頻率倉中的頻域表示的語音信號,所述噪聲抑制器可操作用以為所述頻率倉中的至少一些頻率倉確定縮放增益值;以及通過組合當前確定的縮放增益值和先前確定的平滑縮放增益值來為所述頻率倉中的所述至少一些頻率倉計算平滑縮放增益值。
57.如權利要求56中所述的語音編碼器,其中所述噪聲抑制器在確定縮放增益值時使用信噪比(SNR)。
58.如權利要求56中所述的語音編碼器,其中計算平滑縮放增益值使用具有與該縮放增益逆相關的值的平滑因子。
59.如權利要求56中所述的語音編碼器,其中計算平滑縮放增益使用具有如下值的平滑因子,該值被確定為使得對于越小的縮放增益值則平滑性越強。
60.如權利要求56中所述的語音編碼器,所述噪聲抑制器還可操作用以為至少一些頻帶確定縮放增益值,其中頻帶包括至少兩個頻率倉;以及通過組合當前確定的縮放增益值和先前確定的平滑頻帶縮放增益值來為所述頻帶中的所述至少一些頻帶計算平滑頻帶縮放增益值。
61.如權利要求56中所述的語音編碼器,其中確定縮放增益值對于每個語音幀出現(xiàn)n次,其中n大于一。
62.如權利要求61中所述的語音編碼器,其中n=2。
63.如權利要求60中所述的語音編碼器,所述噪聲抑制器還包括縮放單元,該縮放單元用以在每個頻率倉的基礎上或者在每個頻帶的基礎上使用平滑縮放增益來縮放該語音信號的頻譜,其中對于小于某一頻率的頻率,在每個頻率倉的基礎上執(zhí)行該縮放,而對于在該某一頻率以上的頻率,在每個頻帶的基礎上執(zhí)行該縮放。
64.如權利要求63中所述的語音編碼器,其中該某一頻率的值是可變的而且是該語音信號的函數(shù)。
65.如權利要求63中所述的語音編碼器,其中該某一頻率在當前語音幀中的值至少部分地是前一語音幀中該語音信號的函數(shù)。
66.如權利要求63中所述的語音編碼器,其中所述噪聲抑制器對于每個語音幀確定n次縮放增益值,其中n大于一,以及其中該某一頻率的值是可變的而且至少部分地是前一語音幀中該語音信號的函數(shù)。
67.如權利要求56中所述的語音編碼器,其中所述噪聲抑制器對與17個頻帶相對應的最多74個倉在每個頻率倉的基礎上使用平滑縮放增益來縮放該語音信號的頻譜。
68.如權利要求56中所述的語音編碼器,其中所述噪聲抑制器對與3700Hz的頻率對應的最大數(shù)目的頻率倉在每個頻率倉的基礎上使用平滑縮放增益來縮放該語音信號的頻譜。
69.如權利要求57中所述的語音編碼器,其中對于第一SNR值,將該縮放增益值設置為最小值,而對于大于該第一SNR值的第二SNR值,將該縮放增益值設置為單位一。
70.如權利要求69中所述的語音編碼器,其中該第一SNR值約等于1dB,以及其中該第二SNR值約為45dB。
71.如權利要求56中所述的語音編碼器,其中所述噪聲抑制器響應于非活動語音幀的出現(xiàn),將多個平滑縮放增益值重置為最小值。
72.如權利要求56中所述的語音編碼器,其中所述噪聲抑制器在如下活動語音幀中不執(zhí)行噪聲抑制,在該活動語音幀中在多個頻帶中的最大噪聲能量是在閾值以下。
73.如權利要求56中所述的語音編碼器,所述噪聲抑制器響應于短拖尾語音幀的出現(xiàn)對于最先的x個頻帶,使用在每個頻帶的基礎上確定的平滑縮放增益來縮放該語音信號的頻譜,其中每個頻帶包括至少兩個頻率倉;以及使用對于每個語音幀更新n次的縮放增益的單個值來縮放該語音信號的頻譜的剩余頻帶,其中n大于一。
74.如權利要求73中所述的語音編碼器,其中所述最先的x個頻帶對應于上至1700Hz的頻率。
75.如權利要求56中所述的語音編碼器,其中所述噪聲抑制器響應于窄帶語音信號對于最先的x個頻帶,使用在每個頻帶的基礎上確定的平滑縮放增益來縮放該語音信號的頻譜,其中每個頻帶包括至少兩個頻率倉,而且所述最先的x個頻帶對應于上至3700Hz的頻率;使用對應于3700Hz的頻率倉處的縮放增益值來縮放在3700Hz與4000Hz之間的頻率倉的頻譜;以及將該語音信號的頻譜的剩余頻帶清零。
76.如權利要求75中所述的語音編碼器,其中該窄帶語音信號是上采樣到12800Hz的語音信號。
77.如權利要求56中所述的語音編碼器,還包括至少一個預處理器,用于在將輸入的語音信號應用到所述噪聲抑制器之前對該語音信號進行預處理。
78.如權利要求77中所述的語音編碼器,其中所述至少一個預處理器包括高通濾波器和預加重器。
79.如權利要求63中所述的語音編碼器,其中該某一頻率與使用計算出的聲位度量來確定的聲位截止頻率有關。
80.如權利要求79中所述的語音編碼器,所述噪聲抑制器確定多個關鍵頻帶,所述關鍵頻帶具有不超過該聲位截止頻率的上限頻率,其中邊界被設置為使得對最少x個頻帶和最多y個頻帶執(zhí)行每個頻率倉的處理。
81.如權利要求80中所述的語音編碼器,其中x=3且其中y=17。
82.如權利要求80中所述的語音編碼器,其中該聲位截止頻率被界定為等于或大于325Hz而且等于或小于3700Hz。
83.如權利要求80中所述的語音編碼器,其中所述噪聲抑制器基于與每個關鍵頻帶的信噪比(SNR)基本上相獨立的參數(shù)來做出是否在非活動語音時段期間對每個關鍵頻帶的噪聲能量估計進行更新的判決。
84.一種語音編碼器,包括噪聲抑制器,其用于具有可分到多個頻率倉中的頻域表示的語音信號,所述噪聲抑制器可操作用以將所述多個頻率倉分開到其間具有邊界頻率的第一組鄰接頻率倉和第二組鄰接頻率倉中,所述邊界頻率在噪聲抑制技術之間進行區(qū)分,所述噪聲抑制器還可操作用以根據(jù)該語音信號的頻譜內(nèi)容來改變該邊界頻率的值。
85.如權利要求84中所述的語音編碼器,其中所述噪聲抑制器還包括縮放器,該縮放器用以使用平滑縮放增益來縮放該語音信號的頻譜,其中對于小于該邊界頻率的頻率,在每個頻率倉的基礎上執(zhí)行該縮放,而對于該邊界頻率以上的頻率,在每個頻帶的基礎上執(zhí)行該縮放,其中頻帶包括至少兩個頻率倉。
86.如權利要求84中所述的語音編碼器,其中所述噪聲抑制技術包括每個頻率倉的技術和每個頻帶的技術,其中頻帶包括至少兩個頻率倉。
87.如權利要求84中所述的語音編碼器,其中該邊界頻率在當前語音幀中的值至少部分地是前一語音幀中該語音信號的函數(shù)。
88.如權利要求85中的語音編碼器,所示噪聲抑制器還包括如下單元,該單元用以為所述頻帶中的單個頻帶確定縮放增益值;以及計算平滑縮放增益值;以及對于所述頻帶中的至少一些頻帶,組合當前確定的縮放增益值和先前確定的平滑縮放增益值;其中確定縮放增益值對于每個語音幀出現(xiàn)n次,其中n大于一,以及其中該邊界頻率的值至少部分地是前一語音幀中該語音信號的函數(shù)。
89.如權利要求85中所述的語音編碼器,其中所述縮放器對與17個頻帶相對應的最多74個倉在每個頻率倉的基礎上使用平滑縮放增益。
90.如權利要求85中所述的語音編碼器,其中所述縮放器對與3700Hz的邊界頻率相對應的最大數(shù)目的頻率倉在每個頻率倉的基礎上使用平滑縮放增益。
91.如權利要求85中所述的語音編碼器,其中該縮放增益值是使用信噪比(SNR)來確定的。
92.如權利要求86中所述的語音編碼器,其中該平滑因子的值與縮放增益逆相關。
93.如權利要求92中所述的語音編碼器,其中對于第一SNR值,將該縮放增益值設置為最小值,而對于大于該第一SNR值的第二SNR值,將該縮放增益值設置為單位一。
94.如權利要求93中所述的語音編碼器,其中該第一SNR值約等于1dB,以及其中該第二SNR值約為45dB。
95.如權利要求85中所述的語音編碼器,其中所述噪聲抑制器響應于非活動語音幀的出現(xiàn),將平滑縮放增益值重置為最小值。
96.如權利要求84中所述的語音編碼器,其中在如下活動語音幀中不執(zhí)行噪聲抑制,在該活動語音幀中在多個頻帶中的最大噪聲能量是在閾值以下,其中頻帶包括至少兩個頻率倉。
97.如權利要求85中所述的語音編碼器,所述噪聲抑制器響應于短拖尾語音幀的出現(xiàn)對于最先的x個頻帶,使用在每個頻帶的基礎上確定的平滑縮放增益來縮放該語音信號的頻譜;以及使用對于每個語音幀更新n次的縮放增益的單個值來縮放該語音信號的頻譜的剩余頻帶,其中n大于一。
98.如權利要求97中所述的語音編碼器,其中所述最先的x個頻帶對應于上至1700Hz的頻率。
99.如權利要求85中所述的語音編碼器,其中所述噪聲抑制器響應于窄帶語音信號的存在對于最先的x個頻帶,使用在每個頻帶的基礎上確定的平滑縮放增益來縮放該語音信號的頻譜,其中所述最先的x個頻帶對應于上至3700Hz的頻率;使用對應于3700Hz的頻率倉處的縮放增益值來縮放在3700Hz與4000Hz之間的頻率倉的頻譜;以及將該語音信號的頻譜的剩余頻帶清零。
100.如權利要求99中所述的語音編碼器,其中該窄帶語音信號是上采樣到12800Hz的語音信號。
101.如權利要求84中所述的語音編碼器,還包括至少一個預處理器,用于在將輸入的語音信號應用到所述噪聲抑制器之前對該語音信號進行預處理。
102.如權利要求101中所述的語音編碼器,其中所述至少一個預處理器包括高通濾波器和預加重器。
103.如權利要求84中所述的語音編碼器,其中該邊界頻率的值是使用計算出的聲位度量來確定的聲位截止頻率的函數(shù)。
104.如權利要求103中所述的語音編碼器,其中所述噪聲抑制器確定多個關鍵頻帶,所述關鍵頻帶具有不超過該聲位截止頻率的上限頻率,其中邊界被設置為使得對最少x個頻帶和最多y個頻帶執(zhí)行每個頻率倉的處理。
105.如權利要求104中所述的語音編碼器,其中x=3且其中y=17。
106.如權利要求104中所述的語音編碼器,其中該聲位截止頻率被界定為等于或大于325Hz而且等于或小于3700Hz。
107.如權利要求104中所述的語音編碼器,其中所述噪聲抑制器基于與每個關鍵頻帶的信噪比(SNR)基本上相獨立的參數(shù)來做出是否在非活動語音時段期間對每個關鍵頻帶的噪聲能量估計進行更新的判決。
108.一種語音編碼器,包括用于抑制語音信號中的噪聲的裝置,該語音信號具有可分到多個頻率倉中的頻域表示,所述噪聲抑制裝置包括如下裝置,該裝置用于將所述多個頻率倉分開到其間具有邊界的第一組鄰接頻率倉和第二組鄰接頻率倉中,以及用于根據(jù)該語音信號的頻譜內(nèi)容來改變該邊界,所述噪聲抑制裝置還包括如下裝置,該裝置用于為所述頻率倉中的至少一些頻率倉確定縮放增益值,以及用于通過組合當前確定的縮放增益值和先前確定的平滑縮放增益值來為所述頻率倉中的所述至少一些頻率倉計算平滑縮放增益值,其中計算平滑縮放增益值使用具有如下值的平滑因子,該值被確定為使得對于越小的縮放增益值則平滑性越強,所述噪聲抑制裝置還包括如下裝置,該裝置用于為至少一些頻帶確定縮放增益值,其中頻帶包括至少兩個頻率倉,以及用于計算平滑頻帶縮放增益值,所述噪聲抑制裝置還包括如下裝置,該裝置用于使用平滑縮放增益來縮放該語音信號的頻譜,其中對于小于該邊界的頻率,在每個頻率倉的基礎上執(zhí)行該縮放,而對于在該邊界以上的頻率,在每個頻帶的基礎上執(zhí)行該縮放。
109.如權利要求108中所述的語音編碼器,其中該邊界包括如下頻率,該頻率是使用計算出的聲位度量來確定的聲位截止頻率的函數(shù),其中所述噪聲抑制裝置確定多個關鍵頻帶,所述關鍵頻帶具有不超過該聲位截止頻率的上限頻率,其中邊界被設置為使得對最少x個頻帶和最多y個頻帶執(zhí)行每個頻率倉的處理,其中x=3且其中y=17,以及其中該聲位截止頻率被界定為等于或大于325Hz而且等于或小于3700Hz。
110.一種在計算機可讀介質上實施的計算機程序,包括用于執(zhí)行語音信號噪聲抑制的程序指令,包括如下操作對于具有可分到多個頻率倉中的頻域表示的語音信號,為所述頻率倉中的至少一些頻率倉確定縮放增益值以及計算平滑縮放增益值;包括對于所述頻率倉中的所述至少一些頻率倉,組合當前確定的縮放增益值和先前確定的平滑頻帶縮放增益值。
111.如權利要求110中所述的計算機程序,所述操作還包括為至少一些頻帶確定縮放增益值,其中頻帶包括至少兩個頻率倉,以及計算平滑頻帶縮放增益值;包括對于所述頻帶中的所述至少一些頻帶,組合當前確定的縮放增益值和先前確定的平滑頻帶縮放增益值。
112.如權利要求111中所述的計算機程序,所述操作還包括使用平滑縮放增益來縮放該語音信號的頻譜,其中對于小于某一頻率的頻率,在每個頻率倉的基礎上執(zhí)行該縮放,而對于在該某一頻率以上的頻率,在每個頻帶的基礎上執(zhí)行該縮放。
113.如權利要求112中所述的計算機程序,其中該某一頻率的值是可變的而且是該語音信號的函數(shù)。
114.如權利要求112中所述的計算機程序,其中該某一頻率與聲位截止頻率有關,還包括使用計算的聲位度量來確定該聲位截止頻率的操作。
115.如權利要求114中所述的計算機程序,還包括確定多個關鍵頻帶的操作,所述關鍵頻帶具有不超過該聲位截止頻率的上限頻率,其中邊界被設置為使得對最少三個頻帶和最多十七個頻帶執(zhí)行每個頻率倉的處理。
116.如權利要求114中所述的計算機程序,其中該聲位截止頻率被界定為等于或大于325Hz而且等于或小于3700Hz。
117.如權利要求114中所述的計算機程序,其中是否在非活動語音時段期間對每個關鍵頻帶的噪聲能量估計進行更新的判決是基于與每個關鍵頻帶的信噪比(SNR)基本上相獨立的參數(shù)的。
118.一種在計算機可讀介質上實施的計算機程序,包括用于執(zhí)行語音信號噪聲抑制的程序指令,包括如下操作對于具有可分到多個頻率倉中的頻域表示的語音信號,將所述多個頻率倉分開到其間具有邊界頻率的第一組鄰接頻率倉和第二組鄰接頻率倉中;以及根據(jù)該語音信號的頻譜內(nèi)容來改變該邊界頻率的值。
119.如權利要求118中所述的計算機程序,所述操作還包括使用平滑縮放增益來縮放該語音信號的頻譜,其中對于小于該邊界頻率的頻率,在每個頻率倉的基礎上執(zhí)行該縮放,而對于該邊界頻率以上的頻率,在每個頻帶的基礎上執(zhí)行該縮放,其中頻帶包括至少兩個頻率倉。
120.如權利要求118中所述的計算機程序,其中該邊界頻率在當前語音幀中的值至少部分地是前一語音幀中該語音信號的函數(shù)。
121.如權利要求119中的計算機程序,所述操作還包括為所述頻帶中的單個頻帶確定縮放增益值;以及計算平滑縮放增益值,包括如下操作對于所述頻帶中的至少一些頻帶,組合當前確定的縮放增益值和先前確定的平滑縮放增益值,其中確定縮放增益值對于每個語音幀出現(xiàn)n次,其中n大于一,以及其中該邊界頻率的值是前一語音幀中該語音信號的函數(shù)。
122.如權利要求118中所述的計算機程序,該邊界頻率與聲位截止頻率有關,還包括使用計算出的聲位度量來確定該聲位截止頻率的操作。
123.如權利要求122中所述的計算機程序,還包括確定多個關鍵頻帶的操作,所述關鍵頻帶具有不超過該聲位截止頻率的上限頻率,其中邊界被設置為使得對最少三個頻帶和最多十七個頻帶執(zhí)行每個頻率倉的處理。
124.如權利要求122中所述的計算機程序,其中該聲位截止頻率被界定為等于或大于325Hz而且等于或小于3700Hz。
125.如權利要求122中所述的方法,其中是否在非活動語音時段期間對每個關鍵頻帶的噪聲能量估計進行更新的判決是基于與每個關鍵頻帶的信噪比(SNR)基本上相獨立的參數(shù)的。
全文摘要
在本發(fā)明的一個方面中,本發(fā)明提供一種用于語音信號噪聲抑制的方法,包括對于具有可分到多個頻率倉中的頻域表示的語音信號,為所述頻率倉中的至少一些頻率倉確定縮放增益值,并且計算平滑縮放增益值。計算平滑縮放增益值包括對于頻率倉中的至少一些頻率倉,組合當前確定的縮放增益值和先前確定的平滑縮放增益值。在另一方面中,一種方法將多個頻率倉分開到其間具有邊界頻率的第一組鄰接頻率倉和第二組鄰接頻率倉中,其中該邊界頻率在噪聲抑制技術之間進行區(qū)分,而且根據(jù)語音信號的頻譜內(nèi)容來改變邊界頻率的值。
文檔編號G01L21/00GK1918461SQ200480041701
公開日2007年2月21日 申請日期2004年12月29日 優(yōu)先權日2003年12月29日
發(fā)明者米蘭·杰利內(nèi)克 申請人:諾基亞公司