用于音頻信號的改進的語音/噪音分類的復合信號激活探測的制作方法

文檔序號：2829494閱讀：479來源：國知局

專利名稱：用于音頻信號的改進的語音/噪音分類的復合信號激活探測的制作方法
技術領域：
本發(fā)明涉及聲頻信號壓縮，特別涉及在對聲頻信號進行壓縮時語音/噪音的分類。
背景技術：
語音編碼器和譯碼器通常分別設置在無線電發(fā)射機和無線電接收機中，并且它們可以同時工作，從而可在給定的發(fā)射機和接收機之間沿著無線電通信線路進行語音(話音)通信。語音編碼器和語音譯碼器的結合經常稱之為語音編碼譯碼器。移動無線電話(如蜂窩式移動電話)就是常規(guī)通信設備的一個例子，這種常規(guī)通信設備通常包括一個具有一語音編碼器的無線電發(fā)射機和一個具有一語音譯碼器的無線電接收機。
在常規(guī)的基于信息組的語音編碼器中，引入的語音信號被分成若干塊并將這種塊稱為幀。用于普通的4kHz電話帶寬范圍的幀長通常為20ms或160次采樣。可將上述幀進一步分成一些子幀，其長度通常為5ms或40次采樣。
在對引入的音頻信號進行壓縮的過程中，語音編碼器通常使用先進的有損壓縮技術。通過一個信道如一條無線電通信線路將壓縮的(或編碼的)信號信息傳送給譯碼器。然后譯碼器試圖從引入的壓縮信號信息中復制出輸入音頻信號。如果引入的音頻信號的某些特征是公知的，則在信道中可保持盡可能低的位速率。如果音頻信號包含與收聽者相關的信息，則該信息會被保留下來。然而如果音頻信號僅包含非相關信息(如背景噪音)，則可以通過僅發(fā)射有限的關于信號的信息量來節(jié)省帶寬。對于僅包含非相關信息的許多信號，非常低的位速率經?？蛇_到高性能壓縮。在極端的情況中，可在譯碼器中通過上述信道對輸入信號進行合成而不進行任何信息的更新，直到重新確定輸入的聲頻信號包括相關的信息為止。
可以方便地利用非常低的位速率十分精確地復制出的典型信號包括恒定噪音、汽車噪音，在某種程度上還包括一些多路重合噪音。對于更復雜的非語音信號像音樂或語音和音樂的合成，要求通過譯碼器利用更高的位速率對其進行準確復制。
對于許多通常類型的背景噪音，需要更低的語音位速率，以得到足夠好的信號模型。目前的移動系統利用了在背景噪音持續(xù)的過程中下調發(fā)射的位速率這一事實。例如在使用連續(xù)發(fā)射技術的常規(guī)系統中，可變速率(VR)語音編碼器可使用其最低的位速率。
在常規(guī)的非連續(xù)發(fā)射(DTX)方案中，當講演者停頓時發(fā)射機就停止發(fā)送編碼的語音幀。在規(guī)則或不規(guī)則間隔內(例如每100ms到500ms)，發(fā)射機發(fā)送適合于在譯碼器中產生常規(guī)的柔和噪音的語音參數。這些適合產生柔和噪音(CNG)的參數通常被編碼成有時稱之為靜寂描述符(SID)幀的信號。在接收機處，譯碼器利用在SID幀中接收到的柔和噪音參數并通過常規(guī)柔和噪音注入(CNI)算法來合成仿真噪音。
在常規(guī)的DTX系統中的譯碼器內產生柔和噪音時，通常可以感覺到這種噪音變化非常小，并與在有源模式(非DTX)下產生的背景噪音有很大的不同。產生這種感覺的原因是DTX SID幀并沒有像正常的語音幀那樣經常地向接收機發(fā)送。在具有DTX模式的常規(guī)線性預測合成分析(LPAS)編碼譯碼器中，常需在數幀范圍內對背景噪音的頻譜和能量進行估算(例如平均值)，然后將估算的參數在SID幀內量化并將其通過信道傳送給譯碼器。
發(fā)送具有較低更新率的SID幀而不發(fā)送規(guī)則語音幀的好處有兩方面。例如由于更低的能量消耗而使移動式無線電收發(fā)信機中的電池壽命得以延長，而且由發(fā)射機引起的干擾下降從而提高了系統的容量。
如果利用一種相當簡單的壓縮模式對復合信號如音樂進行壓縮，并且相應的位速率也相當低，則在譯碼器中復制出的信號與使用較好(較高質量)壓縮技術而獲得的結果有很大的不同。通過對復合信號誤分類噪音可使用相當簡單的壓縮方案。當出現這種誤分類時，不僅譯碼器輸出拙劣的復制信號，而且不利的是誤分類本身導致從較高質量的壓縮方案轉換到較低質量的壓縮方案。為了修正上述誤分類，需要再轉回到較高質量方案的。如果在壓縮方案之間的這種轉換經常發(fā)生，則收聽者通常能聽得見并感到很刺耳。
從前述可知，在適當的情況下，如在演講者停頓期間對背景噪音進行壓縮，仍保持低位速率(高壓縮率)時，需要減少主觀上相關信號誤分類?？衫梅浅姷膲嚎s技術從而使得收聽者不會感到刺耳。在DTX系統中使用如上所述的柔和噪音參數就是強壓縮技術的一個例子，就象利用隨機激勵方法的常規(guī)低速率線性預測編碼(LPC)那樣。利用強壓縮技術的編碼技術通常只可以精確地復制出可感知的簡單噪音類型如穩(wěn)定的汽車噪音、街道噪音、餐館噪音(混串音)和其它類似的信號。
用于確定輸入聲頻信號是否包含相關信息的常規(guī)分類技術主要基于輸入聲頻信號的較簡單的穩(wěn)態(tài)分析。如果確定輸入信號為穩(wěn)定的，則假定其為類似噪音的信號。然而，單單是這種常規(guī)穩(wěn)態(tài)分析會引起復合信號，上述復合信號相當穩(wěn)定，但實際上包含被誤分類為噪音的可感知的相關信息。不利的是這種誤分類可引起如上所述的問題。

發(fā)明內容
因此需要一種分類技術，這種分類技術能可靠地檢測到上述類型的復合信號內的可感知相關信息的存在。
本發(fā)明提供了復合信號激活檢測，其能可靠地檢測到復合非語音信號，這些非語音信號包括對收聽者感知重要的相關信息。能被可靠地檢測到的復合非語音信號的例子包括音樂、曲維持樂〔musie on-hold〕、語音與音樂的組合、背景中的音樂以及其它音調或泛音聲音。

圖1示意性地展示了根據本發(fā)明的一個示范性語音編碼設備的相關部分；圖2展示了圖1中的復合信號激活檢測器的示范性實施例；圖3展示了圖1中的語音激活檢測器的示范性實施例；圖4展示了圖1中的釋放延遲邏輯塊的示范性實施例；圖5展示了圖2中的參數發(fā)生器的示范性操作流程；圖6展示了圖2中的計數器控制器的示范性操作流程；圖7展示了圖2中的一個部分的示范性操作流程；圖8展示了圖2中的另一部分的示范性操作流程；圖9展示了圖3中的一個部分的示范性操作流程；
圖10展示了圖3中的計數器控制器的示范性操作流程；圖11展示了圖3中的另一部分的示范性操作流程；圖12展示了可由圖1～11中的實施例完成的示范性操作流程；圖13展示了圖2中的復合信號激活檢測器的另一個實施例。
具體實施例方式
圖1為示意性地展示了根據本發(fā)明的一個示范性語音編碼設備的相關部分。這種語音編碼設備例如可以安裝在通過無線電通信信道進行聲頻信息傳遞的無線電接收機中。這種無線電接收機的一個例子是移動無線電話，如蜂窩式移動電話。
在圖1中，將輸入聲頻信號輸入到復合信號激活檢測器(CAD)以及話音激活檢測器(VAD)中。復合信號激活檢測器CAD響應聲頻輸入信號并進行相關性分析，從而確定輸入信號是否包括收聽者感知的相關信息，然后向VAD輸出一組信號相關參數。VAD利用這些信號相關參數連同接收到的聲頻輸入信號進行確定輸入聲頻信號是語音還是噪音。VAD作為一個語音/噪音分類器；語音/噪音顯示作為輸出。CAD接收到語音/噪音顯示并作為其輸入。CAD響應語音/噪音顯示和輸入聲頻信號，產生一組輸出到釋放延遲邏輯塊的復合信號標識，該釋放延遲邏輯塊也接收由VAD產生的語音/噪音顯示作為其輸入。
釋放延遲邏輯塊響應復合信號標識和語音/噪音顯示，并產生輸出，該輸出能指示出輸入聲頻信號是否包括收聽者能感覺到的相關信息，收聽者將在信道的另一端聽到在接收機中的譯碼設備輸出的復制聲頻信號。例如釋放延遲邏輯塊的輸出可適當地用于控制DTX的操作(在DTX系統中)或位速率(在可變速率VR編碼器中)。如果釋放延遲邏輯塊的輸出表明輸入聲頻信號不包含相關的信息，即可產生柔和噪聲(在DTX系統中)或者降低位速率(在VR編碼器)。
在CAD中通過提取出與特定頻帶中相關信號的每一幀信息對輸入信號(可進行預處理)進行分析?？赏ㄟ^使用一個合適的濾波器進行信號初次濾波來完成上述操作，上述濾波器可以為帶通濾波器或高通濾波器。該濾波器對包含分析中感興趣的最大限度能量的頻帶進行評估。為了降低如汽車噪音的強低頻率含量，通常應濾除低頻區(qū)。濾波后的信號被送往開環(huán)長期預測(LTP)相關分析。LTP分析提供的結果為相關值矢量或歸一化增益值；每相關移位的一個值。例如在常規(guī)的LTP分析中，移位范圍可以為[20，147]。獲取所需的相關性檢測的另一種方法〔低復雜性〕是在相關計算中使用未濾波的信號以及通過如下詳細描述的算法相似“濾波”過程對相關值進行修改。
對于每一個分析幀，選擇并緩沖具有最大幅度的標準相關值(增益值)。不使用移位(相應于選擇的相關值的LTP滯后)。對該值作進一步分析從而得出信號相關性參數矢量，該信號相關性參數矢量被輸送到VAD中用于背景噪音評估過程。對緩沖的相關值進行處理并用來得出最后的結論信號是否相關(即具有感知重要性)以及VAD的結論是否可靠。產生一組標識VAD_fail_1ong和VAD_fail_short并用來指示感知相關信息何時存在時，何時VAD可能要執(zhí)行嚴格的誤分類，即噪音分類。
在CAD相關性分析中進行計算的信號相關性參數用于提高VAD方案的性能。VAD方案試圖確定信號是一個語音信號(可能被環(huán)境噪音所降級)還是一個噪音信號。為了辨別出噪音中的語音+噪音信號，VAD通常估計上述噪音。VAD必須更新其背景噪音的評估值從而能在語音+噪音信號分類中得出更好的判斷。來自VAD的相關性參數用于確定VAD背景噪音和活動信號評估值更新到何種程度。
如果VAD被認為是可靠的，則釋放延遲邏輯塊可調整信號的最終判斷，該最終判斷利用了關于信號和在前VAD結論的相關性的先前信息。釋放延遲邏輯塊的輸出是最終判斷，從而能確定信號是相關還是不相關。在不相關的情況下，可使用低位速率來進行編碼。在DTX系統中，該相關/非相關信息用來確定當前的幀是應該以正常的方式(相關)進行編碼還是用舒適噪音參數(非相關)進行編碼。
在一個示范性的實施例中，在語音編碼器中設有實現高效低復合性的CAD，該語音編碼器使用了線性預測合成分析(LPAS)結構。輸入到語音編碼器中的信號通過常規(guī)的裝置(高通濾波的、縮放的等)進行調節(jié)。然后通過LPAS編碼器使用的常規(guī)自適應噪音加權重濾波器對調節(jié)的信號s(n)進行濾波。然后將加權語音信號sw(n)傳送到開環(huán)LTP分析中。LTP分析對在范圍[Lmin，Lmax]內的每一個移位的相關值進行計算并存儲，其中該范圍的端值例如可以為Lmin＝18，Lmax＝147。對于在上述范圍內每一個滯后值(移位)L，滯后值1的相關值Rxx(k，l)范圍可通過如下公式計算
Rxx(k=0,l)=Σn=0sw(n-k)sw(n-l)]]>方程1其中k為分析幀的長度。如果將k值設定為0，則上述函數僅僅隨滯后值l進行變化Rxx(l)=Σn=0sw(n)sw(n-l)]]>方程2也可定義為Exx(L)＝Rxx(L，L)方程3該過程通常作為在LPAS編碼器中的自適應編碼薄搜索的預搜索，因此沒有增加額外的計算成本。
通過將下列方程中的失真D最小化而得到單抽頭預測器(singletap predictor)的最佳增益系數g_optD(l)=Σn=0n=N-1(sw(n)-g·sw(n-l))2]]>方程4通過下列方程得出的最佳增益系數g_opt(實際的標準相關值)是方程4中最小化D的g值g_opt=Rxx(L)Exx(L)]]>其中L是最小化失真D(方程4)的滯后值，Exx(L)是能量。復合信號檢測器計算出加權信號sw的高通濾波模型(high passfiltered version)的最佳增益系數(g_opt)。例如高通濾波器可為一個具有濾波系數[h0，h1]的簡單第一級濾波器。在一個實施例中，在相關值計算之前不采用高通濾波加權信號，而采用簡化的公式來最小化使用濾波信號sw_f(n)的D值。
利用如下公式來確定高通濾波信號sw_f(n)sw_f(n)＝h0·sw(n)+h1·sw(n-1) 方程7在此情況下，可通過如下公式得到g_max(濾波信號的g_opt)g_max=Rxx(L)(h02+h12)+Rxx(L-1)h0h1+Rxx(L+1)h0h1Exx(L)(h02+h12)+Rxx(L,L+1)h0h1+Rxx(L,L-1)h0h1]]>方程8這樣可根據方程8使用在前已經由未濾波信號sw得到的Rxx和Exx值來計算參數g_max，而不用計算濾波信號sw_f的新的Rxx值。
如果將濾波系數[h0，h1]選擇為[1，-1]并且將分母標準滯后值Lden設為0，則g_max計算可簡化為g_max=2Rxx(L)-(Rxx(L-1)+Rxx(L+1))2Exx(Lden)-2Rxx(Lden+1)]]>方程9
將方程8中的分母Lden設為(Lmin+1)(非最優(yōu)值L_opt，即方程4中的最優(yōu)滯后值)，并將最大值L限制為Lmax-1，在最大搜索中的最小值Lmin限制為(Lmin+1)，可以對上述方程作進一步簡化。在此情況下，除了從開環(huán)LTP分析中已經得到的Rxx(1)外，不需要額外進行相關性計算。
對于每一幀，存儲了具有最大幅度的增益值g-max。根據g-f(i)＝b0·g_max(i)-a1·g_f(i-1)并通過得到每一幀的濾波g_max值，可得到平滑模型g_f(i)。在一些實施例中，濾波系數b0和a1可以是時間變量，也可以為狀態(tài)和輸入相關的以避免狀態(tài)飽和問題。例如b0和a1可以表達為相應的時間g_max(i)和g_f(i-1)的函數。即b0＝fb(t，g_max(i)，g_f(i-1))和α1＝fα(t，g_max(i)，g_f(i-1))。
信號g_f(i)是CAD相關性分析的一個初級結果。通過分析g_f(i)的狀態(tài)和隨時間變化的曲線，VAD自適應可配有輔助設備，而釋放延遲邏輯塊配有操作顯示。
圖2展示了上面已描述的圖1中的復合信號激活檢測器CAD的示范性實施例。預處理部分21對輸入信號進行預處理，從而產生了前述的加權信號sw(n)。將信號sw(n)輸出到一個常規(guī)的相關性分析器23中，該相關性分析器23例如可以為開環(huán)長期預測(LTP)相關分析器。相關性分析器23的輸出22通常作為一個自適應編碼薄搜索24的輸入。如上所述，根據本發(fā)明在常規(guī)相關性分析器23中使用的Rxx和Exx值用于計算g_f(i)。
Rxx和Exx值在25處輸入到最大歸一化增益計算器20中，該計算器20如上所述可計算出g_max值。通過計算器20對每一幀的最大幅度g_max值進行選擇并將其存儲在緩沖器26中。緩沖后的值輸出到如上所述的平滑濾波器27中。平滑濾波器27的輸出是g_f(i)。
信號g_f(i)被輸入到參數發(fā)生器28中。參數發(fā)生器28對輸入信號g_f(i)進行響應，并產生一對復合_高(complex-high)輸出和復合低(complex-low)輸出，上述輸出作為信號相關性參數輸送給VAD(參看附圖1)。參數發(fā)生器28還產生一個復合(complex-timer)一輸出，該輸出作為控制計數器201的計數器控制器29的輸入。計數器201的輸出復合懸擱_計數。(complex_hang_count)作為一個信號相關性參數輸送給VAD，同時也輸送給比較器203，比較器203的輸出VAD_失效_長(VAD_fail_long)是輸出給釋放延遲邏輯塊的復合信號標識(參看圖1)。信號g_f(i)同時也被輸送給另一個比較器205，該比較器205的輸出208與“與”門207的輸入相耦合。
圖2中的復合信號激活檢測器也從VAD中接收語音/噪音顯示(參看圖1)，即信號sp_vad_prim(例如該顯示等于0時為噪音，該顯示等于1時為語音)。將上述信號輸入緩沖器202中，該緩沖器202的輸出被耦合到比較器204。比較器204的輸出206被耦合到“與”門207的另一輸入?！芭c”門207的輸出為一個復合信號標識_VAD_失效_短(VAD_fail_short)，該標識輸入給圖1中的釋放延遲邏輯塊。
圖13展示了圖2中設備的另一示例，其中來自sw(n)的高通濾波模型(filtered version)，即高通濾波器131的輸出sw_f(n)通過相關性分析器23計算出方程5的g_opt值。然后每一幀的最大幅度g_opt值取代g_max在圖2的緩沖器26中進行緩沖。如圖2所示相關性分析器23還接受信號sw_(n)并產生常規(guī)輸出22。
圖3展示了圖1中的VAD的示范性實施例的相關部分。如上描述的圖2所示，VAD接受了來自CAD的信號相關性參數復合_高(complex_high)、復合_低(complex_low)、復合_懸擱_計數(complex_hang_count)。復合_高(complex_high)和復合_低(complex_low)被分別輸入到相應的緩沖器30和31中，上述緩沖器的輸出被分別輸入到比較器32和33中。對比較器32和33的輸出進行耦合并作為“或”門34的相應輸入，該“或”門34向計數器控制器35輸出復合_報警(complex_warning)信號。計數器控制器35對復合_報警(complex_warning)信號進行響應，從而可以控制計數器36。
聲頻輸入信號被耦合到噪音評估器38的一個輸入上，同時也被耦合到語音/噪音確定器39的一個輸入上。如通常所示，語音/噪音確定器39也接受來自噪音評估器38的背景噪音的評估信息303。語音/噪音確定器通常對輸入聲頻信號和噪音評估信息303進行響應，并產生語音/噪音顯示sp_vad_prim，該顯示輸出給圖1中的釋放延遲邏輯塊和CAD。
信號復合_懸擱_計數(complex_hang_count)輸入到比較器37中，該比較器37的輸出被耦合到噪音評估器38的一個向下(DOWN)輸入中。當向下(DOWN)輸入被激活時，噪音評估器38僅允許向下更新其評估值或不改變其評估值，即噪音的任何新的評估值必須表明小于或等于在前的評估值。在其它實施例中，激活向下(DOWN)輸入可允許噪音評估器向上更新其評估值從而表明具有更強的噪音，但是要求更新的速度(強度)應顯著減小。
噪音評估器38還有一個延遲(DELAY)輸入，該輸入與計數器36產生的一個稱為靜態(tài)_計數(stat_count)的輸出信號相耦合。在常規(guī)的VAD中噪音評估器接收到一個顯示信號表明輸入信號例如為非穩(wěn)定的、或音調或音色信號之后就延遲一段時間。在此延遲時間內，噪音評估值不能被更新為更高的值。這樣有助于防止對隱藏在噪音或語音穩(wěn)定信號內的非噪音信號作出錯誤反應。當延遲時間結束時，即使暫時顯示具有語音信號，噪音評估器也可以向上更新其噪音評估值。如果噪音水平突然增加，將使整個VAD算法不會鎖定到激活顯示。
根據本發(fā)明，當信號顯得相當相關而允許噪音評估值“快速”增長時，靜態(tài)計數(stat_count)驅動延遲(DELAY)輸入，并設定噪音評估器的前述的延遲時間的下限(即需要一段與常規(guī)要求相比為較長的延遲時間)。如果CAD檢測到在一個相當長的時間內(如2秒)具有非常高的相關性，靜態(tài)_計數(stat_count)信號可以使噪音評估值的增加延遲相當長的一段時間(如5秒)。在一個實施例中，靜態(tài)_計數(stat_count)信號用于減小噪音評估值更新的速度(強度)，在這種情況下通過CAD顯示出較高的相關性。
語音/噪音確定器39具有一個耦合到計數器控制器35的輸入的輸出301，同時該輸出也耦合為噪音評估器38的輸入，后者的耦合是通常使用的。當語音/噪音確定器判斷出聲頻輸入信號的一個給定幀例如是音調信號或音色信號或非穩(wěn)定信號時，輸出301顯示將該信號輸出給計數器控制器35，然后依次將計數器36的輸出靜態(tài)_計數(stat_count)設定為一個期望值。如果輸出301顯示為穩(wěn)定信號時，控制器35可以使計數器36遞減。
圖4展示了圖1中的釋放延遲邏輯塊的示范性實施例。在圖4中，復合信號標識短_失效_VAD(VAD_fail_short)和VAD_失效_長(VAD_fail_long)被輸入到”或”門41中，該“或”門41的輸出作為另一個“或”門43的一個輸入。來自VAD的語音/噪音顯示sp_vad_prim被輸入到常規(guī)的VAD釋放延遲邏輯塊45中。VAD釋放延遲邏輯塊的輸出作為“或”門43的第二個輸入。如果復合信號標識VAD_失效_短(VAD_fail_short)或VAD_失效_長(VAD_fail_long)之一處于激活狀態(tài)，則“或”門41的輸出可引起“或”門43顯示出該輸入信號是相關的。
如果復合信號標識都不處于激活狀態(tài)，則VAD釋放延遲邏輯塊45的語音/噪音判斷，即信號sp_vad，將構成相關/非相關顯示。如果sp_vad處于激活狀態(tài)，則表示為語音，然后“或”門43的輸出顯示信號是相關的。否則如果sp_vad處于非激活狀態(tài)，則表明為噪音，然后“或”門43的輸出顯示信號是非相關的。例如來自“或”門43的相關/非相關顯示可以被輸出給一個DTX系統的DTX控制部分或者VR系統的位速率控制部分。
圖5展示了圖2中的參數發(fā)生器28的示范性操作流程，該操作流程可產生信號復合_高(complex_high)、復合_低(complex_low)、復合時標(complex_timer)。圖5(以及圖6～11)中的位標i表示聲頻輸入信號的當前幀(current frame)。如圖5所示，如果信號g_f(i)不大于其相應的閾值，即在步驟51和52中對于高_復合(complex_high)信號為THh、在步驟54和55中對于復合_低(complex_low)信號為THl、在步驟57和58中對于復合_時標(complex_timer)信號為THt，則前面提及的每一個信號的值都設為零。如果在步驟51中信號g_f(i)大于閾值THh，則在步驟53中將信號高_復合(complex_high)設為1；如果在步驟54中信號g_f(i)大于閾值THl，則在步驟56中將信號復合_低(complex_low)設為1。如果在步驟57中信號g_f(i)大于閾值THt，則在步驟59中將信號復合時標(complex_timer)的值增加1。在圖5中的示范性閾值包括THh＝0.6，THl＝0.5，THt＝0.7。由圖5中可以看到復合_時標(complex_timer)代表了連續(xù)幀的數目，在上述數目內g_f(i)大于閾值THt。
圖6展示了圖2中的計數器控制器29和計數器201的示范性操作流程。如果在步驟61中復合_時標(complex_timer)大于閾值THct，則在步驟62中計數器控制器29將計數器201的輸出信號復合_懸擱_計數(complex_hang_count)的值設為H。如果在步驟61中復合_時標(complex_timer)不大于閾值THct，但在步驟63中大于0，則在步驟64中計數器控制器29將計數器201的輸出信號復合_懸擱_計數(complex_hang_count)的值減1。圖6中的示范性值包括THct＝100(相應于在一個實施例中的2秒)，H＝250(相應于在一個實施例中的5秒)。
圖7展示了圖2中的比較器203的示范性操作流程。如果在步驟71中復合_懸擱_計數(complex_hang_count)大于THhc，則在步驟72中將VAD_失效_長(VAD_fail_long)設為1。否則在步驟73中將VAD_失效_長(VAD_fail_long)設為0。在一個實施例中THhc＝0。
圖8展示了圖2中的緩沖器202、比較器204和205以及“與”門207的示范性操作流程。如圖8所示，如果在步驟81緊接當前的(第i點)的sp_vad_prim值之前的最近的sp_vad_prim的P值都等于0以及如果在步驟82中信號g_f(i)大于閾值THfs，則在步驟83中將VAD_失效_短(VAD_fail_short)設為1。否則在步驟84中將VAD失效_短(VAD_fail_short)設為0。圖8中的示范性值包括THrs＝0.55，p＝10。
圖9展示了圖3中的緩沖器30和31、比較器32和33以及“或”門34的示范性操作流程。如果在步驟91中當前的(第i點)的復合_高(complex_high)值之前的上一次第m點的復合_高(complex_high)值都等于0，或者如果在步驟92中當前的(第i點)的復合_低(complex_low)值之前的上一次第n點的復合_低(complex_low)值都等于0，則在步驟93中將復合_報警(complex_warning)設為1。否則在步驟94中將復合_報警(complex_warning)設為0。在圖9中的示范性值包括m＝8，n＝15。
圖10展示了圖3中的計數器控制器35和計數器36的示范性操作流程。如果在步驟100中(參看圖3中的301)表明聲頻信號是穩(wěn)定的，則在步驟104中將靜態(tài)_計數(stat_count)減小。然后如果在步驟101中復合_報警(complex_warning)＝1以及在步驟102中靜態(tài)_計數(stat_count)小于值MIN，則在步驟103中將靜態(tài)_計數(stat_count)的值設為MIN。如果在步驟100中聲頻信號是非穩(wěn)定的，則在步驟105中將靜態(tài)_計數(stat_count)的值設為A。在一個實施例中，MIN和A的示范性值分別是5和20，它們可以分別引起噪音評估器38(圖3)的下限延遲值為100ms和400ms。
圖11展示了圖3中的比較器37和噪音評估器38的示范性操作流程。如果在步驟111中復合_懸擱_計數(complex_hang_count)大于閾值THhc，則在步驟112中比較器37激活噪音評估器38的向下輸入，這樣噪音評估器38僅允許向下更新其噪音評估值(或者不改變噪音評估值)。如果在步驟111中復合_懸擱_計數(complex_hang_count)不大于閾值THhel，則噪音評估器38的向下輸入處于非激活狀態(tài)，這樣在步驟113中噪音評估器38允許向下或向上更新其噪音評估值。在一個例子中，THhcl＝0。
如前所述，如果CAD確定輸入聲頻信號是一個包括收聽者能感覺到的相關信息的復合信號，則由CAD產生的復合信號標識允許通過VAD進行“噪音”分類有選擇地超載。當通過VAD被分類為噪音的連續(xù)幀的某一預定數之后確定g_f(i)大于某一預定值時，VAD_fail_short標識可在釋放延遲邏輯塊的輸出處觸發(fā)“相關”顯示。
而且在g_f(i)大于連續(xù)幀某一預定數的預定值之后，VAD_fail_long標識可在釋放延遲邏輯塊的輸出處激發(fā)“相關”顯示，并將該顯示保持一段較長的保持時間。保持的時間周期可包含一系列分離的連續(xù)幀序列，其中g_f(i)大于前述的預定值，但每一個相分離的連續(xù)幀序列包括小于前述的幀的預定數。
在一個實施例中，信號相關性參數復合_懸擱_計數(complex_hang_count)可以在與復合信號標識VAD_fail_long相同的條件下使噪音評估器38的向下輸入起作用。如果g_f(i)大于連續(xù)幀的第一個數的第一預定閾值或大于連續(xù)幀的第二個數的第二預定閾值，則信號相關性參數復合_高(complex_high)和復合_低(complex_low)可以這樣運作，于是，即使已將多個連續(xù)幀確定(通過語音/噪音確定器39)為穩(wěn)定的，噪音評估器38的延遲輸入可以被提升(如需要)到一個下限值。
圖12展示了可由圖1～11中的語音編碼器實施例完成的示范性操作流程。在步驟121中計算當前幀的具有最大幅度的歸一化增益。在步驟122中對上述增益進行分析，從而產生相關性參數和復合信號標識。在步驟123中，將上述相關性參數用于在VAD中對背景噪音的評估。在步驟124中，復合信號標識用于在釋放延遲邏輯塊中得出相關性結論。如果在步驟125中確定聲頻信號不包含能感知的相關信息，則在步驟126中降低例如VR系統中的位速率或例如在DTX系統中對柔和噪聲參數進行編碼。
由前述可知，對于本領域的技術人員而言，可通過在常規(guī)的語音編碼設備上對軟件、硬件或者兩者的適當修改而很方便地實現圖1～13中的實施例。
雖然在前文已對本發(fā)明的示范性實施例進行了詳細描述，但它并不是對本發(fā)明范圍的限定，可通過多種方式實現本發(fā)明的構思。
權利要求
1.一種在對音頻信號進行編碼的期間將可感知相關非語音信息保留在音頻信號中的方法包括作出第一個關于所述音頻信號是否包括語音或噪音信息的判斷；作出第二個關于音頻信號是否包括對收聽者可感知相關的非語音信息的判斷；以及根據第二個判斷有選擇地忽略所述第一判斷。
2.如權利要求1所述的方法，其中所述作出第二判斷的步驟包括將預定值與相關值相比較，該相關值與音頻信號被分割成的相應的幀相關。
3.如權利要求2所述的方法，其中所述有選擇地忽略步驟包括根據一個相關值大于預定值而忽略所述第一判斷。
4.如權利要求2所述的方法，其中所述有選擇地忽略步驟包括根據在給定的時間周期內相關值的預定數大于預定值而忽略所述第一判斷。
5.如權利要求4所述的方法，其中所述有選擇地忽略步驟包括根據連續(xù)相關值的預定數大于預定值而忽略所述第一判斷。
6.如權利要求2所述的方法，包括對于每一幀探測到音頻信號的高通濾波模型的最高標準相關值，所述最高標準相關值分別相應于所述第一次提及的相關值。
7.如權利要求6所述的方法，其中所述探測步驟包括對于每一幀探測最大幅度標準相關值。
8.如權利要求1所述的方法，其中所述有選擇地忽略步驟包括根據可感知相關非語音信息的第二判斷忽略噪音的第一判斷。
9.一種將可感知相關信息保留在音頻信號中的方法，包括對于將音頻信號被分割成的多個幀中的每一幀探測音頻信號的高通濾波模型的最高標準相關值；產生所述標準相關值的第一序列；確定代表值的第二序列來分別表示第一序列的標準相關值；將代表值與閾值相比較從而得到音頻信號是否包含可感知相關信息的指示。
10.如權利要求9所述的方法，其中所述探測步驟包括將相關性分析應用到音頻信號中而不產生音頻信號的高通濾波模型。
11.如權利要求9所述的方法，其中所述探測步驟包括對音頻信號進行高通濾波，然后對高通濾波后的音頻信號進行相關性分析。
12.如權利要求9所述的方法，其中所述探測步驟包括對于每一幀探測最大幅度標準相關值。
13.一種用于在音頻信號編碼器中將包含在音頻信號內的可感知相關非語音信息進行保留的設備，包括一個分類器，該分類器用于接收音頻信號，并作出所述音頻信號是否包括語音或噪音信息的第一判斷；一個檢測器，該檢測器用于接收音頻信號，并作出音頻信號是否包括對收聽者可感知相關的非語音信息的第二判斷；與所述分類器和檢測器相耦合的邏輯塊，所述邏輯塊具有一個能指示音頻信號是否包括可感知相關信息的輸出，所述邏輯塊可選擇地在所述輸出處提供指示所述第一判斷的信息，并響應于所述第二判斷而在所述輸出處有選擇地忽略所述指示所述第一判斷的信息。
14.如權利要求13所述的設備，其中所述檢測器可操作地用于將預定值與一個相關值進行比較，該相關值與音頻信號被分割成的相應幀相關。
15.如權利要求14所述的設備，其中所述邏輯塊可操作地用于根據相關值大于預定值而忽略所述指示所述第一判斷的信息。
16.如權利要求14所述的設備，其中所述邏輯塊可操作地用于根據在給定的時間周期內相關值的預定數大于預定值而忽略所述指示所述第一判斷的信息。
17.如權利要求16所述的設備，其中所述邏輯塊可操作地用于根據連續(xù)相關值的預定數大于預定值而忽略所述指示所述第一判斷的信息，該連續(xù)相關值與時間上連續(xù)幀相關。
18.如權利要求14所述的設備，其中所述檢測器可操作地用于在每一所述幀內探測音頻信號的高通濾波模型的最高標準相關值，上述最高標準相關值分別與所述第一次提到的相關值相對應。
19.如權利要求18所述的設備，其中每一個所述最高標準相關值表示在有關的幀內的最大幅度標準相關值。
20.如權利要求13所述的設備，其中所述邏輯塊可操作地用于根據指示可感知的相關非語音信息的所述第二判斷而忽略指示噪音判斷的信息。
全文摘要
通過確認音頻信號是否包括非語音信息(122、124、125)可在對音頻信號進行編碼期間保留可感知相關非語音信息。如果這樣，對音頻信號的語音/噪音分類進行忽略(43)，從而防止將音頻信號誤分類為噪音。
文檔編號G10L11/02GK1828722SQ20061007332
公開日2006年9月6日申請日期1999年11月12日優(yōu)先權日1998年11月23日
發(fā)明者J·斯維德伯格, E·伊庫登, A·烏利登, I·約翰森申請人:艾利森電話股份有限公司

完整全部詳細技術資料下載