數(shù)字語音編碼器中的諧波噪聲加權的制作方法

文檔序號：2819078閱讀：233來源：國知局

專利名稱：數(shù)字語音編碼器中的諧波噪聲加權的制作方法
技術領域：
本發(fā)明主要涉及信號壓縮系統(tǒng)，更具體地，涉及碼激勵線性預測(CELP)型語音編碼系統(tǒng)。
背景技術：
數(shù)字語音與音頻信號的壓縮是公知的。為了在通信信道上高效地發(fā)送信號或者在諸如固態(tài)存儲器件或計算機硬盤的數(shù)字媒體設備上存儲壓縮信號，通常需要進行壓縮。盡管存在許多壓縮(或者“編碼”)方法，但其中一種非常流行的數(shù)字語音壓縮編碼方法稱為碼激勵線性預測(CELP)，該方法為“分析-合成”編碼算法系列中的一員。分析-合成法通常指利用數(shù)字模型的參數(shù)合成一組候選信號，將這些候選信號與輸入信號做比較，并分析失真的編碼過程。然后發(fā)送或存儲產(chǎn)生最小失真或誤差分量的參數(shù)集。該參數(shù)集最后用于重建原始輸入信號的估計。CELP是一種特殊的分析-合成法，其利用一個或多個激勵碼本，這些碼本主要包括從對應于碼本索引的碼本得到的碼矢量集。這些碼矢量在“試錯”(trial and error)過程中用作語音合成器的激勵，在該過程中，為每一候選碼矢量計算誤差指標，并且選擇產(chǎn)生最小誤差的候選碼矢量。
例如，圖1是現(xiàn)有CELP編碼器100的框圖。在CELP編碼器100中，包含語音采樣n(s(n))的輸入信號被施加至線性預測編碼(LPC)分析框101，在此處利用線性預測編碼估計短時譜包絡。得到的譜參數(shù)(或LP參數(shù))由傳輸函數(shù)A(z)表示。這些譜參數(shù)被施加至LPC量化框102，量化框102對這些譜參數(shù)進行量化以產(chǎn)生適用于復用器108的量化譜參數(shù)Aq。量化譜參數(shù)Aq然后被傳遞至復用器108，并且該復用器基于該量化譜參數(shù)和由平方差最小化/參數(shù)量化框107確定的一組參數(shù)τ、β、k和γ產(chǎn)生編碼比特流。如同本領域的普通技術人員所知，τ、β、k和γ分別定義為閉環(huán)基音延遲、自適應碼本增益、固定碼本矢量索引和固定碼本增益。
量化譜(或LP)參數(shù)還可被本地傳遞至具有對應傳輸函數(shù)1/Aq(z)的LPC合成濾波器105。LPC合成濾波器105還從第一組合器110接收合并的激勵信號u(n)，并且基于量化譜參數(shù)Aq和該合并的激勵信號u(n)產(chǎn)生輸入信號的估計如下產(chǎn)生合并的激勵信號u(n)?；谒饕齾?shù)τ從自適應碼本(ACB)103選擇自適應碼本碼矢量cτ。然后基于增益參數(shù)β對于該自適應碼本碼矢量cτ加權，并將該加權的自適應碼本碼矢量傳遞至第一組合器110?；谒饕齾?shù)k從固定碼本(FCB)104選擇固定碼本碼矢量ck。然后基于增益參數(shù)γ對于該固定碼本碼矢量ck加權，并且也將該加權的固定碼本碼矢量傳遞至第一組合器110。第一組合器110然后通過合并自適應碼本碼矢量cτ的加權值和固定碼本碼矢量ck的加權值，產(chǎn)生合并的激勵信號u(n)。(為了方便讀者，還以它們的z變換形式給出了這些變量。變量的z變換由相應的大寫字母表示，例如，e(n)的z變換表示為E(z))。
LPC合成濾波器105將輸入信號的估計傳遞至第二組合器112。第二組合器112還接收輸入信號s(n)并用輸入信號s(n)中減去輸入信號的估計輸入信號s(n)與輸入信號估計間的差值被施加至感知誤差加權濾波器106，該濾波器基于s(n)和之間的差值和加權函數(shù)w(n)產(chǎn)生感知加權誤差信號e(n)，如下
E(z)=W(z)(S(z)-S^(z))---(1)]]>感知加權誤差信號e(n)然后被傳遞至平方差最小化/參數(shù)量化框107。平方差最小化/參數(shù)量化框107使用誤差信號e(n)確定產(chǎn)生輸入信號s(n)的最佳估計的優(yōu)化參數(shù)集τ、β、k和γ。
圖2是從編碼器100接收傳輸?shù)默F(xiàn)有解碼器200的框圖。如本領域的普通技術人員所知，解碼器200中的解復用器在與由編碼器100執(zhí)行的完全相同的合成過程中利用由編碼器100產(chǎn)生的編碼比特流解碼優(yōu)化參數(shù)集，即τ、β、k和γ。從而，如果編碼器100產(chǎn)生的編碼比特流由解碼器200無差錯地接收，則可重建解碼器200輸出的語音作為編碼器100產(chǎn)生的輸入語音估計的精確副本。
回到圖1，加權濾波器W(z)利用人耳的頻率遮蔽特性，使得如果信號和噪聲的頻率接近，則同時出現(xiàn)的噪聲被較強的信號遮蔽。如Salami R.，Laflamme C.，Adoul J-P，Massaloux D.，“A toll quality 8Kb/sspeech coder for personal communications system，”IEEE Trans.OnVehicular Technology，pp.808-816，Aug.1994中所述，從LPC系數(shù)ai得到W(z)，并由下式給出W(z)=A(z/γ1)A(z/γ2)0<γ2<γ1≤1,---(2)]]>其中，A(z)=1+Σi=1paiz-i,---(3)]]>并且p為LPC的階數(shù)。由于加權濾波器由LPC譜得到，其也被稱為“譜加權”。
上述過程并沒有考慮這樣的事實，即信號周期性也促成了基頻處和基頻的倍頻處的頻譜峰。已經(jīng)提出了各種技術利用這些基頻諧波的噪聲遮蔽。例如，在專利No.5,528,723“Digital speech coder and methodutilizing harmonic noise weighting”Gerson and Jasiuk，和在Gerson I.A.，Jasiuk M.A.，“Techniques for improving the performance of CELP typespeech coders，”Proc.IEEE ICASSP，pp.205-208，1993中，提出了一種在加權濾波器中包括諧波噪聲遮蔽的方法。如以上參考文獻所述，通過用諧波噪聲加權濾波器C(z)修改該譜加權濾波器可包括諧波噪聲加權，并且諧波噪聲加權濾波器由下式給出C(z)=1-ϵpΣi=-M1M2Biz-(D+i),---(4)]]>其中，D對應于基音周期或基音遲滯或延遲，bi是濾波器系數(shù)，并且0≤εp＜1是諧波噪聲加權系數(shù)。包括諧波噪聲加權的加權濾波器由下式給出WH(z)＝W(z)C(z). (5)諧波噪聲加權量通常由乘積∈pbi決定。由于bi由延遲決定，則諧波噪聲加權量是延遲的函數(shù)。上述現(xiàn)有技術參考文獻已經(jīng)表明，可在不同的預定時間使用不同的諧波噪聲加權系數(shù)(∈p)值，即∈p可以是時變參數(shù)(例如允許其在各個子幀間變化)，然而，現(xiàn)有技術并沒有提供選擇∈p的方法。因此，需要一種方法和裝置，用于在數(shù)字語音編碼器中執(zhí)行諧波噪聲加權，優(yōu)化地并且動態(tài)地確定∈p的適當值，因此可以優(yōu)化諧波噪聲加權量。盡管上述現(xiàn)有技術參考文獻已經(jīng)表明，可在不同的時間使用不同的諧波噪聲加權系數(shù)(∈p)值(例如∈p可在各個子幀間變化)，然而，現(xiàn)有技術并沒有提供改變∈p的方法或者表明這種方法何時是有益的或有多少益處。

圖1是現(xiàn)有技術的碼激勵線性預測(CELP)編碼器的框圖。
圖2是現(xiàn)有技術的現(xiàn)有CELP解碼器的框圖。
圖3是根據(jù)本發(fā)明優(yōu)選實施例的CELP編碼器的框圖。
圖4是∈p對于基音遲滯(D)的圖示。
圖5是表示由CELP編碼器執(zhí)行，以包括本發(fā)明的諧波噪聲加權方法的步驟的流程圖。
圖6是根據(jù)本發(fā)明替換實施例的CELP編碼器的框圖。
具體實施例方式
為了滿足選擇諧波噪聲加權(HNW)系數(shù)(∈p)值以優(yōu)化諧波噪聲加權量的需要，此處提供一種用于在數(shù)字語音編碼器中執(zhí)行諧波噪聲加權的方法和裝置。在操作過程中，分析接收的語音以確定基音周期。然后基于該基音周期選擇HNW系數(shù)，并且基于諧波噪聲加權(HNW)系數(shù)(∈p)確定感知噪聲加權濾波器(C(z))。對于大的基音周期(D)，基頻諧波的峰非常接近，并且相鄰峰間的谷因此可能位于相鄰峰的遮蔽區(qū)域中。從而，對于較大的D值可能沒有必要具有大的諧波噪聲加權系數(shù)。
由于HNW系數(shù)是基音周期的函數(shù)，所以可執(zhí)行更好的噪聲加權，并且語音失真因此對于收聽人更加不明顯。
本發(fā)明包含一種用于在數(shù)字語言編碼器中進行諧波噪聲加權的方法。該方法包括以下步驟接收語音輸入s(n)；根據(jù)該語音輸入確定基音周期(D)；以及基于該基音周期確定諧波噪聲加權系數(shù)∈p。然后基于該諧波噪聲加權系數(shù)確定感知噪聲加權函數(shù)WH(z)。
本發(fā)明還包含一種用于在數(shù)字語音編碼器中執(zhí)行諧波噪聲加權的方法。該方法包括以下步驟接收語音輸入s(n)；根據(jù)該語音輸入確定閉環(huán)基音延遲(τ)；以及基于該閉環(huán)基音延遲確定諧波噪聲加權系數(shù)∈p。然后基于該諧波噪聲加權系數(shù)確定感知噪聲加權函數(shù)WH(z)。
本發(fā)明還包含一種裝置，該裝置包括將語音(s(n))當作輸入并基于該語音輸出基音周期(D)的基音分析電路，將D當作輸入并基于D輸出諧波噪聲加權系數(shù)(∈p)的諧波噪聲系數(shù)生成器，以及將∈p當作輸入并利用∈p生成加權誤差信號e(n)的感知誤差加權濾波器，其中e(n)基于s(n)與s(n)的估計之間的差值。
本發(fā)明最后包含一種裝置，該裝置包括將閉環(huán)基音延遲(τ)當作輸入并基于τ輸出諧波噪聲加權系數(shù)(∈p)的諧波噪聲系數(shù)生成器，將∈p當作輸入并利用∈p生成加權誤差信號e(n)的感知誤差加權濾波器，其中e(n)基于s(n)與s(n)的估計之間的差值。
現(xiàn)在回到附圖，其中相同的標號表示相同的部件，圖3是根據(jù)本發(fā)明優(yōu)選實施例的CELP編碼器300的框圖。如圖所示，CELP編碼器300類似于現(xiàn)有技術中所示的編碼器，不同的是增加了基音分析電路311和HNW系數(shù)生成器309。另外，感知誤差加權濾波器306適于從HNW系數(shù)生成器309接收HNW系數(shù)。如下進行編碼器300的操作輸入語音s(n)被引導至基音分析電路311，在此處分析s(n)以確定基音周期(D)。如同本領域的普通技術人員所知，基音周期(也稱為基音遲滯、延遲或者基音延遲)通常是過去輸入語音具有和當前輸入語音的最大相關性時的時間遲滯。
一旦確定基音周期(D)，則將D引導至HNW系數(shù)生成器309，在此處確定特定語音的HNW系數(shù)(∈p)。如上所討論，使諧波噪聲加權系數(shù)作為基音周期D的函數(shù)動態(tài)變化。諧波噪聲濾波器由下式給出C(z)=1-ϵp(D)Σi=-M1M2biz-(D+i).---(6)]]>如上所述，希望對于較大的D值具有較小的諧波噪聲加權(C(z))。選擇∈p作為D的減函數(shù)(參看公式7)確保對于較大的基音延遲值有較小的諧波噪聲加權量。盡管存在許多函數(shù)∈p(D)，但在本發(fā)明的優(yōu)選實施例中，∈p(D)由公式7給出，并圖示于圖4。
其中，∈max是諧波噪聲加權系數(shù)的最大允許值；∈min是諧波噪聲加權系數(shù)的最小允許值；Dmax是最大基音周期，在該值之上，諧波噪聲加權系數(shù)被設置為∈min；Δ是諧波噪聲加權系數(shù)的斜率。
一旦生成器309確定εp(D)，則將εp(D)提供至濾波器306以生成加權濾波器WH(z)。如上所述，WH(z)是W(z)與C(z)的乘積。誤差被提供至加權濾波器306以生成誤差信號e(n)。如同在現(xiàn)有技術的編碼器中，誤差加權濾波器306基于輸入信號與估計的輸入信號之間的差值產(chǎn)生加權誤差矢量e(n)，即E(z)=WH(z)(S(z)-S^(z)).---(8)]]>加權濾波器WH(z)利用人耳的頻率遮蔽特性，使得如果信號和噪聲的頻率接近，則同時出現(xiàn)的噪聲被較強的信號遮蔽?；趀(n)的值，平方差最小化/參數(shù)量化電路307產(chǎn)生τ，k，γ，β的值，將這些值在信道上發(fā)送，或存儲在數(shù)字媒體設備上。
如上所討論，由于HNW系數(shù)是基音周期的函數(shù)，從而可執(zhí)行更好的噪聲加權，并且語音失真因此對于收聽人更加不明顯。
圖5是表示編碼器300的操作流程圖。該邏輯流程開始于步驟501，在此處由基音分析電路311接收語音輸入(s(n))。在步驟503，基音分析電路311確定基音周期(D)并將D輸出至HNW系數(shù)生成器309。HNW系數(shù)生成器309利用D確定基于D的諧波噪聲加權系數(shù)(εp)，并將εp輸出至感知誤差加權濾波器306(步驟505)。最后，濾波器306在步驟507利用εp產(chǎn)生感知噪聲加權函數(shù)WH(z)。
盡管已經(jīng)參考特定實施例表示并說明了本發(fā)明，但本領域的技術人員明白，在不脫離本發(fā)明的精神與范圍的情況下可進行各種形式和細節(jié)上的改變。例如，盡管給出了由εp得到WH(z)的特定公式，但可以利用由εp得到WH(z)的其它方式。例如，公式6中C(z)定義的求和項可在與εp相乘之前進一步修改。此外，在替換實施例中，εp可基于τ，在公式(7)中用τ代替D(參見圖6)。如上所討論，τ被定義為閉環(huán)基音延遲，同時εp是τ的減函數(shù)。從而公式(7)變?yōu)?其中，∈max是諧波噪聲加權系數(shù)的最大允許值；∈min是諧波噪聲加權系數(shù)的最小允許值；τmax是最大閉環(huán)基音延遲，在該值之上，諧波噪聲加權系數(shù)被設置為∈min；Δ是諧波噪聲加權系數(shù)的斜率。
權利要求
1.一種用于在數(shù)字語音編碼器中執(zhí)行諧波噪聲加權的方法，該方法包括以下步驟接收語音輸入s(n)；根據(jù)所述語音輸入確定基音周期(D)；基于所述基音周期確定諧波噪聲加權系數(shù)∈p；以及基于所述諧波噪聲加權系數(shù)確定感知噪聲加權函數(shù)WH(z)。
2.權利要求1所述的方法，其中∈p是D的減函數(shù)。
3.權利要求2所述的方法，其中其中∈max是所述諧波噪聲加權系數(shù)的最大允許值；∈min是所述諧波噪聲加權系數(shù)的最小允許值；Dmax是最大基音周期，在該值之上，諧波噪聲加權系數(shù)被設置為∈min；以及Δ是所述諧波噪聲加權系數(shù)的斜率。
4.一種用于在數(shù)字語音編碼器中執(zhí)行諧波噪聲加權的方法，該方法包括以下步驟接收語音輸入s(n)；根據(jù)所述語音輸入確定閉環(huán)基音延遲(τ)；基于所述閉環(huán)基音延遲確定諧波噪聲加權系數(shù)∈p；以及基于所述諧波噪聲加權系數(shù)確定感知噪聲加權函數(shù)WH(z)。
5.權利要求4所述的方法，其中εp是τ的減函數(shù)。
6.權利要求5所述的方法，其中其中，∈max是所述諧波噪聲加權系數(shù)的最大允許值；∈min是所述諧波噪聲加權系數(shù)的最小允許值；τmax是最大閉環(huán)基音延遲，在該值之上，諧波噪聲加權系數(shù)被設置為∈min；Δ是所述諧波噪聲加權系數(shù)的斜率。
7.一種裝置，包括基音分析電路，將語音(s(n))當作輸入并基于所述語音輸出基音周期(D)；諧波噪聲系數(shù)生成器，將D當作輸入并基于D輸出諧波噪聲加權系數(shù)(∈p)；以及感知誤差加權濾波器，將∈p當作輸入并利用∈p生成加權誤差信號e(n)，其中e(n)基于s(n)與s(n)的估計之間的差值。
8.一種裝置，包括諧波噪聲系數(shù)生成器，將閉環(huán)基音延遲(τ)當作輸入并基于τ輸出諧波噪聲加權系數(shù)(∈p)；以及感知誤差加權濾波器，將∈p當作輸入并利用∈p生成加權誤差信號e(n)，其中e(n)基于s(n)與s(n)的估計之間的差值。
全文摘要
為了滿足選擇諧波噪聲加權(HNW)系數(shù)(ε
文檔編號G10L21/02GK1875401SQ200480031797
公開日2006年12月6日申請日期2004年10月26日優(yōu)先權日2003年10月30日
發(fā)明者烏達·米塔爾, 詹姆斯·P·阿什利申請人:摩托羅拉公司(在特拉華州注冊的公司)

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：烏達.米塔爾;詹姆斯.Ｐ.阿什利
技術所有人：摩托羅拉公司（在特拉華州注冊的公司）
我是此專利的發(fā)明人

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！