數(shù)字音頻信號中的有效前回聲衰減的制作方法
【專利摘要】本發(fā)明涉及一種用于處理從變換編碼生成的數(shù)字音頻信號中的前回聲衰減的方法,其中在解碼點處,該方法包括以下步驟:檢測(Detect.)已解碼信號中的沖擊位置;確定(ZPE)在該已解碼信號中檢測的沖擊位置之前的前回聲區(qū);根據(jù)至少其中已檢測到?jīng)_擊的幀和前一幀,來計算(F.Att.)該前回聲區(qū)的每一子塊的衰減因子;和將該前回聲區(qū)的子塊中的前回聲衰減(Att.)對應(yīng)衰減因子。該方法還包括:對當(dāng)前幀應(yīng)用用于前回聲區(qū)的譜整形的濾波(F),直到所檢測的沖擊的位置為止。本發(fā)明還涉及實現(xiàn)所述方法的裝置以及包括這樣的裝置的解碼器。
【專利說明】數(shù)字音頻信號中的有效前回聲衰減
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及用于在數(shù)字音頻信號的解碼期間處理前回聲的衰減的方法和裝置。
【背景技術(shù)】
[0002] 關(guān)于數(shù)字音頻信號通過傳送網(wǎng)絡(luò)(它們例如是固定或移動網(wǎng)絡(luò))的傳輸、或者關(guān) 于信號的存儲,利用實現(xiàn)基于變換的頻率編碼或時間編碼類型的編碼系統(tǒng)的壓縮(或源編 碼)處理。
[0003] 由此,作為本發(fā)明的主題的方法和裝置的應(yīng)用領(lǐng)域是聲音信號的壓縮,特別是通 過頻率變換所編碼的數(shù)字音頻信號的壓縮。
[0004] 圖1作為圖示表示了根據(jù)現(xiàn)有技術(shù)的通過相加/重疊的包括分析-合成的數(shù)字音 頻信號的基于變換的編碼和解碼的基本圖。
[0005] 某些音樂序列,諸如打擊樂和比如爆破音(/k/,/t/,…)的某些語音片段,的特征 在于幾個樣本的空間內(nèi)的、信號的力度變化的非常快的轉(zhuǎn)變和非常強的變化(variation) 所表明的極端陡峭(abrupt)的沖擊。圖1中給出了樣本410前面的示范轉(zhuǎn)變。
[0006] 對于編碼/解碼處理,輸入信號被分離為長度L的樣本塊,在圖1中由垂直虛線表 示。輸入信號被表示為x(n),其中n是樣本的索引。連續(xù)塊的限幅導(dǎo)致這些塊由X N(n)= [x(N.L)= [Xn(0)?xn(L-1)]定義,其中N是幀的索弓丨,并且L是幀的長度。 在圖1中,我們具有L = 160個樣本。在修改余弦調(diào)制變換MDCT(代表"修改離散余弦變 換")的情況下,聯(lián)合分析兩個塊XN(n)和X N+1(n),以給出與索引N的幀關(guān)聯(lián)的變換系數(shù)的 塊。
[0007] 基于變換的編碼而操作的劃分為塊(也稱為巾貞)完全獨立于聲音信號,并且轉(zhuǎn)變 所以能在分析窗口的任意點處出現(xiàn)?,F(xiàn)在,在基于變換的解碼之后,通過量化(Q)-逆量化 (Q,操作所造成的"噪聲"(或失真)混合(marred)重構(gòu)的信號。該編碼噪聲按照相對均 勻的方式在時間上分布在變換塊的全部時間支持上(也就是說,樣本的長度2L的窗口的全 部長度上(具有L個樣本的重疊)。編碼噪聲的能量一般與塊的能量成比例,并取決于編碼 /解碼比特率。
[0008] 對于包括沖擊的塊(諸如圖1的塊320 - 480),信號的能量高,并所以噪聲具有高 電平。
[0009] 在基于變換的編碼中,編碼噪聲的電平典型低于緊靠轉(zhuǎn)變之后的高能量片段的信 號的電平,但是該電平高于低能量片段的信號的電平,特別是在轉(zhuǎn)變之前的部分上(圖1的 樣本160 - 410)。關(guān)于前述部分,信噪比是負的,并且得到的降級在收聽期間能似乎是非常 煩人的。轉(zhuǎn)變之前的編碼噪聲被稱為前回聲,并且轉(zhuǎn)變之后的噪聲被稱為后回聲。
[0010] 在圖1中可以觀察到,前回聲影響轉(zhuǎn)變之前的巾貞、以及其中發(fā)生轉(zhuǎn)變的幀。
[0011] 心理聲學(xué)的經(jīng)驗已示出了人耳執(zhí)行聲音的幾毫秒等級的相當(dāng)有限的時間前掩蔽 (pre-masking)。當(dāng)前回聲的持續(xù)時間大于前掩蔽的持續(xù)時間時,沖擊之前的噪聲或前回聲 是可聽見的。
[0012] 當(dāng)從高能量序列轉(zhuǎn)換(pass)為低能量序列時,人耳也執(zhí)行較長持續(xù)時間(從5到 60毫秒)的后掩蔽。后回聲可接受的討厭等級或級別所以大于前回聲。
[0013] 塊的長度在樣本數(shù)目方面越大,更關(guān)鍵的前回聲的現(xiàn)象越討厭。現(xiàn)在,在基于變換 的編碼中,公知的是,對于固定信號,變換的長度增加越大,編碼增益越大。按照固定采樣頻 率和固定比特率,如果窗口的點數(shù)(所以變換的長度)增加,則每幀更多的比特將可用于 對心理聲學(xué)模型認為有用的頻譜線進行編碼,由此實現(xiàn)使用大長度塊的優(yōu)點。MPEG AAC編 碼(先進音頻編碼)例如使用包括固定數(shù)目樣本(2048)的大長度的窗口(即,按照32kHz 的采樣頻率在64ms的持續(xù)時間上);通過使得可能經(jīng)由中間(轉(zhuǎn)變)窗口從這些長窗口切 換到8個短窗口而在這里管理前回聲的問題,由此需要編碼的特定延遲來檢測轉(zhuǎn)變的存在 并改編(adapt)窗口。這些短窗口的長度所以是8 ms。按照低比特率,總是可能具有幾ms 的可聽前回聲。切換窗口使得可能衰減前回聲而不是去除它。用于諸如WT-T G. 722. 1、 G. 722. 1C或G. 719的對話應(yīng)用的基于變換的編碼器通常使用在16、32或48kHz處(分別) 持續(xù)時間40ms并且?guī)L度20ms的窗口。可注意的是,UIT-T G. 719編碼器集成用于利用 瞬變(transient)檢測切換窗口的機制,然而在低比特率(典型地32 k比特/秒)處前回 聲沒有完全降低。
[0014] 帶著降低前述前回聲現(xiàn)象的討厭效果的目的,已在編碼器和/或解碼器級別提出 各種解決方案。
[0015] 上面闡明了窗口的切換。另一解決方案在于應(yīng)用自適應(yīng)濾波。在沖擊之前的區(qū)域 中,將重構(gòu)信號看作原始信號和量化噪聲之和。
[0016] 已在Y. Mahieux和 J. P. Petit 發(fā)表的名為High Quality Audio Transform Coding at 64 kbits, IEEE Trans, on Communications Vol 42, No. 11,Novemberl994 的文章中描述 了對應(yīng)濾波技術(shù)。
[0017] 這樣的濾波的實現(xiàn)需要參數(shù)的知識,這些參數(shù)中的一些(如同前回聲所破壞的信 號的預(yù)測系數(shù)和方差(variance))基于噪聲樣本在解碼器處被估計。另一方面,諸如原始 信號的能量的信息僅能在編碼器處得知,并結(jié)果必須傳送。這使得必須傳送附加信息,所述 附加信息按照約束比特率減少向基于變換的編碼分配的相對預(yù)算。當(dāng)接收的塊包括力度變 化的突變時,向其應(yīng)用濾波處理。
[0018] 前述濾波處理沒有使得可能恢復(fù)原始信號,而是提供前回聲中的大降低。然而,這 需要向解碼器傳送附加參數(shù)。
[0019] 已提出了無需信息的特定傳送的各種前回聲降低技術(shù)。例如,在文章B. K6vcsi, S. Ragot,M. Gartner,H. Taddei,"Pre-echo reduction in the ITU-T G. 729. 1 embedded c oder,〃EUSIPC0, Lausanne,Switzerland,August 2008 中呈現(xiàn)了分級編碼的上下文中的前 回聲的降低的回顧。
[0020] 在法國專利申請FR 08 56248中描述了使得前回聲衰減的方法的典型示例。在該 示例中,在其中已檢測到轉(zhuǎn)變或沖擊的子塊之前的低能量子塊中,針對每一子塊確定衰減 因子。
[0021] 例如作為最高能量的子塊的能量與正討論的第k子塊的能量的比率R(k)的函數(shù), 來計算每一子塊的衰減因子g(k) :
【權(quán)利要求】
1. 一種用于處理以基于變換的編碼為基礎(chǔ)造成的數(shù)字音頻信號中的前回聲的衰減的 方法,其中在解碼時,該方法包括以下步驟: -檢測(Detect.)已解碼信號中的沖擊位置; -確定(ZPE)在該已解碼信號中檢測的沖擊位置之前的前回聲區(qū); _作為至少其中已檢測到?jīng)_擊的幀和前一幀的函數(shù),來計算(F.Att.)該前回聲區(qū)的每 一子塊的衰減因子; -將該前回聲區(qū)的子塊中的前回聲衰減(Att.)對應(yīng)衰減因子; 該方法的特征在于其進一步包括: -對當(dāng)前幀應(yīng)用前回聲區(qū)的譜整形的自適應(yīng)濾波(F),直到和所檢測的沖擊位置一樣 遠。
2. 根據(jù)權(quán)利要求1的方法,其特征在于該方法進一步包括:計算關(guān)于要向該前回聲區(qū) 應(yīng)用的濾波的至少一個判斷參數(shù),并且作為所述至少一個判斷參數(shù)的函數(shù)來改編該濾波的 系數(shù)。
3. 根據(jù)權(quán)利要求2的方法,其特征在于所述至少一個判斷參數(shù)是所檢測的沖擊的強度 的度量。
4. 根據(jù)權(quán)利要求2的方法,其特征在于所述至少一個判斷參數(shù)是包括沖擊位置的子塊 之前的子塊中的衰減因子的值。
5. 根據(jù)權(quán)利要求2的方法,其特征在于所述至少一個判斷參數(shù)基于該前回聲區(qū)的信號 和/或該前回聲區(qū)之前的信號的譜分布分析。
6. 根據(jù)權(quán)利要求3的方法,其特征在于所檢測的沖擊的強度的度量具有以下形式: P = max (EN (k),EN (k+1) /min (EN (k-1),EN (k-2)),k是其中已檢測到?jīng)_擊的子塊的編 號,并且EN(k)是第k子塊的能量。
7. 根據(jù)權(quán)利要求2的方法,其特征在于,作為至少一個判斷參數(shù)與預(yù)定閾值的比較的 函數(shù),按照離散方式來執(zhí)行所述濾波系數(shù)的改編。
8. 根據(jù)權(quán)利要求2的方法,其特征在于,作為所述至少一個判斷參數(shù)的函數(shù),按照連續(xù) 方式來執(zhí)行所述濾波系數(shù)的改編。
9. 根據(jù)權(quán)利要求1的方法,其特征在于所述濾波是具有以下傳遞函數(shù)的零相位有限脈 沖響應(yīng)濾波: c (n) z k (l_2c (n)) +c (n) z 其中c(n)是位于0和0. 25之間的系數(shù)。
10. 根據(jù)權(quán)利要求1的方法,其特征在于,通過將所述衰減因子集成到定義所述濾波的 系數(shù)中,而在與譜整形濾波相同的時間處執(zhí)行該衰減步驟。
11. 一種用于處理以基于變換的編碼器為基礎(chǔ)造成的數(shù)字音頻信號中的前回聲的衰減 的設(shè)備,其中該設(shè)備與解碼器關(guān)聯(lián),該設(shè)備包括: -用于檢測已解碼信號中的沖擊位置的檢測模塊(601); -用于確定在該已解碼信號中檢測的沖擊位置之前的前回聲區(qū)的確定模塊(602); -用于作為至少其中已檢測到?jīng)_擊的幀和前一幀的函數(shù),來計算該前回聲區(qū)的每一子 塊的衰減因子的計算模塊(603); -用于將該前回聲區(qū)的子塊中的前回聲衰減對應(yīng)衰減因子的衰減模塊¢04); 該裝置進一步包括: -自適應(yīng)濾波模塊¢06),用于對當(dāng)前幀執(zhí)行前回聲區(qū)的譜整形,直到和所檢測的沖擊 位置一樣遠。
12. -種數(shù)字音頻信號的解碼器,包括根據(jù)權(quán)利要求11的裝置。
13. -種計算機程序,包括代碼指令,當(dāng)這些指令由處理器運行時,用于實現(xiàn)根據(jù)權(quán)利 要求1到10之一的方法的步驟。
【文檔編號】G10L19/26GK104395958SQ201380034828
【公開日】2015年3月4日 申請日期:2013年6月28日 優(yōu)先權(quán)日:2012年6月29日
【發(fā)明者】B.科維西, S.拉戈特 申請人:奧林奇公司