專利名稱:音頻編碼的制作方法
技術領域:
本發(fā)明涉及一種對音頻信號進行編碼的方法。
編碼器(如MPEG編碼器)的運作已為人們所知。在如
圖1所示的一種結構中,將輸入PCM(脈碼調制)信號x(t)提供至包含具有各轉移函數(shù)H1,…H1024的1024個濾波器11的子帶濾波器組(SBF)10。對每一濾波信號進行十中取一采樣,并且隨后提供至一定標器(SC)12,由其確定適合用于每一頻帶的比例系數(shù)。另外,屏蔽閾值和位分配計算器(MT/BA)13(其通常采用某種形式的心理聲學模型)確定每一頻帶的位分配,在該頻帶內,位速率是針對量化期間所引入的失真來平衡的。隨后,按照饋送到多路復用器(MUX)15之前分配的位速率,對每一個經(jīng)濾波和經(jīng)比例換算的信號進行量化,在該多路復用器(MUX)15處,產生包括量化信號、比例系數(shù)和位分配信息的最終音頻流(AS)。
人們知道,可以采用僅帶有噪聲模型說明的高效方式(例如,4至10千比特/秒)來表述音頻信號的某種頻譜和/或時間部分。
因此,如圖1所示,可以將輸入信號x(t)饋送到一選擇部件(Sel)16,它按照時間間隔,將頻帶分為是噪聲或者不是噪聲。當判斷頻譜-時間間隔是噪聲時,選擇部件16指令多路復用器15不要對該時間間隔的子帶信號進行編碼。而采用其輸出按照可獲得的位速率進行量化(Q)18的噪聲分析器(NA)17對輸入信號x(t)的頻譜-時間間隔模型化。
然而,一直困擾人們的一個問題是判斷哪一部分的音頻信號可以用噪聲來表述。該判斷是基于這樣的假設,即,對帶有噪聲的一部分音頻信號模型化不會導致質量的下降。另外,這還將使對信號進行編碼的效率的增大。
在Schltz.D的“Improving audio codecs by noise substitution”(J.Audio Eng.Soc.,Vol.44,pp.593-598,1996)中,給出了可以得到信號的統(tǒng)計信號性能,以進行上述分類的情況。Schultz所揭示的典型技術包括.連續(xù)譜線中頻譜峰值的跟蹤。
.在頻域中采用預測算符。
.在采用橫向濾波器的時域中使用可預測性。
在后兩個例子中,假設信號的可預測性越高,則音調越高,因而假設可預測性正好與噪聲相反。
其它技術是基于對某一幀的頻譜平坦性(通常是在一較短的時間間隔如10-20毫秒內)進行的分析。再有,頻譜越平坦,則認為噪聲越大。
在Herre,J.Schulz.D的“Extending the MPEG-4 AAC codec byperceptual noise substitution”(in Proc.104thconvention of theAudio Eng.Soc.,Amsterdam,preprint 4720,1998)中,在有關MPEG 4AAC的章節(jié)中提到了上述統(tǒng)計方法。這里,頻譜-時間間隔對應于“比例系數(shù)帶”和幀,并且當采用噪聲來進行模型化時,節(jié)約了位速率。
但是,人們將會看到,現(xiàn)有技術的信號統(tǒng)計標準不一定非要與人類觀察者所采用的標準相符,也就是說,只要這些標準之間差不多相符即可。
本發(fā)明提供了一種按照權利要求1所述的方法。
本發(fā)明是基于采用感知或心理聲學模型的源音頻信號的頻譜-時間間隔的噪聲分類。本發(fā)明是基于噪聲替換的預測可聽度,即,如果對于人類觀察者來說,預測到噪聲替換是聽不到的,那么就不會導致感覺上的劣化。
下面通過舉例,并參照附圖,描述本發(fā)明的實施例。圖中,圖1示出傳統(tǒng)的MPEG編碼器,其中,采用噪聲模型參數(shù)來表述音頻信號的所選頻譜-時間部分;圖2示出按照圖1中所示編碼器運作的本發(fā)明實施例的改進選擇部件的運作;圖3是已知基于心理-聲學信號比較模型的方框圖;圖4是用于圖2中選擇部件的基于心理-聲學信號比較模型的優(yōu)選實施例的方框圖;圖5示出圖4模型FFT部件所產生的復合諧音的功率譜(Rfnr(f));圖6示出圖4模型FFT部件所產生的高斯噪聲功率譜(Rfnr(f));圖7示出按照本發(fā)明第二實施例的編碼器;圖8示出圖7編碼器中運作的選擇部件的運作;以及圖9(a)和9(b)示出分別對于復合諧音和對于噪聲輸入信號圖4模型濾波器組中一個濾波器(25,18)的輸入(R25)和調制譜輸出(P25,18)。
在本發(fā)明的第一實施例中,在圖1所示類型的MPEG編碼器中采用改進的選擇部件來判斷是否可以通過子帶濾波信號或采用噪聲模型,以最好的方式對頻譜-時間間隔模型化。
現(xiàn)在參照圖2,一般說來,改進的選擇部件(Sel)16’用于對輸入信號x(t)的間隔n內多個頻帶中每一個i的噪聲模型替換進行迭代測試。最好是在超過編碼器基本間隔長度的時間段內,由選擇部件實施其測試。
在該實施例中,測試間隔n周圍PCM格式的輸入信號x(t)的間隔t(n)分成由9個短重疊段組成的序列…s1,s2…。在分段單元42中,這些重疊段中的每一段都開有平方根Hanning窗口(或某種其它的分析窗口)的窗口。(讀者將會看到,本發(fā)明中,并沒有對間隔的個數(shù)作出嚴格的要求,例如,可以采用8個間隔,也可以采樣11個間隔)。同時,間隔t(n)的信號x(t)用于心理-聲學分析器52的I/P1輸入。
在步驟44,對每一時域開窗信號…s1,s2…實施FFT(快速傅立葉變換),得到開窗信號的各復合頻譜表述。
對于每一表述,以及對于每一頻帶i,噪聲分析器/合成器46為每一頻帶i提供噪聲模型化的信號,而保持頻譜其余部分不變。該噪聲模型化的信號最好是基于合適編碼器中噪聲分析器(NA)17所使用的同一模型。
隨后,在步驟48,選擇部件對每一噪聲替換信號進行逆FFT,而得到時域信號…s’1(i),s’2(i)…。在步驟50中,通過首先再次采用平方根Hanning窗口(或某種其它的合成窗口)并采用迭加法再次進行開窗,而對各個段實施重組。這就產生對應于每一段i的長PCM信號x’(t)(i),對于該i段來說,在間隔t(n)上已經(jīng)替換了噪聲。隨后,把信號x’(t)(i)當作一系列的測試輸入信號I/P2(i)發(fā)送到心理-聲學分析器(PA)52。在圖2下面部分所示的矩陣中,示出了經(jīng)修改的信號的符號表述,其中,第i頻帶中噪聲被替換了。水平軸描述的是時間,而縱軸則代表與AAC編碼器中所使用的比例系數(shù)帶相對應的頻帶數(shù)(fbnr)。園點表示含有原始信號取樣的區(qū)域,條形段則代表噪聲被取代了的區(qū)域。陰影條形段表示對噪聲進行了分類的區(qū)域。
在分析器52中,采用感覺或心理-聲學模型來計算經(jīng)修改的輸入信號(I/P2(i))和原始信號(I/P1)之間的差異(質量下降)。如果該感覺差不超過某一標準值,則假設已經(jīng)用噪聲替換的9個間隔中的中間頻譜-時間間隔,即間隔n的頻帶i,可能確實被噪聲模型參數(shù)替換了。采用這樣的方式,逐個研究所有的頻譜-時間間隔,以對有關所有間隔的噪聲替換作出判斷。
人們已經(jīng)發(fā)現(xiàn),采用上述實施例,根據(jù)感知模型的結果,僅對9個替換間隔中的一個作出判斷,與一次僅測試和替換一個間隔相比,嚴格說來,有關噪聲替換的判斷更可靠。
在采用這種方法對所有的頻譜-時間間隔進行了評估以后,分析器52向圖1中的多路復用器(MUX)指出,對于間隔n中的哪些頻帶,可以進行噪聲替換。
應當指出,在本優(yōu)選實施例中,測試總是對原始信號進行的,僅對頻帶i中替換的噪聲進行測試,即,即使分析器52判斷可以對間隔n-1中的頻帶i-1進行替換,只有在測試間隔n中的頻帶i時才使用原始噪聲。
隨后,根據(jù)需要,并特別參照可以通過噪聲模型和子帶濾波器模型之間的切換所提供的位速率的節(jié)省,多路復用器從用于噪聲分析器NA的量化器18或用于子帶濾波器11的量化器14拾取待編碼的數(shù)據(jù)。
人們還將看到,選擇部件16’還可以與子帶濾波器11和噪聲分析器17中的一個或二者或者量化器14、18通信,按照需要將它們接入和斷開,以減少系統(tǒng)所進行的整個處理。然而,這會要求選擇部件在噪聲分析器17和子帶濾波器10的部件之前運行,并且會在編碼器中引入不希望的滯后。因此,在實施上述實施例時,需要針對處理開銷,對滯后進行平衡。
在上述第一特定優(yōu)選實施例中,分析器52中所采用的感知模型是基于下述模型的,參見T.Dau、D.Puschel和A.Kohlrausch的“Aquantitative model of the“effective”signal processing in theauditory system”(J.Acoust.Soc.Am.,Vol.99,3615-3631,June1996);以及T.Dau、B.Kol lmeier、A.Kohlrausch的“Modelling auditoryprocessing of amplitude modulation,I.Detection and masking withnarrow-band carriers”(J.Acoust.Soc.Am.,Vol.102,2892-2905,November 1997,圖3)。
在Dau模型中,首先通過聽覺濾波器組62發(fā)送輸入信號(I/P1或I/P2)。人們知道,人耳蝸中的基底膜上的每一處都具有特定的帶通濾波特性。因此,濾波器組62通過產生饋送到模型中下一級的多個(x個)經(jīng)帶通濾波的時域信號來對基底膜的頻率一位置變換模型化。(圖3中下一級中的每一級根據(jù)每一濾波器組輸出信號進行工作,而圖中僅示出對x個信號中的一個信號進行的處理。)下一步驟是毛細胞模型,它包含半波整流63、截止頻率為1kHz的低通濾波64以及對每一濾波信號進行的下取樣65。這里,近似將基底膜的機械振蕩變換成內毛細胞中的受體電位。下一級包含反饋環(huán)66,以考慮到聽神經(jīng)末梢周圍的自適應特性。
隨后,調制或線性濾波器組67對聽覺系統(tǒng)的時間圖進行處理。調制濾波器組包含分成兩組的總共y個濾波器,每一組采用不同的比例(scaling)。第一組包含的濾波器其帶寬為2.5Hz,而以后的濾波器上升至10Hz,并具有恒定的5Hz帶寬。第二組用于10到約1000Hz之間的頻率,取對數(shù)比例,其中比值Q=中心頻率/帶寬=2是常數(shù),總共具有y個濾波器。
在Dau模型中,調制濾波器組67提供時域調制譜。因此,產生這樣的調制譜的x*y矩陣來代表每一輸入信號。隨后,將內部噪聲68加到每一調制譜信號上,以對聽覺系統(tǒng)的極限性能分辯率模型化。
對于每一輸入信號,接著把每一矩陣表達式(表達式1和表達式2)70饋送到確定二表達式之間的差值(D)的檢測器69。可以將此量與一預定的閾值比較,以表示信號之間的差是否是可聽到的。
因此,Dau模型中每一矩陣單元是一個時間信號,即,對于每一聽覺濾波器以及每一后續(xù)的調制濾波器,有一個與從I/P2得到的模板相比較而從I/P1得到的時間信號,用以判斷某一測試信號(或失真)是否是可聽到的。
因此,如果直接將Dau模型應用于判斷噪聲替換是否是可聽到的問題,那么在判斷過程中可以使用信號的整個時間結構。所以,經(jīng)替換的噪聲標記的每一細節(jié)會引起預測失真。實際上,聽者不會感覺到噪聲信號的特定細節(jié)。換言之,可替換的噪聲的每一不同標記給出不同的內部表述。因此,一個特定替換噪聲標記由于原始(未修改的)信號而給出非常類似于某一內部表述的該內部表述的可能性是很小的。
另一方面,圖4示出基于優(yōu)選實施例的分析器52的經(jīng)修改的心理-聲學模型主要級。開始時,人們可以看到,未簡便起見,沒有采用圖3中的適應環(huán)(adaptation loop)66和噪聲加法器68。但是,如果需要,可以采用一個或兩個這樣的級。
但是,與基于時間的Dau解決方案不同的是,圖4所示的實施例是采用變換單元(FFT)71把毛細胞模型產生的時域信號變換成各頻域表述。隨后,在頻域中應用調制濾波器67’(作為加權函數(shù)),來產生用于x個原始信號中的每一個的多個調制譜。
更詳細地說,對于提供給變換單元71的x個時間信號中的每一個來說,為相應于約100毫秒的輸入信號的間隔,計算功率譜Rfnr(f)。通常,經(jīng)噪聲替換的部分(如果存在的話)處于該間隔的中間。為了轉換成調制譜(67’),定義加權函數(shù)Wmfnr,fnr(f),其中,‘mfnr’是加權函數(shù)下標(調制濾波器數(shù)),而‘fnr’則是來自濾波器組62的聽覺濾波器信道數(shù),并且Wmfnr,fnr(f)是頻率的函數(shù)。對于低頻,各濾波器67’的帶寬較小并且是常數(shù)(例如,10到15Hz),而當高于某一頻率時,濾波器的常數(shù)Q最好介于1和4之間。例如窗口函數(shù)的形狀可以是Hanning窗口形狀,或者是γ音濾波器的幅度轉移函數(shù)。在一種優(yōu)選結構中,最小的濾波器帶寬是50Hz,并且Q=2??梢钥吹?,最低頻率的加權函數(shù)中心在0Hz,因而僅覆蓋濾波波形的上半部(超過最大值的那些)。
對加權函數(shù)取平方,并與功率譜相乘,產生用作饋送到平均器70’的內部表述的一系列數(shù)值Pmfnr,fnr(f)。
為了進行描述,圖5和圖6中示出了分別提供作為濾波器組67’的輸入的復合諧音和高斯噪聲的功率譜(Rfnr(f))。圖9(a)和圖9(b)分別示出對于100Hz的基頻的復合諧音以及對于噪聲輸入信號,相應于圖5和圖6的輸入(R25)和濾波器組67’中一個濾波器(25,18)的調制譜輸出(P25,18)。兩個輸入信號都具有相等的譜密度和總電平。但是,很清楚,與噪聲信號相比,濾波器P25,18(f)的復合諧音具有更高的平均輸出電平。因此,相加值(M25,18)會不同。對于噪聲信號,M是0.0054,而對于復合諧音,M是0.0093,其差幾乎是兩倍。因此,對于某一矩陣值,M代表噪聲和復合諧音信號大不相同的表述,并且這表示可以采用這種模型對噪聲信號進行分類。
在如圖4所示的模型中,將每一調制譜的功率Pmfnr,fnr(f)相加(70’),以產生用于矩陣M中每一元素的值。采用這樣的方式,確定某一時間(9個幀)內取平均的每一調制解調器中的動作(M(fnr,mfnr))。該平均與噪聲信號的特定細節(jié)無關,它消除了采用上述Dau模型的問題。隨后,可以將用于一個信號的每一濾波器的動作與經(jīng)并行處理用以提供信號之間的差異的感覺測量D的另一信號的相應動作(M’)相比較D=ΣfnrΣmfnr(M-M′)2/M2]]>隨后,可以將D值與某一標準比較,以判斷是否允許進行噪聲替換。應當理解,該標準可以是與頻率相關的。例如,對于低頻,該標準可以更低,并且與聽覺濾波器的帶寬成正比;而對于高頻,該標準可以是恒定的。
如圖2所示,選擇部件16’或分析器52會要求在指令多路復用器(MUX)切換到噪聲模型之前,采用噪聲對大于連續(xù)個數(shù)間隔的大于閾值數(shù)量的相鄰頻帶模型化,因為只有當超過這些閾值時,才要求通過變換成噪聲模型來節(jié)省位速率。
實驗中,對幾段短固定音頻信號段(300毫秒),測試上述實施例。人們發(fā)現(xiàn),在替換了50%到80%的帶寬的聽力測試中,可以得到的音頻質量可以與對于單聲道音頻在96千比特/秒的位速率下MPEG 1層III時的情況相比擬。
在本發(fā)明的第一實施例中,對噪聲進行迭代替換和測試。對于每一種測試,將原始信號的模型輸出與經(jīng)修改的信號的模型(即采用替換的噪聲)輸出相比較。根據(jù)這一比較,判斷是否可以替換噪聲。但是,人們將會看到,這一方法計算繁瑣。
另一種方法是對猜測是噪聲替換的良好候選頻譜-時間間隔的特定時間間隔和特定聽覺濾波器(62,67’)(例如具有低能量級的間隔)作出直接的判斷。
這時,一個輸入信號(比方說是I/P2)包含合成的噪聲信號。隨后,將該信號的模型輸出(Rep2)直接與原始信號的模型輸出(Rep1)相比較,以提供差異測量(D)。人們將會看到,對于給定的頻譜-時間間隔,可以預先計算Rep2,從而減少該方法的計算強度。
當Rep1和Rep2之間的差異小于某一標準時,人們可以假設,在該特定的頻譜-時間間隔內,噪聲是可以替換的,因為很明顯,在該間隔內,輸入音頻信號與噪聲信號很相似(感覺上)。
人們將會看到,在第一實施例中,在判斷過程中考慮了屏蔽。這很有用,因為屏蔽了某一頻譜-時間間隔,可以用噪聲來替換,而不會有什么問題。在另一實施例中,可以直接看到,某一頻譜-時間間隔的修改是如何影響模型輸出的。為了能夠做到這一點,最好考慮采用其它信號分量可以將用于噪聲替換的候選頻譜-時間間隔屏蔽到什么程度。通過給出頻譜-時間間隔替換的可檢測性等級來考慮這一點,即,采用其它部件所屏蔽的程度。因此,例如,高功率信號中的低能量間隔具有低可檢測性等級。采用對于候選間隔獲得的可檢測性(det)和差異測量(D)的乘積,可以作為給出是否可以替換噪聲的良好指示符。
這種方法比起第一實施例方法要快得多,因為這僅需要通過將模型加上所得到的屏蔽性能(可以實現(xiàn)的某種性能而無需冗長的復雜計算)的一次(而不是多次)傳送原始輸入信號。
人們將會看到,本發(fā)明不是僅僅適用于MPEG編碼器,而是可以應用于任一一種編碼器,在該編碼器中,采用噪聲并采用某種其它的裝置來對參數(shù)進行編碼。現(xiàn)在參照圖7,在本發(fā)明的第二實施例中,在參數(shù)音頻編碼器80中采用經(jīng)改進的選擇部件16”,加強了噪聲和非噪聲頻譜-時間間隔之間的鑒別。這樣的參數(shù)編碼器的一個例子是音頻信號的正弦曲線,它非常適合于各種音調信號,如申請日為2002年7月8日、律師號為PHNL020598的歐洲專利申請02077727.2中所描述的那樣。在編碼器中,正弦曲線分析器82將序列段的輸入信號x(t)變換到頻域內,隨后,采用由幅度、頻率和可能的相位參數(shù)CS所代表的幾個正弦曲線,對每一段或每一幀模型化。當從輸入信號中去除了信號的合成正弦分量時,可以接著使剩余的信號包含噪聲,并且這是在噪聲分析器84中進行模型化的,以產生噪聲編碼CN。接著在位流AS中將正弦碼和噪聲碼CS、CN中的每一個編碼??梢员痪幋a的信號的其它分量可以包括瞬時信號和復合諧波(harmonic complexes),但為簡便起見,本文中不作描述。
本發(fā)明是采用如下編碼器來實現(xiàn)的首先通過缺省,對原始輸入信號x(t)進行編碼,以提供噪聲碼和正弦曲線碼CS(i)、CN(i)的組合,并且提供這些編碼段作為相應于圖2所示部件16’的選擇部件16”的輸入I/P1(0)。
隨后,對于給定段n中多個頻帶i中的每一個,正弦分析器82不對頻帶內的正弦分量進行編碼,從而由噪聲分析器84對(更大的)剩余信號進行編碼。隨后,將所產生的候選噪聲碼和正弦碼CS(i)、CN(i)提供到選擇部件16”的I/P2(i)。根據(jù)所產生的失真D,判斷哪一個候選碼組CS(i)、CN(i)按照位速率來說是最有效的,并且不具有超過預定閾值的失真。
下面參照圖8,如在第一實施例中所描述的那樣,對于每一輸入I/P1和IP2(i),采用單元42’中的各Hanning窗口,合成并組合多個段s1,s2和s’1(i),s’2(i)的碼,對于間隔t(n)提供時間窗口信號,作為感覺分析器52的輸入,其操作見有關第一實施例中的描述。因此,分析器52判斷,與只有噪聲(I/P2(i))的情況相比,采用正弦和噪聲(I/P1)的組合,在給定段中給定頻帶的模型化是否是可聽到的。隨后,由多路復用器15’來確定在段…s1,s2…上要采用哪一組碼1…i來提供最佳位速率對信號x(t)進行編碼。
如在第一實施例中那樣,與其針對經(jīng)噪聲替換型式的輸入信號來迭代測試每一間隔,還可以簡單地將輸入信號的候選頻譜時間間隔與同一間隔內噪聲信號的預計算表達型式進行比較,以判斷該候選間隔是否是噪聲。
不管是在哪一種情況下,這都意味著,對于參數(shù)編碼器,無需采用正弦或其它分量(如可能節(jié)省了位速率和可能提高了質量的復合諧波或瞬變現(xiàn)象)來表述對噪聲進行了分類的間隔,這是因為,噪聲間隔不會特別采用正弦波來表述。
讀者將會看到,尤其是在采用第二實施例的時候,指定的被噪聲替換了的音頻信號的頻譜-時間間隔內能量將與傳統(tǒng)模型化音頻信號的能量相等。
與上文中參照兩個實施例所描述的那樣,為了使噪聲替換能很好地工作,人們發(fā)現(xiàn),重要的是首先在更長的時間間隔內替換噪聲,以判斷是否允許進行替換。此后,僅對小得多的間隔,進行實際最終的替換。盡管可以這樣來實施本發(fā)明,但人們發(fā)現(xiàn),總體來說,如果僅在稍后用作最終替換的測試間隔對噪聲進行分類,會使分類不可靠。
但是,如果采用長時間測試間隔證明有問題,最好不采用這樣的長間隔進行分類,還可以采用廣譜間隔(短持續(xù)時間),僅在更窄的頻譜間隔內進行最后的替換。
權利要求
1.一種對輸入音頻信號(x(t))的頻譜-時間間隔進行分類的方法,包含按照一感知模型,對所述輸入音頻信號的所述頻譜-時間間隔進行第一模型化(62...71),以提供第一表述(Rep1);按照所述感知模型,采用經(jīng)修改的并且經(jīng)噪聲替換的輸入信號,對所述頻譜-時間間隔進行第二模型化(62...71),以提供第二表述(Rep2);和根據(jù)所述第一、第二表述的比較,將所述音頻信號的所述頻譜-時間間隔分類(52)成噪聲或者不是噪聲。
2.如權利要求1所述的方法,其中所述感知模型包含第一多個(x個)濾波器(62),每一個濾波器提供從用于第一多個頻帶中的每一個的所述輸入音頻信號而得到的各經(jīng)過帶通濾波的時域信號;整流器(63)和用于處理每一所述經(jīng)過帶通濾波的信號的低通濾波器(64);變換器(71),用以提供所述經(jīng)處理和經(jīng)濾波的信號的頻譜表述(Rfnr(f));以及第二多個(y個)濾波器(67’),每一個濾波器提供從用于第二多個頻帶中的每一個的每一所述變換信號而得到的經(jīng)帶通濾波的頻域信號(Pfnr,mfnr(f));其中,所述第一、第二表述中的每一個均包含經(jīng)濾波的頻域信息的x*y矩陣(M,M’)。
3.如權利要求2所述的方法,其中所述第一、第二表述中的每一個包含一個x*y矩陣,所述矩陣包括所述經(jīng)濾波的頻域信息的積分。
4.如權利要求1所述的方法,其中所述經(jīng)修改的并且經(jīng)噪聲替換的輸入信號包含所述輸入音頻信號的時間間隔(t(n)),其中,用噪聲模型化的信號來取代頻帶(i)。
5.如權利要求4所述的方法,包含下述步驟用噪聲模型化的信號來迭代取代所述輸入音頻信號的所述時間間隔(t(n))的頻帶(i),以提供一系列經(jīng)修改的輸入信號,每一經(jīng)修改的輸入信號對應于待分類的候選頻譜-時間間隔;對所述一系列經(jīng)修改的輸入信號進行迭代地模型化,以提供一系列第二表述;并且根據(jù)所述第一和所述一系列第二表述中的每一個的比較,迭代地對所述候選頻譜-時間間隔進行分類。
6.如權利要求1所述的方法,其中所述輸入音頻信號的所述頻譜-時間間隔包含用于所述輸入音頻信號的時間間隔的所選頻帶,并且其中所述經(jīng)修改的經(jīng)噪聲替換的輸入信號包含所述頻帶的噪聲模型化的信號。
7.如權利要求6所述的方法,其中所述第二模型化步驟僅執(zhí)行一次。
8.如權利要求6所述的方法,還包含下述步驟判斷所述選擇的頻帶的輸入信號中噪聲替換由其余的輸入音頻信號屏蔽到什么程度,并且其中,所述分類步驟(52)包含將所述音頻信號的所述頻譜-時間間隔分類為所述第一和第二表述的所述比較和所述屏蔽程度的函數(shù)。
9.一種對音頻信號進行編碼的方法,包含按照權利要求1中的步驟,將所述音頻信號的頻譜-時間信號分類(16’,16”)為噪聲或不是噪聲;采用噪聲模型參數(shù),對分類為噪聲的頻譜-時間間隔的至少一部分進行模型化(17,84);以及將所述噪聲模型參數(shù)編碼(15,15’)成位流(AS)。
10.如權利要求9所述的方法,其中所述部分的頻譜-時間間隔包含所述頻譜-時間間隔的時間子集。
11.如權利要求9所述的方法,其中所述部分的頻譜-時間間隔包含所述頻譜-時間間隔的頻譜子集。
12.如權利要求9所述的方法,其中所述頻譜時間間隔包含長度比所述位流中的基本間隔長度(s1,s2)更長的時間段。
13.一種對輸入音頻信號(x(t))的頻譜-時間間隔進行分類的部件,包含按照感知模型對所述輸入音頻信號的所述頻譜-時間間隔進行模型化(62...71)以提供第一表述(Rep1)的裝置;按照所述感知模型采用經(jīng)修改并且經(jīng)噪聲替換的輸入信號對所述頻譜-時間間隔進行模型化(62...71)以提供第二表述(Rep2)的裝置;以及根據(jù)所述第一、第二表述的比較而將所述音頻信號的所述頻譜-時間間隔分類(52)成噪聲或不是噪聲的裝置。
14.一種包括按照權利要求13的部件的編碼器,其中采用所述部件來判斷是否采用噪聲模型參數(shù)來對頻譜時間間隔進行編碼。
15.如權利要求14所述的編碼器,其中所述編碼器是正弦編碼器,或者是MPEG型編碼器。
全文摘要
本發(fā)明揭示了一種對輸入音頻信號(x(t))的頻譜-時間間隔進行分類的方法。首先按照感知模型對輸入音頻信號的頻譜-時間間隔模型化(62…71),以提供第一表述(Rep1)。隨后,按照同一感知模型,采用經(jīng)修改并且經(jīng)噪聲替換的輸入信號,對頻譜-時間間隔模型化(62…71),以提供第二表述(Rep2)。隨后根據(jù)第一、第二表述的比較,將頻譜-時間間隔分類為是噪聲或不是噪聲。
文檔編號G10L25/78GK1771533SQ03826549
公開日2006年5月10日 申請日期2003年5月27日 優(yōu)先權日2003年5月27日
發(fā)明者S·L·J·D·E·范德帕爾, J·J·斯科羅內克 申請人:皇家飛利浦電子股份有限公司