專利名稱:基于頻率子頻帶中的頻譜動態(tài)的音頻譯碼中的時間掩蔽的制作方法
技術(shù)領(lǐng)域:
本發(fā)明大體上涉及數(shù)字信號處理,且更具體地說,涉及用于對信號進行編碼及解碼以供存儲及/或通信的技術(shù)。
背景技術(shù):
在數(shù)字通信中,通常對信號進行編碼以供傳輸及對信號進行解碼以供接收。信號的編碼涉及將原始信號轉(zhuǎn)換成適于經(jīng)由傳輸媒體來傳播的格式。目標是保持原始信號的質(zhì)量,但消耗較少的媒體帶寬。信號的解碼涉及譯碼過程的反轉(zhuǎn)。
已知的譯碼方案使用脈沖碼調(diào)制(PCM)的技術(shù)。圖1展示可為(例如)語音信號的片段的時變信號x(t)。y軸及x軸分別表示信號振幅及時間。通過多個脈沖20來對模擬信號x(t)進行取樣。每一脈沖20具有在特定時間表示信號x(t)的振幅。此后可將所述脈沖20中的每一者的振幅編碼成數(shù)字值以供稍后傳輸。
為了節(jié)省帶寬,可在傳輸之前使用對數(shù)壓縮擴展過程來壓縮PCM脈沖20的數(shù)字值。在接收端處,接收器僅執(zhí)行上述譯碼過程的反轉(zhuǎn)以恢復原始時變信號x(t)的近似型式。采用前述方案的設(shè)備通常被稱作a法則或μ法則編解碼器。
隨著用戶數(shù)目增加,實際上更需要節(jié)省帶寬。舉例來說,在無線通信系統(tǒng)中,很多用戶經(jīng)常限于共享有限量的頻譜。通常在其他用戶間為每一用戶分配有限帶寬。因此,隨著用戶數(shù)目增加,進一步壓縮數(shù)字信息以便節(jié)省傳輸信道上可用的帶寬的需求也增加。
對于話音通信來說,通常使用語音編碼器來壓縮話音信號。在過去數(shù)十年中,語音編碼器的發(fā)展已取得了顯著進展。常用技術(shù)采用代碼激勵線性預測(CELP)的方法。CELP方法的細節(jié)可參見普倫蒂斯霍爾(Prentice Hall)出版社出版的拉賓納(Rabiner)及夏弗(Schafer)的標題為“對語音信號的數(shù)字處理(Digital Processing of SpeechSignals)”的出版物(ISBN0132136031,1978年9月);及威利-IEEE(Wiley-IEEE)出版社出版的戴樂(Deller)、普羅科斯(Proakis)及漢森(Hansen)的標題為“對語音信號的離散時間處理(Discrete-Time Processing of Speech Signals)”的出版物(ISBN0780353862,1999年9月)。下文中簡要地描述CELP方法所潛藏的基本原理。
參看圖1,使用CELP方法來代替?zhèn)€別地以數(shù)字方式編碼及傳輸每一PCM樣本20,可成群地編碼及傳輸PCM樣本20。舉例來說,首先將圖1中的時變信號x(t)的PCM脈沖20分割成多個幀22。每一幀22具有固定的持續(xù)時間,例如20ms。每一幀22內(nèi)的PCM樣本20經(jīng)由CELP方案而共同地編碼且此后進行傳輸。所述經(jīng)取樣脈沖的示范性幀為圖1所示的PCM脈沖群組22A到22C。
為簡單起見,僅采用三個PCM脈沖群組22A到22C來進行說明。在傳輸之前進行編碼期間,將PCM脈沖群組22A到22C的數(shù)字值連續(xù)地饋入到線性預測器(LP)模塊。所得輸出為一組頻率值,還稱為“LP濾波器”或簡稱為“濾波器”,其基本上表示脈沖群組22A到22C的頻譜含量。接著量化所述LP濾波器。
LP模塊產(chǎn)生PCM脈沖群組22A到22C的頻譜表示的近似。因此,在預測過程期間,引入誤差或殘值。將殘值映射到碼簿,所述碼簿含有可用于緊密匹配PCM脈沖群組22A到22C的經(jīng)編碼數(shù)字值的各種組合的條目。所述碼簿中的最適合值被映射。被映射的值為待傳輸?shù)闹?。整個過程被稱作時域線性預測(TDLP)。
因此,在電信中使用CELP方法,編碼器(未圖示)僅必須產(chǎn)生LP濾波器及被映射的碼簿值。傳輸器僅需要傳輸LP濾波器及所映像的碼簿值來代替如在上述a法則及μ法則編碼器中傳輸經(jīng)個別編碼的PCM脈沖值。因此,可節(jié)省大量的通信信道帶寬。
在接收器端上,其也具有類似于傳輸器中的碼簿的碼簿。接收器中的解碼器(未圖示)依賴于相同碼簿而僅必須反轉(zhuǎn)如上述的譯碼過程。連同接收到的LP濾波器,可恢復時變信號x(t)。
迄今,許多已知語音譯碼方案(例如上述CELP方案)是基于正被編碼的信號為短時靜態(tài)的假定。也就是說,所述方案是基于經(jīng)編碼幀的頻率含量為靜態(tài)且可由簡單(全極點)濾波器及在激勵所述濾波器中的一些輸入表示來近似的前提。在得出上述碼簿的過程中,各種TDLP算法是基于此種模型的。然而,個體之間的話音模式可能非常不同。非語音音頻信號(例如,發(fā)自各種樂器的聲音)也明顯不同于語音信號。此外,在上述的CELP過程中,為了加快實時信號處理,通常選擇短時幀。更具體地說,如圖1所示,為了在將PCM脈沖群組(例如,22A到22C)的值映射到碼簿中的對應(yīng)向量條目的過程中減少算法延遲,界定短時窗22,例如,如圖1所示為20毫秒。然而,從每一幀導出的頻譜或共振峰信息多半為共同的且可在其它幀之間共享。因此,以未對帶寬節(jié)省最有利的方式通過通信信道或多或少地重復發(fā)送共振峰信息。
作為優(yōu)于TLDP算法的改進,已開發(fā)出頻域線性預測(FDLP)方案以改進對信號質(zhì)量的保持,不僅可應(yīng)用于人類語音,而且也可應(yīng)用于多種其它聲音,且另外,更有效地利用通信信道帶寬。FDLP基本上為TLDP的頻域類似物;然而,在與TLDP相比時,F(xiàn)DLP編碼及解碼方案能夠處理長得多的時間幀。類似于TLDP如何使全極點模型配合輸入信號的功率譜,F(xiàn)DLP使全極點模型配合輸入信號的平方希爾伯特(Hilbert)包絡(luò)。雖然FDLP代表了音頻及語音編碼技術(shù)的顯著進步,但仍需要改進FDLP編解碼器的壓縮效率。
發(fā)明內(nèi)容
本文揭示一種用于FDLP音頻譯碼及解碼的新的且改進的方法。本文所揭示的技術(shù)將時間掩蔽應(yīng)用于由FDLP譯碼方案產(chǎn)生的所估計希爾伯特載波。時間掩蔽是人類聽覺系統(tǒng)的特性,其中在強烈的瞬時時間信號之后高達100到200ms內(nèi)出現(xiàn)的聲音歸因于此強烈的時間分量而被聽覺系統(tǒng)掩蔽。已發(fā)現(xiàn),在FDLP編解碼器中模型化人耳的時間掩蔽特性改進了編解碼器的壓縮效率。
根據(jù)本文所揭示的方法的一方面,一種對信號進行編碼的方法包括提供對所述信號的頻率變換;將頻域線性預測(FDLP)方案應(yīng)用于所述頻率變換以產(chǎn)生載波;確定時間掩蔽閾值;及基于所述時間掩蔽閾值來量化所述載波。
根據(jù)所述方法的另一方面,一種用于對信號進行編碼的系統(tǒng)包括頻率變換組件,其經(jīng)配置以產(chǎn)生所述信號的頻率變換;FDLP組件,其經(jīng)配置以響應(yīng)于所述頻率變換而產(chǎn)生載波;時間掩模,其經(jīng)配置以確定時間掩蔽閾值;及量化器,其經(jīng)配置以基于所述時間掩蔽閾值來量化所述載波。
根據(jù)所述方法的另一方面,一種用于對信號進行編碼的系統(tǒng)包括用于提供對所述信號的頻率變換的裝置;用于將FDLP方案應(yīng)用于所述頻率變換以產(chǎn)生載波的裝置;用于確定時間掩蔽閾值的裝置;及用于基于所述時間掩蔽閾值來量化所述載波的裝置。
根據(jù)所述方法的另一方面,一種包含有可由一個或一個以上處理器執(zhí)行的一組指令的計算機可讀媒體包括用于提供對信號的頻率變換的代碼;用于將FDLP方案應(yīng)用于所述頻率變換以產(chǎn)生載波的代碼;用于確定時間掩蔽閾值的代碼;及用于基于所述時間掩蔽閾值來量化所述載波的代碼。
根據(jù)所述方法的另一方面,一種對信號進行解碼的方法包括提供根據(jù)時間掩蔽閾值確定的量化信息;基于所述量化信息來逆量化所述信號的一部分以恢復載波;及將逆FDLP方案應(yīng)用于所述載波以恢復經(jīng)重構(gòu)信號的頻率變換。
根據(jù)所述方法的另一方面,一種用于對信號進行解碼的系統(tǒng)包括解包化器,其經(jīng)配置以提供根據(jù)時間掩蔽閾值確定的量化信息;逆量化器,其經(jīng)配置以基于所述量化信息來逆量化所述信號的一部分以恢復載波;及逆FDLP組件,其經(jīng)配置以響應(yīng)于所述載波而輸出經(jīng)重構(gòu)信號的頻率變換。
根據(jù)所述方法的另一方面,一種用于對信號進行解碼的系統(tǒng)包括用于提供根據(jù)時間掩蔽閾值確定的量化信息的裝置;用于基于所述量化信息來逆量化所述信號的一部分以恢復載波的裝置;及用于將逆FDLP方案應(yīng)用于所述載波以恢復經(jīng)重構(gòu)信號的頻率變換的裝置。
根據(jù)所述方法的另一方面,一種包含有可由一個或一個以上處理器執(zhí)行的一組指令的計算機可讀媒體包括用于提供根據(jù)時間掩蔽閾值確定的量化信息的代碼;用于基于所述量化信息來逆量化所述信號的一部分以恢復載波的代碼;及用于將逆FDLP方案應(yīng)用于所述載波以恢復經(jīng)重構(gòu)信號的頻率變換的代碼。
根據(jù)所述方法的另一方面,一種確定時間掩蔽閾值的方法包括提供人類聽覺系統(tǒng)的一階掩蔽模型;通過將校正因子應(yīng)用于所述一階掩蔽模型來確定所述時間掩蔽閾值;及在編解碼器中提供所述時間掩蔽閾值。
根據(jù)所述方法的另一方面,一種用于確定時間掩蔽閾值的系統(tǒng)包括模型器,其經(jīng)配置以提供人類聽覺系統(tǒng)的一階掩蔽模型;處理器,其經(jīng)配置以通過將校正因子應(yīng)用于所述一階掩蔽模型來確定所述時間掩蔽閾值;及時間掩模,其經(jīng)配置以在編解碼器中提供所述時間掩蔽閾值。
根據(jù)所述方法的另一方面,一種用于確定時間掩蔽閾值的系統(tǒng)包括用于提供人類聽覺系統(tǒng)的一階掩蔽模型的裝置;用于通過將校正因子應(yīng)用于所述一階掩蔽模型來確定所述時間掩蔽閾值的裝置;及用于在編解碼器中提供所述時間掩蔽閾值的裝置。
根據(jù)所述方法的另一方面,一種包含有可由一個或一個以上處理器執(zhí)行的一組指令的計算機可讀媒體包括用于提供人類聽覺系統(tǒng)的一階掩蔽模型的代碼;用于通過將校正因子應(yīng)用于所述一階掩蔽模型來確定所述時間掩蔽閾值的代碼;及用于在編解碼器中提供所述時間掩蔽閾值的代碼。
所屬領(lǐng)域的技術(shù)人員在查看完以下圖式及詳細描述后將明了音頻譯碼技術(shù)的其它方面、特征、實施例及優(yōu)點。希望所有此類額外特征、實施例、過程及優(yōu)點包括于此描述內(nèi)且受所附權(quán)利要求書保護。
應(yīng)理解,圖式僅用于說明目的。此外,各圖中的組件未必按比例繪制,而是將著重點放在說明所揭示的音頻譯碼技術(shù)的原理上。在各圖中,相同參考標號在不同視圖中始終表示對應(yīng)部分。
圖1展示經(jīng)取樣為離散信號的時變信號的圖形表示。
圖2為說明用于對信號進行編碼及解碼的數(shù)字系統(tǒng)的一般化框圖。
圖3為說明可包括于圖2的系統(tǒng)中的使用時間掩蔽的FDLP數(shù)字編碼器的某些組件的概念框圖。
圖4為說明圖3所示的QMF分析組件的細節(jié)的概念框圖。
圖5為說明可包括于圖2的系統(tǒng)中的FDLP數(shù)字解碼器的某些組件的概念框圖。
圖6為說明由圖1的數(shù)字系統(tǒng)對音調(diào)性及非音調(diào)性信號進行處理的過程流程圖。
圖7A到圖7B為說明使用采用時間掩蔽的FDLP譯碼方案來對信號進行編碼的方法的流程圖。
圖8為說明使用FDLP解碼方案來對信號進行解碼的方法的流程圖。
圖9為說明確定時間掩蔽閾值的方法的流程圖。
圖10為人耳的絕對聽力閾值的圖形表示。
圖11為展示以dB SPL為單位的示范性子頻帶幀信號及其對應(yīng)時間掩蔽閾值與經(jīng)調(diào)整的時間掩蔽閾值的圖表。
圖12為分割成多個幀的時變信號的圖形表示。
圖13為時變信號在一幀的持續(xù)時間內(nèi)的離散信號表示的圖形表示。
圖14為說明在FDLP譯碼過程中估計希爾伯特包絡(luò)的方法的流程圖。
具體實施例方式 以下詳細描述(其參看且并入有圖式)描述及說明一個或一個以上特定實施例。充分詳細地展示及描述這些實施例以使得所屬領(lǐng)域的技術(shù)人員能夠?qū)嵺`所主張的內(nèi)容,所述實施例并非經(jīng)提供以進行限制而是僅為了進行例示及教示。因此,為簡短起見,所述描述可能省略所屬領(lǐng)域的技術(shù)人員已知的某些信息。
詞“示范性”在本文中用于意指“充當實例、例子或說明”。本文中描述為“示范性”的任何實施例或變型不必被解釋為比其它實施例或變型優(yōu)選或有利。此描述中所描述的所有實施例及變型為經(jīng)提供以使得所屬領(lǐng)域的技術(shù)人員能夠制造及使用本發(fā)明且未必限制所附權(quán)利要求書所給予的法律保護范圍的示范性實施例及變型。
在本說明書及所附權(quán)利要求書中,除非特定指出,否則在適當時,廣義地理解術(shù)語“信號”。因此,術(shù)語“信號”包括連續(xù)及離散信號,且進一步包括頻域及時域信號。另外,術(shù)語“頻率變換”與“頻域變換”可互換地使用。同樣,術(shù)語“時間變換”與“時域變換”可互換地使用。
本發(fā)明揭示一種基于模型化頻譜動態(tài)的新穎且非明顯的音頻譯碼技術(shù)。簡要地說,采用對輸入音頻信號的頻率分解來獲得密切遵循臨界分解的多個頻率子頻帶。因此,在每一子頻帶中,預先計算所謂的分析信號且使用離散傅立葉變換(DFT)來變換所述分析信號的平方量值,且接著應(yīng)用線性預測,從而針對所述子頻帶中的每一者產(chǎn)生希爾伯特包絡(luò)及希爾伯特載波。因為采用了頻率分量的線性預測,所以所述技術(shù)被稱作頻域線性預測(FDLP)。所述希爾伯特包絡(luò)及所述希爾伯特載波類似于時域線性預測(TDLP)技術(shù)中的頻譜包絡(luò)及激勵信號。下文中進一步詳細地揭示一種用以改進FDLP編解碼器的壓縮效率的時間掩蔽技術(shù)。具體地說,將前向掩蔽的概念應(yīng)用于子頻帶希爾伯特載波信號的編碼。通過這樣做,可大致上降低FDLP編解碼器的位速率而不會使信號質(zhì)量顯著地降級。
更具體地說,所述FDLP譯碼方案是基于處理長(幾百毫秒)時間片段。使用QMF分析來將全頻帶輸入信號分解成子頻帶。在每一子頻帶中,應(yīng)用FDLP且量化表示子頻帶希爾伯特包絡(luò)的線譜頻率(LSF)。使用DFT來處理殘留物(子頻帶載波)且量化對應(yīng)頻譜參數(shù)。在解碼器中,重構(gòu)子頻帶載波的頻譜分量且使用逆DFT將其變換到時域中。使用經(jīng)重構(gòu)的FDLP包絡(luò)(來自LSF參數(shù))來調(diào)制對應(yīng)子頻帶載波。最后,應(yīng)用逆QMF塊來從頻率子頻帶重構(gòu)全頻帶信號。
現(xiàn)轉(zhuǎn)向圖式且明確地說轉(zhuǎn)向圖2,其為說明用于對信號進行編碼及解碼的數(shù)字系統(tǒng)30的一般化框圖。系統(tǒng)30包括編碼部分32及解碼部分34。數(shù)據(jù)處置器36安置于部分32與解碼器34之間。數(shù)據(jù)處置器36的實例可為數(shù)據(jù)存儲裝置及/或通信信道。
在編碼部分32中,存在連接到數(shù)據(jù)包化器40的編碼器38。編碼器38實施如本文所述的用于對輸入信號進行編碼的FDLP技術(shù)。包化器40格式化及包封經(jīng)編碼的輸入信號及其它信息以供通過數(shù)據(jù)處置器36輸送。時變輸入信號x(t)在通過編碼器38及數(shù)據(jù)包化器40處理之后被引導到數(shù)據(jù)處置器36。
以稍微類似的方式但以相反的次序,在解碼部分34中,存在耦合到數(shù)據(jù)解包化器44的解碼器42。將來自數(shù)據(jù)處置器36的數(shù)據(jù)饋入到數(shù)據(jù)解包化器44,數(shù)據(jù)解包化器44又將所述經(jīng)解包化的數(shù)據(jù)發(fā)送到解碼器42以供重構(gòu)原始時變信號x(t)。經(jīng)重構(gòu)的信號由x′(t)表示。解包化器44從傳入數(shù)據(jù)包提取經(jīng)編碼的輸入信號及其它信息。解碼器42實施如本文所述的用于對經(jīng)編碼的輸入信號進行解碼的FDLP技術(shù)。
圖3為說明可包括于圖2的系統(tǒng)30中的使用時間掩蔽的示范性FDLP型編碼器38的某些組件的概念框圖。編碼器38包括正交鏡像濾波器(QMF)302、音調(diào)性檢測器304、時域線性預測(TDLP)濾波器306、頻域線性預測(FDLP)組件308、離散傅立葉變換(DFT)組件310、第一分裂向量量化器(VQ)312、第二分裂向量量化器(VQ)316、標量量化器318、相位位分配器320及時間掩模314。編碼器38接收時變的連續(xù)輸入信號x(t),其可為音頻信號。所述時變輸入信號經(jīng)取樣為離散輸入信號。接著由上述組件302到320來處理所述離散輸入信號以產(chǎn)生編碼器輸出。編碼器38的輸出由數(shù)據(jù)包化器40包化且操縱成適于經(jīng)由通信信道或其它數(shù)據(jù)輸送媒體輸送到接收者(例如,包括解碼部分34的裝置)的格式。
QMF 302對所述離散輸入信號執(zhí)行QMF分析。本質(zhì)上,所述QMF分析將所述離散輸入信號分解成三十二個非均一的臨界取樣的子頻帶。為此目的,首先使用均一QMF分解來將所述輸入音頻信號分解成六十四個均一子頻帶。接著將所述六十四個均一QMF子頻帶合并以獲得三十二個非均一子頻帶。基于產(chǎn)生所述六十四個子頻帶的均一QMF分解的FDLP編解碼器可在約130kbps下操作。QMF濾波器組可以樹狀結(jié)構(gòu)(例如,六級二元樹)來實施。所述合并等效于捆扎二元樹中的位于特定級處的一些分支以形成非均一頻帶。此捆扎可遵循人類聽覺系統(tǒng),即,較高頻率的頻帶比較低頻率的頻帶更多地合并在一起,因為人耳通常對較低頻率更敏感。具體地說,所述子頻帶在低頻率端處比在高頻率端處窄。此布置是基于以下發(fā)現(xiàn)哺乳動物的聽覺系統(tǒng)的感覺生理學與音頻頻率頻譜的低端處的較窄頻率范圍比與高端處的較寬頻率范圍更相合。圖4中展示由六十四個子頻帶到三十二個子頻帶的示范性合并產(chǎn)生的極好重構(gòu)非均一QMF分解的圖形示意圖。
將從QMF 302輸出的三十二個子頻帶中的每一者提供到音調(diào)性檢測器304。所述音調(diào)性檢測器應(yīng)用頻譜噪聲整型(SNS)技術(shù)來克服頻譜前回聲。頻譜前回聲為在使用FDLP編解碼器來對音調(diào)性信號進行編碼時所出現(xiàn)的一類不合需要的音頻假象。如所屬領(lǐng)域的技術(shù)人員所理解的,音調(diào)性信號為在頻域中具有強烈脈沖的信號。在FDLP編解碼器中,音調(diào)性子頻帶信號可引起對在所述音調(diào)周圍的頻率上擴展的FDLP載波的量化的誤差。在由FDLP解碼器輸出的經(jīng)重構(gòu)音頻信號中,這看起來如同隨著幀持續(xù)時間的周期出現(xiàn)的音頻成幀假象。此問題被稱作頻譜前回聲。
為了減少或消除頻譜前回聲的問題,音調(diào)性檢測器304在每一子頻帶信號由FDLP組件308處理之前檢查每一子頻帶信號。如果子頻帶信號被識別為音調(diào)性的,則使其通過TDLP濾波器306。如果不是,則在不進行TDLP濾波的情況下將所述非音調(diào)性子頻帶信號傳遞到FDLP組件308。
由于音調(diào)性信號在時域中為高度可預測的,因此音調(diào)性子頻帶信號的時域線性預測的殘留物(TDLP濾波器輸出)具有可由FDLP組件308有效模型化的頻率特性。因此,對于音調(diào)性子頻帶信號來說,經(jīng)FDLP編碼的子頻帶信號連同所述子頻帶的TDLP濾波器參數(shù)(LPC系數(shù))一起從編碼器38輸出。在接收器處,對經(jīng)FDLP解碼的子頻帶信號應(yīng)用逆TDLP濾波,其使用所輸送的LPC系數(shù),以重構(gòu)所述子頻帶信號。下文中結(jié)合圖5及圖8來描述解碼過程的進一步細節(jié)。
FDLP組件308依次地處理每一子頻帶。具體地說,在頻域中預測所述子頻帶信號,且所述預測系數(shù)形成希爾伯特包絡(luò)。所述預測的殘留物形成希爾伯特載波信號。FDLP組件308將傳入子頻帶信號分裂成兩個部分由希爾伯特包絡(luò)系數(shù)表示的近似部分以及由希爾伯特載波表示的近似誤差。在線譜頻率(LSF)域中由FDLP組件308來量化所述希爾伯特包絡(luò)。將所述希爾伯特載波傳遞到DFT組件310,在DFT組件310處將其編碼到DFT域中。
線譜頻率(LSF)對應(yīng)于所述希爾伯特載波的自回歸(AR)模型且根據(jù)FDLP系數(shù)來計算。所述LSF為由第一分裂VQ 312量化的向量。40階全極點模型可由所述第一分裂VQ 312用于執(zhí)行分裂量化。
DFT組件310從FDLP組件308接收所述希爾伯特載波且針對每一子頻帶希爾伯特載波輸出DFT量值信號及DFT相位信號。所述DFT量值及相位信號表示所述希爾伯特載波的頻譜分量。將所述DFT量值信號提供到第二分裂VQ 316,其執(zhí)行對量值頻譜分量的向量量化。由于全搜索VQ可能會在計算上為不可行的,所以采用分裂VQ方法來量化所述量值頻譜分量。所述分裂VQ方法將計算復雜性及存儲器要求降低到易管理的極限而不會嚴重地影響VQ性能。為了執(zhí)行分裂VQ,將頻譜量值的向量空間劃分成較低尺寸的單獨分區(qū)??缭剿蓄l率子頻帶使用林德-布佐-格雷(Linde-Buzo-Gray)(LBG)算法來針對每一分區(qū)來訓練VQ碼簿(在大音頻數(shù)據(jù)庫上)。低于4kHz的頻帶具有較高分辨率的VQ碼簿,即,與較高頻率子頻帶相比將更多位分配給較低子頻帶。
標量量化器318執(zhí)行對應(yīng)于子頻帶的希爾伯特載波的DFT相位信號的非均一標量量化(SQ)。大體上,DFT相位分量在時間上為非相關(guān)的。所述DFT相位分量具有接近于均一的分布,且因此具有高熵。為了防止表示DFT相位系數(shù)需要消耗過多位,使用較低分辨率的SQ來傳輸對應(yīng)于相對較低DFT量值頻譜分量的那些內(nèi)容,即,在標量量化器318中通過自適應(yīng)性定閾值來處理選自DFT量值碼簿的碼簿向量。所述閾值比較由相位位分配器320來執(zhí)行。使用高分辨率SQ來僅傳輸對應(yīng)DFT量值高于預定義閾值的DFT頻譜相位分量。動態(tài)地調(diào)適閾值以滿足編碼器38的指定位速率。
將時間掩模314應(yīng)用于DFT相位及量值信號以自適應(yīng)地量化這些信號。時間掩模314允許在某些情況下通過減少表示DFT相位及量值信號所需要的位的數(shù)目而進一步壓縮音頻信號。時間掩模314包括大體上界定在譯碼過程中允許的最大噪聲電平以使得音頻對于用戶來說保持為感知上可接受的一個或一個以上閾值。對于由編碼器38處理的每一子頻帶幀,確定由編碼器38引入到音頻中的量化噪聲且將其與時間掩蔽閾值進行比較。如果所述量化噪聲小于所述時間掩蔽閾值,則減少DFT相位及量值信號的量化電平的數(shù)目(即,用于表示所述信號的位的數(shù)目),進而增加編碼器38的量化噪聲電平使其接近或等于由時間掩模314指示的噪聲電平。在示范性編碼器38中,特定地使用時間掩模314來控制對于對應(yīng)于每一子頻帶希爾伯特載波的DFT量值及相位信號的位分配。
可用以下特定方式來應(yīng)用時間掩模314。針對每一子頻帶子幀執(zhí)行基線編解碼器(無時間掩蔽的編解碼器型式)中所存在的平均量化噪聲的估計。所述基線編解碼器的量化噪聲可能通過量化DFT信號分量(即,從DFT組件310輸出的DFT量值及相位信號)而引入且優(yōu)選地從這些信號測量。子頻帶子幀的持續(xù)時間可為200毫秒。如果給定子頻帶子幀中的量化噪聲的平均值高于時間掩蔽閾值(例如,時間掩模的平均值),則不將位速率減少應(yīng)用于所述子頻帶幀的DFT量值及相位信號。如果時間掩模的平均值高于所述量化噪聲平均值,則使對所述子頻帶幀的DFT量值及相位信號進行編碼所需要的位(即,用于DFT量值的分裂VQ位及用于DFT相位的SQ位)的量減少某一量,使得所述量化噪聲電平接近或等于由時間掩模314給出的最大容許閾值。
基于基線編解碼器量化噪聲與所述時間掩蔽閾值之間的以dB聲壓級(SPL)為單位的差值來確定位速率減少的量。如果所述差值較大,則所述位速率減少較大。如果所述差值較小,則所述位速率減少較小。
時間掩模314配置所述第二分裂VQ 316及SQ 318以自適應(yīng)地實現(xiàn)DFT相位及量值參數(shù)的基于掩模的量化。如果在給定子頻帶子幀內(nèi)時間掩模的平均值高于噪聲平均值,則對所述子頻帶子幀進行編碼所需要的位(用于DFT量值參數(shù)的分裂VQ位及用于DFT相位參數(shù)的標量量化位)的量以使給定子幀(例如,200毫秒)中的噪聲電平可變得等于(平均地)由時間掩模給出的容許閾值(例如,平均值、中值、均方根)的方式來減少。在本文所揭示的示范性編碼器38中,八個不同的量化為可用的,使得位速率減少處于八個不同級(其中一個級對應(yīng)于無位速率減少)。
將關(guān)于DFT量值及相位信號的時間掩蔽量化的信息輸送到解碼部分34,使得其在解碼過程中可用于重構(gòu)音頻信號。將每一子頻帶子幀的位速率減少的級作為輔助信息連同經(jīng)編碼的音頻一起輸送到解碼部分34。
圖4為說明圖3中的QMF 302的細節(jié)的概念框圖。QMF 302使用經(jīng)配置以遵循人耳的聽覺反應(yīng)的QMF分析來將全頻帶離散輸入信號(例如,在48kHz下取樣的音頻信號)分解成三十二個非均一的臨界取樣的頻率子頻帶。QMF 302包括具有六個級402到416的濾波器組。為了簡化圖4,子頻帶1到16的最后四個級大體上由16信道QMF 418表示,且子頻帶17到24的最后三個級大體上由8信道QMF 420表示。QMF 302的每一級處的每一分支包括低通濾波器H0(z)404或高通濾波器H1(z)405。每一濾波器之后是經(jīng)配置以用因子2來對經(jīng)濾波信號進行分樣的分樣器↓2406。
圖5為說明可包括于圖2的系統(tǒng)30中的FDLP型解碼器42的某些組件的概念框圖。數(shù)據(jù)解包化器44對從數(shù)據(jù)處置器36接收到的包中所含有的數(shù)據(jù)及信息進行解包封,且接著將所述數(shù)據(jù)及信息傳遞到編碼器42。所述信息至少包括用于每一子頻帶幀的音調(diào)性旗標及用于每一子頻帶子幀的時間掩蔽量化值。
解碼器42的組件本質(zhì)上執(zhí)行編碼器38中所包括的那些操作的逆操作。解碼器42包括第一逆向量量化器(VQ)504、第二逆VQ 506及逆標量量化器(SQ)508。所述第一逆分裂VQ 504接收表示希爾伯特包絡(luò)的經(jīng)編碼數(shù)據(jù),且所述第二逆分裂VQ 506及逆SQ 508接收表示希爾伯特載波的經(jīng)編碼數(shù)據(jù)。解碼器42還包括逆DFT組件510及逆FDLP組件512、音調(diào)性選擇器514、逆TDLP濾波器516及合成QMF 518。
針對每一子頻帶,由第一逆分裂VQ 504來逆量化對應(yīng)于希爾伯特包絡(luò)的LSF的所接收向量量化索引。從通過第二逆分裂VQ 506逆量化的向量量化索引來重構(gòu)DFT量值參數(shù)。從通過逆SQ 508逆量化的標量值來重構(gòu)DFT相位參數(shù)。通過第二逆分裂VQ 506及逆SQ 508來應(yīng)用時間掩蔽量化值。逆DFT組件510響應(yīng)于第二逆分裂VQ 506及逆SQ 508的輸出而產(chǎn)生子頻帶希爾伯特載波。逆FDLP組件512使用經(jīng)重構(gòu)的希爾伯特包絡(luò)來調(diào)制子頻帶希爾伯特載波。
將所述音調(diào)性旗標提供到音調(diào)性選擇器514,以便允許選擇器514確定是否應(yīng)應(yīng)用逆TDLP濾波。如果如由從編碼器38傳輸?shù)钠鞓怂甘?,所述子頻帶信號為音調(diào)性的,則將所述子頻帶信號發(fā)送到逆TDLP濾波器516以供在QMF合成之前進行逆TDLP濾波。如果不是,則所述子頻帶信號繞過所述逆TDLP濾波器516而到達合成QMF 518。
合成QMF 518執(zhí)行編碼器38的QMF 302的逆操作。使用QMF合成來將所有子頻帶合并以獲得全頻帶信號。使用適當D/A轉(zhuǎn)換技術(shù)來將離散全頻帶信號轉(zhuǎn)換成連續(xù)信號以獲得經(jīng)重構(gòu)的時變連續(xù)信號x′(t)。
圖6為說明由圖1的數(shù)字系統(tǒng)30對音調(diào)性及非音調(diào)性信號進行處理的過程流程圖600。對于從QMF 302輸出的每一子頻帶信號,音調(diào)性檢測器304確定所述子頻帶信號是否為音調(diào)性的。如上文結(jié)合圖3所論述的,音調(diào)性信號為在頻域中具有強烈脈沖的信號。因此,音調(diào)性檢測器314可將頻域變換(例如,DFT)應(yīng)用于每一子頻帶信號以確定其頻率分量。音調(diào)性檢測器314接著確定所述子頻帶的諧波含量,且如果所述諧波含量超過預定閾值,則將所述子頻帶斷言為音調(diào)性的。接著將音調(diào)性時域子頻帶信號提供到TDLP濾波器306且在其中進行處理,如上文結(jié)合圖3所描述。將TDLP濾波器306的輸出提供到FDLP編解碼器602,F(xiàn)DLP編解碼器602可包括解碼器38的組件308到320及解碼器42的組件504到516。將FDLP編解碼器602的輸出提供到逆TDLP濾波器516,逆TDLP濾波器516又產(chǎn)生經(jīng)重構(gòu)的子頻帶信號。
非音調(diào)性子頻帶信號繞過TDLP濾波器306而直接提供到FDLP編解碼器602;且FDLP編解碼器602的輸出表示所述經(jīng)重構(gòu)的子頻帶信號,而未由逆TDLP濾波器516進行任何進一步濾波。
圖7A到圖7B為說明使用采用時間掩蔽的FDLP譯碼方案來對信號進行編碼的方法的流程圖700。在步驟702中,將時變輸入信號x(t)取樣為離散輸入信號x(n)。所述時變信號x(t)是(例如)經(jīng)由脈沖碼調(diào)制(PCM)過程來取樣的。信號x(t)的離散型式由x(n)表示。
接下來,在步驟704中,將所述離散輸入信號x(n)分割成幀。時變信號x(t)的一個此類幀由如圖12所示的參考標號460來表示。每一幀優(yōu)選地包括表示輸入信號x(t)的1000毫秒的離散樣本。選定幀460內(nèi)的時變信號在圖12中被標示為s(t)。在圖13中突出顯示及復制連續(xù)信號s(t)。應(yīng)注意,圖13中所示的信號片段s(t)具有與如圖12中所說明的相同信號片段s(t)相比更狹長的時標。也就是說,圖13中的x軸的時標與圖12的對應(yīng)x軸標度相比顯著地伸展開。
信號s(t)的離散型式由s(n)表示,其中n為索引樣本編號的整數(shù)。時間連續(xù)信號s(t)通過以下代數(shù)表達式而與離散信號s(n)相關(guān) s(t)=s(nτ)(1) 其中τ為如圖13所示的取樣周期。
在步驟706中,將每一幀分解成多個頻率子頻帶??蓪MF分析應(yīng)用于每一幀以產(chǎn)生所述子頻帶幀。每一子頻帶幀表示所述輸入信號在一幀的持續(xù)時間內(nèi)的預定帶寬切片。
在步驟708中,針對每一子頻帶幀做出其是否為音調(diào)性的確定。這可由音調(diào)性檢測器來執(zhí)行,例如上文結(jié)合圖3及圖6描述的音調(diào)性檢測器314。如果子頻帶幀為音調(diào)性的,則將TDLP濾波應(yīng)用于所述子頻帶幀(步驟710)。如果所述子頻帶幀為非音調(diào)性的,則不將TDLP濾波應(yīng)用于所述子頻帶幀。
在步驟712中,每一子頻帶幀內(nèi)的經(jīng)取樣的信號或TDLP殘留物(如果所述信號為音調(diào)性的)經(jīng)受頻率變換以針對所述子頻帶幀獲得頻域信號。將所述子頻帶經(jīng)取樣信號表示成針對第k個子頻帶為sk(n)。在本文所揭示的示范性解碼器38中,k為1與32之間的整數(shù),且優(yōu)選地采用離散傅立葉變換(DFT)的方法來進行頻率變換。sk(n)的DFT可表達為
其中sk(n)如上文所定義的,
表示DFT運算,f為所述子頻帶內(nèi)的離散頻率(0≤f≤N),Tk為sk(n)的N個脈沖的N個經(jīng)變換值的線性陣列,且N為整數(shù)。
在此時,其有助于偏離到定義及區(qū)別各種頻域及時域項。第k個子頻帶sk(n)中的離散時域信號可通過其對應(yīng)頻率對應(yīng)物Tk(f)的逆離散傅立葉變換(IDFT)來獲得。第k個子頻帶sk(n)中的時域信號本質(zhì)上由兩個部分組成,即時域希爾伯特包絡(luò)hk(n)及希爾伯特載波ck(n)。以另一方式敘述,用希爾伯特包絡(luò)hk(n)來調(diào)制希爾伯特載波ck(n)將導致產(chǎn)生第k個子頻帶sk(n)中的時域信號。在代數(shù)學上,其可表達如下 因此,根據(jù)等式(3),如果時域希爾伯特包絡(luò)hk(n)及希爾伯特載波ck(n)為已知的,則可重構(gòu)第k個子頻帶sk(n)中的時域信號。經(jīng)重構(gòu)的信號近似于無損重構(gòu)的信號。
將FDLP應(yīng)用于每一子頻帶頻域信號以獲得對應(yīng)于相應(yīng)子頻帶幀的希爾伯特包絡(luò)及希爾伯特載波(步驟714)。所述希爾伯特包絡(luò)部分由作為全極點模型的FDLP方案近似。近似地估計所述希爾伯特載波部分(其表示全極點模型的殘留物)。
如早先所提及的,第k個子頻帶中的時域項希爾伯特包絡(luò)hk(n)可從對應(yīng)頻域參數(shù)Tk(f)導出。在步驟714中,采用對參數(shù)Tk(f)的頻域線性預測(FDLP)過程來完成此。由FDLP過程產(chǎn)生的數(shù)據(jù)可為更流暢的,且因此更適于傳輸或存儲。
在以下段落中,簡要地描述所述FDLP過程,隨后進行更詳細的解釋。
簡要地說,在FDLP過程中,估計希爾伯特包絡(luò)hk(n)的頻域?qū)?yīng)物,所述對應(yīng)物在代數(shù)學上表達為
然而,既定被編碼的信號為sk(n)。參數(shù)sk(n)的頻域?qū)?yīng)物為Tk(f)。為了從sk(n)獲得Tk(f),使用激勵信號,例如白噪聲。如下文將描述的,由于參數(shù)
為近似值,因此還可估計近似值
與實際值Tk(f)之間的差值,所述差值表達為Ck(f)。參數(shù)Ck(f)被稱作頻域希爾伯特載波,且有時還被稱作殘值。在執(zhí)行逆FLDP過程之后,直接獲得信號sk(n)。
在下文中,描述用于估計希爾伯特包絡(luò)及希爾伯特載波參數(shù)Ck(f)的FDLP過程的進一步細節(jié)。
可使用由圖14的流程圖500所示的方法來導出每一子頻帶的希爾伯特包絡(luò)的自回歸(AR)模型。在步驟502中,從sk(n)獲得分析信號vk(n)。對于離散時間信號sk(n),可使用FIR濾波器或替代地使用DFT方法來獲得所述分析信號。具體地說,在使用DFT方法的情況下,用于從實數(shù)值N點離散時間信號sk(n)創(chuàng)建復數(shù)值N點離散時間分析信號vk(n)的程序如下給出。首先,從sk(n)計算N點DFT Tk(f)。接下來,根據(jù)以下等式(4),通過使信號Tk(f)為因果的來形成N點單側(cè)離散時間分析信號頻譜(假定N為偶數(shù)) Xk(f)=Tk(0), 其中f=0, 2Tk(f),其中1≤f≤N/2-1, (4) Tk(N/2), 其中f=N/2, 0, 其中N/2+1≤k≤N 接著計算Xk(f)的N點逆DFT以獲得分析信號vk(n)。
接下來,在步驟505中,從所述分析信號vk(n)估計希爾伯特包絡(luò)。所述希爾伯特包絡(luò)本質(zhì)上為所述分析信號的平方量值,即 hk(n)=|vk(n)|2=vk(n)vk*(n) (5) 其中vk*(n)表示vk(n)的復共軛。
在步驟507中,希爾伯特包絡(luò)的頻譜自相關(guān)函數(shù)是作為所述離散信號的希爾伯特包絡(luò)的離散傅立葉變換(DFT)而獲得。希爾伯特包絡(luò)的DFT可寫成 其中Xk(f)表示所述分析信號的DFT,且r(f)表示所述頻譜自相關(guān)函數(shù)。離散信號sk(n)的希爾伯特包絡(luò)及頻譜域中的自相關(guān)形成傅立葉變換對。以與使用功率譜的逆傅立葉變換來計算所述信號的自相關(guān)類似的方式,所述頻譜自相關(guān)函數(shù)可因此作為希爾伯特包絡(luò)的傅立葉變換而獲得。在步驟509中,這些頻譜自相關(guān)由選定線性預測技術(shù)用于通過求解(例如)線性等式系統(tǒng)來執(zhí)行希爾伯特包絡(luò)的AR模型化。如下文中進一步詳細地論述,可采用列文遜-杜賓(Levinson-Durbin)算法來進行線性預測。一旦執(zhí)行了AR模型化,便使所得的所估計的FDLP希爾伯特包絡(luò)為因果的以對應(yīng)于原始因果序列sk(n)。在步驟511中,從希爾伯特包絡(luò)的模型來計算希爾伯特載波。下文所描述的技術(shù)中的一些可用于從希爾伯特包絡(luò)模型導出希爾伯特載波。
一般來說,由圖14的方法產(chǎn)生的頻譜自相關(guān)函數(shù)將為復雜的,因為希爾伯特包絡(luò)并非為偶對稱的。為了獲得實數(shù)自相關(guān)函數(shù)(在頻譜域中),用以下方式來使輸入信號對稱 se(n)=(s(n)+s(-n))/2(7) 其中se[n]表示s的偶對稱部分。se(n)的希爾伯特包絡(luò)也將為偶對稱的,且因此,這將導致在頻譜域中的實數(shù)值自相關(guān)函數(shù)。為了計算簡單而進行此產(chǎn)生實數(shù)值頻譜自相關(guān)的步驟,但可同樣良好地對復數(shù)值信號進行線性預測。
在編碼器38的替代配置中,可使用改為依賴于DCT的不同過程來得到每一子頻帶的所估計希爾伯特包絡(luò)。在此配置中,離散信號sk(n)從時域變換到頻域在數(shù)學上可表達為如下 其中sk(n)為如上文所定義的,f為所述子頻帶內(nèi)的離散頻率(0≤f≤N),Tk為sk(n)的N個脈沖的N個經(jīng)變換值的線性陣列,且系數(shù)c由
(1≤f≤N-1)給出,其中N為整數(shù)。
頻域變換Tk(f)的N個脈沖樣本被稱作DCT系數(shù)。
第k個子頻帶sk(n)中的離散時域信號可通過其對應(yīng)頻率對應(yīng)物Tk(f)的逆離散余弦變換(IDCT)來獲得。在數(shù)學上,其表達為如下 其中sk(n)及Tk(f)為如上文所定義的。同樣,f為離散頻率(0≤f≤N),且系數(shù)c由
(1≤f≤N-1)給出。
通過使用上文論述的DFT或DCT方法中的任一者,可使用列文遜-杜賓(Levinson-Durbin)算法來模型化希爾伯特包絡(luò)。在數(shù)學上,待由列文遜-杜賓(Levinson-Durbin)算法估計的參數(shù)可表達為如下 其中H(z)為z域中的轉(zhuǎn)移函數(shù),其近似時域希爾伯特包絡(luò)hk(n);z為z域中的復變量;a(i)為近似希爾伯特包絡(luò)hk(n)的頻域?qū)?yīng)物
的全極點模型的第i個系數(shù);i=0,...,K-1。上文已描述了時域希爾伯特包絡(luò)hk(n)(例如,見圖7及圖14)。
z域中的Z變換的基本原理可參見普倫蒂斯霍爾(Prentice Hall)出版社出版的艾倫·V·奧本海姆(Alan V.Oppenheim)、羅納德·W·夏弗(Ronald W.Schafer)、約翰·R·巴克(John R.Buck)的標題為“離散時間信號處理(Discrete-Time Signal Processing)”第二版的出版物(ISBN0137549202),且在此處不做進一步詳細闡述。
在等式(10)中,可基于幀460(圖12)的長度來選擇K的值。在示范性解碼器38中,將K選擇為20,其中幀460的持續(xù)時間設(shè)定為1000mS。
實質(zhì)上,在FDLP過程中,如由等式(10)所例示,第k個子頻帶Tk(f)中的頻域變換的DCT系數(shù)經(jīng)由列文遜-杜賓(Levinson-Durbin)算法來處理,從而得到時域希爾伯特包絡(luò)hk(n)的頻率對應(yīng)物
的一組系數(shù)a(i),其中0<i<K-1。
列文遜-杜賓(Levinson-Durbin)算法在此項技術(shù)中為眾所周知的且在此處不做重復。所述算法的基本原理可參見普倫蒂斯霍爾(Prentice Hall)出版社出版的拉賓納(Rabiner)及夏弗(Schafer)的標題為“對語音信號的數(shù)字處理(Digital Processing of SpeechSignals)”的出版物(ISBN0132136031,1978年9月)。
現(xiàn)在返回到圖7的方法,將全極點模型希爾伯特包絡(luò)的所得系數(shù)a(i)量化到線譜頻率(LSF)域中(步驟716)。使用分裂VQ 312來量化每一子頻帶幀的希爾伯特包絡(luò)的LSF表示。
如上文所提及及此處所重復的,由于參數(shù)
為原始參數(shù)Tk(f)的有損近似,因此兩個參數(shù)之間的差值被稱作殘值,其在代數(shù)學上表達為Ck(f)。換句話說,在經(jīng)由上述列文遜-杜賓(Levinson-Durbin)算法得出全極點模型的配合過程中,無法俘獲關(guān)于原始信號的一些信息。如果既定進行高質(zhì)量的信號編碼,也就是說,如果需要無損編碼,則需要估計殘值Ck(f)。殘值Ck(f)基本上包含信號sk(n)的載波頻率ck(n)的頻率分量。
存在若干種估計希爾伯特載波ck(n)的方法。
在時域中對希爾伯特載波作為殘值ck(n)的估計簡單地通過原始時域子頻帶信號sk(n)與其希爾伯特包絡(luò)hk(n)的標量相除來導出。在數(shù)學上,其表達為如下 ck(n)=sk(n)/hk(n)(11) 其中所有參數(shù)均如上文所定義。
應(yīng)注意,等式(11)展示估計殘值的直接方式。還可使用其它方法來進行估計。舉例來說,可從參數(shù)Tk(f)與
之間的差值中非常良好地產(chǎn)生頻域殘值Ck(f)。此后,可通過值Ck(f)的直接時域變換來獲得時域殘值ck(n)。
另一直接方法為假定希爾伯特載波ck(n)主要由白噪聲組成。用以獲得白噪聲信息的一種方式為對原始信號x(t)(圖12)進行帶通濾波。在濾波過程中,可識別白噪聲的主要頻率分量。接收器處的經(jīng)重構(gòu)信號的質(zhì)量取決于用于在接收器處表示希爾伯特載波的精確性。
如果原始信號x(t)(圖12)為有聲信號,即,源自人類的語音片段,則發(fā)現(xiàn)希爾伯特載波ck(n)可為可通過僅少許頻率分量來完全預測的。這在子頻帶位于低頻率端(即,k的值相對較低)的情況下尤其成立。當在時域中表達時,參數(shù)Ck(f)實際上為希爾伯特載波ck(n)。在有聲信號的情況下,希爾伯特載波ck(n)相當規(guī)則且可用僅少許正弦頻率分量來表示。對于相當高質(zhì)量的編碼來說,僅可選擇最強的分量。舉例來說,通過使用“峰值拾取”方法,可選擇頻率峰值周圍的正弦頻率分量來作為希爾伯特載波ck(n)的分量。
作為估計殘余信號的另一替代方案,可推理地向每一子頻帶k指派基礎(chǔ)頻率分量。通過分析希爾伯特載波ck(n)的頻譜分量,可估計每一子頻帶的基礎(chǔ)頻率分量且將其連同其多個諧波一起使用。
對于與原始信號源是有聲還是無聲無關(guān)的更可靠的信號重構(gòu)來說,可使用上述方法的組合。舉例來說,經(jīng)由對頻域中的希爾伯特載波Ck(f)進行簡單定閾值,可檢測及確定原始信號片段s(t)是有聲還是無聲的。因此,如果信號片段s(t)被確定為有聲的,則使用“峰值拾取”頻譜估計方法。另一方面,如果信號片段s(t)被確定為無聲的,則可采用如上述的白噪聲重構(gòu)方法。
存在可用于估計希爾伯特載波ck(n)的又一種方法。此方法涉及頻域中的希爾伯特載波Ck(f)的頻譜分量的標量量化。此處,在量化之后,通過有損近似來表示希爾伯特載波的量值及相位,使得將所引入的失真減到最小。
將從每一子頻帶幀的FDLP輸出的所估計時域希爾伯特載波分解成子幀。每一子幀表示幀的200毫秒部分,所以每幀存在5個子幀??墒褂蒙蚤L的重疊性210ms長子幀(從1000ms幀產(chǎn)生的5個子幀)以便減小幀邊界上的轉(zhuǎn)變效應(yīng)或噪聲。在解碼器側(cè)上,可應(yīng)用對重疊區(qū)域求平均以找回1000ms長希爾伯特載波的窗。
使用DFT對每一子頻帶子幀的時域希爾伯特載波進行頻率變換(步驟720)。
在步驟722中,應(yīng)用時間掩模以確定用于量化DFT相位及量值參數(shù)的位分配。針對每一子頻帶子幀,在時間掩模值與針對基線譯碼過程所確定的量化噪聲之間進行比較。如上文結(jié)合圖3所論述,可根據(jù)此比較結(jié)果來調(diào)整DFT參數(shù)的量化。在步驟724中,至少部分基于所述時間掩模比較使用分裂VQ來量化每一子頻帶子幀的DFT量值參數(shù)。在步驟726中,至少部分基于所述時間掩模比較來對DFT相位參數(shù)進行標量量化。
在步驟728中,將每一子頻帶幀的經(jīng)編碼數(shù)據(jù)及輔助信息串連起來且以適于傳輸或存儲的格式將其包化。在需要時,可在包化過程中實施此項技術(shù)中眾所周知的各種算法,包括數(shù)據(jù)壓縮及加密。此后,可將經(jīng)包化數(shù)據(jù)發(fā)送到數(shù)據(jù)處置器36,且接著發(fā)送到接收者以供隨后解碼,如步驟730中所示。
圖8為說明使用FDLP解碼方案來對信號進行解碼的方法的流程圖800。在步驟802中,接收一個或一個以上數(shù)據(jù)包,其含有用于重構(gòu)輸入信號的經(jīng)編碼數(shù)據(jù)及輔助信息。在步驟804中,對經(jīng)編碼數(shù)據(jù)及信息進行解包化。將經(jīng)編碼數(shù)據(jù)分類成子頻帶幀。
在步驟806中,從由解碼器42接收到的VQ索引來重構(gòu)表示每一子頻帶子幀的希爾伯特載波的DFT量值參數(shù)。逆量化每一子頻帶子幀的DFT相位參數(shù)。使用逆分裂VQ來逆量化DFT量值參數(shù),且使用逆標量量化來逆量化DFT相位參數(shù)。DFT相位及量值參數(shù)的逆量化是使用在譯碼過程中發(fā)生的由時間掩蔽指派給每一子頻帶的位分配來執(zhí)行。
在步驟808中,將逆DFT應(yīng)用于每一子頻帶子幀以恢復所述子頻帶子幀的時域希爾伯特載波。接著重組子幀以針對每一子頻帶幀形成希爾伯特載波。
在步驟810中,逆量化對應(yīng)于每一子頻帶幀的希爾伯特包絡(luò)的LSF的所接收VQ索引。
在步驟812中,使用對應(yīng)的經(jīng)重構(gòu)希爾伯特包絡(luò)來調(diào)制每一子頻帶希爾伯特載波。這可由逆FDLP組件512來執(zhí)行??赏ㄟ^針對每一子頻帶相反地執(zhí)行圖14的步驟來重構(gòu)希爾伯特包絡(luò)。
在決策步驟814中,檢查每一子頻帶幀以確定其是否為音調(diào)性的。這可通過進行檢查以確定是否設(shè)定從編碼器38發(fā)送的音調(diào)性旗標來進行。如果所述子頻帶信號為音調(diào)性的,則將逆TDLP濾波應(yīng)用于所述子頻帶信號以恢復所述子頻帶幀。如果所述子頻帶信號并非為音調(diào)性的,則針對所述子頻帶幀繞過TDLP濾波。
在步驟818中,使用QMF合成將所有子頻帶合并以獲得全頻帶信號。這針對每一幀來執(zhí)行。
在步驟820中,將所恢復的幀進行組合以產(chǎn)生經(jīng)重構(gòu)離散輸入信號x′(n)。通過使用合適的數(shù)/模轉(zhuǎn)換過程,可將所述經(jīng)重構(gòu)離散輸入信號x′(n)轉(zhuǎn)換成經(jīng)重構(gòu)時變輸入信號x′(t)。
圖9為說明確定時間掩蔽閾值的方法的流程圖900。時間掩蔽為人耳的特性,其中在強烈時間信號之后約100到200ms內(nèi)出現(xiàn)的聲音歸因于此強烈時間分量而被掩蔽。為了獲得精確的掩蔽閾值,執(zhí)行具有加性白噪聲的非正式聽力實驗。
在步驟902中,人類的一階時間掩蔽模型提供用于確定精確閾值的起點??蓪⑷硕臅r間掩蔽解釋為從掩蔽恢復的時程中的變化或在每一信號延遲處的掩蔽成長中的變化。前向掩蔽的量是由許多因素的相互作用而確定的,所述因素包括掩蔽物電平、掩蔽物與信號的時間分離、掩蔽物及信號的頻率以及掩蔽物及信號的持續(xù)時間。在等式(12)中給出簡單的一階數(shù)學模型,其為時間掩模的量提供充分近似。
M[n]=a(b-log10Δt)(s[n]-c)(12) 其中M為以dB聲壓級(SPL)為單位的時間掩模,s為由整數(shù)索引n指示的樣本的dB SPL電平,Δt為以毫秒為單位的時間延遲,且a、b及c為常數(shù),且c表示絕對聽力閾值。
a及b的最佳值為預定義的且為所屬領(lǐng)域的技術(shù)人員所知。參數(shù)c為由圖10所示的圖表950給出的絕對聽力閾值(ATH)。圖表950將ATH展示為頻率的函數(shù)。圖表950中所示的頻率范圍為大體可由人耳感知的頻率范圍。
使用等式(12)來針對子頻帶子幀中的每個離散樣本計算時間掩模,從而產(chǎn)生多個時間掩蔽值。對于任何給定樣本,存在對應(yīng)于若干個先前樣本的多個掩模估計。選擇這些先前樣本掩模估計中的最大者作為當前樣本的時間掩蔽值(以dB SPL為單位)。
在步驟904中,將校正因子應(yīng)用于所述一階掩蔽模型(等式12)以產(chǎn)生經(jīng)調(diào)整的時間掩蔽閾值。所述校正因子可為對所述一階掩蔽模型的任何合適調(diào)整,包括但不限于下文所示的一組示范性等式(13)。
一種用于校正所述一階模型的技術(shù)為確定由時間掩蔽產(chǎn)生的感知不到的噪聲的實際閾值。這些閾值可通過加上具有由所述一階掩模模型指定的功率電平的白噪聲來確定??墒褂酶黝惾说囊唤M非正式聽力測試來確定可加到原始輸入信號以使得原始輸入信號中所包括的音頻在感知上為顯然的白噪聲的實際量。使將從所述一階時間掩蔽閾值減少的功率的量(以dB SPL為單位)取決于所述頻帶中的ATH。通過加上白噪聲的非正式聽力測試,已根據(jù)經(jīng)驗發(fā)現(xiàn)可加到原始輸入信號以使得音頻在感知上仍顯然的白噪聲的最大功率由以下一組示范性等式給出 T[n]=Lm[n]-(35-c),如果Lm[n]≥(35-c) =Lm[n]-(25-c),如果(25-c)≤Lm[n]≤(35-c)(13) =Lm[n]-(15-c),如果(15-c)≤Lm[n]≤(25-c) =c,如果Lm[n]≤(15-c), 其中T[n]表示樣本n的經(jīng)調(diào)整的時間掩蔽閾值,Lm為對多個先前樣本計算的所述一階時間掩蔽模型(等式12)的最大值,c表示以dB為單位的絕對聽力閾值,且n為表示樣本的整數(shù)索引。一般來說,噪聲閾值比使用等式(12)估計的一階時間掩蔽閾值低約20dB。作為實例,圖11展示以dB SPL為單位的子頻帶信號451的幀(持續(xù)時間為1000ms)、從等式(12)獲得的其時間掩蔽閾值453及從等式(13)獲得的經(jīng)調(diào)整的時間掩蔽閾值455。
所述組等式(13)僅為可應(yīng)用于線性模型(等式12)的校正因子的一個實例。本文所揭示的譯碼方案預期其它形式及類型的校正因子。舉例來說,等式13的閾值常數(shù)(即,35、25、15)可為其它值,且/或所述組中的等式(分區(qū))的數(shù)目及其對應(yīng)適用范圍可與等式13中所示的內(nèi)容有所差異。
經(jīng)調(diào)整的時間掩蔽閾值還展示針對特定子頻帶的時域中的最大容許量化噪聲。目標是減少量化子頻帶希爾伯特載波的DFT參數(shù)所需的位數(shù)目。請注意,子頻帶信號為其希爾伯特包絡(luò)與其希爾伯特載波的乘積。如先前所描述,使用標量量化來量化希爾伯特包絡(luò)。為了在應(yīng)用時間掩蔽的同時考慮包絡(luò)信息,以dB SPL標度來計算給定子頻帶的逆量化希爾伯特包絡(luò)的對數(shù)。接著從自等式(13)獲得的經(jīng)調(diào)整的時間掩蔽閾值中減去此值。
本文所描述的各種方法、系統(tǒng)、設(shè)備、組件、功能、狀態(tài)機、裝置及電路可以硬件、軟件、固件或前述各項的任何合適組合來實施。舉例來說,本文所描述的方法、系統(tǒng)、設(shè)備、組件、功能、狀態(tài)機、裝置及電路可至少部分地用經(jīng)設(shè)計以執(zhí)行本文所描述的功能的一個或一個以上通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)、知識產(chǎn)權(quán)(IP)核心或其它可編程邏輯裝置、離散門或晶體管邏輯、離散硬件組件或其任何組合來實施。通用處理器可為微處理器,但在替代方案中,所述處理器可為任何常規(guī)處理器、控制器、微控制器或狀態(tài)機。處理器還可實施為計算裝置的組合,例如DSP與微處理器的組合、多個微處理器、與DSP核心結(jié)合的一個或一個以上微處理器或任何其它此類配置。
本文所描述的功能、狀態(tài)機、組件及方法在以軟件實施的情況下可作為一個或一個以上指令或代碼而存儲于計算機可讀媒體上或經(jīng)由計算機可讀媒體來傳輸。計算機可讀媒體包括計算機存儲媒體及包括促進將計算機程序從一處傳送到另一處的任何媒體的通信媒體兩者。存儲媒體可為可由計算機存取的任何可用媒體。借助于實例而非限制,此等機器可讀媒體可包含RAM、ROM、EEPROM、CD-ROM或其它光盤存儲裝置、磁盤存儲裝置或其它磁性存儲裝置,或可用于攜載或存儲呈指令或數(shù)據(jù)結(jié)構(gòu)形式的所要程序代碼且可由計算機處理器存取的任何其它媒體。而且,將任何傳送媒體或連接適當?shù)胤Q作計算機可讀媒體。舉例來說,如果使用同軸電纜、光纖電纜、雙絞線、數(shù)字訂戶線(DSL)或例如紅外線、無線電及微波等無線技術(shù)從網(wǎng)站、服務(wù)器或其它遠程源傳輸軟件,則同軸電纜、光纖電纜、雙絞線、DSL或例如紅外線、無線電及微波等無線技術(shù)即包括于媒體的定義中。磁盤及光盤在本文中使用時包括壓縮光盤(CD)、激光光盤、光盤、數(shù)字通用光盤(DVD)、軟盤及藍光光盤,其中磁盤通常以磁性方式再生數(shù)據(jù),而光盤用激光以光學方式來再生數(shù)據(jù)。上述各者的組合也包括于計算機可讀媒體的范圍內(nèi)。
提供以上對所揭示實施例的描述以使得所屬領(lǐng)域的技術(shù)人員能夠制造或使用由所附權(quán)利要求書界定的內(nèi)容。所附權(quán)利要求書不希望限于所揭示的實施例。所屬領(lǐng)域的技術(shù)人員鑒于這些教示將容易想到其它實施例及修改。因此,在結(jié)合上述說明書及附圖審視時,所附權(quán)利要求書既定涵蓋所有此類實施例及修改。
權(quán)利要求
1.一種對信號進行編碼的方法,其包含
提供對所述信號的頻率變換;
將頻域線性預測(FDLP)方案應(yīng)用于所述頻率變換以產(chǎn)生至少一個載波;
確定時間掩蔽閾值;及
基于所述時間掩蔽閾值來量化所述載波。
2.根據(jù)權(quán)利要求1所述的方法,其中應(yīng)用所述FDLP方案包含產(chǎn)生表示至少一個包絡(luò)的一組值。
3.根據(jù)權(quán)利要求1所述的方法,其中確定所述時間掩蔽閾值包含
計算對應(yīng)于多個信號樣本的多個時間掩模估計;
從所述時間掩模估計中確定最大時間掩模估計;及
選擇所述最大時間掩模估計作為所述時間掩蔽閾值。
4.根據(jù)權(quán)利要求3所述的方法,其進一步包含
從所述最大時間掩模估計中減去至少一個包絡(luò)值。
5.根據(jù)權(quán)利要求3所述的方法,其中所述信號樣本為在正針對其確定所述時間掩蔽閾值的當前樣本之前出現(xiàn)的先前樣本序列。
6.根據(jù)權(quán)利要求1所述的方法,其中量化包含
估計所述信號的量化噪聲;
將所述量化噪聲與所述時間掩蔽閾值進行比較;及
如果所述時間掩蔽閾值大于所述量化噪聲,則減少對所述載波的位分配。
7.根據(jù)權(quán)利要求6所述的方法,其進一步包含
定義多個量化,其各自定義一不同的位分配;及
基于所述量化噪聲與所述時間掩蔽閾值的所述比較來選擇所述量化中的一者;及
使用所述選定量化來量化所述載波。
8.根據(jù)權(quán)利要求1所述的方法,其進一步包含
執(zhí)行對所述載波的頻率變換;及
基于所述時間掩蔽閾值來量化所述經(jīng)頻率變換的載波。
9.根據(jù)權(quán)利要求1所述的方法,其中所述時間掩蔽閾值是基于人類聽覺系統(tǒng)的一階掩蔽模型及校正因子的。
10.根據(jù)權(quán)利要求9所述的方法,其中所述一階掩蔽模型由下式表示
M[n]=a(b-log10Δt)(s[n]-c),
其中M為以dB聲壓級(SPL)為單位的時間掩模,s為由整數(shù)索引n指示的樣本的dB SPL電平,Δt為以毫秒為單位的時間延遲,且a、b及c為常數(shù),且c表示絕對聽力閾值。
11.一種對信號進行解碼的方法,其包含
提供根據(jù)時間掩蔽閾值確定的量化信息;
基于所述量化信息來逆量化所述信號的一部分以恢復至少一個載波;及
將逆頻域線性預測(FDLP)方案應(yīng)用于所述至少一個載波以恢復經(jīng)重構(gòu)信號的頻率變換。
12.根據(jù)權(quán)利要求11所述的方法,其進一步包含
逆量化所述信號的另一部分以產(chǎn)生表示至少一個包絡(luò)的一組值;及
將所述逆FDLP方案應(yīng)用于所述載波及所述組值以恢復所述經(jīng)重構(gòu)信號的所述頻率變換。
13.根據(jù)權(quán)利要求11所述的方法,其進一步包含
在應(yīng)用所述逆FDLP方案之前執(zhí)行對所述載波的逆頻率變換。
14.一種確定至少一個時間掩蔽閾值的方法,其包含
提供人類聽覺系統(tǒng)的一階掩蔽模型;
通過將校正因子應(yīng)用于所述一階掩蔽模型來確定時間掩蔽閾值;及
在編解碼器中提供所述時間掩蔽閾值。
15.根據(jù)權(quán)利要求14所述的方法,其中所述校正因子表示加性白噪聲的據(jù)經(jīng)驗確定的電平。
16.根據(jù)權(quán)利要求14所述的方法,其中所述校正因子的值取決于特定音頻頻率下的絕對聽力閾值。
17.根據(jù)權(quán)利要求14所述的方法,其中所述時間掩蔽閾值T[n]由以下等式給出
T[n]=Lm[n]-(35-c),如果Lm[n]≥(35-c)
=Lm[n]-(25-c),如果(25-c)≤Lm[n]≤(35-c)
=Lm[n]-(15-c),如果(15-c)≤Lm[n]≤(25-c)(5)
=c,如果Lm[n]≤(15-c),
其中Lm為對在第n個樣本之前的多個先前樣本計算出的所述一階掩蔽模型的最大值,c表示以dB為單位的絕對聽力閾值,且n為表示樣本的整數(shù)索引。
18.一種用于對信號進行編碼的系統(tǒng),其包含
用于提供對所述信號的頻率變換的裝置;
用于將頻域線性預測(FDLP)方案應(yīng)用于所述頻率變換以產(chǎn)生至少一個載波的裝置;
用于確定時間掩蔽閾值的裝置;及
用于基于所述時間掩蔽閾值來量化所述載波的裝置。
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其中所述應(yīng)用裝置包含用于產(chǎn)生表示至少一個包絡(luò)的一組值的裝置。
20.根據(jù)權(quán)利要求18所述的系統(tǒng),其中所述確定裝置包含
用于計算對應(yīng)于多個信號樣本的多個時間掩模估計的裝置;
用于從所述時間掩模估計中確定最大時間掩模估計的裝置;及
用于選擇所述最大時間掩模估計作為所述時間掩蔽閾值的裝置。
21.根據(jù)權(quán)利要求20所述的系統(tǒng),其進一步包含
用于從所述最大時間掩模估計中減去包絡(luò)值的裝置。
22.根據(jù)權(quán)利要求20所述的系統(tǒng),其中所述信號樣本為在正針對其確定所述時間掩蔽閾值的當前樣本之前出現(xiàn)的先前樣本序列。
23.一種用于對信號進行解碼的系統(tǒng),其包含
用于提供根據(jù)時間掩蔽閾值確定的量化信息的裝置;
用于基于所述量化信息來逆量化所述信號的一部分以恢復至少一個載波的裝置;及
用于將逆頻域線性預測(FDLP)方案應(yīng)用于所述載波以恢復經(jīng)重構(gòu)信號的頻率變換的裝置。
24.根據(jù)權(quán)利要求23所述的系統(tǒng),其進一步包含
用于逆量化所述信號的另一部分以產(chǎn)生表示至少一個包絡(luò)的一組值的裝置;及
用于將所述逆FDLP方案應(yīng)用于所述載波及所述組值以恢復所述經(jīng)重構(gòu)信號的所述頻率變換的裝置。
25.一種用于確定至少一個時間掩蔽閾值的系統(tǒng),其包含
用于提供人類聽覺系統(tǒng)的一階掩蔽模型的裝置;
用于通過將校正因子應(yīng)用于所述一階掩蔽模型來確定所述時間掩蔽閾值的裝置;及
用于在編解碼器中提供所述時間掩蔽閾值的裝置。
26.一種包含有可由一個或一個以上處理器執(zhí)行的一組指令的計算機可讀媒體,其包含
用于提供對信號的頻率變換的代碼;
用于將頻域線性預測(FDLP)方案應(yīng)用于所述頻率變換以產(chǎn)生至少一個載波的代碼;
用于確定時間掩蔽閾值的代碼;及
用于基于所述時間掩蔽閾值來量化所述載波的代碼。
27.根據(jù)權(quán)利要求26所述的計算機可讀媒體,其中所述用于應(yīng)用所述FDLP方案的代碼包含用于產(chǎn)生表示至少一個包絡(luò)的一組值的代碼。
28.根據(jù)權(quán)利要求26所述的計算機可讀媒體,其中所述用于確定所述時間掩蔽閾值的代碼包含
用于計算對應(yīng)于多個信號樣本的多個時間掩模估計的代碼;
用于從所述時間掩模估計中確定最大時間掩模估計的代碼;及
用于選擇所述最大時間掩模估計作為所述時間掩蔽閾值的代碼。
29.根據(jù)權(quán)利要求26所述的計算機可讀媒體,其中所述時間掩蔽閾值是基于人類聽覺系統(tǒng)的一階掩蔽模型及校正因子的。
30.根據(jù)權(quán)利要求29所述的計算機可讀媒體,其中所述校正因子表示加性白噪聲的電平。
31.根據(jù)權(quán)利要求29所述的計算機可讀媒體,其中所述一階掩蔽模型由下式表示
M[n]=a(b-log10Δt)(s[n]-c),
其中M為以dB聲壓級(SPL)為單位的時間掩模,s為由整數(shù)索引n指示的樣本的dB SPL電平,Δt為以毫秒為單位的時間延遲,且a、b及c為常數(shù),且c表示絕對聽力閾值。
32.根據(jù)權(quán)利要求31所述的計算機可讀媒體,其中所述時間掩蔽閾值T[n]由以下等式給出
T[n]=Lm[n]-(35-c),如果Lm[n]≥(35-c)
=Lm[n]-(25-c),如果(25-c)≤Lm[n]≤(35-c)
=Lm[n]-(15-c),如果(15-c)≤Lm[n]≤(25-c)(5)
=c,如果Lm[n]≤(15-c),
其中Lm為對在第n個樣本之前的多個先前樣本計算出的所述一階掩蔽模型的最大值,c表示以dB為單位的絕對聽力閾值,且n為表示樣本的整數(shù)索引。
33.一種包含有可由一個或一個以上處理器執(zhí)行的一組指令的計算機可讀媒體,其包含
用于提供根據(jù)至少一個時間掩蔽閾值確定的量化信息的代碼;
用于基于所述量化信息來逆量化所述信號的一部分以恢復至少一個載波的代碼;及
用于將逆頻域線性預測(FDLP)方案應(yīng)用于所述載波以恢復經(jīng)重構(gòu)信號的頻率變換的代碼。
34.根據(jù)權(quán)利要求33所述的計算機可讀媒體,其進一步包含
用于逆量化所述信號的另一部分以產(chǎn)生表示至少一個包絡(luò)的一組值的代碼;及
用于將所述逆FDLP方案應(yīng)用于所述載波及所述組值以恢復所述經(jīng)重構(gòu)信號的所述頻率變換的代碼。
35.根據(jù)權(quán)利要求33所述的計算機可讀媒體,其進一步包含
用于在應(yīng)用所述逆FDLP方案之前執(zhí)行對所述載波的逆頻率變換的代碼。
36.一種包含有可由一個或一個以上處理器執(zhí)行的一組指令的計算機可讀媒體,其包含
用于提供人類聽覺系統(tǒng)的一階掩蔽模型的代碼;
用于通過將校正因子應(yīng)用于所述一階掩蔽模型來確定至少一個時間掩蔽閾值的代碼;及
用于在編解碼器中提供所述時間掩蔽閾值的代碼。
37.根據(jù)權(quán)利要求36所述的計算機可讀媒體,其中所述校正因子表示加性白噪聲的據(jù)經(jīng)驗確定的電平。
38.根據(jù)權(quán)利要求36所述的計算機可讀媒體,其中所述校正因子的值取決于特定音頻頻率下的絕對聽力閾值。
39.根據(jù)權(quán)利要求36所述的計算機可讀媒體,其中所述時間掩蔽閾值T[n]由以下等式給出
T[n]=Lm[n]-(35-c),如果Lm[n]≥(35-c)
=Lm[n]-(25-c),如果(25-c)≤Lm[n]≤(35-c)
=Lm[n]-(15-c),如果(15-c)≤Lm[n]≤(25-c)(5)
=c,如果Lm[n]≤(15-c),
其中Lm為對在第n個樣本之前的多個先前樣本計算出的所述一階掩蔽模型的最大值,c表示以dB為單位的絕對聽力閾值,且n為表示樣本的整數(shù)索引。
40.一種用于對信號進行編碼的設(shè)備,其包含
頻率變換組件,其用于產(chǎn)生所述信號的頻率變換;
頻域線性預測(FDLP)組件,其經(jīng)配置以響應(yīng)于所述頻率變換而產(chǎn)生至少一個載波;
時間掩模,其經(jīng)配置以確定時間掩蔽閾值;及
量化器,其經(jīng)配置以基于所述時間掩蔽閾值來量化所述載波。
41.根據(jù)權(quán)利要求40所述的設(shè)備,其中所述FDLP組件經(jīng)配置以產(chǎn)生表示至少一個包絡(luò)的一組值。
42.根據(jù)權(quán)利要求40所述的設(shè)備,其中所述時間掩模包含
計算器,其經(jīng)配置以計算對應(yīng)于多個信號樣本的多個時間掩模估計;
比較器,其經(jīng)配置以從所述時間掩模估計中確定最大時間掩模估計;及
選擇器,其經(jīng)配置以選擇所述最大時間掩模估計作為所述時間掩蔽閾值。
43.根據(jù)權(quán)利要求40所述的設(shè)備,其中所述量化器包含
估計器,其經(jīng)配置以估計所述信號的量化噪聲;
比較器,其經(jīng)配置以將所述量化噪聲與所述時間掩蔽閾值進行比較;及
減少器,其經(jīng)配置以在所述時間掩蔽閾值大于所述量化噪聲時減少對所述載波的位分配。
44.根據(jù)權(quán)利要求41所述的設(shè)備,其進一步包含
多個預定量化,其各自定義一不同的位分配;及
選擇器,其經(jīng)配置以基于所述量化噪聲與所述時間掩蔽閾值的所述比較來選擇所述量化中的一者;且
所述量化器經(jīng)配置以使用所述選定量化來量化所述載波。
45.根據(jù)權(quán)利要求44所述的設(shè)備,其進一步包含
包化器,其經(jīng)配置以將所述選定量化傳送到解碼器以供重構(gòu)所述信號。
46.根據(jù)權(quán)利要求40所述的設(shè)備,其進一步包含
頻率變換組件,其經(jīng)配置以對所述載波進行頻率變換;及
一個或一個以上量化器,其經(jīng)配置以基于所述時間掩蔽閾值來量化所述經(jīng)頻率變換的載波。
47.根據(jù)權(quán)利要求40所述的設(shè)備,其中所述時間掩蔽閾值是基于人類聽覺系統(tǒng)的一階掩蔽模型及校正因子的。
48.根據(jù)權(quán)利要求47所述的設(shè)備,其中所述校正因子表示加性白噪聲的電平。
49.根據(jù)權(quán)利要求47所述的設(shè)備,其中所述一階掩蔽模型由下式表示
M[n]=a(b-log10Δt)(s[n]-c),
其中M為以dB聲壓級(SPL)為單位的時間掩模,s為由整數(shù)索引n指示的樣本的dB SPL電平,Δt為以毫秒為單位的時間延遲,且a、b及c為常數(shù),且c表示絕對聽力閾值。
50.根據(jù)權(quán)利要求49所述的設(shè)備,其中所述時間掩蔽閾值T[n]由以下等式給出
T[n]=Lm[n]-(35-c),如果Lm[n]≥(35-c)
=Lm[n]-(25-c),如果(25-c)≤Lm[n]≤(35-c)
=Lm[n]-(15-c),如果(15-c)≤Lm[n]≤(25-c)(5)
=c,如果Lm[n]≤(15-c),
其中Lm為對在第n個樣本之前的多個先前樣本計算出的所述一階掩蔽模型的最大值,c表示以dB為單位的絕對聽力閾值,且n為表示樣本的整數(shù)索引。
51.一種用于對信號進行解碼的設(shè)備,其包含
解包化器,其經(jīng)配置以提供根據(jù)時間掩蔽閾值確定的量化信息;
逆量化器,其經(jīng)配置以基于所述量化信息來逆量化所述信號的一部分以恢復至少一個載波;及
逆頻域線性預測(FDLP)組件,其經(jīng)配置以響應(yīng)于所述載波而輸出經(jīng)重構(gòu)信號的頻率變換。
52.根據(jù)權(quán)利要求51所述的設(shè)備,其進一步包含
第二逆量化器,其經(jīng)配置以逆量化所述信號的另一部分以產(chǎn)生表示包絡(luò)的一組值;且
所述逆FDLP組件經(jīng)配置以響應(yīng)于所述載波及所述組值而輸出所述經(jīng)重構(gòu)信號的所述頻率變換。
53.根據(jù)權(quán)利要求51所述的設(shè)備,其進一步包含
逆頻率變換組件,其經(jīng)配置以在由所述逆FDLP組件處理之前將所述載波變換到時域。
54.一種用于確定至少一個時間掩蔽閾值的設(shè)備,其包含
模型器,其經(jīng)配置以提供人類聽覺系統(tǒng)的一階掩蔽模型;
處理器,其經(jīng)配置以通過將校正因子應(yīng)用于所述一階掩蔽模型來確定時間掩蔽閾值;及
時間掩模,其經(jīng)配置以在編解碼器中提供所述時間掩蔽閾值。
全文摘要
本發(fā)明揭示一種基于模型化頻譜動態(tài)的音頻譯碼技術(shù)。執(zhí)行對輸入音頻信號的頻率分解以獲得密切遵循人類聽覺系統(tǒng)分解的臨界頻帶的多個頻率子頻帶。接著對每一子頻帶進行頻率變換且應(yīng)用線性預測。這針對所述子頻帶中的每一者產(chǎn)生希爾伯特包絡(luò)及希爾伯特載波。因為對頻率分量應(yīng)用了線性預測,所以所述技術(shù)被稱作頻域線性預測(FDLP)。所述希爾伯特包絡(luò)及所述希爾伯特載波類似于時域線性預測(TDLP)技術(shù)中的頻譜包絡(luò)及激勵信號。將時間掩蔽應(yīng)用于所述FDLP子頻帶以改進壓縮效率。具體地說,可采用子頻帶FDLP載波信號的前向掩蔽來改進經(jīng)編碼信號的壓縮效率。
文檔編號G10L19/12GK101779236SQ200880102427
公開日2010年7月14日 申請日期2008年8月24日 優(yōu)先權(quán)日2007年8月24日
發(fā)明者哈里納特·加呂達德里, 彼得·莫特利采克, 斯里拉姆·加納帕蒂, 海尼克·赫爾曼斯基 申請人:高通股份有限公司