一個或更多個示例性實施例涉及音頻編碼和解碼,更具體地,涉及一種用于帶寬擴展(BWE)的高頻解碼的方法及設(shè)備。
背景技術(shù):
在G.719中的編碼方案已經(jīng)針對視頻會議得到發(fā)展和標準化。根據(jù)本方案,通過改進的離散余弦變換執(zhí)行頻域變換,以針對靜止幀對MDCT頻譜直接進行編碼并針對非靜止幀改變時域混序以便考慮時間特征。可通過執(zhí)行交織構(gòu)造與靜止幀具有相同框架的編解碼器,按照與靜止幀相似的形式構(gòu)造針對非靜止幀獲得的頻譜。構(gòu)造的頻譜的能量被獲得、歸一化和量化。通常,能量被表示為均方根值,并且通過基于能量的比特分配從歸一化的頻譜獲得每個頻帶所需要的比特,并且通過基于關(guān)于針對每個頻帶的比特分配的信息進行量化和無損編碼來產(chǎn)生比特流。
根據(jù)G.719解碼方案,在編碼方案的逆處理中,通過對來自比特流的能量進行反量化,基于反量化的能量產(chǎn)生比特分配信息并基于比特分配信息對頻譜進行反量化來產(chǎn)生歸一化的反量化頻譜。當比特不足時,特定頻帶中可能不存在反量化的頻譜。為了產(chǎn)生針對特定頻帶的噪聲,應(yīng)用用于基于反量化的低頻頻譜產(chǎn)生噪聲碼書并根據(jù)傳輸?shù)脑肼暤燃壆a(chǎn)生噪聲的噪聲填充方法。針對特定頻率或更高頻率的頻帶,應(yīng)用用于通過折疊低頻信號產(chǎn)生高頻信號的帶寬擴展方案。
技術(shù)實現(xiàn)要素:
技術(shù)問題
一個或更多個示例性實施例提供了一種用于帶寬擴展(BWE)的高頻解碼的方法和設(shè)備以及采用所述方法和設(shè)備的多媒體設(shè)備,其中,通過用于BWE的高頻解碼可提高重構(gòu)的音頻信號的質(zhì)量。
技術(shù)方案
根據(jù)一個或更多個示例性實施例,一種用于帶寬擴展(BWE)的高頻解碼方法包括:對激勵類別進行解碼,基于解碼的激勵類別對解碼的低頻頻譜進行修改,并基于修改的低頻頻譜產(chǎn)生高頻激勵頻譜。
根據(jù)一個或更多個示例性實施例,一種用于帶寬擴展(BWE)的高頻解碼設(shè)備包括至少一個處理器,其中,所述至少一個處理器被配置為:對激勵類別進行解碼,基于解碼的激勵類別對解碼的低頻頻譜進行修改,并基于修改的低頻頻譜產(chǎn)生高頻激勵頻譜。
有益效果
根據(jù)一個或更多個示例性實施例,對重構(gòu)的低頻頻譜進行修改以產(chǎn)生高頻激勵頻譜,從而在無需過度的復(fù)雜性的情況下提高重構(gòu)的音頻信號的質(zhì)量。
附圖說明
通過以下結(jié)合附圖對示例性實施例的描述,這些和/或其他方面將變得更明顯且更容易理解,其中:
圖1示出根據(jù)示例性實施例的低頻帶的子帶和高頻帶的子帶。
圖2a-圖2c示出根據(jù)實施例的根據(jù)選擇的編碼方案分別將區(qū)域R0和區(qū)域R1劃分為R4和R5以及R2和R3。
圖3示出根據(jù)示例性實施例的高頻帶的子帶。
圖4是根據(jù)示例性實施例的音頻編碼設(shè)備的框圖。
圖5是根據(jù)示例性實施例的帶寬擴展(BWE)參數(shù)產(chǎn)生單元的框圖。
圖6是根據(jù)示例性實施例的音頻解碼設(shè)備的框圖。
圖7是根據(jù)示例性實施例的高頻解碼設(shè)備的框圖。
圖8是根據(jù)示例性實施例的低頻頻譜修改單元的框圖。
圖9是根據(jù)另一示例性實施例的低頻頻譜修改單元的框圖。
圖10是根據(jù)另一示例性實施例的低頻頻譜修改單元的框圖。
圖11是根據(jù)另一示例性實施例的低頻頻譜修改單元的框圖。
圖12是根據(jù)示例性實施例的動態(tài)范圍控制單元的框圖。
圖13是根據(jù)示例性實施例的高頻激勵頻譜產(chǎn)生單元的框圖。
圖14是用于描述對在頻帶邊界的權(quán)重進行平滑的曲線。
圖15是用于描述根據(jù)示例性實施例的作為將被用于產(chǎn)生重疊區(qū)域中的頻譜的貢獻的權(quán)重的曲線圖。
圖16是根據(jù)示例性實施例的包括解碼模塊的多媒體設(shè)備的框圖。
圖17是根據(jù)示例性實施例的包括編碼模塊和解碼模塊的多媒體設(shè)備的框圖。
圖18是根據(jù)示例性實施例的高頻解碼方法的流程圖。
圖19是根據(jù)示例性實施例的低頻頻譜修改方法的流程圖。
具體實施方式
本發(fā)明構(gòu)思可允許形式上的各種改變或修改,并且特定的示例性實施例將在附圖中示出并在說明書中詳細描述。但是,這不是意圖將本發(fā)明構(gòu)思限制于特定的實踐模式,并且本發(fā)明構(gòu)思包含不脫離本發(fā)明構(gòu)思的技術(shù)精神和技術(shù)范圍的所有的改變、等同物和替換。在說明書中,當認為對現(xiàn)有技術(shù)的某些詳細說明可能不必要地模糊本發(fā)明構(gòu)思的實質(zhì)時,省略對現(xiàn)有技術(shù)的某些詳細說明。
雖然包括序號的術(shù)語(諸如“第一”、“第二”等)可被用于描述各種組件,但這些組件將不被這些術(shù)語限制。術(shù)語第一和第二不應(yīng)該被用于附加任何重要性順序,而是被用于將一個元件與另一個元件區(qū)分。
說明書中使用的術(shù)語僅用于描述特定的實施例,并不意圖限制本發(fā)明構(gòu)思的范圍。雖然考慮到本公開的功能而選擇在本說明書中廣泛使用的通用術(shù)語來描述本公開,但是這些通用術(shù)語可根據(jù)本領(lǐng)域技術(shù)人員的意圖、情況判例、新技術(shù)的出現(xiàn)等而變化。在特定情況下也可使用由本發(fā)明的申請人任意選擇的術(shù)語。在這種情況中,在發(fā)明的詳細描述中需要給出術(shù)語的含義。因此,術(shù)語必須基于它們的含義和整個說明書的內(nèi)容被定義,而不是簡單地陳述術(shù)語。
除非上下文中有明顯不同的含義,否則以單數(shù)使用的表述包含復(fù)數(shù)表述。在說明書中,將理解,諸如“包括”、“具有”、“包含”的術(shù)語意圖表示存在說明書中公開的特征、數(shù)字、步驟、動作、組件、部件或它們的組合,并不意圖排除可存在或可添加一個或多個其他特征、數(shù)字、步驟、動作、組件、部件或它們的組合的可能。
在下文中將參照附圖更充分地描述一個或更多個示例性實施例。在附圖中,相同的標號表示相同的元件,并且將不會給出相同的元件的重復(fù)說明。
圖1示出根據(jù)示例性實施例的低頻帶的子帶和高頻帶的子帶。根據(jù)實施例,采樣率為32KHz,并且可針對22個頻帶(更具體地,低頻帶的17個頻帶和高頻帶的5個頻帶)形成640個改進的離散余弦變換(MDCT)頻譜系數(shù)。例如,高頻帶的開始頻率是第241頻譜系數(shù),并且第0到第240頻譜系數(shù)可被定義為R0,即,將按照低頻編碼方案(即,核心編碼方案)被編碼的區(qū)域。此外,第241到第639頻譜系數(shù)可被定義為R1,即,執(zhí)行帶寬擴展(BWE)的高頻帶。在區(qū)域R1中,也可存在根據(jù)比特分配信息將按照低頻編碼方案被編碼的頻帶。
圖2a-圖2c示出根據(jù)選擇的編碼方案,分別將圖1的區(qū)域R0和區(qū)域R1劃分為R4和R5、以及R2和R3。區(qū)域R1可被劃分為R2和R3,區(qū)域R0可被劃分為R4和R5,其中,區(qū)域R1是BWE區(qū)域,R2是低頻編碼區(qū)域。R2表示包含將按照低頻編碼方案(例如,頻域編碼方案)被量化和無損編碼的信號的頻帶,并且R3表示不存在將按照低頻編碼方案被編碼的信號的頻帶。但是,即使當確定R2是被分配了比特并且按照低頻編碼方案被編碼的頻帶時,當比特不足時,R2可按照與R3相同的方式產(chǎn)生頻帶。R5表示針對其執(zhí)行通過分配的比特的低頻編碼方案的頻帶,R4表示這樣的頻帶,其中,對于該頻帶,由于沒有額外的比特或者由于分配的比特較少而應(yīng)該添加噪聲,因此即使針對低頻信號也不能執(zhí)行編碼。因此,可通過確定噪聲是否被添加來識別R4和R5,其中,確定噪聲是否被添加可根據(jù)在低頻編碼頻帶中頻譜數(shù)量的百分比被執(zhí)行,或者可基于當使用階乘脈沖編碼(FPC)時的帶內(nèi)脈沖分配信息被執(zhí)行。由于當在解碼處理中噪聲被添加到頻道R4和R5時可識別R4和R5頻帶,因此在編碼處理中可能不能清楚地識別頻帶R4和R5。頻帶R2到R5可具有將被編碼的互相不同的信息,并且不同的解碼方案可被應(yīng)用于頻帶R2到R5。
如圖2a所示,在低頻編碼區(qū)域R0中包含第170到第240頻譜系數(shù)的兩個頻帶是添加了噪聲的R4,并且在BWE區(qū)域R1中包含第241至第350頻譜系數(shù)的兩個頻帶以及包含第427到第639頻譜系數(shù)的兩個頻帶是將按照低頻編碼方案被編碼的R2。如圖2b所示,在低頻編碼區(qū)域R0中包含第202到第240頻譜系數(shù)的一個頻帶是添加了噪聲的R4,并且在BWE區(qū)域R1中包含第241到第639頻譜系數(shù)的所有的五個頻帶是將按照低頻編碼方案被編碼的R2。在圖2c所示的示意中,在低頻編碼區(qū)域R0中包含第144到第240頻譜系數(shù)的三個頻帶是添加了噪聲的R4,并且在BWE區(qū)域R1中不存在R2。一般來說,在低頻編碼區(qū)域R0中的R4可分布在高頻帶中,并且在BWE區(qū)域R1中的R2可不限于特定的頻帶。
圖3示出根據(jù)實施例的在寬帶(WB)中的高頻帶的子帶。采樣率為32KHz,并且640個MDCT頻譜系數(shù)之中的高頻帶可由14個頻帶形成。在100Hz的頻帶中包括四個頻譜系數(shù),因此400Hz的第一頻帶可包括16個頻譜系數(shù)。標號310表示6.4KHz到14.4KHz的高頻帶的子帶配置,并且標號330表示8.0KHz到16.0KHz的高頻帶的子帶配置。
圖4示出根據(jù)示例性實施例的音頻編碼設(shè)備的框圖。
圖4的音頻編碼設(shè)備可包括BWE參數(shù)產(chǎn)生單元410、低頻編碼單元430、高頻編碼單元450和多路復(fù)用單元470。這些組件可被整合到至少一個模塊并由至少一個處理器(未示出)實現(xiàn)。輸入信號可指示音樂、語音或音樂和語音的混合信號,并且可被主要劃分為語音信號和另一普通信號。在下文中,為了方便描述,輸入信號被稱為音頻信號。
參照圖4,BWE參數(shù)產(chǎn)生單元410可產(chǎn)生用于BWE的BWE參數(shù)。BWE參數(shù)可與激勵類別相應(yīng)。根據(jù)實施方案,BWE參數(shù)可包括激勵類別和其他參數(shù)。BWE參數(shù)產(chǎn)生單元410可基于信號特征以幀為單位產(chǎn)生激勵類別。具體地,BWE參數(shù)產(chǎn)生單元410可確定輸入信號具有語音特征還是音調(diào)特征,并可基于前者確定的結(jié)果來確定多個激勵類別中的一個。多個激勵類別可包括與語音有關(guān)的激勵類別、與音調(diào)音樂有關(guān)的激勵類別和與非音調(diào)音樂有關(guān)的激勵類別。確定的激勵類別可包括在比特流中并被傳輸。
低頻編碼單元430可對低頻帶信號進行編碼以產(chǎn)生編碼的頻譜系數(shù)。低頻編碼單元430也可對與低頻帶信號的能量有關(guān)的信息進行編碼。根據(jù)實施例,低頻編碼單元430可將低頻帶信號變換為頻域信號以產(chǎn)生低頻頻譜,并可對低頻頻譜進行量化以產(chǎn)生量化的頻譜系數(shù)。MDCT可被用于域變換,但實施例不限于此。金字塔矢量量化(PVQ)可被用于量化,但實施例不限于此。
高頻編碼單元450可對高頻帶信號進行編碼以產(chǎn)生用于在解碼器端中的BWE或比特分配所必需的參數(shù)。用于BWE所必需的參數(shù)可包括與高頻帶信號的能量有關(guān)的信息和附加信息。能量可被表示為包絡(luò)、比例因子、平均功率或每個頻帶的范數(shù)。附加信息是關(guān)于高頻帶中的包括重要頻率組份的頻帶的,并可以是與特定的高頻帶中包括的頻率組份有關(guān)的信息。高頻編碼單元450可通過將高頻帶信號變換為頻域信號來產(chǎn)生高頻頻譜,并可對與高頻頻譜的能量有關(guān)的信息進行量化。MDCT可被用于域變換,但實施例不限于此。矢量量化可被用于量化,但實施例不限于此。
多路復(fù)用單元470可產(chǎn)生包括以下參數(shù)的比特流:BWE參數(shù)(例如,激勵類別)、用于BWE或比特分配所必需的參數(shù)以及低頻帶的編碼的頻譜系數(shù)。比特流可被傳輸并存儲。
頻域中的BWE方案可通過與時域編碼部分組合被應(yīng)用。碼激勵線性預(yù)測(CELP)方案主要可被用于時域編碼,并且時域編碼可被實現(xiàn)以便以CELP方案對低頻帶進行編碼,并可與時域中的BWE方案組合而不是與頻域中的BWE方案組合。在這種情況中,編碼方案可基于在時域編碼和頻域編碼之間的自適應(yīng)編碼方案確定被選擇性地應(yīng)用于整個編碼。為了選擇合適的編碼方案,需要信號分類,并且根據(jù)實施例,可通過優(yōu)先使用信號分類的結(jié)果來針對每個幀確定激勵類別。
圖5是根據(jù)實施例的圖4的BWE參數(shù)產(chǎn)生單元410的框圖。BWE參數(shù)產(chǎn)生單元410可包括信號分類單元510和激勵類別產(chǎn)生單元530。
參照圖5,信號分類單元510可通過以幀為單位分析輸入信號的特征來對當前幀是否是語音信號進行分類,并可根據(jù)分類結(jié)果確定激勵類別??墒褂酶鞣N公知的方法執(zhí)行信號分類,例如,通過使用短期特征和/或長期特征。短期特征和/或長期特征可以是頻域特征和/或時域特征。當當前幀被分類為時域編碼是合適的編碼方案的語音信號時,分配固定類型的激勵類別的方法可比基于高頻信號的特征的方法更有利于聲音質(zhì)量的提高。可在不考慮針對先前幀的分類結(jié)果的情況下對當前幀進行信號分類。換句話說,即使當通過考慮遲滯的當前幀可最終被分類為頻域編碼是合適的情況時,固定的激勵類別也可在當前幀自己被分類為時域編碼是合適的情況時被分配。例如,當當前幀被分類為時域編碼對其合適的語音信號時,激勵類別可被設(shè)置為與語音特征有關(guān)的第一激勵類別。
當作為信號分類單元510的分類的結(jié)果而當前幀未被分類為語音信號時,激勵類別產(chǎn)生單元530可通過使用至少一個閾值來確定激勵類別。根據(jù)實施例,當作為信號分類單元510的分類的結(jié)果而當前幀未被分類為語音信號時,激勵類別產(chǎn)生單元530可通過計算高頻帶的音調(diào)值并將計算出的音調(diào)值與閾值進行比較來確定激勵類別??筛鶕?jù)激勵類別的數(shù)量使用多個閾值。當單個閾值被使用并且計算出的音調(diào)值大于該閾值時,當前幀可被分類為音調(diào)音樂信號。另一方面,當單個閾值被使用并且計算出的音調(diào)值小于閾值時,當前幀可被分類為非音調(diào)音樂信號,例如,噪聲信號。當當前幀被分類為音調(diào)音樂信號時,激勵類別可被確定為與音調(diào)特征有關(guān)的第二激勵類別。換句話說,當當前幀被分類為噪聲信號時,激勵類別可被分類為與非音調(diào)特征有關(guān)的第三激勵類別。
圖6是根據(jù)示例性實施例的音頻解碼設(shè)備的框圖。
圖6的音頻解碼設(shè)備可包括多路解復(fù)用單元610、BWE參數(shù)解碼單元630、低頻解碼單元650和高頻解碼單元670。雖然在圖6中未示出,但音頻解碼設(shè)備還可包括頻譜組合單元和逆變換單元。這些組件可被整合到至少一個模塊中并由至少一個處理器(未示出)實現(xiàn)。輸入信號可指示音樂、語音或音樂和語音的混合信號,并可被主要劃分為語音信號和另一普通信號。在下文中,為了方便描述,輸入信號被稱為音頻信號。
參照圖6,多路解復(fù)用單元610可對接收的比特流進行解析以產(chǎn)生用于解碼所必需的參數(shù)。
BWE參數(shù)解碼單元630可對比特流中包括的BWE參數(shù)進行解碼。BWE參數(shù)可與激勵類別對應(yīng)。BWE參數(shù)可包括激勵類別和其他參數(shù)。
低頻解碼單元650可通過對比特流中包括的低頻帶的編碼的頻譜系數(shù)進行解碼來產(chǎn)生低頻頻譜。低頻解碼單元650也可對與低頻帶信號的能量有關(guān)的信息進行解碼。
高頻解碼單元670可通過使用解碼的低頻頻譜以及激勵類別來產(chǎn)生高頻激勵頻譜。根據(jù)另一實施例,高頻解碼單元670可對比特流中包括的用于BWE或比特分配所必需的參數(shù)進行解碼,并可將用于BWE或比特分配所必需的參數(shù)以及與低頻帶信號的能量相關(guān)的解碼的信息應(yīng)用于高頻激勵頻譜。
用于BWE所必需的參數(shù)可包括與高頻帶信號的能量相關(guān)的信息以及附加信息。附加信息是關(guān)于高頻帶中的包括重要頻率組份的頻帶的,并可以是與特定高頻帶中包括的頻率組份有關(guān)的信息。與高頻帶信號的能量有關(guān)的信息可被矢量反量化。
頻譜組合單元(未示出)可將由低頻解碼單元650提供的頻譜與由高頻解碼單元670提供的頻譜組合。逆變換單元(未示出)可將由頻譜組合造成的組合頻譜逆變換為時域信號。逆MDCT(IMDCT)可被用于逆變換,但實施例不限于此。
圖7是根據(jù)示例性實施例的高頻解碼設(shè)備的框圖。圖7的高頻解碼設(shè)備可與圖6的高頻解碼單元670對應(yīng),或可被實現(xiàn)為專用設(shè)備。圖7的高頻解碼設(shè)備可包括低頻頻譜修改單元710和高頻激勵頻譜產(chǎn)生單元730。雖然在圖7中未示出,但是高頻解碼設(shè)備還可包括接收解碼的低頻頻譜的接收單元。
參照圖7,低頻頻譜修改單元710可基于激勵類別修改低頻頻譜。根據(jù)實施例,解碼的低頻頻譜可以是填充了噪聲的頻譜。根據(jù)另一實施例,解碼的低頻頻譜可以是通過執(zhí)行噪聲填充并隨后執(zhí)行再將隨機符號和具有特定值的幅度的系數(shù)插入保持為零的頻譜部分中的抗稀疏處理而獲得的頻譜。
高頻激勵頻譜產(chǎn)生單元730可從修改后的低頻頻譜產(chǎn)生高頻激勵頻譜。此外,高頻激勵頻譜產(chǎn)生單元730可將增益應(yīng)用于產(chǎn)生的高頻激勵頻譜的能量,使得高頻激勵頻譜的能量與反量化后的能量相匹配。
圖8是根據(jù)實施例的圖7的低頻頻譜修改單元710的框圖。圖8的低頻頻譜修改單元710可包括計算單元810。
參照圖8,計算單元810可通過基于激勵類別針對解碼的低頻頻譜執(zhí)行預(yù)定計算來產(chǎn)生修改的低頻頻譜。解碼的低頻頻譜可與噪聲填充后的頻譜、抗稀疏處理后的頻譜或未添加噪聲的反量化后的低頻頻譜相應(yīng)。預(yù)定計算可表示根據(jù)激勵類別確定權(quán)重并基于確定的權(quán)重將解碼的低頻頻譜與隨機噪聲進行混合的處理。預(yù)定計算可包括乘法處理和加法處理。隨機噪聲可以以各種公知的方法產(chǎn)生,例如,使用隨機種子。計算單元810還可包括在預(yù)定計算之前將白化后的低頻頻譜與隨機噪聲相匹配以使得白化后的低頻頻譜的等級彼此相似的處理。
圖9是根據(jù)另一實施例的圖7的低頻頻譜修改單元710的框圖。圖9的低頻頻譜修改單元710可包括白化單元910、計算單元930和等級調(diào)整單元950。等級調(diào)整單元950可被可選地包括。
參照圖9,白化單元910可對解碼的低頻頻譜執(zhí)行白化。通過噪聲填充或抗稀疏處理,可將噪聲添加到解碼的低頻頻譜中保持為零的部分。噪聲添加可以以子帶為單位被選擇性地執(zhí)行。白化是基于低頻頻譜的包絡(luò)信息的歸一化,并且白化可使用各種公知的方法被執(zhí)行。具體地,歸一化可與從低頻頻譜計算包絡(luò)并根據(jù)包絡(luò)劃分低頻頻譜相應(yīng)。在白化過程中,頻譜具有平坦的形狀,并且內(nèi)部頻率的精細結(jié)構(gòu)可被保持。可根據(jù)信號特征確定用于歸一化的窗口大小。
計算單元930可通過基于激勵類別針對白化后的低頻頻譜執(zhí)行預(yù)定計算來產(chǎn)生修改的低頻頻譜。預(yù)定計算可指以下處理:根據(jù)激勵類別確定權(quán)重,并基于確定的權(quán)重將白化后的低頻頻譜與隨機噪聲混合。計算單元930可與圖8的計算單元810相同地進行操作。
圖10是根據(jù)另一實施例的圖7的低頻頻譜修改單元710的框圖。圖10的低頻頻譜修改單元710可包括動態(tài)范圍控制單元1010。
參照圖10,動態(tài)范圍控制單元1010可通過基于激勵類別控制解碼后的低頻頻譜的動態(tài)范圍來產(chǎn)生修改的低頻頻譜。動態(tài)范圍可指頻譜幅度。
圖11是根據(jù)另一實施例的圖7的低頻頻譜修改單元710的框圖。圖11的低頻頻譜修改單元710可包括白化單元1110和動態(tài)范圍控制單元1130。
參照圖11,白化單元1110可與圖9的白化單元910相同地進行操作。換句話說,白化單元1110可對解碼的低頻頻譜執(zhí)行白化。通過噪聲填充或抗稀疏處理,噪聲可被添加到在恢復(fù)的低頻頻譜中的保持為零的部分。噪聲添加可以以子帶為單位被選擇性地執(zhí)行。白化是基于低頻頻譜的包絡(luò)信息的歸一化,并可應(yīng)用各種公知的方法。具體地,歸一化可與從低頻頻譜計算包絡(luò)并根據(jù)包絡(luò)劃分低頻頻譜相應(yīng)。在白化過程中,頻譜具有平坦的形狀,并且內(nèi)部頻率的精細結(jié)構(gòu)可被保持。可根據(jù)信號特征確定用于歸一化的窗口大小。
動態(tài)范圍控制單元1130可通過基于激勵類別控制白化后的低頻頻譜的動態(tài)范圍來產(chǎn)生修改的低頻頻譜。
圖12是根據(jù)實施例的圖11的動態(tài)范圍控制單元1110的框圖。動態(tài)范圍控制單元1130可包括符號分離單元1210、控制參數(shù)確定單元1230、幅度調(diào)整單元1250、隨機符號產(chǎn)生單元1270和符號應(yīng)用單元1290。隨機符號產(chǎn)生單元1270可與符號應(yīng)用單元1290集成。
參照圖12,符號分離單元1210可通過從解碼后的低頻頻譜去除符號來產(chǎn)生幅度,即,絕對頻譜。
控制參數(shù)確定單元1230可基于激勵類別確定控制參數(shù)。由于激勵類別是與音調(diào)特征或平坦特征有關(guān)的信息,因此控制參數(shù)確定單元1230可基于激勵類別確定能夠控制絕對頻譜的幅度的控制參數(shù)。絕對頻譜的幅度可表示為動態(tài)范圍或峰谷間隔。根據(jù)實施例,控制參數(shù)確定單元1230可根據(jù)不同的激勵類別確定控制參數(shù)的不同的值。例如,當激勵類別與語音特征相關(guān)時,值0.2可被分配為控制參數(shù)。當激勵類別與音調(diào)特征相關(guān)時,值0.05可被分配為控制參數(shù)。當激勵類別與噪聲特征相關(guān)時,值0.8可被分配位控制參數(shù)。因此,在高頻帶中的具有噪聲特征的幀的情況下,控制幅度的程度可以大。
幅度調(diào)整控制單元1250可基于由控制參數(shù)確定單元1230確定的控制參數(shù)來調(diào)整低頻頻譜的幅度,即,動態(tài)范圍。在這種情況下,控制參數(shù)的值越大,動態(tài)范圍被控制的越大。根據(jù)實施例,可通過將原始絕對頻譜與預(yù)定大小的幅度相加或相減來控制動態(tài)范圍。預(yù)定大小的幅度可與通過將絕對頻譜中的特定頻帶的每個頻段的幅度與特定頻帶的平均幅度之間的差值與控制參數(shù)相乘而獲得的值相應(yīng)。幅度調(diào)整單元1250可用具有相同大小的頻帶構(gòu)造低頻頻譜并可處理構(gòu)造的低頻頻譜。根據(jù)實施例,每個頻帶可被構(gòu)造為包括16個頻譜系數(shù)??舍槍γ總€頻帶計算平均幅度,并且可基于每個頻帶的平均幅度和控制參數(shù)來控制每個頻帶中包括的每個頻段的幅度。例如,幅度比頻帶的平均幅度大的頻段減小它的幅度,并且幅度比頻帶的平均幅度小的頻段增大它的幅度??刂苿討B(tài)范圍的程度可根據(jù)激勵類別的類型而變化。具體地,可根據(jù)等式1執(zhí)行動態(tài)范圍控制。
[等式1]
S'[i]=S[i]-(S[i]-m[k])*a
其中S'[i]表示動態(tài)范圍被控制的頻段i的幅度,S[i]表示頻段i的幅度,m[k]表示頻段i屬于的頻帶的平均幅度,a表示控制參數(shù)。根據(jù)實施例,每個幅度可以是絕對值。因此,可以以頻帶的頻譜系數(shù)(即,頻段)為單位執(zhí)行動態(tài)范圍控制??梢砸灶l帶為單位計算平均幅度,并且可以以幀為單位應(yīng)用控制參數(shù)。
可基于將被執(zhí)行換位的開始頻率來構(gòu)造每個頻帶。例如,每個頻帶可被構(gòu)造為包括從換位頻段2開始的16個頻段。具體地,在超寬帶(SWB)的情況下,可存在以24.4kbps在頻段145結(jié)束的9個頻帶,并可存在以32kbps在頻段129結(jié)束的8個頻帶。在全頻帶(FB)的情況下,可存在以24.4kbps在頻段305結(jié)束的19個頻帶,并可存在以32kbps在頻段289結(jié)束的18個頻帶。
當基于激勵類別確定隨機符號是必要的時,隨機符號產(chǎn)生單元1270可產(chǎn)生隨機符號??梢砸詭瑸閱挝划a(chǎn)生隨機符號。根據(jù)實施例,在激勵類別與噪聲特征相關(guān)的情況下,可應(yīng)用隨機符號。
符號應(yīng)用單元1290可通過將隨機符號或原始符號應(yīng)用于動態(tài)范圍已經(jīng)被控制的低頻頻譜來產(chǎn)生修改的低頻頻譜。原始符號可以是由符號分離單元1210去除的符號。根據(jù)實施例,在激勵類別與噪聲特征相關(guān)的情況下,可應(yīng)用隨機符號。在激勵類別與音調(diào)特征或語音特征相關(guān)的情況下,可應(yīng)用原始信號。具體地,在被確定為嘈雜的幀的情況下,可應(yīng)用隨機符號。在被確定為具有音調(diào)或是語音信號的幀的情況下,可應(yīng)用原始符號。
圖13是根據(jù)實施例的圖7的高頻激勵頻譜產(chǎn)生單元730的框圖。圖13的高頻激勵頻譜產(chǎn)生單元730可包括頻譜修補單元1310和頻譜調(diào)整單元1330。頻譜調(diào)整單元1330可被可選擇地包括。
參照圖13,頻譜修補單元1310可通過修補(例如,將修改的低頻頻譜換位、復(fù)制、鏡像或折疊到高頻帶)來用頻譜填充空的高頻帶。根據(jù)實施例,在50Hz到3250Hz的源頻帶中存在的修改的頻譜可被復(fù)制到8000Hz到11200Hz的頻帶,在50Hz到3250Hz的源頻帶中存在的修改的頻譜可被復(fù)制到112000Hz到14400Hz的頻帶,并且在2000Hz到3600Hz的源頻帶中存在的修改的頻譜可被復(fù)制到14400Hz到16000Hz的頻帶。通過這種處理,可從修改的低頻頻譜產(chǎn)生高頻激勵頻譜。
頻譜調(diào)整單元1330可調(diào)整從頻譜修補單元1310提供的高頻激勵頻譜,以便處理在由頻譜修補單元1310修補的頻帶之間的邊界處頻譜的不連續(xù)性。根據(jù)實施例,頻譜調(diào)整單元1330可利用由頻譜修補單元1310提供的高頻激勵頻譜的邊界周圍的頻譜。
如上所述產(chǎn)生的高頻激勵頻譜或調(diào)整后的高頻激勵頻譜可與解碼后的低頻頻譜進行組合,并可通過逆變換將由于組合而導致的組合后的頻譜產(chǎn)生為時域信號。高頻激勵頻譜和解碼的低頻頻譜可單獨地被逆變換并隨后被組合。IMDCT可被用于逆變換,但實施例不限于此。
在頻譜組合期間的頻帶的重疊部分可通過重疊-相加處理被重構(gòu)。可選地,在頻譜組合期間的頻帶的重疊部分可基于通過比特流發(fā)送的信息被重構(gòu)。可選地,可根據(jù)接收側(cè)的環(huán)境來應(yīng)用重疊-相加處理或基于傳輸信息的處理,或者可基于權(quán)重重構(gòu)頻帶的重疊部分。
圖14是用于描述平滑在頻帶邊界的權(quán)重的曲線。參照圖14,因為第K+2頻帶的權(quán)重和第K+1頻帶的權(quán)重彼此不同,所以在頻帶邊界進行平滑是必要的。在圖14的示例中,因為第K+1頻帶的權(quán)重Ws(K+1)為0,所以不針對第K+1頻帶執(zhí)行平滑而僅針對第K+2頻帶執(zhí)行平滑,并且當針對第K+1頻帶執(zhí)行平滑時,第K+1頻帶的權(quán)重Ws(K+1)不為0,在這種情況下,在第K+1頻帶中的隨機噪聲也應(yīng)該被考慮。換句話說,當產(chǎn)生高頻激勵頻譜時,權(quán)重0表示在相應(yīng)頻帶中不考慮隨機噪聲。權(quán)重0相應(yīng)于極限音調(diào)信號,并且隨機噪聲不被考慮以防止通過由于隨機噪聲而被插入到諧波信號的谷持續(xù)時間中的噪聲產(chǎn)生嘈雜的聲音。
當除了低頻能量傳輸方案之外的方案(例如,矢量量化(VQ)方案)被應(yīng)用于高頻能量時,可通過在標量量化之后使用無損編碼來傳輸?shù)皖l能量,并且可在以另一方案進行量化之后傳輸高頻能量。在這種情況下,在低頻編碼區(qū)域R0中的最后一個頻帶和BWE區(qū)域R1中的第一個頻帶可互相重疊。此外,BWE區(qū)域R1中的頻帶可按照另一方案被配置以具有用于頻帶分配的相對緊密的結(jié)構(gòu)。
例如,在低頻編碼區(qū)域R0中的最后一個頻帶可在8.2KHz結(jié)束,并且在BWE區(qū)域R1中的第一頻帶可從8KHz開始。在這種情況下,在低頻編碼區(qū)域R0和BWE區(qū)域R1之間存在重疊區(qū)域。因此,可在重疊區(qū)域中產(chǎn)生兩個解碼的頻譜。一個解碼的頻譜是通過應(yīng)用低頻解碼方案產(chǎn)生的頻譜,另一解碼的頻譜是通過應(yīng)用高頻解碼方案產(chǎn)生的頻譜。重疊和相加方案可被應(yīng)用,使得兩個頻譜(例如,低頻頻譜和高頻頻譜)之間的過渡更平滑。例如,可通過同時使用兩個頻譜來重新配置重疊區(qū)域,其中,針對接近重疊區(qū)域中的低頻的頻譜增大按照低頻方案產(chǎn)生的頻譜的貢獻,并且針對接近重疊區(qū)域中的高頻的頻譜增大按照高頻方案產(chǎn)生的頻譜的貢獻。
例如,當?shù)皖l編碼區(qū)域R0中的最后一個頻帶在8.2KHz結(jié)束并且BWE區(qū)域R1中的第一頻帶從8KHz開始時,如果以32KHz的采樣率構(gòu)造640個采樣的頻譜,則八個頻譜(例如,第320個頻譜到第327個頻譜)重疊,并且可使用等式2產(chǎn)生這八個頻譜。
[等式2]
其中表示按照低頻方案解碼的頻譜,表示按照高頻方案解碼的頻譜,L0表示高頻的開始頻譜的位置,L0~L1表示重疊區(qū)域,并且w0表示貢獻。
圖15是用于描述根據(jù)實施例的在解碼端進行BWE處理之后將被用于產(chǎn)生在重疊區(qū)域中存在的頻譜的貢獻。
參照圖15,wo0(k)和wo1(k)可被選擇性地應(yīng)用于wo(k),其中,wo0(k)表示相同的權(quán)重被應(yīng)用于低頻和高頻解碼方案,wo1(k)表示較大的權(quán)重被應(yīng)用于高頻解碼方案。針對wo(k)的各種選擇標準之中的示例是是否低頻的重疊頻帶中的存在脈沖。當?shù)皖l的重疊頻帶中的脈沖已經(jīng)被選擇并被編碼時,wo0(k)被用于對在L1的附近有效的低頻處產(chǎn)生的頻譜做出貢獻,并被用于減少高頻的貢獻。基本上,按照實際編碼方案產(chǎn)生的頻譜可比通過BWE產(chǎn)生的信號的頻譜更接近原始信號。通過使用這種方法,在重疊頻帶中,可應(yīng)用用于增大更接近原始信號的頻譜的貢獻的方案,并且因此,可期望平滑效果和音質(zhì)的提高。
圖16是示出根據(jù)示例性實施例的包括解碼模塊的多媒體裝置的配置的框圖。
圖16中示出的多媒體裝置1600可包括通信單元1610和解碼模塊1630。此外,根據(jù)音頻比特流的使用,還可包括用于存儲作為編碼結(jié)果而獲得的音頻比特流的存儲單元1650。此外,多媒體裝置1600還可包括揚聲器1670。即,可選擇性地提供存儲單元1650和揚聲器1670。圖16中示出的多媒體裝置1600還可包括任意的編碼模塊(未示出),例如,用于執(zhí)行通用編碼功能的編碼模塊或根據(jù)示例性實施例的編碼模塊。這里,解碼模塊1630可與提供給多媒體裝置1600的其他組件(未示出)集成,并被實現(xiàn)為至少一個處理器(未示出)。
參照圖16,通信單元1610可接收從外部提供的音頻和編碼的比特流中的至少一個,或者可發(fā)送以下項中的至少一個:作為解碼模塊1630的解碼結(jié)果而獲得的重構(gòu)的音頻信號、和作為編碼結(jié)果獲得的音頻比特流。通信單元1610被配置為能夠通過無線網(wǎng)絡(luò)(諸如無線互聯(lián)網(wǎng)、無線內(nèi)部網(wǎng)、無線電話網(wǎng)絡(luò)、無線局域網(wǎng)(LAN)、Wi-Fi網(wǎng)絡(luò)、Wi-Fi直連(WFD)網(wǎng)絡(luò)、第三代(3G)網(wǎng)絡(luò)、4G網(wǎng)絡(luò)、藍牙網(wǎng)絡(luò)、紅外數(shù)據(jù)協(xié)會(IrDA)網(wǎng)絡(luò)、無線射頻識別(RFID)網(wǎng)絡(luò)、超寬帶(UWB)網(wǎng)絡(luò)、ZigBee網(wǎng)絡(luò)和近場通信(NFC)網(wǎng)絡(luò))或有線網(wǎng)絡(luò)(諸如有線電話網(wǎng)絡(luò)或有線互聯(lián)網(wǎng))向外部的多媒體裝置或服務(wù)器發(fā)送數(shù)據(jù)并從外部的多媒體裝置或服務(wù)器接收數(shù)據(jù)。
解碼模塊1630可通過通信單元1610提供的比特流,并對比特流中包括的音頻頻譜進行解碼??墒褂蒙鲜龅慕獯a設(shè)備或隨后將被描述的解碼方法執(zhí)行解碼,但實施例不限于此。
存儲單元1650可存儲由解碼模塊1630產(chǎn)生的重構(gòu)的音頻信號。存儲單元1650也可存儲操作多媒體裝置1600所需要的各種程序。
揚聲器1670可向外部輸出由解碼模塊1630產(chǎn)生的重構(gòu)的音頻信號。
圖17是示出根據(jù)另一示例性實施例的包括編碼模塊和解碼模塊的多媒體裝置的配置的框圖。
圖17中示出的多媒體裝置1700可包括通信單元1700、編碼模塊1720和解碼模塊1730。此外,根據(jù)音頻比特流或重構(gòu)的音頻信號的使用,還可包括用于存儲作為編碼結(jié)果而獲得的音頻信號或作為解碼結(jié)果而獲得的重構(gòu)的音頻信號的存儲單元1740。此外,多媒體裝置1700還可包括麥克風1750或揚聲器1760。這里,編碼模塊1720和解碼模塊1730可與提供給多媒體裝置1700的其他組件(未示出)集成,并被實現(xiàn)為至少一個處理器(未示出)。
省略對圖17中示出的組件之中的與圖16中示出的多媒體裝置1600的組件相同的組件的詳細描述。
根據(jù)實施例,編碼模塊1720可對通過通信單元1710或麥克風1750提供的時域中的音頻信號進行編碼??墒褂蒙鲜龅木幋a設(shè)備執(zhí)行編碼,但實施例不限于此。
麥克風1750可向編碼模塊1720提供用戶或外部的音頻信號。
圖16中示出的多媒體裝置1600和圖17中示出的多媒體裝置1700可包括包含電話或手機的語音通信專用終端、包含TV或MP3播放器的廣播或音樂專用裝置或語音通信專用終端和廣播或音樂專用裝置的混合終端,但不限于此。此外,多媒體裝置1600或1700可被用作布置在客戶端、服務(wù)器中或布置在客戶端和服務(wù)器之間的換能器。
當多媒體裝置1600或1700例如是手機時,盡管未示出,但還可包括用戶輸入單元(諸如,鍵盤)、用于顯示用戶界面或由手機處理的信息的顯示單元、以及用于控制手機的一般功能的處理器。此外,手機還可包括具有圖像拍攝功能的照相機單元以及用于執(zhí)行由移動電話所需要的功能的至少一個組件。
當多媒體裝置1600或1700例如是TV時,盡管未示出,但還可包括用戶輸入單元(諸如,鍵盤)、用于顯示接收的廣播信息的顯示單元、以及用于控制TV的一般功能的處理器。此外,TV還可包括用于執(zhí)行由TV所需要的功能的至少一個組件。
圖18是根據(jù)示例性實施例的高頻解碼方法的流程圖。圖18的高頻解碼方法可由圖7的高頻解碼單元670執(zhí)行或可由特定處理器執(zhí)行。
參照圖18,在操作1810,對激勵類別進行解碼。激勵類別可由編碼器端產(chǎn)生,并且可被包括在比特流中并被發(fā)送到解碼器端??蛇x擇地,激勵類別可由解碼器端產(chǎn)生。激勵類別可以幀為單位獲得。
在操作1830,可接收從比特流中包括的低頻頻譜的量化指數(shù)解碼的低頻頻譜。量化指數(shù)可以是例如頻帶之間的差分指數(shù),而不是最低頻帶。低頻頻譜的量化指數(shù)可被矢量反量化。PVQ可被用于矢量反量化,但實施例不限于此。解碼的低頻頻譜可通過針對反量化結(jié)果執(zhí)行噪聲填充而產(chǎn)生。噪聲填充是通過被量化為零來填充在頻譜中存在的間隙。偽隨機噪聲可被插入到間隙內(nèi)??深A(yù)設(shè)進行噪聲填充的頻段部分。可根據(jù)通過比特流傳輸?shù)膮?shù)來控制插入到間隙內(nèi)的噪聲的量。已經(jīng)執(zhí)行了噪聲填充的低頻頻譜可另外被反量化。已經(jīng)執(zhí)行了噪聲填充的低頻頻譜可另外經(jīng)過抗稀疏處理。為了實現(xiàn)抗稀疏處理,具有隨機符號和特定幅度值的系數(shù)可被插入到在已經(jīng)執(zhí)行了噪聲填充的低頻頻譜內(nèi)的保持為零的系數(shù)部分。已經(jīng)執(zhí)行了抗稀疏處理的低頻頻譜的能量可另外基于低頻帶的反量化后的包絡(luò)被控制。
在操作1850,可基于激勵類別修改解碼的低頻頻譜。解碼的低頻頻譜可相應(yīng)于反量化后的頻譜、噪聲填充處理后的頻譜或抗稀疏處理后的頻譜。解碼的低頻頻譜的幅度可根據(jù)激勵類別被控制。例如,幅度的減小可取決于激勵類別。
在操作1870,可使用修改的低頻頻譜產(chǎn)生高頻激勵頻譜??赏ㄟ^將修改后的低頻頻譜補到用于BWE所需要的高頻帶來產(chǎn)生高頻激勵頻譜。修補方法的示例可以是將預(yù)設(shè)部分復(fù)制或折疊到高頻帶。
圖19是根據(jù)示例性實施例的低頻頻譜修改方法的流程圖。圖19的低頻頻譜修改方法可相應(yīng)于圖18的操作1850或可獨立地實現(xiàn)。圖19的低頻頻譜修改方法可由圖7的低頻頻譜修改單元710執(zhí)行或可由特定的處理器執(zhí)行。
參照圖19,在操作1910,可基于激勵類別確定幅度控制程度。具體地,在操作1910,可基于激勵類別產(chǎn)生控制范數(shù),以便確定幅度控制程度。根據(jù)實施例,可根據(jù)激勵類別表示語音特征、音調(diào)特征還是非音調(diào)特征來確定控制參數(shù)的值。
在操作1930,可基于確定的幅度控制程度控制低頻頻譜的幅度。當激勵類別代表語音特征或音調(diào)特征時,與當激勵類別代表非音調(diào)特征時相比,產(chǎn)生具有更大的值的控制參數(shù)。因此,幅度的減小可增大。作為幅度控制的示例,可根據(jù)通過將每個頻段的幅度之間的差值(例如,每個頻段的范數(shù)值與相應(yīng)頻帶的平均范數(shù)值之間的差值)與控制參數(shù)相乘而獲得的值減少幅度。
在操作1950,可將符號應(yīng)用于幅度被控制的低頻頻譜。根據(jù)激勵類別,可應(yīng)用原始符號或隨機符號。例如,當激勵類別代表語音特征或音調(diào)特征時,可應(yīng)用原始符號。當激勵類別代表無語音特征時,可應(yīng)用隨機符號。
在操作1970,可將已經(jīng)在操作1950中應(yīng)用了符號的低頻頻譜產(chǎn)生為修改后的低頻頻譜。
根據(jù)實施例的方法可通過計算機可執(zhí)行程序編輯,并在通用數(shù)字計算機中實現(xiàn),以通過使用計算機可讀記錄介質(zhì)執(zhí)行所述程序。此外,可在本發(fā)明的實施例中使用的數(shù)據(jù)結(jié)構(gòu)、程序指令或數(shù)據(jù)文件可通過各種方法被記錄在計算機可讀記錄介質(zhì)中。計算機可讀記錄介質(zhì)可包括用于存儲可由計算機系統(tǒng)讀取的數(shù)據(jù)的所有類型的存儲裝置。計算機可讀記錄介質(zhì)的示例包括磁性介質(zhì)(諸如硬盤、軟盤或磁帶)、光學介質(zhì)(諸如致密盤-只讀存儲器(CD-ROMs)或數(shù)字通用盤(DVD))、磁光介質(zhì)(諸如軟光盤)和被專門配置為存儲和執(zhí)行程序指令的硬件裝置,諸如,ROM、RAM或閃存。此外,計算機可讀記錄介質(zhì)可以是用于傳輸指定程序指令、數(shù)據(jù)結(jié)構(gòu)等的信號的傳輸介質(zhì)。程序指令的示例包括可由計算機使用解釋器執(zhí)行的高級語言代碼以及可由編譯器生成的機器語言代碼。
盡管已經(jīng)參照有限的實施例和附圖描述了本發(fā)明的實施例,但是本發(fā)明的實施例不限于上述描述的實施例,并且本領(lǐng)域中的普通技術(shù)人員可從本公開不同地實施本發(fā)明的實施例的更新和修改。因此,本發(fā)明的范圍不是由以上描述而是由權(quán)利要求限定,并且所有它們的一致的或等同的修改將屬于本發(fā)明的技術(shù)理念的范圍。