專利名稱:譯碼及解碼瞬時幀的制作方法
技術領域:
本發(fā)明大體來說涉及信號處理。更具體來說,本發(fā)明涉及譯碼及解碼一瞬時幀。
背景技術:
在過去的幾十年中,電子裝置的使用已變得常見。特定來說,電子技術的進步已減少了越加復雜且有用的電子裝置的成本。成本減少及消費者需求已使電子裝置的使用激增,以致電子裝置在現代社會中實際上為普遍存在的。隨著電子裝置的使用擴大,對于電子裝置的新的且改進的特征的需求也擴大。更具體來說,常常尋找更快更有效率地或以較高質量執(zhí)行功能的電子裝置。一些電子裝置(例如,蜂窩式電話、智能電話、計算機等)使用音頻或語音信號。這些電子裝置可編碼語音信號以用于存儲或發(fā)射。舉例來說,蜂窩式電話使用麥克風俘獲用戶的話音或語音。舉例來說,蜂窩式電話使用麥克風將聲學信號轉換成電子信號。接著可將此電子信號格式化以用于發(fā)射到另一裝置(例如,蜂窩式電話、智能電話、計算機等)或用于存儲。舉例來說,發(fā)射或發(fā)送一未經壓縮的語音信號在帶寬及/或存儲資源方面可為昂貴的。存在試圖更有效率地(例如,使用較少數據)表示一語音信號的一些方案。然而,這些方案可能不會很好地表示語音信號的一些部分,從而導致降級的性能。如從前述論述可理解,改進信號譯碼的系統(tǒng)及方法可為`有益的。
發(fā)明內容
揭示一種用于譯碼瞬時幀的電子裝置。所述電子裝置包括處理器,及存儲于與所述處理器電子連通的存儲器中的可執(zhí)行指令。所述電子裝置獲得當前瞬時幀。所述電子裝置還基于所述當前瞬時幀而獲得殘余信號。所述電子裝置另外基于所述殘余信號而確定峰值位置集合。此外,所述電子裝置至少基于所述峰值位置集合而確定是使用第一譯碼模式還是第二譯碼模式來譯碼所述當前瞬時幀。如果確定所述第一譯碼模式,則所述電子裝置還基于所述第一譯碼模式而合成激勵。如果確定所述第二譯碼模式,則所述電子裝置另外基于所述第二譯碼模式而合成激勵。所述電子裝置還可基于所述激勵及所述當前瞬時幀而確定多個比例因子。所述第一譯碼模式可為“濁音瞬時(voiced transient)”譯碼模式且所述第二譯碼模式可為“其它瞬時”譯碼模式。確定是使用第一譯碼模式還是第二譯碼模式可進一步基于音調滯后(Pitch lag)、先前幀類型及能量比。確定峰值位置集合可包括基于所述殘余信號的樣本的絕對值及窗口信號而計算包絡信號,及基于所述包絡信號與所述包絡信號的時間移位版本之間的差異而計算第一梯度信號。確定峰值位置集合可進一步包括基于所述第一梯度信號與所述第一梯度信號的時間移位版本之間的差異而計算第二梯度信號,及選擇第二梯度信號值降低到第一閾值以下的第一位置索引集合。確定峰值位置集合還可包括通過消除包絡值降低到相對于包絡中的最大值的第二閾值以下的位置索引而從所述第一位置索引集合確定第二位置索引集合,及通過消除不滿足相對于相鄰位置索引的差異閾值的位置索引而從所述第二位置索引集合確定第三位置索引集合。所述電子裝置還可使用所述當前瞬時幀及在所述當前瞬時幀之前的信號執(zhí)行線性預測分析以獲得線性預測系數集合,且基于所述線性預測系數集合而確定經量化線性預測系數集合。獲得所述殘余信號可進一步基于所述經量化線性預測系數集合。確定是使用所述第一譯碼模式還是所述第二譯碼模式可包括確定峰值的所估計數目,及在峰值位置的數目大于或等于峰值的所述所估計數目的情況下,選擇所述第一譯碼模式。確定是使用所述第一譯碼模式還是所述第二譯碼模式另外可包括在所述峰值位置集合中的最后峰值在距所述當前瞬時幀的結束第一距離內且所述峰值位置集合中的第一峰值在距所述當前瞬時幀的開始第二距離內的情況下,選擇所述第一譯碼模式。確定是使用所述第一譯碼模式還是所述第二譯碼模式另外可包括在先前幀與所述當前瞬時幀之間的能量比在預定范圍外的情況下,選擇所述第二譯碼模式,及在所述先前幀的幀類型為清音或靜音的情況下,選擇所述第二譯碼模式??苫谝粽{滯后而確定所述第一距離且可基于所述音調滯后而確定所述第二距離。基于所述第一譯碼模式而合成激勵可包括基于先前幀中的最后峰值位置及所述當前瞬時幀的音調滯后而確定所述當前瞬時幀中的最后峰值的位置。基于所述第一譯碼模式而合成激勵還可包括使用波形內插法使用基于所述音調滯后及譜形的原型波形在所述先前幀的最后樣本與所述當前瞬時幀中的所述最后峰值的第一樣本位置之間合成所述激勵。基于所述第二譯碼模式而合成激勵可包括通過以第一位置開始重復地置放原型波形而合成所述激勵??苫趤碜运龇逯滴恢眉系牡谝环逯滴恢枚_定所述第一位置。所述原型波形可基于音調滯后及譜形,且可重復地將所述原型波形置放若干次數,所述次數是基于所述音調滯后、所述第一位置及幀大小。還揭示一種用于解碼瞬時幀的電子裝置。所述電子裝置包括處理器,及存儲于與所述處理器電子連通的存儲器中的可執(zhí)行指令。所述電子裝置獲得幀類型,且如果所述幀類型指示瞬時幀,則所述電子裝置獲得瞬時譯碼模式參數并基于所述瞬時譯碼模式參數而確定是使用第一譯碼模式還是第二譯碼模式。如果所述幀類型指示瞬時幀,則所述電子裝置還在確定使用所述第一譯碼模式的情況下基于所述第一譯碼模式而合成激勵,且在確定使用所述第二譯碼模式的情況下基于所述第二譯碼模式而合成激勵。所述電子裝置還可獲得音調滯后參數并基于所述音調滯后參數而確定音調滯后。所述電子裝置還可獲得多個比例因子并基于所述多個比例因子而按比例調整所述激勵。所述電子裝置還可獲得經量化線性預測系數參數并基于所述經量化線性預測系數參數而確定經量化線性預測系數集合。所述電子裝置還可基于所述激勵信號及所述經量化線性預測系數集合而產生經合成語音信號。
基于所述第一譯碼模式而合成所述激勵可包括基于先前幀中的最后峰值位置及當前瞬時幀的音調滯后而確定所述當前瞬時幀中的最后峰值的位置。基于所述第一譯碼模式而合成所述激勵還可包括使用波形內插法使用基于所述音調滯后及譜形的原型波形在所述先前幀的最后樣本與所述當前瞬時幀中的所述最后峰值的第一樣本位置之間合成所述激勵?;谒龅诙g碼模式而合成激勵可包括獲得第一峰值位置,及通過以第一位置開始重復地置放原型波形而合成所述激勵??苫谒龅谝环逯滴恢枚_定所述第一位置。所述原型波形可基于所述音調滯后及譜形且可重復地將所述原型波形置放若干次數,所述次數是基于音調滯后、所述第一位置及幀大小。還揭示一種用于在電子裝置上譯碼瞬時幀的方法。所述方法包括獲得當前瞬時幀。所述方法還包括基于所述當前瞬時幀而獲得殘余信號。所述方法進一步包括基于所述殘余信號而確定峰值位置集合。所述方法另外包括至少基于所述峰值位置集合而確定是使用第一譯碼模式還是第二譯碼模式來譯碼所述當前瞬時幀。此外,所述方法包括在確定所述第一譯碼模式的情況下,基于所述第一譯碼模式而合成激勵。所述方法還包括在確定所述第二譯碼模式的情況下,基于所述第二譯碼模式而合成激勵。還揭示一種用于在電子裝置上解碼瞬時幀的方法。所述方法包括獲得幀類型。如果所述幀類型指示瞬時幀,則所述方法還包括獲得瞬時譯碼模式參數并基于所述瞬時譯碼模式參數而確定是使用第一譯碼模式還是第二譯碼模式。如果所述幀類型指示瞬時幀,則所述方法還包括在確定使用所述第一譯碼模式的情況下,基于所述第一譯碼模式而合成激勵,及在確定使用所述第二譯碼模式的情況下,基于所述第二譯碼模式而合成激勵。還揭示一種用于譯碼瞬時幀的計算機程序產品。所述計算機程序產品包括具有指令的非暫時性有形計算機可讀媒體。所述指令包括用于使電子裝置獲得當前瞬時幀的代碼。所述指令還包括用于使所述電子裝置基于所述當前瞬時幀而獲得殘余信號的代碼。所述指令另外包括用于使所述電子裝置基于所述殘余信號而確定峰值位置集合的代碼。所述指令進一步包括用于使所述電子裝置至少基于所述峰值位置集合而確定是使用第一譯碼模式還是第二譯碼模式來譯碼所述當前瞬時幀的代碼。所述指令還包括用于使所述電子裝置在確定所述第一譯碼模式的情況下基于所述第一譯碼模式而合成激勵的代碼。此外,所述指令包括用于使所述電子裝置在確定所述第二譯碼模式的情況下基于所述第二譯碼模式而合成激勵的代碼。還揭示一種用于解碼瞬時幀的計算機程序產品。所述計算機程序產品包括具有指令的非暫時性有形計算機可讀媒體。所述指令包括用于使電子裝置獲得幀類型的代碼。如果所述幀類型指示瞬時幀,則所述指令還包括用于使所述電子裝置獲得瞬時譯碼模式參數的代碼,及用于使所述電子裝置基于所述瞬時譯碼模式參數而確定是使用第一譯碼模式還是第二譯碼模式的代碼。如果所述幀類型指示瞬時幀,則所述指令另外包括用于使所述電子裝置在確定使用所述第一譯碼模式的情況下基于所述第一譯碼模式而合成激勵的代碼,及用于使所述電子裝置在確定使用所述第二譯碼模式的情況下基于所述第二譯碼模式而合成激勵的代碼。還揭示一種用于譯碼瞬時幀的設備。所述設備包括用于獲得當前瞬時幀的裝置。所述設備還包括用于基于所述當前瞬時幀而獲得殘余信號的裝置。所述設備進一步包括用于基于所述殘余信號而確定峰值位置集合的裝置。另外,所述設備包括用于至少基于所述峰值位置集合而確定是使用第一譯碼模式還是第二譯碼模式來譯碼所述當前瞬時幀的裝置。所述設備進一步包括用于在確定所述第一譯碼模式的情況下基于所述第一譯碼模式而合成激勵的裝置。所述設備還包括用于在確定所述第二譯碼模式的情況下基于所述第二譯碼模式而合成激勵的裝置。還揭示一種用于解碼瞬時幀的設備。所述設備包括用于獲得幀類型的裝置。如果所述幀類型指示瞬時幀,則所述設備還包括用于獲得瞬時譯碼模式參數的裝置,及用于基于所述瞬時譯碼模式參數而確定是使用第一譯碼模式還是第二譯碼模式的裝置。如果所述幀類型指示瞬時幀,則所述設備進一步包括用于在確定使用所述第一譯碼模式的情況下基于所述第一譯碼模式而合成激勵的裝置,及用于在確定使用所述第二譯碼模式的情況下基于所述第二譯碼模式而合成激勵的裝置。
圖1為說明可實施用于譯碼瞬時幀的系統(tǒng)及方法的電子裝置的一個配置的框圖;圖2為說明用于譯碼瞬時幀的方法的一個配置的流程圖;圖3為說明用于譯碼瞬時幀的方法的更特定配置的流程圖;圖4為說明先前幀及當前瞬時幀的實例的曲線圖;圖5為說明先前幀及當前瞬時幀的另一實例的曲線圖;圖6為說明可實施用于譯碼瞬時幀的系統(tǒng)及方法的瞬時編碼器的一個配置的框圖;圖7為說明用于選擇譯碼模式的方法的一個配置的流程圖;圖8為說明用于合成激勵信號的方法的一個配置的流程圖;圖9為說明可實施用于解碼瞬時幀的系統(tǒng)及方法的瞬時解碼器的一個配置的框圖;圖10為說明用于解碼瞬時幀的方法的一個配置的流程圖;圖11為說明用于合成激勵信號的方法的一個配置的流程圖;圖12為說明可實施用于編碼瞬時幀的系統(tǒng)及方法的電子裝置的一個實例的框圖;圖13為說明可實施用于解碼瞬時幀的系統(tǒng)及方法的電子裝置的一個實例的框圖;圖14為說明一音調同步增益按比例調整及線性預測譯碼(LPC)合成塊/模塊的一個配置的框圖;圖15說明可在電子裝置中利用的各種組件;及圖16說明可包括于無線通信裝置內的特定組件。
具體實施例方式本文中所揭示的系統(tǒng)及方法可應用于多種電子裝置。電子裝置的實例包括聲音記錄器、攝像機、音頻播放器(例如,動畫專家組-1 (MPEG-1)或MPEG-2音頻層3 (MP3)播放器)、視頻播放器、音頻記錄器、桌上型計算機/膝上型計算機、個人數字助理(PDA)、游戲系統(tǒng)等。一種電子裝置為通信裝置,其可與另一裝置通信。通信裝置的實例包括電話、膝上型計算機、桌上型計算機、蜂窩式電話、智能電話、無線或有線調制解調器、電子閱讀器(e-reader)、平板裝置、游戲系統(tǒng)、蜂窩式電話基站或節(jié)點、接入點、無線網關及無線路由器。一電子裝置或通信裝置可根據特定工業(yè)標準而操作,例如國際電信聯盟(ITU)標準及/或電氣及電子工程師學會(IEEE)標準(例如,無線保真或“W1-Fi”標準,例如802.1la,802.1lb,802.Hg,802.1ln及/或802.1lac)。通信裝置可遵照的標準的其它實例包括IEEE802.16 (例如,微波接入全球互通或“WiMAX”)、第三代合作伙伴計劃(3GPP)、3GPP長期演進(LTE)、全球移動電信系統(tǒng)(GSM)及其它標準(其中通信裝置可被稱作(例如)用戶設備(UE)、節(jié)點B、演進型節(jié)點B(eNB)、移動裝置、移動臺、訂戶臺、遠程臺、接入終端、移動終端、終端、用戶終端、訂戶單元等)。雖然本文中所揭示的系統(tǒng)及方法中的一些系統(tǒng)及方法可能依據一個或一個以上標準來描述,但此情形不應限制本發(fā)明的范圍,這是因為所述系統(tǒng)及方法可適用于許多系統(tǒng)及/或標準。應注意,一些通信裝置可以無線方式通信及/或可使用有線連接或鏈路來通信。舉例來說,一些通信裝置可使用以太網協(xié)議與其它裝置通信。本文中所揭示的系統(tǒng)及方法可應用于以無線方式通信及/或使用有線連接或鏈路來通信的通信裝置。在一個配置中,本文中所揭示的系統(tǒng)及方法可應用于使用衛(wèi)星與另一裝置通信的通信裝置。本文中所揭示的系統(tǒng)及方法可應用于如下描述的通信系統(tǒng)的一個實例。在此實例中,本文中所揭示的系統(tǒng)及方法可提供低位速率(例如,2千位/秒(Kbps))語音編碼用于地球移動衛(wèi)星空中接口(GMSA)衛(wèi)星通信。更具體來說,本文中所揭示的系統(tǒng)及方法可用于集成的衛(wèi)星及移動通信網絡中。此些網絡可提供無縫、透明、可互操作及普遍存在的無線涵蓋?;谛l(wèi)星的服務可用于陸地涵蓋不可達到的遠程位置中的通信。舉例來說,此服務可用于人為災害或自然災害、廣播及/或船隊管理及資產追蹤。可使用L及/或S頻帶(無線)頻譜。在一個配置中,前向鏈路可使用Ix演進數據優(yōu)化(EV-DO)版本A空中接口作為用于空中衛(wèi)星鏈路的基礎技術。反向鏈路可使用頻分多路復用(FDM)。舉例來說,反向鏈路頻譜的1.25兆赫(MHz)塊可劃分成192個窄帶頻道,每一窄帶頻道具有6.4千赫(kHz)的帶寬??上拗品聪蜴溌窋祿俾省4饲樾慰商岢鰧τ诘臀凰俾示幋a的需要。在一些狀況下,例如,一信道可能僅能夠支持2.4Kbps。然而,在較佳信道條件下,2個FDM信道可能為可用的,從而有可能提供4.SKbps發(fā)射。在反向鏈路上,例如,可使用低位速率語音編碼器。此情形可允許2Kbps的固定速率用于反向鏈路上的單一 FDM信道指派的主動語音。在一個配置中,反向鏈路使用1/4卷積譯碼器用于基本信道譯碼。在一些配置中,除其它譯碼模式外或者與其它譯碼模式交替,還可使用本文中所揭示的系統(tǒng)及方法。舉例來說,除使用原型音調周期波形內插法的四分之一速率濁音譯碼外或者與使用原型音調周期波形內插法的四分之一速率濁音譯碼交替,還可使用本文中所揭示的系統(tǒng)及方法。在原型音調周期波形內插法(PPPWI)中,可使用原型波形來產生可替換實際波形的內插波形,從而允許減少的數目個樣本產生一經重建信號。舉例來說,PPPffI可在全速率或四分之一速率下可用及/或可產生一時間同步輸出。此外,可在PPPWI中在頻域中執(zhí)行量化。QQQ可用于濁音編碼模式(而非(例如)FQQ(有效二分之一速率))。QQQ為使用四分之一速率原型音調周期波形內插法(QPPP-WI)以40個位/幀(有效地,2千位/秒(kbps))編碼三個連續(xù)濁音幀的譯碼模式。FQQ為分別使用全速率PPP、QPPP及QPPP編碼三個連續(xù)濁音幀的譯碼模式。此情形實現4kbps的平均速率。后者可能不用于2kbps聲碼器中。應注意,可以一修改的方式使用四分之一速率原型音調周期(QPPP),其中無頻域中的原型表示的振幅的Λ編碼且具有13位線譜頻率(LSF)量化。在一個配置中,QPPP可使用13個位用于LSF,12個位用于原型波形振幅,6個位用于原型波形功率,7個位用于音調滯后及2個位用于模式,從而產生總共40個位。特定來說,本文中所揭示的系統(tǒng)及方法可用于一瞬時編碼模式(其可提供QPPP所需的種子)。此瞬時編碼模式(例如,在2Kbps聲碼器中)可使用統(tǒng)一模型用于譯碼上升瞬時、下降瞬時及濁音瞬時。本文中所揭示的系統(tǒng)及方法描述譯碼一個或一個以上瞬時音頻或語音幀。在一個配置中,本文中所揭示的系統(tǒng)及方法可使用殘余信號中的峰值的分析,及用于激勵中的峰值的置放及經合成激勵的線性預測譯碼(LPC)濾波的合適譯碼模型的確定。以非常低位速率譯碼語音信號中的瞬時幀是語音譯碼中的一個挑戰(zhàn)。瞬時幀通??蓸擞浺恍抡Z音事件的開始或結束。此些幀出現于清音語音與濁音語音的接合處。有時瞬時幀可包括爆破音及其它短語音事件。瞬時幀中的語音信號因此可能為不穩(wěn)定的,此情形使傳統(tǒng)譯碼方法在譯碼此些幀時不能令人滿意地執(zhí)行。舉例來說,許多傳統(tǒng)途徑使用相同方法來譯碼一用于規(guī)則濁音幀的瞬時幀。此情形可造成瞬時幀的低效率譯碼。本文中所揭示的系統(tǒng)及方法可改進瞬時幀的譯碼。現參看諸圖描述各種配置,其中相似參考數字可指示功能上類似的元件。如本文中諸圖中大體描述及說明的系統(tǒng)及方法可以廣泛多種不同配置來布置及設計。因此,如諸圖中所表示的若干配置的以下更詳細描述既定并不限制如所主張的范圍,而是僅表示系統(tǒng)及方法。圖1為說明可實施用于譯碼一瞬時幀的系統(tǒng)及方法的電子裝置102的一個配置的框圖?;蛘呋蛄硗?,用于解碼一瞬時幀的系統(tǒng)及方法可實施于電子裝置102中。電子裝置A102可包括一瞬時編碼器104。瞬時編碼器104的一個實例為線性預測譯碼(LPC)編碼器。瞬時編碼器104可由電子裝置A102使用以編碼一語音(或音頻)信號106。舉例來說,瞬時編碼器104通過估計或產生可用以合成語音信號106的一參數集合而將語音信號106的瞬時幀編碼成“經壓縮”格式。在一個配置中,此些參數可表示可用以合成語音信號106的音調(例如,頻率)、振幅及共振峰(例如,共振)的估計。電子裝置A102可獲得語音信號106。在一個配置中,電子裝置A102通過使用麥克風俘獲一聲學信號及/或對一聲學信號取樣而獲得語音信號106。在另一配置中,電子裝置A102接收來自另一裝置(例如,藍牙頭戴式耳機、通用串行總線(USB)驅動器、安全數字(SD)卡、網絡接口、無線麥克風等)的語音信號106。可將語音信號106提供到一成幀塊/模塊108。如本文中所使用,術語“塊/模塊”可用以指示一特定元件可以硬件、軟件或硬件與軟件兩者的組合來實施。電子裝置A102可使用成幀塊/模塊108將語音信號106分段成一個或一個以上幀110 (例如,一序列幀110)。舉例來說,幀110可包括特定數目個語音信號106樣本及/或包括一時間量(例如,10到20毫秒)的語音信號106。當將語音信號106分段成若干幀110時,可根據幀110所含有的信號而將幀110分類。舉例來說,可將幀110提供到一幀類型確定塊/模塊124,幀類型確定塊/模塊124可確定幀110是濁音幀、清音幀、靜音幀還是瞬時幀。在一個配置中,本文中所揭示的系統(tǒng)及方法可用以編碼瞬時幀。一瞬時幀(例如)可位于一個語音類別與另一語音類別之間的邊界上。舉例來說,語音信號106可從一清音聲音(例如,f> S、sh、th等)轉變到一濁音聲音(例如,a、e、1、0、u等)。一些瞬時類型包括上升瞬時(例如,當從語音信號106的清音部分轉變到濁音部分時)、爆破音、濁音瞬時(例如,線性預測譯碼(LPC)改變及音調滯后變化)及下降瞬時(例如,當從語音信號106的濁音部分轉變到清音或靜音部分(例如,詞結尾)時)。在兩個語音類別之間的幀110可為瞬時幀。此外,瞬時幀可經進一步分類為濁音瞬時幀或其它瞬時幀。本文中所揭示的系統(tǒng)及方法可有益地應用于瞬時幀。幀類型確定塊/模塊124可將一幀類型126提供到一編碼器選擇塊/模塊130及一譯碼模式確定塊/模塊184?;蛘呋蛄硗?,可將幀類型126提供到發(fā)射(TX)及/或接收(RX)塊/模塊160以用于發(fā)射到另一裝置(例如,電子裝置B168)及/或可將幀類型126提供到一解碼器162。編碼器選擇塊/模塊130可選擇一編碼器以譯碼幀110。舉例來說,如果幀類型126指示幀110為瞬時的,則編碼器選擇塊/模塊130可將瞬時幀134提供到瞬時編碼器104。然而,如果幀類型126指示幀110為并非瞬時(例如,濁音、清音、靜音等)的另一種幀136,則編碼器選擇塊/模塊130可將另一幀136提供到另一編碼器140。應注意,編碼器選擇塊/模塊130因此可產生一序列瞬時幀134及/或其它幀136。因此,除當前瞬時幀134外,還可通過編碼器選擇塊/模塊130來提供一個或一個以上先前幀134、136。在一個配置中,電子裝置A102可包括一個或一個以上其它編碼器140。下文給出關于此些其它編碼器的更多細節(jié)。瞬時編碼器104可使用線性預測譯碼(LPC)分析塊/模塊122來對一瞬時幀134執(zhí)行線性預測分析(例如,LPC分析)。應注意,LPC分析塊/模塊122或者或另外可使用來自先前幀110的一個或一個以上樣本。舉例來說,在先前幀110為一瞬時幀134的狀況下,LPC分析塊/模塊122可使用來自先前瞬時幀134的一個或一個以上樣本。此外,如果先前幀110為另一種幀(例如,濁音、清音、靜音等)136,則LPC分析塊/模塊122可使用來自先前其它幀136的一個或一個以上樣本。LPC分析塊/模塊122可產生一個或一個以上LPC系數120。LPC系數120的實例包括線譜頻率(LSF)及線譜對(LSP)??蓪PC系數120提供到一量化塊/模塊118,量化塊/模塊118可產生一個或一個以上經量化LPC系數116??蓪⒔浟炕疞PC系數116及來自一個或一個以上瞬時幀134的一個或一個以上樣本提供到殘余確定塊/模塊112,殘余確定塊/模塊112可用以確定一殘余信號114。舉例來說,殘余信號114可包括已將共振峰或共振峰的效應(例如,系數)從語音信號106中移除的語音信號106的瞬時幀134??蓪堄嘈盘?14提供到一峰值搜索塊/模塊128。峰值搜索塊/模塊128可搜索殘余信號114中的峰值。換句話說,瞬時編碼器104可搜索殘余信號114中的峰值(例如,高能量的區(qū))??勺R別這些峰值以獲得包括一個或一個以上峰值位置的峰值132的列表或集合。峰值132的列表或集合中的峰值位置可依據(例如)樣本數目及/或時間而指定。下文給出關于獲得峰值132的列表或集合的更多細節(jié)??蓪⒎逯?32的集合提供到譯碼模式確定塊/模塊184、音調滯后確定塊/模塊138及/或比例因子確定塊/模塊152。音調滯后確定塊/模塊138可使用峰值132的集合來確定一音調滯后142?!耙粽{滯后”可為瞬時幀134中的兩個連續(xù)音調尖峰之間的“距離”。音調滯后142可以(例如)樣本的數目及/或時間量來指定。在一些配置中,音調滯后確定塊/模塊138可使用峰值132的集合或音調滯后候選者(其可為峰值132之間的距離)的集合來確定音調滯后142。舉例來說,音調滯后確定塊/模塊138可使用一平均化或平滑化算法來根據一候選者集合確定音調滯后142??墒褂闷渌緩健?蓪⒂梢粽{滯后確定塊/模塊138確定的音調滯后142提供到譯碼模式確定塊/模塊184、激勵合成塊/模塊148及/或比例因子確定塊/模塊152。譯碼模式確定塊/模塊184可確定一用于瞬時幀134的譯碼模式(指示符或參數)186。在一個配置中,譯碼模式確定塊/模塊184可確定是使用第一譯碼模式用于瞬時幀134還是使用第二譯碼模式用于瞬時幀134。舉例來說,譯碼模式確定塊/模塊184可確定瞬時巾貞134為池音瞬時巾貞還是其它瞬時巾貞。譯碼模式確定塊/模塊184可使用一種或一種以上信息來作出此確定。舉例來說,譯碼模式確定塊/模塊184可使用峰值132的集合、音調滯后142、能量比182、幀類型126及/或其它信息來作出此確定??捎梢荒芰勘却_定塊/模塊180基于先前幀與當前瞬時幀134之間的能量比而確定能量比182。先前幀可為瞬時幀134或另一種幀136 (例如,靜音、濁音、清音等)。因此,瞬時編碼器塊/模塊104可識別瞬時幀134中的重要區(qū)。應注意,可識別這些區(qū),這是由于瞬時幀134可能并非非常均勻及/或穩(wěn)定。大體來說,瞬時編碼器104可識別殘余信號114中的峰值132的一集合并使用峰值132來確定一譯碼模式186。接著可使用選定譯碼模式186來“編碼”或“合成”瞬時巾貞134中的語音信號。譯碼模式確定塊/模塊184可產生指示一用于瞬時幀134的選定譯碼模式186的譯碼模式186。舉例來說,如果當前瞬時幀為“濁音瞬時”巾貞,則譯碼模式186可指示第一譯碼模式,或如果當前瞬時幀為“其它瞬時”幀,則譯碼模式186可指示第二譯碼模式。可將譯碼模式186發(fā)送(例如,提供)到激勵合成塊/模塊148、到存儲裝置、到一(本地)解碼器162及/或到一遠程解碼器174。舉例來說,可將譯碼模式186提供到TX/RX塊/模塊160,TX/RX塊/模塊160可格式化譯碼模式186并將譯碼模式186發(fā)送到電子裝置B168,在電子裝置B168中,可將譯碼模式186提供到一解碼器174。激勵合成塊/模塊148可基于譯碼模式186、音調滯后142及由原型波形產生塊/模塊144提供的原型波形146而產生或合成一激勵150。原型波形產生塊/模塊144可基于一譜形及/或一音調滯后142而產生原型波形146。可將激勵150、峰值132的集合、音調滯后142及/或經量化LPC系數116提供到一比例因子確定塊/模塊152,比例因子確定塊/模塊152可基于激勵150、峰值132的集合、音調滯后142及/或經量化LPC系數116而產生增益(例如,比例因子)154的一集合??蓪⒃鲆?54的集合提供到一增益量化塊/模塊156,增益量化塊/模塊156量化增益154的集合以產生經量化增益158的一集合。在一個配置中,可使用音調滯后142、經量化LPC系數116、經量化增益158、幀類型126及/或譯碼模式186來解碼瞬時幀,以便產生一經解碼語音信號。可將音調滯后142、經量化LPC系數116、經量化增益158、幀類型126及/或譯碼模式186發(fā)射到另一裝置、力口以存儲及/或加以解碼。在一個配置中,電子裝置A102可包括一發(fā)射(TX)及/或接收(RX)塊/模塊160。在當前幀110并非瞬時幀134而是某一其它種類的幀136的狀況下,另一編碼器140 (例如,靜音編碼器、四分之一速率原型音調周期(QPPP)編碼器、噪聲激勵線性預測(NELP)編碼器等)可用以編碼幀136。其它編碼器140可產生一經編碼非瞬時語音信號178,可將經編碼非瞬時語音信號178提供到TX/RX塊/模塊160。還可將一幀類型126提供到TX/RX塊/模塊160。TX/RX塊/模塊160可將經編碼非瞬時語音信號178及幀類型126格式化成一個或一個以上消息166以用于發(fā)射到另一裝置(例如,電子裝置B168)??墒褂靡粺o線及/或有線連接或鏈路來發(fā)射所述一個或一個以上消息166。在一些配置中,可通過衛(wèi)星、基站、路由器、開關及/或其它裝置或媒體來將所述一個或一個以上消息166中繼到電子裝置B168。電子裝置B168可使用一 TX/RX塊/模塊170接收所述一個或一個以上消息166,并解除格式化所述一個或一個以上消息166以產生語音信號信息172。舉例來說,TX/RX塊/模塊170可解調、解碼(并不與由解碼器174提供的語音信號解碼混淆)及/或以其它方式解除格式化所述一個或一個以上消息166。在當前巾貞并非瞬時巾貞134的狀況下,語音信號信息172可包括一經編碼非瞬時語音信號及一幀類型參數。電子裝置B168可包括解碼器174。解碼器174可包括一種或一種以上類型的解碼器,例如用于靜音幀的解碼器(例如,靜音解碼器)、用于清音幀的解碼器(例如,噪聲激勵線性預測(NELP)解碼器)、瞬時解碼器及/或用于濁音幀的解碼器(例如,四分之一速率原型音調周期(QPPP)解碼器)。語音信號信息172中的幀類型參數可用以確定使用哪個解碼器(包括于解碼器174中)。在當前幀110并非瞬時幀134的狀況下,解碼器174可解碼經編碼非瞬時語音信號以產生經解碼語音信號176,經解碼語音信號176可被輸出(例如,使用揚聲器)、存儲于存儲器中及/或發(fā)射到另一裝置(例如,藍牙頭戴式耳機等)。在一個配置中,電子裝置A102可包括解碼器162。在當前幀110并非瞬時幀134而是某一其它種類的幀136的狀況下,另一編碼器140可產生經編碼非瞬時語音信號178,可將經編碼非瞬時語音信號178提供到解碼器162。還可將幀類型126提供到解碼器162。解碼器162可包括一種或一種以上類型的解碼器,例如用于靜音幀的解碼器(例如,靜音解碼器)、用于清音幀的解碼器(例如,噪聲激勵線性預測(NELP)解碼器)、瞬時解碼器及/或用于濁音幀的解碼器(例如,四分之一速率原型音調周期(QPPP)解碼器)。幀類型126可用以確定使用哪個解碼器(包括于解碼器162中)。在當前幀110并非瞬時幀134的狀況下,解碼器162可解碼經編碼非瞬時語音信號178以產生經解碼語音信號164,經解碼語音信號164可被輸出(例如,使用揚聲器)、將其存儲于存儲器中及/或發(fā)射到另一裝置(例如,藍牙頭戴式耳機等)。在電子裝置A102包括TX/RX塊/模塊160的配置中及在當前幀110為瞬時幀134的狀況下,可將若干參數提供到TX/RX塊/模塊160。舉例來說,可將音調滯后142、經量化LPC系數116、經量化增益158、幀類型126及/或譯碼模式186提供到TX/RX塊/模塊160。TX/RX塊/模塊160可將音調滯后142、經量化LPC系數116、經量化增益158、幀類型126及/或譯碼模式186格式化成適合于發(fā)射的格式。舉例來說,TX/RX塊/模塊160可將音調滯后142、經量化LPC系數116、經量化增益158、幀類型126及/或譯碼模式186編碼(不與由瞬時編碼器104提供的瞬時幀編碼混淆)、調制、按比例調整(例如,放大)及/或以其它方式格式化為一個或一個以上消息166。TX/RX塊/模塊160可將一個或一個以上消息166發(fā)射到另一裝置(例如,電子裝置B168)??墒褂脽o線及/或有線連接或鏈路來發(fā)射一個或一個以上消息166。在一些配置中,可通過衛(wèi)星、基站、路由器、開關及/或其它裝置或媒體將一個或一個以上消息166中繼到電子裝置B168。電子裝置B168可使用TX/RX塊/模塊170接收由電子裝置A102發(fā)射的一個或一個以上消息166。TX/RX塊/模塊170可信道解碼(不與語音信號解碼混淆)、解調及/或以其它方式解除格式化一個或一個以上所接收消息166以產生語音信號信息172。在當前幀為瞬時幀的狀況下,語音信號信息172可包含(例如)音調滯后、經量化LPC系數、經量化增益、幀類型參數及/或譯碼模式參數。可將語音信號信息172提供到解碼器174(例如,LPC解碼器),解碼器174可產生(例如,解碼)經解碼(或經合成)語音信號176??墒褂米儞Q器(例如,揚聲器)將經解碼語音信號176轉換成聲學信號(例如,輸出)、將其存儲于存儲器中及/或發(fā)射到另一裝置(例如,藍牙頭戴式耳機)。在另一配置中,可將音調滯后142、經量化LPC系數116、經量化增益158、幀類型126及/或譯碼模式186提供到解碼器162 (電子裝置A102上)。解碼器162可使用音調滯后142、經量化LPC系數116、經量化增益158、幀類型126及/或譯碼模式186來產生經解碼語音信號164。舉例來說,可使用揚聲器輸出經解碼語音信號164、將其存儲于存儲器中及/或發(fā)射到另一裝置。舉例來說,電子裝置A102可為編碼語音信號106并將其存儲于存儲器中的數字話音記錄器,接著可解碼語音信號106以產生經解碼語音信號164。接著可使用變換器(例如,揚聲器)將經解碼語音信號164轉換成聲學信號(例如,輸出)。電子裝置A102上的解碼器162及電子裝置B168上的解碼器174可執(zhí)行類似功能。應注意若干點。可取決于配置而包括及/或使用或不包括及/或不使用說明為包括于電子裝置A102中的解碼器162。此外,可結合電子裝置A102而使用電子裝置B168或可不結合電子裝置A102而使用電子裝置B168。此外,盡管將若干參數或若干種信息186、142、116、158、126說明為提供到TX/RX塊/模塊160及/或到解碼器162,但可在發(fā)送到TX/RX塊/模塊160及/或到解碼器162之前將這些參數或這些種類的信息186、142、116、158、126存儲于存儲器中或不存儲于存儲器中。圖2為說明用于譯碼瞬時幀的方法200的一個配置的流程圖。舉例來說,電子裝置102可執(zhí)行圖2中所說明的方法200,以便譯碼語音信號106的瞬時幀134。電子裝置102可獲得(202)當前瞬時幀134。在一個配置中,電子裝置102可通過使用麥克風俘獲一聲學語音信號而獲得電子語音信號106?;蛘呋蛄硗?,電子裝置102可接收來自另一裝置的語音信號106。電子裝置102接著可將語音信號106分段成一個或一個以上巾貞110。巾貞110的一個實例可包括語音信號106的特定數目個樣本或給定時間量(例如,10到20毫秒)。(例如)當電子裝置102確定當前幀110為瞬時幀134時,電子裝置102可獲得(202)當前瞬時幀134。舉例來說,可使用幀類型確定塊/模塊124來完成此操作。電子裝置102可基于當前瞬時幀134而獲得(204)殘余信號114。舉例來說,電子裝置102可將LPC系數116的效應(例如,共振峰)從當前瞬時幀134中移除以獲得(202)殘余信號114。電子裝置102可基于殘余信號114而確定(206)峰值位置132的一集合。舉例來說,電子裝置102可搜索LPC殘余信號114以確定(206)峰值位置132的集合。舉例來說,可依據時間及/或樣本數目來描述一峰值位置。電子裝置102可確定(208)是使用第一譯碼模式(例如,“譯碼模式A”)還是第二譯碼模式(例如,“譯碼模式B”)來譯碼當前瞬時幀134。此確定可基于(例如)峰值位置132的集合、音調滯后142、先前幀類型126 (例如,濁音、清音、靜音、瞬時)及/或先前幀110(其可為瞬時幀134或其它幀136)與當前瞬時幀134之間的能量比182。在一個配置中,第一譯碼模式可為濁音瞬時譯碼模式且第二譯碼模式可為“其它瞬時”)譯碼模式。如果確定(208)或選擇第一譯碼模式(例如,譯碼模式A),則電子裝置102可基于用于當前瞬時幀134的第一譯碼模式(例如,譯碼模式A)而合成(210) —激勵150。換句話說,電子裝置102可響應于所選定譯碼模式而合成(210) —激勵150。如果確定(208)或選擇第二譯碼模式(例如,譯碼模式B),則電子裝置102可基于用于當前瞬時幀134的第二譯碼模式(例如,譯碼模式B)而合成(212) —激勵150。換句話說,電子裝置102可響應于所選定譯碼模式而合成(212) —激勵150。電子裝置102可基于經合成激勵150及/或(當前)瞬時幀134而確定(214)多個比例因子(例如,增益)154。應注意,可無關于所選定瞬時譯碼模式而確定(214)比例因子154。圖3為說明用于譯碼一瞬時幀的方法300的更特定配置的流程圖。舉例來說,電子裝置102可執(zhí)行圖3中所說明的方法300,以便譯碼語音信號106的瞬時幀134。電子裝置102可獲得(302)當前瞬時幀134。在一個配置中,電子裝置102可通過使用麥克風俘獲一聲學語音信號而獲得一電子語音信號106。或者或另外,電子裝置102可接收來自另一裝置的語音信號106。電子裝置102接著可將語音信號106分段成一個或一個以上幀110。幀110的一個實例可包括語音信號106的特定數目個樣本或給定時間量(例如,10到20毫秒)。(例如)當電子裝置102確定當前幀110為瞬時幀134時,電子裝置102可獲得(302)當前瞬時幀134。舉例來說,可使用一幀類型確定塊/模塊124來完成此操作。電子裝置102可使用當前瞬時幀134及在當前瞬時幀134之前的一信號執(zhí)行(304)線性預測分析,以獲得線性預測(例如,LPC)系數120的一集合。舉例來說,電子裝置102可使用一先行緩沖器及含有在當前瞬時幀134之前的語音信號106的至少一個樣本的緩沖器來獲得LPC系數120。電子裝置102可基于LPC系數120的集合而確定(306)經量化線性預測(例如,LPC)系數116的一集合。舉例來說,電子裝置102可量化LPC系數120的集合以確定(306)經量化LPC系數116的集合。電子裝置102可基于當前瞬時幀134及經量化LPC系數116而獲得(308) —殘余信號114。舉例來說,電子裝置102可將LPC系數116的效應(例如,共振峰)從當前瞬時幀134中移除以獲得(308)殘余信號114。電子裝置102可基于殘余信號114而確定(310)峰值位置132的一集合。舉例來說,電子裝置102可搜索LPC殘余信號114以確定峰值位置132的集合。舉例來說,可依據時間及/或樣本數目來描述峰值位置。在一個配置中,電子裝置102可如下確定(310)峰值位置的集合。電子裝置102可基于(LPC)殘余信號114的樣本的絕對值及一預定窗口信號而計算一包絡信號。電子裝置102接著可基于包絡信號與包絡信號的時間移位版本之間的差異而計算第一梯度信號。電子裝置102可基于第一梯度信號與第一梯度信號的時間移位版本之間的差異而計算第二梯度信號。電子裝置102接著可選擇第二梯度信號值降低到一預定負(第一)閾值以下的第一位置索引集合。電子裝置102還可通過消除一包絡值降低到相對于包絡中的最大值的一預定(第二)閾值以下的位置索引而從第一位置索引集合確定第二位置索引集合。舉例來說,如果給定峰值位置處的包絡值降低到包絡中的最大值的10%以下,則將所述峰值位置從列表中消除。另外,電子裝置102可通過消除并非相對于相鄰位置索引的預定差異閾值的位置索引而從第二位置索引集合確定第三位置索引集合。差異閾值的一個實例為所估計音調滯后值。換句話說,如果兩個峰值并不在pitch_lag土 Λ內,則消除包絡值較小的峰值。位置索引(例如,第一、第二及/或第三集合)可對應于所確定峰值集合的位置。電子裝置102可確定(312)是使用第一譯碼模式(例如,“譯碼模式Α”)還是第二譯碼模式(例如,“譯碼模式B”)來譯碼當前瞬時幀134。此確定可基于(例如)峰值位置132的集合、音調滯后142、先前幀類型126 (例如,濁音、清音、靜音、瞬時)及/或先前幀110 (其可為瞬時幀134或其它幀136)與當前瞬時幀134之間的能量比182。在一個配置中,電子裝置102可如下確定(312)是使用第一譯碼模式(例如,譯碼模式Α)還是第二譯碼模式(例如,譯碼模式B)。電子裝置102可根據方程式(I)確定峰值的所估計數目(例如,“Pest”)
權利要求
1.一種用于譯碼瞬時幀的電子裝置,其包含: 處理器; 與所述處理器電子連通的存儲器; 存儲于所述存儲器中的指令,所述指令可執(zhí)行以進行以下操作: 獲得當如瞬時巾貞; 基于所述當前瞬時幀而獲得殘余信號; 基于所述殘余信號而確定峰值位置集合; 至少基于所述峰值位置集合而確定是使用第一譯碼模式還是第二譯碼模式來譯碼所述當前瞬時幀; 如果確定所述第一譯碼模式,則基于所述第一譯碼模式而合成激勵;及 如果確定所述第二譯碼模式,則基于所述第二譯碼模式而合成激勵。
2.根據權利要求1所述的電子裝置,其中所述指令可進一步執(zhí)行以基于所述激勵及所述當前瞬時幀而確定多個比例因子。
3.根據權利要求1所述的電子裝置,其中確定峰值位置集合包含: 基于所述殘余信號的樣本的絕對值及窗口信號而計算包絡信號; 基于所述包絡信號與所述包絡信號的時間移位版本之間的差異而計算第一梯度信 號; 基于所述第一梯度信號與所述第一梯度信號的時間移位版本之間的差異而計算第二梯度信號; 選擇其中第二梯度信號值降低到第一閾值以下的第一位置索引集合; 通過消除其中包絡值降低到相對于包絡中的最大值的第二閾值以下的位置索引而從所述第一位置索引集合確定第二位置索引集合;及 通過消除不滿足相對于相鄰位置索引的差異閾值的位置索引而從所述第二位置索引集合確定第三位置索引集合。
4.根據權利要求1所述的電子裝置,其中所述指令可進一步執(zhí)行以進行以下操作: 使用所述當前瞬時幀及在所述當前瞬時幀之前的信號執(zhí)行線性預測分析以獲得線性預測系數集合 '及 基于所述線性預測系數集合而確定經量化線性預測系數集合。
5.根據權利要求4所述的電子裝置,其中獲得所述殘余信號進一步基于所述經量化線性預測系數集合。
6.根據權利要求1所述的電子裝置,其中所述第一譯碼模式為“濁音瞬時”譯碼模式且所述第二譯碼模式為“其它瞬時”譯碼模式。
7.根據權利要求1所述的電子裝置,其中確定是使用第一譯碼模式還是第二譯碼模式進一步基于音調滯后、先前幀類型及能量比。
8.根據權利要求1所述的電子裝置,其中確定是使用所述第一譯碼模式還是所述第二譯碼模式包含: 確定所估計峰值數目; 如果峰值位置的數目大于或等于所述所估計峰值數目,則選擇所述第一譯碼模式; 如果所述峰值位置集合中的最后峰值在距所述當前瞬時幀的結束第一距離內且所述峰值位置集合中的第一峰值在距所述當前瞬時幀的開始第二距離內,則選擇所述第一譯碼模式; 如果先前幀與所述當前瞬時幀之間的能量比在預定范圍外,則選擇所述第二譯碼模式;及 如果所述先前幀的幀類型為清音或靜音,則選擇所述第二譯碼模式。
9.根據權利要求8所述的電子裝置,其中所述第一距離是基于音調滯后而確定且所述第二距離是基于所述音調滯后而確定。
10.根據權利要求1所述的電子裝置,其中基于所述第一譯碼模式而合成激勵包含: 基于先前幀中的最后峰值位置及所述當前瞬時幀的音調滯后而確定所述當前瞬時幀中的最后峰值的位置;及 使用波形內插法使用基于所述音調滯后及譜形的原型波形在所述先前幀的最后樣本與所述當前瞬時幀中的所述最后峰值的第一樣本位置之間合成所述激勵。
11.根據權利要求1所述的電子裝置,其中基于所述第二譯碼模式而合成激勵包含通過以第一位置開始重復地置放原型波形而合成所述激勵,其中所述第一位置是基于來自所述峰值位置集合的第一峰值位置而確定。
12.根據權利要求11所述的電子裝置,其中所述原型波形是基于音調滯后及譜形,且其中所述原型波形被重復地置放達基于所述音調滯后、所述第一位置及幀大小的次數。
13.一種用于解碼瞬時幀的電子裝置,其包含: 處理器; 與所述處理器電子連通的存儲器; 存儲于所述存儲器中的指令,所述指令可執(zhí)行以獲得幀類型,且如果所述幀類型指示瞬時幀,則: 獲得瞬時譯碼模式參數; 基于所述瞬時譯碼模式參數而確定是使用第一譯碼模式還是第二譯碼模式; 如果確定使用所述第一譯碼模式,則基于所述第一譯碼模式而合成激勵;及 如果確定使用所述第二譯碼模式,則基于所述第二譯碼模式而合成激勵。
14.根據權利要求13所述的電子裝置,其中所述指令可進一步執(zhí)行以進行以下操作: 獲得音調滯后參數 '及 基于所述音調滯后參數而確定音調滯后。
15.根據權利要求13所述的電子裝置,其中所述指令可進一步執(zhí)行以進行以下操作: 獲得多個比例因子 '及 基于所述多個比例因子而按比例調整所述激勵。
16.根據權利要求13所述的電子裝置,其中所述指令可進一步執(zhí)行以進行以下操作: 獲得經量化線性預測系數參數;及 基于所述經量化線性預測系數參數而確定經量化線性預測系數集合。
17.根據權利要求16所述的電子裝置,其中所述指令可進一步執(zhí)行以基于所述激勵及所述經量化線性預測系數集合而產生經合成語音信號。
18.根據權利要求13所述的電子裝置,其中基于所述第一譯碼模式而合成所述激勵包含:基于先前幀中的最后峰值位置及當前瞬時幀的音調滯后而確定所述當前瞬時幀中的最后峰值的位置 '及 使用波形內插法使用基于所述音調滯后及譜形的原型波形在所述先前幀的最后樣本與所述當前瞬時幀中的所述最后峰值的第一樣本位置之間合成所述激勵。
19.根據權利要求13所述的電子裝置,其中基于所述第二譯碼模式而合成激勵包含: 獲得第一峰值位置 '及 通過以第一位置開始重復地置放原型波形而合成所述激勵,其中所述第一位置是基于所述第一峰值位置而確定。
20.根據權利要求19所述的電子裝置,其中所述原型波形是基于音調滯后及譜形,且其中所述原型波形被重復地置放達基于所述音調滯后、所述第一位置及幀大小的次數。
21.一種用于在電子裝置上譯碼瞬時幀的方法,其包含: 獲得當如瞬時巾貞; 基于所述當前瞬時幀而獲得殘余信號; 基于所述殘余信號而確定峰值位置集合; 至少基于所述峰值位置集合而確定是使用第一譯碼模式還是第二譯碼模式來譯碼所述當前瞬時幀; 如果確定所述第一譯碼模式,則基于所述第一譯碼模式而合成激勵;及 如果確定所述第二譯碼模式,則基于所述第二譯碼模式而合成激勵。
22.根據權利要求21所述的方法,其進一步包含基于所述激勵及所述當前瞬時幀而確定多個比例因子。
23.根據權利要求21所述的方法,其中確定峰值位置集合包含: 基于所述殘余信號的樣本的絕對值及窗口信號而計算包絡信號; 基于所述包絡信號與所述包絡信號的時間移位版本之間的差異而計算第一梯度信號; 基于所述第一梯度信號與所述第一梯度信號的時間移位版本之間的差異而計算第二梯度信號; 選擇其中第二梯度信號值降低到第一閾值以下的第一位置索引集合; 通過消除其中包絡值降低到相對于包絡中的最大值的第二閾值以下的位置索引而從所述第一位置索引集合確定第二位置索引集合;及 通過消除不滿足相對于相鄰位置索引的差異閾值的位置索引而從所述第二位置索引集合確定第三位置索引集合。
24.根據權利要求21所述的方法,其進一步包含: 使用所述當前瞬時幀及在所述當前瞬時幀之前的信號執(zhí)行線性預測分析以獲得線性預測系數集合 '及 基于所述線性預測系數集合而確定經量化線性預測系數集合。
25.根據權利要求24所述的方法,其中獲得所述殘余信號進一步基于所述經量化線性預測系數集合。
26.根據權利要求21所述的方法,其中所述第一譯碼模式為“濁音瞬時”譯碼模式且所述第二譯碼模式為“其它瞬時”譯碼模式。
27.根據權利要求21所述的方法,其中確定是使用第一譯碼模式還是第二譯碼模式進一步基于音調滯后、先前幀類型及能量比。
28.根據權利要求21所述的方法,其中確定是使用所述第一譯碼模式還是所述第二譯碼模式包含: 確定所估計峰值數目; 如果峰值位置的數目大于或等于所述所估計峰值數目,則選擇所述第一譯碼模式;如果所述峰值位置集合中的最后峰值在距所述當前瞬時幀的結束第一距離內且所述峰值位置集合中的第一峰值在距所述當前瞬時幀的開始第二距離內,則選擇所述第一譯碼模式; 如果先前幀與所述當前瞬時幀之間的能量比在預定范圍外,則選擇所述第二譯碼模式;及 如果所述先前幀的幀類型為清音或靜音,則選擇所述第二譯碼模式。
29.根據權利要求28所述的方法,其中所述第一距離是基于音調滯后而確定且所述第二距離是基于所述音調滯后而確定。
30.根據權利要求21所述的方法,其中基于所述第一譯碼模式而合成激勵包含: 基于先前幀中的最后峰值位置及所述當前瞬時幀的音調滯后而確定所述當前瞬時幀中的最后峰值的位置; 及 使用波形內插法使用基于所述音調滯后及譜形的原型波形在所述先前幀的最后樣本與所述當前瞬時幀中的所述最后峰值的第一樣本位置之間合成所述激勵。
31.根據權利要求21所述的方法,其中基于所述第二譯碼模式而合成激勵包含通過以第一位置開始重復地置放原型波形而合成所述激勵,其中所述第一位置是基于來自所述峰值位置集合的第一峰值位置而確定。
32.根據權利要求31所述的方法,其中所述原型波形是基于音調滯后及譜形,且其中所述原型波形被重復地置放達基于所述音調滯后、所述第一位置及幀大小的次數。
33.一種用于在電子裝置上解碼瞬時幀的方法,其包含獲得幀類型,且如果所述幀類型指示瞬時幀,則: 獲得瞬時譯碼模式參數; 基于所述瞬時譯碼模式參數而確定是使用第一譯碼模式還是第二譯碼模式; 如果確定使用所述第一譯碼模式,則基于所述第一譯碼模式而合成激勵;及 如果確定使用所述第二譯碼模式,則基于所述第二譯碼模式而合成激勵。
34.根據權利要求33所述的方法,其進一步包含: 獲得音調滯后參數 '及 基于所述音調滯后參數而確定音調滯后。
35.根據權利要求33所述的方法,其進一步包含: 獲得多個比例因子 '及 基于所述多個比例因子而按比例調整所述激勵。
36.根據權利要求33所述的方法,其進一步包含: 獲得經量化線性預測系數參數;及 基于所述經量化線性預測系數參數而確定經量化線性預測系數集合。
37.根據權利要求36所述的方法,其進一步包含基于所述激勵及所述經量化線性預測系數集合而產生經合成語音信號。
38.根據權利要求33所述的方法,其中基于所述第一譯碼模式而合成所述激勵包含: 基于先前幀中的最后峰值位置及當前瞬時幀的音調滯后而確定所述當前瞬時幀中的最后峰值的位置 '及 使用波形內插法使用基于所述音調滯后及譜形的原型波形在所述先前幀的最后樣本與所述當前瞬時幀中的所述最后峰值的第一樣本位置之間合成所述激勵。
39.根據權利要求33所述的方法,其中基于所述第二譯碼模式而合成激勵包含: 獲得第一峰值位置 '及 通過以第一位置開始重復地置放原型波形而合成所述激勵,其中所述第一位置是基于所述第一峰值位置而確定。
40.根據權利要求39所述的方法,其中所述原型波形是基于音調滯后及譜形,且其中所述原型波形被重復地置放達基于所述音調滯后、所述第一位置及幀大小的次數。
41.一種用于譯碼瞬時幀的計算機程序產品,其包含其上具有指令的非暫時性有形計算機可讀媒體,所述指令包含: 用于使電子裝置獲得當前瞬時幀的代碼; 用于使所述電子裝置基于所述當前瞬時幀而獲得殘余信號的代碼; 用于使所述電子裝置基于所述殘余信號而確定峰值位置集合的代碼; 用于使所述電子裝置至少基于所述峰值位置集合而確定是使用第一譯碼模式還是第二譯碼模式來譯碼所述當前瞬時幀的代碼; 用于使所述電子裝置在確定所述第一譯碼模式的情況下基于所述第一譯碼模式而合成激勵的代碼;及 用于使所述電子裝置在確定所述第二譯碼模式的情況下基于所述第二譯碼模式而合成激勵的代碼。
42.根據權利要求41所述的計算機程序產品,其中確定是使用所述第一譯碼模式還是所述第二譯碼模式包含: 確定所估計峰值數目; 如果峰值位置的數目大于或等于所述所估計峰值數目,則選擇所述第一譯碼模式; 如果所述峰值位置集合中的最后峰值在距所述當前瞬時幀的結束第一距離內且所述峰值位置集合中的第一峰值在距所述當前瞬時幀的開始第二距離內,則選擇所述第一譯碼模式; 如果先前幀與所述當前瞬時幀之間的能量比在預定范圍外,則選擇所述第二譯碼模式;及 如果所述先前幀的幀類型為清音或靜音,則選擇所述第二譯碼模式。
43.根據權利要求41所述的計算機程序產品,其中基于所述第二譯碼模式而合成激勵包含通過以第一位置開始重復地置放原型波形而合成所述激勵,其中所述第一位置是基于來自所述峰值位置集合的第一峰值位置而確定。
44.一種用于解碼瞬時幀的計算機程序產品, 其包含其上具有指令的非暫時性有形計算機可讀媒體,所述指令包含用于使電子裝置獲得幀類型的代碼,且如果所述幀類型指示瞬時幀,則包含: 用于使所述電子裝置獲得瞬時譯碼模式參數的代碼; 用于使所述電子裝置基于所述瞬時譯碼模式參數而確定是使用第一譯碼模式還是第二譯碼模式的代碼; 用于使所述電子裝置在確定使用所述第一譯碼模式的情況下基于所述第一譯碼模式而合成激勵的代碼;及 用于使所述電子裝置在確定使用所述第二譯碼模式的情況下基于所述第二譯碼模式而合成激勵的代碼。
45.根據權利要求44所述的計算機程序產品,其中基于所述第二譯碼模式而合成激勵包含: 獲得第一峰值位置 '及 通過以第一位置開始重復地置放原型波形而合成所述激勵,其中所述第一位置是基于所述第一峰值位置而確定。
46.一種用于譯碼瞬時幀的設備,其包含: 用于獲得當前瞬時幀的裝置; 用于基于所述當前瞬時幀而獲得殘余信號的裝置; 用于基于所述殘余信號而確定峰值位置集合的裝置; 用于至少基于所述峰值位置集合而確定是使用第一譯碼模式還是第二譯碼模式來譯碼所述當前瞬時幀的裝置; 用于在確定所述第一譯碼模式的情況下基于所述第一譯碼模式而合成激勵的裝置;及 用于在確定所述第二譯碼模式的情況下基于所述第二譯碼模式而合成激勵的裝置。
47.根據權利要求46所述的設備,其中所述用于確定是使用所述第一譯碼模式還是所述第二譯碼模式的裝置包含: 用于確定所估計峰值數目的裝置; 用于在峰值位置的數目大于或等于所述所估計峰值數目的情況下選擇所述第一譯碼模式的裝置; 用于在所述峰值位置集合中的最后峰值在距所述當前瞬時幀的結束第一距離內且所述峰值位置集合中的第一峰值在距所述當前瞬時幀的開始第二距離內的情況下選擇所述第一譯碼模式的裝置; 用于在先前幀與所述當前瞬時幀之間的能量比在預定范圍外的情況下選擇所述第二譯碼模式的裝置;及 用于在所述先前幀的幀類型為清音或靜音的情況下選擇所述第二譯碼模式的裝置。
48.根據權利要求46所述的設備,其中所述用于基于所述第二譯碼模式而合成激勵的裝置包含用于通過以第一位置開始重復地置放原型波形而合成所述激勵的裝置,其中所述第一位置是基于來自所述峰值位置集合的第一峰值位置而確定。
49.一種用于解碼瞬時幀的設備,其包含用于獲得幀類型的裝置,且如果所述幀類型指示瞬時巾貞,則包含: 用于獲得瞬時譯碼模式參數的裝置; 用于基于所述瞬時譯碼模式參數而確定是使用第一譯碼模式還是第二譯碼模式的裝置; 用于在確定使用所述第一譯碼模式的情況下基于所述第一譯碼模式而合成激勵的裝置;及 用于在確定使用所述第二譯碼模式的情況下基于所述第二譯碼模式而合成激勵的裝置。
50.根據權利要求49所述的設備,其中用于基于所述第二譯碼模式而合成激勵的裝置包含: 用于獲得第一峰值位置的裝置;及 用于通過以第一位置開始重復地置放原型波形而合成所述激勵的裝置,其中所述第一位置是基于所述第一峰值位置而確定。
全文摘要
描述一種用于譯碼瞬時幀的電子裝置。所述電子裝置包括處理器及存儲于與所述處理器電子連通的存儲器中的可執(zhí)行指令。所述電子裝置獲得當前瞬時幀。所述電子裝置還基于所述當前瞬時幀而獲得殘余信號。另外,所述電子裝置基于所述殘余信號而確定峰值位置集合。所述電子裝置進一步至少基于所述峰值位置集合而確定是使用第一譯碼模式還是第二譯碼模式來譯碼所述當前瞬時幀。如果確定所述第一譯碼模式,則所述電子裝置還基于所述第一譯碼模式而合成激勵。如果確定所述第二譯碼模式,則所述電子裝置還基于所述第二譯碼模式而合成激勵。
文檔編號G10L19/025GK103098127SQ201180043611
公開日2013年5月8日 申請日期2011年9月9日 優(yōu)先權日2010年9月13日
發(fā)明者文卡特什·克里希南, 阿南塔帕德瑪納班·阿拉桑尼帕萊·坎迪哈代 申請人:高通股份有限公司