專利名稱:電信系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電信系統(tǒng),并且特別是與改進(jìn)在電信網(wǎng)絡(luò)上傳送的語(yǔ)聲信號(hào)的質(zhì)量有關(guān)。
電信網(wǎng)絡(luò)上傳輸?shù)男盘?hào)易受來自干擾、衰減、數(shù)據(jù)壓縮、分組丟失、數(shù)字化過程的限制以及其它問題的損傷。人們希望能監(jiān)視傳送路徑中間點(diǎn)上的信號(hào)以識(shí)別任何缺陷,并且在如果有可能時(shí)去“修復(fù)”該信號(hào),即恢復(fù)信號(hào)為其原始狀態(tài)?!靶迯?fù)”后的信號(hào)可以接著被重新傳送。該過程必要時(shí)按照傳送路徑的長(zhǎng)度和受損傷的程度可以經(jīng)常重復(fù),假如在每一階段信號(hào)還沒有損傷到不可能再分辨其原始內(nèi)容的程度的話。
數(shù)據(jù)信號(hào)相對(duì)地容易修復(fù),由于它們包含有限數(shù)量的符號(hào)(例如,二進(jìn)制的1和0、十二個(gè)符號(hào)的DTMF(雙音多頻)系統(tǒng)、或者各種各樣的QAM(正交幅度調(diào)制)星座(constellation)。這樣的信號(hào)的修復(fù)可以通過識(shí)別哪一個(gè)“允許”的符號(hào)與實(shí)際接收到的受損傷的符號(hào)最接近從而傳送該字符來實(shí)現(xiàn)。例如,在二進(jìn)制系統(tǒng)中,任何超過門限值的信號(hào)值可以解釋為“1”,而任何低于該門限值的信號(hào)值則可以解釋為“0”。傳送中可以包括校驗(yàn)位和其它手段以進(jìn)一步改進(jìn)傳送的完整性。
然而,通常語(yǔ)聲信號(hào)不具有這種有限的符號(hào)集,因此自動(dòng)識(shí)別信號(hào)是否已受到損傷更困難,而如何恢復(fù)原始信號(hào)則更困難。
在公共交換電信系統(tǒng)中,可交互操作性需要系統(tǒng)的所有部分協(xié)調(diào)地工作。通常這妨礙了復(fù)雜的編碼過程,至少在一個(gè)運(yùn)營(yíng)者的系統(tǒng)和另一個(gè)運(yùn)營(yíng)者的系統(tǒng)之間的接口處是這樣的。
在某些專門的應(yīng)用中,語(yǔ)聲信號(hào)可以作為來自線性預(yù)測(cè)編碼(LPC)過程的一系列系數(shù)來傳送,該過程模仿了人類聲道的激勵(lì)過程。當(dāng)這些系數(shù)應(yīng)用于一個(gè)聲道模擬濾波器時(shí),可以重新產(chǎn)生原始的語(yǔ)聲。美國(guó)專利4742550(Fette)中描述了一個(gè)實(shí)例。例如,這樣的系統(tǒng)用于在移動(dòng)電話系統(tǒng)的空中接口中使用的語(yǔ)聲編解碼器(編碼器/解碼器)以便降低所需的帶寬。然而,這種形式的語(yǔ)聲傳送需要在傳送和接收位置(例如,移動(dòng)電話和無線基站)存在專門的設(shè)備,因此不適宜在公共交換電信網(wǎng)絡(luò)中通用。
許多現(xiàn)有技術(shù)系統(tǒng)是眾所周知的,這些系統(tǒng)用于識(shí)別聲學(xué)的或使信號(hào)失真的噪聲的某些特征,并且消除這些特征。美國(guó)專利5148488(Chen)中公開了一個(gè)實(shí)例,其中估計(jì)進(jìn)入信號(hào)的類語(yǔ)聲特征并將其用于產(chǎn)生一個(gè)Kalman濾波器。然后將此濾波器應(yīng)用于該信號(hào),只允許接收到信號(hào)的類語(yǔ)聲特性通過。然而,這樣的系統(tǒng)僅去掉了信號(hào)的非類語(yǔ)聲部分。如果部分信號(hào)丟失了,或者已經(jīng)失真為非類語(yǔ)聲的形式,這種系統(tǒng)不能恢復(fù)它們。
按照本發(fā)明的第一方面,提供了一種將從電信系統(tǒng)上接收到的受損傷的語(yǔ)聲信號(hào)恢復(fù)為其原始形式的估計(jì)的方法,包括的步驟為分析信號(hào)以識(shí)別指示信號(hào)的語(yǔ)聲內(nèi)容的參數(shù);從如此識(shí)別的參數(shù)再生一個(gè)語(yǔ)聲信號(hào);以及將產(chǎn)生的語(yǔ)聲信號(hào)加到通信系統(tǒng)的輸入端。
按照本發(fā)明的第二方面,提供了一種用于恢復(fù)從電信系統(tǒng)上接收到的受損傷的語(yǔ)聲信號(hào)為其原始形式的估計(jì)的設(shè)備,該設(shè)備包括用于分析信號(hào)以識(shí)別指示信號(hào)的語(yǔ)聲內(nèi)容的參數(shù)的裝置;以及用于從如此識(shí)別的參數(shù)再生一個(gè)語(yǔ)聲信號(hào)的裝置。
在本發(fā)明的一個(gè)實(shí)施方案中,該方法包括的步驟為在通信系統(tǒng)的輸出端應(yīng)用一個(gè)識(shí)別過程,其中對(duì)進(jìn)入信號(hào)的語(yǔ)聲成分進(jìn)行估計(jì);合成具有前述所估計(jì)的語(yǔ)聲成分的一個(gè)語(yǔ)聲信號(hào);以及調(diào)整合成信號(hào)中語(yǔ)聲成分的宏特性以便使調(diào)整后的合成信號(hào)的特性與輸出信號(hào)的特性匹配。
在本說明書中,術(shù)語(yǔ)“宏特性”用于指隨講話者的不同而變化的每個(gè)語(yǔ)聲成分的特性,這與決定所講的各獨(dú)立音素的“微結(jié)構(gòu)”不同。
在本實(shí)施方案中,優(yōu)選地調(diào)整所估計(jì)信號(hào)中獨(dú)立語(yǔ)聲成分的持續(xù)時(shí)間、聲門激勵(lì)特征和/或音高,以便與輸出信號(hào)的那些特性匹配。
在一個(gè)可替換的優(yōu)選的實(shí)施方案中,按照一個(gè)譜表示模型來分析信號(hào)以產(chǎn)生輸出參數(shù),以及產(chǎn)生一個(gè)從輸出參數(shù)得到的信號(hào)。該譜表示模型優(yōu)選地是一個(gè)聲道模型,并且使用聲道模型實(shí)現(xiàn)語(yǔ)聲信號(hào)的再生。該再生模型優(yōu)選地包括被限制為類語(yǔ)聲的再生信號(hào)的時(shí)間特征。
另一方面,本發(fā)明也擴(kuò)展至與其它的電信系統(tǒng)有一個(gè)或多個(gè)接口的電信系統(tǒng),其中每個(gè)接口提供了用于分析和恢復(fù)進(jìn)入和/或離開該系統(tǒng)的信號(hào)的裝置。
現(xiàn)在參照附圖,僅僅以舉例的方式來描述本發(fā)明的實(shí)施方案,其中
圖1示出了一個(gè)包含有本發(fā)明的電信網(wǎng)絡(luò);圖2示出了一個(gè)按照本發(fā)明的第一個(gè)實(shí)施方案的語(yǔ)聲再生單元,說明了其中從受損傷的輸入信號(hào)再生一個(gè)估計(jì)的“原始信號(hào)”的方式;圖3說明了用于形成圖2的實(shí)施方案所采用的過程的一部分的一種匹配技術(shù);以及圖4示出了一個(gè)按照本發(fā)明的第二個(gè)實(shí)施方案的語(yǔ)聲再生單元。
下面給出了圖1和圖2中功能塊的描述,并且包括對(duì)每個(gè)過程的已建立的實(shí)施例的參考。
圖1說明了一個(gè)廣義的電信系統(tǒng)8,該系統(tǒng)包括許多互連的交換機(jī)9a,9b,9c,9d,并與許多其它系統(tǒng)2a,2b,2c,2d接口。如圖2中說明性的所示,這些系統(tǒng)可以是通過一個(gè)用戶小交換機(jī)(PBX)2a與系統(tǒng)8連接的專用系統(tǒng)、利用一個(gè)國(guó)際交換中心(ISC)2b與系統(tǒng)8連接的國(guó)際網(wǎng)絡(luò)、另一個(gè)運(yùn)營(yíng)者的公共網(wǎng)絡(luò)2c、或者同一個(gè)運(yùn)營(yíng)者網(wǎng)絡(luò)的另外部分2d。在各自的源1a,1b,1c,1d產(chǎn)生的語(yǔ)聲信號(hào)可能被系統(tǒng)2a,2b,2c,2d破壞。語(yǔ)聲信號(hào)從其它的系統(tǒng)2a,2b,2c,2d進(jìn)入系統(tǒng)8,或者離開系統(tǒng)8進(jìn)入其它的系統(tǒng)2a,2b,2c,2d時(shí),都要通過各自的語(yǔ)聲再生器10a,10b,10c,10d。如圖中所示,單獨(dú)的運(yùn)營(yíng)者可以選擇對(duì)該系統(tǒng)8“環(huán)護(hù)”(ring fence),以便在首次機(jī)會(huì)就修復(fù)從其它系統(tǒng)2a,2b,2c進(jìn)入系統(tǒng)8的任何信號(hào),并且在信號(hào)離開該系統(tǒng)之前消除對(duì)其的任何損傷。在一個(gè)大的網(wǎng)絡(luò)中,另外的語(yǔ)聲再生器(如再生器10d)可以設(shè)于網(wǎng)絡(luò)的內(nèi)部,藉此將一個(gè)運(yùn)營(yíng)者的網(wǎng)絡(luò)細(xì)分為由這樣的語(yǔ)聲修復(fù)單元連接的若干個(gè)更小的網(wǎng)絡(luò)2d,8。
所要描述的系統(tǒng)僅處理語(yǔ)聲信號(hào)。如果該系統(tǒng)也能夠處理數(shù)據(jù)(例如傳真)信號(hào),將需要另外單獨(dú)的裝置(未示出)以識(shí)別信號(hào)的類型,并且如果存在的話,對(duì)每一類采用不同的恢復(fù)過程。在本領(lǐng)域中,語(yǔ)聲/數(shù)據(jù)鑒別器是眾所周知的。例如,使用語(yǔ)聲壓縮的DCME(數(shù)字電路倍增設(shè)備)提供了用于識(shí)別傳真?zhèn)魉偷囊粽{(diào)標(biāo)志的裝置,并通知設(shè)備提供一個(gè)透明(未壓縮)的傳送信道。如已經(jīng)指出的,在本領(lǐng)域中,數(shù)據(jù)恢復(fù)過程是普通的,這里將不再進(jìn)一步地描述。
對(duì)應(yīng)于圖1中單元10a,10b,10c,10d中的任一個(gè),圖2示出了一個(gè)語(yǔ)聲再生單元10的通常配置。類似地,圖2中的信號(hào)輸入1和系統(tǒng)2對(duì)應(yīng)于輸入1a,1b,1c,1d以及它們各自的系統(tǒng)2a,2b,2c,2d中的任一個(gè)。
信號(hào)輸入1提供了由第一個(gè)電信系統(tǒng)2接收到的原始語(yǔ)聲材料。此材料可以在系統(tǒng)2的一部分上以數(shù)字形式進(jìn)行傳送,但要分析的信號(hào)是一個(gè)模擬信號(hào)。該模擬信號(hào)是原始模擬語(yǔ)聲信號(hào)的受損傷形式;這些損傷由前面所提到的因素引起,包括數(shù)字化過程本身。模擬的語(yǔ)聲信號(hào)從系統(tǒng)2輸出到語(yǔ)聲再生器10。在再生器10中,失真的語(yǔ)聲信號(hào)首先被送到一個(gè)語(yǔ)聲識(shí)別器3,該識(shí)別器將失真的語(yǔ)聲聲音進(jìn)行分類,以使得容易地從“原始聲音”文件存儲(chǔ)器中選擇一個(gè)“原始聲音”文件,該文件存儲(chǔ)器構(gòu)成了識(shí)別器3的一部分。
在本說明書中,術(shù)語(yǔ)“語(yǔ)聲識(shí)別”用于指從一個(gè)語(yǔ)聲信號(hào)波形中識(shí)別語(yǔ)聲事件。在語(yǔ)聲技術(shù)領(lǐng)域,采用機(jī)器來識(shí)別語(yǔ)聲已經(jīng)是許多年來工程師和科學(xué)家們的目標(biāo)。文獻(xiàn)中已出現(xiàn)了許多實(shí)際的語(yǔ)聲識(shí)別器,有關(guān)的描述包括,HMM(隱Markov模型)Cox 1990:[Wheddon C andLinggard R著“語(yǔ)聲通信”,語(yǔ)聲與語(yǔ)言處理,Chapman and Hall(1990)]著定維分類器(例如最近相鄰、Gaussian混合、以及多層感知)[Woodland和Millar出處同上],以及神經(jīng)陣列[Tattersall,Linford and Linggard 1990出處同上]。
多數(shù)的識(shí)別系統(tǒng)包括一個(gè)特征提取器和一個(gè)型式(pattern)匹配過程(分類),并且可以是依賴于講話者或者獨(dú)立于講話者。依賴于講話者的識(shí)別器由使用者用特定應(yīng)用所需的每個(gè)詞匯進(jìn)行訓(xùn)練。獨(dú)立于講話者的識(shí)別系統(tǒng)有一個(gè)不能改變的規(guī)定的詞匯表[Wheddon C和Linggard R著“語(yǔ)聲通信”,語(yǔ)聲與語(yǔ)言處理,Chapman和Hall(1990)]。兩種系統(tǒng)中都是從傳送給分類器的聲音信號(hào)中提取特征,該分類器決定所講的是其詞匯表中的哪一個(gè)詞匯。采用變換或數(shù)字濾波技術(shù)提取特征以減少傳送給分類器的數(shù)據(jù)量。生成的型式然后在時(shí)間上被扭曲以與參考型式最佳地保持一致[Sakoe H和Chibass“用于口語(yǔ)詞匯識(shí)別的動(dòng)態(tài)編程算法優(yōu)化”,IEEE Trans Acoust SpeechSignal Proc,26(1978)]。統(tǒng)計(jì)模型,例如隱Markov模型[Cox S J“用于自動(dòng)語(yǔ)聲識(shí)別的隱Markov模型理論及應(yīng)用”,BT TelecomTechnol J,6,No.2(1988)]也被廣泛地使用。在此,一連串特征與一組概率上定義的詞匯模型相比較。特征提取與型式匹配技術(shù)也可擴(kuò)展至處理連接的詞匯[Bridle J S,Brown M D和Chamberlain R M,“一種用于連接詞的匯識(shí)別的算法”,自動(dòng)語(yǔ)聲分析與識(shí)別,ReidalPublishing Company(1984)],處理連接的詞匯是一項(xiàng)非常復(fù)雜的工作,由于詞匯的數(shù)量是未知的并且詞匯之間的邊界也不容易實(shí)時(shí)地確定。這導(dǎo)致了計(jì)算時(shí)間的增加[Atal B S和Rabiner L R“語(yǔ)聲研究的方向”,AT&T Technical Journal 65,Issue 5(1986)]以及硬件復(fù)雜度的相應(yīng)增加。
適合于當(dāng)前目的的隱Markov模型在下面的資料中有描述Baun L E的著作“統(tǒng)計(jì)估計(jì)中用于Markov過程概率函數(shù)的一個(gè)不等式及其相關(guān)的最大化技術(shù)”Inequalities Ⅲ,1-8,1972,或者Cox S J的文章“用于自動(dòng)語(yǔ)聲識(shí)別的隱Markov模型理論及應(yīng)用”,該文收集在Wheddon C和Linggard R所編的“語(yǔ)聲與語(yǔ)言處理”,Chapman andHall,ISBN 0412378000,1990。HMM將已知的詞匯表示為一組特征矢量,并且,對(duì)于一個(gè)給定的進(jìn)入詞匯,計(jì)算其模型將產(chǎn)生所觀測(cè)的特征矢量集的后驗(yàn)概率。然后從用于已識(shí)別的詞匯的存儲(chǔ)器中選擇一個(gè)生成的“原始聲音”文件。
然后使用如此識(shí)別的“原始聲音”文件去控制一個(gè)語(yǔ)聲產(chǎn)生器7以產(chǎn)生一個(gè)對(duì)應(yīng)于將要被產(chǎn)生的聲音的音頻信號(hào)。這樣語(yǔ)聲識(shí)別器識(shí)別哪一個(gè)語(yǔ)聲成分最可能出現(xiàn)在了原始信號(hào)中,然后語(yǔ)聲產(chǎn)生器從這樣的語(yǔ)聲成分庫(kù)中產(chǎn)生那個(gè)語(yǔ)聲成分的一個(gè)未失真版本。這樣,輸出僅包括類語(yǔ)聲成分。假如從電信系統(tǒng)接收到的信號(hào)沒有被破壞到以致于語(yǔ)聲識(shí)別器3不能識(shí)別正確的語(yǔ)聲成分的程度,從語(yǔ)聲產(chǎn)生器7的輸出將完全是原始信號(hào)的語(yǔ)聲內(nèi)容。
由產(chǎn)生器7產(chǎn)生的合成語(yǔ)聲的宏特性現(xiàn)在在適配器4中調(diào)整為實(shí)際語(yǔ)聲事件的宏特性。適配器4重新產(chǎn)生原始講話者的特征,特別是基頻(它反映了每個(gè)人的聲道的尺寸)、決定著話音音質(zhì)的聲門激勵(lì)特征、以及時(shí)間扭曲,以使通常的樣板適合于單獨(dú)語(yǔ)聲成分的輸送速度。這就是讓通常的“原始聲音”文件與實(shí)際的講話發(fā)音匹配,使得該技術(shù)在實(shí)踐上更穩(wěn)健,并且獨(dú)立于講話者。這些特征在W.A.Ainsworth的著作“語(yǔ)聲識(shí)別的機(jī)理”,Pergamon Press,1976中有描述。
通過使每個(gè)輸出成分的基頻或某個(gè)其它可識(shí)別的頻率與原始話音信號(hào)的該頻率匹配以便與原始講話者話音的音調(diào)變化匹配,信號(hào)的音高(基頻)可以與存儲(chǔ)的“原始聲音”的音高匹配。
聲門激勵(lì)特征通過算法可以從分析原始信號(hào)的特征產(chǎn)生,這可參考上面引用的Ainsworth的參考文獻(xiàn)的圖4.3(第36頁(yè))所述。
用于時(shí)間扭曲的數(shù)學(xué)方法在以下資料中有述,例如,由Holmes J N的著作“語(yǔ)聲合成與識(shí)別”,Van Nostrand Reinhold(UK)Co.Ltd.,ISBN0278000134,以及Bridle J S,Brown M D,Chamberlain R M的“使用全詞匯樣板的連續(xù)連接的詞匯識(shí)別”,Radio and ElectronicsEngineer 53,第167-177頁(yè),1983。兩個(gè)詞匯(所講的和已識(shí)別的“原始的”)之間的時(shí)間校準(zhǔn)路徑(見圖3)描述了使存儲(chǔ)的“原始聲音”適合于檢測(cè)到的詞匯所需的時(shí)間扭曲。圖3縱軸上示出了已識(shí)別詞匯“pattern”的成分,橫軸上示出了所講詞匯的相應(yīng)成分。可以看出講話者的發(fā)音與從庫(kù)中取出的詞匯在某些成分的長(zhǎng)度上不同,因此為了與原始發(fā)音匹配,某些成分(具體地是“p”和“r)應(yīng)延長(zhǎng),而其它的(具體地是“t”)則應(yīng)縮短。
然后將再生信號(hào)輸出到電信系統(tǒng)8。
雖然語(yǔ)聲識(shí)別器3、語(yǔ)聲產(chǎn)生器7和適配器4作為分開的硬件已進(jìn)行了描述,但是實(shí)際上它們可以作為一個(gè)單一的適合于編程的數(shù)字處理器來實(shí)現(xiàn)。
以上的系統(tǒng)需要大量的存儲(chǔ)器來存儲(chǔ)可識(shí)別的語(yǔ)聲詞匯或詞匯成分,并且僅重新產(chǎn)生一個(gè)由系統(tǒng)從其存儲(chǔ)的樣值中識(shí)別出的語(yǔ)聲成分。因此在電信系統(tǒng)2的輸出端產(chǎn)生的、與存儲(chǔ)器中存儲(chǔ)的不匹配的任何聲音,將視為不是語(yǔ)聲而被拒絕,并且不被再傳送。以這種方式,只有識(shí)別為是語(yǔ)聲的信號(hào)內(nèi)容中的事件將被再傳送,而非語(yǔ)聲事件將被消除。
在一個(gè)優(yōu)選的實(shí)施方案中,如圖4中所示,語(yǔ)聲再生單元包括一個(gè)聲道分析單元11,其輸出送給一個(gè)聲道模擬器12以產(chǎn)生一個(gè)類語(yǔ)聲信號(hào)。該系統(tǒng)具有的優(yōu)點(diǎn)是從類語(yǔ)聲事件中消除了非類語(yǔ)聲參數(shù),而不是全部地接受或拒絕每個(gè)事件。
聲道分析系統(tǒng)存儲(chǔ)廣義自然系統(tǒng)(人的聲道)的特征,而不是可由這樣的系統(tǒng)產(chǎn)生的聲音的“庫(kù)”。因此圖4的優(yōu)選的實(shí)施方案比圖2的實(shí)施方案的具有的優(yōu)點(diǎn)是,它可以重新產(chǎn)生由人的聲道可產(chǎn)生的任何聲音。這樣的優(yōu)點(diǎn)是不需要大量的存儲(chǔ)器來存儲(chǔ)可能的聲音,也不需要搜索該聲音所需的隨之而來的處理時(shí)間。而且,該系統(tǒng)不受所存儲(chǔ)的那些聲音的限制。
在這里簡(jiǎn)單討論一下聲道分析系統(tǒng)的特征是適當(dāng)?shù)?。聲道是一條不規(guī)則的聲學(xué)管道,它從聲門延伸到雙唇并以時(shí)間的函數(shù)變化形狀[Fant GC M,“語(yǔ)聲識(shí)別的聲學(xué)理論”,Mouton和Co.,s-Gravehage,theNetherlands,1960]。引起時(shí)間變化的主要解剖學(xué)上的組成部分有雙唇、上下顎、舌頭以及軟腭。為了易于計(jì)算,人們希望該系統(tǒng)的模型既是線性的又要是不時(shí)變的。不幸的是,人類的語(yǔ)聲機(jī)構(gòu)并不精確地滿足這些特性中的任何一個(gè)。語(yǔ)聲是一個(gè)連續(xù)的時(shí)間變化過程。另外,聲門不與聲道脫離,它引起了非線性特征[Flanagan J L,“聲道中的源-系統(tǒng)的相互作用”,Ann.New York Acad.Sci 155,9-15,1968]。然而,通過作合理的假定,則可能得出在短的時(shí)間間隔上用于描述語(yǔ)聲事件的線性時(shí)不變模型[Markel J D,Gray A H,“語(yǔ)聲的線性預(yù)測(cè)”,Springer-Verlag Berlin Heidelberg New York,1976]。線性預(yù)測(cè)編解碼器將語(yǔ)聲事件分為短的時(shí)間段或幀,并使用先前的語(yǔ)聲幀產(chǎn)生一組唯一的預(yù)測(cè)器參數(shù)來代表當(dāng)前幀中的語(yǔ)聲[Atal B S,Hanauer S L “通過語(yǔ)聲波形線性預(yù)測(cè)的語(yǔ)聲分析和合成”,J.Acoust.Soc.Amer.,vol.50,pp.637-655,1971]。線性預(yù)測(cè)分析已成為一個(gè)廣泛使用的方法,用于估計(jì)例如音高、共振峰以及頻譜這樣的語(yǔ)聲參數(shù)。聽覺模型(時(shí)間/頻率/幅度譜圖)依賴于被監(jiān)視的聲音的聽覺特性而不考慮它們是如何產(chǎn)生的,然而聲道模型則能夠識(shí)別信號(hào)是否是類語(yǔ)聲的,即一個(gè)實(shí)際的聲道能否產(chǎn)生它。因此聲道模型能夠識(shí)別聽覺模型不能識(shí)別的不可聽見的差別。
適合用于分析的一個(gè)聲道模型是線性預(yù)測(cè)編碼模型,此模型在Rabiner L.R.,Schafer R.W.的著作,“語(yǔ)聲信號(hào)的數(shù)字處理”(Prentice-Hall 1978)第396頁(yè)中有描述。
聲道模型的增強(qiáng)可以包括引入許可的時(shí)間特征,例如長(zhǎng)時(shí)音高預(yù)測(cè),它允許重新產(chǎn)生那些從給定的語(yǔ)聲結(jié)構(gòu)中丟失的、或者嚴(yán)重失真以致于不能由分析過程識(shí)別的語(yǔ)聲成分。這樣的時(shí)間特征的引入將難以置信地平滑掉那些由例如信號(hào)的暫時(shí)丟失或破壞造成的語(yǔ)聲成分的突然出現(xiàn)、中斷或終止。
由聲道模型11產(chǎn)生的參數(shù)可識(shí)別原始信號(hào)的類語(yǔ)聲特征。非類語(yǔ)聲的任何特征不能由聲道模型進(jìn)行建模,并且因此將不能被參數(shù)化。
由聲道模型產(chǎn)生的參數(shù)用于控制語(yǔ)聲產(chǎn)生模型12。按照由分析器11產(chǎn)生的聲道參數(shù),這些參數(shù)可修改合成器產(chǎn)生的激勵(lì)信號(hào),從而產(chǎn)生一個(gè)類語(yǔ)聲信號(hào),其中包括從系統(tǒng)2接收到信號(hào)的類語(yǔ)聲特征,但不包括失真。
用于合成的合適的聲道模型包括上述的線性預(yù)測(cè)編碼模型或者更復(fù)雜的模型,例如,美國(guó)聲學(xué)協(xié)會(huì)雜志(Vol 67,No3,March 1980)上D.H.Klatt的文章“用于串聯(lián)/并聯(lián)共振峰合成器的軟件”中描述的串聯(lián)/并聯(lián)共振峰合成器。
其它合適的系統(tǒng)被描述于Quatieri等人的文章“用于增強(qiáng)的語(yǔ)聲重建中的相位相干及其編碼應(yīng)用”,International Conference onAcoustic,Speech,and Signal Processing,Vol 123-26 May 1989,Glasgow(Scotland)第207-210頁(yè);以及Kamata等人的文章“使用并行結(jié)構(gòu)傳遞函數(shù)的人類話音重建及其估計(jì)誤差”,IEEE Pacific RimConference on Communications,Computers and Signal Processing,17-19,May 1995 Victoria,British Columbia,Canada。
應(yīng)該明白術(shù)語(yǔ)“語(yǔ)聲”(speech),如在本說明書中所使用的那樣,用于指人類的話音所能產(chǎn)生的任何發(fā)音,包括唱歌,但并不一定意味著該發(fā)音具有任何可理解的內(nèi)容。
權(quán)利要求
1.一種將從電信系統(tǒng)上接收到的受損傷的語(yǔ)聲信號(hào)恢復(fù)為其原始形式的估計(jì)的方法,包括的步驟為分析信號(hào)以識(shí)別指示信號(hào)的語(yǔ)聲內(nèi)容的參數(shù);從如此識(shí)別的參數(shù)再生一個(gè)語(yǔ)聲信號(hào);以及將產(chǎn)生的語(yǔ)聲信號(hào)加到通信系統(tǒng)的輸入端。
2.根據(jù)權(quán)利要求1的方法,包括的步驟為在通信系統(tǒng)的輸出處應(yīng)用一個(gè)識(shí)別過程,其中對(duì)輸入信號(hào)的語(yǔ)聲成分進(jìn)行估計(jì);合成一個(gè)具有前述所估計(jì)的語(yǔ)聲成分的語(yǔ)聲信號(hào),以及調(diào)整合成信號(hào)中語(yǔ)聲成分的宏特性以便與輸出信號(hào)的特性匹配。
3.根據(jù)權(quán)利要求2的方法,其特征在于,其中調(diào)整所估計(jì)的信號(hào)中獨(dú)立語(yǔ)聲成分的持續(xù)時(shí)間和/或音高以便與輸出信號(hào)的這些特性匹配。
4.根據(jù)權(quán)利要求1的方法,其特征在于,其中按照一個(gè)譜表示模型來分析該信號(hào)以產(chǎn)生輸出參數(shù),以及從輸出參數(shù)得到再生的信號(hào)。
5.根據(jù)權(quán)利要求4的方法,其特征在于,其中的譜表示是一個(gè)聲道模型。
6.根據(jù)權(quán)利要求4或5的方法,其特征在于,其中使用聲道模型來實(shí)現(xiàn)語(yǔ)聲信號(hào)的再生。
7.根據(jù)前述任一項(xiàng)權(quán)利要求的方法,其特征在于,其中再生的信號(hào)的時(shí)間特征被限制為類語(yǔ)聲的。
8.一種用于將從電信系統(tǒng)(2)接收到的受損傷的語(yǔ)聲信號(hào)恢復(fù)為其原始形式的估計(jì)的設(shè)備(10),該設(shè)備包括用于分析信號(hào)以便識(shí)別指示信號(hào)的語(yǔ)聲內(nèi)容的參數(shù)的裝置(3,11);以及用于從如此識(shí)別的參數(shù)再生該語(yǔ)聲信號(hào)的裝置。
9.根據(jù)權(quán)利要求8的設(shè)備,包括語(yǔ)聲識(shí)別裝置(3),用于將一個(gè)識(shí)別過程應(yīng)用至最初受損傷的信號(hào),在該過程中估計(jì)進(jìn)入信號(hào)的成分;語(yǔ)聲合成裝置(7),用于合成具有上述所估計(jì)的語(yǔ)聲成分的一個(gè)語(yǔ)聲信號(hào);以及語(yǔ)聲調(diào)整裝置(4),用于調(diào)整合成信號(hào)中語(yǔ)聲成分的宏特性,以便與最初信號(hào)中的那些特性匹配,從而產(chǎn)生相應(yīng)于最初沒有損傷的信號(hào)的一個(gè)信號(hào)。
10.按照權(quán)利要求9的設(shè)備,其特征在于,其中的語(yǔ)聲調(diào)整裝置(4)包括用于修改所估計(jì)信號(hào)中獨(dú)立語(yǔ)聲成分的持續(xù)時(shí)間和/或音高以便與最初信號(hào)中的那些特性匹配的裝置。
11.按照權(quán)利要求8的設(shè)備,包括用于使用一個(gè)譜表示來分析信號(hào)以便產(chǎn)生輸出參數(shù)的分析裝置(11),和用于產(chǎn)生從輸出參數(shù)得到的一個(gè)輸出信號(hào)的裝置(12)。
12.按照權(quán)利要求11的設(shè)備,其特征在于,其中的譜表示是一個(gè)聲道模型。
13.按照權(quán)利要求10或11的設(shè)備,其特征在于,其中用于語(yǔ)聲信號(hào)再生的裝置(12)是一個(gè)聲道模型。
14.按照權(quán)利要求8至13任一項(xiàng)的設(shè)備,其特征在于,其中用于再生該信號(hào)的裝置包括用于限制再生信號(hào)的時(shí)間特征為類語(yǔ)聲的裝置。
15.一種具有一個(gè)或多個(gè)與其它的電信系統(tǒng)(2a,2b,2c,2d)的接口的電信系統(tǒng)(8),其中每個(gè)接口提供了按照權(quán)利要求8,9,10,11或12用于分析和恢復(fù)進(jìn)入系統(tǒng)的信號(hào)的設(shè)備(10),和/或按照權(quán)利要求8,9,10,11或12用于分析和恢復(fù)離開系統(tǒng)的信號(hào)的設(shè)備。
16.一種基本上參考附圖所描述的方法。
17.一種基本上參考附圖所描述的設(shè)備。
全文摘要
用于改進(jìn)通信鏈路(2)中信號(hào)質(zhì)量的一種裝置,包括用于僅再生從通信鏈路(2)上接收到信號(hào)的類語(yǔ)聲特征的裝置(11),以便原始語(yǔ)聲信號(hào)的一個(gè)估計(jì)可以被重新傳送,這個(gè)裝置可以是與合成器(2)連接的一個(gè)聲道模型(11)。
文檔編號(hào)H04B1/10GK1216189SQ9719266
公開日1999年5月5日 申請(qǐng)日期1997年2月14日 優(yōu)先權(quán)日1996年2月29日
發(fā)明者M·P·霍利爾 申請(qǐng)人:英國(guó)電訊公司