專利名稱:信號質量的評估的制作方法
技術領域:
本發(fā)明涉及對攜帶語音的音頻信號的評估。它對于使用中的通信系統(tǒng)狀況的評估有特殊的應用。
在通信鏈路傳載中的信號會經(jīng)過一些值得注意的變換,如數(shù)字化、數(shù)據(jù)壓縮、數(shù)據(jù)減縮,放大等等。所有的這些處理都可能使信號失真。例如,在對一個幅度大于最大數(shù)字化值的波形進行數(shù)字化時,此波形的尖峰將被轉換成一段頂部平坦的波形(一種被稱作去尖峰的處理)。這就給信號增加了一些不希望有的諧波。失真也能由外部源的電磁干擾造成。
很多上述處理引入的失真都是非線性的,所以一個簡單的測試信號可能不會與復雜波形的信號,如語音信號以相同形式產(chǎn)生失真。對于傳輸數(shù)據(jù)的通信鏈路,可以用所有可能的數(shù)據(jù)字符來測試此鏈路(如對于二進制鏈路的字符1和0,或DTMF(雙音多頻系統(tǒng))的12音對)。然而,語音不是由有限數(shù)量的定義好的信號單元組成的,而是個連續(xù)變化的信號,它的信號單元的變化不僅依賴于語音的內(nèi)容(和所使用的語言),也依賴于不同說話人的生理和心理特征,這些特征會影響音調(diào)、音量、特征元音等。
我們已知通過運行使用語音采樣的測試序列可用來測試通信設備。通過比較經(jīng)過被測試設備改變的測試序列和原始測試序列,即可鑒別出被測試設備產(chǎn)生的失真。然而,這一方案需使用預先準備好的測試序列,這就意味著它們不能用于實時傳輸?shù)耐ㄐ沛溌?,也即正在使用中的鏈路,這是因為測試序列將干擾正在進行的通信業(yè)務,且這種干擾可被用戶聽到,也因為正在進行的通信業(yè)務(不能被預知)本身將被測試設備作為測試信號的失真而檢測出來。
為了測試使用中的設備,而不干擾設備正在傳輸?shù)男盘?因此稱作無擾測試)因此希望用實時傳輸?shù)恼Z音信號本身作為測試信號進行測試。但是,這樣做的問題是沒有一種在測量點上瞬時獲得一個原始信號的采樣的方法。在鏈路被測試時,任何一種將原始信號傳送給測試設備的裝置都將可能產(chǎn)生與被測試鏈路相似的失真。
本申請人的共同未決國際專利申請WO 6/06495和WO 96/06496(都公開于96年2月29日)提出了兩種可能的解決此問題的辦法。WO 96/06495描述了對和講話者無關的特定語音特征的分析,其目的是找出通信鏈路是如何改變信號的。它也描述了某種相對于其它特性變化的語音的特定特性的分析,它們不是直接可測量的,而是通過在個體說話者之間一致的方法,這將因此用于獲得關于其它那些特征的信息。例如,一未知清擦音的頻譜隨音量(幅度)而變化,但此變化很大程度上與個體說話者無關。因此頻譜內(nèi)容可用來估計原始信號的振幅,并用它與接收信號的幅度相比較以估計說話者和測量點之間的衰減。
在WO 96/06496中,接收到的信號的內(nèi)容由語音識別器分析,分析結果經(jīng)語音合成器處理以再生出無失真的語音信號。對此信號在音調(diào)和持續(xù)時間上進行歸一化,產(chǎn)生出原始語音信號的估計值,將此估計值與接收信號進行比較,即可識別出失真或干擾,例如,使用如國際專利申請WO 94/00922和WO 95/15035中所述的感覺分析技術。
一般地,通過帶寬受限的語音傳輸使用數(shù)據(jù)減縮技術,如線性預測編碼器(LPCs)。這種編碼器是建立在對人的聲道近似的基礎上并將語音波形段表示為被要求用來在聲道模型中激發(fā)等效行為的參數(shù)。
根據(jù)本發(fā)明的第一個方面,提供了一個評估語音信號質量的方法,它根據(jù)頻譜表示模型來分析信號,以產(chǎn)生輸出參數(shù),此輸出參數(shù)根據(jù)預設的網(wǎng)絡定義函數(shù)而被加權,由加權的輸出參數(shù)可推導產(chǎn)生出輸出。
根據(jù)本發(fā)明的第二個方面,提供了一個評估攜帶語音信號質量的裝置,包含用于分析使用頻譜表示的信號以產(chǎn)生輸出參數(shù)的裝置,及存儲定義網(wǎng)絡定義函數(shù)的一組加權值的存貯裝置,和用于由輸出參數(shù)及網(wǎng)絡定義函數(shù)來產(chǎn)生輸出值的裝置。
優(yōu)選地,在初始步驟中網(wǎng)絡定義函數(shù)由輸出值已知的數(shù)據(jù)導出。
優(yōu)選地,頻譜表示模型是一個不完善的聲道模型,但是頻譜表示模型如聽覺模型也是可以用的。
“聽覺模型”在上下文中指對刺激的響應與人的聽覺系統(tǒng)相似的模型。(也就是耳-腦的組合)。它是更普遍的“感覺模型”的特殊類型,即對刺激的響應和人的聽覺系統(tǒng)相似的模型。
“不完善的聽覺模型”在本文中指非理想的聲道模型,但此模型能產(chǎn)生與人的聲道不能產(chǎn)生的聽覺頻譜單元有關的系數(shù)。它特指可同時用參數(shù)來表示語音和失真信號單元的模型,這不是聲道模型設計的通常目標。
在優(yōu)選實施例中,有已知的特性,如好狀態(tài)或壞狀態(tài)的語音采樣,都用聲道模型來分析,識別出產(chǎn)生的與好或壞狀態(tài)信號有關的參數(shù),優(yōu)選地,通過諸如神經(jīng)元網(wǎng)絡的可訓練過程進行處理。通過這種方法,與每種類型信號相關的聲道參數(shù)的加權即可建立起來。(因此與任意與二者都相關的參數(shù)由此為不可靠指示,并只產(chǎn)生較少的,或產(chǎn)生不出加權),因此當一未知信號被處理時,就可用前面產(chǎn)生的與那些參數(shù)有關的加權值產(chǎn)生輸出,那些參數(shù)與未知信號相關。
優(yōu)選地,網(wǎng)絡定義函數(shù)的加權依賴于輸出參數(shù)的時域范圍。為此,參數(shù)序列和分立的參數(shù)可被給予加權值,后續(xù)時間幀的參數(shù)序列應跟在對應于實際語音的許多識別出來的序列之一的后面。若一時間幀的一組參數(shù)被識別出,而它們不應跟在前面序列的后面,或根本不應出現(xiàn),這表明了產(chǎn)生失真。
在一實施例中,裝置可進一步包含用于產(chǎn)生存儲的一組加權值的訓練裝置,訓練裝置應包含用于提供語音采樣給模擬裝置的第一個輸出裝置;用于提供與已知語音采樣有關的輸出信息(指下文的“標簽”)的第二個輸入裝置;用于在標簽的基礎上從模型裝置產(chǎn)生加權的裝置,以及存儲由模擬裝置產(chǎn)生的加權值的存儲裝置。
因此,每個在訓練采樣中使用的語音段都必須被標上好狀態(tài)(“好”)和壞狀態(tài)(“壞”)。這是一個主要的保證,因為一個典型的采樣包含幾小時的語音,并要求許多這種采樣來訓練系統(tǒng)正確響應一定范圍的說話者、狀態(tài)和其它的變量。通常,一個單個分段的持續(xù)時間為20ms,因此,數(shù)百萬的分段都必須標記出來。
根據(jù)優(yōu)選實施例,訓練裝置包含用于提供包含第一個信號和此信號失真版本的訓練序列的裝置;和用于接收訓練序列和產(chǎn)生一個失真感性測量度,以顯示失真可被聽者察覺的強度的分析裝置;以及為將失真感性測量度應用到訓練處理裝置以決定網(wǎng)絡定義函數(shù)的裝置。
優(yōu)選地,可訓練過程包含提供包含第一個信號和此信號的失真信號的訓練序列的步驟,及通過測量在于每個分段中出現(xiàn)的失真感知度以決定網(wǎng)絡定義函數(shù)的步驟,此失真感知度由一個包含產(chǎn)生失真感性測量度的分析過程確定,失真感性測量度指示出上述信號的失真對人來說是可察覺時的失真強度。
在一優(yōu)選方案中,分析過程估計由同一信號的失真和非失真信號在人的聽覺系統(tǒng)上產(chǎn)生的效果,并得出上述效果間的差別。根據(jù)上述差別,產(chǎn)生上述失真感性測量度。優(yōu)選地,分析過程產(chǎn)生上述失真感性測量度,此感性測量度依賴于上述失真的感知度,且非線性地依賴于上述失真的幅度。
分析過程優(yōu)選地產(chǎn)生上述測試信號與/或失真信號的大量譜分量信號,并估計每個譜分量信號將產(chǎn)生于人類聽覺系統(tǒng)的掩蔽效果。
在優(yōu)選的方案中,通過分析失真信號為大量的譜分量帶,分析過程可估計出上述失真將產(chǎn)生于人類聽覺系統(tǒng)的效果。譜分量帶被整形以提供頻譜掩蔽;計算由此信號前面和/或后面的時域部分造成的信號的時域掩蔽;為每個譜分量信號產(chǎn)生失真信號分量和相應的計算出的測試信號分量之間的差別,并從上述差別值產(chǎn)生上述失真感性測量度。在一種具體的優(yōu)選方案中,分析過程根據(jù)上述差別信號產(chǎn)生出一個失真的頻譜和時域分布的范圍。
為了計算發(fā)音者特征的變化,每個訓練序列將是一個自然語音的大集合。在一個優(yōu)選實施例中,分析過程包含分解失真語言信號為大量譜分量帶的步驟,和將譜分量帶整形以提供頻譜掩蔽。根據(jù)前面與/或后面的有關時域部分,計算信號的時域掩蔽,為每個信號譜分量形成一個失真的信號分量和相應計算出的測試信號分量間差別的表示,并從上述差別值中產(chǎn)生上述的失真感性測量度。
合適的語音分析過程在國際專利申請WO 94/00922、WO95/01011和WO 95/15035中有敘述。通過自動地標注分段,使用失真感性測量度,即可連續(xù)地,但仍然根據(jù)聽者的可感知因素來獲得網(wǎng)絡定義函數(shù),。
下面將參照附圖描述本發(fā)明的一個示范性實施例,附圖顯示了實施例不同部份之間的功能性關系。這項發(fā)明有利地可用軟件實現(xiàn),用以在普通計算機上運行,將是很有意義的。
圖1顯示了為訓練過程配置的訓練系統(tǒng)的功能單元。
圖2顯示了為運行未知數(shù)據(jù)配置的相同系統(tǒng)功能單元。
圖3更詳細顯示了圖1的訓練裝置。
圖4更詳細顯示了圖3的分析裝置。
圖5顯示了一個裝置,通過它可產(chǎn)生由數(shù)據(jù)源提供的初始化語音采樣。
圖1和圖2的系統(tǒng)包含訓練數(shù)據(jù)1的源和實時通信業(yè)務(真實數(shù)據(jù))2的源,這兩者都提供一個輸入至聲道分析器3。與訓練數(shù)據(jù)相關的參數(shù)也由訓練裝置1提供給分類單元5,它被作為訓練過程顯示出來。具體說,是神經(jīng)元網(wǎng)絡5。分析器單元3的輸出參數(shù)反饋給神經(jīng)元網(wǎng)絡5,在訓練過程中神經(jīng)元網(wǎng)絡5提供參數(shù)給存貯器4,這些參數(shù)定義一個網(wǎng)絡定義函數(shù)。當讀取實時數(shù)據(jù)時,參數(shù)被從存貯器4中取出,用于神經(jīng)元網(wǎng)絡5,在用聲道分析器3產(chǎn)生值上執(zhí)行網(wǎng)絡定義函數(shù),以產(chǎn)生出提供給輸出6的分類數(shù)據(jù)。一般輸出數(shù)據(jù)的形式是依據(jù)分析器3產(chǎn)生的值分類的形式,根據(jù)網(wǎng)絡定義函數(shù)而被加權,并顯示了系統(tǒng)識別出的失真度。例如,如果所有的加權參數(shù)超過一個預定的值,與/或一些加權參數(shù)的算術組合(如它們的總和)超過一個預定的值,信號可被分類為‘好’;一些可測量的特性有可從一個或其它多個測量結果中預測的特征值。如果實際測出的值和預測值不一致,那么此值或其它的多個值已經(jīng)失真,由此給出另一個信號質量的顯示,通過設置一些閾值,可以定義出一些質量級別。
為了實用的目的,信號是作為一個時間幀序列而被分析的。從與第一個時間幀相關的數(shù)據(jù)得來的參數(shù)可被用于時間幀子序列的分析。為此,聲道分析器3的輸出被存在緩沖存貯器7中,為了在后面的神經(jīng)元網(wǎng)絡的子序列操作時使用。
圖3更詳細顯示了訓練裝置1,它包括一個數(shù)據(jù)存貯器8,此存貯置包含第一個“好”信號的存貯器8a和第二個存貯8a中“好”信號的失真信號的存貯器8b。從存貯器8a中來的“好”信號和相應地來自8b的有失真的信號,分別通過第一和第二個輸入11、12反饋給分析單元9,分析單元9產(chǎn)生一個包含一組將被傳入神經(jīng)元網(wǎng)絡5的標簽的輸出。信號的失真版本也將被傳給分段器10,分段置10被信號分成與標簽相應的分立段,然后,這些分段被傳給聲道分析器3(圖1)。
圖4詳細顯示了分析單元9,來自第一和第二個存貯器(8a和8b)的傳載“好”信號和有失真的信號的輸入11和12被分別反饋給聽覺模型(分別為13、14),聽覺模型的輸出在比較器15中進行比較。在另一個可選方案中,“好”信號和失真信號的對應段交替通過同樣的聽覺模型,這對熟練的讀者來說是顯然的,并且聽覺模型的輸出被用于為這個“好”的和失真信號的各段作比較。比較器15的輸出被誤差面產(chǎn)生器16用來產(chǎn)生一個誤差面。這些標簽和分段器10中的信號的分段將同步產(chǎn)生。標簽被輸出至神經(jīng)元網(wǎng)絡5(圖1)。
圖5顯示了數(shù)據(jù)存貯器8中的數(shù)據(jù)的產(chǎn)生。象后面將要講到的,原始測試信號18由任何一個合適的裝置產(chǎn)生,并被直接傳送給第一個存貯器8a,同樣的信號也通過一個失真裝置19傳輸,產(chǎn)生的失真信號被存貯在第二個存貯器8b中。
在這里簡單地討論一下聲道分析系統(tǒng)的特性和可訓練過程是適當?shù)?。聲道是個不均勻的從聲門延伸到嘴唇的形狀作為時間函數(shù)而變化的聲學管道,[Fant G C M,“Acoustic Theory of speech Production”,Morton and Co.Sgravehage,the Netherlands,1960],導致隨時間而改變的主要解剖部位是嘴唇,顎舌頭和蓋膜。為計算簡單,我們認為這個系統(tǒng)模型是線性時不變的。但是,人的發(fā)音機制不符合這些特性中的任何一個。語音是個連續(xù)的時變過程,另外,聲門和聲道不是分開的,這就導致了非線性特征,[Flanagan J L“Source-System Interactions in theVocal Tract”,Ann.New York Acad.Sci 155,9-15,1968]。然而,作個合理的假定,在短時間間隔內(nèi)開發(fā)線性時不變模型用于描述語音是可行的[Markel J D,Gray A H,“Linear Prediction of Speech”,Springer-Verlag Berlin Heidelberg New York,1976]。線性預測器將語音事件分成短的時間段或幀,用過去的語音幀產(chǎn)生唯一的一組預測參數(shù)以在當前幀表示語音[Atal B S,Hanauer SL“Speech Analysis and Synthesis byLinear Prediction of the Speech Wave”J.Acoust.Soc.Amer.,Vol.50,pp.637-655,1971]。線性預測分析已成為一種廣泛應用的估計語音參數(shù),如音調(diào)、共振峰、頻譜等的方法。聽覺模型(時間/頻率/幅度譜圖)依賴于被監(jiān)測聲音的聽覺特性,而不考慮它們是怎么產(chǎn)生的。然而一個聲道模型能識別信號是否是類語音的,即是否是一個實際的聲道能產(chǎn)生的。因此,聽覺模型不能識別出來的非聽覺差別,仍然能被聲道模型識別出來。
為了測量信號質量的目的,產(chǎn)生的輸出參數(shù)必須對被測量的屬性,即能感知的語音質量敏感。因此,模型必須能模擬非類語音的失真。并因此,一個理想的聲道模型將不合適。一個理想的模型將把所有的輸入信號轉換為類語音形式(若失真嚴重,則不必是原始的信號)。這將使分類過程不可靠,因為有失真的輸入和純輸入都被將分類為類語音,以致訓練過程變得不可能。在前面定義的意義的基礎上,由于此過程依賴于來自聲道模型的輸出參數(shù),為區(qū)分壞狀態(tài)和好狀態(tài)的信號,此參數(shù)對非人為失真單元的出現(xiàn)是敏感的。因此,聲道模型的“不完善”是非常重要的。一個如分析器3的適于應用的聲道模型就象在“語音信號的數(shù)字處理”Rabiner L.R.;Schafer R.W;(Prentice-Hall 1978)page 396。中描述過的線性預測模型。
頻譜分析可被作為相對于聲道模型另一選擇,如由R.B.Randall所著的“頻譜分析”,(Pubilished by Bruel & Kjaer,1987 ISBN 8787355078)的第3.6部分討論的“1/3音階分析”。
現(xiàn)在將著重討論可訓練過程的特性和神經(jīng)元網(wǎng)絡。為將一組輸入映射到較少的預定分類結果中,應使用一系列規(guī)則,特別是當映射過程代表一個自然系統(tǒng)時。然而,如果自然系統(tǒng)太復雜,或所需映射對抽象參數(shù)進行操作,那么為響應一組稱為訓練數(shù)據(jù)的已知的結果,一個訓練過程將被用于開發(fā)需要的映射。已知的結果被用來決定輸入?yún)?shù)和分類結果之間的關系,以使隨后輸入的未知組合能被分類。一個神經(jīng)元網(wǎng)絡被設計用于模擬大腦執(zhí)行特殊任務或感興趣的功能的方法,經(jīng)過一個學習過程去訓練神經(jīng)元網(wǎng)絡執(zhí)行有用的計算是可行的[Haykin S,“NeuralNetworks,A Comprehensive Foundation”,Macmillan IEEE Press,1994]。為獲得好的性能,神經(jīng)元網(wǎng)絡將大量的簡單處理單元相互聯(lián)接起來。交互處理單元聯(lián)接的加強,如已知的加權,被用來存貯系統(tǒng)知識[Aleksander,1,Morton H“An Introduction of Neural Computing”Chapman and Hall London,1990]。執(zhí)行學習過程的處理稱作學習算法。它的功能是按一定的順序修改網(wǎng)絡加權值,以獲得所期望的設計結果。神經(jīng)元網(wǎng)絡的能力得自大量的并行分布結構和它的學習與歸納能力,歸納指網(wǎng)絡為訓練中沒遇到的輸入產(chǎn)生合理的輸出。監(jiān)督下的學習是訓練的一種形式,它包括顯示已知分類的示例給網(wǎng)絡以及修改相關聯(lián)的加權值以縮小期望的與系統(tǒng)實際響應之間的差別,訓練為每個輸入分類的很多示例重復進行,直到網(wǎng)絡達到一個穩(wěn)定狀態(tài)。在神經(jīng)元網(wǎng)絡執(zhí)行的輸入-輸出映射和非參數(shù)統(tǒng)計推論所實現(xiàn)的分類之間有精確的類似。
系統(tǒng)的操作描述如下先參照圖2,實時數(shù)據(jù)由源2提供給聲道分析系統(tǒng)3,失真和干擾也許將導致一些原始信號的分立時間幀產(chǎn)生失真,或一起丟失。如果一個給定幀只能出現(xiàn)在一個可能幀的小子集之后,則它在此子集的一部分之后出現(xiàn)表明目標幀或它的前一個幀(或兩者)已經(jīng)從與前后幀相適的原始幀中產(chǎn)生失真。每個獨立的幀的參數(shù)也許將被“允許”(即參數(shù)處于可希望范圍內(nèi)),但一參數(shù)序列放在一起考慮時,也許將是不可行的,即表明失真已發(fā)生。存貯在存貯器4中的參數(shù),定義了一個包含這種效應的網(wǎng)絡定義函數(shù),聲道分析產(chǎn)生的參數(shù)經(jīng)反饋作為神經(jīng)元網(wǎng)絡5的輸入,它將網(wǎng)絡定義函數(shù)用于聲道分析產(chǎn)生的數(shù)據(jù),用以產(chǎn)生輸出6。網(wǎng)絡定義函數(shù)由存貯在存貯器4中的參數(shù)定義,以獲得提供給源2的信號質量的分類。
為包含依賴時間特性的參數(shù),如不僅鑒別模型輸出的時域特性是否在人的聲道能力之內(nèi),也鑒別時變特性是否也在這個能力之內(nèi)。聲道分析的輸出被存貯于緩沖存貯器7中,除現(xiàn)有采樣外,存貯參數(shù)的一個預設數(shù)可作為輸入反饋給神經(jīng)元網(wǎng)絡5,作為歷史數(shù)據(jù),由此來測量信號的時間特性。存貯的參數(shù)可同時涉及當前采樣前后的事件,以使采樣的“在先歷史”和“在后歷史”采樣都被考慮。顯然,在后一種情況下,當前采樣的分析,直到“在后歷史”被組合后才能產(chǎn)生。
為監(jiān)測大量鏈路的信號質量,源2可被順序地連接至很多分立的通信鏈路中。雖然特別適于非侵入測量過程,本發(fā)明也適用于所謂的“侵入”測量,其中測試信號,而不是實時信號,被用來作為源的測量。
輸出6可用一種合適的形式顯示給用戶,例如一個產(chǎn)生表示壞性能的分類的源,也許將向網(wǎng)絡管理者表示應使源2代表的通信鏈路停止服務,并在必要時進行修理,可能的話,通過另一條路徑重新建立連接,在可能的方案中,這種過程可自動控制,或留給控制者去執(zhí)行輸出6的指示。
為每個時間幀記錄的參數(shù)可用短碼存貯起來,以表示這些參數(shù)。這也將使用較少的內(nèi)存,同時也相對縮短處理時間。后續(xù)時間幀的碼序列應象它們代表的參數(shù),跟在大量相應實時語音的識別出來的序列之一后。一個時間幀的一組參數(shù)被識別出來,這些參數(shù)中若有一個碼不應跟在序列的前一成員之后時,或根本不是為它編的碼,這就表明失真的存在。
為產(chǎn)生存在存貯器4中的參數(shù),神經(jīng)元網(wǎng)絡5應首先用訓練數(shù)據(jù)進行訓練,以建立網(wǎng)絡定義函數(shù),這個過程示于圖1,測試數(shù)據(jù)從訓練裝置1提供給聲道分析器3。為定義將存于存貯器4中的網(wǎng)絡定義函數(shù),訓練裝置1也提供涉及測試數(shù)據(jù)的分類的參數(shù)給神經(jīng)元網(wǎng)絡5,以允許標簽的產(chǎn)生。
這些標簽的產(chǎn)生描述如下,為產(chǎn)生訓練神經(jīng)元網(wǎng)絡需要的數(shù)據(jù)量而使用非常短的,以致于不能由操作者評估精度的語音段。自動產(chǎn)生這種信號的一種方法已經(jīng)得到。這個過程依賴于感性分析模型的使用,即用于評估一個信號的失真對于聽者來說是否顯著的過程。初始時,提供與存貯器(8a,8b)相關聯(lián)的測試信號8的源。第一個存貯器8a有個“好”信號采樣,完整的采樣一般有幾小時長,第二存貯器通過后面將述的方法獲得相同采樣的相應信號,此信號已失真。存貯于第2個存貯器8b的采樣包括失真的不同程序與不同類型。失真信號,被分成短的分段(一般為20ms),這些分段直接反饋給聲道分析器3(圖1)。分析單元9比較“好”采樣和失真的采樣,并產(chǎn)生一組標簽以表示在每一段中出現(xiàn)的模型認為可被聽者感知的失真程度。在此描述一下此分析過程。但用于公開的國際專利申請?zhí)朩O 94/00922,WO95/01011和WO95/15035的分析技術是非常合適的。
分析系統(tǒng)詳見圖4,“好”采樣和相應的失真采樣分別通過輸入端11和12反饋給聽覺模型13和14。為簡潔起見,這些都表示為分立的模型,兩種采樣輸入通過同一模型將是很有意義的??傊瑯拥奶幚碜饔糜趦煞N信號是非常重要的。模型產(chǎn)生大量涉及分立信號段特征的感性度參數(shù),此過程可包含將采樣分為不同的重疊頻段,使用重疊濾波器去模擬時域的掩蔽現(xiàn)象。其中一個聲音掩蔽一個較靜的頻譜上接近它的聲音,也可包含將每個分段和一個或多個前后段相比較,以模擬時域掩蔽。其中,一個較靜聲在前或后有響聲時相對在前或后無響聲時較難感覺到。如前述專利說明描述的,聽覺模型產(chǎn)生出聽覺面,兩個分別對應于“好”和失真采樣的聽覺面在比較器15中比較,從而產(chǎn)生一誤差面。這些面對大量的時間段和頻率或音調(diào)帶(音調(diào)帶的單個變化范圍被確定為與感性特征相一致,例如使信號與“吼叫”音階相一致)的測量是必不可少的,聲音信號的感知幅度表示在與音調(diào)及時間的軸都垂直的軸上。不同的加權可用于正和負值,如表示由信號丟失造成的損耗和附加噪聲的差值,若一點失真都沒有,整個誤差面將都是零值。在將要討論的例子中,如誤差面上的值被確定為聽覺模型輸出間差值的絕對值(也許是按上述方式加權),所有的誤差面上的值都是正值。
如上述專利申請中描述的,誤差面的特征可被用來產(chǎn)生一個值,此值表明誤差的感性重要性。如國際專利申請WO 95/15035中專門描述的那樣,分布在誤差面上誤差的絕對值是一個此值中系數(shù)。然而,另外的依賴于面形狀的值也有用處,在說明中稱作“誤差熵”。
最終表示“聽覺效果”的加權值,YLE,它表示了失真的絕對值,可表示如下誤差活力,EA=10logΣi=148Σj=120|c(i,j)|]]>其中c(i,j)是誤差面第i時段和j音調(diào)帶上的待分析的誤差值。
在時間和音調(diào)上的誤差分布(或更進一步說是失真熵,它和能量分布范圍的倒數(shù)相對應)計算如下誤差熵EE=-Σi=148Σj=120|a(i,j)|•ln(a(i,j))]]>其中a(i,j)=|c(i,j)|EA]]>上式中的自然對數(shù)(ln)項控制了能量幅度的變化影響熵EE的程度,起到了非線性壓縮的功能。
已發(fā)現(xiàn)誤差活力和誤差熵判據(jù)在對失真的主觀感覺層次上對應得很好,因為如果誤差是分布在短暫的單音階上,而不是集中在時間和音調(diào)上的,那么聽者將發(fā)現(xiàn)一個的更引人注意的主層次誤差。
誤差熵EE給出了不依賴于總誤差幅值的誤差分布的量度,誤差活力EA則給出了不依賴于誤差分布的誤差量的量度。
實際上,若考慮到本實施例中使用的聽覺誤差振幅比例的對數(shù)單元,那么將EA和EE改寫為E′A和E′E就很方便EA′=Σi=1nΣj=1m|10|C(i,j)|]]>和EE′=-Σi=1nΣj=1m|lo|C(i,j),|EA′•Lh(|lo|C(i,j),|EA′)]]>
將誤差活力和誤差熵的測量值組合就可為聽者對失真的主觀反應給出更好的表示,它用一種比真實失真更穩(wěn)定的方式。
我們已發(fā)現(xiàn)一個好的主觀“聽覺效應”的表示量YCE,給出如下YCE=-a1+a2log10E′A+a3E′E其中a1=8.373;a2=0.05388;a3=0.4090對YCE合適的閾值可用來判斷一采樣是否應標為“好狀態(tài)”或“壞狀態(tài)”。標簽產(chǎn)生器17執(zhí)行以上計算,并將標簽輸出至神經(jīng)元網(wǎng)絡5。此標簽與對應的測試信號段相一致,該測試信號段由存貯器8b中提取的時域段10產(chǎn)生。
用于存貯器8的“好”信號及失真信號的信號源可由預產(chǎn)生存貯器提供,各種合適信號的主體已可被用,而更多的數(shù)據(jù)則能快速地產(chǎn)生,這類數(shù)據(jù)的產(chǎn)生相對直接,如圖5所示。
一個初始信號被送入“好”信號存貯器8a它可能包含許多實際語音采樣,為了確定有代表性的樣本;使用了不同的說話者。同樣的一個信號經(jīng)失真產(chǎn)生器19饋入,產(chǎn)生的失真信號存于“失真”信號存貯器8b中??赡芤褂枚鄠€不同的失真源。通過對不同測試信號和失真類型的不同排列,可產(chǎn)生大量的具有代表性的測試數(shù)據(jù)的主體,用來作訓練數(shù)據(jù),它由訓練數(shù)據(jù)源1提供。
典型形式的失真也由失真發(fā)生器19提供給測試信號,目的是為測試信號提供具有代表性的測試信號。這些失真可被產(chǎn)生用于模擬不同的效果,它們可按一定的算法產(chǎn)生(即通過對采樣的數(shù)學操作,如模仿一個原型系統(tǒng))或通過使原始信號通過一個在測試設備或在諸如通信網(wǎng)絡的實際系統(tǒng)中的實際裝置而產(chǎn)生。
訓練裝置1提供給神經(jīng)元網(wǎng)絡5的標簽將被傳輸?shù)挠柧毿盘柼峁┙o自然網(wǎng)絡,并因此使它提供合適的加權值給不同的存儲在存儲器4中的參數(shù),這些參數(shù)對應于具有這些特性的數(shù)據(jù)。不同類型的失真和非失真信號的示例由訓練裝置1提供,以使輸出6不僅識別出感性失真的存在,也識別出失真產(chǎn)生的損害程度,即,它為聽者顯示干擾的大小程度。
為確保網(wǎng)絡定義是精確的,分類情況已知的測試數(shù)據(jù)由輸入2提供,將由神經(jīng)元網(wǎng)絡5中網(wǎng)絡定義函數(shù)產(chǎn)生的分類與已知的分類相比較(用此處未示出的方法)。
權利要求
1.一個評估攜帶語音的信號質量的方法,在該方法中,按照產(chǎn)生輸出參數(shù)的頻譜表示模型來分析信號,按照一個預先確定的網(wǎng)絡定義函數(shù)來加權輸出參數(shù),并產(chǎn)生一個來源于被加權的輸出參數(shù)的輸出。
2.根據(jù)權利要求1的方法,其網(wǎng)絡定義函數(shù)在一個初始步驟中由一個數(shù)據(jù)導出中,對于此數(shù)據(jù)來說,其輸出值是已知的。
3.根據(jù)權利要求1或權利要求2中的方法,其頻譜表示模型是不完善的聲道模型。
4.根據(jù)上述任何權利要求的方法,使用可訓練的過程,使用好條件與/或壞條件下的樣本,以及用頻譜表示來建模,從而產(chǎn)生網(wǎng)絡定義函數(shù)。
5.根據(jù)權利要求4的方法,其網(wǎng)絡定義函數(shù)通過以下步驟來建立提供一個訓練序列,該序列包括第一個信號和該信號的失真版本;并且測量存在于每個段中的失真感知度來確定網(wǎng)絡定義函數(shù)。這正如通過一個其中產(chǎn)生失真感性測量度的分析過程來確定一樣。該測量度表明,語音信號的失真將會被人耳覺察到的程度。
6.根據(jù)權利要求5的方法,其分析過程估計了相同信號的失真和非失真版本在人的聽覺系統(tǒng)中產(chǎn)生的效果,并且分析過程確定了上述效果間的差異,并根據(jù)于上述差異產(chǎn)生上述失真的感性測量度。
7.根據(jù)權利要求5或權利要求6的方法,其分析過程產(chǎn)生了上述失真的感性測量度,這取決于上述失真的感知強度,以及非線性地取決于上述失真的幅度。
8.根據(jù)權利要求5,6或7的方法,其分析過程產(chǎn)生了上述測試信號與/或上述失真信號的許多譜分量信號。
9.根據(jù)權利要求8的方法,其分析過程對于譜分量信號,估計了在人的聽覺系統(tǒng)中由譜分量信號產(chǎn)生的掩蔽效應。
10.根據(jù)權利要求5、6、7、8或9的方法,上述分析過程估計了上述失真在人的聽覺系統(tǒng)中產(chǎn)生的效果,同時考慮了上述效應的時域持續(xù)性。
11.根據(jù)權利要求5、6、7、8、9或10的方法,其分析過程將失真信號分解成許多譜分量帶,提供譜掩蔽的正在整形的譜分量帶;分析過程計算由其前面和/或后續(xù)時域部分造成的信號的時域掩蔽;對于每個譜分量信號,該分析過程形成一個失真信號的分量信號和一個測試信號相應的計算分量間的差異表示;分析過程還從上述差異表示中產(chǎn)生上述失真的感性測量度。
12.根據(jù)權利要求11的方法,其分析過程由上述差異信號產(chǎn)生了失真的頻域和時域分布的測量值。
13.根據(jù)任何上述權利要求的方法,其網(wǎng)絡定義函數(shù)的加權依賴于輸出參數(shù)的時域前后關系。
14.根據(jù)權利要求13的方法,其參數(shù)序列將與由一組控制參數(shù)導出的加權值歸入一類。
15.根據(jù)權利要求14的方法,對序列中的每個成員來說,被確定的參數(shù)以縮短的形式存儲起來,并且按照一組標注的序列加權后的參數(shù)也以縮短的形式存儲起來。
16.評估攜帶語音信號的質量的裝置,包括用頻譜表示產(chǎn)生輸出參數(shù)的信號分析裝置(3),用于存儲一組決定網(wǎng)絡定義函數(shù)的加權值的存儲裝置(4),以及由輸出參數(shù)和網(wǎng)絡定義函數(shù)產(chǎn)生輸出值的裝置。
17.根據(jù)權利要求16的方法,包括由輸出值已知的數(shù)據(jù)中導出存儲加權值的方法。
18.根據(jù)權利要求16或17的裝置,其中頻譜表示模型是一個不完善的聲道模型。
19.根據(jù)權利要求16、17或18的裝置,其中進一步包括產(chǎn)生一組存儲的加權值的訓練裝置(1),訓練裝置包括將一個語音樣本提供給分析裝置(3)的裝置(10);以及包括用于產(chǎn)生與語音樣本相關的加權值,并將它們插入存儲裝置(4)中的裝置(9)。
20.根據(jù)權利要求19中的裝置,其訓練裝置包括提供一個含第一個信號(8a)和它的失真版本(8b)的訓練序列的裝置(8),接收訓練序列和產(chǎn)生失真的感性測量度的分析裝置(9),該失真的感性測量度用于指示能被聽者覺察到的失真程度,以及將失真的感性測量度用于可訓練的處理裝置(5)以確定網(wǎng)絡定義函數(shù)的分析裝置(4)。
21.根據(jù)權利要求20的裝置,其分析裝置(9)包括用于估計相同信號失真和非失真版在人的聽覺系統(tǒng)中產(chǎn)生的效果的測量裝置(13,14),確定上述效果之間差異的裝置(15),以及根據(jù)上述差異產(chǎn)生失真感性測量度的裝置(17)。
22.根據(jù)權利要求20或21的裝置,其分析裝置(9)產(chǎn)生了一個失真的感性測量度,其值依賴于上述失真的感覺強度,并非線性地依賴于上述失真的幅度。
23.根據(jù)權利要求20、21或22的裝置,其分析裝置(9)包括產(chǎn)生許多上述測試信號和/或上述失真信號的譜分量信號的測量裝置(13,14)。
24.根據(jù)權利要求23的裝置,對于每個譜分量信號來說,測量裝置(13,14)估計了在人的聽覺系統(tǒng)中由譜分量信號產(chǎn)生的掩蔽效應。
25.根據(jù)權利要求20,21,22,23或24的裝置,其分析裝置包括估計在人的聽覺系統(tǒng)中由上述失真產(chǎn)生的效應的測量裝置(13,14),該裝置考慮了上述效應的時域持續(xù)性。
26.根據(jù)權利要求25的裝置,其分析裝置(9)包括產(chǎn)生來自于上述測試信號與/或失真信號的后續(xù)處理信號段的時間序列,至少一些依賴于上述信號與/或失真信號部分(這些信號在上述信號段的前后)而形成的信號段值的測量裝置。
27.根據(jù)權利要求21、22、23、24、25或26的裝置,其分析裝置(9)包括將失真信號分解成許多譜分量帶(13,14),即提供頻域掩蔽的正在整形的譜分量帶,以及用于計算由前后時域部分造成的信號時域掩蔽的測量裝置。對于每個譜分量信號,用于形成在失真信號和相應計算得到的測試信號分量之間差異表示的形成裝置(15,16);以及從上述差異表示中產(chǎn)生失真感性測量度的計算裝置(17)。
28.根據(jù)權利要求27的裝置,其中計算裝置(17)由上述差異信號產(chǎn)生信號的時域和頻域分布的值。
29.根據(jù)權利要求16至28中之一的裝置,其中決定網(wǎng)絡定義函數(shù)的加權值依賴于輸出參數(shù)的時域前后關系,并且包括用于存儲涉及許多時域瞬時段的輸出參數(shù)的裝置(7),以及用于產(chǎn)生輸出參數(shù)的裝置(5),此裝置被這樣配置以由存儲的輸出參數(shù)與網(wǎng)絡定義函數(shù)導出輸出值。
30.根據(jù)權利要求29的裝置,包括用于當輸出參數(shù)序列被產(chǎn)生時存儲它們的裝置,以及用于對這種序列,根據(jù)一組預先確定的上述加權值,從上述序列產(chǎn)生輸出的裝置。
31.根據(jù)權利要求30的裝置,包括以縮短形式存儲序列參數(shù)的裝置。
32.基本參照附圖描述的裝置。
33.基本參照附圖描述的方法。
全文摘要
語音信號(2)送至分析器進入處理,而處理后的輸出由神經(jīng)元網(wǎng)絡(5)進入分析。將神經(jīng)元網(wǎng)絡的輸出與存于網(wǎng)絡定義函數(shù)(4)的參數(shù)進入比較,以導出提供給源(2)的信號的質量。通過提供給可訓練的處理裝置一個失真感性測量度來確定網(wǎng)絡定義函數(shù)。比失真感性測量度是對所者能感性的失真程度的指示。
文檔編號H04M3/22GK1192309SQ9619593
公開日1998年9月2日 申請日期1996年7月25日 優(yōu)先權日1995年7月27日
發(fā)明者M·P·霍利爾, P·J·舍帕爾德, P·格賴 申請人:英國電訊公司