專利名稱:語音編碼裝置及其方法
技術領域:
本發(fā)明涉及使用感知線性預測(PLP)和綜合分析法以編碼和解碼語音數(shù)據(jù)的語音編碼方法和裝置。
背景技術:
語音處理系統(tǒng)包括在其中處理語音數(shù)據(jù)并在不同用戶之間傳送語音數(shù)據(jù)的通信系統(tǒng)。語音處理系統(tǒng)還包括諸如數(shù)字錄音帶記錄儀的裝置,在該裝置中處理語音數(shù)據(jù)并將語音數(shù)據(jù)儲存在記錄儀內。用各種方法對語音數(shù)據(jù)進行壓縮(編碼)和解壓(解碼)。
在相關技術中已為話音通信設計了各種語音編碼器。特別地,基于線性感知(LP)方法的線性感知綜合分析(LPAS)編碼器被用在數(shù)字通信系統(tǒng)中。綜合分析處理涉及到從語音信號中提取語音的特性系數(shù)并從所提取的特性系數(shù)中重新產生該語音。
此外,LPAS編碼器使用一種依據(jù)碼激勵線性感知(CELP)處理的技術。例如,ITU-T(國際電信同盟-通信標準部(international Telecommunication Union-Telecommunication Standardization Sector))已經定義了幾個諸如G.723.1、G.728、G.729等的CELP規(guī)范。其他組織也定義了各種CELP規(guī)范,這樣存在幾種可用的規(guī)范。
CELP使用一種含有互不相同的M編號的(通常,M=1024)碼矢量的代碼本。然后將相應于最佳碼矢量的碼字索引發(fā)送給另外的實體,所述最佳碼矢量含有原聲音和成合聲音之間的最少的識別誤差。其他實體還包括相同的代碼本,并使用該傳送索引,重新產生原聲音。這樣,因為傳送該索引而不是整個語音段,語音數(shù)據(jù)被壓縮。
CELP語音編碼器的傳送速度一般在4~8kbps的范圍內。這樣,難以對1kbps以下的時間變化系數(shù)進行量化或編碼。此外,該系數(shù)量化誤差會使重新產生的音質降低。因此,不是使用標量量化器,而是將矢量量化器用于對低傳送速度下的系數(shù)進行編碼。因而,能使量化誤差減少到最少,從而還原更優(yōu)美的音調。
此外,由于為了求得最佳系數(shù)搜索整本代碼本,一種有效的代碼本搜索算法被用于實時處理。例如,由摩托羅拉公司(Motorola)開發(fā)的矢量和激勵線性感知(VSELP)語音編碼器使用一種含有圖解代碼本的搜索算法,該圖解代碼本是將數(shù)個基本矢量進行線性組合構成的。與用隨機數(shù)代碼本的典型CELP進行相比,這算法能減少通道誤差。VSELP方法還可減少用于儲存代碼本所需的存儲器容量。
然而,當LPAS編碼器使用諸如CELP和VSELP的相關技術綜合分析方法時,在提取輸入語音信號的系數(shù)時未考慮人的聽覺效果或聽力。更正確地,該綜合分析方法僅考慮到提取語音系數(shù)時的語音特性。此外,因為僅在計算原聲音誤差時考慮到人的聽覺效果,將不利地降低了復原的音質和傳輸速度。
發(fā)明內容
因此,本發(fā)明的一個目的是解決上面提到的問題和其他問題。
本發(fā)明的另一個目的是通過使用感知線性預測和綜合分析方法提供考慮眾聽覺效果的一種語音編碼裝置和一種方法。
為了實現(xiàn)這些和其他優(yōu)點并且與本發(fā)明的目的相一致,如這兒實施的及廣泛描述的,本發(fā)明提供一種新穎的語音編碼裝置。依據(jù)本發(fā)明一個方面的裝置包括含有感知線性預測分析緩沖器的一種語音編碼裝置,該感知線性預測分析緩沖器配置成輸出有關原輸入語音信號的音調周期,并使用plp處理分析該輸入語音信號,以輸出plp系數(shù);激勵信號發(fā)生器,配置成能產生并輸出激勵信號;基音綜合濾波器,配置成合成從plp分析緩沖器輸出的音調周期和從激勵信號發(fā)生器輸出的激勵信號;頻譜包絡濾波器,配置成將從plp分析緩沖器輸出的plp系數(shù)應用到音調合成濾波器的輸出,以輸出合成語音信號;加法器,配置成從plp分析緩沖器輸出的原輸入語音信號中減去從頻譜包絡濾波器輸出的合成信號,并輸出差異信號;感知權重濾波器,配置成通過將對應于人的聽覺效果因素的權重值提供給從加法器輸出的差異信號來計算誤差;及最小誤差計算器,配置成發(fā)現(xiàn)具有對應于從感知權重濾波器輸出的誤差的最小誤差的激勵信號。
依據(jù)本發(fā)明的另一方面,本發(fā)明提供一種語音編碼方法,該語音編碼方法包括輸出有關原輸入語音信號的音調周期并用感知線性預測(plp)處理分析該輸入語音信號以輸出plp系數(shù);產生并輸出激勵信號;對輸出音調周期和激勵信號進行合成并輸出第一合成信號;將輸出的plp系數(shù)應用到第一合成信號,以輸出第二合成信號;從原輸入語音信號中減去第二合成信號并輸出差異信號;通過將對應于人的聽覺效果因素(consideration)的權重值提供給輸出差異信號來計算誤差;以及發(fā)現(xiàn)具有對應于計算誤差的最小誤差的激勵信號。
此外,從下文給出的詳細描述中將更能明白本發(fā)明應用范圍。然而應當理解在指出本發(fā)明的較佳實施例時,僅示例性地給出詳細描述和特殊例子,因為本領域人員從此詳細描述中將更明白本發(fā)明精神和范圍內的各種改變和修改。
從下文中給出的詳細描述和附圖中將變得更完全地理解本發(fā)明,附圖僅是示意性地給出,并因此不是本發(fā)明的限制,其中圖1是流程圖,示出依據(jù)本發(fā)明一個實施例用于獲取感知線性預測(PLP)系數(shù)的一種方法;
圖2是根據(jù)使用樹形結構非均勻子頻帶(sub-band)濾波器組的通道示出頻帶寬度對采樣率的示意圖;圖3是依據(jù)本發(fā)明一個實施例的語音編碼裝置的方框圖;以及圖4是示出依據(jù)本發(fā)明一個實施例的語音編碼方法的流程圖。
具體實施例方式
現(xiàn)在將詳細地參照本發(fā)明的較佳實施例,在附圖中示出了這些較佳實施例的例子。
在本發(fā)明中,使用感知線性預測(PLP)方法考慮了聽覺效果,這改善了編碼裝置的重現(xiàn)音質和傳輸速率。更詳細地,圖1描述了依據(jù)本發(fā)明一個實施例的PLP方法。
如圖1所示,對輸入語音信號進行快速傅里葉變換(FFT)處理,由此分散了輸入信號(步驟S110)。FFT處理是用于通過在計算離散傅里葉變換中使用三角函數(shù)的周期性來增加計算速度效率的一種算法,這通過簡單地分散該傅里葉變換進行計算。換句話說,快速傅里葉變換使用項e(-j2πnk/N)(k=0~N-1),當離散傅里葉變換未能完全執(zhí)行時能產生該項,并省略具有與通過使用周期性預計算的項相同值的項的計算,從而減少所需的計算量。
在完成快速傅里葉處理后,進行臨界帶寬(critical-band)積分及再采樣處理(步驟S120)。該處理用于依據(jù)信號的頻帶將人的識別效果應用到離散信號。更詳細地,臨界邊帶積分處理例如用吠聲等級(bark scale)將來自赫茲頻域的輸入語音信號的功率譜轉換成吠聲(bark)頻域。該吠聲等級是由下列公式定義的Ω(ω)=6ln{ω/1200π+[(ω/1200π)2+1]0.5}此外,用于臨界頻帶積分處理的濾波器組較佳地是用于完全重現(xiàn)原聲音信號的樹形結構的非均勻子頻帶濾波器組。更詳細地,圖2是示出頻帶的形狀的示意圖,在該頻帶中,依據(jù)使用樹形結構的非均勻子頻帶濾波器的通道不同地分離采樣速率。如圖2所示,人能聽見或識別聲音的低頻域比在人不能聽見的高頻域被分離得更精細。此外,對低頻域進行采樣從而考慮人的聽覺特性。依據(jù)臨界頻帶積分和再采樣,能獲得一個信號,對于該信號,能加強低頻的頻率變化,并能減少高頻的頻率變化。
然后,如圖1所示,將等響度曲線乘以已經過臨界頻帶積分和再采樣處理的頻率元素(frequency element)(步驟S130)。該等響度曲線是顯示頻率和在相同音量下聽到的純音調聲壓級之間的關系。即,依據(jù)人們怎樣估計每種頻帶內的音量的聽覺特性,等響度曲線描述人的聽力對20Hz到20000Hz的總音頻帶內的反應。等響度曲線稱作為Flecture&Munson曲線。
此外,在已經應用了等響度曲線后,應用“聽力冪次律”處理(步驟S140)。聽力冪次律的處理算術地描述了下面的事實人的聽覺對變得比較響的聲音敏感,但容忍變得很響的高聲音。通過將頻率元素的絕對值乘以三分之一的平方可實行這種處理。
在進行上面的處理后,對反映人的聽覺特性的信號進行逆離散傅里葉變換(IDFT)處理。即,表示人的聽覺特性的權重被反射以將頻域信號轉換成時間域信號(步驟S150)。在IDFT處理后,獲得線性方程的解(步驟S160)。這兒,用在線性預測系數(shù)分析中的Durbin遞歸處理能用于求解該線性方程。Durbin遞歸處理比其他處理使用較少的運算。
接著在步驟S170,對線性方程的解進行cepstral遞歸處理,由此獲得Cepstral系數(shù)。Cepstral遞歸處理用于獲取頻譜平滑的濾波器,并這樣比使用線性預測系數(shù)處理具有更多的優(yōu)點。
另外,獲取的Cepstral系數(shù)的一種類型稱作為PLP特征。同樣,由于為了獲取考慮到人的各種聽覺效果的PLP特征,在處理過程中進行模擬,在語音識別中使用PLP特征可實現(xiàn)相當高的識別率。
現(xiàn)在轉向圖3,它是依據(jù)本發(fā)明一個實施例的語音編碼裝置的方框圖。如圖3中所示,語音編碼裝置包括PLP分析緩沖器310,用于緩沖和輸出輸入語音采樣,輸出該輸入語音采樣的音調周期,并且對該輸入語音采樣進行PLP分析,以輸出PLP系數(shù)。還包括激勵信號發(fā)生器320,用于產生并輸出激勵信號;音調合成濾波器330,用于合成從PLP分析緩沖器310輸出的音調周期和從激勵信號發(fā)生器320輸出的激勵信號,并用于輸出音調合成信號;及頻譜包絡濾波器340,用于通過將從PLP分析緩沖器310輸出的PLP系數(shù)應用到從音調合成濾波器330輸出的音調合成信號,輸出合成語音信號。
另外包含加法器350,用于從PLP分析緩沖器310輸入的原語音信號中減去從頻譜包絡濾波器340輸出的合成語音信號;感知權重濾波器360,用于將考慮到人的聽覺效果的權重提供給原聲音和合成信號之間的差異值,由此計算該信號的誤差特性;及最小誤差計算器370,用于確定含有最小誤差的激勵信號。此外,PLP分析緩沖器310內的PLP分析是用圖1所示的過程進行處理的。
另外,激勵信號發(fā)生器320含有例如代碼本的代碼本索引和代碼本增益的內部參數(shù)。此外,從代碼本搜索具有在最小誤差計算器370內計算的最小誤差的激勵信號。同樣,當傳送信號時,語音編碼裝置300傳送相應于含有最小誤差的激勵信號的音調周期、PLP系數(shù)、代碼本索引和代碼本增益。
接著轉到圖4,它是示出依據(jù)本發(fā)明一個實施例的語音編碼方法的流程圖。如圖4所示,音調周期和PLP系數(shù)是從原語音信號的語音采樣中獲取的(步驟410)。用圖1所示的過程能獲取該PLP系數(shù)。
然后產生激勵信號,使該激勵信號與音調周期合成(步驟S420)。接著,將PLP系數(shù)應用到通過合成激勵信號和音調周期獲取的信號,由此輸出一個合成語音信號(步驟S430)。此外,該激勵信號對應于在它通過人的聲道之前由人肺產生的聲源。在這時,通過在那里再應用PLP系數(shù),考慮聲道效果,人的聽覺效果被反映,因此,該合成信號類似于原語音信號。
其后,從原語音信號中減去該合成語音信號(步驟S440)。注意即使合成信號類似于原語音信號,因為綜合信號人工地產生,可能在合成信號和原語音信號之間存在差異。通過考慮到它們之間的差異,能夠傳送與原語音信號幾乎相同的精確語音信號。
另外,通過將考慮到人的聽覺效果內的權重值乘以原信號和綜合信號之間的差異能計算誤差(步驟S450)。注意不是簡單地對該信號的頻率或音量計算該誤差,而是用考慮到聽覺效果的權重值來計算,因此,能產生可直接收聽的聲音。
然后,發(fā)現(xiàn)含有最小誤差的激勵信號(步驟S460)。接著,傳送具有最小誤差的激勵信號的音調周期、PLP系數(shù)、代碼本索引和代碼本增益(步驟S470)。這里,不是傳送語音,而是傳送代碼本索引,代碼本增益,音調周期和PLP系數(shù),以致減少傳送數(shù)據(jù)量。
如迄今為止所述的,依據(jù)本發(fā)明的語音編碼裝置和方法,將人的聽覺效果應用到提取參數(shù)和計算誤差的過程中,以致改善整體音質。同樣,在本發(fā)明中使用的感知線性預測(PLP)方法描述了使用比線性預測(LP)方法更低系數(shù)的整個語音頻譜,以此降低數(shù)據(jù)傳送的比特率。
此外,有可將上述方法應用到CODEC(編碼器/解碼器)。在這種情況下,一個接收機,即,解碼器接收從編碼器發(fā)送的具有最小誤差的激勵信號的音調周期,PLP系數(shù),代碼本索引和代碼本增益。其后,該解碼器產生適合于該接收的代碼本索引和代碼本增益的激勵信號,以合成該音調周期。然后,將在那里應用PLP系數(shù),以使重現(xiàn)原語音信號。
由于可用不背離本發(fā)明的精神和基本特性的幾種方式實現(xiàn)本發(fā)明,應當理解除非另外指定,上述的實施例不受前述的任何細節(jié)所限制,而應當廣泛地解釋成在附加權利中要求中定義的精神和范圍內,因此,在權利要求的邊界和范圍或類似的這樣的邊界和范圍內的所有的變化和修改傾向于包含在附加的權利要求中。
權利要求
1.一種語音編碼裝置,包括感知線性預測(plp)分析緩沖器,它配置成輸出有關原輸入語音信號的音調周期并用plp處理分析輸入語音信號,以輸出plp系數(shù);激勵信號發(fā)生器,它配置成產生并輸出激勵信號;音調合成濾波器,它配置成合成從所述plp分析緩沖器輸出的所述音調周期和從所述激勵信號發(fā)生器輸出的所述激勵信號;頻譜包絡濾波器,它配置成將從所述plp分析緩沖器輸出的所述plp系數(shù)應用到所述音調合成濾波器的輸出,使得輸出合成語音信號;加法器,它配置成從所述plp分析緩沖器輸出的所述原輸入語音信號中減去從所述頻譜包絡濾波器輸出的所述合成信號,并輸出差異信號;感知權重濾波器,它配置成通過將對應于人的聽覺效果因素的權重值提供給從所述加法器輸出的所述差異信號,計算誤差;以及最小誤差計算器,它配置成發(fā)現(xiàn)具有對應于從所述感知權重濾波器輸出的所述誤差的最小誤差的激勵信號。
2.按照權利要求1所述裝置,其特征在于,還包括快速傅里葉變換單元,它配置成分散所述原輸入語音信號;臨界頻帶積分和再采樣單元,它配置成依據(jù)頻帶將人的識別效果應用到所述分散信號;乘法器,它配置成將通過所述臨界頻帶積分和再采樣單元的頻率元素乘以等響度曲線;聽力冪次律單元,它配置成依據(jù)音量的變化,將所述人的識別效果應用到施加有信號的所述等響度曲線,并輸出所述施加的信號。逆離散傅里葉變換單元,它配置成從所述聽力冪次律單元輸出的所述信號的時間域內獲取線性方程;以及Cepstral系數(shù)單元,它配置成求解所述線性方程并將所述求解結果應用到cepstral遞歸處理,以獲取cepstral系數(shù)。
3.按照權利要求1所述裝置,其特征在于,所述激勵信號發(fā)生器包括代碼本的代碼本索引和代碼本增益,且所述裝置還包括搜索單元,所述搜索單元配置成從所述代碼本中搜索具有所述最小誤差的所述激勵信號。
4.按照權利要求3所述裝置,其特征在于,還包括發(fā)送器,它配置成將所述代碼本索引、所述代碼本增益、所述音調周期和所述plp系數(shù)發(fā)送給預期用戶。
5.一種語音編碼方法,包括輸出有關原輸入語音信號的音調周期并用感知線性預測(plp)處理分析輸入語音信號,以輸出plp系數(shù);產生并輸出激勵信號;合成所述輸出音調周期和所述激勵信號并輸出第一合成信號;將所述輸出plp系數(shù)應用到所述第一合成信號,以輸出第二合成信號;從所述原輸入語音信號中減去所述第二合成信號,并輸出差異信號;通過給所述輸出差異信號提供對應于人的聽覺效果因素的權重值,計算誤差;以及發(fā)現(xiàn)具有對應于所述計算誤差的最小誤差的激勵信號。
6.按照權利要求5所述的方法,其特征在于,獲取所述plp系數(shù)包括使用快速傅里葉變換分散所述輸入語音信號;使用臨界頻帶積分和再采樣處理,依據(jù)頻帶將人的識別效果應用到所述離散信號;使經過所述臨界頻帶積分和再采樣處理的頻率元素乘以等響度曲線;使用聽力冪次律處理,依據(jù)音量變化將所述人的識別效果應用到施加有信號的所述等響度曲線,并輸出所述施加的信號;使用逆離散傅里葉變換獲取所述輸出的施加的信號時間域內的線性方程;以及求解所述線性方程并將所述求解結果應用到cepstral遞歸處理,使得獲取cepstral系數(shù)。
7.按照權利要求5所述方法,其特征在于,還包括從代碼本中搜索具有所述最小誤差的所述激勵信號;其中,所述代碼本包括代碼本的代碼本索引和代碼本增益。
8.按照權利要求7所述方法,其特征在于,還包括將所述代碼本索引、所述代碼本增益、所述音調周期和所述plp系數(shù)發(fā)送給期望用戶。
9.一種語音處理裝置,包括感知權重濾波器,它配置成將對應于人的聽覺效果因素的權重提供給對應于合成語音信號和原語音信號之間的差異的差異信號;最小誤差計算器,它配置成發(fā)現(xiàn)具有對應于由所述感知權重濾波器計算的所述誤差的最小誤差的激勵信號。
10.按照權利要求9所述裝置,其特征在于,還包括感知線性預測(plp)分析緩沖器,它配置成輸出有關所述原輸入語音信號的音調周期,并用plp處理分析輸入語音信號,以輸出plp系數(shù);激勵信號發(fā)生器,它配置成產生并輸出激勵信號;音調合成濾波器,它配置成合成從所述plp分析緩沖器輸出的所述音調周期和從所述激勵信號發(fā)生器輸出的所述激勵信號;頻譜包絡濾波器,它配置成將從所述plp分析緩沖器輸出的所述plp系數(shù)應用到所述音調合成濾波器的輸出,使得輸出所述合成語音信號;以及加法器,配置成從所述plp分析緩沖器輸出的所述原輸入語音信號中減去從所述頻譜包絡濾波器中輸出的所述合成信號,并輸出所述差異信號。
11.按照權利要求10所述的裝置,其特征在于,還包括快速傅里葉變換單元,它配置成能分散所述原輸入語音信號;臨界頻帶積分和再采樣單元,它配置成依據(jù)頻帶將人的識別效果應用到所述離散信號;乘法器,它配置成將經過所述臨界頻帶積分和再采樣單元的頻率元素乘以等響度曲線;聽力冪次律單元,它配置成依據(jù)音量的變化將所述人的識別效果應用到施加有信號的所述相等響度曲線,并輸出所述施加的信號;逆離散傅里葉變換單元,它配置成在所述聽力冪次律單元輸出的所述信號的時間域內獲取線性方程;以及Cepstral系數(shù)單元,它配置成求解所述線性方程,并將所述求解結果應用到cepstral遞歸處理,使得獲取cepstral系數(shù)。
12.按照權利要求11所述的裝置,其特征在于,所述激勵信號發(fā)生器包括代碼本的代碼本索引和代碼本增益,且所述裝置還包括搜索單元,所述搜索單元配置成從所述代碼本中搜索具有所述最小誤差的所述激勵信號。
13.按照權利要求12所述的裝置,其特征在于,還包括發(fā)送器,它配置成將所述代碼本索引、所述代碼本增益、所述音調周期和所述plp系數(shù)發(fā)送給預期用戶。
14.按照權利要求13所述的裝置,其特征在于,還包括接收機,它配置成接收從所述發(fā)送器發(fā)送的具有所述最小誤差的所述激勵信號的所述音調周期、所述plp系數(shù)、所述代碼本索引和所述代碼本增益;以及處理器,它配置成產生對應于所接收的代碼本索引和代碼本增益的激勵信號,以合成所述音調周期,并應用所述plp系數(shù)合成的音調周期,使得重現(xiàn)所述原語音信號。
全文摘要
一種語音編碼裝置,包括感知線性預測(plp)分析緩沖器,它配置成輸出有關原輸入語音信號的音調周期并用plp處理分析輸入語音信號,以輸出plp系數(shù);激勵信號發(fā)生器,它配置成產生并輸出激勵信號;音調合成濾波器,它配置成合成從所述plp分析緩沖器輸出的所述音調周期和從所述激勵信號發(fā)生器輸出的所述激勵信號;頻譜包絡濾波器,它配置成將從所述plp分析緩沖器輸出的所述plp系數(shù)應用到所述音調合成濾波器的輸出,以輸出合成的語音信號;加法器,它配置成從所述plp分析緩沖器輸出的所述原輸入語音信號中減去從所述頻譜包絡濾波器輸出的所述合成信號,并輸出差異信號;感知權重濾波器,它配置成通過將對應于人的聽覺效果因素的權重值提供給從所述加法器輸出的所述差異信號來計算誤差;以及最小誤差計算器,它配置成發(fā)現(xiàn)具有對應于從所述感知權重濾波器輸出的所述誤差的最小誤差的激勵信號。
文檔編號G10L19/04GK1790486SQ20051013167
公開日2006年6月21日 申請日期2005年12月14日 優(yōu)先權日2004年12月14日
發(fā)明者金燦佑 申請人:Lg電子株式會社