用于噪聲環(huán)境的話音活動檢測器和驗證器的制作方法

文檔序號：2821004閱讀：260來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于噪聲環(huán)境的話音活動檢測器和驗證器的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及噪聲環(huán)境內(nèi)的語音的檢測(通常稱為話音活動檢測(VAD))。本發(fā)明適用于(但并不限于)語音檢測系統(tǒng)中的話音信號的能量加速率測量。
背景技術(shù)：
許多話音通信系統(tǒng)，例如針對個人移動無線用戶的全球移動通信系統(tǒng)(GSM)蜂窩電話標準和陸地中繼無線(TETRA)系統(tǒng)使用語音處理單元來編碼和解碼語音模式。在這種話音通信系統(tǒng)中，語音編碼器把模擬語音模式轉(zhuǎn)換為傳輸用的合適的數(shù)字格式。語音解碼器把接收的數(shù)字語音信號轉(zhuǎn)換為音頻模擬語音模式。
用于檢測話音活動的方法和設(shè)備在本技術(shù)領(lǐng)域中已公知。話音活動檢測器(VAD)在假設(shè)語音只存在于音頻信號的一部分中的假設(shè)下工作。這個假設(shè)通常是正確的，因為許多音頻信號間隔只具有靜音或背景噪聲。
話音活動檢測器可以用于許多目的。這些包括當在沒有語音時抑制傳輸系統(tǒng)中的整個傳輸活動，從而潛在地節(jié)約了功率和信道帶寬。當VAD檢測到語音活動繼續(xù)進行時，能夠重新開始傳輸活動。
話音活動檢測器還可以與語音存儲設(shè)備結(jié)合使用，把包括語音的音頻部分與“無語音”部分區(qū)分開。包括語音的部分后來被存儲在存儲設(shè)備中而“無語音”部分被丟棄。
用于檢測話音的現(xiàn)有方法至少部分地基于用于檢測和估算語音信號的功率的方法。估算的功率與一常數(shù)或一自適應(yīng)門限比較，以作出該信號是否是語音的判決。這些方法的主要優(yōu)點在于其低復(fù)雜度，這使得它們適用于低處理資源的實施。這種方法的主要缺點是背景噪聲可能無意中導(dǎo)致在實際上沒有“語音”的時候檢測到“語音”。另外，因為含糊不清，實際存在的“語音”可能未被檢測到，并且由于背景噪聲而導(dǎo)致難以檢測到。
用于檢測語音活動的一些方法針對于噪聲移動環(huán)境且基于語音信號的自適應(yīng)濾波。這在最終判決之前降低了來自該信號的噪聲內(nèi)容。由于該方法用于不同的說話者和不同的環(huán)境，所以頻譜和噪聲電平可能發(fā)生改變。因此，輸入濾波器和門限通常是自適應(yīng)的，以跟蹤這些變化。
這些方法的示例在分別用于半速率、全速率和增強全速率語音業(yè)務(wù)信道的GSM規(guī)范06.42話音活動檢測器(VAD)中提供。另一這種方法是ITU G.729附錄B中所建議的“Multi-Boundary Voice ActivityDetection Algorithm(多界限話音活動檢測算法)”。這些方法在噪聲環(huán)境中很準確，但是實施起來很復(fù)雜。
所有這些方法都需要輸入語音信號。采用語音解壓縮方案的一些應(yīng)用在語音解壓縮處理期間需要執(zhí)行語音檢測。
Benyassine等人的歐洲專利申請No.EP-A-0785419涉及一種用于話音活動檢測的方法，該方法包括以下步驟(i)從每幀的呼入語音信號中提取出預(yù)定集的參數(shù)，以及(ii)根據(jù)從預(yù)定集的參數(shù)中提取出的偏差測量集來對每幀的呼入語音信號作出幀話音判決。
蜂窩系統(tǒng)中的VAD進行偏置，以確保當一方說話時，包括語音編解碼器和RF電路等的無線設(shè)備被激活，以把該語音傳送至背景噪聲及其它損傷環(huán)境中的另一方。但是，這導(dǎo)致在一方?jīng)]有說話時出現(xiàn)數(shù)據(jù)傳輸。這種方法的代價是稍微降低了電池壽命和稍微增加了對該系統(tǒng)的其它單元中的同信道用戶的干擾。這些基本上是第二(或更高)階效應(yīng)。
在這些系統(tǒng)中，沒有對有限資源可用于雙工呼叫的構(gòu)思。通常在不同載波上的上行鏈路和下行鏈路完全可以一致同時使用整個帶寬。
在本發(fā)明的領(lǐng)域中已公知，一些話音活動或話音開始檢測器(VAD/VOD)試圖使用諸如諧波結(jié)構(gòu)(例如通過自相關(guān))的語音特性來辨別濁音語音(voiced speech)。但是，在噪音中，由于語音結(jié)構(gòu)的破壞或由于噪聲中的結(jié)構(gòu)，這些結(jié)構(gòu)指示符可能失效。這例如可以是汽車中的引擎、輪胎或空調(diào)噪聲。最后，這些方法在檢測清音語音(unvoiced speech)方面上較弱。
其替換物只是使用幀能量級來檢測語音。這對于高信噪比(SNR)條件的語音是令人滿意的，其中，可以設(shè)置高于噪聲電平的任意門限來表示語音。但是，這種方法在很多實際噪聲條件中失效。
對于非歸一化的數(shù)據(jù)庫或在實際應(yīng)用中，一個示例集中的噪聲電平很可能比另一示例集中的語音電平高，這使得不能設(shè)置門限值?？朔@個問題的現(xiàn)有方法是取話語的大約第一個100毫秒的平均值，假定這代表噪聲，從而創(chuàng)建用于該話語的特定門限。但是，此外，這對于非平穩(wěn)噪聲是不夠的，其中該噪聲可能迅速偏離初始估計值，其中該噪聲具有高方差或其中第一少數(shù)幀實際上包含不是假定噪聲的語音。
因此，需要有一種用于噪聲環(huán)境的經(jīng)改善的話音活動檢測器和驗證器，其可以緩和上述缺點。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面，提供了一種如權(quán)利要求1所述的通信單元。
根據(jù)本發(fā)明的第二方面，提供了一種如權(quán)利要求11所述的檢測輸入到通信單元中的語音信號的方法。
根據(jù)本發(fā)明的第三方面，提供了一種如權(quán)利要求14所述的確定輸入到通信單元中的信號是語音還是噪聲的方法。
本發(fā)明的其它方面如其從屬權(quán)利要求中所述。
總之，本發(fā)明旨在通過使用能量加速率測量(優(yōu)選為能量幅度測量)來解決任意幅度的非平穩(wěn)噪聲的情況，以表示存在或不存在語音。

現(xiàn)在參考附圖對本發(fā)明的示例性實施例進行描述，在附圖中圖1示出了適用于執(zhí)行本發(fā)明的優(yōu)選實施例的話音活動檢測和驗證的通信單元的方框圖；圖2示出了根據(jù)本發(fā)明的優(yōu)選實施例的用于噪聲環(huán)境的基于能量加速率的話音活動檢測器的流程圖；圖3示出了根據(jù)本發(fā)明的優(yōu)選實施例的用于噪聲環(huán)境的基于能量加速率的話音活動驗證的流程圖；以及圖4示出了根據(jù)本發(fā)明的優(yōu)選實施例的緩沖器操作。
具體實施例方式
濁音語音具有相對較高的能量加速率值，因為濁音語音的開始依賴于或振動或靜止的聲帶的活動。類似地，清音的開始(例如爆破音)也具有高能量加速率。
本發(fā)明人已意識到，在代表性的有明顯語音特征的域中，例如窄帶功率譜或Mel頻譜，所得的能量加速率大大高于非平穩(wěn)噪聲。唯一主要的例外是沖擊噪聲(例如鼓掌)。
因此，根據(jù)本發(fā)明的優(yōu)選實施例，本發(fā)明人已發(fā)現(xiàn)通過集中可能含有話音信號的基本基音的頻率區(qū)中的能量，而能夠另外與這些噪聲區(qū)分開。具體地說，本發(fā)明的發(fā)明人建議使用語音的非結(jié)構(gòu)特征，即能量加速率(或反映語音能量或其分量的一些度量的加速率)。
具體地說，對于在此所描述的發(fā)明構(gòu)思的優(yōu)選應(yīng)用是目前正由歐洲電信標準協(xié)會(ETSI)所定義的分布式語音識別(DSR)標準“SpeechProcessing；Transmission and Quality aspects(STQ)；Distributed speechrecognition；Front-end feature extraction algorithm；Compressionalgorithm(語音處理、傳輸和質(zhì)量方面(STQ)；分布式語音識別；前端特征提取算法；壓縮算法)”，ETSI ES 201 108 vl.1.2(2000-04)，2000年4月。
現(xiàn)在參考圖1，示出了適用于支持本發(fā)明的優(yōu)選實施例的發(fā)明構(gòu)思的音頻用戶單元100的方框圖。
根據(jù)無線音頻通信單元來描述本發(fā)明的優(yōu)選實施例，例如能夠在用于未來蜂窩無線通信系統(tǒng)的第三代合作項目(3GPP)標準下運行且提供DSR能力的無線音頻通信單元。但是，在此所描述的關(guān)于話音活動檢測和驗證的發(fā)明構(gòu)思同樣適用于響應(yīng)話音信號且可以從經(jīng)改善的話音活動檢測電路中獲益的任何電子器件，這也在本發(fā)明的范圍之內(nèi)。
如在本技術(shù)領(lǐng)域中已知，音頻用戶單元100包含優(yōu)選地連接至雙工濾波器、天線開關(guān)或循環(huán)器104的天線102，循環(huán)器104使音頻用戶單元100內(nèi)的接收鏈和發(fā)送鏈之間隔離。
接收器鏈包括接收器前端電路106(有效提供接收、濾波和中頻或基帶頻率轉(zhuǎn)換)。前端電路106串聯(lián)連接至信號處理功能塊(一般由數(shù)字信號處理器(DSP)實現(xiàn))108。信號處理功能塊108執(zhí)行信號解調(diào)、糾錯和格式化。從信號處理功能塊108恢復(fù)的數(shù)據(jù)串聯(lián)連接至音頻處理功能塊109，其以合適的方式格式化接收信號，以發(fā)送至音頻發(fā)音器/顯示器111。
在本發(fā)明的不同實施例中，信號處理功能塊108和音頻處理功能塊109可以設(shè)置在相同的物理設(shè)備內(nèi)?？刂破?14被安置來控制用戶單元100的組件的信息流和運行狀態(tài)。
至于發(fā)送鏈，這基本上包括音頻輸入設(shè)備120，其串聯(lián)連接音頻處理功能塊109、信號處理功能塊108、發(fā)射器/調(diào)制電路122和功率放大器124。處理器108、發(fā)射器/調(diào)制電路122和功率放大器124可操作地響應(yīng)控制器。功率放大器輸出被連接至雙工濾波器、天線開關(guān)或循環(huán)器104以及天線102，以發(fā)射最終的射頻信號。
具體地說，音頻處理功能塊109包括話音活動(或話音開始)檢測(VAD)功能塊130，其操作地連接至話音活動判決功能塊135。根據(jù)本發(fā)明的優(yōu)選實施例，VAD功能塊130和話音活動判決功能塊135適用于提供經(jīng)改善的話音檢測和判決機制，其操作將根據(jù)圖2和圖3得到進一步的描述。應(yīng)當注意，話音活動檢測器功能塊130包括由三個測量組成的逐幀檢測階段。這三個頻率范圍測量包括(i)整個頻譜；(ii)頻譜子頻段；以及
(iii)頻譜方差。
接著，話音活動判決功能塊135根據(jù)測量的緩沖器來執(zhí)行判決，分析其語音似然性。判決階段的最終判決的應(yīng)用可追溯至緩沖器中的最早的幀。
在本發(fā)明的優(yōu)選實施例中，計時器/計數(shù)器118也適用于執(zhí)行圖2和圖3的檢測和判定處理中的定時功能。
信號處理器功能塊108、音頻處理功能塊109、VAD功能塊130和話音活動判決功能塊135可以實現(xiàn)為不同的、操作地連接的處理組件。另外，一個或多個處理器可以用來實現(xiàn)一個或多個對應(yīng)的處理操作。在另一替換實施例中，上述功能塊可以實現(xiàn)為硬件、軟件或固件組件的混合，使用專用集成電路(ASIC)和/或處理器，例如數(shù)字信號處理器(DSP)。
當然，音頻用戶單元100內(nèi)的各種元件可以實現(xiàn)為分開的或集成元件形式，因此最終結(jié)構(gòu)只是任意選擇的結(jié)果。
為了實現(xiàn)此目的，存在獲得在本發(fā)明的優(yōu)選實施例中使用的能量加速率指示的方法。
(i)理論上理想的方法是在話語的連續(xù)幀上精確地求能量級的二次導(dǎo)數(shù)(double-differentiate)，如在先公開的申請US 6009391所示。這種方法的缺點是這可能引起延遲，因為在分析時需要分析該幀的每側(cè)的多個幀。
(ii)能量加速率的零延遲估計可以通過把短時平均值與瞬時值比較來獲得，例如使用幀平均A~=xt(xt+xt-1+···+xt-n)/(n+1)---[1]]]>或使用滾動平均
A~=xt(axt+bxt-1+···+kxt-n)---[2]]]>在每個情況下，該方法返回其可以解釋為‘減速率’＜‘1’＜‘加速率’的值。然后可以找到的經(jīng)驗值和把語音和噪聲最好地區(qū)分開的分母長度。
本發(fā)明的發(fā)明人已意識到，優(yōu)選的最佳解決方案是找出可以快速跟蹤非平穩(wěn)噪聲的分母，但是其對于跟蹤話音開始來說太長了。對于滾動平均的建議的值序列是a＝0.2、b＝0.8×a、c＝0.8×b等，其可以簡單地表示為遞歸式dt＝0.2xt+0.8dt-1[3]則A＝xt/dt[4]檢測階段內(nèi)的優(yōu)選VAD和參數(shù)初始化系統(tǒng)在圖2的流程圖中概括出。在非平穩(wěn)噪聲中，長時能量門限不是語音的可靠指示。類似地，在高噪聲條件下，語音的結(jié)構(gòu)(例如諧音)不能整個地依賴于指示，因為其可能受噪聲破壞，或者結(jié)構(gòu)噪聲可能使檢測器混淆。因此，優(yōu)選的話音活動檢測器使用語音的噪聲魯棒性(noise-robust)特征，即與語音開始有關(guān)的能量加速率。
現(xiàn)在參考圖2，示出了優(yōu)選檢測處理的流程圖200。如上所指出，該處理包括逐幀分析。優(yōu)選VAD機制涉及‘整個頻譜’的測量處理。初始估算幀計數(shù)器來確定其是否小于‘N’，其限定了緩存幀的數(shù)目，如步驟205所示。作為優(yōu)選實施例的示例，‘N’設(shè)置為‘15’，假定設(shè)定為每幀遞增例如10毫秒。如果在步驟205中幀計數(shù)器小于‘N’，則更新初始加速率測試的滾動平均值，如步驟210。如果在步驟205中幀計數(shù)器不小于‘N’，則跳過步驟210。
然后，作出估算能量加速率測量是否在一個或多個指定限度之內(nèi)的確定，如步驟235所示。如果在步驟235中能量加速率測量在一個或多個指定限度之內(nèi)，則用進一步的能量加速率測試的結(jié)果來更新滾動平均值，如步驟240。如果在步驟235中能量加速率測量不是在一個或多個指定限度之內(nèi)，則跳過步驟240。
然后，作出估算能量加速率測量是否大于指定門限的確定，如步驟260所示。如果在步驟260中能量加速率測量大于指定門限，則認為該幀是語音幀，如步驟265。如果在步驟260中能量加速率測量不大于指定門限，則認為該幀為噪聲幀，如步驟270。
然后遞增幀計數(shù)器，如步驟275，且該處理從步驟205開始重復(fù)。
作為對該處理的改善，替代或除此之外，還可以執(zhí)行整個頻譜測量處理，如可選步驟215和245所示的子區(qū)測量處理。頻譜的特定子區(qū)被選為很可能包含基本基音的子區(qū)。
在該子區(qū)處理中，當在步驟210中在整個頻譜測量中更新初始加速率測試的滾動平均時，作出檢查能量加速率測量是否大于門限值的確定，如步驟220所示。如果在步驟220中該能量加速率測量大于該門限值，則掛起初始化其它參數(shù)的處理，如步驟225所示。如果在步驟220中該能量加速率測量不大于該門限值，則更新其它參數(shù)的初始化，如步驟230。然后該處理返回至步驟235，如所示。
在步驟235中作出估算能量加速率測量是否在一個或多個指定限度之內(nèi)的確定之后作出又一優(yōu)選確定。估算該減速率值來確定其在步驟250中是否是‘高’的，且如果是這樣的話，則緩慢地更新能量加速率測試的滾動平均，如步驟255所示。然后該處理在步驟260返回至整個頻譜方法。
通過這樣的方式，子區(qū)檢測器的較高信噪比(SNR)使其具有較高的噪聲魯棒性。但是，其容易受不利的麥克風(fēng)和說話者變化以及限帶噪聲的影響。因此，該測量不應(yīng)當依賴于所有的環(huán)境。因此，本發(fā)明的優(yōu)選實施例合并了子區(qū)檢測器，以加強整個頻譜測量。
又一測量處理優(yōu)選地使用例如每幀的頻譜的下半部分內(nèi)的值方差的‘加速率’來執(zhí)行。該方差測量檢測頻譜的下半部分內(nèi)的結(jié)構(gòu)，使其對濁音語音高度敏感。方差測量遵循子區(qū)處理的方法，頻譜的下半部分是選擇的特定子區(qū)。這個方差測量進一步補充了整個頻譜測量方法，其能夠更好地檢測清音和爆破音語音。
所有這三個測量從由雙重維納濾波器的第一階段產(chǎn)生的濾波器增益的譜表示中取出其原始輸入，如申請人為摩托羅拉公司且發(fā)明人為Yan-Ming Chen的US 09/427497的美國專利申請中所描述。如上所述，每個測量使用這個數(shù)據(jù)的不同方面。
具體地說，整個頻譜檢測器使用已知的由雙重韋納濾波器的第一階段產(chǎn)生的濾波器增益的Mel濾波的譜表示。單個輸入值是通過對Mel濾波器組的和進行平方而獲得的。
在本發(fā)明的優(yōu)選實施例中，整個頻譜檢測器向所有幀應(yīng)用了下面的處理，如下所述步驟一以下述的方式初始化噪聲估計跟蹤值(Tracker)如果幀數(shù)＜15且加速率＜2.5，則跟蹤值＝MAX(跟蹤值，輸入)。
如果語音在15幀的導(dǎo)入時間內(nèi)發(fā)生，則能量加速率測量防止跟蹤值被更新。
如果當前輸入與噪聲估值相同，則步驟二以下面的方式更新跟蹤值如果輸入＜跟蹤值×上限且輸入＞跟蹤值×下限，則跟蹤值＝a×跟蹤值+(1-a)×輸入步驟三對那些第一少數(shù)幀內(nèi)存在語音或無特征大噪聲內(nèi)容的實例提供了故障保險機制。這致使所得的錯誤高噪聲估值降低。步驟三優(yōu)選地以下面的方式進行如果輸入＜跟蹤值×最低值(Floor)，則跟蹤值＝b×跟蹤值+(1-b)×輸入如果當前輸入比跟蹤值大165％，則步驟四以下面的方式返回，作為‘真’語音確定如果輸入＞跟蹤值×門限，則輸出‘真’，否則輸出‘假’。
瞬時輸入與短時均值跟蹤值的比率是連續(xù)輸入的能量加速率的函數(shù)。
其中，在上述中a＝0.8且b＝0.97；上限是150％且下限是75％；最低值是50％；且門限是165％。
應(yīng)當注意，如果該值大于上限或在下限和最低值之間，則不更新。此外，如上所指出，能量加速率輸入可以根據(jù)下述的方式計算在連續(xù)輸入上二次求導(dǎo)或通過跟蹤輸入的兩個滾動平均的比率來估算。
應(yīng)當注意，快速和緩慢自適應(yīng)滾動平均的比率反映了連續(xù)輸入的能量加速率。
例如，上面所使用的對于該平均數(shù)的貢獻率是(i)0×均值+1×輸入，且(ii)((幀數(shù)-1)×均值+1×輸入)/幀數(shù)，使能量加速率測量對首十五幀越來越敏感。
該子頻段檢測器優(yōu)選地使用從‘整個頻譜’測量得出的第二、第三和第四Mel濾波器組的平均數(shù)。然后，該檢測器以如下所述的方式對所有幀應(yīng)用了下面的處理(i)輸入＝p×當前輸入+(1-p)×先前輸入；(ii)如果幀數(shù)＜15，則跟蹤值＝MAX(跟蹤值，輸入)；(iii)如果輸入＜跟蹤值×上限且輸入＞跟蹤值×下限，則跟蹤值＝a×跟蹤值+(1-a)×輸入；(iv)如果輸入＜跟蹤值×最低值，則跟蹤值＝b×跟蹤值+(1-b)×輸入(v)如果輸入＞跟蹤值×門限，則輸出‘真’，否則輸出‘假’。
其中，在子區(qū)測量中p＝0.75。
除了等于3.25的門限外，對于整個頻譜測量，所有其它參數(shù)都相同。
對于頻譜方差測量，包括每幀增益的窄帶譜表示的下半部分頻率的值的方差被用作輸入。然后，該檢測器對整個頻譜測量應(yīng)用了相同的處理。
該方差計算為1NΣi=0N-1Wi2-(Σi=0N-1Wi)2/N2---[5]]]>其中N＝FFT長度/4，以及wi是增益的窄帶譜表示的值。
根據(jù)本發(fā)明的優(yōu)選實施例，上面所詳細描述的這三個測量被提供給VAD判決算法，如圖3的流程圖所示。連續(xù)輸入被提供給緩沖器，其提供上下文分析。這使得幀延遲等于緩沖器長度減去一幀。
現(xiàn)在參考圖3，示出了根據(jù)本發(fā)明的優(yōu)選實施例的用于噪聲環(huán)境的基于加速率的話音活動驗證處理的流程圖300。
對于N＝7幀緩沖器，最近的真/假語音輸入被存儲在數(shù)據(jù)緩沖器中的位置N上，如步驟305所示。判決邏輯應(yīng)用若干個下面的步驟，并且優(yōu)選地應(yīng)用每一步驟步驟1VN＝測量1或測量2或測量3如果這三個測量中的任何一個返回真語音指示，則輸入VN定義為‘真’(T)。
步驟2 該算法搜索緩沖器中的‘真’值的最長連續(xù)序列，如步驟310。因此，例如，對于序列‘TTFTTTF’，M等于3。
步驟3
如果M≥SP且T＜LS，T＝LS；其中，SP等同于步驟315中的第一門限。如果在步驟315中真(T)語音值的最長序列等于或超過第一門限，即SP＝3或更多連續(xù)‘真’值，則緩沖器被判決為包含‘可能(possible)’的語音。如果在步驟320中確定還未存在(或超過)，則在步驟325中啟動例如LS＝5幀的短計時器T(時間_1)。
步驟4如果M≥SL且F＞FS，T＝LM，否則T＝LL；其中，SL等于步驟330中的第二門限。如果存在SL＝4或更多連續(xù)的‘真’值，則再次判斷緩沖器包含‘可能(likely)’的語音。如果如步驟335中所確定的當前幀F(xiàn)處于初始導(dǎo)入安全周期FS之外，則在步驟340中啟動例如LM＝22幀的中計時器T。否則，在步驟345中使用例如LL＝40幀的故障保險長計時器T。在話語中的語音早期出現(xiàn)時使用這種布置會使VAD的初始的噪聲估值過高。
步驟5如果M＜SP且T＞0，T--；如果該處理在步驟350中確定存在小于SP＝3的連續(xù)‘真’值且計時器在步驟355中大于零，則計時器在步驟360中遞減。
步驟6如果T＞0，輸出‘真’，否則輸出‘假’；如果計時器在步驟365中大于零，則該處理輸出‘真’語音判決，如步驟370所示。另外，如果計時器在步驟365中不大于零，則該處理輸出‘噪聲’判決，如步驟375所示。
步驟7Frame++，把緩沖器向左移位且返回至步驟1。
在步驟380中準備下一幀，緩沖器向左移位，以容納下一輸入，如根據(jù)圖4所示。該輸出語音判決應(yīng)用于從該緩沖器出來的幀。然后在步驟305中對輸入到數(shù)據(jù)緩沖器中的下一個真/假輸入重復(fù)該處理。
執(zhí)行根據(jù)如上所述的能量加速率處理作出語音或噪聲判決的替換機制也在本發(fā)明的考慮范圍之內(nèi)。例如，該判決機制可能不是基于一個或多個計時器，而可能完全地根據(jù)是否超過一個或多個能量加速率門限而作出判決的。
現(xiàn)在參考圖4，更詳細地示出了根據(jù)本發(fā)明的優(yōu)選實施例的緩沖器操作400的示例。我們假定第一門限設(shè)置為三個連續(xù)的‘真’值。在“t”410時，假定只有當前輸入(幀#7)425和先前輸入(幀#6)420為‘真’。因此，當該緩沖器移位時，第一幀(幀#1)415將被標記為假。
在‘t+1’430時，第三‘真’輸入(幀#8)450已被接收，以增補以前的兩個‘真’輸入440和445。因此，當該緩沖器移位時，下一個輸出幀(幀#2)435將被標記為‘真’。
應(yīng)當注意，在上述的判定處理中，唯一的約束是(i)時間_1＜時間_2＜時間_3，且(ii)門限_1＜門限_2。
假定只有這三個輸入(幀#6、幀#7和幀#8)為‘真’，則整個輸出序列是F T T T T T T T T T T1 2 3 4 5 6 7 8 9 10 11T T T T T T F F F F F12 13 14 15 16 17 18 19 20 21 22其中，由于緩沖器導(dǎo)入功能，幀#2-#5指示為‘真’。幀#6-#8指示‘真’，作為實際的初始‘真’語音輸入的位置。由于緩沖器導(dǎo)出功能，幀#9-#12指示為‘真’。響應(yīng)于所使用的計時器延遲，幀#13-#18指示‘真’。當話語中的所有幀都被輸入時，緩沖器移出‘假’條目(幀#19-#LM)直到清空。
緩沖器長度和延遲計時器可以被動態(tài)地調(diào)整為滿足音頻通信單元的需求，這也在本發(fā)明的范圍之內(nèi)。同樣，使用‘N’為8的緩沖器長度的優(yōu)選實施例和5幀的延遲計時器只是出于解釋性的目的。但是，應(yīng)當注意，緩沖器長度‘N’應(yīng)當總是確定為N≥SL。
除了用作其自身VAD之外，在圖2的方法步驟中執(zhí)行的能量加速率測量可以用于驗證其它參數(shù)的初始化，這也在本發(fā)明的考慮范圍之內(nèi)。例如，頻譜提取方案根據(jù)語音的首十幀(典型地為100毫秒)來要求噪聲的初始估值。甚至在平穩(wěn)噪聲中，可能發(fā)生若干事件而致使初始估值無效。這種事件的示例包括(a)信號的上斜由于各種可能的原因，在估值時，記錄的開始可能在該周期內(nèi)‘上斜’至滿值。完全上斜的原因包括數(shù)字系統(tǒng)中的緩沖器填充，模擬系統(tǒng)中的容量或帶頭連接。這些事件的影響使該估值無效。因此，能量加速率測量可以用于檢測這種上斜并防止出現(xiàn)這種失誤。
(b)初始信號中的毛刺普通‘毛刺’伴隨著用戶無線單元上的一鍵通(PTT)按鈕的完整動作而發(fā)生，其中，電接觸極少發(fā)生在按鈕碰擊開關(guān)背部之前。如上所述，當發(fā)生這種事件時，能量加速率測量可以用于掛起估值處理，如圖2的步驟225所示。
(c)初始信號中的語音另一通常發(fā)生的事件是，具體地說對于PTT系統(tǒng)，用戶在按下PTT按鈕時立即開始講話。通過這種方式，在語音開始之后進行電接觸。能量加速率測量可以識別這一點且掛起基于噪聲的初始化，如圖2的步驟225所示，或者強迫使用故障估值。
總之，已對包括具有話音活動檢測機制的音頻處理單元的通信單元進行描述。話音活動檢測機制提供輸入至通信單元的信號輸入的能量加速率的指示且根據(jù)所述指示來確定所述輸入信號是語音還是噪聲。
此外，已對檢測輸入到通信單元中的語音信號的方法進行描述。該方法包括以下步驟指示輸入到通信單元的輸入信號的加速率；以及根據(jù)所述指示步驟來確定所述輸入信號是語音還是噪聲。
此外，已對判決輸入到通信單元中的信號是語音還是噪聲的方法進行描述。該方法包括以下步驟根據(jù)能量加速率判決所述輸入信號是語音還是噪聲，例如使用若干輸入信號的幀平均或滾動平均。
因此，應(yīng)當理解，如上所述的用于噪聲環(huán)境的基于能量加速率的話音活動檢測器和驗證器提供了噪聲魯棒性和快速響應(yīng)的優(yōu)點。由于優(yōu)選實施例使用依賴于能量加速率的測量，而不是絕對的測量，所以在此所描述的發(fā)明構(gòu)思可以應(yīng)用于任何輸入電平的語音。
雖然上面已對本發(fā)明的實施例的特定和優(yōu)選實現(xiàn)進行了描述，但是應(yīng)當清楚，本領(lǐng)域的技術(shù)人員易于應(yīng)用落入本發(fā)明的范圍之內(nèi)的這種發(fā)明構(gòu)思的變化和修改。
因此，已對用于噪聲環(huán)境的經(jīng)改善的話音活動檢測器和驗證器進行描述，其中，基本上消除了與現(xiàn)有技術(shù)布置相關(guān)聯(lián)的上述缺點。
權(quán)利要求
1.一種通信單元(100)，其包含具有話音活動檢測機制(130，135)的音頻處理單元(109)，所述通信單元(100)的特征在于，所述話音活動檢測機制(130，135)測量輸入到所述通信單元(100)中的信號的能量加速率，并根據(jù)所述測量確定所述輸入信號是語音還是噪聲。
2.如權(quán)利要求1所述的通信單元(100)，其中，所述話音活動檢測機制包括話音活動檢測器功能塊(130)，其對輸入到所述話音活動檢測機制(130，135)中的信號執(zhí)行話音的逐幀檢測。
3.如權(quán)利要求2所述的通信單元(100)，其中，所述逐幀檢測包括針對下述的頻率范圍中的一個或多個對輸入到所述話音活動檢測機制(130，135)中的信號執(zhí)行能量加速率測量(i)整個頻譜(ii)頻譜子頻段；以及(iii)頻譜方差。
4.如權(quán)利要求3所述的通信單元(100)，其中，所述話音活動檢測機制包括話音活動判決功能塊(135)，其可操作地連接至所述話音活動檢測器功能塊(130)，以根據(jù)一個或多個所述測量的緩沖操作來判決所述輸入信號是否是語音。
5.如權(quán)利要求4所述的通信單元(100)，其中，所述話音活動判決功能塊(135)使用多個所述輸入信號的幀平均或滾動平均來判決輸入信號是否是語音。
6.如權(quán)利要求2至5中的任一項所述的通信單元(100)，其中，如果所述能量加速率測量得出大于能量加速率門限的能量加速率值，則認為輸入幀是語音幀(265)。
7.如權(quán)利要求6所述的通信單元(100)，其中，確定輸入幀是語音幀的判決(265)的應(yīng)用可追溯至輸入信號的緩沖器中的前面的幀。
8.如權(quán)利要求6或權(quán)利要求7所述的通信單元(100)，其中，如果對于多個連續(xù)幀，所述能量加速率測量得出大于能量加速率門限的能量加速率值，則認為輸入幀是語音幀(370)。
9.當依賴于權(quán)利要求3時，如權(quán)利要求3至8中的任一項所述的通信單元(100)，其中，如果選擇輸入信號頻譜的子區(qū)，則該選擇是基于子區(qū)最有可能包含話音信號的基本基音而作出的。
10.如前面的任一項權(quán)利要求所述的通信單元(100)，其中，所述話音活動檢測機制(130，135)使用話音能量的相關(guān)特征的加速率來驗證其它話音或噪聲的相關(guān)量度的參數(shù)初始化，例如頻譜提取方案。
11.一種檢測輸入至通信單元中的語音信號的方法，其特征在于，包含以下步驟測量輸入至所述通信單元中的輸入信號的能量中的加速率或變化；以及根據(jù)所述測量步驟來確定(315，330，350)所述輸入信號是語音(370)還是噪聲(375)。
12.如權(quán)利要求11所述的語音信號檢測方法，其特征在于，進一步包含以下步驟對輸入至所述通信單元中的信號執(zhí)行話音的逐幀檢測。
13.如權(quán)利要求12所述的語音信號檢測方法，其中，所述逐幀檢測包括以下步驟針對一個或多個下面的頻率范圍，對所述輸入信號執(zhí)行能量加速率測量(i)整個頻譜(ii)頻譜子頻段；以及(iii)頻譜方差。
14.一種判決輸入至通信單元中的信號是語音還是噪聲的方法，優(yōu)選地根據(jù)前面權(quán)利要求11至13中的任一項權(quán)利要求，該方法的特征在于，進一步包含以下步驟根據(jù)所述輸入信號的能量測量中的能量加速率或變化來判決(315，330，350)所述輸入信號是語音(370)還是噪聲(375)，例如使用多個輸入信號的幀平均或滾動平均。
15.如權(quán)利要求14所述的判決輸入至通信單元中的信號是語音還是噪聲的方法，其中，所述判決步驟包括如果所述能量加速率測量得出能量加速率值大于能量加速率門限，則確定輸入幀是語音幀(265)；以及把所述確定可追溯地應(yīng)用至輸入信號的緩沖器中的前面的幀。
全文摘要
一種通信單元(100)，包括帶有話音活動檢測機制(130，135)的音頻處理單元(109)。話音活動檢測機制(130，135)測量輸入至通信單元(100)中的信號的能量加速率，并根據(jù)所述測量確定所述輸入信號是語音還是噪聲。還描述了一種檢測話音的方法和一種判決輸入信號是語音還是噪聲的方法。使用基于能量加速率的話音活動檢測器和驗證器，特別對于噪聲環(huán)境，提供了噪聲魯棒性、快速響應(yīng)和輸入語音電平獨立的優(yōu)點。
文檔編號G10L25/78GK1623186SQ03802682
公開日2005年6月1日申請日期2003年1月10日優(yōu)先權(quán)日2002年1月24日
發(fā)明者道格拉斯·拉爾夫·伊利, 霍利·路易斯·凱萊赫, 戴維·約翰·本杰明·皮爾斯申請人:摩托羅拉公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：道格拉斯.拉爾夫.伊利;霍利.路易斯.凱萊赫;戴維.約翰.本杰明.皮爾斯
技術(shù)所有人：摩托羅拉公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)字環(huán)境噪聲檢測器相關(guān)技術(shù)

噪聲檢測器相關(guān)技術(shù)

噪音檢測器相關(guān)技術(shù)

環(huán)境檢測器相關(guān)技術(shù)

音樂噪聲相關(guān)技術(shù)

qq語音噪聲較大相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于噪聲環(huán)境的話音活動檢測器和驗證器的制作方法