通信終端雙麥克風消噪系統(tǒng)中的語音活動檢測方法及裝置的制造方法_4

文檔序號：9709466閱讀：來源：國知局

值的均值，然后，在每個采樣點上，再用主麥克風中的信號幅值減去其對應(yīng)均值的值，與當前采樣點經(jīng)過τ個采樣點的延時后的次麥克風中的信號幅值減去其對應(yīng)均值的值相乘，并將每個采樣點計算的結(jié)果在一幀內(nèi)求和，最后對求和的值進行歸一化，得到對應(yīng)每一幀的歸一化互通道相關(guān)Τ (η，τ)，計算公式如下：
[0112]
(2);
[0113]其中，L代表每一幀時域信號的長度，τ為延時，χ1>η和X2,n分別為主，次麥克風中的數(shù)字帶噪語音信號，$1,η和&2,η分別為每一幀內(nèi)主麥克風和次麥克風接受的信號的均值。 [0114]本實施例中，對一幀帶噪語音信號，選取24個頻帶的子帶互通道能量差作為第一類特征，選取τ= {-10,-9,-8,'"+8 ,+9, + 10}對應(yīng)的歸一化互通道相關(guān)的值作為第二類特征，一共為45個輸入作為訓練神經(jīng)網(wǎng)絡(luò)的輸入。
[0115] 對比試驗1:
[0116] 將本發(fā)明提供的方法與現(xiàn)有的最新的基于雙通道能量差比率（power level difference ratio，PLDR)的雙麥克風語音活動檢測方法進行了比較?；陔p通道能量差比率的語音活動檢測方法基于這樣的假設(shè)來區(qū)分語音和噪聲，目標語音距離主麥克風較次麥克風近，主麥克風接收到的目標語音信號的能量遠大于次麥克風接收到的能量，而背景噪聲距離兩個麥克風較遠，兩個麥克風接收到的噪聲的能量基本一致，該方法通過追蹤雙麥克風能量差的最小值作為噪聲在兩個麥克風能量差的估計，通過將當前幀帶噪語音在兩個麥克風之間的能量差與追蹤到的能量差的最小值進行比較來判斷當前幀帶噪語音是否是目標語音存在的幀。
[0117] 本發(fā)明采用3個性能指標來衡量語音活動檢測的準確性，分別為Psh，Pnh和Pgh，其中，P sh等于檢測正確的語音信號幀/語音信號總幀數(shù)，Pnh為檢測正確的噪聲信號幀/非語音信號總幀數(shù)，P gh為總的準確率。首先，選取5種手機使用中常見的環(huán)境噪聲，分別為babble， car，restaurant，off ice和street，在10dB的信噪比條件下比較本發(fā)明的方法和基于雙通道能量差比率的語音活動檢測方法的性能，結(jié)果如表1所示。
[0118] 表1 10db信噪比噪聲環(huán)境下，PLDR和本發(fā)明的對比試驗結(jié)果
[0119]
[0120] 從表1中η」以宥出，本友明尤論是在誥首幟判斷準佛卒，噪戶幟判斷準佛卒邊是總的正確率方面都在90%以上，表明本發(fā)明可以在多種噪聲環(huán)境下準確的判斷出語音幀，同時也可以避免噪聲被誤判為語音，結(jié)果顯示本發(fā)明的性能要優(yōu)于基于雙通道能量差比率的語音活動檢測方法。
[0121] 對比試驗2:
[0122] 干擾人聲也是手機通話中非常常見的一類噪聲，但是由于干擾人聲的性質(zhì)與目標語音非常接近，所以傳統(tǒng)的語音活動檢測方法無法很好的處理這類噪聲，本發(fā)明提出的方法通過利用目標語音和干擾人聲的空間差異來區(qū)分兩者獲得了準確的結(jié)果。下面我們選取 8個不同的角度的干擾人聲在lOdB信噪比的條件下比較基于雙通道能量差比率的語音活動檢測方法和本發(fā)明的方法在不同方位的干擾人聲的環(huán)境下的語音活動檢測的準確性，結(jié)果如表2所示。
[0123] 表2 10db信噪比干擾人聲環(huán)境下，PLDR和和本發(fā)明的對比試驗結(jié)果
[0124]
[0125] 從表2中可以看出，在干擾人聲的噪聲環(huán)境下，本發(fā)明的方法依舊可以獲得準確的結(jié)果，而基于雙通道能量差比率的語音活動檢測方法在干擾人聲的噪聲環(huán)境下性能有了很大的下降。
[0126] 試驗3:在上文中，比較了本發(fā)明的方法和基于雙通道能量差比率的語音活動檢測方法在不同噪聲環(huán)境下的性能，為了進一步的說明本發(fā)明的方法在不同信噪比下的結(jié)果，分別選取5db，10db，15db的噪聲環(huán)境對本發(fā)明的方法進行驗證，結(jié)果如表3所示。
[0127] 表3不同信噪比環(huán)境下，本發(fā)明的語音活動檢測結(jié)果
[0128]
[0129] 從表3中可以看到，本發(fā)明的方法在不同的信噪比條件下依舊可以取得很好的語音活動檢測結(jié)果，特別是在5db這樣低的信噪比條件下，本發(fā)明的方法依舊可以準確的判斷出語音存在的幀同時保持很低的噪聲誤判率和語音誤判率，更重要的一點是，本發(fā)明的方法并不依賴于固定的閾值，可以靈活的應(yīng)對不同的噪聲環(huán)境，對于干擾人聲也能夠取得很好的結(jié)果，非常適合于手機等通信終端的語音活動檢測應(yīng)用中。
[0130] 以上僅是本發(fā)明的優(yōu)選實施方式，應(yīng)當指出以上實施列對本發(fā)明不構(gòu)成限定，相關(guān)工作人員在不偏離本發(fā)明技術(shù)思想的范圍內(nèi)，所進行的多樣變化和修改，均落在本發(fā)明的保護范圍內(nèi)。
【主權(quán)項】
1. 一種通信終端雙麥克風消噪系統(tǒng)中的語音活動檢測方法，其特征在于包括如下步驟： 1) 神經(jīng)網(wǎng)絡(luò)訓練:選取訓練樣本，提取特征，并得到對應(yīng)的語音活動檢測結(jié)果，利用特征和對應(yīng)的語音活動檢測結(jié)果對神經(jīng)網(wǎng)絡(luò)進行訓練，得到訓練好的神經(jīng)網(wǎng)絡(luò)； 2) 基于訓練好的神經(jīng)網(wǎng)絡(luò)進行語音活動檢測:通過通信終端的主、次麥克風采集待測的模擬帶噪語音信號，并通過模數(shù)轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字采樣信號，得到待測的分別對應(yīng)于主、次麥克風的數(shù)字帶噪語音信號，接著對該數(shù)字帶噪語音信號提取特征，然后將特征送入步驟1)訓練好的神經(jīng)網(wǎng)絡(luò)，由神經(jīng)網(wǎng)絡(luò)輸出語音活動檢測的最終檢測結(jié)果；所述步驟1)和步驟2)中的特征包括子帶互通道能量差和歸一化的互通道相關(guān)。2. 根據(jù)權(quán)利要求1所述的通信終端雙麥克風消噪系統(tǒng)中的語音活動檢測方法，其特征在于：所述1)神經(jīng)網(wǎng)絡(luò)訓練包括如下步驟： (11) 通過通信終端的主麥克風和次麥克風采集訓練用的模擬帶噪語音信號作為神經(jīng) 網(wǎng)絡(luò)的訓練樣本； (12) 通過模數(shù)轉(zhuǎn)換器分別將主、次麥克風采集到的訓練用模擬帶噪語音信號轉(zhuǎn)換為對應(yīng)的數(shù)字采樣信號，得到訓練用的分別對應(yīng)于主、次麥克風的數(shù)字帶噪語音信號； (13) 將該數(shù)字采樣信號傳輸至通信終端處理器； (14) 在處理器中對訓練用數(shù)字帶噪語音信號提取特征，包括:子帶互通道能量差和歸一化的互通道相關(guān);并對每幀訓練用數(shù)字帶噪語音信號進行標記得到對應(yīng)的語音活動檢測結(jié)果； (15) 將特征作為神經(jīng)網(wǎng)絡(luò)的輸入，步驟（14)中得到的語音活動檢測結(jié)果作為輸出目標訓練神經(jīng)網(wǎng)絡(luò)； (16) 存儲訓練完畢的神經(jīng)網(wǎng)絡(luò)的權(quán)值和神經(jīng)元個數(shù)；所述2)基于訓練好的神經(jīng)網(wǎng)絡(luò)進行語音活動檢測包括如下步驟： (21) 通過通信終端的主麥克風和次麥克風采集待測的模擬帶噪語音信號； (22) 通過模數(shù)轉(zhuǎn)換器分別將主、次麥克風采集到的模擬帶噪語音信號轉(zhuǎn)換為對應(yīng)的數(shù) 字采樣信號，得到待測的分別對應(yīng)于主、次麥克風的數(shù)字帶噪語音信號； (23) 將該數(shù)字采樣信號傳輸至通信終端處理器； (24) 在處理器中對待測的數(shù)字帶噪語音信號提取特征，包括:子帶互通道能量差和歸一化的互通道相關(guān)； (25) 將步驟(24)提取的特征作為輸入送入步驟1)中已訓練完畢的神經(jīng)網(wǎng)絡(luò)，該神經(jīng)網(wǎng) 絡(luò)使用步驟(16)存儲的神經(jīng)網(wǎng)絡(luò)的權(quán)值和神經(jīng)元個數(shù)； (26) 將神經(jīng)網(wǎng)絡(luò)的輸出作為語音活動檢測的最終檢測結(jié)果。3. 根據(jù)權(quán)利要求1所述的通信終端雙麥克風消噪系統(tǒng)中的語音活動檢測方法，其特征在于：所述特征中子帶互通道能量差的計算方法為:使用短時傅里葉變化將主、次麥克風接受的信號轉(zhuǎn)化到頻域，在頻域使用24個MEL頻帶對頻域進行劃分，對每一幀信號，先分別計算主、次麥克風的信號功率譜，再計算主、次麥克風的信號功率譜在每個頻點的比值，對每個子帶，將子帶內(nèi)每個頻點的功率比值取對數(shù)相加求和再除以子帶的頻點數(shù)進行平均，然后得到每個子帶的互通道能量差作為訓練神經(jīng)網(wǎng)絡(luò)的特征，其中第b個子帶互通道能量差為：其中，uh(b)和ui(b)分別為第b個子帶的上下邊界，ΡΧι(1?,ιι)和PXz(k,n)分別為主麥克風和次麥克風中第η幀信號的第k個頻點的功率譜，k代表頻率點，η代表語音幀標號，i為麥克風的標號。4. 根據(jù)權(quán)利要求1所述的通信終端雙麥克風消噪系統(tǒng)中的語音活動檢測方法，其特征在于：所述特征中歸一化的互通道相關(guān)的計算方法為：在時域?qū)⒅?、次麥克風中的信號劃分為短時幀，對每一幀信號，先計算主、次麥克風接受的信號幅值的均值，然后，在每個采樣點上，再用主麥克風中的信號幅值減去對應(yīng)均值的值，與當前采樣點經(jīng)過τ個采樣點的延時后的次麥克風中的信號幅值減去對應(yīng)均值的值相乘，并將每個采樣點計算的結(jié)果在一幀內(nèi)求和，最后對求和的值進行歸一化，得到對應(yīng)每一幀的歸一化互通道相關(guān)Τ

完整全部詳細技術(shù)資料下載

當前第4頁1 2 3 4 5

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

麥克風消噪相關(guān)技術(shù)

雙麥克風降噪芯片相關(guān)技術(shù)

麥克風降噪相關(guān)技術(shù)

麥克風有噪音相關(guān)技術(shù)

麥克風噪音相關(guān)技術(shù)