(η,τ ),計(jì)算公式如 下: Τ(η Τ) = Z)L=i(xi;n C')~^l,n )(X2,n ('~τ)~Χ2,η) (:2):.· Σι?ι^ι,η (1)-xi,n )2 +jEh=i(x2,n (0-x2,tt)2 其中,L代表每一幀時(shí)域信號(hào)的長(zhǎng)度,τ為延時(shí),X1>n和X2,n分別為主、次麥克風(fēng)中的數(shù)字 帶噪語(yǔ)音信號(hào),$1,η和$2,η分別為每一幀內(nèi)主麥克風(fēng)和次麥克風(fēng)接受的信號(hào)的均值。5. 根據(jù)權(quán)利要求2所述的通信終端雙麥克風(fēng)消噪系統(tǒng)中的語(yǔ)音活動(dòng)檢測(cè)方法,其特征 在于: 所述步驟(11)中,所采集的訓(xùn)練樣本中包括訓(xùn)練集和驗(yàn)證集; 所述步驟(15)中將特征作為神經(jīng)網(wǎng)絡(luò)的輸入,步驟(14)中得到的語(yǔ)音活動(dòng)檢測(cè)結(jié)果作 為輸出目標(biāo)訓(xùn)練神經(jīng)網(wǎng)絡(luò),具體包括: 根據(jù)預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)隱藏層神經(jīng)元個(gè)數(shù)的范圍,將從訓(xùn)練集中提取的特征作為神經(jīng)網(wǎng) 絡(luò)的輸入,對(duì)應(yīng)訓(xùn)練集的語(yǔ)音活動(dòng)檢測(cè)結(jié)果作為神經(jīng)網(wǎng)絡(luò)的輸出目標(biāo),計(jì)算神經(jīng)網(wǎng)絡(luò)的輸 出結(jié)果與輸出目標(biāo)之間的誤差;通過(guò)誤差反向傳播算法持續(xù)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值,直到誤 差小于預(yù)設(shè)的閾值或者訓(xùn)練次數(shù)達(dá)到預(yù)期最大迭代次數(shù)則停止神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;然后使用 驗(yàn)證集驗(yàn)證神經(jīng)網(wǎng)絡(luò)的結(jié)果,將從驗(yàn)證集中提取的特征作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)的 輸出結(jié)果和對(duì)應(yīng)驗(yàn)證集的語(yǔ)音活動(dòng)檢測(cè)結(jié)果進(jìn)行比較,統(tǒng)計(jì)神經(jīng)網(wǎng)絡(luò)輸出結(jié)果的正確率, 如果正確率優(yōu)于之前訓(xùn)練得到的結(jié)果,則記錄此時(shí)的神經(jīng)元個(gè)數(shù);增加一個(gè)神經(jīng)元重復(fù)上 述的訓(xùn)練和驗(yàn)證步驟,直到到達(dá)設(shè)定神經(jīng)元個(gè)數(shù)的上限,最后選取最優(yōu)的結(jié)果對(duì)應(yīng)的神經(jīng) 元個(gè)數(shù),并記錄此時(shí)神經(jīng)網(wǎng)絡(luò)內(nèi)部的權(quán)值作為最終訓(xùn)練完畢的神經(jīng)網(wǎng)絡(luò)。6. -種通信終端雙麥克風(fēng)消噪系統(tǒng)中的語(yǔ)音活動(dòng)檢測(cè)裝置,其特征在于包括: 神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元:用于選取訓(xùn)練樣本,提取特征,并得到對(duì)應(yīng)的語(yǔ)音活動(dòng)檢測(cè)結(jié)果, 利用特征和對(duì)應(yīng)的檢測(cè)結(jié)果對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò); 基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音活動(dòng)檢測(cè)單元:用于通過(guò)通信終端的主、次麥克風(fēng)采 集待測(cè)的模擬帶噪語(yǔ)音信號(hào),并通過(guò)模數(shù)轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字采樣信號(hào),得到待測(cè)的分別對(duì) 應(yīng)于主、次麥克風(fēng)的數(shù)字帶噪語(yǔ)音信號(hào),接著對(duì)該數(shù)字帶噪語(yǔ)音信號(hào)提取特征,然后將特征 送入神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),由神經(jīng)網(wǎng)絡(luò)輸出語(yǔ)音活動(dòng)檢測(cè)的最終檢測(cè)結(jié) 果; 所述神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元和基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音活動(dòng)檢測(cè)單元中的特征包 括子帶互通道能量差和歸一化的互通道相關(guān)。7. 根據(jù)權(quán)利要求6所述的通信終端雙麥克風(fēng)消噪系統(tǒng)中的語(yǔ)音活動(dòng)檢測(cè)裝置,其特征 在于: 所述神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元中包括: 訓(xùn)練樣本采集模塊:用于通過(guò)通信終端的主麥克風(fēng)和次麥克風(fēng)采集訓(xùn)練用的模擬帶噪 語(yǔ)音信號(hào)作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本; 模數(shù)轉(zhuǎn)換模塊:用于通過(guò)模數(shù)轉(zhuǎn)換器分別將主、次麥克風(fēng)采集到的訓(xùn)練用模擬帶噪語(yǔ) 音信號(hào)轉(zhuǎn)換為對(duì)應(yīng)的數(shù)字采樣信號(hào),得到訓(xùn)練用的分別對(duì)應(yīng)于主、次麥克風(fēng)的數(shù)字帶噪語(yǔ) 音信號(hào); 信號(hào)傳輸模塊:用于將該數(shù)字采樣信號(hào)傳輸至通信終端處理器; 信號(hào)特征提取和語(yǔ)音活動(dòng)檢測(cè)模塊:用于在處理器中對(duì)訓(xùn)練用數(shù)字帶噪語(yǔ)音信號(hào)提取 特征,包括:子帶互通道能量差和歸一化的互通道相關(guān);并對(duì)每幀訓(xùn)練用數(shù)字帶噪語(yǔ)音信號(hào) 進(jìn)行標(biāo)記得到對(duì)應(yīng)的語(yǔ)音活動(dòng)檢測(cè)結(jié)果; 訓(xùn)練模塊:用于將特征作為神經(jīng)網(wǎng)絡(luò)的輸入,信號(hào)特征提取和語(yǔ)音活動(dòng)檢測(cè)模塊中得 到的語(yǔ)音活動(dòng)檢測(cè)結(jié)果作為輸出目標(biāo)訓(xùn)練神經(jīng)網(wǎng)絡(luò); 存儲(chǔ)模塊:用于存儲(chǔ)訓(xùn)練完畢的神經(jīng)網(wǎng)絡(luò)的權(quán)值和神經(jīng)元個(gè)數(shù); 所述基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音活動(dòng)檢測(cè)單元包括: 信號(hào)采集模塊:用于通過(guò)通信終端的主麥克風(fēng)和次麥克風(fēng)采集待測(cè)的模擬帶噪語(yǔ)音信 號(hào); 模數(shù)轉(zhuǎn)換模塊:用于通過(guò)模數(shù)轉(zhuǎn)換器分別將主、次麥克風(fēng)采集到的模擬帶噪語(yǔ)音信號(hào) 轉(zhuǎn)換為對(duì)應(yīng)的數(shù)字采樣信號(hào),得到待測(cè)的分別對(duì)應(yīng)于主、次麥克風(fēng)的數(shù)字帶噪語(yǔ)音信號(hào); 信號(hào)傳輸模塊:用于將該數(shù)字采樣信號(hào)傳輸至通信終端處理器; 信號(hào)特征提取模塊:用于在處理器中對(duì)待測(cè)的數(shù)字帶噪語(yǔ)音信號(hào)提取特征,包括:子帶 互通道能量差和歸一化的互通道相關(guān); 待測(cè)語(yǔ)音活動(dòng)檢測(cè)模塊:用于將信號(hào)特征提取模塊提取的特征作為輸入送入神經(jīng)網(wǎng)絡(luò) 訓(xùn)練單元中已訓(xùn)練完畢的神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元中存儲(chǔ)模塊存儲(chǔ)的 神經(jīng)網(wǎng)絡(luò)的權(quán)值和神經(jīng)元個(gè)數(shù); 輸出單元:用于將神經(jīng)網(wǎng)絡(luò)的輸出作為語(yǔ)音活動(dòng)檢測(cè)的最終檢測(cè)結(jié)果輸出。8. 根據(jù)權(quán)利要求6所述的通信終端雙麥克風(fēng)消噪系統(tǒng)中的語(yǔ)音活動(dòng)檢測(cè)裝置,其特征 在于: 所述特征中子帶互通道能量差的計(jì)算方法為:使用短時(shí)傅里葉變化將主、次麥克風(fēng)接 受的信號(hào)轉(zhuǎn)化到頻域,在頻域使用24個(gè)MEL頻帶對(duì)頻域進(jìn)行劃分,對(duì)每一幀信號(hào),先分別計(jì) 算主、次麥克風(fēng)的信號(hào)功率譜,再計(jì)算主、次麥克風(fēng)的信號(hào)功率譜在每個(gè)頻點(diǎn)的比值,對(duì)每 個(gè)子帶,將子帶內(nèi)每個(gè)頻點(diǎn)的功率比值取對(duì)數(shù)相加求和再除以子帶的頻點(diǎn)數(shù)進(jìn)行平均,然 后得到每個(gè)子帶的互通道能量差作為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的特征,其中第b個(gè)子帶互通道能量差 為: 知(b-⑻·如纖 ⑴; 其中,Uh(b)和m(b)分別為第b個(gè)子帶的上下邊界,PXl(k,n)和PX2(k,n)分別為主麥克風(fēng) 和次麥克風(fēng)中第η幀信號(hào)的第k個(gè)頻點(diǎn)的功率譜,k代表頻率點(diǎn),η代表語(yǔ)音幀標(biāo)號(hào),i為麥克 風(fēng)的標(biāo)號(hào)。9. 根據(jù)權(quán)利要求6所述的通信終端雙麥克風(fēng)消噪系統(tǒng)中的語(yǔ)音活動(dòng)檢測(cè)裝置,其特征 在于: 所述特征中歸一化的互通道相關(guān)的計(jì)算方法為:在時(shí)域?qū)⒅?、次麥克風(fēng)中的信號(hào)劃分 為短時(shí)幀,對(duì)每一幀信號(hào),先計(jì)算主、次麥克風(fēng)接受的信號(hào)幅值的均值,然后,在每個(gè)采樣點(diǎn) 上,再用主麥克風(fēng)中的信號(hào)幅值減去對(duì)應(yīng)均值的值,與當(dāng)前采樣點(diǎn)經(jīng)過(guò)τ個(gè)采樣點(diǎn)的延時(shí)后 的次麥克風(fēng)中的信號(hào)幅值減去對(duì)應(yīng)均值的值相乘,并將每個(gè)采樣點(diǎn)計(jì)算的結(jié)果在一幀內(nèi)求 和,最后對(duì)求和的值進(jìn)行歸一化,得到對(duì)應(yīng)每一幀的歸一化互通道相關(guān)Τ(η,τ ),計(jì)算公式如 下: T(n x) = Xr=itxl,n ?')~χ1,η )(??2?η ?'~τ)~χ2,η 3 (2)· JSi'=1i^i1nW~xl,n)2+J^i :=1(X2,n Ο)-χ2,η )2 其中,L代表每一幀時(shí)域信號(hào)的長(zhǎng)度,τ為延時(shí),χ1>η和Χ2, η分別為主、次麥克風(fēng)中的數(shù)字 帶噪語(yǔ)音信號(hào),5l,n和.?..η分別為每一幀內(nèi)主麥克風(fēng)和次麥克風(fēng)接受的信號(hào)的均值。10. 根據(jù)權(quán)利要求7所述的通信終端雙麥克風(fēng)消噪系統(tǒng)中的語(yǔ)音活動(dòng)檢測(cè)裝置,其特征 在于: 所述神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元的訓(xùn)練樣本采集模塊中,所采集的訓(xùn)練樣本中包括訓(xùn)練集和驗(yàn) 證集; 所述神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元的訓(xùn)練模塊中:將特征作為神經(jīng)網(wǎng)絡(luò)的輸入,信號(hào)特征提取和 語(yǔ)音活動(dòng)檢測(cè)模塊中得到的語(yǔ)音活動(dòng)檢測(cè)結(jié)果作為輸出目標(biāo)訓(xùn)練神經(jīng)網(wǎng)絡(luò),具體包括:根 據(jù)預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)隱藏層神經(jīng)元個(gè)數(shù)的范圍,將從訓(xùn)練集中提取的特征作為神經(jīng)網(wǎng)絡(luò)的輸 入,對(duì)應(yīng)訓(xùn)練集的語(yǔ)音活動(dòng)檢測(cè)結(jié)果作為神經(jīng)網(wǎng)絡(luò)的輸出目標(biāo),計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果 與輸出目標(biāo)之間的誤差;通過(guò)誤差反向傳播算法持續(xù)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值,直到誤差小于 預(yù)設(shè)的閾值或者訓(xùn)練次數(shù)達(dá)到預(yù)期最大迭代次數(shù)則停止神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;然后使用驗(yàn)證集 驗(yàn)證神經(jīng)網(wǎng)絡(luò)的結(jié)果,將從驗(yàn)證集中提取的特征作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)的輸出結(jié) 果和對(duì)應(yīng)驗(yàn)證集的語(yǔ)音活動(dòng)檢測(cè)結(jié)果進(jìn)行比較,統(tǒng)計(jì)神經(jīng)網(wǎng)絡(luò)輸出結(jié)果的正確率,如果正 確率優(yōu)于之前訓(xùn)練得到的結(jié)果,則記錄此時(shí)的神經(jīng)元個(gè)數(shù);增加一個(gè)神經(jīng)元重復(fù)上述的訓(xùn) 練和驗(yàn)證步驟,直到到達(dá)設(shè)定神經(jīng)元個(gè)數(shù)的上限,最后選取最優(yōu)的結(jié)果對(duì)應(yīng)的神經(jīng)元個(gè)數(shù), 并記錄此時(shí)神經(jīng)網(wǎng)絡(luò)內(nèi)部的權(quán)值作為最終訓(xùn)練完畢的神經(jīng)網(wǎng)絡(luò)。
【專利摘要】本發(fā)明公開(kāi)了通信終端雙麥克風(fēng)消噪系統(tǒng)中的語(yǔ)音活動(dòng)檢測(cè)方法和裝置,一為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練:選取訓(xùn)練樣本提取特征并得到對(duì)應(yīng)的語(yǔ)音活動(dòng)檢測(cè)結(jié)果,利用特征和對(duì)應(yīng)的檢測(cè)結(jié)果對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;二為基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音活動(dòng)檢測(cè):分別使用通信終端的主、次麥克風(fēng)采集待測(cè)帶噪語(yǔ)音信號(hào),對(duì)采集到的帶噪語(yǔ)音信號(hào)提取特征,然后將特征送入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),由神經(jīng)網(wǎng)絡(luò)輸出語(yǔ)音活動(dòng)檢測(cè)的結(jié)果;其中特征包括子帶互通道能量差和歸一化的互通道相關(guān)??梢罁?jù)不同的噪聲環(huán)境自適應(yīng)的調(diào)節(jié)參數(shù)進(jìn)行語(yǔ)音活動(dòng)檢測(cè),解決了現(xiàn)有的語(yǔ)音活動(dòng)檢測(cè)方法不能適應(yīng)噪聲環(huán)境改變而性能下降的問(wèn)題,提升了復(fù)雜噪聲環(huán)境下的語(yǔ)音活動(dòng)檢測(cè)的準(zhǔn)確性。
【IPC分類】G10L15/08, G10L15/16, G10L15/20, H04M1/82, H04M1/19
【公開(kāi)號(hào)】CN105469785
【申請(qǐng)?zhí)枴緾N201510830444
【發(fā)明人】章雒霏, 張銘, 李晨
【申請(qǐng)人】南京師范大學(xué)
【公開(kāi)日】2016年4月6日
【申請(qǐng)日】2015年11月25日