本發(fā)明涉及物聯(lián)網(wǎng)控制的ai語音,具體涉及一種用于物聯(lián)網(wǎng)卡控制的ai語音分析方法及系統(tǒng)。
背景技術(shù):
1、隨著物聯(lián)網(wǎng)技術(shù)和ai語音分析技術(shù)的不斷發(fā)展,用于物聯(lián)網(wǎng)卡控制的ai語音分析方法將在更多領(lǐng)域得到應(yīng)用,如智能家居、智能辦公等應(yīng)用場景對于語音識別技術(shù)和語音交互的需求日益增加,語音識別技術(shù)作為人機(jī)交互的重要組成部分,然而現(xiàn)有的語音識別技術(shù)面臨著一個(gè)共同的問題:在復(fù)雜的噪聲環(huán)境下,語音信號的清晰度往往受到嚴(yán)重干擾,導(dǎo)致語音識別準(zhǔn)確率下降,用戶體驗(yàn)受到影響;
2、在現(xiàn)實(shí)環(huán)境中,諸如背景音樂、人群交談聲、機(jī)器運(yùn)轉(zhuǎn)聲等各種噪聲的存在嚴(yán)重影響了語音信號的質(zhì)量;這些噪聲不僅降低了語音的可辨識性,而且還會使語音識別系統(tǒng)產(chǎn)生誤判;在某些情況下,需要同時(shí)處理多個(gè)說話人的語音信號,這對信號處理算法提出了更高的要求;傳統(tǒng)的單通道語音處理技術(shù)往往無法有效應(yīng)對多音源環(huán)境下的語音識別任務(wù);為了提供流暢的交互體驗(yàn),語音識別系統(tǒng)必須能夠在短時(shí)間內(nèi)完成語音信號的采集、處理及識別過程;這意味著需要高效的信號處理算法來保障系統(tǒng)的響應(yīng)速度。
3、針對上述提出的技術(shù)問題,能夠有效提升語音信號清晰度、動態(tài)調(diào)整噪聲抑制參數(shù),并支持多通道音頻信號處理的ai語音分析方法,以提高語音識別系統(tǒng)的準(zhǔn)確率和魯棒性,優(yōu)化用戶體驗(yàn),并推動智能設(shè)備在更多領(lǐng)域的廣泛應(yīng)用。
4、基于此,本發(fā)明提出了一種用于物聯(lián)網(wǎng)卡控制的ai語音分析方法及系統(tǒng),通過綜合時(shí)域和頻域分析、噪聲抑制技術(shù)以及動態(tài)參數(shù)調(diào)整,實(shí)現(xiàn)了在復(fù)雜噪聲環(huán)境下的高清晰度語音信號采集與處理。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種用于物聯(lián)網(wǎng)卡控制的ai語音分析方法及系統(tǒng),首先包括采集用戶的語音指令并獲得原始音頻數(shù)據(jù),對原始音頻數(shù)據(jù)進(jìn)行時(shí)域和頻域分析,綜合得到語音清晰度分?jǐn)?shù);分析噪聲對語音清晰度的影響關(guān)系,得到目標(biāo)信噪比區(qū)間和目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間;基于目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間,計(jì)算得到噪聲抑制增益調(diào)整區(qū)間;使用多通道音頻輸入設(shè)備進(jìn)行語音信號采集,并對多通道語音信號進(jìn)行分析,根據(jù)分析結(jié)果動態(tài)調(diào)整每個(gè)通道的噪聲抑制參數(shù)。具體而言,通過計(jì)算失真指數(shù)d和頻譜平滑度s,并結(jié)合預(yù)設(shè)的權(quán)重系數(shù),得到語音清晰度分?jǐn)?shù)c,將c與預(yù)設(shè)的清晰度分?jǐn)?shù)閾值進(jìn)行比較,區(qū)分高清晰度和低清晰度語音信號;通過計(jì)算信噪比snr,整合高清晰度和低清晰度語音信號的信噪比區(qū)間,確定目標(biāo)信噪比區(qū)間;基于最大信噪比狀態(tài)下的最小清晰度分?jǐn)?shù)cmin,得到失真指數(shù)d和頻譜平滑度s,并通過公式計(jì)算噪聲抑制增益g,動態(tài)調(diào)整噪聲抑制增益以優(yōu)化語音信號清晰度;在多通道環(huán)境下,通過校準(zhǔn)各通道以確保數(shù)據(jù)一致性,提取每個(gè)通道的時(shí)域和頻域特征,結(jié)合信號融合算法生成綜合語音清晰度分?jǐn)?shù),并根據(jù)多通道信號的分析結(jié)果動態(tài)調(diào)整噪聲抑制參數(shù),從而優(yōu)化整體語音清晰度,提高語音控制的可靠性和用戶體驗(yàn)。
2、本發(fā)明的目的可以通過以下技術(shù)方案實(shí)現(xiàn):
3、一種用于物聯(lián)網(wǎng)卡控制的ai語音分析方法,包括以下步驟:
4、s1:采集用戶的語音指令,獲得原始音頻數(shù)據(jù);
5、s2:對原始音頻數(shù)據(jù)進(jìn)行時(shí)域分析和頻域分析,并綜合分析得到語音清晰度分?jǐn)?shù);
6、s3:分析噪聲對語音清晰度的影響關(guān)系,得到目標(biāo)信噪比區(qū)間和目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間;
7、s4:基于目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間,計(jì)算得到噪聲抑制增益調(diào)整區(qū)間;
8、s5:使用多通道音頻輸入設(shè)備進(jìn)行語音信號采集,并對多通道語音信號進(jìn)行分析,根據(jù)分析結(jié)果,動態(tài)調(diào)整每個(gè)通道的噪聲抑制參數(shù)。
9、作為本發(fā)明進(jìn)一步的方案:語音清晰度分?jǐn)?shù)c的獲取過程為:
10、對失真指數(shù)d和頻譜平滑度s進(jìn)行處理;
11、將失真指數(shù)d的權(quán)重分配為w1,將頻譜平滑度s的權(quán)重分配為w2,且w1和w2均大于0;
12、通過公式計(jì)算得到語音清晰度分?jǐn)?shù)c。
13、作為本發(fā)明進(jìn)一步的方案:失真指數(shù)d的獲取過程為:
14、通過公式計(jì)算得到失真指數(shù)d;
15、其中,n是樣本點(diǎn)的數(shù)量,是原始信號的第i個(gè)樣本點(diǎn),yi是處理后信號的第i個(gè)樣本點(diǎn)。
16、作為本發(fā)明進(jìn)一步的方案:頻譜平滑度s的獲取過程為:
17、通過公式計(jì)算得到頻譜平滑度s;
18、其中,m是頻譜的分量數(shù)量,和分別是頻譜的第j和j+1個(gè)分量。
19、作為本發(fā)明進(jìn)一步的方案:目標(biāo)信噪比區(qū)間獲取過程為:通過公式計(jì)算得到信噪比snr;
20、其中,是原始語音信號的第i個(gè)樣本點(diǎn),是噪聲信號的第i個(gè)樣本點(diǎn),n是樣本點(diǎn)的數(shù)量。
21、并將每個(gè)語音信號的清晰度分?jǐn)?shù)與清晰度分?jǐn)?shù)閾值進(jìn)行比較;
22、分別得到若干高清晰度語音信號和若干低清晰度語音信號;
23、對所有高清晰度語音信號,計(jì)算對應(yīng)的信噪比,將所得信噪比按照大小順序進(jìn)行整合,得到高清晰度語音信號對應(yīng)的信噪比區(qū)間,記為高清晰度低信噪比區(qū)間;
24、對所有低清晰度語音信號,計(jì)算對應(yīng)的信噪比,將所得信噪比按照大小順序進(jìn)行整合,得到低清晰度語音信號對應(yīng)的信噪比區(qū)間,記為低清晰度高信噪比區(qū)間;
25、若高清晰度低信噪比區(qū)間與低清晰度高信噪比區(qū)間之間存在交叉部分,則獲取高清晰度信低噪比區(qū)間內(nèi)的最小信噪比記為,獲取低清晰度高信噪比區(qū)間內(nèi)的最小信噪比記為,將記為第一目標(biāo)信噪比區(qū)間;
26、若低清晰度高信噪比區(qū)間完全包含高清晰度低信噪比區(qū)間,則獲取高清晰度信低噪比區(qū)間內(nèi)的最小信噪比記為,獲取高清晰度低信噪比區(qū)間內(nèi)的最大信噪比記為,則將記為第二目標(biāo)信噪比區(qū)間;
27、若低清晰度高信噪比區(qū)間與高清晰度低信噪比區(qū)間不存在相交部分,則獲取高清晰度信低噪比區(qū)間內(nèi)的最小信噪比記為,獲取高清晰度信低噪比區(qū)間內(nèi)的最大信噪比記為則將記為第二目標(biāo)信噪比區(qū)間。
28、作為本發(fā)明進(jìn)一步的方案:噪聲抑制增益調(diào)整區(qū)間獲取過程為:
29、以第一目標(biāo)信噪比區(qū)間為例,將第一目標(biāo)信噪比區(qū)間劃分為若干相同時(shí)間采集點(diǎn),分別獲取每個(gè)采集點(diǎn)對應(yīng)的信噪比、失真指數(shù)和頻譜平滑度;其中,a表示采集點(diǎn)的個(gè)數(shù),a為大于0的正整數(shù);
30、基于信噪比,得到清晰度分?jǐn)?shù),再根據(jù)清晰度分?jǐn)?shù)得到失真指數(shù)和頻譜平滑度,綜合計(jì)算得到噪聲抑制增益;
31、對目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間,按照從小到大的順序,依次獲取對應(yīng)的信噪比與清晰度分?jǐn)?shù);其中n表示目標(biāo)區(qū)間內(nèi)的語言信號數(shù)量;以清晰度分?jǐn)?shù)為因變量,信噪比為自變量;將最大信噪比對應(yīng)最小清晰度分?jǐn)?shù)依次按照順序,將所有清晰度分?jǐn)?shù)與信噪比一一對應(yīng),建立直角坐標(biāo)系,觀察信噪比和清晰度分?jǐn)?shù)在坐標(biāo)軸的分布情況;
32、通過公式計(jì)算得到變化率;
33、若變化率為正數(shù)則說明,計(jì)算第一目標(biāo)區(qū)間內(nèi)所有噪聲抑制增益,并獲取最大噪聲抑制增益和最小噪聲抑制增益g1;得到噪聲抑制增益調(diào)整區(qū)間;
34、若變化率為負(fù)數(shù),計(jì)算第一目標(biāo)區(qū)間內(nèi)所有噪聲抑制增益,并獲取最大噪聲抑制增益和最小噪聲抑制增益g3;得到噪聲抑制增益調(diào)整區(qū)間。
35、作為本發(fā)明進(jìn)一步的方案:對多通道音頻信號進(jìn)行時(shí)域和頻率域分析,分別提取每個(gè)通道的時(shí)域波形和頻譜特征;匯總所有通道的分析結(jié)果,計(jì)算整體的失真指數(shù)d和頻譜平滑度s;結(jié)合各通道的音頻數(shù)據(jù),計(jì)算綜合語音清晰度分?jǐn)?shù)c;若語音清晰度分?jǐn)?shù)c低于預(yù)設(shè)閾值,系統(tǒng)將進(jìn)一步分析各通道的信噪比snr,識別主要噪聲源并進(jìn)行針對性處理;根據(jù)多通道信號的分析結(jié)果,動態(tài)調(diào)整每個(gè)通道的噪聲抑制參數(shù)。
36、一種用于物聯(lián)網(wǎng)卡控制的ai語音分析系統(tǒng),包括語音信號采集模塊、語音信號分析模塊、語音清晰度分?jǐn)?shù)計(jì)算模塊、噪聲影響分析模塊、噪聲調(diào)整與優(yōu)化模塊和多通道音頻信號處理模塊;
37、語音信號采集模塊,所述語音信號采集模塊通過音頻輸入設(shè)備采集原始語音信號;
38、語音信號分析模塊,所述語音信號分析模塊對原始音頻數(shù)據(jù)進(jìn)行時(shí)域分析和頻域分析;
39、語音清晰度分?jǐn)?shù)計(jì)算模塊,所述語音清晰度分?jǐn)?shù)計(jì)算模塊通過綜合分析語音信號的時(shí)域和頻域特征,計(jì)算語音清晰度分?jǐn)?shù);
40、噪聲影響分析模塊,所述噪聲影響分析模塊通過分析噪聲對語音清晰度的影響關(guān)系,得到目標(biāo)信噪比區(qū)間和目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間;
41、噪聲調(diào)整與優(yōu)化模塊,所述噪聲調(diào)整與優(yōu)化模塊基于目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間,計(jì)算得到噪聲抑制增益調(diào)整區(qū)間;
42、多通道音頻信號處理模塊,所述多通道音頻信號處理模塊通過使用多通道音頻輸入設(shè)備進(jìn)行語音信號采集,并對多通道語音信號進(jìn)行分析,根據(jù)分析結(jié)果,動態(tài)調(diào)整每個(gè)通道的噪聲抑制參數(shù)。
43、本發(fā)明的有益效果:
44、(1)本發(fā)明通過采集多個(gè)語音信號并計(jì)算各自的清晰度分?jǐn)?shù),區(qū)分出高清晰度和低清晰度語音信號;通過計(jì)算信噪比并整合高清晰度和低清晰度語音信號的信噪比區(qū)間,確定目標(biāo)信噪比區(qū)間。基于最大信噪比狀態(tài)下的最小清晰度分?jǐn)?shù)?,得到失真指數(shù)和頻譜平滑度,并通過公式計(jì)算噪聲抑制增益;這種方法能夠動態(tài)調(diào)整噪聲抑制增益,顯著提高語音信號的清晰度;通過在直角坐標(biāo)系中觀察信噪比和清晰度分?jǐn)?shù)的變化,可以更精確地調(diào)整噪聲抑制參數(shù),從而在不同噪聲環(huán)境下保持語音信號的高質(zhì)量;
45、(2)本發(fā)明通過對目標(biāo)語音信號清晰度分?jǐn)?shù)區(qū)間內(nèi)的語音信號進(jìn)行分析,根據(jù)信噪比的變化調(diào)整噪聲抑制增益;具體而言,通過計(jì)算變化率,可以判斷信噪比與清晰度分?jǐn)?shù)的關(guān)系;當(dāng)變化率為正數(shù)時(shí),表明隨著信噪比的增加,清晰度分?jǐn)?shù)也在增加,此時(shí)可以形成噪聲抑制增益調(diào)整區(qū)間;當(dāng)變化率為負(fù)數(shù)時(shí),表明隨著信噪比的增加,清晰度分?jǐn)?shù)反而減少,也可以形成相應(yīng)的調(diào)整區(qū)間。這種動態(tài)調(diào)整機(jī)制使得系統(tǒng)能夠更好地適應(yīng)不同噪聲環(huán)境,提高了噪聲抑制的效果,從而提升了語音識別的準(zhǔn)確率。
46、(3)本發(fā)明通過支持多通道音頻信號處理,使用多通道音頻輸入設(shè)備進(jìn)行語音信號采集,并確保所有通道的音頻信號具有相同的采樣率和位深度;對每個(gè)通道進(jìn)行時(shí)域和頻域分析,提取時(shí)域波形和頻譜特征,匯總分析結(jié)果,計(jì)算整體的失真指數(shù)和頻譜平滑度;結(jié)合各通道的音頻數(shù)據(jù),生成綜合語音清晰度分?jǐn)?shù);這種方法不僅提高了語音信號的整體清晰度,還能通過分析多通道信號的方向性,增強(qiáng)目標(biāo)語音方向的聲音,同時(shí)抑制其他方向的噪聲;通過動態(tài)調(diào)整每個(gè)通道的噪聲抑制參數(shù),優(yōu)化了整體語音清晰度,提升了系統(tǒng)的魯棒性和可靠性。