本發(fā)明涉及信號(hào)處理技術(shù)領(lǐng)域,特別涉及一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別方法。本發(fā)明還涉及一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別系統(tǒng)。本發(fā)明還涉及一種包括上述語(yǔ)音識(shí)別系統(tǒng)的基于聲紋識(shí)別的智能鎖。
背景技術(shù):
隨著入室盜竊事件時(shí)常發(fā)生,如何升級(jí)家居門(mén)鎖,確保室內(nèi)的安全,是人們不得不應(yīng)對(duì)的新挑戰(zhàn)。
目前,市面上傳統(tǒng)的家居門(mén)鎖基本采用鑰匙解鎖、密碼解鎖,由于鑰匙易丟失、易復(fù)制、特征性不強(qiáng)等特點(diǎn),同樣的,密碼解鎖存在易遺忘密碼,密碼易泄露的缺點(diǎn),容易造成資源浪費(fèi)的同時(shí)給用戶帶來(lái)安全隱患。另外,現(xiàn)有采用其他生物認(rèn)證技術(shù)的智能化設(shè)備如指紋識(shí)別,虹膜識(shí)別等,成本高,具有接觸性的不便性、不衛(wèi)生,例如指紋識(shí)別需要將手指放在傳感器上、虹膜識(shí)別需要將眼睛湊近攝像頭,不能提供很好的用戶體驗(yàn)且給用戶造成經(jīng)濟(jì)負(fù)擔(dān)。
在現(xiàn)有技術(shù)中,已經(jīng)出現(xiàn)了基于聲紋識(shí)別的智能門(mén)鎖。聲紋鎖是基于聲音的模式識(shí)別,跟指紋鎖有異曲同工之用。只要主人說(shuō)出事先設(shè)定的暗語(yǔ)就能把鎖打開(kāi),別人即使說(shuō)出暗語(yǔ)也打不開(kāi),這種聲紋鎖辨別聲音的主要依據(jù)是音色。但是,由于大多數(shù)聲紋鎖對(duì)聲音的識(shí)別和驗(yàn)證往往只采用gmm模型(gaussianmixturemodel,高斯混合模型)方法訓(xùn)練方法,實(shí)驗(yàn)表明,只采用gmm說(shuō)話人識(shí)別模型,在訓(xùn)練和測(cè)試時(shí)的語(yǔ)音上下文內(nèi)容對(duì)識(shí)別結(jié)果有很大的影響。當(dāng)非目標(biāo)說(shuō)話人的識(shí)別語(yǔ)音上下文和目標(biāo)說(shuō)話人識(shí)別語(yǔ)音上下文較接近的時(shí)候,用該語(yǔ)音進(jìn)行目標(biāo)說(shuō)話人測(cè)試時(shí),錯(cuò)誤接受的概率會(huì)大大的提高。
因此,如何提高聲紋鎖對(duì)目標(biāo)說(shuō)話人的識(shí)別率,降低錯(cuò)誤接受概率,保證門(mén)鎖安全性能,是本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別方法,能夠提高聲紋鎖對(duì)目標(biāo)說(shuō)話人的識(shí)別率,降低錯(cuò)誤接受概率,保證門(mén)鎖安全性能。本發(fā)明的另一目的是提供一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別系統(tǒng)和一種包括上述語(yǔ)音識(shí)別系統(tǒng)的基于聲紋識(shí)別的智能鎖。
為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別方法,包括:
提取待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù);
將所述梅爾倒譜系數(shù)作為輸入層輸入具有預(yù)設(shè)參數(shù)空間的區(qū)分深度置信網(wǎng)絡(luò),以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并將其作為所述梅爾倒譜系數(shù)的特征向量;
將所述特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)預(yù)先構(gòu)建的高斯混合模型進(jìn)行對(duì)比,并計(jì)算所述特征向量分別與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率;
判斷各所述后驗(yàn)概率中的最大值是否大于預(yù)設(shè)閾值,如果是,則待驗(yàn)證語(yǔ)音信號(hào)通過(guò)驗(yàn)證,并對(duì)鎖具進(jìn)行開(kāi)鎖操作;反之則使鎖具保持鎖定狀態(tài)。
優(yōu)選地,在提取待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)之前,還包括:
對(duì)智能鎖的注冊(cè)人進(jìn)行注冊(cè)語(yǔ)音錄入,并對(duì)輸入的各個(gè)注冊(cè)語(yǔ)音信號(hào)構(gòu)建高斯混合模型。
優(yōu)選地,對(duì)輸入的各個(gè)注冊(cè)語(yǔ)音信號(hào)構(gòu)建高斯混合模型,具體包括:
提取各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù),并對(duì)輸入的各個(gè)所述注冊(cè)語(yǔ)音信號(hào)進(jìn)行預(yù)設(shè)編號(hào)綁定;
將各個(gè)所述注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)作為輸入層,同時(shí)將各個(gè)所述注冊(cè)語(yǔ)音信號(hào)綁定的編號(hào)作為輸出層,進(jìn)行區(qū)分深度置信網(wǎng)絡(luò)訓(xùn)練,并獲得所述區(qū)分深度置信網(wǎng)絡(luò)的參數(shù)空間;
將各個(gè)所述注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)輸入所述區(qū)分深度置信網(wǎng)絡(luò),以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并將其作為各個(gè)所述注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)的特征向量;
將各所述特征向量作為輸入,并以最大期望算法為準(zhǔn)構(gòu)建高斯混合模型。
優(yōu)選地,提取待驗(yàn)證語(yǔ)音信號(hào)或各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù),具體包括:對(duì)待驗(yàn)證語(yǔ)音信號(hào)或各個(gè)注冊(cè)語(yǔ)音信號(hào)依次進(jìn)行預(yù)加重、加漢明窗、通過(guò)維納濾波法進(jìn)行去噪、進(jìn)行快速傅里葉變換、通過(guò)三角帶通濾波器進(jìn)行濾波和離散余弦轉(zhuǎn)換。
優(yōu)選地,在將各個(gè)所述注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)輸入所述區(qū)分深度置信網(wǎng)絡(luò),以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出后,還包括:
通過(guò)公式:
校核所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出質(zhì)量,若d的值大于預(yù)設(shè)閾值,則隱層輸出質(zhì)量滿足預(yù)設(shè)要求;
其中,d為區(qū)分度,li為各注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的特征向量的對(duì)應(yīng)權(quán)值,si為矩陣s中的元素,s=sb-sw,sb為類(lèi)內(nèi)離散度矩陣,sw為類(lèi)間離散度矩陣。
優(yōu)選地,在提取待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)之前,對(duì)智能鎖的注冊(cè)人進(jìn)行注冊(cè)語(yǔ)音錄入之后,還包括:
采集若干個(gè)未訓(xùn)練的注音信號(hào);
若當(dāng)前未訓(xùn)練的語(yǔ)音信號(hào)的數(shù)量小于預(yù)設(shè)閾值,則將各未訓(xùn)練的語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)輸入所述區(qū)分深度置信網(wǎng)絡(luò),以修正其參數(shù)空間;
若當(dāng)前未訓(xùn)練的語(yǔ)音信號(hào)的數(shù)量超過(guò)預(yù)設(shè)閾值,則將各未訓(xùn)練的語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)輸入已修正后的區(qū)分深度置信網(wǎng)絡(luò),以獲取對(duì)應(yīng)的修正特征向量,并利用所述修正特征向量對(duì)所述高斯混合模型進(jìn)行修正。
優(yōu)選地,對(duì)所述高斯混合模型進(jìn)行修正,具體包括:
設(shè)各個(gè)未訓(xùn)練的語(yǔ)音信號(hào)分別對(duì)應(yīng)t個(gè)修正特征向量:
且各個(gè)修正特征向量分別對(duì)應(yīng)的似然比為:
{k1,k2,k3,...,kt}
則通過(guò)公式:
修正高斯混合模型的均值和方差。
本發(fā)明還提供一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別系統(tǒng),包括:
提取模塊,用于待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù);
矯正模塊,用于將所述梅爾倒譜系數(shù)作為輸入層輸入具有預(yù)設(shè)參數(shù)空間的區(qū)分深度置信網(wǎng)絡(luò),以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并將其作為所述梅爾倒譜系數(shù)的特征向量;
計(jì)算模塊,用于將所述特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)預(yù)先構(gòu)建的高斯混合模型進(jìn)行對(duì)比,并計(jì)算所述特征向量分別與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率;
驗(yàn)證模塊,用于判斷各所述后驗(yàn)概率中的最大值是否大于預(yù)設(shè)閾值,如果是,則待驗(yàn)證語(yǔ)音信號(hào)通過(guò)驗(yàn)證,并對(duì)鎖具進(jìn)行開(kāi)鎖操作;反之則使鎖具保持鎖定狀態(tài)。
優(yōu)選地,還包括:
注冊(cè)模塊,用于對(duì)智能鎖的注冊(cè)人進(jìn)行注冊(cè)語(yǔ)音錄入;
訓(xùn)練模塊,用于對(duì)輸入的各個(gè)注冊(cè)語(yǔ)音信號(hào)構(gòu)建高斯混合模型。
本發(fā)明還提供一種基于聲紋識(shí)別的智能鎖,包括聲音采集器、鎖具和如上述兩項(xiàng)中任一項(xiàng)所述的語(yǔ)音識(shí)別系統(tǒng)。
本發(fā)明所提供的基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別方法,主要包括四個(gè)步驟,其中,在第一步中,待驗(yàn)證語(yǔ)音信號(hào)輸入后,首先對(duì)其進(jìn)行預(yù)處理,將待驗(yàn)證語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)提取出來(lái);在第二步中,再聯(lián)合區(qū)分深度置信網(wǎng)絡(luò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)的梅爾倒譜系數(shù)進(jìn)行深度處理,將該梅爾倒譜系數(shù)作為輸入層輸入到區(qū)分深度置信網(wǎng)絡(luò)中,該區(qū)分深度置信網(wǎng)絡(luò)具有預(yù)設(shè)參數(shù)空間,可以直接獲得區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并且將該隱層輸出作為待驗(yàn)證語(yǔ)音信號(hào)的梅爾倒譜系數(shù)的特征向量;在第三步中,一般在智能鎖內(nèi)儲(chǔ)存有預(yù)設(shè)的若干個(gè)注冊(cè)語(yǔ)音信號(hào),并且為了精確分析各個(gè)注冊(cè)語(yǔ)音信號(hào),各個(gè)注冊(cè)語(yǔ)音信號(hào)均預(yù)先構(gòu)建好了高斯混合模型,如此,在本步驟中,將經(jīng)過(guò)預(yù)處理和深度處理后的待驗(yàn)證語(yǔ)音信號(hào)與各個(gè)注冊(cè)語(yǔ)音信號(hào)進(jìn)行對(duì)比,具體的,即將第二步中獲得的特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的高斯混合模型進(jìn)行對(duì)比,在對(duì)比過(guò)程中可計(jì)算出該特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率;在第四步中,計(jì)算出待驗(yàn)證語(yǔ)音信號(hào)與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率后,為提高識(shí)別速率和質(zhì)量,可選擇各個(gè)后驗(yàn)概率中的最大值與預(yù)設(shè)閾值相比較,若其中的最大值大于(含等于)預(yù)設(shè)閾值,則說(shuō)明該后驗(yàn)概率的可信度較高,并且該后驗(yàn)概率所對(duì)應(yīng)的待驗(yàn)證語(yǔ)音信號(hào)與其相比較的注冊(cè)語(yǔ)音信號(hào)相匹配的可信度較高,此時(shí),待驗(yàn)證語(yǔ)音信號(hào)通過(guò)識(shí)別驗(yàn)證,可對(duì)鎖具進(jìn)行正常開(kāi)鎖操作,反之,則待驗(yàn)證語(yǔ)音信號(hào)未通過(guò)識(shí)別驗(yàn)證,鎖具保持鎖定狀態(tài)。綜上所述,本發(fā)明所提供的語(yǔ)音識(shí)別方法,通過(guò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)的預(yù)處理,獲得其梅爾倒譜系數(shù),再對(duì)該梅爾倒譜系數(shù)導(dǎo)入?yún)^(qū)分深度置信網(wǎng)絡(luò)進(jìn)行深度處理,獲取其特征向量,再將該特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的高斯混合模型進(jìn)行對(duì)比,計(jì)算待驗(yàn)證語(yǔ)音信號(hào)的識(shí)別概率,相比于現(xiàn)有技術(shù),本發(fā)明通過(guò)區(qū)分深度置信網(wǎng)絡(luò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)進(jìn)行矯正,改善了現(xiàn)有技術(shù)中僅使用高斯混合模型對(duì)語(yǔ)音文本的依賴性,提高了聲紋鎖對(duì)目標(biāo)說(shuō)話人的識(shí)別率,降低錯(cuò)誤接受概率,保證門(mén)鎖安全性能。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明所提供的一種具體實(shí)施方式的流程圖;
圖2為本發(fā)明所提供的一種具體實(shí)施方式的模塊圖;
圖3為本發(fā)明所提供的一種具體實(shí)施方式的結(jié)構(gòu)圖;
圖4為圖3的內(nèi)部結(jié)構(gòu)示意圖。
其中,圖2—4中:
提取模塊—1,矯正模塊—2,計(jì)算模塊—3,驗(yàn)證模塊—4,注冊(cè)模塊—5,訓(xùn)練模塊—6,聲音采集器—7,按鍵—8,顯示屏—9,語(yǔ)音提示器—10,存儲(chǔ)器—11,鎖具—12,控制器—13。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
請(qǐng)參考圖1,圖1為本發(fā)明所提供的一種具體實(shí)施方式的流程圖。
在本發(fā)明所提供的一種具體實(shí)施方式中,基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別方法,主要包括四個(gè)步驟,分別為:提取待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù);將梅爾倒譜系數(shù)作為輸入層輸入具有預(yù)設(shè)參數(shù)空間的區(qū)分深度置信網(wǎng)絡(luò),以獲得區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并將其作為梅爾倒譜系數(shù)的特征向量;將特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)預(yù)先構(gòu)建的高斯混合模型進(jìn)行對(duì)比,并計(jì)算特征向量分別與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率;判斷各后驗(yàn)概率中的最大值是否大于預(yù)設(shè)閾值,如果是,則待驗(yàn)證語(yǔ)音信號(hào)通過(guò)驗(yàn)證,并對(duì)鎖具進(jìn)行開(kāi)鎖操作;反之則使鎖具保持鎖定狀態(tài)。
其中,在第一步中,待驗(yàn)證語(yǔ)音信號(hào)輸入后,首先對(duì)其進(jìn)行預(yù)處理,將待驗(yàn)證語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)提取出來(lái)。具體的,該本步驟中,對(duì)待驗(yàn)證語(yǔ)音信號(hào)的預(yù)處理具體包括:依次對(duì)待驗(yàn)證語(yǔ)音信號(hào)進(jìn)行預(yù)加重、加漢明窗、通過(guò)維納濾波法進(jìn)行去噪、進(jìn)行快速傅里葉變換、通過(guò)三角帶通濾波器進(jìn)行濾波和離散余弦轉(zhuǎn)換操作,之后即可獲得梅爾倒譜系數(shù)(mel-frequencycepstralcoefficients,mfcc)。
在第二步中,再聯(lián)合區(qū)分深度置信網(wǎng)絡(luò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)的梅爾倒譜系數(shù)進(jìn)行深度處理,將該梅爾倒譜系數(shù)作為輸入層輸入到區(qū)分深度置信網(wǎng)絡(luò)中,該區(qū)分深度置信網(wǎng)絡(luò)具有預(yù)設(shè)參數(shù)空間,可以直接獲得區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并且將該隱層輸出作為待驗(yàn)證語(yǔ)音信號(hào)的梅爾倒譜系數(shù)的特征向量。
在第三步中,一般在智能鎖內(nèi)儲(chǔ)存有預(yù)設(shè)的若干個(gè)注冊(cè)語(yǔ)音信號(hào),并且為了精確分析各個(gè)注冊(cè)語(yǔ)音信號(hào),各個(gè)注冊(cè)語(yǔ)音信號(hào)均預(yù)先構(gòu)建好了高斯混合模型,如此,在本步驟中,將經(jīng)過(guò)預(yù)處理和深度處理后的待驗(yàn)證語(yǔ)音信號(hào)與各個(gè)注冊(cè)語(yǔ)音信號(hào)進(jìn)行對(duì)比,具體的,即將第二步中獲得的特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的高斯混合模型進(jìn)行對(duì)比,在對(duì)比過(guò)程中可計(jì)算出該特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率。
在第四步中,計(jì)算出待驗(yàn)證語(yǔ)音信號(hào)與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率后,為提高識(shí)別速率和質(zhì)量,可選擇各個(gè)后驗(yàn)概率中的最大值與預(yù)設(shè)閾值相比較,若其中的最大值大于(含等于)預(yù)設(shè)閾值,則說(shuō)明該后驗(yàn)概率的可信度較高,并且該后驗(yàn)概率所對(duì)應(yīng)的待驗(yàn)證語(yǔ)音信號(hào)與其相比較的注冊(cè)語(yǔ)音信號(hào)相匹配的可信度較高,此時(shí),待驗(yàn)證語(yǔ)音信號(hào)通過(guò)識(shí)別驗(yàn)證,可對(duì)鎖具進(jìn)行正常開(kāi)鎖操作,反之,則待驗(yàn)證語(yǔ)音信號(hào)未通過(guò)識(shí)別驗(yàn)證,鎖具保持鎖定狀態(tài)。
綜上所述,本實(shí)施例所提供的語(yǔ)音識(shí)別方法,通過(guò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)的預(yù)處理,獲得其梅爾倒譜系數(shù),再對(duì)該梅爾倒譜系數(shù)導(dǎo)入?yún)^(qū)分深度置信網(wǎng)絡(luò)進(jìn)行深度處理,獲取其特征向量,再將該特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的高斯混合模型進(jìn)行對(duì)比,計(jì)算待驗(yàn)證語(yǔ)音信號(hào)的識(shí)別概率,相比于現(xiàn)有技術(shù),本實(shí)施例通過(guò)區(qū)分深度置信網(wǎng)絡(luò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)進(jìn)行矯正,改善了現(xiàn)有技術(shù)中僅使用高斯混合模型對(duì)語(yǔ)音文本的依賴性,提高了聲紋鎖對(duì)目標(biāo)說(shuō)話人的識(shí)別率,降低錯(cuò)誤接受概率,保證門(mén)鎖安全性能。
為方便待驗(yàn)證語(yǔ)音信號(hào)與注冊(cè)語(yǔ)音信號(hào)的對(duì)比,在進(jìn)行驗(yàn)證步驟之前,還需首先進(jìn)行注冊(cè)步驟。如此,在提取待驗(yàn)證語(yǔ)音對(duì)應(yīng)的梅爾倒譜系數(shù)之前,還包括步驟:對(duì)智能鎖的注冊(cè)人進(jìn)行注冊(cè)語(yǔ)音錄入,并對(duì)輸入的各個(gè)注冊(cè)語(yǔ)音信號(hào)構(gòu)建高斯混合模型。
具體的,注冊(cè)人(即智能鎖的擁有者)可對(duì)智能鎖按照提示文本說(shuō)出若干段語(yǔ)音,比如兩段對(duì)應(yīng)同一文本的語(yǔ)音等,然后智能鎖將其錄入并保存,錄入之后,首先可按照與待驗(yàn)證識(shí)別信號(hào)的相同處理方法進(jìn)行處理,即提取各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù),然后可對(duì)各個(gè)注冊(cè)語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)與預(yù)設(shè)編號(hào)進(jìn)行綁定,以便后續(xù)步驟中的辨識(shí)和匹配。優(yōu)選地,該編號(hào)可由注冊(cè)人進(jìn)行手動(dòng)輸入,若輸入的編號(hào)已經(jīng)存在,則智能鎖提醒用戶重新輸入新的編號(hào)。
之后,在注冊(cè)語(yǔ)音信號(hào)的編號(hào)綁定結(jié)束后,可對(duì)各個(gè)注冊(cè)語(yǔ)音信號(hào)進(jìn)行深度處理和矯正,以提高信號(hào)質(zhì)量和高清晰辨識(shí)度。具體的,可聯(lián)合區(qū)分深度置信網(wǎng)絡(luò)模式(ddbn,divisiondeepbeliefnetwork,dbn),將各個(gè)注冊(cè)語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)作為輸入層,同時(shí)將各個(gè)注冊(cè)語(yǔ)音信號(hào)所綁定的編號(hào)作為輸出層,以此進(jìn)行區(qū)分深度置信網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練完成后即可獲得該區(qū)分深度置信網(wǎng)絡(luò)的參數(shù)空間。
接著,在區(qū)分深度置信網(wǎng)絡(luò)訓(xùn)練完成后,即可將各個(gè)注冊(cè)語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)輸入到該區(qū)分深度置信網(wǎng)絡(luò),以獲得該區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,同時(shí)可將該隱層輸出作為各個(gè)注冊(cè)語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)的特征向量。如此,通過(guò)區(qū)分深度置信網(wǎng)絡(luò)對(duì)各個(gè)注冊(cè)語(yǔ)音信號(hào)進(jìn)行深度處理,對(duì)其對(duì)應(yīng)的梅爾倒譜系數(shù)進(jìn)行矯正,提高各個(gè)注冊(cè)語(yǔ)音信號(hào)的高清晰度和高辨識(shí)度。
最后,即可將各個(gè)注冊(cè)語(yǔ)音信號(hào)經(jīng)過(guò)區(qū)分深度置信網(wǎng)絡(luò)矯正后獲得的特征向量作為輸入,以此構(gòu)建高斯混合模型,同時(shí),為提高精確性和分析質(zhì)量,在構(gòu)建高斯混合模型時(shí),可以最大期望算法為準(zhǔn)則進(jìn)行構(gòu)建。同時(shí),在高斯混合模型構(gòu)建完成之后,智能鎖還可將高斯混合模型與對(duì)應(yīng)編號(hào)進(jìn)行綁定,并且將訓(xùn)練好的高斯混合模型進(jìn)行存儲(chǔ)。
另外,在驗(yàn)證階段,計(jì)算待驗(yàn)證語(yǔ)音信號(hào)與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率時(shí),具體的,可設(shè)待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)的特征向量為
其中,p(λn)為第n個(gè)注冊(cè)語(yǔ)音信號(hào)輸入的先驗(yàn)概率,
最后識(shí)別結(jié)果由最大后驗(yàn)概率準(zhǔn)則給出識(shí)別結(jié)果,即:
一般的,由于各個(gè)語(yǔ)音信號(hào)的先驗(yàn)概率都是未知的,可設(shè)其相等,即:
另外,對(duì)于一個(gè)確定的觀察特征矢量
為了使模型更具備一般性,可采用對(duì)數(shù)似然比作為判斷標(biāo)準(zhǔn)。設(shè)選取注冊(cè)語(yǔ)音信號(hào)n*時(shí)待驗(yàn)證語(yǔ)音信號(hào)取得最大后驗(yàn)概率,對(duì)應(yīng)的高斯混合模型為
其中,
進(jìn)一步的,若對(duì)數(shù)似然比大于k*,其中k*>k,說(shuō)明該段語(yǔ)音信號(hào)為優(yōu)質(zhì)語(yǔ)音信號(hào),將對(duì)應(yīng)的梅爾倒譜系數(shù)標(biāo)注未訓(xùn)練標(biāo)志,綁定注冊(cè)人編號(hào)和對(duì)數(shù)似然比,并且,智能鎖將待驗(yàn)證語(yǔ)音信號(hào)的梅爾倒譜系數(shù)進(jìn)行儲(chǔ)存。
另外,考慮到高斯混合模型對(duì)訓(xùn)練數(shù)據(jù)量往往存在較高要求,若數(shù)據(jù)量不足的話,會(huì)大幅影響系統(tǒng)性能和精確度。為此,本實(shí)施例在提取待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)之前,以及智能鎖的注冊(cè)人進(jìn)行注冊(cè)語(yǔ)音錄入之后,增設(shè)了訓(xùn)練數(shù)據(jù)量采集步驟。
具體的,在智能鎖處于非注冊(cè)階段和非驗(yàn)證階段時(shí),采集注冊(cè)人的若干個(gè)未訓(xùn)練的語(yǔ)音信號(hào),當(dāng)前未訓(xùn)練的語(yǔ)音信號(hào)的數(shù)量小于預(yù)設(shè)閾值,比如小于50個(gè)時(shí),可將各個(gè)未訓(xùn)練的語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)直接作為訓(xùn)練數(shù)據(jù)輸入?yún)^(qū)分深度置信網(wǎng)絡(luò),對(duì)其參數(shù)空間進(jìn)行修正,以提高區(qū)分深度置信網(wǎng)絡(luò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)和注冊(cè)語(yǔ)音信號(hào)的梅爾倒譜系數(shù)的矯正精確度。同時(shí),若采集了足夠的未訓(xùn)練的語(yǔ)音信號(hào)時(shí),比如超過(guò)50個(gè)時(shí),可將各個(gè)未訓(xùn)練的語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)輸入已修正后的區(qū)分深度置信網(wǎng)絡(luò),以獲取各個(gè)未訓(xùn)練的語(yǔ)音信號(hào)的梅爾倒譜系數(shù)所對(duì)應(yīng)的特征向量,同時(shí)利用該特征向量對(duì)前述已經(jīng)構(gòu)建好的高斯混合模型進(jìn)行修正。
具體的,在對(duì)高斯混合模型進(jìn)行修正時(shí),可設(shè)各個(gè)未訓(xùn)練的語(yǔ)音信號(hào)分別t個(gè)修正特征向量:
同時(shí),可各個(gè)修正特征向量分別對(duì)應(yīng)的似然比為:
{k1,k2,k3,...,kt}
最后,可通過(guò)公式:
對(duì)已經(jīng)構(gòu)建好的高斯混合模型進(jìn)行均值和方差修正,其中,li為各個(gè)特征向量或修正特征向量所對(duì)應(yīng)的權(quán)值。
不僅如此,考慮到無(wú)論是待驗(yàn)證語(yǔ)音信號(hào)還是注冊(cè)語(yǔ)音信號(hào),在聯(lián)合區(qū)分深度置信網(wǎng)絡(luò)進(jìn)行對(duì)應(yīng)的梅爾倒譜系數(shù)矯正時(shí),區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出直接影響到特征向量的精確性,為此,本實(shí)施例中增設(shè)了對(duì)區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出的質(zhì)量檢測(cè)步驟。
具體的,可通過(guò)公式:
校核區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出質(zhì)量。
具體的,可以類(lèi)間距離最大,類(lèi)內(nèi)距離最小為衡量標(biāo)準(zhǔn),定義區(qū)分度d。設(shè)注冊(cè)語(yǔ)音信號(hào)有k個(gè),以注冊(cè)語(yǔ)音信號(hào)n為例,該注冊(cè)語(yǔ)音信號(hào)擁有特征向量c個(gè),每個(gè)特征向量對(duì)應(yīng)的權(quán)值為li,則注冊(cè)語(yǔ)音信號(hào)n特征向量的平均權(quán)值為:
定義矩陣s=sb-sw,si為矩陣s中元素,其中,sb為類(lèi)內(nèi)離散度矩陣,sw是類(lèi)間離散度矩陣。如此,d越大,說(shuō)明隱含層所提取的特征分量質(zhì)量越好,反之則越小。若d的值大于預(yù)設(shè)閾值,則說(shuō)明隱層輸出質(zhì)量滿足預(yù)設(shè)要求。
如圖2所示,圖2為本發(fā)明所提供的一種具體實(shí)施方式的模塊圖。
本實(shí)施例還提供一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別系統(tǒng),主要包括提取模塊1、矯正模塊2、計(jì)算模塊3和驗(yàn)證模塊4。其中,提取模塊1主要用于待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)。矯正模塊2主要用于將所述梅爾倒譜系數(shù)作為輸入層輸入具有預(yù)設(shè)參數(shù)空間的區(qū)分深度置信網(wǎng)絡(luò),以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出,并將其作為所述梅爾倒譜系數(shù)的特征向量。計(jì)算模塊3主要用于將所述特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)預(yù)先構(gòu)建的高斯混合模型進(jìn)行對(duì)比,并計(jì)算所述特征向量分別與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率。驗(yàn)證模塊4主要用于判斷各所述后驗(yàn)概率中的最大值是否大于預(yù)設(shè)閾值,如果是,則待驗(yàn)證語(yǔ)音信號(hào)通過(guò)驗(yàn)證,并對(duì)鎖具12進(jìn)行開(kāi)鎖操作;反之則使鎖具12保持鎖定狀態(tài)。
該語(yǔ)音識(shí)別系統(tǒng)的語(yǔ)音識(shí)別方法與前述相關(guān)內(nèi)容相同,此處不再贅述。
另外,本實(shí)施例中還增設(shè)了注冊(cè)模塊5和訓(xùn)練模塊6。其中,注冊(cè)模塊5主要用于對(duì)智能鎖的注冊(cè)人進(jìn)行注冊(cè)語(yǔ)音錄入,而訓(xùn)練模塊6與注冊(cè)模塊5信號(hào)連接,主要用于對(duì)輸入的各個(gè)注冊(cè)語(yǔ)音信號(hào)構(gòu)建高斯混合模型。
如圖3和圖4所示,圖3為本發(fā)明所提供的一種具體實(shí)施方式的結(jié)構(gòu)圖,圖4為圖3的內(nèi)部結(jié)構(gòu)示意圖。
本實(shí)施例還提供一種基于聲紋識(shí)別的智能鎖,主要包括聲音采集器7、鎖具12、按鍵8、顯示屏9、語(yǔ)音提示器10、存儲(chǔ)器11、控制器13和語(yǔ)音識(shí)別系統(tǒng)。其中,語(yǔ)音識(shí)別系統(tǒng)與上述相關(guān)內(nèi)容相同,此處不再贅述。而聲音采集器7主要用于收集語(yǔ)音信號(hào),鎖具12可為電磁鎖,而按鍵8主要用于供用戶輸入數(shù)字編號(hào)等,顯示屏9主要用于為用戶提供反饋信息,比如語(yǔ)音文本、編號(hào)重新輸入等,語(yǔ)音提示器10主要用于為用戶提供反饋信息,比如語(yǔ)音文本聲音信息等,存儲(chǔ)器11主要用于存儲(chǔ)注冊(cè)語(yǔ)音信號(hào)或待驗(yàn)證語(yǔ)音信號(hào)的梅爾倒譜系數(shù)所對(duì)應(yīng)的編號(hào)等,控制器13主要用于在識(shí)別系統(tǒng)的識(shí)別結(jié)果的控制下,控制鎖具12進(jìn)行解鎖操作或保持鎖定操作。
對(duì)所公開(kāi)的實(shí)施例的上述說(shuō)明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專(zhuān)業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開(kāi)的原理和新穎特點(diǎn)相一致的最寬的范圍。