一種基于聲紋識(shí)別的智能鎖及其語(yǔ)音識(shí)別方法和系統(tǒng)與流程

文檔序號(hào)：11213901閱讀：1571來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于聲紋識(shí)別的智能鎖及其語(yǔ)音識(shí)別方法和系統(tǒng)與流程

本發(fā)明涉及信號(hào)處理技術(shù)領(lǐng)域，特別涉及一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別方法。本發(fā)明還涉及一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別系統(tǒng)。本發(fā)明還涉及一種包括上述語(yǔ)音識(shí)別系統(tǒng)的基于聲紋識(shí)別的智能鎖。

背景技術(shù)：

隨著入室盜竊事件時(shí)常發(fā)生，如何升級(jí)家居門(mén)鎖，確保室內(nèi)的安全，是人們不得不應(yīng)對(duì)的新挑戰(zhàn)。

目前，市面上傳統(tǒng)的家居門(mén)鎖基本采用鑰匙解鎖、密碼解鎖，由于鑰匙易丟失、易復(fù)制、特征性不強(qiáng)等特點(diǎn)，同樣的，密碼解鎖存在易遺忘密碼，密碼易泄露的缺點(diǎn)，容易造成資源浪費(fèi)的同時(shí)給用戶帶來(lái)安全隱患。另外，現(xiàn)有采用其他生物認(rèn)證技術(shù)的智能化設(shè)備如指紋識(shí)別，虹膜識(shí)別等，成本高，具有接觸性的不便性、不衛(wèi)生，例如指紋識(shí)別需要將手指放在傳感器上、虹膜識(shí)別需要將眼睛湊近攝像頭，不能提供很好的用戶體驗(yàn)且給用戶造成經(jīng)濟(jì)負(fù)擔(dān)。

在現(xiàn)有技術(shù)中，已經(jīng)出現(xiàn)了基于聲紋識(shí)別的智能門(mén)鎖。聲紋鎖是基于聲音的模式識(shí)別，跟指紋鎖有異曲同工之用。只要主人說(shuō)出事先設(shè)定的暗語(yǔ)就能把鎖打開(kāi)，別人即使說(shuō)出暗語(yǔ)也打不開(kāi)，這種聲紋鎖辨別聲音的主要依據(jù)是音色。但是，由于大多數(shù)聲紋鎖對(duì)聲音的識(shí)別和驗(yàn)證往往只采用gmm模型(gaussianmixturemodel，高斯混合模型)方法訓(xùn)練方法，實(shí)驗(yàn)表明，只采用gmm說(shuō)話人識(shí)別模型，在訓(xùn)練和測(cè)試時(shí)的語(yǔ)音上下文內(nèi)容對(duì)識(shí)別結(jié)果有很大的影響。當(dāng)非目標(biāo)說(shuō)話人的識(shí)別語(yǔ)音上下文和目標(biāo)說(shuō)話人識(shí)別語(yǔ)音上下文較接近的時(shí)候，用該語(yǔ)音進(jìn)行目標(biāo)說(shuō)話人測(cè)試時(shí)，錯(cuò)誤接受的概率會(huì)大大的提高。

因此，如何提高聲紋鎖對(duì)目標(biāo)說(shuō)話人的識(shí)別率，降低錯(cuò)誤接受概率，保證門(mén)鎖安全性能，是本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問(wèn)題。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的是提供一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別方法，能夠提高聲紋鎖對(duì)目標(biāo)說(shuō)話人的識(shí)別率，降低錯(cuò)誤接受概率，保證門(mén)鎖安全性能。本發(fā)明的另一目的是提供一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別系統(tǒng)和一種包括上述語(yǔ)音識(shí)別系統(tǒng)的基于聲紋識(shí)別的智能鎖。

為解決上述技術(shù)問(wèn)題，本發(fā)明提供一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別方法，包括：

提取待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)；

將所述梅爾倒譜系數(shù)作為輸入層輸入具有預(yù)設(shè)參數(shù)空間的區(qū)分深度置信網(wǎng)絡(luò)，以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出，并將其作為所述梅爾倒譜系數(shù)的特征向量；

將所述特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)預(yù)先構(gòu)建的高斯混合模型進(jìn)行對(duì)比，并計(jì)算所述特征向量分別與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率；

判斷各所述后驗(yàn)概率中的最大值是否大于預(yù)設(shè)閾值，如果是，則待驗(yàn)證語(yǔ)音信號(hào)通過(guò)驗(yàn)證，并對(duì)鎖具進(jìn)行開(kāi)鎖操作；反之則使鎖具保持鎖定狀態(tài)。

優(yōu)選地，在提取待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)之前，還包括：

對(duì)智能鎖的注冊(cè)人進(jìn)行注冊(cè)語(yǔ)音錄入，并對(duì)輸入的各個(gè)注冊(cè)語(yǔ)音信號(hào)構(gòu)建高斯混合模型。

優(yōu)選地，對(duì)輸入的各個(gè)注冊(cè)語(yǔ)音信號(hào)構(gòu)建高斯混合模型，具體包括：

提取各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)，并對(duì)輸入的各個(gè)所述注冊(cè)語(yǔ)音信號(hào)進(jìn)行預(yù)設(shè)編號(hào)綁定；

將各個(gè)所述注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)作為輸入層，同時(shí)將各個(gè)所述注冊(cè)語(yǔ)音信號(hào)綁定的編號(hào)作為輸出層，進(jìn)行區(qū)分深度置信網(wǎng)絡(luò)訓(xùn)練，并獲得所述區(qū)分深度置信網(wǎng)絡(luò)的參數(shù)空間；

將各個(gè)所述注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)輸入所述區(qū)分深度置信網(wǎng)絡(luò)，以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出，并將其作為各個(gè)所述注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)的特征向量；

將各所述特征向量作為輸入，并以最大期望算法為準(zhǔn)構(gòu)建高斯混合模型。

優(yōu)選地，提取待驗(yàn)證語(yǔ)音信號(hào)或各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)，具體包括：對(duì)待驗(yàn)證語(yǔ)音信號(hào)或各個(gè)注冊(cè)語(yǔ)音信號(hào)依次進(jìn)行預(yù)加重、加漢明窗、通過(guò)維納濾波法進(jìn)行去噪、進(jìn)行快速傅里葉變換、通過(guò)三角帶通濾波器進(jìn)行濾波和離散余弦轉(zhuǎn)換。

優(yōu)選地，在將各個(gè)所述注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)輸入所述區(qū)分深度置信網(wǎng)絡(luò)，以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出后，還包括：

通過(guò)公式：

校核所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出質(zhì)量，若d的值大于預(yù)設(shè)閾值，則隱層輸出質(zhì)量滿足預(yù)設(shè)要求；

其中，d為區(qū)分度，li為各注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的特征向量的對(duì)應(yīng)權(quán)值，si為矩陣s中的元素，s＝sb-sw，sb為類(lèi)內(nèi)離散度矩陣，sw為類(lèi)間離散度矩陣。

優(yōu)選地，在提取待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)之前，對(duì)智能鎖的注冊(cè)人進(jìn)行注冊(cè)語(yǔ)音錄入之后，還包括：

采集若干個(gè)未訓(xùn)練的注音信號(hào)；

若當(dāng)前未訓(xùn)練的語(yǔ)音信號(hào)的數(shù)量小于預(yù)設(shè)閾值，則將各未訓(xùn)練的語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)輸入所述區(qū)分深度置信網(wǎng)絡(luò)，以修正其參數(shù)空間；

若當(dāng)前未訓(xùn)練的語(yǔ)音信號(hào)的數(shù)量超過(guò)預(yù)設(shè)閾值，則將各未訓(xùn)練的語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)輸入已修正后的區(qū)分深度置信網(wǎng)絡(luò)，以獲取對(duì)應(yīng)的修正特征向量，并利用所述修正特征向量對(duì)所述高斯混合模型進(jìn)行修正。

優(yōu)選地，對(duì)所述高斯混合模型進(jìn)行修正，具體包括：

設(shè)各個(gè)未訓(xùn)練的語(yǔ)音信號(hào)分別對(duì)應(yīng)t個(gè)修正特征向量：

且各個(gè)修正特征向量分別對(duì)應(yīng)的似然比為：

{k1,k2,k3,...,kt}

則通過(guò)公式：

修正高斯混合模型的均值和方差。

本發(fā)明還提供一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別系統(tǒng)，包括：

提取模塊，用于待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)；

矯正模塊，用于將所述梅爾倒譜系數(shù)作為輸入層輸入具有預(yù)設(shè)參數(shù)空間的區(qū)分深度置信網(wǎng)絡(luò)，以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出，并將其作為所述梅爾倒譜系數(shù)的特征向量；

計(jì)算模塊，用于將所述特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)預(yù)先構(gòu)建的高斯混合模型進(jìn)行對(duì)比，并計(jì)算所述特征向量分別與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率；

驗(yàn)證模塊，用于判斷各所述后驗(yàn)概率中的最大值是否大于預(yù)設(shè)閾值，如果是，則待驗(yàn)證語(yǔ)音信號(hào)通過(guò)驗(yàn)證，并對(duì)鎖具進(jìn)行開(kāi)鎖操作；反之則使鎖具保持鎖定狀態(tài)。

優(yōu)選地，還包括：

注冊(cè)模塊，用于對(duì)智能鎖的注冊(cè)人進(jìn)行注冊(cè)語(yǔ)音錄入；

訓(xùn)練模塊，用于對(duì)輸入的各個(gè)注冊(cè)語(yǔ)音信號(hào)構(gòu)建高斯混合模型。

本發(fā)明還提供一種基于聲紋識(shí)別的智能鎖，包括聲音采集器、鎖具和如上述兩項(xiàng)中任一項(xiàng)所述的語(yǔ)音識(shí)別系統(tǒng)。

本發(fā)明所提供的基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別方法，主要包括四個(gè)步驟，其中，在第一步中，待驗(yàn)證語(yǔ)音信號(hào)輸入后，首先對(duì)其進(jìn)行預(yù)處理，將待驗(yàn)證語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)提取出來(lái)；在第二步中，再聯(lián)合區(qū)分深度置信網(wǎng)絡(luò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)的梅爾倒譜系數(shù)進(jìn)行深度處理，將該梅爾倒譜系數(shù)作為輸入層輸入到區(qū)分深度置信網(wǎng)絡(luò)中，該區(qū)分深度置信網(wǎng)絡(luò)具有預(yù)設(shè)參數(shù)空間，可以直接獲得區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出，并且將該隱層輸出作為待驗(yàn)證語(yǔ)音信號(hào)的梅爾倒譜系數(shù)的特征向量；在第三步中，一般在智能鎖內(nèi)儲(chǔ)存有預(yù)設(shè)的若干個(gè)注冊(cè)語(yǔ)音信號(hào)，并且為了精確分析各個(gè)注冊(cè)語(yǔ)音信號(hào)，各個(gè)注冊(cè)語(yǔ)音信號(hào)均預(yù)先構(gòu)建好了高斯混合模型，如此，在本步驟中，將經(jīng)過(guò)預(yù)處理和深度處理后的待驗(yàn)證語(yǔ)音信號(hào)與各個(gè)注冊(cè)語(yǔ)音信號(hào)進(jìn)行對(duì)比，具體的，即將第二步中獲得的特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的高斯混合模型進(jìn)行對(duì)比，在對(duì)比過(guò)程中可計(jì)算出該特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率；在第四步中，計(jì)算出待驗(yàn)證語(yǔ)音信號(hào)與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率后，為提高識(shí)別速率和質(zhì)量，可選擇各個(gè)后驗(yàn)概率中的最大值與預(yù)設(shè)閾值相比較，若其中的最大值大于(含等于)預(yù)設(shè)閾值，則說(shuō)明該后驗(yàn)概率的可信度較高，并且該后驗(yàn)概率所對(duì)應(yīng)的待驗(yàn)證語(yǔ)音信號(hào)與其相比較的注冊(cè)語(yǔ)音信號(hào)相匹配的可信度較高，此時(shí)，待驗(yàn)證語(yǔ)音信號(hào)通過(guò)識(shí)別驗(yàn)證，可對(duì)鎖具進(jìn)行正常開(kāi)鎖操作，反之，則待驗(yàn)證語(yǔ)音信號(hào)未通過(guò)識(shí)別驗(yàn)證，鎖具保持鎖定狀態(tài)。綜上所述，本發(fā)明所提供的語(yǔ)音識(shí)別方法，通過(guò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)的預(yù)處理，獲得其梅爾倒譜系數(shù)，再對(duì)該梅爾倒譜系數(shù)導(dǎo)入?yún)^(qū)分深度置信網(wǎng)絡(luò)進(jìn)行深度處理，獲取其特征向量，再將該特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的高斯混合模型進(jìn)行對(duì)比，計(jì)算待驗(yàn)證語(yǔ)音信號(hào)的識(shí)別概率，相比于現(xiàn)有技術(shù)，本發(fā)明通過(guò)區(qū)分深度置信網(wǎng)絡(luò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)進(jìn)行矯正，改善了現(xiàn)有技術(shù)中僅使用高斯混合模型對(duì)語(yǔ)音文本的依賴性，提高了聲紋鎖對(duì)目標(biāo)說(shuō)話人的識(shí)別率，降低錯(cuò)誤接受概率，保證門(mén)鎖安全性能。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)提供的附圖獲得其他的附圖。

圖1為本發(fā)明所提供的一種具體實(shí)施方式的流程圖；

圖2為本發(fā)明所提供的一種具體實(shí)施方式的模塊圖；

圖3為本發(fā)明所提供的一種具體實(shí)施方式的結(jié)構(gòu)圖；

圖4為圖3的內(nèi)部結(jié)構(gòu)示意圖。

其中，圖2—4中：

提取模塊—1，矯正模塊—2，計(jì)算模塊—3，驗(yàn)證模塊—4，注冊(cè)模塊—5，訓(xùn)練模塊—6，聲音采集器—7，按鍵—8，顯示屏—9，語(yǔ)音提示器—10，存儲(chǔ)器—11，鎖具—12，控制器—13。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

請(qǐng)參考圖1，圖1為本發(fā)明所提供的一種具體實(shí)施方式的流程圖。

在本發(fā)明所提供的一種具體實(shí)施方式中，基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別方法，主要包括四個(gè)步驟，分別為：提取待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)；將梅爾倒譜系數(shù)作為輸入層輸入具有預(yù)設(shè)參數(shù)空間的區(qū)分深度置信網(wǎng)絡(luò)，以獲得區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出，并將其作為梅爾倒譜系數(shù)的特征向量；將特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)預(yù)先構(gòu)建的高斯混合模型進(jìn)行對(duì)比，并計(jì)算特征向量分別與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率；判斷各后驗(yàn)概率中的最大值是否大于預(yù)設(shè)閾值，如果是，則待驗(yàn)證語(yǔ)音信號(hào)通過(guò)驗(yàn)證，并對(duì)鎖具進(jìn)行開(kāi)鎖操作；反之則使鎖具保持鎖定狀態(tài)。

其中，在第一步中，待驗(yàn)證語(yǔ)音信號(hào)輸入后，首先對(duì)其進(jìn)行預(yù)處理，將待驗(yàn)證語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)提取出來(lái)。具體的，該本步驟中，對(duì)待驗(yàn)證語(yǔ)音信號(hào)的預(yù)處理具體包括：依次對(duì)待驗(yàn)證語(yǔ)音信號(hào)進(jìn)行預(yù)加重、加漢明窗、通過(guò)維納濾波法進(jìn)行去噪、進(jìn)行快速傅里葉變換、通過(guò)三角帶通濾波器進(jìn)行濾波和離散余弦轉(zhuǎn)換操作，之后即可獲得梅爾倒譜系數(shù)(mel-frequencycepstralcoefficients，mfcc)。

在第二步中，再聯(lián)合區(qū)分深度置信網(wǎng)絡(luò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)的梅爾倒譜系數(shù)進(jìn)行深度處理，將該梅爾倒譜系數(shù)作為輸入層輸入到區(qū)分深度置信網(wǎng)絡(luò)中，該區(qū)分深度置信網(wǎng)絡(luò)具有預(yù)設(shè)參數(shù)空間，可以直接獲得區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出，并且將該隱層輸出作為待驗(yàn)證語(yǔ)音信號(hào)的梅爾倒譜系數(shù)的特征向量。

在第三步中，一般在智能鎖內(nèi)儲(chǔ)存有預(yù)設(shè)的若干個(gè)注冊(cè)語(yǔ)音信號(hào)，并且為了精確分析各個(gè)注冊(cè)語(yǔ)音信號(hào)，各個(gè)注冊(cè)語(yǔ)音信號(hào)均預(yù)先構(gòu)建好了高斯混合模型，如此，在本步驟中，將經(jīng)過(guò)預(yù)處理和深度處理后的待驗(yàn)證語(yǔ)音信號(hào)與各個(gè)注冊(cè)語(yǔ)音信號(hào)進(jìn)行對(duì)比，具體的，即將第二步中獲得的特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的高斯混合模型進(jìn)行對(duì)比，在對(duì)比過(guò)程中可計(jì)算出該特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率。

在第四步中，計(jì)算出待驗(yàn)證語(yǔ)音信號(hào)與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率后，為提高識(shí)別速率和質(zhì)量，可選擇各個(gè)后驗(yàn)概率中的最大值與預(yù)設(shè)閾值相比較，若其中的最大值大于(含等于)預(yù)設(shè)閾值，則說(shuō)明該后驗(yàn)概率的可信度較高，并且該后驗(yàn)概率所對(duì)應(yīng)的待驗(yàn)證語(yǔ)音信號(hào)與其相比較的注冊(cè)語(yǔ)音信號(hào)相匹配的可信度較高，此時(shí)，待驗(yàn)證語(yǔ)音信號(hào)通過(guò)識(shí)別驗(yàn)證，可對(duì)鎖具進(jìn)行正常開(kāi)鎖操作，反之，則待驗(yàn)證語(yǔ)音信號(hào)未通過(guò)識(shí)別驗(yàn)證，鎖具保持鎖定狀態(tài)。

綜上所述，本實(shí)施例所提供的語(yǔ)音識(shí)別方法，通過(guò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)的預(yù)處理，獲得其梅爾倒譜系數(shù)，再對(duì)該梅爾倒譜系數(shù)導(dǎo)入?yún)^(qū)分深度置信網(wǎng)絡(luò)進(jìn)行深度處理，獲取其特征向量，再將該特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的高斯混合模型進(jìn)行對(duì)比，計(jì)算待驗(yàn)證語(yǔ)音信號(hào)的識(shí)別概率，相比于現(xiàn)有技術(shù)，本實(shí)施例通過(guò)區(qū)分深度置信網(wǎng)絡(luò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)進(jìn)行矯正，改善了現(xiàn)有技術(shù)中僅使用高斯混合模型對(duì)語(yǔ)音文本的依賴性，提高了聲紋鎖對(duì)目標(biāo)說(shuō)話人的識(shí)別率，降低錯(cuò)誤接受概率，保證門(mén)鎖安全性能。

為方便待驗(yàn)證語(yǔ)音信號(hào)與注冊(cè)語(yǔ)音信號(hào)的對(duì)比，在進(jìn)行驗(yàn)證步驟之前，還需首先進(jìn)行注冊(cè)步驟。如此，在提取待驗(yàn)證語(yǔ)音對(duì)應(yīng)的梅爾倒譜系數(shù)之前，還包括步驟：對(duì)智能鎖的注冊(cè)人進(jìn)行注冊(cè)語(yǔ)音錄入，并對(duì)輸入的各個(gè)注冊(cè)語(yǔ)音信號(hào)構(gòu)建高斯混合模型。

具體的，注冊(cè)人(即智能鎖的擁有者)可對(duì)智能鎖按照提示文本說(shuō)出若干段語(yǔ)音，比如兩段對(duì)應(yīng)同一文本的語(yǔ)音等，然后智能鎖將其錄入并保存，錄入之后，首先可按照與待驗(yàn)證識(shí)別信號(hào)的相同處理方法進(jìn)行處理，即提取各個(gè)注冊(cè)語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)，然后可對(duì)各個(gè)注冊(cè)語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)與預(yù)設(shè)編號(hào)進(jìn)行綁定，以便后續(xù)步驟中的辨識(shí)和匹配。優(yōu)選地，該編號(hào)可由注冊(cè)人進(jìn)行手動(dòng)輸入，若輸入的編號(hào)已經(jīng)存在，則智能鎖提醒用戶重新輸入新的編號(hào)。

之后，在注冊(cè)語(yǔ)音信號(hào)的編號(hào)綁定結(jié)束后，可對(duì)各個(gè)注冊(cè)語(yǔ)音信號(hào)進(jìn)行深度處理和矯正，以提高信號(hào)質(zhì)量和高清晰辨識(shí)度。具體的，可聯(lián)合區(qū)分深度置信網(wǎng)絡(luò)模式(ddbn，divisiondeepbeliefnetwork，dbn)，將各個(gè)注冊(cè)語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)作為輸入層，同時(shí)將各個(gè)注冊(cè)語(yǔ)音信號(hào)所綁定的編號(hào)作為輸出層，以此進(jìn)行區(qū)分深度置信網(wǎng)絡(luò)訓(xùn)練，訓(xùn)練完成后即可獲得該區(qū)分深度置信網(wǎng)絡(luò)的參數(shù)空間。

接著，在區(qū)分深度置信網(wǎng)絡(luò)訓(xùn)練完成后，即可將各個(gè)注冊(cè)語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)輸入到該區(qū)分深度置信網(wǎng)絡(luò)，以獲得該區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出，同時(shí)可將該隱層輸出作為各個(gè)注冊(cè)語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)的特征向量。如此，通過(guò)區(qū)分深度置信網(wǎng)絡(luò)對(duì)各個(gè)注冊(cè)語(yǔ)音信號(hào)進(jìn)行深度處理，對(duì)其對(duì)應(yīng)的梅爾倒譜系數(shù)進(jìn)行矯正，提高各個(gè)注冊(cè)語(yǔ)音信號(hào)的高清晰度和高辨識(shí)度。

最后，即可將各個(gè)注冊(cè)語(yǔ)音信號(hào)經(jīng)過(guò)區(qū)分深度置信網(wǎng)絡(luò)矯正后獲得的特征向量作為輸入，以此構(gòu)建高斯混合模型，同時(shí)，為提高精確性和分析質(zhì)量，在構(gòu)建高斯混合模型時(shí)，可以最大期望算法為準(zhǔn)則進(jìn)行構(gòu)建。同時(shí)，在高斯混合模型構(gòu)建完成之后，智能鎖還可將高斯混合模型與對(duì)應(yīng)編號(hào)進(jìn)行綁定，并且將訓(xùn)練好的高斯混合模型進(jìn)行存儲(chǔ)。

另外，在驗(yàn)證階段，計(jì)算待驗(yàn)證語(yǔ)音信號(hào)與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率時(shí)，具體的，可設(shè)待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)的特征向量為注冊(cè)語(yǔ)音信號(hào)集合數(shù)量為n，其中一個(gè)注冊(cè)語(yǔ)音信號(hào)n，對(duì)應(yīng)的高斯混合模型為λn，待驗(yàn)證語(yǔ)音信號(hào)是注冊(cè)語(yǔ)音信號(hào)n的后驗(yàn)概率為：

其中，p(λn)為第n個(gè)注冊(cè)語(yǔ)音信號(hào)輸入的先驗(yàn)概率，為在所有語(yǔ)音信號(hào)同時(shí)輸入的條件下特征向量的概率。

最后識(shí)別結(jié)果由最大后驗(yàn)概率準(zhǔn)則給出識(shí)別結(jié)果，即：

一般的，由于各個(gè)語(yǔ)音信號(hào)的先驗(yàn)概率都是未知的，可設(shè)其相等，即：

另外，對(duì)于一個(gè)確定的觀察特征矢量是一個(gè)對(duì)所有語(yǔ)音信號(hào)都相等的確定的常數(shù)。因此，求取最大后驗(yàn)概率的問(wèn)題轉(zhuǎn)化為求取最大似然度的問(wèn)題，即：

為了使模型更具備一般性，可采用對(duì)數(shù)似然比作為判斷標(biāo)準(zhǔn)。設(shè)選取注冊(cè)語(yǔ)音信號(hào)n*時(shí)待驗(yàn)證語(yǔ)音信號(hào)取得最大后驗(yàn)概率，對(duì)應(yīng)的高斯混合模型為其他注冊(cè)語(yǔ)音信號(hào)的高斯混合模型為則對(duì)數(shù)似然比為：

其中，可以是任意選擇的一個(gè)其他注冊(cè)語(yǔ)音信號(hào)的高斯混合模型，也可以遍歷所有的注冊(cè)語(yǔ)音信號(hào)的高斯混合模型。前者只需要求出的對(duì)數(shù)似然比大于閾值k即可，后者需要所有求出的對(duì)數(shù)似然比均大于k才能確認(rèn)待驗(yàn)證語(yǔ)音信號(hào)和注冊(cè)語(yǔ)音信號(hào)屬同一個(gè)人。

進(jìn)一步的，若對(duì)數(shù)似然比大于k*，其中k*>k，說(shuō)明該段語(yǔ)音信號(hào)為優(yōu)質(zhì)語(yǔ)音信號(hào)，將對(duì)應(yīng)的梅爾倒譜系數(shù)標(biāo)注未訓(xùn)練標(biāo)志，綁定注冊(cè)人編號(hào)和對(duì)數(shù)似然比，并且，智能鎖將待驗(yàn)證語(yǔ)音信號(hào)的梅爾倒譜系數(shù)進(jìn)行儲(chǔ)存。

另外，考慮到高斯混合模型對(duì)訓(xùn)練數(shù)據(jù)量往往存在較高要求，若數(shù)據(jù)量不足的話，會(huì)大幅影響系統(tǒng)性能和精確度。為此，本實(shí)施例在提取待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)之前，以及智能鎖的注冊(cè)人進(jìn)行注冊(cè)語(yǔ)音錄入之后，增設(shè)了訓(xùn)練數(shù)據(jù)量采集步驟。

具體的，在智能鎖處于非注冊(cè)階段和非驗(yàn)證階段時(shí)，采集注冊(cè)人的若干個(gè)未訓(xùn)練的語(yǔ)音信號(hào)，當(dāng)前未訓(xùn)練的語(yǔ)音信號(hào)的數(shù)量小于預(yù)設(shè)閾值，比如小于50個(gè)時(shí)，可將各個(gè)未訓(xùn)練的語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)直接作為訓(xùn)練數(shù)據(jù)輸入?yún)^(qū)分深度置信網(wǎng)絡(luò)，對(duì)其參數(shù)空間進(jìn)行修正，以提高區(qū)分深度置信網(wǎng)絡(luò)對(duì)待驗(yàn)證語(yǔ)音信號(hào)和注冊(cè)語(yǔ)音信號(hào)的梅爾倒譜系數(shù)的矯正精確度。同時(shí)，若采集了足夠的未訓(xùn)練的語(yǔ)音信號(hào)時(shí)，比如超過(guò)50個(gè)時(shí)，可將各個(gè)未訓(xùn)練的語(yǔ)音信號(hào)所對(duì)應(yīng)的梅爾倒譜系數(shù)輸入已修正后的區(qū)分深度置信網(wǎng)絡(luò)，以獲取各個(gè)未訓(xùn)練的語(yǔ)音信號(hào)的梅爾倒譜系數(shù)所對(duì)應(yīng)的特征向量，同時(shí)利用該特征向量對(duì)前述已經(jīng)構(gòu)建好的高斯混合模型進(jìn)行修正。

具體的，在對(duì)高斯混合模型進(jìn)行修正時(shí)，可設(shè)各個(gè)未訓(xùn)練的語(yǔ)音信號(hào)分別t個(gè)修正特征向量：

同時(shí)，可各個(gè)修正特征向量分別對(duì)應(yīng)的似然比為：

{k1，k2,k3,...,kt}

最后，可通過(guò)公式：

對(duì)已經(jīng)構(gòu)建好的高斯混合模型進(jìn)行均值和方差修正，其中，li為各個(gè)特征向量或修正特征向量所對(duì)應(yīng)的權(quán)值。

不僅如此，考慮到無(wú)論是待驗(yàn)證語(yǔ)音信號(hào)還是注冊(cè)語(yǔ)音信號(hào)，在聯(lián)合區(qū)分深度置信網(wǎng)絡(luò)進(jìn)行對(duì)應(yīng)的梅爾倒譜系數(shù)矯正時(shí)，區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出直接影響到特征向量的精確性，為此，本實(shí)施例中增設(shè)了對(duì)區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出的質(zhì)量檢測(cè)步驟。

具體的，可通過(guò)公式：

校核區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出質(zhì)量。

具體的，可以類(lèi)間距離最大，類(lèi)內(nèi)距離最小為衡量標(biāo)準(zhǔn)，定義區(qū)分度d。設(shè)注冊(cè)語(yǔ)音信號(hào)有k個(gè)，以注冊(cè)語(yǔ)音信號(hào)n為例，該注冊(cè)語(yǔ)音信號(hào)擁有特征向量c個(gè)，每個(gè)特征向量對(duì)應(yīng)的權(quán)值為li，則注冊(cè)語(yǔ)音信號(hào)n特征向量的平均權(quán)值為：

定義矩陣s＝sb-sw，si為矩陣s中元素，其中，sb為類(lèi)內(nèi)離散度矩陣，sw是類(lèi)間離散度矩陣。如此，d越大，說(shuō)明隱含層所提取的特征分量質(zhì)量越好，反之則越小。若d的值大于預(yù)設(shè)閾值，則說(shuō)明隱層輸出質(zhì)量滿足預(yù)設(shè)要求。

如圖2所示，圖2為本發(fā)明所提供的一種具體實(shí)施方式的模塊圖。

本實(shí)施例還提供一種基于聲紋識(shí)別的智能鎖的語(yǔ)音識(shí)別系統(tǒng)，主要包括提取模塊1、矯正模塊2、計(jì)算模塊3和驗(yàn)證模塊4。其中，提取模塊1主要用于待驗(yàn)證語(yǔ)音信號(hào)對(duì)應(yīng)的梅爾倒譜系數(shù)。矯正模塊2主要用于將所述梅爾倒譜系數(shù)作為輸入層輸入具有預(yù)設(shè)參數(shù)空間的區(qū)分深度置信網(wǎng)絡(luò)，以獲得所述區(qū)分深度置信網(wǎng)絡(luò)的隱層輸出，并將其作為所述梅爾倒譜系數(shù)的特征向量。計(jì)算模塊3主要用于將所述特征向量與各個(gè)注冊(cè)語(yǔ)音信號(hào)預(yù)先構(gòu)建的高斯混合模型進(jìn)行對(duì)比，并計(jì)算所述特征向量分別與各個(gè)注冊(cè)語(yǔ)音信號(hào)相匹配的后驗(yàn)概率。驗(yàn)證模塊4主要用于判斷各所述后驗(yàn)概率中的最大值是否大于預(yù)設(shè)閾值，如果是，則待驗(yàn)證語(yǔ)音信號(hào)通過(guò)驗(yàn)證，并對(duì)鎖具12進(jìn)行開(kāi)鎖操作；反之則使鎖具12保持鎖定狀態(tài)。

該語(yǔ)音識(shí)別系統(tǒng)的語(yǔ)音識(shí)別方法與前述相關(guān)內(nèi)容相同，此處不再贅述。

另外，本實(shí)施例中還增設(shè)了注冊(cè)模塊5和訓(xùn)練模塊6。其中，注冊(cè)模塊5主要用于對(duì)智能鎖的注冊(cè)人進(jìn)行注冊(cè)語(yǔ)音錄入，而訓(xùn)練模塊6與注冊(cè)模塊5信號(hào)連接，主要用于對(duì)輸入的各個(gè)注冊(cè)語(yǔ)音信號(hào)構(gòu)建高斯混合模型。

如圖3和圖4所示，圖3為本發(fā)明所提供的一種具體實(shí)施方式的結(jié)構(gòu)圖，圖4為圖3的內(nèi)部結(jié)構(gòu)示意圖。

本實(shí)施例還提供一種基于聲紋識(shí)別的智能鎖，主要包括聲音采集器7、鎖具12、按鍵8、顯示屏9、語(yǔ)音提示器10、存儲(chǔ)器11、控制器13和語(yǔ)音識(shí)別系統(tǒng)。其中，語(yǔ)音識(shí)別系統(tǒng)與上述相關(guān)內(nèi)容相同，此處不再贅述。而聲音采集器7主要用于收集語(yǔ)音信號(hào)，鎖具12可為電磁鎖，而按鍵8主要用于供用戶輸入數(shù)字編號(hào)等，顯示屏9主要用于為用戶提供反饋信息，比如語(yǔ)音文本、編號(hào)重新輸入等，語(yǔ)音提示器10主要用于為用戶提供反饋信息，比如語(yǔ)音文本聲音信息等，存儲(chǔ)器11主要用于存儲(chǔ)注冊(cè)語(yǔ)音信號(hào)或待驗(yàn)證語(yǔ)音信號(hào)的梅爾倒譜系數(shù)所對(duì)應(yīng)的編號(hào)等，控制器13主要用于在識(shí)別系統(tǒng)的識(shí)別結(jié)果的控制下，控制鎖具12進(jìn)行解鎖操作或保持鎖定操作。

對(duì)所公開(kāi)的實(shí)施例的上述說(shuō)明，使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專(zhuān)業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的，本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下，在其它實(shí)施例中實(shí)現(xiàn)。因此，本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例，而是要符合與本文所公開(kāi)的原理和新穎特點(diǎn)相一致的最寬的范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王煒婷;溫坤華;朱慧廣;陳俊
技術(shù)所有人：廣東工業(yè)大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：智能語(yǔ)音交互方法及裝置與流程
上一篇：一種區(qū)域集中供能系統(tǒng)及方法與流程

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

聲紋識(shí)別和語(yǔ)音識(shí)別相關(guān)技術(shù)

智能聲紋相關(guān)技術(shù)

聲紋識(shí)別相關(guān)技術(shù)

聲紋識(shí)別技術(shù)相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于聲紋識(shí)別的智能鎖及其語(yǔ)音識(shí)別方法和系統(tǒng)與流程