專利名稱:聲紋密碼認證方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及密碼認證技術(shù)領(lǐng)域,特別涉及一種聲紋密碼認證方法及系統(tǒng)。
背景技術(shù):
聲紋識別(Voiaprint Recognition, VPR)也稱為說話人識別,有兩類,即說話人辨認和說話人確認。前者用以判斷某段語音是若干人中的哪一個所說的,是“多選一”問題; 而后者用以確認某段語音是否是指定的某個人所說的,是“一對一判別”問題。不同的任務(wù)和應(yīng)用會使用不同的聲紋識別技術(shù)。聲紋認證是指根據(jù)采集到的語音信號確認說話人身份,屬于“一對一”的判別問題?,F(xiàn)今主流的聲紋認證系統(tǒng)采用了基于假設(shè)檢驗的框架,通過分別計算聲紋信號相對于說話人聲紋模型以及背景模型的似然度并比較它們的似然比和預(yù)先根據(jù)經(jīng)驗設(shè)置的閾值大小來確認。顯然背景模型和說話人聲紋模型的精確度將直接影響到聲紋認證效果,在基于數(shù)據(jù)驅(qū)動的統(tǒng)計模型設(shè)定下訓練數(shù)據(jù)量越大則模型效果越好。聲紋密碼認證是一種文本相關(guān)的說話人身份認證方法。該方法要求用戶語音輸入確定密碼文本,并據(jù)此確認說話人身份。在該應(yīng)用中用戶注冊及身份認證均采用確定密碼文本的語音輸入,因而其聲紋往往較為一致,相應(yīng)的可取得相比于文本無關(guān)的說話人確認更好的認證效果。在聲紋密碼認證系統(tǒng)中,用戶以語音輸入信號替代傳統(tǒng)的字串密碼輸入,相應(yīng)的認證系統(tǒng)以說話人聲紋模型的形式保存用戶的聲紋密碼。現(xiàn)有的聲紋密碼認證系統(tǒng)大都是采用計算聲紋信號相對于說話人聲紋模型及背景模型的似然度,并比較其似然度比和預(yù)設(shè)的閾值大小來確認用戶身份。因此,背景模型和說話人聲紋模型的精確程度將直接影響到聲紋密碼認證的效果。在現(xiàn)有技術(shù)中,聲紋密碼認證系統(tǒng)普遍采用通用背景模型,用于模擬文本無關(guān)的用戶聲紋特性,具體是在采集的多說話人數(shù)據(jù)上以離線方式訓練得到單一的通用背景模型。這種通用背景模型雖然有較好的普適性,但模型描述不夠精確,區(qū)分度較低,在一定程度上影響了密碼認證的準確性。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種聲紋密碼認證方法及系統(tǒng),以提高基于聲紋密碼進行身份認證的準確率。一種聲紋密碼認證方法,包括接收登錄用戶錄入的語音信號;提取所述語音信號中的聲紋特征序列;對所述語音信號進行語音識別,獲得所述登錄用戶的密碼文本;如果獲得的密碼文本與對應(yīng)所述登錄用戶的注冊密碼文本不同,則確定所述登錄用戶為非認證用戶;
如果獲得的密碼文本與對應(yīng)所述登錄用戶的注冊密碼文本相同,則確定對應(yīng)所述登錄用戶的背景模型,所述背景模型包括與文本無關(guān)的通用背景模型、以及與文本相關(guān)的優(yōu)化背景模型;分別計算所述聲紋特征序列與對應(yīng)所述登錄用戶的說話人聲紋模型的似然度、以及所述聲紋特征序列與所述背景模型的似然度;根據(jù)所述聲紋特征序列與說話人聲紋模型的似然度、以及所述聲紋特征序列與背景模型的似然度,計算似然比;如果所述似然比大于設(shè)定的閾值,則確定所述登錄用戶為有效認證用戶,否則確定所述登錄用戶為非認證用戶。優(yōu)選地,所述確定對應(yīng)所述登錄用戶的背景模型包括如果有與所述登錄用戶的密碼文本對應(yīng)的優(yōu)化背景模型,則選擇該優(yōu)化背景模型作為對應(yīng)所述登錄用戶的背景模型;否則選擇所述通用背景模型作為對應(yīng)所述登錄用戶的背景模型。優(yōu)選地,所述方法還包括將登錄用戶錄入的語音信號或者從登錄用戶錄入的語音信號中提取的聲紋特征序列寫入與所述登錄用戶錄入的語音信號相應(yīng)的密碼文本對應(yīng)的緩存區(qū);接收注冊用戶錄入的注冊語音信號;對所述注冊語音信號進行語音識別,得到所述注冊用戶的注冊密碼文本;將所述注冊語音信號或者從所述注冊語音信號中提取的聲紋特征序列寫入與該注冊語音信號相應(yīng)的密碼文本對應(yīng)的緩存區(qū);根據(jù)所述注冊用戶錄入的注冊語音信號訓練對應(yīng)所述注冊用戶的說話人聲紋模型;實時根據(jù)每個緩存區(qū)中的數(shù)據(jù)構(gòu)建或更新與所述緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型。可選地,所述實時根據(jù)每個緩存區(qū)中的數(shù)據(jù)構(gòu)建或更新與所述緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型如果一個緩存區(qū)中存儲的數(shù)據(jù)量達到第一預(yù)設(shè)值,并且當前沒有與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型,則以所述通用背景模型為初始模型,根據(jù)該緩存區(qū)中的數(shù)據(jù)生成與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型,并刪除該緩存區(qū)中存儲的數(shù)據(jù);如果一個緩存區(qū)中存儲的數(shù)據(jù)量達到第一預(yù)設(shè)值,并且當前有與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型,則以該優(yōu)化背景模型為初始模型,根據(jù)該緩存區(qū)中的數(shù)據(jù)更新該優(yōu)化背景模型,并刪除該緩存區(qū)中存儲的數(shù)據(jù)??蛇x地,所述實時根據(jù)每個緩存區(qū)中的數(shù)據(jù)構(gòu)建或更新與所述緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型如果一個緩存區(qū)中存儲的數(shù)據(jù)量達到第二預(yù)設(shè)值的整數(shù)倍,則以所述通用背景模型為初始模型,根據(jù)該緩存區(qū)中的數(shù)據(jù)重新生成與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型。優(yōu)選地,所述注冊用戶錄入的注冊語音信號重復(fù)多次;所述對所述注冊語音信號進行語音識別,得到所述注冊用戶的注冊密碼文本包括分別對每次錄入的注冊語音信號進行語音識別,得到多個識別結(jié)果及與各識別結(jié)果對應(yīng)的識別似然度得分;選擇具有最高似然度得分的識別結(jié)果作為所述注冊用戶的注冊密碼文本。一種聲紋密碼認證系統(tǒng),包括接收單元,用于在用戶登錄時,接收登錄用戶錄入的語音信號;聲紋特征提取單元,用于提取所述語音信號中的聲紋特征序列;語音識別單元,用于對所述語音信號進行語音識別,獲得所述登錄用戶的密碼文本;判斷單元,用于判斷所述語音識別單元獲得的密碼文本與對應(yīng)所述登錄用戶的注冊密碼是否相同;認證結(jié)果單元,用于在所述判斷單元的判斷結(jié)果是所述語音識別單元獲得的密碼文本與對應(yīng)所述登錄用戶的注冊密碼文本不同時,確定所述登錄用戶為非認證用戶;模型確定單元,用于在所述判斷單元的判斷結(jié)果是所述語音識別單元獲得的密碼文本與所述登錄用戶的注冊密碼文本相同時,確定對應(yīng)所述登錄用戶的背景模型,所述背景模型包括與文本無關(guān)的通用背景模型、以及與文本相關(guān)的優(yōu)化背景模型;第一計算單元,用于分別計算所述聲紋特征序列與對應(yīng)所述登錄用戶的說話人聲紋模型的似然度、以及所述聲紋特征序列與所述模型確定單元確定的背景模型的似然度;第二計算單元,用于根據(jù)所述聲紋特征序列與說話人聲紋模型的似然度、以及所述聲紋特征序列與背景模型的似然度,計算似然比;所述判斷單元,還用于判斷所述第二計算單元計算得到的似然比是否大于設(shè)定的閾值;所述認證結(jié)果單元,還用于在所述判斷單元的判斷結(jié)果是所述第二計算單元計算得到的似然比大于設(shè)定的閾值時,確定所述登錄用戶為有效認證用戶,否則確定所述登錄用戶為非認證用戶。優(yōu)選地,所述系統(tǒng)還包括檢查單元,用于檢查是否存在與所述登錄用戶的注冊密碼文本對應(yīng)的優(yōu)化背景模型;所述模型確定單元,具體用于在所述檢查單元的檢查結(jié)果是有與所述登錄用戶的注冊密碼文本對應(yīng)的優(yōu)化背景模型時,選擇該優(yōu)化背景模型作為對應(yīng)所述登錄用戶的背景模型;否則選擇所述通用背景模型作為對應(yīng)所述登錄用戶的背景模型。優(yōu)選地,所述語音識別單元,還用于將登錄用戶錄入的語音信號或者從登錄用戶錄入的語音信號中提取的聲紋特征序列寫入與所述登錄用戶錄入的語音信號相應(yīng)的密碼文本對應(yīng)的緩存區(qū);所述接收單元,還用于接收注冊用戶錄入的注冊語音信號;所述語音識別單元,還用于對所述注冊語音信號進行語音識別,得到所述注冊用戶的注冊密碼文本;所述系統(tǒng)還包括說話人聲紋模型構(gòu)建單元,用于根據(jù)所述注冊用戶錄入的注冊語音信號訓練對應(yīng)所述注冊用戶的說話人聲紋模型;背景模型構(gòu)建單元,用于實時根據(jù)每個緩存區(qū)中的數(shù)據(jù)構(gòu)建或更新與所述緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型??蛇x地,所述背景模型構(gòu)建單元,具體用于在一個緩存區(qū)中存儲的數(shù)據(jù)量達到第一預(yù)設(shè)值,并且當前沒有與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型時,以所述通用背景模型為初始模型,根據(jù)該緩存區(qū)中的數(shù)據(jù)生成與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型,并刪除該緩存區(qū)中存儲的數(shù)據(jù);在一個緩存區(qū)中存儲的數(shù)據(jù)量達到第一預(yù)設(shè)值,并且當前有與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型時,以該優(yōu)化背景模型為初始模型, 根據(jù)該緩存區(qū)中的數(shù)據(jù)更新該優(yōu)化背景模型,并刪除該緩存區(qū)中存儲的數(shù)據(jù)。可選地,所述背景模型構(gòu)建單元,具體用于在一個緩存區(qū)中存儲的數(shù)據(jù)量達到第二預(yù)設(shè)值的整數(shù)倍,則以所述通用背景模型為初始模型,根據(jù)該緩存區(qū)中的數(shù)據(jù)重新生成與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型。優(yōu)選地,所述注冊用戶錄入的注冊語音信號重復(fù)多次;所述語音識別單元分別對每次錄入的注冊語音信號進行語音識別,得到多個識別結(jié)果及與各識別結(jié)果對應(yīng)的識別似然度得分;所述系統(tǒng)還包括密碼確定單元,用于從所述語音識別單元得到的多個識別結(jié)果中選擇選擇具有最高似然度得分的識別結(jié)果作為所述注冊用戶的注冊密碼文本。本發(fā)明實施例提供的聲紋密碼認證方法及系統(tǒng),在進行用戶身份識別時,不僅對用戶登錄時錄入的語音信號進行語音識別,確定其密碼內(nèi)容,而且對其進行聲紋認證,在進行聲紋認證時,基于多背景模型,即與文本無關(guān)的通用背景模型及與文本相關(guān)的優(yōu)化背景模型,通過選擇合適的背景模型實現(xiàn)精確匹配,有效地提高了基于聲紋密碼進行身份認證的準確率。
為了更清楚地說明本發(fā)明實施的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實施例聲紋密碼認證方法的流程圖;圖2是本發(fā)明實施例中與文本無關(guān)的通用背景模型的構(gòu)建流程圖;圖3是本發(fā)明實施例中構(gòu)建與文本相關(guān)的優(yōu)化背景模型的一種流程圖;圖4是本發(fā)明實施例中對注冊用戶錄入的注冊語音信號進行語音識別的流程圖;圖5是本發(fā)明實施例聲紋密碼認證系統(tǒng)的一種結(jié)構(gòu)示意圖;圖6是本發(fā)明實施例聲紋密碼認證系統(tǒng)的另一種結(jié)構(gòu)示意圖;圖7是本發(fā)明實施例聲紋密碼認證系統(tǒng)的另一種結(jié)構(gòu)示意圖。
具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。如圖1所示,是本發(fā)明實施例聲紋密碼認證方法的流程圖,包括以下步驟步驟101,接收登錄用戶錄入的語音信號。步驟102,提取所述語音信號中的聲紋特征序列。所述聲紋特征序列包含一組聲紋特征,可以有效地區(qū)分不同的說話人,且對同一說話人的變化保持相對穩(wěn)定。比如,所述聲紋特征主要有譜包絡(luò)參數(shù)語音特征,基音輪廓、共振峰頻率帶寬特征,線性預(yù)測系數(shù),倒譜系數(shù)等??紤]到上述聲紋特征的可量化性、訓練樣本的數(shù)量和系統(tǒng)性能的評價等問題,可以選用MFCC(Mel Frequency Cepstrum Coefficient,Mel頻率倒譜系數(shù))特征,對窗長25ms幀移IOms的每幀語音數(shù)據(jù)做短時分析得到MFCC參數(shù)及其一階二階差分,共計39維。這樣,每句語音信號可以量化為一個39維聲紋特征序列X。步驟103,對所述語音信號進行語音識別,獲得登錄用戶的密碼文本。具體的語音識別的處理方式可以采用一些現(xiàn)有的方式,在此不再詳細說明。步驟104,判斷獲得的密碼文本與當前登錄用戶的注冊密碼文本是否相同;如果是,則執(zhí)行步驟105 ;否則,執(zhí)行步驟110。步驟105,確定對應(yīng)所述登錄用戶的背景模型。其中,說話人聲紋模型用于模擬已注冊用戶在確定密碼文本上的發(fā)音特點,背景模型用于模擬多說話人的發(fā)音共性。在本發(fā)明實施例中,說話人聲紋模型可以在用戶注冊時根據(jù)用戶錄入的注冊語音信號構(gòu)建,具體可以采用現(xiàn)有技術(shù)中的一些構(gòu)建方式。背景模型的構(gòu)建可以綜合采用兩種方式分別構(gòu)建與文本無關(guān)的通用背景模型和與文本相關(guān)的優(yōu)化背景模型,其中,與文本無關(guān)的通用背景模型可以通過預(yù)先采集的多說話人數(shù)據(jù)以離線方式訓練得到,具體的訓練過程可以參照現(xiàn)有技術(shù)中的一些處理方式,對此本發(fā)明實施例不做限定;與文本相關(guān)的優(yōu)化背景模型可以根據(jù)記錄的用戶注冊和登錄時錄入的語音信號中提取的聲紋特征序列以在線方式訓練得到。相應(yīng)地,在本步驟中,可以根據(jù)需要,有多種不同的方式來選擇對應(yīng)所述登錄用戶的背景模型,對此將在后面詳細說明。步驟106,分別計算所述聲紋特征序列與對應(yīng)所述登錄用戶的說話人聲紋模型的似然度、以及所述聲紋特征序列與所述背景模型的似然度。上述說話人聲紋模型可以在用戶注冊時根據(jù)注冊語音信號在線訓練得到。比如, 以通用背景模型為初始模型通過各種自適應(yīng)方法根據(jù)少量說話人數(shù)據(jù)調(diào)整模型部分參數(shù), 如目前最為常用的基于最大后驗概率(Maximum A Posterior, MAP)的自適應(yīng)算法等,將用戶聲紋共性自適應(yīng)為當前說話人個性。當然,還可以采用其他方式訓練得到說話人聲紋模型,對此本發(fā)明實施例不做限定。假設(shè)得到幀數(shù)為T的聲紋特征序列X,則其相應(yīng)于背景模型的似然度為
ι T Mp(X|UBM) = -X XcmN(Xt;//m,Em)(1)
1 t 二1 m 二1
其中,Cm是第m個高斯的加權(quán)系數(shù),滿足Σ Cm = 1。μ m以及Σ m分別是第m個高斯
m=l
的均值和方差。其中N(.)滿足正態(tài)分布,用于計算t時刻的聲紋特征矢量Xt在單高斯分量上的似然度
權(quán)利要求
1.一種聲紋密碼認證方法,其特征在于,包括 接收登錄用戶錄入的語音信號;提取所述語音信號中的聲紋特征序列; 對所述語音信號進行語音識別,獲得所述登錄用戶的密碼文本; 如果獲得的密碼文本與對應(yīng)所述登錄用戶的注冊密碼文本不同,則確定所述登錄用戶為非認證用戶;如果獲得的密碼文本與對應(yīng)所述登錄用戶的注冊密碼文本相同, 則確定對應(yīng)所述登錄用戶的背景模型,所述背景模型包括與文本無關(guān)的通用背景模型、以及與文本相關(guān)的優(yōu)化背景模型;分別計算所述聲紋特征序列與對應(yīng)所述登錄用戶的說話人聲紋模型的似然度、以及所述聲紋特征序列與所述背景模型的似然度;根據(jù)所述聲紋特征序列與說話人聲紋模型的似然度、以及所述聲紋特征序列與背景模型的似然度,計算似然比;如果所述似然比大于設(shè)定的閾值,則確定所述登錄用戶為有效認證用戶,否則確定所述登錄用戶為非認證用戶。
2.如權(quán)利要求1所述的方法,其特征在于,所述確定對應(yīng)所述登錄用戶的背景模型包括如果有與所述登錄用戶的密碼文本對應(yīng)的優(yōu)化背景模型,則選擇該優(yōu)化背景模型作為對應(yīng)所述登錄用戶的背景模型;否則選擇所述通用背景模型作為對應(yīng)所述登錄用戶的背景模型。
3.如權(quán)利要求1所述的方法,其特征在于,所述方法還包括將登錄用戶錄入的語音信號或者從登錄用戶錄入的語音信號中提取的聲紋特征序列寫入與所述登錄用戶錄入的語音信號相應(yīng)的密碼文本對應(yīng)的緩存區(qū); 接收注冊用戶錄入的注冊語音信號;對所述注冊語音信號進行語音識別,得到所述注冊用戶的注冊密碼文本; 將所述注冊語音信號或者從所述注冊語音信號中提取的聲紋特征序列寫入與該注冊語音信號相應(yīng)的密碼文本對應(yīng)的緩存區(qū);根據(jù)所述注冊用戶錄入的注冊語音信號訓練對應(yīng)所述注冊用戶的說話人聲紋模型; 實時根據(jù)每個緩存區(qū)中的數(shù)據(jù)構(gòu)建或更新與所述緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型。
4.如權(quán)利要求3所述的方法,其特征在于,所述實時根據(jù)每個緩存區(qū)中的數(shù)據(jù)構(gòu)建或更新與所述緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型如果一個緩存區(qū)中存儲的數(shù)據(jù)量達到第一預(yù)設(shè)值,并且當前沒有與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型,則以所述通用背景模型為初始模型,根據(jù)該緩存區(qū)中的數(shù)據(jù)生成與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型,并刪除該緩存區(qū)中存儲的數(shù)據(jù);如果一個緩存區(qū)中存儲的數(shù)據(jù)量達到第一預(yù)設(shè)值,并且當前有與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型,則以該優(yōu)化背景模型為初始模型,根據(jù)該緩存區(qū)中的數(shù)據(jù)更新該優(yōu)化背景模型,并刪除該緩存區(qū)中存儲的數(shù)據(jù)。
5.如權(quán)利要求3所述的方法,其特征在于,所述實時根據(jù)每個緩存區(qū)中的數(shù)據(jù)構(gòu)建或更新與所述緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型如果一個緩存區(qū)中存儲的數(shù)據(jù)量達到第二預(yù)設(shè)值的整數(shù)倍,則以所述通用背景模型為初始模型,根據(jù)該緩存區(qū)中的數(shù)據(jù)重新生成與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型。
6.如權(quán)利要求3至5任一項所述的方法,其特征在于,所述注冊用戶錄入的注冊語音信號重復(fù)多次;所述對所述注冊語音信號進行語音識別,得到所述注冊用戶的注冊密碼文本包括 分別對每次錄入的注冊語音信號進行語音識別,得到多個識別結(jié)果及與各識別結(jié)果對應(yīng)的識別似然度得分;選擇具有最高似然度得分的識別結(jié)果作為所述注冊用戶的注冊密碼文本。
7.一種聲紋密碼認證系統(tǒng),其特征在于,包括接收單元,用于在用戶登錄時,接收登錄用戶錄入的語音信號; 聲紋特征提取單元,用于提取所述語音信號中的聲紋特征序列; 語音識別單元,用于對所述語音信號進行語音識別,獲得所述登錄用戶的密碼文本; 判斷單元,用于判斷所述語音識別單元獲得的密碼文本與對應(yīng)所述登錄用戶的注冊密碼是否相同;認證結(jié)果單元,用于在所述判斷單元的判斷結(jié)果是所述語音識別單元獲得的密碼文本與對應(yīng)所述登錄用戶的注冊密碼文本不同時,確定所述登錄用戶為非認證用戶;模型確定單元,用于在所述判斷單元的判斷結(jié)果是所述語音識別單元獲得的密碼文本與所述登錄用戶的注冊密碼文本相同時,確定對應(yīng)所述登錄用戶的背景模型,所述背景模型包括與文本無關(guān)的通用背景模型、以及與文本相關(guān)的優(yōu)化背景模型;第一計算單元,用于分別計算所述聲紋特征序列與對應(yīng)所述登錄用戶的說話人聲紋模型的似然度、以及所述聲紋特征序列與所述模型確定單元確定的背景模型的似然度;第二計算單元,用于根據(jù)所述聲紋特征序列與說話人聲紋模型的似然度、以及所述聲紋特征序列與背景模型的似然度,計算似然比;所述判斷單元,還用于判斷所述第二計算單元計算得到的似然比是否大于設(shè)定的閾值;所述認證結(jié)果單元,還用于在所述判斷單元的判斷結(jié)果是所述第二計算單元計算得到的似然比大于設(shè)定的閾值時,確定所述登錄用戶為有效認證用戶,否則確定所述登錄用戶為非認證用戶。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括檢查單元,用于檢查是否存在與所述登錄用戶的注冊密碼文本對應(yīng)的優(yōu)化背景模型; 所述模型確定單元,具體用于在所述檢查單元的檢查結(jié)果是有與所述登錄用戶的注冊密碼文本對應(yīng)的優(yōu)化背景模型時,選擇該優(yōu)化背景模型作為對應(yīng)所述登錄用戶的背景模型;否則選擇所述通用背景模型作為對應(yīng)所述登錄用戶的背景模型。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于,所述語音識別單元,還用于將登錄用戶錄入的語音信號或者從登錄用戶錄入的語音信號中提取的聲紋特征序列寫入與所述登錄用戶錄入的語音信號相應(yīng)的密碼文本對應(yīng)的緩存區(qū);所述接收單元,還用于接收注冊用戶錄入的注冊語音信號;所述語音識別單元,還用于對所述注冊語音信號進行語音識別,得到所述注冊用戶的注冊密碼文本;所述系統(tǒng)還包括說話人聲紋模型構(gòu)建單元,用于根據(jù)所述注冊用戶錄入的注冊語音信號訓練對應(yīng)所述注冊用戶的說話人聲紋模型;背景模型構(gòu)建單元,用于實時根據(jù)每個緩存區(qū)中的數(shù)據(jù)構(gòu)建或更新與所述緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述背景模型構(gòu)建單元,具體用于在一個緩存區(qū)中存儲的數(shù)據(jù)量達到第一預(yù)設(shè)值,并且當前沒有與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型時,以所述通用背景模型為初始模型,根據(jù)該緩存區(qū)中的數(shù)據(jù)生成與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型,并刪除該緩存區(qū)中存儲的數(shù)據(jù);在一個緩存區(qū)中存儲的數(shù)據(jù)量達到第一預(yù)設(shè)值,并且當前有與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型時,以該優(yōu)化背景模型為初始模型,根據(jù)該緩存區(qū)中的數(shù)據(jù)更新該優(yōu)化背景模型,并刪除該緩存區(qū)中存儲的數(shù)據(jù)。
11.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述背景模型構(gòu)建單元,具體用于在一個緩存區(qū)中存儲的數(shù)據(jù)量達到第二預(yù)設(shè)值的整數(shù)倍,則以所述通用背景模型為初始模型,根據(jù)該緩存區(qū)中的數(shù)據(jù)重新生成與該緩存區(qū)對應(yīng)密碼文本相關(guān)的優(yōu)化背景模型。
12.如權(quán)利要求9至11任一項所述的系統(tǒng),其特征在于,所述注冊用戶錄入的注冊語音信號重復(fù)多次;所述語音識別單元分別對每次錄入的注冊語音信號進行語音識別,得到多個識別結(jié)果及與各識別結(jié)果對應(yīng)的識別似然度得分;所述系統(tǒng)還包括密碼確定單元,用于從所述語音識別單元得到的多個識別結(jié)果中選擇選擇具有最高似然度得分的識別結(jié)果作為所述注冊用戶的注冊密碼文本。
全文摘要
本發(fā)明公開了一種聲紋密碼認證方法及系統(tǒng),該方法包括接收登錄用戶錄入的語音信號;提取所述語音信號中的聲紋特征序列;對所述語音信號進行語音識別,獲得所述登錄用戶的密碼內(nèi)容;如果獲得的密碼內(nèi)容與對應(yīng)所述登錄用戶的注冊密碼文本不同,則確定所述登錄用戶為非認證用戶;否則,分別計算所述聲紋特征序列與對應(yīng)所述登錄用戶的說話人聲紋模型和為所述登錄用戶選擇的背景模型的似然度,背景模型包括與文本無關(guān)的通用背景模型、以及與文本相關(guān)的優(yōu)化背景模型;根據(jù)得到的似然度,計算似然比;如果所述似然比大于設(shè)定的閾值,則確定所述登錄用戶為有效認證用戶,否則確定所述登錄用戶為非認證用戶。本發(fā)明可以提高聲紋密碼認證的準確率。
文檔編號H04L9/32GK102238189SQ20111021804
公開日2011年11月9日 申請日期2011年8月1日 優(yōu)先權(quán)日2011年8月1日
發(fā)明者何婷婷, 劉慶峰, 王智國, 胡國平, 胡郁 申請人:安徽科大訊飛信息科技股份有限公司