專利名稱:用于遠(yuǎn)程訪問自動(dòng)語(yǔ)音/說話人識(shí)別的服務(wù)器的便攜式聲接口的制作方法
此申請(qǐng)涉及名為“使用非聲學(xué)與/或聲學(xué)模型和數(shù)據(jù)庫(kù)進(jìn)行說話人確認(rèn)/識(shí)別/分類的裝置和方法”的申請(qǐng)(08/871784),它與本申請(qǐng)共同轉(zhuǎn)讓,并同時(shí)提出申請(qǐng)。
本發(fā)明涉及自動(dòng)語(yǔ)音/說話人識(shí)別(ASSR),特別是用一個(gè)便攜式聲學(xué)耦合器或接口,在諸如電話線的通訊信道上遠(yuǎn)程訪問一個(gè)ASSR服務(wù)器的一種ASSR技術(shù)。
2.相關(guān)的現(xiàn)有技術(shù)的討論在典型的客戶/服務(wù)器或用戶/提供服務(wù)方系統(tǒng)中,中心服務(wù)器或提供服務(wù)方中的資源可被多個(gè)客戶或用戶訪問,因此要采用某種形式的客戶/用戶鑒別技術(shù)以證實(shí)該客戶/用戶是系統(tǒng)的合法使用者。在許多這樣的系統(tǒng)中,諸如PIN,關(guān)鍵詞,或口令這樣的鑒別碼是通過鍵入鑒別碼或以文本方式傳送給操作者的的方式來傳送的。在某些系統(tǒng)中,鑒別碼以聲音的方式來傳送,即,鑒別碼是讀入服務(wù)器的。服務(wù)器(在此情況下是ASSR服務(wù)器)識(shí)別語(yǔ)音的發(fā)音,并與存儲(chǔ)的合法聲音鑒別碼相比較以鑒別使用者是合法的客戶。
在ASSR服務(wù)器/客戶系統(tǒng)中,如果一個(gè)客戶能夠通過聲音在諸如電話線這樣的通訊信道的傳輸來遠(yuǎn)程傳送其鑒別碼將會(huì)非常方便,使任何用戶在有電話線的地方就可以訪問服務(wù)器。電話線可以是有線電話線路或無線電話線路。在無線電話的情況下,訪問服務(wù)器是完全便攜的,也就是說,無論何時(shí)何地,只要有一部無線電話和無線連接就可以訪問。
與如上所述的電話傳送的ASSR系統(tǒng)有關(guān)的操作上的困難包括(1)當(dāng)聲音數(shù)據(jù)通過電話線傳送時(shí),由于聲音數(shù)據(jù)的衰減而造成的精度的降低;(2)用戶端變化的背景噪聲特性,這種特性依賴于用戶呼叫時(shí)所用電話的位置,比如,當(dāng)呼叫者正使用街道上的電話或在駕駛的汽車上呼叫,等等。這些情況導(dǎo)致數(shù)據(jù)或信號(hào)的完整性的降低,并進(jìn)一步導(dǎo)致在語(yǔ)音/說話人識(shí)別中精度的嚴(yán)重下降。
如果在信號(hào)通過電話線被傳送到服務(wù)器之前在用戶端進(jìn)行語(yǔ)音信號(hào)預(yù)處理(SSP),數(shù)據(jù)丟失與識(shí)別精度下降的問題可以被減弱或消除。SSP包括表征傳送裝置、環(huán)境、說話人以及通訊信道的聲學(xué)特征。SSP的信息被ASSR服務(wù)器處理以設(shè)置基準(zhǔn),選擇適當(dāng)?shù)慕獯a模型和算法來識(shí)別說話人,或者通過對(duì)信道傳遞函數(shù)和背景噪聲的建模來對(duì)語(yǔ)音解碼,從而減少語(yǔ)音的誤識(shí)別率,或精確地完成說話人識(shí)別的任務(wù)。但是,為了在用戶端執(zhí)行SSP的任務(wù),需要SSP設(shè)備,它包括配有SSP軟件的一臺(tái)計(jì)算機(jī)。在當(dāng)前的標(biāo)準(zhǔn)電話或網(wǎng)絡(luò)計(jì)算機(jī)(NC)中,都不具備這種SSP能力。
因此,需要有一種便攜式的SSP設(shè)備,這種設(shè)備體積小,重量輕便于攜帶,可以與任何電話或數(shù)據(jù)通訊裝置相連接,并且具有當(dāng)經(jīng)由通訊線路訪問ASSR服務(wù)器,以及與服務(wù)器交互的整個(gè)過程中,易于精確地識(shí)別說話人的能力,以及在便攜式SSP裝置和ASSR服務(wù)器之間進(jìn)行精確的語(yǔ)音識(shí)別通訊的能力。
發(fā)明概要本發(fā)明的示例性的實(shí)施方案包括一個(gè)便攜式SSP裝置,該SSP裝置包括一個(gè)用于把包括語(yǔ)音、無聲和背景噪聲的聲音信號(hào)轉(zhuǎn)換為模擬信號(hào)的麥克風(fēng);一個(gè)用于把模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的模數(shù)轉(zhuǎn)換器;一個(gè)數(shù)字信號(hào)處理器(DSP),用于從數(shù)字信號(hào)產(chǎn)生表示語(yǔ)音的特征向量數(shù)據(jù)和表示無聲和背景噪聲信號(hào)的特征數(shù)據(jù);一個(gè)耦合器,用于與一個(gè)聲學(xué)或數(shù)據(jù)通訊裝置相連接,以便在通訊信道上傳送表示特征向量數(shù)據(jù)的信號(hào),從而通過遠(yuǎn)程的ASSR服務(wù)器對(duì)語(yǔ)音進(jìn)行識(shí)別。此耦合器最好是一種聲耦合器,可把特征向量數(shù)據(jù)轉(zhuǎn)換為聲信號(hào),在此情況下,通訊信道也是聲學(xué)意義上的信道,如電話線。另一方面,耦合器還包括適當(dāng)?shù)慕涌?,例如,連接器、端口及協(xié)議,用于與數(shù)字化的傳送裝置相連接,以在數(shù)據(jù)通訊信道上傳送。
便攜式SSP裝置最好包括一個(gè)給特征向量數(shù)據(jù)加密的加密裝置,以及一個(gè)用于壓縮特征向量數(shù)據(jù)的壓縮裝置。便攜式SSP裝置最好包括一個(gè)用于接收和處理從ASSR服務(wù)器返回的信號(hào)的裝置,以及把返回的信號(hào)轉(zhuǎn)換為數(shù)字化的返回信號(hào),以供DSP處理的裝置。在此優(yōu)選實(shí)施方案中,DSP還包括用于對(duì)數(shù)字化的返回信號(hào)進(jìn)行解壓的裝置以及對(duì)數(shù)字化的返回信號(hào)進(jìn)行解碼的裝置。
便攜式SSP裝置最好還包括一個(gè)使得易于對(duì)包括與說話人、無聲和背景噪聲有關(guān)的聲學(xué)特征的通訊信道的傳遞函數(shù)進(jìn)行估計(jì)的裝置;最好是它通過給連接在遠(yuǎn)程信道上的ASSR服務(wù)器發(fā)送一組估計(jì)值參考信號(hào)。便攜式SSP裝置包括用于存儲(chǔ)包括該裝置特有的加密密碼數(shù)據(jù)或鑒別數(shù)據(jù)的數(shù)據(jù)在內(nèi)的數(shù)據(jù)存儲(chǔ)器。
本發(fā)明的另一個(gè)示例性的實(shí)施方案包括一個(gè)ASSR系統(tǒng),該系統(tǒng)具有一個(gè)便攜式SSP裝置,該SSP裝置包括一個(gè)數(shù)字信號(hào)處理器(DSP),用于處理讀入麥克風(fēng)的數(shù)字化的語(yǔ)音并產(chǎn)生表示語(yǔ)音的特征向量數(shù)據(jù);一個(gè)耦合器,用于與連接于諸如電話線或數(shù)字通訊網(wǎng)絡(luò)的連接端的通訊信道的通訊裝置相連接,并將特征向量數(shù)據(jù)變換為信號(hào)以便在通訊信道上傳送;以及一個(gè)連接于通訊信道的自動(dòng)語(yǔ)音/說話人識(shí)別(ASSR)服務(wù)器,用以接收從便攜式SSP通過通訊信道傳送過來的信號(hào),并處理接收到的信號(hào),以便對(duì)語(yǔ)音進(jìn)行識(shí)別。
系統(tǒng)中的ASSR服務(wù)器包括預(yù)存儲(chǔ)的注冊(cè)或鑒別數(shù)據(jù)的模型。此模型是在用戶或客戶注冊(cè)時(shí)建立的。ASSR模型也存儲(chǔ)詞表和其他模型,例如語(yǔ)言模型與隱馬爾可夫模型(HMM),以用于語(yǔ)音識(shí)別。ASSR服務(wù)器處理從便攜式SSP裝置接收到的信號(hào),并將處理信號(hào)與存儲(chǔ)模型進(jìn)行比較。
更有利的是,由于具有遠(yuǎn)程說話人識(shí)別能力,按照本發(fā)明的示例性的實(shí)施方案的系統(tǒng)提供了遠(yuǎn)程智能卡或磁卡驅(qū)動(dòng)/關(guān)閉或者口令或PIN碼修改與重新生效的能力。
另外,按照本發(fā)明的示例性的實(shí)施方案的遠(yuǎn)程語(yǔ)音識(shí)別系統(tǒng)為ASSR提供了甚至在不利的信號(hào)傳送或嚴(yán)重信號(hào)畸變的通訊環(huán)境中低錯(cuò)誤率大詞匯量的語(yǔ)音識(shí)別能力。
附圖簡(jiǎn)述本發(fā)明的優(yōu)選實(shí)施方案將參考附圖在下面詳細(xì)描述,其中
圖1示意了按照本發(fā)明的一個(gè)優(yōu)選實(shí)施方案的便攜式語(yǔ)音識(shí)別裝置;圖2是按照本發(fā)明的另一個(gè)示例性實(shí)施方案,帶有圖1所示裝置的系統(tǒng)的方框圖;圖3是按照本發(fā)明的另一個(gè)示例性實(shí)施方案,帶有圖1所示裝置的另一個(gè)系統(tǒng)的方框圖;圖4示意了按照本發(fā)明的示例性實(shí)施方案的系統(tǒng)在智能卡PIN鑒別/重置系統(tǒng)中的應(yīng)用。
優(yōu)選實(shí)施方案的詳細(xì)描述圖1所示是按照本發(fā)明的示例性實(shí)施方案的便攜式語(yǔ)音信號(hào)預(yù)處理(SSP)裝置99的一個(gè)方框圖。麥克風(fēng)100用于接收包括使用者所說的語(yǔ)音,無聲及背景噪聲在內(nèi)的聲音,并把聲音轉(zhuǎn)換為模擬電信號(hào)。麥克風(fēng)100與模數(shù)轉(zhuǎn)換器110相連,該模數(shù)轉(zhuǎn)換器把來自麥克風(fēng)100的模擬電信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)以饋送給數(shù)字信號(hào)處理器(DSP)120來處理。DSP120最好包括一個(gè)處理器和相關(guān)的存儲(chǔ)器,以及預(yù)存的程序,用于處理數(shù)據(jù)并控制在便攜式SSP裝置99中的數(shù)據(jù)流。在本實(shí)施方案中,DSP120的功能包括把讀入麥克風(fēng)100的語(yǔ)音數(shù)據(jù)預(yù)處理為特征向量,處理無聲及背景噪聲數(shù)據(jù)以幫助建立或估計(jì)通訊信道的傳遞函數(shù),并執(zhí)行其他的ASSR功能,包括協(xié)調(diào)便攜式SSP裝置的數(shù)據(jù)傳送與接收,加密/解密,如果必要的話還有數(shù)據(jù)的壓縮/解壓。這些功能與通訊信道傳遞函數(shù)的估計(jì)在下面將進(jìn)一步描述。注意,對(duì)于上述的DSP功能或技術(shù),每個(gè)對(duì)技術(shù)有一般熟悉程度的人都是了解的,并且有多種市場(chǎng)上可以買到的DSP都可被用于執(zhí)行那些功能。例如,由德州儀器公司制造的TMS32010模塊,由日本電子公司制造的UPD77720都適用于上述應(yīng)用。
由DSP120處理后的數(shù)據(jù)被輸出到聲學(xué)耦合器150上,在其間數(shù)字信號(hào)被轉(zhuǎn)換為音頻信號(hào)。因此,從聲耦合器來的音頻信號(hào)可以被播放或讀入諸如一個(gè)標(biāo)準(zhǔn)電話聽筒這類音頻通訊裝置,用于在一個(gè)諸如電話線的音頻通訊信道上傳輸。按照這個(gè)優(yōu)選實(shí)施方案,聲耦合器150包括一個(gè)把數(shù)字信號(hào)轉(zhuǎn)換為音頻信號(hào)的變換器和一個(gè)適用于與接收器或標(biāo)準(zhǔn)電話聽筒的相連接的耦合器。例如,聲耦合器的連接部分最好用柔性材料制作,如橡膠,柔性材料可以使聲耦合器與標(biāo)準(zhǔn)電話配置的送話口牢固地相連或相配合,以便使便攜式SSP裝置99與標(biāo)準(zhǔn)電話設(shè)備可容易地連接或分離,無論用戶在哪里,都使得便攜裝置從一部電話到另一部電話的攜帶和移動(dòng)更為容易。便攜式裝置最好用電池自行供電??梢钥闯?,便攜裝置的基本組件包括麥克風(fēng),模數(shù)轉(zhuǎn)換器,DSP,耦合器與電池,它體積小而重量輕。便攜裝置可以是手持式的,或者用戶可以像袋裝計(jì)算器或皮夾一樣把它裝在口袋里。
再參考圖1,加密裝置130和壓縮裝置140是便攜式ASSR裝置99的可選擇組件。加密裝置130,可以是連接于DSP120的分立式芯片或模塊,也可以是DSP120的一個(gè)組成程序,它用預(yù)先建立的密鑰對(duì)DSP120預(yù)處理后的數(shù)據(jù)加密,用以提供在電話線上信號(hào)的保密處理。密鑰可能是與用戶有關(guān)的密碼。DSP120最好在特征向量流中加入已知的信號(hào),用于ASSR服務(wù)器200的處理。如果這個(gè)信號(hào)對(duì)于ASSR服務(wù)器200是已知的,而且是所期望的,附加信號(hào)就可被輕易地抽取出來,并且從服務(wù)器到客戶的逆過程更為簡(jiǎn)單。例如,在無線通訊中,可使用信號(hào)的擴(kuò)展譜調(diào)制。多種其他已知的加密技術(shù)或算法都可被用于加密/解密過程。例如,參考1996年Wiley出版的Bruce Schenier的《應(yīng)用密碼學(xué)》第二版中描述的加密算法。
壓縮裝置140是DSP120的可選擇組件,它有可能是DSP120外部的組件或芯片,也有可能作為DSP120的一個(gè)預(yù)存儲(chǔ)程序功能被包含在DSP120中。壓縮裝置140對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行壓縮,無論這些數(shù)據(jù)是加密的,還是未加密的,壓縮完后再在電話線上的傳輸,其目的是在給定的電話線的低帶寬條件下,增加所傳輸?shù)挠梢纛l信號(hào)所攜帶的數(shù)據(jù)量。信號(hào)壓縮技術(shù)也是眾所周知的。壓縮裝置140最好執(zhí)行無損壓縮。
來自麥克風(fēng)100的數(shù)字化信號(hào)的預(yù)處理包括產(chǎn)生表征被讀入麥克風(fēng)100的語(yǔ)音模式的向量序列的已有技術(shù)。例如,專利號(hào)為5,544,277的美國(guó)專利就描述了這樣一類預(yù)處理技術(shù)。專利號(hào)為5,544,277的美國(guó)專利的公布在此包含作為參考。另外,DSP120處理無聲和背景噪聲數(shù)據(jù)以產(chǎn)生環(huán)境數(shù)據(jù)并通過電話線把這些數(shù)據(jù)饋送給一個(gè)ASSR服務(wù)器來處理。ASSR服務(wù)器最好被安排在一個(gè)中心位置,并與電話線或一個(gè)數(shù)字網(wǎng)絡(luò)相連接以便通過任意電話或聯(lián)網(wǎng)的工作站進(jìn)行方便的訪問。
按照本發(fā)明的另一個(gè)優(yōu)選實(shí)施方案,DSP120協(xié)調(diào)從ASSR服務(wù)器經(jīng)通訊線路到便攜式SSP裝置99的音頻數(shù)據(jù)的接收。從ASSR服務(wù)器過來的音頻數(shù)據(jù)包括詢問進(jìn)一步信息的提白或用戶指令。在這個(gè)示例性實(shí)施方案中,聲耦合器150包括一個(gè)接收器,這個(gè)接收器在形狀和大小上都非常像用于與電話機(jī)的聽筒相連的聲耦合器的發(fā)送器。另一個(gè)擴(kuò)音器可能與聽筒或耦合器接在一起來播放收到的消息。DSP120包括可選擇的預(yù)存儲(chǔ)程序功能,如果加密和壓縮過的數(shù)據(jù)從ASSR服務(wù)器傳過來的話,能夠?qū)邮盏降臄?shù)據(jù)解壓和解密。聲耦合器150的接收器部分把從電話的聽筒中接收過來的音頻信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)用于DSP120的處理。
一個(gè)利用本發(fā)明的便攜式SSP裝置的系統(tǒng)在圖2中說明。ASSR服務(wù)器200最好位于遠(yuǎn)離便攜式SSP裝置99的中心的位置,并且是可通過電話線用電話訪問的。一旦建立了連接,即把便攜式SSP裝置99與ASSR服務(wù)器200連接起來了,一個(gè)語(yǔ)音/說話人識(shí)別系統(tǒng)就建立起來了。ASSR服務(wù)器與便攜式SSP裝置99進(jìn)行通訊從而通過讀取在用戶端的當(dāng)前無聲與背景噪聲,建立或估計(jì)通訊信道的傳遞函數(shù)。通訊信道的傳遞函數(shù)的估計(jì)技術(shù)也是眾所周知的。例如,請(qǐng)參閱Prentice Hall在1987年出版的B.C.Kuo的《自動(dòng)控制系統(tǒng)》,以及Mc Graw Hill在1988年出版的J.V.Candy的《信號(hào)處理現(xiàn)代方法》。下面,將描述按照本發(fā)明的一個(gè)示例性過程。DSP120在傳輸或通訊開始時(shí)產(chǎn)生不同的數(shù)據(jù)。這些不同的信號(hào)是具有已知特性的上升或下降的線形調(diào)頻脈沖,一系列等間隔的帶符號(hào)的音調(diào)與一個(gè)白噪聲信號(hào)。序列寬度與信號(hào)之間的間隔被很好地建立起來。便攜裝置99一接收到從服務(wù)器200過來的輸入音調(diào)信號(hào)就會(huì)產(chǎn)生。信號(hào)被產(chǎn)生兩次。一次從DSP120產(chǎn)生,一次從麥克風(fēng)100產(chǎn)生。服務(wù)器200接收到的聲音信號(hào)與預(yù)先建立的參考信號(hào)進(jìn)行比較并且信道與背景的傳遞函數(shù)被推斷出來,產(chǎn)生信道的特征(signature)。這個(gè)特征用于對(duì)語(yǔ)音特征向量的解卷積。ASSR服務(wù)器最好包括用于語(yǔ)音或說話人識(shí)別的ASSR預(yù)存程序。例如,如果聲學(xué)特征處于相應(yīng)的狀態(tài),代表lefemes的隱馬爾可夫模型(HMM)被用于描述觀察到的聲學(xué)特征的概率,并以最優(yōu)路徑來識(shí)別語(yǔ)音的發(fā)音。概率可以通過這樣的方式來被訓(xùn)練,即用錄制好的訓(xùn)練語(yǔ)音來與HMM匹配并由此更新概率。例如,專利號(hào)為5031217和5276766的美國(guó)專利描述了使用HMM和其他模型的語(yǔ)音識(shí)別技術(shù)。這里這些公開的專利被包括在內(nèi)作為參考。按照本發(fā)明的示例性實(shí)施方案的ASSR服務(wù)器刻畫了用戶端的無聲和背景噪聲的特性。在用戶無聲期間或在如上所述的DSP120發(fā)送參考信號(hào)期間,它最好能考慮在連接開始時(shí)的背景噪聲的存在。背景噪聲由麥克風(fēng)100所檢測(cè),由DSP120處理并在參考信號(hào)的第二部分之后發(fā)送。ASSR服務(wù)器200用這些信息來推斷背景噪聲并由此修改對(duì)接收到的輸入向量的處理(例如,通過平均倒譜減法,解卷積,等)。另一方面,針對(duì)這種情況訓(xùn)練好的語(yǔ)音或說話人識(shí)別預(yù)存模型被啟用。類似地,無聲的時(shí)間段也被檢測(cè),并且與句子之間和用戶說話之前的無聲部分相聯(lián)系的聲音特征優(yōu)選被用來估計(jì)背景噪聲。
更為有利的是,本發(fā)明的示例性實(shí)施方案中的ASSR系統(tǒng)同時(shí)完成說話人與語(yǔ)音識(shí)別的功能。說話人識(shí)別可被用于遠(yuǎn)程訪問ASSR服務(wù)器。最好,本發(fā)明的示例性ASSR系統(tǒng)以后臺(tái)任務(wù)方式基本上連續(xù)地處理通訊數(shù)據(jù),以便確認(rèn)在一個(gè)對(duì)話過程中說話人的存在。
到目前為止,按照本發(fā)明的ASSR裝置和系統(tǒng)在圖示的說明中,通訊裝置為一部電話,通訊信道為一條電話線,并且ASSR服務(wù)器與電話線相連接。通訊信道由一條數(shù)字通訊信道組成,如因特網(wǎng)(Internet),企業(yè)內(nèi)部網(wǎng)(Intranet)或局域網(wǎng)也在本發(fā)明的構(gòu)想內(nèi)。因而,ASSR服務(wù)器200可通過電話或數(shù)字網(wǎng)絡(luò)來訪問。圖3說明了帶有一臺(tái)多媒體計(jì)算機(jī)160的作為與服務(wù)器200接口的便攜裝置99。在這個(gè)實(shí)施方案中,電話的聽筒被包括一個(gè)麥克風(fēng)和一個(gè)揚(yáng)聲器的多媒體計(jì)算機(jī)160所替代。聲耦合器150的接收部分被安置在計(jì)算機(jī)揚(yáng)聲器的附近位置,聲耦合器150的傳送部分被安置在計(jì)算機(jī)麥克風(fēng)的相近位置。計(jì)算機(jī)160包括一個(gè)調(diào)制解調(diào)器,用于通過電話線傳輸數(shù)據(jù)或通過一個(gè)因特網(wǎng)服務(wù)器300與服務(wù)器200相連接。如果因特網(wǎng)服務(wù)器300像服務(wù)器200一樣包括ASSR能力,可以在計(jì)算機(jī)160和因特網(wǎng)服務(wù)器300之間建立一個(gè)ASSR系統(tǒng)或連接。在本實(shí)施方案中,多媒體計(jì)算機(jī)用作為音頻通訊裝置。
另一方面,便攜式SSP裝置99可以通過一個(gè)連接器連接到計(jì)算機(jī)上的一個(gè)或多個(gè)I/O端口。在這樣的實(shí)施方案中,聲耦合器150可以省去,因?yàn)閺腄SP120過來的數(shù)據(jù)可被直接送到計(jì)算機(jī)的處理器中。按照本發(fā)明的的另一個(gè)實(shí)施方案,多媒體計(jì)算機(jī)160可以是一臺(tái)將上述便攜式SSP裝置99的各組件內(nèi)置的便攜式膝上型多媒體計(jì)算機(jī)。因此便攜式膝上型多媒體計(jì)算機(jī)能夠執(zhí)行所有由便攜式SSP裝置99執(zhí)行的功能。便攜式膝上型計(jì)算機(jī)可以通過一個(gè)調(diào)制解調(diào)器或通過因特網(wǎng)服務(wù)器300與ASSR服務(wù)器直接相連,這種連接,例如,可通過諸如TCP/IP,NET BUI等協(xié)議來完成。
仍按照本發(fā)明的另一個(gè)實(shí)施方案,便攜式SSP裝置99的功能和組件可以內(nèi)置于一部便攜式電話。這樣,便攜式SSP電話包括DSP120,并且與ASSR服務(wù)器200的連接以及對(duì)它的訪問就可以通過便攜式電話的通訊信道來進(jìn)行,這種通訊信道可能是模擬的,也可能是數(shù)字的(比如說,碼分多址(CDMA),全球通(GSM),等等)。
更為有利的是,由于在便攜式裝置99中,具有前述的對(duì)從ASSR服務(wù)器而來的數(shù)據(jù)進(jìn)行接收,解密或解壓的能力,便攜式裝置99可以接收各種數(shù)據(jù)以執(zhí)行解密或鑒別的功能。例如,在本次與通訊期間,接收密鑰來對(duì)接收到的信號(hào)解密;接收曲奇(Cookies)用于確定密鑰的有效長(zhǎng)度,密碼卡上的PIN的有效長(zhǎng)度,等等;此前接收的數(shù)字檢驗(yàn)碼或預(yù)先收到的鑒別檢驗(yàn)碼,用于鑒別用戶直到它們過期為止;接收噪聲模式用于屏蔽或中斷屏蔽噪聲;以及接收智能卡上的PIN數(shù)字或碼,它們與表征PIN終止日期的曲奇一起,是用智能卡的嵌入芯片所編碼的內(nèi)容的一部分,或者是在信用卡類型卡的磁區(qū)域上編碼內(nèi)容的一部分。所接收的數(shù)據(jù)被存在DSP120的存儲(chǔ)器。通過已知的技術(shù),一個(gè)與便攜式裝置200相連的接口可用于對(duì)DSP120的讀/寫/再編程。
因此,本發(fā)明的示例性裝置和技術(shù)可被用于鑒別,重設(shè)或取消用戶或客戶的口令,注冊(cè),PIN,以及/或者加密/解密的密鑰。這些任務(wù)可在一個(gè)智能卡或者有磁區(qū)域的卡上遠(yuǎn)程執(zhí)行。
按照本發(fā)明的示例性實(shí)施方案的系統(tǒng)在智能卡鑒別/PIN重新設(shè)置系統(tǒng)中的一個(gè)應(yīng)用在圖4中說明。
智能卡的初始化在一個(gè)典型的智能卡系統(tǒng)中,一個(gè)智能卡是通過用一個(gè)機(jī)構(gòu)的認(rèn)證書與公共/個(gè)人密碼集來首次初始化,從而被激活,使之可以投入使用。在注冊(cè)服務(wù)器410中,系統(tǒng)管理員一般將一個(gè)新的智能卡與他自己的管理員智能卡同時(shí)插入,并敲入他的PIN號(hào)來授權(quán)一個(gè)新用戶的注冊(cè)。然后,管理員啟動(dòng)用戶智能卡初始化程序,該程序一般將確認(rèn)信息,比如用戶的個(gè)人與公共密鑰集,用戶名,編號(hào),智能卡編號(hào)等印在智能卡上。
注冊(cè)服務(wù)器410,它可以等同于圖3中的工作站220,生成用戶概況,產(chǎn)生請(qǐng)求的個(gè)人/公共密碼和認(rèn)證書,并將信息下載到智能卡。接著,注冊(cè)服務(wù)器410要求用戶對(duì)著工作站揚(yáng)聲器說話以便確認(rèn)。這些聲音消息被送至說話人鑒別服務(wù)器420,它等同于圖1至圖3的ASSR服務(wù)器200。聲音消息,認(rèn)證書和特有的智能卡編號(hào)被存入一個(gè)相關(guān)的數(shù)據(jù)庫(kù)或存入ASSR服務(wù)器200中備以后的確認(rèn)用或其他用途。
另一方面,一旦認(rèn)證書被公布以及建立了用戶概況,注冊(cè)服務(wù)器410把注冊(cè)數(shù)據(jù)上載給上級(jí)服務(wù)器430和路徑服務(wù)器440用于存儲(chǔ)。注冊(cè)數(shù)據(jù)也可以下載給工作站450和智能卡讀取器460。工作站450包括便攜式SSP99的組件和功能,或者一個(gè)便攜式SSP可能與工作站450相連接以便利與說話人鑒別服務(wù)器420的關(guān)于說話人/語(yǔ)音信息的通訊。對(duì)于每一個(gè)機(jī)構(gòu)的每個(gè)智能卡都產(chǎn)生一個(gè)RSA密碼對(duì)。個(gè)人的密碼被寫入智能卡用于以后的PIN重新設(shè)置。智能卡用一個(gè)特有的編號(hào)同時(shí)在內(nèi)部(寫入)和外部(打印在卡上)進(jìn)行初始化,以備后用。
在上述的安裝或初始化的情況下,如果用戶忘記了他的PIN或他的PIN的有效期已過并且沒有重新設(shè)置,他可以按照這種方式遠(yuǎn)程重設(shè)或重建他的PIN,即通過他的個(gè)人計(jì)算機(jī)或一個(gè)手持便攜式SSP裝置99和智能卡讀取器460(或者磁寫入器,如果用一個(gè)磁條卡代替了智能卡的話)連接ASSR服務(wù)器上,來申請(qǐng)PIN的重新設(shè)置,這種方式如下所述。
用戶用他的個(gè)人計(jì)算機(jī)與ASSR服務(wù)器建立連接(比如說通過SSL V2),請(qǐng)求改變他的智能卡的PIN。對(duì)話框或語(yǔ)音提白會(huì)提示用戶敲入他的用戶ID,名字,智能卡編號(hào),等等。ASSR服務(wù)器200根據(jù)敲入的信息訪問預(yù)存的認(rèn)證書和用戶概況。然后ASSR服務(wù)器會(huì)提示用戶對(duì)著個(gè)人計(jì)算機(jī)的傳聲器讀入預(yù)置的語(yǔ)音消息,用于確認(rèn)。
被訪問的數(shù)據(jù)庫(kù)中的用戶概況和聲音段與用戶輸入的聲音消息相比較,進(jìn)行確認(rèn)。用戶可能有幾次機(jī)會(huì)來確保鑒別程序的輸入正確。如果鑒別是正確的,并且用戶是當(dāng)前合法用戶,ASSR服務(wù)器200用智能卡認(rèn)證書和公共密碼對(duì)PIN重新設(shè)置命令進(jìn)行加密,并且把它送到用戶的個(gè)人計(jì)算機(jī)和相關(guān)的智能卡閱讀器。接著用戶的智能卡利用它的特有的個(gè)人密碼PIN重新設(shè)置命令進(jìn)行解密。
如果智能卡的個(gè)人密碼成功地為PIN重新設(shè)置命令進(jìn)行了解密,智能卡就會(huì)被激活。智能卡可能包括對(duì)寫入智能卡的特有編號(hào)和由ASSR服務(wù)器200提供的號(hào)碼進(jìn)行比較的電路。如果它們相同,則智能卡可解除鎖定狀態(tài)而進(jìn)行PIN重新設(shè)置的操作。
一旦智能卡被激活,并且PIN被重新設(shè)置,用戶可以對(duì)他的智能卡敲入一個(gè)新PIN。這種智能卡適用于任何保密事務(wù)。
用電話重新設(shè)置PIN如果計(jì)算機(jī)上沒有揚(yáng)聲器,用戶可以用電話呼叫ASSR服務(wù)器200,以便進(jìn)行智能卡PIN的重新設(shè)置。利用相同的說話人鑒別過程,他可命令服務(wù)器在一個(gè)電子信封中建立加密的PIN重新設(shè)置命令以備后用。
利用個(gè)人計(jì)算機(jī)和智能卡讀取器,用戶通過ASSR服務(wù)器200與智能卡管理服務(wù)器建立保密套接層(SSL)的對(duì)話(只能利用宿主認(rèn)證書),并申請(qǐng)PIN的重新設(shè)置。接著ASSR服務(wù)器200把加密的信封發(fā)送到個(gè)人計(jì)算機(jī)智能卡讀取器。當(dāng)智能卡接收到電子信封后,就用智能卡的個(gè)人密碼對(duì)信封中的PIN重新設(shè)置命令進(jìn)行解密。只有個(gè)人密碼正確的智能卡能對(duì)PIN重新設(shè)置命令進(jìn)行解密。智能卡也對(duì)唯一智能卡編號(hào)和由智能卡管理服務(wù)器提供的號(hào)碼進(jìn)行比較。若數(shù)據(jù)匹配,智能卡就被重新設(shè)置,以便后面PIN的初始化和設(shè)置。
遠(yuǎn)程智能卡的失效
如果智能卡丟失或被盜,用戶必須盡快地讓他的智能卡失效。在這種情況下,他可以用電話通過ASSR服務(wù)器200連接到智能卡管理服務(wù)器,用同樣的鑒別過程使他的智能卡失效。
上述按照本發(fā)明的示例性實(shí)施方案的系統(tǒng)的示例性應(yīng)用可用于用聲音確認(rèn)的網(wǎng)絡(luò)訪問注冊(cè)或口令。
一個(gè)網(wǎng)絡(luò)用戶執(zhí)行一個(gè)初始化過程,為ASSR服務(wù)器數(shù)據(jù)庫(kù)中的記錄錄制一套預(yù)置的說話人消息。ASSR服務(wù)器200可作為一個(gè)管理服務(wù)器,用說話人確認(rèn)過程來執(zhí)行所有注冊(cè)ID和口令管理的任務(wù),就像對(duì)智能卡用戶確認(rèn)中所描述的那樣。
類似于PIN重新設(shè)置過程,如果一個(gè)用戶忘記了他的注冊(cè)口令或他的口令已經(jīng)失效,他可以通過ASSR服務(wù)器200,經(jīng)過確認(rèn),來申請(qǐng)改變口令或口令的重新生效,并且新口令或重新生效的口令會(huì)下載給用戶。其他應(yīng)用包括與電子錢卡或皮夾卡的交互,其中,一個(gè)IC芯片含有卡中有關(guān)錢的數(shù)量信息。當(dāng)用卡購(gòu)物時(shí),錢的數(shù)量減少。用類似于如上所述的智能卡交互方法的過程,按照本發(fā)明的示例性實(shí)施方案的系統(tǒng)可用來給卡上加錢。
盡管本發(fā)明的某些實(shí)施方案已詳細(xì)描述,但一個(gè)普通的技術(shù)人員就會(huì)實(shí)現(xiàn)數(shù)種變化或修改方案,而不偏離本發(fā)明精神。因此,應(yīng)參考后面所附的權(quán)利要求書,以確定本發(fā)明范圍。
權(quán)利要求
1.一個(gè)便攜式語(yǔ)音識(shí)別裝置,包括一個(gè)麥克風(fēng),用于把包括語(yǔ)音,無聲,和背景噪聲信號(hào)的聲音轉(zhuǎn)換為模擬信號(hào);一個(gè)模數(shù)轉(zhuǎn)換器,用于把該模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào);一個(gè)數(shù)字信號(hào)處理器,用于從該數(shù)字信號(hào)產(chǎn)生表示所述語(yǔ)音的特征向量數(shù)據(jù);一個(gè)聲學(xué)耦合器,用于把該特征向量數(shù)據(jù)轉(zhuǎn)換為聲音信號(hào),還用于與聲音通訊裝置相連接從而在通訊信道上傳送該語(yǔ)音,便于在遠(yuǎn)處識(shí)別該語(yǔ)音。
2.按照權(quán)利要求1的裝置,其特征是,還包括一個(gè)加密裝置用于對(duì)該特征向量數(shù)據(jù)加密。
3.按照權(quán)利要求1的裝置,其特征是,還包括一個(gè)數(shù)據(jù)壓縮裝置用于對(duì)該特征向量數(shù)據(jù)進(jìn)行壓縮。
4.按照權(quán)利要求1的裝置,其特征是,此聲學(xué)耦合器包括在通訊信道上接收從遠(yuǎn)處返回信號(hào),并把此返回信號(hào)轉(zhuǎn)換為數(shù)字返回?cái)?shù)據(jù)供該DSP處理的裝置。
5.按照權(quán)利要求4的裝置,其特征是,此DSP還包括用于對(duì)該數(shù)字返回?cái)?shù)據(jù)進(jìn)行解壓的裝置。
6.按照權(quán)利要求4的裝置,其特征是,此DSP還包括用于對(duì)該數(shù)字返回?cái)?shù)據(jù)進(jìn)行解密的裝置。
7.按照權(quán)利要求1的裝置,其特征是,還包括估計(jì)該通訊信道的傳遞函數(shù)的裝置。
8.按照權(quán)利要求1的裝置,其特征是,此DSP包括接收和處理從服務(wù)器而來的數(shù)據(jù)的裝置,這個(gè)服務(wù)器在遠(yuǎn)處連接于此信道。
9.按照權(quán)利要求1的裝置,其特征是,此DSP包括存儲(chǔ)器用于存儲(chǔ)包括該裝置特有的密碼數(shù)據(jù)的數(shù)據(jù)。
10.按照權(quán)利要求1的裝置,其特征是,還包括用于表征通訊信道特征的裝置,通訊信道的特征是與所述裝置周圍的無聲和背景噪聲相聯(lián)系的。
11.一個(gè)語(yǔ)音識(shí)別系統(tǒng),包括一個(gè)便攜式語(yǔ)音信號(hào)預(yù)處理器,具有一個(gè)數(shù)字信號(hào)處理器(DSP),用于處理讀入SSP的數(shù)字化語(yǔ)音并產(chǎn)生表示該語(yǔ)音的 特征向量數(shù)據(jù);而且一個(gè)耦合器,用于與通訊裝置相連接從而在通訊信道上傳送代表該特征向量數(shù)據(jù)的信號(hào);以及一個(gè)自動(dòng)語(yǔ)音/說話人識(shí)別(ASSR)服務(wù)器,遠(yuǎn)程連接于通訊信道,用于通過該通訊信道接收從這個(gè)便攜式SSP傳過來的代表特征向量數(shù)據(jù)的所述信號(hào),并處理該信號(hào)以實(shí)現(xiàn)對(duì)語(yǔ)音或說話人的識(shí)別。
12.按照權(quán)利要求11的系統(tǒng),其特征是,該ASSR服務(wù)器包括鑒別數(shù)據(jù)的預(yù)存模型,通過處理從便攜式SSP傳過來的信號(hào)并且把處理過的信號(hào)與鑒別數(shù)據(jù)的預(yù)存模型相比較,以實(shí)現(xiàn)對(duì)合法用戶的確認(rèn)。
13.按照權(quán)利要求11的系統(tǒng),其特征是,ASSR服務(wù)器包括一個(gè)用于語(yǔ)音識(shí)別的詞表數(shù)據(jù)庫(kù),識(shí)別是通過處理從便攜式SSP傳過來的信號(hào)并且把處理過的信號(hào)與該數(shù)據(jù)庫(kù)相比較而實(shí)現(xiàn)的。
14.按照權(quán)利要求11的系統(tǒng),其特征是,ASSR服務(wù)器通過處理由便攜式SSP接收過來的信號(hào)來確認(rèn)用戶口令。
15.按照權(quán)利要求11的系統(tǒng),其特征是,ASSR服務(wù)器通過處理由便攜式SSP接收過來的信號(hào)來辨識(shí)呼叫者,該信號(hào)源于呼叫者讀入便攜式SSP的語(yǔ)音。
16.按照權(quán)利要求11的系統(tǒng),其特征是,便攜式SSP包括接收和處理從ASSR服務(wù)器返回信號(hào)的裝置。
17.按照權(quán)利要求16的系統(tǒng),其特征是,該返回信號(hào)包括改變的確認(rèn)數(shù)據(jù)和提白之一。
18.按照權(quán)利要求11的系統(tǒng),其特征是,該便攜式SSP包括相關(guān)的存儲(chǔ)器,用于存儲(chǔ)包括從該ASSR服務(wù)器接收來數(shù)據(jù)的數(shù)據(jù)。
19.按照權(quán)利要求11的系統(tǒng),其特征是,還包括估計(jì)連接的傳遞函數(shù)的裝置,該連接是通過通訊信道在便攜式SSP和ASSR服務(wù)器之間的連接。
20.按照權(quán)利要求11的系統(tǒng),其特征是,此耦合器是一種聲耦合器,它把特征向量數(shù)據(jù)轉(zhuǎn)換為聲信號(hào),并且此通訊信道也是聲學(xué)意義上的信道。
21.按照權(quán)利要求11的系統(tǒng),其特征是,該便攜式SSP和該ASSR服務(wù)器包括通過一個(gè)通訊對(duì)話定期地執(zhí)行說話人識(shí)別任務(wù)的裝置。
22.一種通過聲音來確認(rèn)客戶/服務(wù)器系統(tǒng)的合法客戶的方法,包括這些步驟在自動(dòng)語(yǔ)音識(shí)別(ASSR)服務(wù)器的存儲(chǔ)器中,存儲(chǔ)注冊(cè)數(shù)據(jù)的多個(gè)模型;從相對(duì)于ASSR服務(wù)器遠(yuǎn)程分布的便攜式語(yǔ)音信號(hào)預(yù)處理(SSP)裝置,通過一個(gè)通訊信道連接到ASSR服務(wù)器上;把該注冊(cè)數(shù)據(jù)讀入便攜式SSP裝置;在該便攜式SSP裝置中,將該注冊(cè)數(shù)據(jù)預(yù)處理為特征向量;通過所述通訊信道,ASSR服務(wù)器接收表示該特征向量的信號(hào);及處理ASSR服務(wù)器接收的信號(hào),并將處理過的信號(hào)與預(yù)存模型相比較,用于鑒別合法用戶。
23.按照權(quán)利要求22的方法,其特征是,還包括一個(gè)改變用戶口令的步驟,該步驟通過從ASSR服務(wù)器把一個(gè)改變后的口令數(shù)據(jù)傳送給便攜式SSP裝置來實(shí)現(xiàn)。
24.按照權(quán)利要求22的方法,其特征是,還包括一個(gè)改變智能卡PIN的步驟,該步驟通過從ASSR服務(wù)器把一個(gè)改變后的智能卡數(shù)據(jù)饋送給便攜式SSP裝置來實(shí)現(xiàn)。
25.按照權(quán)利要求24的方法,其特征是,該改變后的智能卡數(shù)據(jù)被ASSR服務(wù)器加密,并由便攜式SSP裝置解密以改變?cè)撝悄芸≒IN。
26.按照權(quán)利要求22的方法,其特征是,還包括一個(gè)改變磁卡的PIN的步驟,該步驟通過從ASSR服務(wù)器把一個(gè)改變后的PIN數(shù)據(jù)饋送給磁卡寫入器和便攜式SSP裝置來實(shí)現(xiàn)。
全文摘要
便攜式語(yǔ)音信號(hào)預(yù)處理(SSP)裝置具有,用于接收語(yǔ)音和背景噪聲的麥克風(fēng),一個(gè)用于將接收到的噪聲處理為特征向量的數(shù)字信號(hào)處理器(DSP),一個(gè)與通訊裝置相連用于在通訊信道上傳輸?shù)鸟詈掀鳌R粋€(gè)自動(dòng)語(yǔ)音/說話人識(shí)別(ASSR)服務(wù)器在通訊信道上接收預(yù)處理過的語(yǔ)音數(shù)據(jù),并識(shí)別語(yǔ)音或說話人。一個(gè)帶有便攜式SSP裝置和ASSR服務(wù)器的系統(tǒng)可被用于對(duì)遠(yuǎn)程的智能卡,磁卡或電子錢卡進(jìn)行激活,重新設(shè)置,或改變PIN碼。
文檔編號(hào)G10L15/00GK1229229SQ98107970
公開日1999年9月22日 申請(qǐng)日期1998年5月8日 優(yōu)先權(quán)日1997年6月11日
發(fā)明者D·肯尼維斯基, S·H·米斯, C·普羅徹羅, P·S·普恩 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司