一種基于聲紋識別的數(shù)據(jù)獲取方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及聲紋識別領(lǐng)域,并且更具體地,涉及一種基于聲紋識別的數(shù)據(jù)獲取方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著與終端設(shè)備相關(guān)的信息技術(shù)的日益發(fā)展,用戶對于通過終端設(shè)備進行數(shù)據(jù)獲取的需求越來越大。通常,用戶可以在終端設(shè)備處輸入要訪問的數(shù)據(jù)的地址,從而獲取數(shù)據(jù)并對數(shù)據(jù)進行處理;或者用戶可以在終端設(shè)備搜索相關(guān)數(shù)據(jù)從而獲取數(shù)據(jù)并對數(shù)據(jù)進行處理。由于上述方式均需要用戶在終端設(shè)備上進行手動輸入,而當(dāng)用戶處于忙碌狀態(tài)(例如,駕駛車輛)時,通常無法進行有效輸入。此外,當(dāng)用戶聽到某段語音,想獲得與這段語音相關(guān)的數(shù)據(jù)時,通過上述方式無法獲取數(shù)據(jù)內(nèi)容。因此,需要將聲紋識別技術(shù)應(yīng)用到數(shù)據(jù)獲取和處理的過程中。
[0003]目前,聲紋識別技術(shù)廣泛應(yīng)用于諸如汽車導(dǎo)航、密碼認證、智能設(shè)備等領(lǐng)域。聲紋是指通過專用的電聲轉(zhuǎn)換儀器(聲譜儀、語圖儀等)將聲波特征繪制成的波譜圖形。聲紋可以是各種聲學(xué)特征圖譜的集合。聲紋是人類長期穩(wěn)定的特征信號。聲紋識別是把未知人的語音數(shù)據(jù)(檢材)與已知人的語音數(shù)據(jù)(樣本)分別通過電聲轉(zhuǎn)換儀器繪成聲紋圖譜,再根據(jù)圖譜上的語音聲學(xué)特征進行比較和綜合分析,以得出兩者是否相同的判斷過程。
[0004]聲紋識別廣義上分為兩種:語音識別和說話人識別。語音識別是根據(jù)說話人的發(fā)音辨認其所說的語音、音節(jié)、單詞或單句。語音識別需要排除不同說話人的個人聲音特色,確定代表各個語音單位的共性特征。說話人識別是根據(jù)語音來辨認說話人,而通常不考慮聲音的內(nèi)容和意義。說話人識別需要分離出每個個體的聲音特性。語音識別是當(dāng)前確認語音數(shù)據(jù)的文本內(nèi)容的主要方式。說話人識別是當(dāng)前生物信息認證方式中的一種主流方式,并且通常包括文本相關(guān)以及文本無關(guān)兩種聲紋識別方式,即,說話人識別包括說話人辨認和說話人確認兩個方面。說話人辨認是一對多的分析過程,即判斷出某段語音是若干人中哪一個所說。說話人確認是一對一的確定過程,即確認某段語音是否屬于指定的某人。聲紋識別通常也都包括訓(xùn)練、校驗兩個步驟。聲紋識別的核心是預(yù)先錄入聲音樣本,并提取每個樣本獨一無二的特征,建立特征數(shù)據(jù)庫,并且在使用時將待檢聲音與數(shù)據(jù)庫中的特征進行匹配,通過分析計算,實現(xiàn)說話人識別。然而,在實際應(yīng)用中,文本無關(guān)型的聲紋識別方式由于識別結(jié)果的不確定性,通常要和其他的生物特征認證方式共同使用,很難作為一種獨立的檢測方式,由此也限制了其使用的范圍。
[0005]為此,需要一種能夠利用穩(wěn)定識別技術(shù)的數(shù)據(jù)獲取方法及系統(tǒng)。
【發(fā)明內(nèi)容】
[0006]為了解決上述問題,根據(jù)本發(fā)明的一個方面,提供一種基于聲紋識別的數(shù)據(jù)獲取系統(tǒng),所述數(shù)據(jù)獲取系統(tǒng)包括:
[0007]用戶終端,接收待識別的語音數(shù)據(jù)并且對所述待識別的語音數(shù)據(jù)進行語音格式預(yù)處理,從經(jīng)過語音格式預(yù)處理的音頻數(shù)據(jù)提取語音特征,將所提取的語音特征組成語音特征集合;
[0008]對待識別的語音數(shù)據(jù)進行關(guān)鍵詞識別,獲得一個或多個關(guān)鍵詞,根據(jù)所述一個或多個關(guān)鍵詞對從識別服務(wù)器接收的識別對象集合中的每個識別對象的匹配度進行加權(quán),根據(jù)加權(quán)后的匹配度確定目標(biāo)對象,并且獲取與所確定的目標(biāo)對象相對應(yīng)的數(shù)據(jù);以及
[0009]識別服務(wù)器,根據(jù)用戶終端發(fā)送的語音特征集合中的所有語音特征與語音模型進行匹配,確定所述待識別的語音數(shù)據(jù)對應(yīng)的識別對象集合,其中在識別對象集合中按照匹配度遞減的順序?qū)ψR別對象進行排序。
[0010]優(yōu)選地,其中用戶終端對所述待識別的語音數(shù)據(jù)進行語音格式預(yù)處理包括:利用預(yù)處理單元對所述待識別的語音數(shù)據(jù)進行分割以生成多個語音片段;對多個語音片段進行寬窄帶判別,對判別為寬帶信號的語音片段添加寬帶標(biāo)識,對判別為窄帶信號的語音片段添加窄帶標(biāo)識;以及對添加了寬帶標(biāo)識或窄帶標(biāo)識的語音片段進行音頻特征提取,得到特征數(shù)據(jù)。
[0011]優(yōu)選地,其中所述特征數(shù)據(jù)包括語音片段的起始時間、語音特征和音頻文件名稱。
[0012]優(yōu)選地,其中識別服務(wù)器根據(jù)用戶終端發(fā)送的語音特征集合中的所有語音特征與語音模型進行匹配,確定所述待識別的語音數(shù)據(jù)對應(yīng)的識別對象集合包括:
[0013]識別服務(wù)器從用戶終端接收語音特征集合,并且將語音特征集合中的所有語音特征與預(yù)先存儲的語音模型進行匹配,根據(jù)匹配度確定與所述待識別的語音數(shù)據(jù)對應(yīng)的至少一個識別對象,將所述至少一個識別對象組成識別對象集合。
[0014]可替換地,將語音特征集合傳送至用戶終端的匹配單元,用戶終端的匹配單元將語音特征集合中的所有語音特征與預(yù)先存儲的語音模型進行匹配,根據(jù)匹配度確定與所述待識別的語音數(shù)據(jù)對應(yīng)的至少一個識別對象,將所述至少一個識別對象組成識別對象集入口 ο
[0015]優(yōu)選地,其中用戶終端根據(jù)所述一個或多個關(guān)鍵詞對識別對象集合中的每個識別對象的匹配度進行加權(quán),根據(jù)加權(quán)后的匹配度確定目標(biāo)對象包括:用戶終端的目標(biāo)對象確定單元根據(jù)所述一個或多個關(guān)鍵詞在相關(guān)度數(shù)據(jù)庫中進行搜索,確定待識別的語音數(shù)據(jù)與識別對象集合中每個識別對象的相關(guān)度,根據(jù)所述相關(guān)度對每個識別對象的匹配度進行加權(quán),根據(jù)加權(quán)后的匹配度確定目標(biāo)對象。
[0016]優(yōu)選地,其中用戶終端獲取與所確定的目標(biāo)對象相對應(yīng)的數(shù)據(jù)包括:用戶終端的數(shù)據(jù)獲取單元根據(jù)關(guān)聯(lián)規(guī)則確定與所述目標(biāo)對象相對應(yīng)的數(shù)據(jù)內(nèi)容并且將針對數(shù)據(jù)內(nèi)容的請求發(fā)送至內(nèi)容服務(wù)器,從內(nèi)容服務(wù)器獲取所述數(shù)據(jù)內(nèi)容。
[0017]根據(jù)另一方面,提供一種基于聲紋識別的數(shù)據(jù)獲取方法,所述數(shù)據(jù)獲取方法包括:
[0018]接收待識別的語音數(shù)據(jù);
[0019]對所述待識別的語音數(shù)據(jù)進行語音格式預(yù)處理;
[0020]從經(jīng)過語音格式預(yù)處理的音頻數(shù)據(jù)提取語音特征,將所提取的語音特征組成語音特征集合;
[0021]根據(jù)語音特征集合中的所有語音特征與語音模型進行匹配,確定所述待識別的語音數(shù)據(jù)對應(yīng)的識別對象集合,其中在識別對象集合中按照匹配度遞減的順序?qū)ψR別對象進tx排序;
[0022]對待識別的語音數(shù)據(jù)進行關(guān)鍵詞識別,獲得一個或多個關(guān)鍵詞;
[0023]根據(jù)所述一個或多個關(guān)鍵詞對識別對象集合中的每個識別對象的匹配度進行加權(quán),根據(jù)加權(quán)后的匹配度確定目標(biāo)對象;以及
[0024]獲取與所確定的目標(biāo)對象相對應(yīng)的數(shù)據(jù)。
[0025]優(yōu)選地,其中對所述待識別的語音數(shù)據(jù)進行語音格式預(yù)處理包括:
[0026]對所述待識別的語音數(shù)據(jù)進行分割以生成多個語音片段;
[0027]對多個語音片段進行寬窄帶判別,對判別為寬帶信號的語音片段添加寬帶標(biāo)識,對判別為窄帶信號的語音片段添加窄帶標(biāo)識;
[0028]對添加了寬帶標(biāo)識或窄帶標(biāo)識的語音片段進行音頻特征提取,得到特征數(shù)據(jù)。
[0029]優(yōu)選地,所述特征數(shù)據(jù)包括語音片段的起始時間、語音特征和音頻文件名稱。
[0030]優(yōu)選地,其中根據(jù)語音特征集合中的所有語音特征與語音模型進行匹配,確定所述待識別的語音數(shù)據(jù)對應(yīng)的識別對象集合包括:
[0031]將語音特征集合發(fā)送至識別服務(wù)器,識別服務(wù)器將語音特征集合中的所有語音特征與預(yù)先存儲的語音模型進行匹配,根據(jù)匹配度確定與所述待識別的語音數(shù)據(jù)對應(yīng)的至少一個識別對象,將所述至少一個識別對象組成識別對象集合。
[0032]可替換地,將語音特征集合發(fā)送至終端設(shè)備的匹配單元,終端設(shè)備的匹配單元將語音特征集合中的所有語音特征與預(yù)先存儲的語音模型進行匹配,根據(jù)匹配度確定與所述待識別的語音數(shù)據(jù)對應(yīng)的至少一個識別對象,將所述至少一個識別對象組成識別對象集入口 ο
[0033]優(yōu)選地,其中根據(jù)所述一個或多個關(guān)鍵詞對識別對象集合中的每個識別對象的匹配度進行加權(quán),根據(jù)加權(quán)后的匹配度確定目標(biāo)對象包括:根據(jù)所述一個或多個關(guān)鍵詞在相關(guān)度數(shù)據(jù)庫中進行搜索,確定待識別的語音數(shù)據(jù)與從所述識別服務(wù)器獲取的識別對象集合中每個識別對象的相關(guān)度,根據(jù)所述相關(guān)度對每個識別對象的匹配度進行加權(quán),根據(jù)加權(quán)后的匹配度確定目標(biāo)對象。
[0034]優(yōu)選地,其中獲取與所確定的目標(biāo)對象相對應(yīng)的數(shù)據(jù)包括:根據(jù)關(guān)聯(lián)規(guī)則確定與所述目標(biāo)對象相對應(yīng)的數(shù)據(jù)內(nèi)容并且將針對數(shù)據(jù)內(nèi)容的請求發(fā)送至內(nèi)容服務(wù)器,從內(nèi)容服務(wù)器獲取所述數(shù)據(jù)內(nèi)容。
[0035]根據(jù)本發(fā)明的基于聲紋識別的數(shù)據(jù)獲取方法及系統(tǒng)通過關(guān)鍵字對聲紋識別的初步結(jié)果進行