藍牙耳機及其語音交互控制方法
【專利摘要】本發(fā)明公開了一種藍牙耳機及其語音交互控制方法,通過在所述藍牙耳機中形成有關(guān)來電號碼的語音通訊錄條目,該語音通訊錄條目中包括有用來來電提醒的個性化用戶語音,從而實現(xiàn)在利用極少的資源的前提下對來電號碼進行清晰的、個性化的語音提醒。此外,由于在語音通訊錄條目中還可以包括由來電號碼的用戶的姓名或代號訓(xùn)練而成的參考模板,從而可以利用藍牙耳機本身就可以實現(xiàn)語音撥打電話功能,擺脫了與藍牙耳機配對的手機的種種限制。
【專利說明】藍牙耳機及其語音交互控制方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子領(lǐng)域,尤其涉及一種個性化的藍牙耳機及其語音交互控制方法。技術(shù)背景
[0002]目前藍牙耳機的應(yīng)用已經(jīng)非常普遍。用戶在使用藍牙耳機來監(jiān)聽是否有電話呼入與該藍牙耳機相配對的移動通訊終端,比如手機或平板電腦等。目前有電話呼入所述移動通訊終端時,所述藍牙耳機可以通過如下方法對打入的電話進行聲音提示:第一,合成音調(diào)提示,比如普通電話的鈴聲或嘟嘟聲等,這種提示方式僅能夠提醒有電話呼入,無法獲得更多的提示信息;第二、提示來電的電話號碼,用戶可以聽到打入電話的號碼,該號碼通過藍牙免提規(guī)范(HFP)規(guī)定的命令從移動通訊終端傳給藍牙,然而用戶很難記住很多電話號碼,多數(shù)情況下提示的號碼數(shù)字并不能給用戶帶來有用信息;第三、聲音提示來電號碼在移動通信終端的電話簿中所記錄的聯(lián)系人名字,用戶可以直接聽到來電人在所述電話簿中的名字(如果有的話),從而可以直觀的得到來電人信息,該方法通過使用藍牙電話本存取規(guī)范(PBAP)根據(jù)從HFP中獲取的電話號碼從移動通訊終端的電話簿中查詢獲得聯(lián)系人名單,成功之后通過語音合成技術(shù)(TTS)將報出聯(lián)系人名字,該方法的弊端是PBAP規(guī)范較為龐大,TTS算法則比較復(fù)雜,均對系統(tǒng)資源的開銷較大,都不適合用于藍牙耳機這樣的小型嵌入式消費電子產(chǎn)品中,同時,TTS算法也很難同時支持多國語言、方言等。而對于不支持PBAP的移動通信終端,藍牙耳機則無法獲取來電人的名字,從而造成藍牙耳機必須與支持PBAP協(xié)議的移動通信終端配對使用,限制了藍牙耳機的通用性。此外,實踐證明PBAP協(xié)議本身并不穩(wěn)定,也就是說,即便是移動通訊終端和藍牙耳機都支持PBAP協(xié)議,他們之間在利用PBAP協(xié)議實現(xiàn)電話本存取功能時同樣可能由于PBAP協(xié)議本身的不穩(wěn)定而導(dǎo)致電話本存取不成功,影響使用。
[0003]藍牙耳機本身體積較小,并且在正常使用時都是戴在耳朵上,如果藍牙耳機采用顯示屏或觸摸屏進行人機交互存在很多問題,比如成本高,需要將耳機從耳朵上摘下才能借助顯示屏或觸摸屏進行人機交互,操作非常不方便。而對于未設(shè)置顯示屏或觸摸屏的藍牙耳機,其撥打電話的功能非常簡單,通常只能實現(xiàn)回撥或事先設(shè)定好的一鍵撥號,很顯然這遠遠無法滿足用戶的需求。用戶非常期望能夠通過語音來控制所述藍牙耳機實現(xiàn)電話的撥打,這樣可以徹底的解放出他們的雙手。雖然目前手機上能夠?qū)崿F(xiàn)語音撥打功能,但是這種功能需要強大的計算資源,并會消耗很大的功耗,不適于應(yīng)用于藍牙耳機中。
[0004]因此,有必要已提出一種改進的技術(shù)方案來克服上述問題。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明的目的在于提供了一種藍牙耳機及其語音交互控制方法,其可以為來電號碼建立語音通訊錄條目,進而可以在利用極少的資源的前提下對來電號碼進行清晰的、個性化的語音提示或?qū)崿F(xiàn)語音撥打電話。
[0006]為了達到上述目的,根據(jù)本發(fā)明的一方面,本發(fā)明提供一種具有語音通訊錄建立模式的藍牙耳機,其包括音頻輸入模塊、處理模塊、存儲模塊和音頻輸出模塊。所述藍牙耳機進入語音通訊錄建立模式以為所述藍牙耳機的一個來電號碼建立一條語音通訊錄條目,在語音通訊錄建立模式時,所述音頻輸入模塊采集一段用戶語音,所述處理模塊將所述用戶語音或/和基于所述用戶語音訓(xùn)練得到的參考模板與所述藍牙耳機中的所述來電號碼建立對應(yīng)關(guān)系以為所述來電號碼建立一條語音通訊錄條目,并將所述來電號碼的語音通訊錄條目存儲于所述存儲模塊中,一條或多條語音通訊錄條目形成藍牙耳機中的語音通訊錄。
[0007]優(yōu)選的,在所述藍牙耳機與移動通訊終端完成配對后,所述移動通訊終端上有來電時,處理模塊還用于基于藍牙免提規(guī)范從移動通訊終端獲得當(dāng)前來電號碼,并在確定已經(jīng)為該當(dāng)前來電號碼建立了語音通訊錄條目時提取所述當(dāng)前來電號碼對應(yīng)的用戶語音,并交由所述音頻輸出模塊播放。所述處理模塊在確定并未為該當(dāng)前來電號碼建立語音通訊錄條目時,使得所述音頻輸出模塊直接語音播報該當(dāng)前來電號碼,或播放預(yù)定的一段音頻數(shù)據(jù),或進行合成音調(diào)來電提示。
[0008]優(yōu)選的,在語音通訊錄建立模式下為一個來電號碼建立語音通訊錄條目時是為所述藍牙耳機的最近的來電號碼建立語音通訊錄條目。在語音通訊錄建立模式時,所述音頻輸入模塊采集的用戶語音中包含對應(yīng)的來電號碼所代表的用戶的姓名或代號。
[0009]優(yōu)選的,所述參考模板是從對應(yīng)的用戶語音中提取的特征參數(shù)生成的一組參考特征矢量序列。所述藍牙耳機具有語音撥打模式,在語音撥打模式時,音頻輸入模塊采集一段包括有呼叫用戶的姓名或代號的用戶語音,所述處理模塊基于采集的包括有呼叫用戶的姓名或代號的用戶語音生成測試模板,其中所述測試模板為從所述用戶語音中提取的特征參數(shù)生成的一組測試特征矢量序列;所述處理模塊將所述測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以找到與所述測試模板最終相匹配的參考模板,將與所述測試模板最終相匹配的參考模板對應(yīng)的來電號碼作為呼叫號碼發(fā)送至與所述藍牙耳機配對的移動通訊終端中,由移動通訊終端撥打來自所述藍牙耳機中的呼叫號碼。
[0010]優(yōu)選的,將所述測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以找到與所述測試模板最終相匹配的參考模板包括:將得到的測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以生成所述測試模板與每個參考模板的匹配分數(shù);將各個參考模板的匹配分數(shù)和預(yù)設(shè)的得分門限值以及預(yù)設(shè)的差距門限值進行比對,如果各個參考模板的匹配分數(shù)中的次小得分和最小得分的差值大于差距門限值,且所述最小得分小于得分門限值,則最小得分的參考模板被認為是與所述測試模板最終相匹配的參考模板。
[0011]根據(jù)本發(fā)明的另一個方面,本發(fā)明提供一種藍牙耳機的語音交互控制方法,其包括:進入語音通訊錄建立模式以為所述藍牙耳機的一個來電號碼建立一條語音通訊錄條目;在語音通訊錄建立模式時,所述藍牙耳機采集一段用戶語音,將所述用戶語音或/和基于所述用戶語音訓(xùn)練得到的參考模板與所述藍牙耳機中的所述來電號碼建立對應(yīng)關(guān)系以為所述來電號碼建立一條語音通訊錄條目;將所述來電號碼的語音通訊錄條目存儲于存儲模塊中,其中一條或多條語音通訊錄條目形成藍牙耳機中的語音通訊錄。
[0012]優(yōu)選的,在所述藍牙耳機與移動通訊終端完成配對后,所述移動通訊終端上有來電時,所述藍牙耳機基于藍牙免提規(guī)范從移動通訊終端獲得當(dāng)前來電號碼;在所述藍牙耳機已經(jīng)為該當(dāng)前來電號碼建立了語音通訊錄條目時,所述藍牙耳機播放該當(dāng)前來電號碼對應(yīng)的用戶語音。在所述藍牙耳機并未為該當(dāng)前來電號碼建立語音通訊錄條目時,所述藍牙耳機直接語音播報該來電號碼,或播放預(yù)定的一段音頻數(shù)據(jù),或進行合成音調(diào)來電提示。
[0013]優(yōu)選的,在語音通訊錄建立模式下為一個來電號碼建立語音通訊錄條目時是為所述藍牙耳機的最近的來電號碼建立語音通訊錄條目。在語音通訊錄建立模式時采集的用戶語音中包含對應(yīng)的來電號碼所代表的用戶的姓名或代號。
[0014]優(yōu)選的,所述參考模板是從對應(yīng)的用戶語音中提取的特征參數(shù)生成的一組參考特征矢量序列。藍牙耳機具有語音撥打模式,在語音撥打模式時,采集一段包含有呼叫用戶的姓名或代號的用戶語音;基于包含有呼叫用戶的姓名或代號的用戶語音生成測試模板,其中所述測試模板為從包含有呼叫用戶的姓名或代號的用戶語音中提取的特征參數(shù)生成的一組測試特征矢量序列;將所述測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以找到與所述測試模板最終相匹配的參考模板;將與所述測試模板最終相匹配的參考模板對應(yīng)的來電號碼作為呼叫號碼發(fā)送至與所述藍牙耳機配對的移動通訊終端中,由移動通訊終端撥打來自所述藍牙耳機中的呼叫號碼。
[0015]優(yōu)選的,將所述測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以找到與所述測試模板最終相匹配的參考模板包括:將得到的測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以生成所述測試模板與每個參考模板的匹配分數(shù);將各個參考模板的匹配分數(shù)和預(yù)設(shè)的得分門限值以及預(yù)設(shè)的差距門限值進行比對,如果各個參考模板的匹配分數(shù)中的次小得分和最小得分的差值大于差距門限值,且所述最小得分小于得分門限值,則最小得分的參考模板被認為是與所述測試模板最終相匹配的參考模板。
[0016]與現(xiàn)有技術(shù)相比,本發(fā)明中的藍牙耳機能夠為來電號碼建立語音通訊錄條目,所述語音通訊錄條目可以將所述用戶語音或/和基于所述用戶語音訓(xùn)練得到的參考模板與所述來電號碼建立對應(yīng)關(guān)系。這樣使得所述藍牙耳機可以在利用極少的資源的前提下實現(xiàn)對來電號碼進行清晰的、個性化的語音提示,此外也為實現(xiàn)語音撥打電話奠定了基礎(chǔ)。
【專利附圖】
【附圖說明】
[0017]圖1是本發(fā)明中的藍牙耳機在一個實施例中的結(jié)構(gòu)框圖;
[0018]圖2是本發(fā)明中的語音通訊錄在一個實施例中的結(jié)構(gòu)示意圖;
[0019]圖3是本發(fā)明中的藍牙耳機的來電號碼的語音播報方法在一個實施例中的流程示意圖;
[0020]圖4是本發(fā)明中的語音通訊錄在另一個實施例中的結(jié)構(gòu)示意圖;
[0021]圖5本發(fā)明提供的一種藍牙耳機的語音撥打電話方法在一個實施例中的流程示意圖;
[0022]圖6為本發(fā)明中的語音通訊錄在再一個實施例中的結(jié)構(gòu)示意圖;
[0023]圖7為本發(fā)明中的一種離線語音端點檢測方法在一個實施例中的流程示意圖。
【具體實施方式】
[0024]下面結(jié)合說明書附圖來說明本發(fā)明的【具體實施方式】。
[0025]如圖1所示,其示出了本發(fā)明中的藍牙耳機100的一個實施例,所述藍牙耳機100包括音頻輸入模塊110、存儲模塊130、處理模塊140和音頻輸出模塊160。所述音頻輸入模塊110用于采集音頻數(shù)據(jù)。所述音頻輸出模塊160用于播放所述處理模塊160輸出的音頻數(shù)據(jù)。
[0026]為了方便用戶的使用,提高用戶的使用體驗,豐富藍牙耳機的功能,本發(fā)明的藍牙耳機100能夠支持語音交互控制。在一個實施例中,所述藍牙耳機100可以具有如下語音交互控制功能的一種或多種:第一、所述藍牙耳機100可以以很小的資源代價實現(xiàn)來電號碼的個性化語音播報;第二、所述藍牙耳機100可以在各種環(huán)境下基于語音識別來實現(xiàn)語音撥打指定用戶的電話,其語音識別的成功率很高,用戶體驗很好。下文將對這些語音交互控制功能逐一進行介紹。
[0027]來電號碼的個性化語音播報
[0028]所述藍牙耳機100具有語音通訊錄建立模式,用戶可以通過藍牙耳機100上的指令輸入接口(未圖示)驅(qū)使所述藍牙耳機100進入語音通訊錄建立模式。所述指令輸入接口可以一個按鍵,也可以是語音命令輸入接口。所述藍牙耳機100在語音通訊錄建立模式下可以為所述藍牙耳機的一個來電號碼建立一條語音通訊錄條目。在語音通訊錄建立模式時,所述音頻輸入模塊采集一段用戶語音,該段語音可以是用戶讀出的該來電號碼的用戶的姓名或代號等的語音,用戶可以用任何語言、方言(比如英語、漢語、四川話等)來表達,所述處理模塊140將采集的用戶語音與所述來電號碼建立對應(yīng)關(guān)系以為所述來電號碼建立一條語音通訊錄條目,并將所述來電號碼的語音通訊錄條目存儲于所述存儲模塊130中。需要知道的是,所述處理模塊130在將采集的用戶語音存儲為一條語音通訊錄條目時,可以事先對采集的用戶語音進行了一些處理,比如編碼等,這不屬于本發(fā)明的重點,因此在本文中并未詳細描述。本文中的用戶的姓名或代號可以表示姓名、代號、昵稱、稱謂等能指代一個用戶的所有稱呼。
[0029]在一個優(yōu)選的實施例中,由于藍牙耳機100結(jié)構(gòu)比較簡單,通常不設(shè)置顯示屏,并且通常只緩存一個最近的來電號碼,因此在語音通訊錄建立模式下為一個來電號碼建立語音通訊錄條目時,所述藍牙耳機100通常是為所述藍牙耳機的最近的來電號碼建立語音通訊錄條目。舉例來說,在用戶通過所述藍牙耳機接聽了一個來電后,所述藍牙耳機只緩存有該最近呼入的來電號碼,此時可以使得藍牙耳機進入語音通訊錄建立模式,并為該最近的來電號碼建立語音通訊錄條目。
[0030]如圖2所示,其為本發(fā)明中建立的語音通訊錄在一個實施例中的原理示意圖,其中顯示了在藍牙耳機的存儲模塊130中已經(jīng)為η個來電號碼建立了語音通訊錄條目,其中來電號碼I和用戶語音I形成有對應(yīng)關(guān)系,來電號碼2和用戶語音2形成有對應(yīng)關(guān)系,來電號碼η和用戶語音η形成有對應(yīng)關(guān)系,每條具有對應(yīng)關(guān)系的來電號碼和用戶語音可以被稱為是一條語音通訊錄條目,所有的語音通訊錄條目聯(lián)合形成了本發(fā)明中的藍牙耳機中的語音通訊錄,該語音通訊錄由于包含了用戶個性化的語音信息而變得獨一無二。
[0031]所述藍牙耳機100通??梢耘c移動通訊終端(未圖示),比如手機、平板電腦等建立無線連接,并代所述移動通訊終端接聽或掛斷呼入所述移動通訊終端的來電。在一個實施例中,在所述藍牙耳機100與移動通訊終端完成配對后,所述移動通訊終端上有來電時,所述處理模塊140基于藍牙免提規(guī)范(HFP)從移動通訊終端獲得當(dāng)前來電號碼,并確定是否在所述存儲模塊130中已經(jīng)為該當(dāng)前來電號碼建立了語音通訊錄條目。如果在所述存儲模塊130中已經(jīng)為該當(dāng)前來電號碼建立了語音通訊錄條目,則所述處理模塊140提取該當(dāng)前來電號碼對應(yīng)的用戶語音交由所述音頻輸出模塊110播放。這樣,在實現(xiàn)了個性化語音來電提醒的同時,也繞開了復(fù)雜的藍牙電話本存取規(guī)范(PBAP),使得語音提醒不受移動通訊終端是否支持PBAP的限制,也不受提醒語音的語言類型的限制,實現(xiàn)簡單、成本低。
[0032]如果所述存儲模塊中并未為該當(dāng)前來電號碼建立語音通訊錄條目,則所述藍牙耳機100可以直接語音播報該當(dāng)前來電號碼,也可以播放預(yù)定的一段音頻數(shù)據(jù),比如事先錄好的一段讀出“未語音記錄號碼”的用戶語音,再比如一段事先保存的一段音樂,還可以進行合成音調(diào)來電提示,比如普通電話的鈴聲或嘟嘟聲等。
[0033]如圖3所示,本發(fā)明提供了一種藍牙耳機100的來電號碼的個性化語音播報方法,其包括如下步驟。
[0034]步驟310,所述藍牙耳機進入語音通訊錄建立模式以為所述藍牙耳機的一個來電號碼建立一條語音通訊錄條目。
[0035]優(yōu)選的,在語音通訊錄建立模式下為一個來電號碼建立語音通訊錄條目時,是為所述藍牙耳機的最近的來電號碼建立語音通訊錄條目。
[0036]步驟320,在語音通訊錄建立模式時,所述藍牙耳機記錄一段用戶語音,所述用戶語音中可以包含對應(yīng)的來電號碼所代表的用戶的姓名或代號,將記錄的用戶語音與所述來電號碼建立對應(yīng)關(guān)系以形成所述來電號碼的語音通訊錄條目。
[0037]步驟330,在所述藍牙耳機100與移動通訊終端完成配對后,所述移動通訊終端上有來電時,所述藍牙耳機100基于藍牙免提規(guī)范從移動通訊終端獲得當(dāng)前來電號碼。
[0038]步驟340,所述藍牙耳機100確定是否已經(jīng)為該當(dāng)前來電號碼建立了語音通訊錄條目,如果是,則進入步驟350,如果否,則進入步驟360。
[0039]步驟350,在所述藍牙耳機已經(jīng)為該當(dāng)前來電號碼建立了語音通訊錄條目時,所述藍牙耳機播放該當(dāng)前來電號碼對應(yīng)的用戶語音。
[0040]步驟360,在所述藍牙耳機并未為該當(dāng)前來電號碼建立語音通訊錄條目時,所述藍牙耳機直接語音播報該來電號碼,或播放預(yù)定的一段音頻數(shù)據(jù),或進行合成音調(diào)來電提示。
[0041]本發(fā)明中的藍牙耳機和其來電號碼的個性化語音播報方法,其能夠為最近的來電號碼建立語音通訊錄條目,這樣在所述移動通訊終端上有來電時,所述藍牙耳機可以基于藍牙免提規(guī)范從移動通訊終端獲得當(dāng)前來電號碼,在所述藍牙耳機已經(jīng)為該當(dāng)前來電號碼建立了語音通訊錄條目時,所述藍牙耳機可以播放該當(dāng)前來電號碼對應(yīng)的用戶語音。這樣,使得本發(fā)明中的藍牙耳機具有如下優(yōu)點中的一個或幾個:第一、可以實現(xiàn)個性化提醒,用戶可以根據(jù)需要錄制各種搞怪的、有趣的語音,并且錄制的語音可以是各種語言、方言等,這樣在基于藍牙耳機進行來電提醒時用戶體驗很好;第二、可以使得藍牙耳機繞開復(fù)雜的、不穩(wěn)定的藍牙電話本存取規(guī)范,而只需要使得藍牙耳機符合藍牙免提規(guī)范(HFP)就可以實現(xiàn)來電的語音播報功能;第三、不需要采用復(fù)雜的TTS,降低了成本和功耗,同時脫離了語言種類的限制;第四、不需要對于其配對的移動通訊終端進行任何改動就可以實現(xiàn)來電的個性化語音播報功能,降低了對移動通訊終端的要求,也就是說,即便該移動通訊終端自身不支持藍牙耳機的語音播放提醒,只要其支持普通的藍牙免提規(guī)范(HFP),通過將本發(fā)明的藍牙耳機與該移動通訊終端進行配對就可以實現(xiàn)個性化的來電的語音播報功能。
[0042]語音撥打電話
[0043]類似在上文中有關(guān)來電號碼的個性化語音播報中介紹的,在此部分所述藍牙耳機100也具有語音通訊錄建立模式,所述藍牙耳機100在語音通訊錄建立模式下可以為所述藍牙耳機的一個來電號碼建立一條語音通訊錄條目。不同之處在于,在此部分所述語音通訊錄條目的結(jié)構(gòu)發(fā)生了一些改變,接下來將詳細描述。
[0044]在語音通訊錄建立模式時,所述音頻輸入模塊110采集一段用戶語音,該段語音可以是用戶讀出的該來電號碼的用戶的姓名或代號等的語音,用戶可以用任何語言、方言(比如英語、漢語、四川話等)來表達,所述處理模塊140基于所述音頻輸入模塊采集的用戶語音訓(xùn)練構(gòu)建一個參考模板,并將訓(xùn)練得到的參考模板與所述來電號碼建立對應(yīng)關(guān)系以構(gòu)建所述來電號碼的語音通訊錄條目,其中該參考模板是從對應(yīng)的用戶語音中提取的特征參數(shù)生成的一組參考特征矢量序列。
[0045]類似上文中有關(guān)來電號碼的個性化語音播報中介紹的,在語音通訊錄建立模式下為一個來電號碼建立語音通訊錄條目時,所述藍牙耳機100通常是為所述藍牙耳機的最近的來電號碼建立語音通訊錄條目。
[0046]如圖4所示,其為本發(fā)明中建立的語音通訊錄在另一個實施例中的原理示意圖,其中顯示了在藍牙耳機的存儲模塊130中已經(jīng)為η個來電號碼建立了語音通訊錄條目,其中來電號碼I和用戶語音的參考模板I形成有對應(yīng)關(guān)系,來電號碼2和用戶語音的參考模板2形成有對應(yīng)關(guān)系,來電號碼η和用戶語音的參考模板η形成有對應(yīng)關(guān)系,每條具有對應(yīng)關(guān)系的來電號碼和用戶語音的參考模板可以被稱為是一條語音通訊錄條目,所有的語音通訊錄條目聯(lián)合形成了所述語音通訊錄,該語音通訊錄由于包含了用戶個性化的語音的參考模板而變得獨一無二。
[0047]所述藍牙耳機100還具有語音撥打模式。用戶可以通過藍牙耳機100上的指令輸入接口使得所述藍牙耳機100進入語音撥打模式。
[0048]在語音撥打模式時,所述音頻輸入模塊110采集一段包含呼叫用戶的姓名或代號時的用戶語音,所述處理模塊140從采集的用戶語音中提取待測用戶語音,基于提取的待測用戶語音生成測試模板,將得到的測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以識別出與所述測試模板最終相匹配的參考模板,將與所述測試模板最終相匹配的參考模板對應(yīng)的來電號碼作為呼叫號碼發(fā)送至與所述藍牙耳機100配對的移動通訊終端中,由移動通訊終端撥打來自所述藍牙耳機100傳輸過來的呼叫號碼,從而實現(xiàn)語音撥打功能,其中所述測試模板為從提取的待測用戶語音中提取的特征參數(shù)生成的一組測試特征矢量序列。
[0049]在一個應(yīng)用中,所述藍牙耳機100與張三的手機實現(xiàn)配對,在張三使用所述藍牙耳機100接聽到了王鵬的來電(其電話號碼為1380023457)后,張三希望在藍牙耳機100中為王鵬建立語音通訊錄條目,可以使得所述藍牙耳機100進入語音通訊錄建立模式。在語音通訊錄建立模式時,張三可以以自己的方式(比如四川口音)說出王鵬的姓名或代號,藍牙耳機100對張三的用戶語音進行記錄,基于記錄的張三的用戶語音訓(xùn)練構(gòu)建一個參考模板,并將訓(xùn)練得到的參考模板與所述來電號碼1380023457建立對應(yīng)關(guān)系以構(gòu)建所述來電號碼的語音通訊錄條目,這樣就在藍牙耳機100中為王鵬建立了語音通訊錄條目。在語音撥打模式下,只要張三對著藍牙耳機100再次說出張三的姓名或代號,藍牙耳機100就可以找到與此次語音輸入信號的測試模板最終相匹配的參考模板及該參考模板對應(yīng)的來電號碼1380023457,藍牙耳機將來電號碼1380023457作為呼叫號碼發(fā)送至與所述藍牙耳機100配對的手機中,由手機撥打該電話號碼1380023457,從而實現(xiàn)語音撥打功能。需要注意的是,形成參考模板的用戶語音和用來進行語音識別的用戶語音應(yīng)該是同一個人,比如都是張三,這種方案被稱為基于孤立詞的特定人語音識別算法。孤立詞,指的是用戶發(fā)音方式,需要為識別聯(lián)系人列表中的每個聯(lián)系人建立一個參考模板;特定人,指的是識別和訓(xùn)發(fā)音人為同一個人,很容易支持多種語音和地方方言的支持。
[0050]如圖5所示,本發(fā)明提供了一種藍牙耳機100的語音撥打電話的方法500,其包括如下步驟。
[0051]步驟510,所述藍牙耳機進入語音通訊錄建立模式以為所述藍牙耳機的一個來電號碼建立一條語音通訊錄條目。優(yōu)選的,所述來電號碼為所述藍牙耳機的最近的來電號碼。可以通過指令輸入接口使得所述藍牙耳機進入語音通訊錄建立模式。
[0052]步驟520,在語音通訊錄建立模式時,所述藍牙耳機100記錄一段包含所述來電號碼的用戶的姓名或代號的用戶語音,基于這段用戶語音訓(xùn)練得到參考模板,其中所述參考模板是從這段用戶語音中提取的特征參數(shù)生成的一組參考特征矢量序列。這個過程被稱為參考模板的訓(xùn)練,用戶可以用任何語言、方言(比如英語、漢語、四川話等)來讀出該來電號碼的用戶的姓名或代號。
[0053]步驟530,將訓(xùn)練得到的參考模板與所述來電號碼建立對應(yīng)關(guān)系以構(gòu)建所述來電號碼的語音通訊錄條目。
[0054]重復(fù)步驟510至530可以在所述藍牙耳機100中建立具有用戶語音的參考模板的語音通訊錄。
[0055]步驟535,使得所述藍牙耳機100進入語音撥打模式??梢酝ㄟ^指令輸入接口使得所述藍牙耳機進入語音通訊錄建立模式。
[0056]步驟540,在語音撥打模式時,所述藍牙耳機100采集一段用戶語音。由于此時用戶語音并未經(jīng)過語音端點檢測,因此其也可以別稱為原始用戶語音。
[0057]步驟550,通過語音端點檢測(Voice Activity Detector, VAD)從采集的用戶語音中提取待測用戶語音。
[0058]在藍牙耳機的實際環(huán)境中采集的原始用戶語音不僅僅包括用戶說話的語音信號,還會包括背景的噪音信號,為了后續(xù)的語音識別提供強有力的支持使得后續(xù)的語音識別的成功率能夠一直維持較高的水平,因此非常有必要將實際的用戶語音(即前述的待測用戶語音)從采集的用戶語音(原始語音信號)中抽出,這個過程就被稱為語音端點的檢測。
[0059]步驟560,從待測用戶語音中提取特征參數(shù),生成待測特征矢量序列,其中所述待測特征矢量序列構(gòu)成測試模板。
[0060]步驟570,將得到的測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以識別出與所述測試模板最終相匹配的參考模板。
[0061]具體的,所述步驟570包括:將得到的測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以生成所述測試模板與每個參考模板的匹配分數(shù);將各個參考模板的匹配分數(shù)和預(yù)設(shè)的得分門限值以及預(yù)設(shè)的差距門限值進行比對,如果各個參考模板的匹配分數(shù)中的次小得分和最小得分的差值大于差距門限值,且所述最小得分小于得分門限值,則最小得分的參考模板被認為是與所述測試模板最終相匹配的參考模板。
[0062]步驟580,將與所述測試模板最終相匹配的參考模板對應(yīng)的來電號碼作為呼叫號碼發(fā)送至與所述藍牙耳機100配對的移動通訊終端中,由移動通訊終端撥打來自所述藍牙耳機100傳輸過來的呼叫號碼,從而基于藍牙耳機實現(xiàn)了語音撥打功能。
[0063]在本發(fā)明中的藍牙耳機和其語音撥打電話的方法500中,能夠為最近的來電號碼形成對應(yīng)的用戶語音的參考模板,從而構(gòu)成語音通訊錄條目,這樣通過藍牙耳機可以在語音撥打模式下實現(xiàn)語音撥打電話,給用戶帶來很大的方便。這樣,使得本發(fā)明中的藍牙耳機及其語音撥打方法具有如下優(yōu)點中的一個或幾個:第一、不論移動通信終端是否支持藍牙耳機的語音撥打功能,使用本發(fā)明中的藍牙耳機均可以實現(xiàn)語音撥打電話功能;第二、不需要對于其配對的移動通訊終端進行任何改動就可以通過藍牙耳機來實現(xiàn)語音撥打電話功能,降低了對移動通訊終端的要求;第三、語音識別在藍牙耳機中完成,這樣藍牙耳機只需要將需要呼叫的電話號碼通過藍牙相關(guān)協(xié)議傳輸給移動通訊終端即可,而不需要傳輸用戶語音,這樣可以降低藍牙的功耗,實現(xiàn)更為簡便;第四、由于藍牙耳機中存儲了語音通訊錄,這樣即便是用戶換了一個新手機,他在使用所述藍牙耳機與所述新手機配對后,仍然可以采用藍牙耳機語音撥打熟悉的朋友的電話;第五,相較于顯示屏或觸摸屏的人機交互方式,語音撥打電話能夠很好的應(yīng)用于藍牙耳機中,用戶非常操作。
[0064]來電號碼的個性化語音播報和語音撥打電話的組合
[0065]在一個實施例中,所述藍牙耳機100還可以同時支持來電號碼的個性化語音播報和語音撥打電話的功能。為了同時實現(xiàn)來電號碼的個性化語音播報和語音撥打電話的功能,最重要的就是改變語音通訊錄的結(jié)構(gòu)。
[0066]在此實施例中,在所述藍牙耳機100進入語音通訊錄建立模式后,同樣需要所述音頻輸入模塊110采集一段用戶語音,該段語音可以是用戶讀出的該來電號碼的用戶的姓名、代號或昵稱等的語音,所述處理模塊140將采集的用戶語音與所述來電號碼建立對應(yīng)關(guān)系。此外,所述處理模塊140還會基于所述音頻輸入模塊采集的用戶語音訓(xùn)練構(gòu)建一個參考模板,并將訓(xùn)練得到的參考模板與所述來電號碼建立對應(yīng)關(guān)系。這樣,來電號碼、用戶語音、參考模板三者建立了對應(yīng)關(guān)系,它們共同形成一條語音通訊錄條目。很顯然,這里只需要錄制一次用戶語音,就可以建立如圖6所示的語音通訊錄條目,用戶使用非常方便。
[0067]如圖6所示,其為本發(fā)明中的語音通訊錄在再一個實施例中的結(jié)構(gòu)示意圖,其中顯示了在藍牙耳機的存儲模塊130中已經(jīng)為η個來電號碼建立了語音通訊錄條目,其中來電號碼1、用戶語音1、用戶語音的參考模板I形成有對應(yīng)關(guān)系,來電號碼2、用戶語音2和用戶語音的參考模板2形成有對應(yīng)關(guān)系,來電號碼η和參考模板用戶語音η形成有對應(yīng)關(guān)系,每條具有對應(yīng)關(guān)系的來電號碼、用戶語音和用戶語音的參考模板可以被稱為是一條語音通訊錄條目。
[0068]形成了如圖6所示的語音通訊錄條目后,所述藍牙耳機既可以實現(xiàn)上文中描述的來電號碼的個性化語音播報功能,也可以實現(xiàn)語音撥打電話。
_9] 孤立詞特定人語音識別
[0070]語音撥打功能實現(xiàn)的關(guān)鍵都是語音識別技術(shù),所述語音識別技術(shù)通常包括:參考模板的訓(xùn)練、用戶語音采集、語音端點檢測、測試模板生成和模板匹配識別。
[0071]其中上文中的步驟520涉及參考模板的訓(xùn)練,上文中的步驟540涉及用戶語音采集,上文中的步驟550涉及語音端點檢測,上文中的步驟560涉及測試模板生成,上文中的步驟570涉及模板匹配識別。上文中對于語音識別中的各個步驟做了初步介紹,下面將逐一進行詳細介紹。
[0072]下面介紹一下步驟520中的參考模板的訓(xùn)練的一種實現(xiàn)方式。
[0073]用戶讀出需要訓(xùn)練的來電號碼的用戶的姓名或代號,所述藍牙耳機100對此進行記錄得到一段用戶語音,提取該段用戶語音中各幀的特征參數(shù),該特征參數(shù)可以以Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)中的 C1-C12 倒譜分量和 I 階差分系數(shù)構(gòu)成的24維特征參數(shù)表示,將獲取到的各巾貞的24維特征參數(shù)構(gòu)成一組參考特征矢量序列,其可以A = {&1) a2,...,aj表示,其中α為每幀信號的C1-C12倒譜分量和I階差分系數(shù)構(gòu)成的24維特征參數(shù),I為最后一幀語音信號的幀序號。一般,每幀語音信號對應(yīng)時間長度為10?20ms。
[0074]步驟540中的用戶語音采集比較常規(guī),這里就不再重復(fù)介紹了。步驟550中的語音端點檢測將在下文做單獨介紹。
[0075]下面介紹一下步驟560中的測試模板生成的具體執(zhí)行。
[0076]從待檢測語音信號中提取特征參數(shù),該特征參數(shù)可以是由步驟520中的提到的MFCC的C1-C12倒譜分量和I階差分系數(shù)構(gòu)成的24維特征參數(shù)表示,提取到的24維特征參數(shù)構(gòu)成待測特征矢量序列,該待測特征矢量序列即為測試模板,該測試模板可以以B =Ib1, b2,..., bj}表不。
[0077]下面介紹一下570中的模板匹配識別的一種實現(xiàn)方式。
[0078]首先,利用動態(tài)時間規(guī)整(Dynamic Time Warping, DTff)算法,將所述測試模板的待測特征矢量序列中由MFCC的C1-C12倒譜分量和I階差分系數(shù)構(gòu)成的24維特征參數(shù)和多個參考模板中的每個參考模板的參考特征矢量序列中由MFCC的C1-C12倒譜分量和I階差分系數(shù)構(gòu)成的24維特征參數(shù)分別進行運算,獲取所述測試模板相對于每個參考模板的匹配分數(shù)。
[0079]其次,將各個參考模板的匹配分數(shù)和預(yù)設(shè)的得分門限值以及預(yù)設(shè)的差距門限值進行比對,如果各個參考模板的匹配分數(shù)中的次小得分和最小得分的差值大于差距門限值,且所述最小得分小于得分門限值,則最小得分的參考模板被認為是與所述測試模板最終相匹配的參考模板,其中預(yù)設(shè)的得分門限值可以以threholcLscore表示,預(yù)設(shè)的差距門限值可以以threhold_dist表不。
[0080]在一個示例中,以語音通訊錄中訓(xùn)練了 4個用戶的姓名或代號為例,該4個用戶的姓名或代號可以是張三、李四、王五和周六,利用DTW算法,將待測特征矢量序列分別與各個命令詞對應(yīng)的參考模板的參考特征矢量序列進行匹配后,可以獲得一組匹配分數(shù),假如張三、李四、王五和周六獲得的匹配分數(shù)分別為113,302,278,269,在這一組匹配分數(shù)中,最小得分為113,最小得分和次小得分的差值為269-113 = 156,假設(shè)預(yù)設(shè)的得分門限值threhold_score的值為200,差距門限值threhold_dist的值為100,最小得分113和次小得分269的差值大于差距門限值100,且最小得分113小于得分門限值200,這樣最小得分113的參考模板,即張三的參考模板將被認為是與所述測試模板最終相匹配的參考模板。
[0081]得分門限值和差距門限值可以根據(jù)各種各樣的方式獲得。在一個實施例中,可以通過經(jīng)驗來設(shè)置,隨后根據(jù)誤識別率和誤拒絕率來確定識別效果,看是否需要調(diào)整兩個門限值,直到得到最優(yōu)的得分門限值和差距門限值。
[0082]在一個優(yōu)選的實施例中,在預(yù)設(shè)環(huán)境下,對語音通訊錄外的用戶名和語音通訊錄內(nèi)的用戶名分別進行錄音和特征提取,將獲取到的特征矢量序列與所述參考模板集中的各個參考模板進行匹配,生成所述特征矢量序列的得分,利用直方圖統(tǒng)計方法,生成得分門限值和差距門限值,實驗選取語音通訊錄內(nèi)的用戶名有張三、李四、王五和周六,實驗選取語音通訊錄外的用戶名有張戰(zhàn)、李師、王虎、周陸以及咳嗽聲,共5個。
[0083]比如,選取20位特定人,該20位特定人男女可以各占一半。首先在安靜會議室環(huán)境下進行集內(nèi)命令詞訓(xùn)練,得到每個特定人語音通訊錄內(nèi)的用戶名的參考模板集。然后在三種環(huán)境下,比如辦公室、會議室、戶外,進行錄音,可以對每個語音通訊錄內(nèi)的用戶名錄10遍,可以采集到的語音通訊錄內(nèi)的用戶名樣本每個特定人有4*3*10 = 120個,可以采集到的語音通訊錄外的用戶名樣本每個特定人有5*3*10 = 150個,每個特定人總共采集到的樣本有270個。針對每個特定人,對這270個樣本,可以進行DTW匹配計算,將該270個樣本和對應(yīng)特定人的參考模板集進行匹配,得到270組匹配分數(shù)。20位特定人可以得到270*20=5400組匹配分數(shù)。然后對這5400組匹配分數(shù)統(tǒng)計出每一組匹配分數(shù)的最小得分以及最小得分和次小得分的差值,可以使用直方圖統(tǒng)計方法,通過分析集內(nèi)命令和集外命令匹配分數(shù)的最小得分以及最小得分和次小得分的差值的分布,獲得得分門限值和差距門限值。
[0084]在本發(fā)明中,在threhold_score參數(shù)取值為200,而threhold_dist參數(shù)取值為100時,集內(nèi)命令的識別率為95%,而集外命令拒絕率為95%。當(dāng)采用傳統(tǒng)的單一門限值方法,S卩threhold_score參數(shù)取值為200時,集內(nèi)命令的識別率為95%,而集外命令的拒絕率為70%。顯然采用雙門限判決方法后,在保證集內(nèi)命令識別率不下降的前提下去,集外命令的誤識別率由30%降低為5%。
[0085]在本發(fā)明中的語音識別方案中,通過設(shè)置得分門限值和差距門限值,可以降低了集外命令詞的誤識別率,這樣實現(xiàn)了特定人孤立詞識別時較低的誤識別率和誤拒絕率,而且用戶體驗性較好。
[0086]離線語音端點檢測
[0087]語音端點檢測在語音識別應(yīng)用中具有重要的作用,好的語音端點檢測算法能夠提供好的系統(tǒng)魯棒性,無論用戶在何種環(huán)境下使用,語音識別率都能維持在同一水平上幾乎保持不變。目前,孤立詞語音識別通常采用實時語音端點檢測算法。采用實時語音端點檢測,可以在用戶講話完畢之后馬上進行識別,感覺不到延遲。但該方法對噪聲比較敏感,當(dāng)外界環(huán)境存在非平穩(wěn)噪聲,例如人聲、音樂聲等干擾較強的噪聲時,對實時語音端點檢測算法影響很大,錯誤判定孤立詞語音的起點和終點概率很高。因此采用實時端點檢測算法很難在噪聲較強的情況下準確檢測到孤立詞的語音端點。
[0088]在本發(fā)明中提供了一種離線語音端點檢測方法,如圖7所示,其可以用于上文中步驟550中,其包括如下步驟。
[0089]步驟801,獲取多幀連續(xù)的語音數(shù)據(jù)。
[0090]在一個實施例中,所述藍牙耳機100采集語音信號,將采集的語音信號進行模數(shù)轉(zhuǎn)換形成語音數(shù)據(jù),之后進行PCM編碼得到PCM數(shù)據(jù),將PCM數(shù)據(jù)以幀為單位進行處理。
[0091]步驟802,提取每幀語音數(shù)據(jù)的特征參數(shù)和語音能量值。
[0092]所述特征參數(shù)包括參考特征矢量,所述參考特征矢量可以包括但不限于:梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)或線性預(yù)測系數(shù)(LinearPredict1n Coefficient, LPC)。
[0093]步驟803,獲取所述多幀的語音數(shù)據(jù)中具有最大的語音能量值的語音數(shù)據(jù)幀。
[0094]步驟804,判斷所述最大的語音能量值是否低于第一能量門限值。當(dāng)最大的語音能量值不低于語音能量的第一能量門限值時,繼續(xù)所述離線語音端點檢測,執(zhí)行步驟805,否則直接結(jié)束此次離線語音端點檢測。
[0095]步驟805,從參考模板庫中選擇一個未被選擇過的參考模板。
[0096]所述參考模板庫由一個或多個訓(xùn)練而成的參考模板組成,所述參考模板的訓(xùn)練過程上文中已經(jīng)描述,這里不再重復(fù)。
[0097]步驟806,根據(jù)當(dāng)前選擇的參考模板的長度和具有最大的語音能量值的語音數(shù)據(jù)幀確定所述多幀語音數(shù)據(jù)中孤立詞語音的搜索范圍和搜索窗長度的范圍.
[0098]在一個實施例中,以具有最大的語音能量值的語音數(shù)據(jù)幀為中心,向語音數(shù)據(jù)的起始方向和終止方向進行擴展,其擴展的長度以當(dāng)前選擇的參考模板的長度為參考,以最終確定搜索范圍。將獲取的當(dāng)前參考模板的長度用L來表示,在一個具體的例子中,搜索范圍可以是以具有最大的語音能量值的語音數(shù)據(jù)幀為中心向兩個方向各擴展一個L。在另一個例子中,可以向兩個方向各擴展2L。搜索范圍的大小與L的關(guān)系可以根據(jù)需要設(shè)定。
[0099]此外,根據(jù)當(dāng)前參考模板的長度L確定搜索窗長度,比如搜索窗的長度的范圍為[0.5L, 2L]。
[0100]步驟807,根據(jù)預(yù)設(shè)的第一搜索步長確定所述搜索范圍內(nèi)的多個搜索起點i ;
[0101]具體的,在所述搜索范圍內(nèi),由所述搜索范圍的一側(cè)端點開始,每步進一個第一搜索步長SI,都是一個新的搜索起點i,由此確定所述搜索范圍內(nèi)全部的搜索起點i。
[0102]步驟808,根據(jù)預(yù)設(shè)的第二搜索步長和所述搜索窗長度的范圍確定多個搜索窗長度j ;
[0103]具體的,如前述步驟806所述,搜索窗長度j的范圍為[0.5L,2L],則在這個范圍中每步進一個第二搜索步長S2,都是一個確定的搜索窗長度j。即搜索窗長度j為:0.5L,
0.5L+S2,0.5L+2S2,0.5L+3S2,......,2L。
[0104]上述第一搜索步長SI和第二搜索步長S2分別可以根據(jù)需要進行設(shè)定,可以相同或者不同。它們分別以幀為單位,例如可以設(shè)定為I幀、2幀、5幀等等。
[0105]步驟809,對所述搜索范圍內(nèi)的每個搜索起點i按照所述多個搜索窗長度j分別進行搜索,根據(jù)搜索起點和搜索窗長度的每個組合(i,j),獲取一個相應(yīng)的測試模板。
[0106]具體的,對確定的每一個搜索起點,都逐步改變搜索窗長度j,按照j = 0.5L,
0.5L+S2,0.5L+2S2,0.5L+3S2,……,2L依次進行搜索,從而對于每一個確定的(i, j),都能獲得一個對應(yīng)的測試模板。
[0107]當(dāng)?shù)谝徊介LSI和第二步長S2都為I幀的時候,該搜索為逐點移動搜索。
[0108]步驟810,利用DTW算法計算每一所述測試模板與當(dāng)前選擇的參考模板的匹配距離得分。
[0109]步驟811,識別與當(dāng)前選擇的參考模板的匹配距離得分最小的測試模板,檢測該測試模板的語音能量平均值。
[0110]步驟812,判斷與當(dāng)前選擇的參考模板的匹配距離得分最小的測試模板的語音能量平均值是否低于第二能量門限值,如果是,執(zhí)行步驟814;否則,執(zhí)行步驟813。
[0111]有關(guān)最小的測試模板的語音能量平均值的計算以及后續(xù)的與第二能量門限值的比較,是為了濾除一些容易出現(xiàn)誤識別的情況,提高識別率。在一些實施例中,也可以不執(zhí)行最小的測試模板的語音能量平均值的計算以及后續(xù)的與第二能量門限值的比較,而直接從步驟811進入步驟813。
[0112]步驟813,記錄所述與當(dāng)前選擇的參考模板的匹配距離得分最小的測試模板的搜索窗的起點和終點,并記錄該測試模板與當(dāng)前選擇的參考模板的最小的匹配距離得分。
[0113]步驟814,判斷所述參考模板庫中是否還有剩余的未被選擇過的參考模板。
[0114]當(dāng)所述參考模板庫中還有剩余的未被選擇過的參考模板時,返回到步驟805,當(dāng)所述參考模板庫中沒有剩余的未被選擇過的參考模板時,執(zhí)行步驟816。
[0115]步驟816,從記錄的與各個選擇的參考模板的匹配距離得分最小的測試模板中選擇匹配距離得分最小的測試模板,將所述選擇的測試模板的搜索窗的起點和終點作為孤立詞語音的端點,即找到了用于進行語音識別的待測語音。
[0116]需要說明的是,如果所述參考模板庫中只包括一個參考模板,并且與該參考模板的匹配距離得分最小的測試模板的語音能量平均值不低于第二門限值,則在步驟816中直接將與這一個參考模板的匹配距離得分最小的測試模板的搜索窗的起點和終點作為孤立語音詞的端點。但如果與該參考模板的匹配距離得分最小的測試模板的語音能量平均值低于第二門限值時,則跳過步驟816,認為沒有識別到有效語音數(shù)據(jù),退出離線語音端點檢測。
[0117]通過本發(fā)明實施例提供的離線語音檢測方法,能夠準確有效的對孤立詞的語音端點進行檢測。
[0118]以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種具有語音通訊錄建立模式的藍牙耳機,其特征在于,其包括音頻輸入模塊、處理模塊、存儲模塊和音頻輸出模塊, 所述藍牙耳機進入語音通訊錄建立模式以為所述藍牙耳機的一個來電號碼建立一條語音通訊錄條目,在語音通訊錄建立模式時,所述音頻輸入模塊采集一段用戶語音,所述處理模塊將所述用戶語音或/和基于所述用戶語音訓(xùn)練得到的參考模板與所述藍牙耳機中的所述來電號碼建立對應(yīng)關(guān)系以為所述來電號碼建立一條語音通訊錄條目,并將所述來電號碼的語音通訊錄條目存儲于所述存儲模塊中,一條或多條語音通訊錄條目形成藍牙耳機中的語音通訊錄。
2.如權(quán)利要求1所述的藍牙耳機,其特征在于,在所述藍牙耳機與移動通訊終端完成配對后,所述移動通訊終端上有來電時,處理模塊還用于基于藍牙免提規(guī)范從移動通訊終端獲得當(dāng)前來電號碼,并在確定已經(jīng)為該當(dāng)前來電號碼建立了語音通訊錄條目時提取所述當(dāng)前來電號碼對應(yīng)的用戶語音,并交由所述音頻輸出模塊播放。
3.如權(quán)利要求2所述的藍牙耳機,其特征在于,所述處理模塊在確定并未為該當(dāng)前來電號碼建立語音通訊錄條目時,使得所述音頻輸出模塊直接語音播報該當(dāng)前來電號碼,或播放預(yù)定的一段音頻數(shù)據(jù),或進行合成音調(diào)來電提示。
4.如權(quán)利要求1所述的藍牙耳機,其特征在于,在語音通訊錄建立模式下為一個來電號碼建立語音通訊錄條目時是為所述藍牙耳機的最近的來電號碼建立語音通訊錄條目。
5.如權(quán)利要求1所述的藍牙耳機,其特征在于,在語音通訊錄建立模式時,所述音頻輸入模塊采集的用戶語音中包含對應(yīng)的來電號碼所代表的用戶的姓名或代號。
6.如權(quán)利要求1-5任一所述的藍牙耳機,其特征在于,所述參考模板是從對應(yīng)的用戶語音中提取的特征參數(shù)生成的一組參考特征矢量序列。
7.如權(quán)利要求6所述的藍牙耳機,其特征在于,其具有語音撥打模式,在語音撥打模式時,音頻輸入模塊采集一段包括有呼叫用戶的姓名或代號的用戶語音,所述處理模塊基于采集的包括有呼叫用戶的姓名或代號的用戶語音生成測試模板,其中所述測試模板為從所述用戶語音中提取的特征參數(shù)生成的一組測試特征矢量序列;所述處理模塊將所述測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以找到與所述測試模板最終相匹配的參考模板,將與所述測試模板最終相匹配的參考模板對應(yīng)的來電號碼作為呼叫號碼發(fā)送至與所述藍牙耳機配對的移動通訊終端中,由移動通訊終端撥打來自所述藍牙耳機中的呼叫號碼。
8.如權(quán)利要求7所述的藍牙耳機,其特征在于,將所述測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以找到與所述測試模板最終相匹配的參考模板包括: 將得到的測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以生成所述測試模板與每個參考模板的匹配分數(shù); 將各個參考模板的匹配分數(shù)和預(yù)設(shè)的得分門限值以及預(yù)設(shè)的差距門限值進行比對,如果各個參考模板的匹配分數(shù)中的次小得分和最小得分的差值大于差距門限值,且所述最小得分小于得分門限值,則最小得分的參考模板被認為是與所述測試模板最終相匹配的參考模板。
9.一種藍牙耳機的語音交互控制方法,其特征在于,其包括: 進入語音通訊錄建立模式以為所述藍牙耳機的一個來電號碼建立一條語音通訊錄條目; 在語音通訊錄建立模式時,所述藍牙耳機采集一段用戶語音,將所述用戶語音或/和基于所述用戶語音訓(xùn)練得到的參考模板與所述藍牙耳機中的所述來電號碼建立對應(yīng)關(guān)系以為所述來電號碼建立一條語音通訊錄條目; 將所述來電號碼的語音通訊錄條目存儲于存儲模塊中,其中一條或多條語音通訊錄條目形成藍牙耳機中的語音通訊錄。
10.如權(quán)利要求9所述的藍牙耳機的語音交互控制方法,其特征在于,其還包括: 在所述藍牙耳機與移動通訊終端完成配對后,所述移動通訊終端上有來電時,所述藍牙耳機基于藍牙免提規(guī)范從移動通訊終端獲得當(dāng)前來電號碼; 在所述藍牙耳機已經(jīng)為該當(dāng)前來電號碼建立了語音通訊錄條目時,所述藍牙耳機播放該當(dāng)前來電號碼對應(yīng)的用戶語音。
11.如權(quán)利要求10所述的藍牙耳機的語音交互控制方法,其特征在于,其還包括:在所述藍牙耳機并未為該當(dāng)前來電號碼建立語音通訊錄條目時,所述藍牙耳機直接語音播報該來電號碼,或播放預(yù)定的一段音頻數(shù)據(jù),或進行合成音調(diào)來電提示。
12.如權(quán)利要求9所述的藍牙耳機的語音交互控制方法,其特征在于,在語音通訊錄建立模式下為一個來電號碼建立語音通訊錄條目時是為所述藍牙耳機的最近的來電號碼建立語音通訊錄條目。
13.如權(quán)利要求9所述的藍牙耳機的語音交互控制方法,其特征在于,在語音通訊錄建立模式時采集的用戶語音中包含對應(yīng)的來電號碼所代表的用戶的姓名或代號。
14.如權(quán)利要求9-13任一所述的藍牙耳機的語音交互控制方法,其特征在于,所述參考模板是從對應(yīng)的用戶語音中提取的特征參數(shù)生成的一組參考特征矢量序列。
15.如權(quán)利要求14所述的藍牙耳機的語音交互控制方法,其特征在于,藍牙耳機具有語音撥打模式,所述方法還包括:在語音撥打模式時, 采集一段包含有呼叫用戶的姓名或代號的用戶語音; 基于包含有呼叫用戶的姓名或代號的用戶語音生成測試模板,其中所述測試模板為從包含有呼叫用戶的姓名或代號的用戶語音中提取的特征參數(shù)生成的一組測試特征矢量序列; 將所述測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以找到與所述測試模板最終相匹配的參考模板; 將與所述測試模板最終相匹配的參考模板對應(yīng)的來電號碼作為呼叫號碼發(fā)送至與所述藍牙耳機配對的移動通訊終端中,由移動通訊終端撥打來自所述藍牙耳機中的呼叫號碼。
16.如權(quán)利要求15所述的藍牙耳機的語音交互控制方法,其特征在于,將所述測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以找到與所述測試模板最終相匹配的參考模板包括: 將得到的測試模板與語音通訊錄中的各個來電號碼對應(yīng)的參考模板進行匹配以生成所述測試模板與每個參考模板的匹配分數(shù); 將各個參考模板的匹配分數(shù)和預(yù)設(shè)的得分門限值以及預(yù)設(shè)的差距門限值進行比對,如果各個參考模板的匹配分數(shù)中的次小得分和最小得分的差值大于差距門限值,且所述最小得分小于得分門限值,則最小得分的參考模板被認為是與所述測試模板最終相匹配的參考模板。
【文檔編號】H04M1/57GK104168353SQ201410337203
【公開日】2014年11月26日 申請日期:2014年7月15日 優(yōu)先權(quán)日:2013年7月30日
【發(fā)明者】楊曉東, 陳建, 祝鋒, 馮宇紅 申請人:無錫中星微電子有限公司