專利名稱:多模型自適應(yīng)和語音識別裝置及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音識別系統(tǒng),更具體地涉及一種多模型自適應(yīng)和語音識別裝置及其方法,借此對說話人按照特性的語音分別進行自適應(yīng)并存儲到基本語音模型與獨立的新的多模型中,并通過利用多元自適應(yīng)模型的語音識別,提供穩(wěn)定的實時語音識別。
背景技術(shù):
語音識別系統(tǒng)不針對每個用戶分別具備模型,而是謀求具有一個非特定人模型的非特定人語音識別,以便能夠識別非特定多數(shù)人的語音。由于語音識別通過基礎(chǔ)技術(shù)即統(tǒng)計建模的方式來執(zhí)行,因此根據(jù)說話人,識別率出現(xiàn)偏差,而且根據(jù)周圍環(huán)境識別率也有所不同。因周圍環(huán)境而識別率下降的問題,可通過使用噪音消除技術(shù)來提高識別率,但是因不同說話人的發(fā)音特性而識別率下降的問題與噪音消除技術(shù)是不同層次的問題。為解決由于不同說話人的發(fā)音特性而識別率下降的問題,已經(jīng)開發(fā)并正在使用自適應(yīng)技術(shù)。自適應(yīng)技術(shù)可分為將用于語音識別的語音模型調(diào)整為符合當前使用的說話人發(fā)音特性的技術(shù)。自適應(yīng)方法將語音識別不理想的說話人的語音自適應(yīng)到語音識別系統(tǒng)的一個基本語音模型,最終可用一個模型來進行語音識別。而且,在進行語音識別時,提取并使用說話人發(fā)出的語音中必要的信息即特征向量(特征參數(shù))。尤其,在語音識別系統(tǒng)為具有非特定人模型的非特定人式的情況下,為了識別不同說話人的語音,使用多維特征向量建立語音模型,并將其作為標準模型。圖14是現(xiàn)有語音識別系統(tǒng)中根據(jù)不同說話人的自適應(yīng)來表示模型的平均值變化偏差的示意圖,例如表示具有10次因素的語音模型的一部分。如圖所示,可用多維向量32的平均和方差來表示語音模型31。如果將說話人的語音輸入到語音模型31并進行自適應(yīng),則平均和方差值相應(yīng)于進行自適應(yīng)的說話人的特征而移動,在一般的自適應(yīng)情況下,由基本模型的平均和方差值 (32)不會發(fā)生多大變化(33),但增加發(fā)音特別的說話人或者環(huán)境因素的情況下,由基本模型的平均和方差值發(fā)生很大變化(34)。因此,語音識別不理想的多個人依次對語音識別系統(tǒng)進行自適應(yīng)時,起初識別率會急劇上升,但隨著依次進行自適應(yīng),先進行自適應(yīng)的說話人的識別率逐漸降低,而只有最后進行自適應(yīng)的說話人的識別率才比較良好。
發(fā)明內(nèi)容
本發(fā)明是為了解決上述問題而提出的,其目的在于,對說話人的按照特性的語音分別進行自適應(yīng)并存儲到基本語音模型與獨立的新的多模型中,并通過選擇對應(yīng)于輸入語音的多元自適應(yīng)模型以進行語音識別,從而提供穩(wěn)定的實時語音識別。本發(fā)明的另一個目的在于,組成針對每個說話人的獨立的自適應(yīng)模型、針對音色的獨立的自適應(yīng)模型、由具有相似特性的說話人組成群體的獨立的自適應(yīng)模型,并通過符合每個獨立模型的自適應(yīng)而提供穩(wěn)定的實時語音識別。為達到上述目的的本發(fā)明的特征是提供一種多模型自適應(yīng)裝置,其包括模型模型編號選擇單元,用于選擇說話人為了語音自適應(yīng)而指定的某一個模型;特征向量提取單元,用于從為了自適應(yīng)而輸入的說話人語音中提取特征向量;自適應(yīng)處理單元,適用所設(shè)定的發(fā)音信息列模型和基本語音模型的標準值以對說話人的語音進行自適應(yīng)之后,將結(jié)果存儲到說話人指定的模型中,并對已進行自適應(yīng)的模型設(shè)定標志;多元自適應(yīng)模型,由多個模型組成,根據(jù)說話人的指定且按照特性進行自適應(yīng)的語音存儲到所述多元自適應(yīng)模型中。另外,本發(fā)明的特征是提供一種語音識別裝置,其包括特征向量提取單元,用于從說話人的輸入語音中提取語音識別所需要的特征向量;模型確定單元;用于從多元自適應(yīng)模型中依次只選擇標志被設(shè)定為已進行自適應(yīng)的模型;相似度計算單元;計算從說話人的語音中提取的特征向量與存儲在所選模型中的自適應(yīng)值的相似度,以提取具有最大相似度值的模型;語音識別單元,其通過解碼來進行語音識別,所述解碼適用存儲于所述具有最大相似度值的模型中的自適應(yīng)值與存儲在通過學(xué)習(xí)而設(shè)定的模型中的值。而且,本發(fā)明的特征是提供一種多模型自適應(yīng)方法,其包括以下步驟選擇說話人指定的某一個模型;從說話人的輸入語音中提取用于語音模型的特征向量;使用所設(shè)定的發(fā)音信息列模型和基本語音模型對所提取的特征向量進行自適應(yīng),并將結(jié)果存儲在所述多個模型中說話人所指定的模型中,且設(shè)定指示為是否已進行自適應(yīng)的標志。另外,本發(fā)明的特征是提供一種語音識別方法,其包括以下步驟從要求語音識別的說話人的輸入語音中提取特征向量;讀取設(shè)定于多元自適應(yīng)模型中的標志,從而只選擇已進行自適應(yīng)的模型;依次比較從說話人的輸入語音中提取的特征向量和通過讀取標志來選擇的模型,以計算自適應(yīng)值的相似度;對所選全體模型完成相似度計算后,選擇具有最大相似度值的一個模型,然后通過解碼來進行語音識別。此外,本發(fā)明的特征是提供一種語音識別方法,其包括以下步驟從要求語音識別的說話人的輸入語音中提取特征向量;讀取設(shè)定于多元自適應(yīng)模型的標志,從而只選擇說話人識別模型;依次比較說話人輸入語音的特征向量和所選的說話人識別模型,以計算自適應(yīng)值的相似度;對所有說話人識別模型完成相似度計算后,選擇具有最大相似度值的一個模型,然后通過解碼來進行語音識別。另外,本發(fā)明的特征是提供一種語音識別方法,其包括以下步驟從要求語音識別的說話人的輸入語音中提取特征向量;讀取設(shè)定于多元自適應(yīng)模型的標志,從而只選擇音色模型;依次比較說話人輸入語音的特征向量和所選音色模型,以計算自適應(yīng)值的相似度; 對所有音色模型完成相似度計算后,選擇具有最大相似度值的一個模型,然后通過解碼來進行語音識別。此外,本發(fā)明的特征是提供一種多模型自適應(yīng)方法,其包括以下步驟選擇說話人指定的某一個模型;從說話人的輸入語音中提取用于自適應(yīng)語音模型的特征向量;適用所設(shè)定的發(fā)音信息列模型和基本語音模型進行特征向量的自適應(yīng)后,將結(jié)果存儲在所指定的模型中,以生成自適應(yīng)模型;比較在上述過程中生成的自適應(yīng)模型與基本模型的相似度,并以相似度大小為對象建立二叉樹。而且,本發(fā)明的特征是提供一種語音識別方法,其包括以下步驟從要求語音識別的說話人的輸入語音中提取特征向量;計算基本模型與設(shè)定在所有自適應(yīng)模型的指令字的子字模型(subword model)的相似度;當維特比得分(Viterbi Score)差值為一定值以上時,在以后的幀(frame)中選擇維特比得分最高的模型,并通過解碼來進行語音識別。此外,本發(fā)明的特征是提供一種多模型自適應(yīng)方法,其包括以下步驟選擇說話人指定的某一個模型;從說話人的輸入語音中提取用于自適應(yīng)語音模型的特征向量,并進行自適應(yīng);在進行自適應(yīng)的過程中,通過動態(tài)時間規(guī)整模型學(xué)習(xí)語音指令字的時間信息中相應(yīng)于關(guān)鍵字的時間信息的特征向量部分;將所述已進行自適應(yīng)的模型和經(jīng)過學(xué)習(xí)的動態(tài)時間規(guī)整模型的信息存儲在上述過程中說話人指定的模型中。此外,本發(fā)明的特征是提供一種語音識別方法,其包括以下步驟從要求語音識別的說話人的輸入語音中提取特征向量;適用基本語音模型進行解碼;提取所述解碼過程中計算的單詞時間信息,判斷是否為相應(yīng)于關(guān)鍵字的單詞時間信息列;如果是相應(yīng)于關(guān)鍵字的單詞時間信息列,提取相當于單詞時間信息的特征向量,并計算與動態(tài)時間規(guī)整模型的相似度;選擇相似度最高的模型,并通過解碼來進行語音識別。此外,本發(fā)明的特征是提供一種多模型自適應(yīng)裝置,在語音識別系統(tǒng)中適用指定位置信息的多話筒,并利用波束形成技術(shù)來判斷為了自適應(yīng)而輸入的音源位置,借以對相應(yīng)的模型進行自適應(yīng)。如上所述的本發(fā)明在語音識別系統(tǒng)的語音識別自適應(yīng)過程中,不是只使用一個模型來對多個人的語音進行自適應(yīng),而是按照說話人或群組使用不同的獨立模型,從而最大限度地提高自適應(yīng)效果,并提供準確的語音識別率,以提高語音識別系統(tǒng)的可靠性,對大眾化普及帶來巨大的效果。
圖1是表示根據(jù)本發(fā)明實施例的多模型自適應(yīng)裝置結(jié)構(gòu)的示意圖。圖2是表示根據(jù)本發(fā)明實施例的語音識別裝置結(jié)構(gòu)的示意圖。圖3是表示根據(jù)本發(fā)明第一實施例的多模型自適應(yīng)步驟的示意圖。圖4是表示根據(jù)本發(fā)明第一實施例的語音識別步驟的示意圖。圖5是表示根據(jù)本發(fā)明第二實施例的語音識別步驟的示意圖。圖6是表示根據(jù)本發(fā)明第三實施例的語音識別步驟的示意圖。圖7是表示根據(jù)本發(fā)明第二實施例的多模型自適應(yīng)步驟的示意圖。圖8是表示根據(jù)本發(fā)明第二實施例的多模型自適應(yīng)步驟中相似度二叉樹的示意圖。圖9是表示根據(jù)本發(fā)明第四實施例的語音識別步驟的示意圖。圖10是表示根據(jù)本發(fā)明第三實施例的多模型自適應(yīng)步驟的示意圖。圖11是表示根據(jù)本發(fā)明第五實施例的語音識別步驟的示意圖。圖12是表示根據(jù)本發(fā)明第六實施例的語音識別步驟的示意圖。圖13是表示根據(jù)本發(fā)明的第三實施例利用多話筒且按照位置進行多模型自適應(yīng)的示意圖。
圖14是表示現(xiàn)有的語音識別系統(tǒng)中根據(jù)不同說話人的自適應(yīng)而發(fā)生的模型平均值的變化偏差。圖中主要部分的附圖標記110:模型編號選擇單元 120:特征向量提取單元130:自適應(yīng)處理單元 140:發(fā)音信息列模型150:基本語音模型160:多遠自適應(yīng)模型
具體實施例方式下面,參照附圖詳細地說明本發(fā)明的優(yōu)選實施例,以使所屬領(lǐng)域的技術(shù)人員容易實施。本發(fā)明能夠以各種不同方式實現(xiàn),因此并不局限于下述實施例,為了明確說明本發(fā)明,圖中省略了與說明無關(guān)的部分。圖1是表示根據(jù)本發(fā)明實施例的多模型自適應(yīng)裝置結(jié)構(gòu)的示意圖。根據(jù)本發(fā)明的多模型自適應(yīng)裝置,包括模型編號選擇單元110、特征向量提取單元 120、自適應(yīng)處理單元130、發(fā)音信息列模型140、基本語音模型150及多元自適應(yīng)模型160。所述模型編號選擇單元110選擇說話人為了進行語音自適應(yīng)而指定的某一個語音模型,并將有關(guān)該模型的信息提供給自適應(yīng)處理單元130。特征向量提取單元120從通過未圖示的語音輸入裝置輸入的說話人的語音中提取用于語音模型的特征向量(特征參數(shù)),并提供給自適應(yīng)處理單元130。當由模型編號選擇單元110選擇說話人指定的語音模型,并由特征向量提取單元 120從所輸入的說話人的語音中提取特征向量(特征參數(shù))并將其施加于自適應(yīng)處理單元 130時,自適應(yīng)處理單元130適用設(shè)定于發(fā)音信息列模型140和基本模型150中的值,對所輸入的語音進行自適應(yīng)之后存儲到所述指定的語音模型中。在對說話人的輸入語音進行自適應(yīng)的過程中,所述自適應(yīng)處理單元130生成說話人識別模型、由聲壓對時間的斜率信息建模的音色模型后予以存儲。所述發(fā)音信息列模型140中存儲為了對所提取的特征向量(特征參數(shù))的發(fā)音信息列進行自適應(yīng)的標準值。所述基本語音模型150中存儲為了對所提取的特征向量(特征參數(shù))的語音信息進行自適應(yīng)的標準值。多元自適應(yīng)模型160由兩個以上的自適應(yīng)模型組成,每個自適應(yīng)模型160A 160N 包含針對每個說話人的自適應(yīng)模型、針對音色的自適應(yīng)模型、由具有相似特性的說話人組成群體的自適應(yīng)模型等而構(gòu)成獨立的模型,在每個獨立的模型中存儲根據(jù)說話人的指定且按照特性進行自適應(yīng)的語音。對組成所述多元自適應(yīng)模型160的多個獨立的自適應(yīng)模型設(shè)定標志,用于指示是否已進行自適應(yīng)的信息。例如,模型只要進行過一次自適應(yīng),標志會被設(shè)定為“ 1 ”,如果未進行自適應(yīng)而處于初始狀態(tài),標志會被設(shè)定為“0”。圖2是表示根據(jù)本發(fā)明實施例的語音識別裝置結(jié)構(gòu)的示意圖。根據(jù)本發(fā)明的語音識別裝置,包括特征向量提取單元210、模型確定單元220、相似度計算單元230、語音識別單元M0、多元自適應(yīng)模型250及解碼模型單元沈0。特征向量提取單元210從通過未圖示的語音輸入裝置輸入的說話人的語音中提取有利于語音識別的特征向量(特征參數(shù))。用于語音識別的所述特征向量有LPC (線性預(yù)測倒譜,Linear PredictiveC印strum)、MFC (美爾頻率倒譜,Mel Frequency C印strum)、PLP (感知線性預(yù) illj, Perceptual Linear Predictive)等。為了針對所提取的特征向量(特征參數(shù))進行語音識別,模型確定單元220從多元自適應(yīng)模型250中依次只選擇標志設(shè)定為“ 1”的自適應(yīng)模型251,使之適用于相似度的計算,而對于標志設(shè)定為“0”的模型252,使之無法適用于相似度的計算。為了針對所提取的特征向量(特征參數(shù))進行語音識別,模型確定單元220從多元自適應(yīng)模型250中依次只提取標志設(shè)定為“1”的說話人識別模型,使之適用于相似度的計算。而且,為了針對所提取的特征向量(特征參數(shù))進行語音識別,模型確定單元220 從多元自適應(yīng)模型250中依次只提取標志設(shè)定為“1”的音色模型,使之適用于相似度的計
笪弁。在充分考慮量變和向變的情況下,相似度計算單元230計算從所輸入的語音中提取的特征向量(特征參數(shù))與存儲在所選模型中的自適應(yīng)值的相似度,并選擇具有最大相似度值的自適應(yīng)模型。在對音色模型的相似度計算中,所述相似度計算單元230使用聲壓和斜率信息。語音識別單元240通過解碼來進行語音識別,并輸出語音識別結(jié)果,所述解碼適用具有最大相似度的自適應(yīng)模型,以及經(jīng)過事先的學(xué)習(xí)過程預(yù)先設(shè)定的解碼模型單元260 的詞典模型261、語法模型沈2。包含前述功能而構(gòu)成的本發(fā)明的多模型自適應(yīng)步驟如下。圖3是表示根據(jù)本發(fā)明第一實施例的多模型自適應(yīng)步驟的示意圖。首先,擬進行語音自適應(yīng)的說話人為了不讓自己的自適應(yīng)模型與別人的自適應(yīng)模型重疊而進行區(qū)別化,利用模型編號選擇單元110從多個自適應(yīng)模型中選擇某一個所希望的模型編號(SlOl)。于是,自適應(yīng)處理單元130使對應(yīng)于通過模型編號選擇單元110說話人所選編號的模型進入待機模式。然后,當說話人的語音被輸入610 后,特征向量提取單元120從所輸入的語音中提取自適應(yīng)所需要的特征向量(特征參數(shù))(S103),之后適用通過學(xué)習(xí)而決定并被預(yù)先設(shè)定的發(fā)音信息列模型140與基本語音模型150,對特征向量進行自適應(yīng)(S104)。通過上述過程,對所輸入的說話人的語音完成自適應(yīng)后,將結(jié)果存儲到在步驟 SlOl中說話人所指定的自適應(yīng)模型中(S105),并將指示為已進行自適應(yīng)的標志設(shè)定為“1” 之后,結(jié)束自適應(yīng)動作。例如,當說話人選擇第一自適應(yīng)模型160A并輸入自己的語音后,提取特征向量, 然后適用經(jīng)過預(yù)先學(xué)習(xí)而決定的發(fā)音信息列模型和基本語音模型進行自適應(yīng),并將結(jié)果存儲到說話人選擇的第一自適應(yīng)模型160A中,在該自適應(yīng)模型160A中指示為已由某一個說話人進行自適應(yīng)的標志被設(shè)定為“ 1 ”。
所述自適應(yīng)步驟能夠讓說話人根據(jù)自身的特性而選擇各不相同的模型以進行自適應(yīng),從而不會與其他說話人的自適應(yīng)模型重疊,而提高語音識別率。圖4是表示根據(jù)本發(fā)明第一實施例的語音識別步驟的示意圖。當說話人的語音被輸入(S201)后,特征向量提取單元210提取有利于語音識別的特征向量(特征參數(shù))(S202)。然后,從N個的多元自適應(yīng)模型250中讀取設(shè)定在模型中的標志,進而依次只選擇由任一個說話人進行自適應(yīng)的模型,并分析是否為與所輸入的語音具有相似度的模型
(5203)。S卩,在N個的自適應(yīng)模型中,將標志被設(shè)定為“1”的模型251適用于和所輸入的語音數(shù)據(jù)的相似度的判斷上,而標志被設(shè)定為“0”的模型252是未曾進行一次自適應(yīng)的初始狀態(tài),因此從相似度判斷中排除。然后,判斷通過讀取標志而選擇的模型是否為能夠適用于語音識別的模型
(5204)。如果在所述步驟S204中判斷所選模型無法適用于語音識別,則重復(fù)針對下一個模型進行選擇及分析的過程。如果在所述步驟S204中判斷所選模型能夠適用于語音識別,則計算從所輸入的語音中提取的特征向量與設(shè)定于模型中的數(shù)據(jù)的相似度(S205),并判斷是否已針對標志設(shè)定為“1”的所有模型依次完成數(shù)據(jù)相似度的計算(S206)。在所述步驟S206中,如果處于未對所有模型完成相似度計算的狀態(tài),則對模型進行升值計數(shù)(count up) (S207)之后,返回所述步驟S203,以對已進行自適應(yīng)的所有模型依次進行相似度計算。在所述步驟S206中,如果處于對所有模型已完成相似度計算的狀態(tài),則選擇具有最大相似度值的模型(S208)之后,通過適用了經(jīng)過學(xué)習(xí)過程預(yù)先被設(shè)定的單詞詞典模型、 語法信息模型的解碼來進行語音識別(S209) (S210)。通過所述步驟進行語音識別后輸出其結(jié)果,以進行對應(yīng)于語音輸入的控制 (S211)。在通常的語音識別中,依次輸入N個多元自適應(yīng)模型和基本模型,并計算所有模型與輸入語音的相似度,因此模型的數(shù)量越多計算量也會增加而復(fù)雜。但是,本發(fā)明的第一實施例中,在尋找與輸入的語音最相似的模型的過程中,由于未曾進行一次自適應(yīng)的初始狀態(tài)的模型標志被設(shè)定為“0”,因此對于這種模型從相似度計算中排除,而已經(jīng)進行了自適應(yīng)的模型標志被設(shè)定為“1”,因此只選擇這種模型依次進行相似度計算,從而提高計算速度。S卩,通過讀取標志只選擇至少進行過一次自適應(yīng)的模型,進行相似度計算,從而提高計算速度,并從基本語音模型與經(jīng)過不同的自適應(yīng)化過程的模型中,選擇具有與所輸入的語音最相似特性的模型,從而能夠根據(jù)語音輸入實時進行識別處理。圖5是表示根據(jù)本發(fā)明第二實施例的語音識別步驟的示意圖。當說話人的語音被輸入(S301)后,特征向量提取單元210提取有利于語音識別的特征向量(特征參數(shù))(S302)。然后,從基本說話人模型與N個的說話人識別模型310中讀取設(shè)定在模型的標志,并只選擇已進行自適應(yīng)的說話人識別模型210 (S303)。S卩,在N個的說話人識別模型310中,標志被設(shè)定為“ 1,,的模型321為已進行自適應(yīng)的說話人識別模型,因此將其適用于和所輸入語音數(shù)據(jù)的相似度計算中,而標志被設(shè)定為“0”的模型331是未曾進行一次自適應(yīng)的初始狀態(tài)的說話人識別模型,因此從相似度計算中排除。在上述步驟中,當選擇已進行自適應(yīng)的說話人識別模型310后,計算從輸入語音中提取的特征向量與設(shè)定于說話人識別模型中的數(shù)據(jù)的相似度(S304),并判斷是否已對標志被設(shè)定為“1”的所有說話人識別模型310完成相似度的計算(S305)。在所述步驟S305中,如果處于未對所有說話人識別模型310完成相似度計算的狀態(tài),則對說話人識別模型310進行升值計數(shù)之后,返回到所述步驟S303,以對已進行自適應(yīng)的所有說話人識別模型依次進行相似度計算。在所述步驟S305中,如果判斷為已經(jīng)完成了對所有說話人識別模型310的相似度計算,則選擇具有最大相似度的模型(S306),之后通過適用經(jīng)過學(xué)習(xí)過程預(yù)先被設(shè)定的單詞詞典模型、語法信息模型等的解碼來進行語音識別(S307) (S308)。通過上述步驟進行語音識別后輸出其結(jié)果,以進行對應(yīng)于語音輸入的控制 (S309)。如上所述,在本發(fā)明的第二實施例中,適用說話人識別模型310以取代基本模型和自適應(yīng)模型,并通過讀取標志只選擇已進行自適應(yīng)的說話人識別模型310,從而提供精確度更高的模型選擇,并對所選的說話人識別模型310進行相似度計算,從而能夠?qū)崿F(xiàn)快速計算且對語音輸入進行實時識別處理。圖6是表示根據(jù)本發(fā)明第三實施例的語音識別步驟的示意圖。當說話人的語音被輸入(S401)后,特征向量提取單元210提取有利于語音識別的特征向量(特征參數(shù))(S402)。然后,讀取設(shè)定在基本音色模型和N個音色模型410的標志,進而只選擇已進行自適應(yīng)的音色模型410(S403)。S卩,在由N個構(gòu)成的音色模型410中標志被設(shè)定為“ 1,,的模型421為已進行自適應(yīng)的音色模型,因此適用于和所輸入的語音數(shù)據(jù)的相似度判斷上,而標志被設(shè)定為“0”的模型431為未曾進行一次自適應(yīng)的初始狀態(tài)的音色模型,因此從相似度判斷中排除。在上述步驟中,當選擇已進行自適應(yīng)的音色模型410后,計算從輸入語音中提取的特征向量與設(shè)定于音色模型中的數(shù)據(jù)的相似度(S404),并判斷是否已對標志被設(shè)定為 “1”的所有音色模型410完成數(shù)據(jù)相似度的計算(S405)。在所述步驟S405中,如果處于未對所有音色模型410完成相似度計算的狀態(tài),對音色模型410進行升值計數(shù)之后,返回到所述步驟S403,對已進行自適應(yīng)的所有音色模型依次進行相似度的計算。在所述步驟S405中,如果判斷為已對所有音色模型410完成相似度計算的狀態(tài), 則選擇具有最大相似度的模型(S406),之后通過適用了經(jīng)過學(xué)習(xí)過程而設(shè)定的單詞詞典模型、語法信息模型的解碼來進行語音識別(S407) (S408)。通過上述步驟進行語音識別后輸出其結(jié)果,以進行對應(yīng)于語音輸入的控制 (S409)。
以上說明的本發(fā)明第三實施例的語音識別方法,對已進行音色自適應(yīng)的模型進行標志處理,并計算所輸入的語音與自適應(yīng)模型的相似度,從而選擇與說話人輸入的語音最為相似的模型,因此能夠以最少的計算量進行語音識別。所述音色模型是將聲壓對時間的斜率信息模型化而生成的,因此在計算音色模型的相似度時也只使用聲壓和斜率信息,因而與第二實施例的說話人識別算法相比對相似度的計算量少。圖7是表示根據(jù)本發(fā)明第二實施例的多模型自適應(yīng)步驟的示意圖。當語音自適應(yīng)步驟開始后,說話人為了使自己的自適應(yīng)模型與其他說話人的自適應(yīng)模型不重疊,利用模型編號選擇單元110從多個自適應(yīng)模型中選擇某一個模型(S501)。隨之,自適應(yīng)處理單元130通過模型編號選擇單元110識別說話人選擇的模型的編號,并使所述模型進入自適應(yīng)待機模式。然后,當說話人的語音被輸入650 后,特征向量提取單元120提取輸入語音的特征向量(特征參數(shù))(S503),之后適用經(jīng)過學(xué)習(xí)預(yù)先設(shè)定的發(fā)音信息列模型500A和基本語音模型500B,對輸入語音的特征向量進行自適應(yīng)(S504)。通過上述過程,對步驟S501中所選模型完成自適應(yīng)后,為了指示關(guān)于自適應(yīng)執(zhí)行的信息,將標志設(shè)定為“1”,以生成自適應(yīng)模型(S505)。然后,計算存儲于自適應(yīng)模型中的自適應(yīng)數(shù)據(jù)與存儲于基本語音模型500B中的數(shù)據(jù)的相似度(S506),并以相似度值的大小為對象建立二叉樹,以便提供更為快捷的語音識別(S507)。如上所述,根據(jù)本發(fā)明第二實施例的自適應(yīng)方法,在自適應(yīng)步驟中計算通過從輸入語音中提取的特征向量(特征參數(shù))值來計算與基本語音模型500B的相似度,并根據(jù)相似度值的大小來建立二叉樹,從而能夠提供更為快捷的語音識別。圖8是表示根據(jù)本發(fā)明第二實施例的多模型自適應(yīng)步驟中相似度二叉樹的示意圖。根據(jù)相似度值的大小建立二叉樹以生成結(jié)點的方法如下如果相似度值大于父結(jié)點,將自適應(yīng)模型安排于左側(cè)結(jié)點,如果相似度值小于父結(jié)點,將自適應(yīng)模型安排于右側(cè)結(jié)點,從而設(shè)定相應(yīng)父結(jié)點索引的方法來生成二叉樹。沒有子結(jié)點的終端結(jié)點相應(yīng)于模型的索引值即模型編號。如圖所示,例如如果是相似度值大于父結(jié)點即基本模型601的自適應(yīng)模型A602, 則將其安排于基本模型601的左側(cè)結(jié)點,而如果是相似度值小于父結(jié)點即基本模型601的自適應(yīng)模型,則將其安排于右側(cè)結(jié)點,從而設(shè)定針對父結(jié)點即基本模型601的索引。通過反復(fù)建立這種二叉樹,檢索出子結(jié)點,從而能夠迅速找出所需要的模型。圖9是表示根據(jù)本發(fā)明第四實施例的語音識別步驟的示意圖。如圖所示,當輸入用于自適應(yīng)的語音時,在預(yù)定幀內(nèi),例如包含幀1至幀t的預(yù)定幀內(nèi)(S701),對基本模型和所有自適應(yīng)模型進行語音識別,并在此后的幀中只選擇維特比得分最高的模型670 (S703)來進行語音識別。這種語音識別方法在初始預(yù)定幀內(nèi)的計算過程中,計算針對所有模型的所有指令字的子字模型(subword model),因此具有計算量多的特性,但是當預(yù)定幀(S701)的試驗值或者維特比得分的差值為一定值以上時,在以后的步驟中不對所剩下的所有模型進行計算,因此最大限度地減少語音識別的相似度判斷計算量。圖10是表示根據(jù)本發(fā)明第三實施例的多模型自適應(yīng)步驟的示意圖。根據(jù)第三實施例的自適應(yīng)方法如下在語音指令中相同的關(guān)鍵字在最前面時,使用動態(tài)時間規(guī)整(DTW)法對輸入語音中直至關(guān)鍵字的特征向量(特征參數(shù))進行動態(tài)時間規(guī)整,從而計算輸入語音和模型的相似度。當說話人選擇擬對自己的語音進行自適應(yīng)的模型(S801),并輸入語音(S802)后, 從所輸入的語音中提取特征向量(特征參數(shù))(S803),并適用通過預(yù)先學(xué)習(xí)而決定的發(fā)音信息列模型和基本模型,以進行自適應(yīng)(S804)。對如此進行自適應(yīng)(S80;3)的指令字的特征向量(特征參數(shù))部分計算時間信息 (S805),并用時間信息將指令字最前面的單詞(關(guān)鍵字)構(gòu)成特征列,并通過動態(tài)時間規(guī)整 (DTff)模型進行學(xué)習(xí)之后(S806),存儲所選的自適應(yīng)模型編號和經(jīng)過學(xué)習(xí)的動態(tài)時間規(guī)整 (DTff)信息,并停止對語音輸入的自適應(yīng)(S807)。圖11是表示根據(jù)本發(fā)明第五實施例的語音識別步驟的示意圖。適用已通過動態(tài)時間規(guī)整(DTW)進行自適應(yīng)的模型來進行語音識別的步驟如下。當用戶語音被輸入(S901)之后,從輸入語音中提取特征向量(特征參數(shù))(S902), 然后適用通過學(xué)習(xí)預(yù)先設(shè)定的基本語音模型900A,執(zhí)行用于語音識別的解碼(S903)。在所述步驟S903的解碼過程中,提取所計算的單詞的時間信息(S904),并判斷是否為最前單詞(關(guān)鍵字)的時間信息列(S905)。在所述步驟S905中,如果判斷為不屬于最前單詞(關(guān)鍵字)的時間信息列,則返回到所述步驟S903,如果屬于最前單詞(關(guān)鍵字)的時間信息列,則提取相當于最前單詞時間信息的特征向量(特征參數(shù)),并對通過學(xué)習(xí)預(yù)先設(shè)定的基本語音模型的動態(tài)時間規(guī)整 (DTff)信息和每個自適應(yīng)模型的動態(tài)時間規(guī)整(DTW)信息計算動態(tài)時間規(guī)整(DTW)的相似度(S906),以選擇相似度最高的模型(S907)。通過上述步驟選擇相似度最高的模型之后,通過解碼來進行語音識別(S908),并輸出識別結(jié)果,以執(zhí)行所輸入的語音控制指令(S909)。圖12是表示根據(jù)本發(fā)明第六實施例的語音識別步驟的示意圖。語音識別系統(tǒng)為了識別用戶指令而總處于待機狀態(tài)時,不僅輸入語音指令,也會輸入生活中的多個用戶的聲音及噪音等(S1001)。因此,在所述語音識別待機狀態(tài)下,語音識別系統(tǒng)判斷是否已選擇特定自適應(yīng)模型(S1002)。在所述步驟S1002的判斷中,如果判斷為已選擇了特定自適應(yīng)模型,則通過所選的自適應(yīng)模型判斷待機狀態(tài)下所輸入的語音指令字及生活中的各種聲音的相似度
(51003),如果處于未選擇特定自適應(yīng)模型的狀態(tài),識別待機狀態(tài)下所輸入的語音指令字及生活中的各種聲音后,找出對應(yīng)于所識別語音的自適應(yīng)模型,以進行相似度的判斷
(51004)。如上所述,根據(jù)與自適應(yīng)模型的相似度的判斷,來判定是否為合適的指令字
(51005),如果不是合適的指令字則返回所述步驟S1001,如果是合適的指令字則處理通過相似度的判斷對所輸入的語音進行識別的結(jié)果(S1006)。然后,針對識別結(jié)果進行與所選自適應(yīng)模型的驗證(再識別)(S1007),從而判斷是否為有效的自適應(yīng)模型(S1008)。在所述步驟S1008的判斷中,如果判斷為有效的自適應(yīng)模型,則返回到所述 S1001,并重復(fù)上述步驟以進行語音識別。然而,在所述步驟S1008的判斷中,如果判斷為無效的自適應(yīng)模型,則對識別結(jié)果進行再處理(S1009),之后進行自適應(yīng)模型的變更,并返回所述步驟S1001。例如,在家庭網(wǎng)絡(luò)控制用語音識別系統(tǒng)中會出現(xiàn)如下情況用戶A發(fā)出了 “開電視”的指令,但識別中使用的模型為說話人B的模型,且由誤選的模型發(fā)生錯誤識別的結(jié)果執(zhí)行“開客廳燈”的識別結(jié)果,從而導(dǎo)致客廳燈開啟。因此,在后處理過程中進行再識別,從而驗證為用戶A的自適應(yīng)模型且判斷為“開電視”的指令字時,處理“開電視”這一識別結(jié)果,之后對之前的錯誤處理進行更正。即,將錯誤執(zhí)行的“開客廳燈”指令字識別為“關(guān)閉客廳燈”而進行處理。圖13是表示根據(jù)本發(fā)明的第三實施例利用多話筒按照位置進行多模型自適應(yīng)的示意圖。如圖所示,語音識別系統(tǒng)1400中適用多話筒系統(tǒng),當用于自適應(yīng)的說話人的音源輸入到特定位置時,利用波束形成技術(shù)自動判定音源位置,并對對應(yīng)于音源位置的模型進行自適應(yīng),從而根據(jù)音源位置對不同的模型進行自適應(yīng)。當適用所述多話筒系統(tǒng)時,在對說話人的語音進行自適應(yīng)的過程中,通過波束形成技術(shù)辨別說話人的位置,并據(jù)此自動決定自適應(yīng)模型,因此無需選擇擬進行自適應(yīng)的模型編號。所述方法在進行語音識別時,判斷從哪一個方向輸入指令,借以選擇相應(yīng)位置的自適應(yīng)模型而進行語音識別。假設(shè)以語音識別系統(tǒng)為中心,不同用戶的動跡在概率上離相應(yīng)位置沒有多大變化的情況下,該方法提供有效的語音識別。例如,如果通過波束形成技術(shù)判定的音源位置為5號話筒MIC5,輸入于5號話筒 MIC5的說話人的語音會經(jīng)過自適應(yīng)存儲到自適應(yīng)模型4中,此后在5號話筒MIC5的位置識別到說話人的語音時,判斷該語音與存儲在自適應(yīng)模型4中的自適應(yīng)值的相似度,以進行語音識別。適應(yīng)前述多模型自適應(yīng)和語音識別技術(shù)的本發(fā)明的語音識別系統(tǒng),考慮到物理存儲器的有效使用和擴展性及費用問題,適用于大致以10人(最好為5人)家庭為對象的家庭用語音識別產(chǎn)品時,能夠獲得最佳效果。適用于自適應(yīng)人數(shù)為10人以下的家庭用語音識別產(chǎn)品時,作為非特定人及特定人多模型自適應(yīng)語音識別系統(tǒng),能夠獲得最佳的語音識別效果。
權(quán)利要求
1.一種多模型自適應(yīng)裝置,其特征在于,包括模型編號選擇單元,用于選擇說話人為了語音自適應(yīng)而指定的某一個模型;特征向量提取單元,用于從為了自適應(yīng)而輸入的說話人語音中提取特征向量;自適應(yīng)處理單元,適用所設(shè)定的發(fā)音信息列模型和基本語音模型的標準值以對說話人的語音進行自適應(yīng)之后,將結(jié)果存儲到說話人指定的模型中,并對已進行自適應(yīng)的模型設(shè)定標志;多元自適應(yīng)模型,由多個模型組成,根據(jù)說話人的指定且按照特性進行自適應(yīng)的語音存儲到該多元自適應(yīng)模型中。
2.根據(jù)權(quán)利要求1所述的多模型自適應(yīng)裝置,其特征在于,所述自適應(yīng)處理單元對于因說話人的指定而已進行自適應(yīng)的模型,將標志設(shè)定為“1”,而對于未進行自適應(yīng)的模型, 將標志設(shè)定為“0”。
3.根據(jù)權(quán)利要求1所述的多模型自適應(yīng)裝置,其特征在于,所述多元自適應(yīng)模型包括 針對每個說話人的獨立的自適應(yīng)模型、針對音色的獨立的自適應(yīng)模型、由具有相似特性的說話人組成群體的獨立的自適應(yīng)模型,每個獨立的模型中存儲根據(jù)說話人的指定且按照特性而進行語音自適應(yīng)的結(jié)果。
4.語音識別裝置,其特征在于,包括特征向量提取單元,用于從說話人的輸入語音中提取語音識別所需要的特征向量;模型確定單元;用于從多元自適應(yīng)模型中依次只選擇標志被設(shè)定為已進行自適應(yīng)的模型;相似度計算單元;計算從說話人的語音中提取的特征向量與存儲在所選模型中的自適應(yīng)值的相似度,以提取具有最大相似度值的模型;語音識別單元,其通過解碼來進行語音識別,所述解碼適用存儲于所述具有最大相似度值的模型中的自適應(yīng)值與存儲在通過學(xué)習(xí)而設(shè)定的模型中的值。
5.根據(jù)權(quán)利要求4所述的語音識別裝置,其特征在于針對從說話人的輸入語音中提取的特征向量和存儲在所選模型的自適應(yīng)值,所述相似度計算單元在考慮量變和向變的情況下計算相似度。
6.根據(jù)權(quán)利要求4所述的語音識別裝置,其特征在于在為了語音識別而進行解碼的過程中,所述語音識別單元適用通過學(xué)習(xí)而設(shè)定的詞典模型、語法模型的數(shù)據(jù)值。
7.根據(jù)權(quán)利要求4所述的語音識別裝置,其特征在于所述模型確定單元從多元自適應(yīng)模型中依次只選擇已設(shè)定標志的說話人識別模型,并將其適用于相似度的計算中。
8.根據(jù)權(quán)利要求4所述的語音識別裝置,其特征在于所述模型確定單元從多元自適應(yīng)模型中依次只選擇已設(shè)定標志的音色模型,并將其適用于相似度的計算中。
9.根據(jù)權(quán)利要求4所述的語音識別裝置,其特征在于在與音色模型的相似度計算中,所述相似度計算單元只適用聲壓與斜率信息。
10.根據(jù)權(quán)利要求4所述的語音識別裝置,其特征在于當語音指令字中相同的關(guān)鍵字存在于最前時,所述相似度計算單元針對輸入語音中直至關(guān)鍵字的特征向量進行動態(tài)時間規(guī)整,以計算輸入語音與模型的相似度。
11.一種多模型自適應(yīng)方法,其特征在于,包括以下步驟 選擇說話人指定的某一個模型;從說話人的輸入語音中提取用于語音模型的特征向量;使用所設(shè)定的發(fā)音信息列模型和基本語音模型對所提取的特征向量進行自適應(yīng),并將結(jié)果存儲在所述多個模型中說話人所指定的模型中,且設(shè)定指示為是否已進行自適應(yīng)的標ο
12.根據(jù)權(quán)利要求11所述的多模型自適應(yīng)方法,其特征在于通過說話人的指定而被選擇的模型只予以存儲經(jīng)過自適應(yīng)的說話人的語音,從而不與他人的自適應(yīng)模型重疊。
13.根據(jù)權(quán)利要求11所述的多模型自適應(yīng)方法,其特征在于所述已進行自適應(yīng)的模型標志被設(shè)定為“1”,而未進行自適應(yīng)的初始模型標志被設(shè)定為 “0”。
14.根據(jù)權(quán)利要求11所述的多模型自適應(yīng)方法,其特征在于在所述說話人的輸入語音的自適應(yīng)過程中,生成說話人識別模型,并設(shè)定指示為是否已生成說話人識別模型的標志。
15.根據(jù)權(quán)利要求11所述的多模型自適應(yīng)方法,其特征在于在所述說話人輸入語音的自適應(yīng)過程中,由聲壓對時間的斜率信息建模生成音色模型,并設(shè)定指示為是否已生成音色模型的標志。
16.一種語音識別方法,其特征在于,包括以下步驟 從要求語音識別的說話人的輸入語音中提取特征向量;讀取設(shè)定于多元自適應(yīng)模型中的標志,從而只選擇已進行自適應(yīng)的模型; 依次比較從說話人的輸入語音中提取的特征向量和通過讀取標志來選擇的模型,以計算自適應(yīng)值的相似度;對所選全體模型完成相似度計算后,選擇具有最大相似度值的一個模型,然后通過解碼來進行語音識別。
17.根據(jù)權(quán)利要求16所述的語音識別方法,其特征在于在所述解碼過程中,適用通過學(xué)習(xí)而設(shè)定的單詞詞典模型、語法信息模型,以進行語音識別。
18.一種語音識別方法,其特征在于,包括以下步驟 從要求語音識別的說話人的輸入語音中提取特征向量;讀取設(shè)定于多元自適應(yīng)模型中的標志,從而只選擇說話人識別模型; 依次比較說話人輸入語音的特征向量和所選的說話人識別模型,以計算自適應(yīng)值的相似度;對所有說話人識別模型完成相似度計算后,選擇具有最大相似度值的一個模型,然后通過解碼來進行語音識別。
19.一種語音識別方法,其特征在于,包括以下步驟 從要求語音識別的說話人的輸入語音中提取特征向量;讀取設(shè)定于多元自適應(yīng)模型的標志,從而只選擇音色模型;依次比較說話人輸入語音的特征向量和所選音色模型,以計算自適應(yīng)值的相似度; 對所有音色模型完成相似度計算后,選擇具有最大相似度值的一個模型,然后通過解碼來進行語音識別。
20.根據(jù)權(quán)利要求19所述的語音識別方法,其特征在于 所述音色模型的相似度計算只使用聲壓和斜率信息。
21.一種多模型自適應(yīng)方法,其特征在于,包括以下步驟 選擇說話人指定的某一個模型;從說話人的輸入語音中提取用于自適應(yīng)語音模型的特征向量; 適用所設(shè)定的發(fā)音信息列模型和基本語音模型進行特征向量的自適應(yīng)后,將結(jié)果存儲在所指定的模型中,以生成自適應(yīng)模型;比較在上述過程中生成的自適應(yīng)模型與基本模型的相似度,并以相似度大小為對象建立二叉樹。
22.根據(jù)權(quán)利要求21所述的多模型自適應(yīng)方法,其特征在于在所述以相似度大小為對象建立二叉樹的步驟中,經(jīng)過比較如果大于父結(jié)點的相似度則安排在左側(cè)結(jié)點,如果小于父結(jié)點的相似度則安排在右側(cè)結(jié)點,以設(shè)定相應(yīng)父結(jié)點索引的方法來生成二叉樹。
23.一種語音是被方法,其特征在于,包括以下步驟 從要求語音識別的說話人的輸入語音中提取特征向量;計算基本模型與設(shè)定在所有自適應(yīng)模型的指令字的子字模型的相似度; 當維特比得分的差值為一定值以上時,在以后的幀中選擇維特比得分最高的模型,并通過解碼來進行語音識別。
24.一種多模型自適應(yīng)方法,其特征在于,包括以下步驟 選擇說話人指定的某一個模型;從說話人的輸入語音中提取用于自適應(yīng)語音模型的特征向量,并進行自適應(yīng); 在進行自適應(yīng)的過程中,通過動態(tài)時間規(guī)整模型學(xué)習(xí)語音指令字的時間信息中相應(yīng)于關(guān)鍵字的時間信息的特征向量部分;將所述已進行自適應(yīng)的模型和經(jīng)過學(xué)習(xí)的動態(tài)時間規(guī)整模型的信息存儲在上述過程中說話人指定的模型中。
25.根據(jù)權(quán)利要求M所述的多模型自適應(yīng)方法,其特征在于所述動態(tài)時間規(guī)整模型對相同的關(guān)鍵字位于最前的語音指令字進行學(xué)習(xí)。
26.一種語音識別方法,其特征在于,包括以下步驟 從要求語音識別的說話人的輸入語音中提取特征向量; 適用基本語音模型進行解碼;提取所述解碼過程中計算的單詞時間信息,判斷是否為相應(yīng)于關(guān)鍵字的單詞時間信息列;如果是相應(yīng)于關(guān)鍵字的單詞時間信息列,提取相當于單詞時間信息的特征向量,并計算與動態(tài)時間規(guī)整模型的相似度;選擇相似度最高的模型,并通過解碼來進行語音識別。
27.一種多模型自適應(yīng)裝置,其特征在于語音識別系統(tǒng)中適用位置信息被指定的多話筒,并利用波束形成技術(shù)來判斷為了自適應(yīng)而輸入的音源位置,且將其自適應(yīng)到相應(yīng)的模型。
28. 一種多模型自適應(yīng)方法,其特征在于,包括以下步驟 選擇說話人指定的某一個模型;從說話人的輸入語音中提取用于語音模型的特征向量并進行自適應(yīng)后將結(jié)果存儲到說話人指定的模型中,并設(shè)定指示為是否已進行自適應(yīng)的標志;在進行所述自適應(yīng)的過程中,適用說話人識別模型、音色模型、根據(jù)相似度大小的二叉樹、以及適用波束成形技術(shù)的音源位置識別中的至少一種。
全文摘要
本發(fā)明包括以下步驟選擇說話人指定的某一個模型;從說話人的輸入語音中提取用于語音模型的特征向量;用所設(shè)定的發(fā)音信息列模型和基本語音模型對所提取的特征向量進行自適應(yīng),并將結(jié)果存儲在所述多個模型中說話人所指定的模型中,且設(shè)定指示為是否已進行自適應(yīng)的標志;從說話人為了語音識別而輸入的語音中提取特征向量;讀取設(shè)定于多元自適應(yīng)模型中的標志,并只選擇已進行自適應(yīng)的模型;依次比較從說話人的輸入語音中提取的特征向量與通過讀取標志而選擇的模型,從而計算自適應(yīng)值的相似度;對全體模型完成相似度計算后,選擇具有最大相似度值的一個模型,并通過解碼來進行語音識別。
文檔編號G10L15/18GK102270450SQ20111009786
公開日2011年12月7日 申請日期2011年4月19日 優(yōu)先權(quán)日2010年6月7日
發(fā)明者李成燮 申請人:株式會社曙飛電子