域,將副駕駛座定義為B區(qū) 域,將駕駛座的后側(cè)與副駕駛座的后側(cè)分別定義為C區(qū)域與D區(qū)域。
[0105] 駕駛員啟動(dòng)語(yǔ)音識(shí)別功能時(shí),A、B、C、D區(qū)域的麥克風(fēng)同時(shí)開(kāi)啟,通過(guò)麥克風(fēng)接收四 個(gè)區(qū)域的語(yǔ)音信號(hào)。由于四個(gè)區(qū)域的麥克風(fēng)接收到的除人類(lèi)語(yǔ)音之外的車(chē)輛噪音值是幾乎 相同的,因此在A過(guò)濾車(chē)輛噪音值。然后分析四個(gè)區(qū)域的語(yǔ)音。首先分析四個(gè)區(qū)域的表示 性別的語(yǔ)音向量值,若以A區(qū)域?yàn)榛鶞?zhǔn)從B、C、D區(qū)域提取到表示與A區(qū)域不同性別的向量 值,則從A區(qū)域中過(guò)濾相當(dāng)于該向量值的信號(hào)。性別分析結(jié)束后按相同方法分析年齡、心情 /狀態(tài)等。
[0106] A區(qū)域中最大的必然是駕駛員的語(yǔ)音信號(hào),但還存在B、C、D區(qū)域的語(yǔ)音信號(hào)時(shí),A 區(qū)域無(wú)法只提取駕駛員的完整語(yǔ)音,因此采用該方法。
[0107] 此時(shí)可以利用除相互關(guān)系(CORRELATION)、ICA技術(shù)、波束形成(BEAM FORMING)技 術(shù)之外的其他算法判別信號(hào)獨(dú)立還是具有近似性。
[0108] 可以在通過(guò)四個(gè)麥克風(fēng)進(jìn)行過(guò)濾的同時(shí)分析說(shuō)話者的個(gè)別特征,可利用獲分析個(gè) 別特征得到的信息過(guò)濾噪音,以此提高識(shí)別率。
[0109] 車(chē)輛一般具有四個(gè)座位,車(chē)輛內(nèi)語(yǔ)音識(shí)別系統(tǒng)使用者一般是駕駛員,若駕駛員使 用語(yǔ)音識(shí)別系統(tǒng)的過(guò)程中其他座位乘客說(shuō)話,則多人的語(yǔ)音相疊加,因此語(yǔ)音識(shí)別系統(tǒng)無(wú) 法識(shí)別駕駛員的命令。目前一般使用的語(yǔ)音識(shí)別系統(tǒng)是在語(yǔ)音識(shí)別區(qū)間前設(shè)置無(wú)語(yǔ)音的區(qū) 間并將該區(qū)間的輸入識(shí)別為噪音,在語(yǔ)音輸入?yún)^(qū)間過(guò)濾噪音的結(jié)構(gòu)。
[0110] 本發(fā)明是利用多層感知機(jī)理論提取語(yǔ)音的特征并識(shí)別說(shuō)話者的特征,根據(jù)該數(shù)據(jù) 實(shí)時(shí)地為說(shuō)話者提供適合的信息的技術(shù)。通過(guò)采用多層感知機(jī),①能夠根據(jù)說(shuō)話者的特征 提供適配信息,或者,②能夠識(shí)別說(shuō)話者的位置并提供該位置的說(shuō)話者所需的功能。以下進(jìn) 一步說(shuō)明①與②。
[0111] 1.根據(jù)說(shuō)話者特征提供適配信息
[0112] 利用多層感知機(jī)構(gòu)建系統(tǒng)的情況下,即使多人的語(yǔ)音相疊加也能夠提取駕駛員的 語(yǔ)音。該方法不僅可以適用于駕駛員,還可以識(shí)別其他人員。例如,只提取A區(qū)域的語(yǔ)音特 征并忽略B、C、D區(qū)域的語(yǔ)音信號(hào)。
[0113] 多層感知機(jī)的大前提是預(yù)先形成根據(jù)大量DB及反向傳播(BACK PROPAGATION)技 術(shù)進(jìn)行學(xué)習(xí)的算法。
[0114] 多層感知機(jī)建模具體是,例如分析20~29歲且狀態(tài)佳的首爾女性的大量語(yǔ)音 提取特征(共振峰、基本頻率、能量值、LPC值等)并輸入到輸入端,將20~29歲且狀 態(tài)佳的首爾女性作為輸出(OUTPUT)對(duì)象的情況下,感知機(jī)結(jié)構(gòu)內(nèi)部經(jīng)過(guò)反向傳播(BACK PROPAGATION)過(guò)程確定適當(dāng)?shù)募訖?quán)(WEIGHT)值。在如上學(xué)習(xí)多種特征的人的情況下,輸入 的任何語(yǔ)音都能夠在經(jīng)過(guò)學(xué)習(xí)的結(jié)構(gòu)內(nèi)找到特征。LPC值是線性預(yù)測(cè)編碼值,是基于人類(lèi)發(fā) 聲模型的語(yǔ)音編碼方式中的一種,具有二十六維向量。
[0115] 輸入特定對(duì)象的大量語(yǔ)音的共振峰、基本頻率、LPC模型的二十六維向量值的情況 下,通過(guò)反向展開(kāi)過(guò)程向多個(gè)目標(biāo)重復(fù)合適的加權(quán)值規(guī)所定的作業(yè)(例如20~29歲且狀 態(tài)佳的首爾女性、30~40歲且狀態(tài)不佳的慶尚道地區(qū)男性…)。
[0116] 在經(jīng)過(guò)該學(xué)習(xí)過(guò)程的情況下,無(wú)論任何語(yǔ)音,只要輸入到對(duì)該語(yǔ)音的特征向量建 模的感知機(jī)結(jié)構(gòu)即可獲知說(shuō)話者的特征。
[0117] 將即按即通(push to talk,以下簡(jiǎn)稱'PTT')作為座位選擇基準(zhǔn)。若有四個(gè)PTT 鍵,則根據(jù)位置將相應(yīng)PTT輸入位置的麥克風(fēng)接收到的語(yǔ)音判斷為需要分析的語(yǔ)音,將其 余判斷為噪音并過(guò)濾。根據(jù)過(guò)濾后的語(yǔ)音進(jìn)行識(shí)別并為說(shuō)話者提供最佳信息,以說(shuō)話者向 多媒體產(chǎn)品發(fā)出命令的情況為例,若想要查找的是餐廳,則首先查找與說(shuō)話者特征相符的 餐廳。
[0118] 整理以上說(shuō)明內(nèi)容可導(dǎo)出如下特征。
[0119] 首先,判別PTT位置并提取對(duì)應(yīng)于各語(yǔ)音信號(hào)特征的向量。
[0120] 然后,將四種信號(hào)的特征向量輸入到多層感知機(jī)結(jié)構(gòu)。
[0121] 然后,分別提取各語(yǔ)音信號(hào)的特征。
[0122] 然后,當(dāng)具有與基準(zhǔn)語(yǔ)音A不同的特征時(shí),將A麥克風(fēng)信號(hào)中的其他特征值判斷為 噪音并過(guò)濾。
[0123] 然后,利用只提取A區(qū)域語(yǔ)音得到的數(shù)據(jù)識(shí)別語(yǔ)音,并判別語(yǔ)音的意思。
[0124] 然后,針對(duì)A區(qū)域的說(shuō)話者的命令提供最佳信息。
[0125] 2.識(shí)別說(shuō)話者位置并提供該位置的說(shuō)話者所需的功能
[0126] 將即按即通(push to talk,以下簡(jiǎn)稱'PTT')作為座位選擇基準(zhǔn)。若有四個(gè)PTT 鍵,則根據(jù)位置將相應(yīng)PTT輸入位置的麥克風(fēng)接收到的語(yǔ)音判斷為需要分析的語(yǔ)音,將其 余判斷為噪音并過(guò)濾。以空調(diào)為例,若D區(qū)域的乘坐人員發(fā)出關(guān)于空調(diào)溫度的命令,可以使 僅D區(qū)域的空調(diào)裝置按命令調(diào)節(jié)空調(diào)檔位。
[0127] 以下再次參照?qǐng)D1進(jìn)行說(shuō)明。
[0128] TTS DB 150是存儲(chǔ)關(guān)于年齡的基準(zhǔn)特征信息(10~19歲、20~29歲、30~39歲、 40~49歲、50~59歲、60~69歲、70歲以上等)、關(guān)于性別的基準(zhǔn)特征信息(男性、女性 等)、關(guān)于愛(ài)好的基準(zhǔn)特征信息(溫柔、活潑等)等信息的數(shù)據(jù)庫(kù)。
[0129] TTS DB提取器140的功能是從TTS DB 150檢測(cè)對(duì)應(yīng)于說(shuō)話者語(yǔ)音分析器130發(fā) 現(xiàn)的說(shuō)話者年齡、性別、愛(ài)好等的信息。
[0130] 說(shuō)話者語(yǔ)音調(diào)整器160的功能是根據(jù)從TTS DB 150檢測(cè)到的信息調(diào)整(tuning) 為了 TTS服務(wù)而要輸出的語(yǔ)音。說(shuō)話者語(yǔ)音調(diào)整器160可以將從駕駛員的語(yǔ)音獲取的說(shuō)話 速度信息(Pitch Period)、頻率的高低的信息(Log f0)等適用到要輸出的語(yǔ)音進(jìn)行調(diào)整。
[0131] GMM模型提取器170的功能是根據(jù)語(yǔ)音特征信息提取器120提取的說(shuō)話者的語(yǔ)音 特征信息生成高斯混合模型。
[0132] 說(shuō)話者語(yǔ)音轉(zhuǎn)換器180的功能是向說(shuō)話者語(yǔ)音調(diào)整器160調(diào)整的語(yǔ)音適用高斯 混合模型以進(jìn)一步轉(zhuǎn)換語(yǔ)音。本發(fā)明中,可以提供經(jīng)過(guò)說(shuō)話者語(yǔ)音調(diào)整器160調(diào)整的語(yǔ)音 作為用于TTS服務(wù)的語(yǔ)音。但本發(fā)明不限于此,本發(fā)明還可以通過(guò)GMM (Gaussian Mixture Model)進(jìn)一步轉(zhuǎn)換說(shuō)話者的語(yǔ)音,以確保能夠?qū)崟r(shí)合理轉(zhuǎn)換說(shuō)話者的語(yǔ)音特征。
[0133] 以下進(jìn)一步說(shuō)明利用高斯混合模型的說(shuō)話者語(yǔ)音轉(zhuǎn)換器180。
[0134] X e Rn這一特定隨機(jī)向量的高斯混合密度(Gaussian Mixture Density)可用數(shù) 學(xué)式8表不:
[0135] 【數(shù)學(xué)式8】
[0137] 其中ρ(χ| λ)是成分參數(shù),表示具有平均與離散的高斯函數(shù)。Q表示單高斯密度 (Gaussian Density)的總個(gè)數(shù),α ;表示單高斯密度的加權(quán)值。
[0138] bi (X)表示多維高斯混合密度(Gaussian mixture density)。該bi (X)用單高斯 密度表示如數(shù)學(xué)式9所示:
[0139] 【數(shù)學(xué)式9】
[0141] μ;:ηχ1 mean vector, Ο^ηχη cov ariance matrix
[0142] 因此,完成的高斯混合密度(Gaussian Mixture Density)由如下三個(gè)變量構(gòu)成:
[0143] λ = { a i,μ i,Ci},i = 1,…,Q
[0144] 將X e Rn定義為T(mén)TS DB提取器140篩選出的語(yǔ)音,將y e Rn定義為駕駛員的語(yǔ) 音,則z= (x,y)T可以定義為T(mén)TS DB提取器140篩選出的語(yǔ)音與駕駛員語(yǔ)音之間的聯(lián)合 密度(joint density)語(yǔ)音。這可以用如下數(shù)學(xué)式表示:
[OHS]【數(shù)學(xué)式10】
[0148] 因此,說(shuō)話者語(yǔ)音轉(zhuǎn)換器180如數(shù)學(xué)式11所示發(fā)現(xiàn)最小化均方誤差(Mean Square Error)的映射(Mapping)函數(shù) F(x)。
[0149] 【數(shù)學(xué)式11】
[0150] ense= E[ || y-F(x) || 2]
[0151] E表示期望值(Expectation),F(xiàn)(x)表示所推定(estimated)語(yǔ)音的光譜向量 (Spectral Vector)〇
[0152] 利用聯(lián)合密度推定方法(Joint Density Estimation Method)的情況下,F(xiàn)(x) 可定義成如以下數(shù)學(xué)式12所示。此時(shí),可參見(jiàn)'A.Kain and M.Macon,"Spectral voice conversion for text-to-speech synthesis',Proc.ICASSP,pp.285 ~288,1998. '。
[0153] 【數(shù)學(xué)式12】
[0157] 以下具體說(shuō)明參照?qǐng)D1至圖3說(shuō)明的車(chē)輛用語(yǔ)音引導(dǎo)提供系統(tǒng)100的工作方法。 圖4為顯示根據(jù)本發(fā)明一個(gè)實(shí)施例的車(chē)輛用語(yǔ)音引導(dǎo)提供系統(tǒng)的工作方法的流程圖。
[0158] 步驟S405中,駕駛員說(shuō)出特定命令時(shí),步驟S410中,語(yǔ)音特征信息提取器120從 說(shuō)話者的語(yǔ)音提取特征信息。
[0159] 然后在步驟S415中,說(shuō)話者語(yǔ)音分析器130根據(jù)特征信息實(shí)時(shí)分析性別、年齡、愛(ài) 好等。
[0160] 然后在步驟S420中,TTS DB提取器140從TTS DB 150選擇對(duì)應(yīng)于各分析結(jié)果的 信息。
[0161] 然后在步驟S425中,說(shuō)話者語(yǔ)音調(diào)整器160根據(jù)TTS DB提取器140選擇的信息 調(diào)整經(jīng)過(guò)語(yǔ)音轉(zhuǎn)換的信息。
[0162] 然后在步驟S430中,說(shuō)話者語(yǔ)音轉(zhuǎn)換器180將根據(jù)從說(shuō)話者語(yǔ)音得到的GMM模型 調(diào)整后的語(yǔ)音轉(zhuǎn)換成接近駕駛員的實(shí)際語(yǔ)音。
[0163] 然后在步驟S435中,TTS輸出部(未示出)輸出經(jīng)過(guò)說(shuō)話者語(yǔ)音轉(zhuǎn)換器180轉(zhuǎn)換 后的語(yǔ)首。
[0164] 以上參照?qǐng)D1至圖4說(shuō)明了本發(fā)明的一個(gè)實(shí)施形態(tài)。以下說(shuō)明能夠從這些實(shí)施形