利用用戶的語(yǔ)音特征的對(duì)象信息語(yǔ)音輸出控制裝置及方法_3

文檔序號(hào)：9811902閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>利用用戶的語(yǔ)音特征的對(duì)象信息語(yǔ)音輸出控制裝置及方法

域，將副駕駛座定義為B區(qū) 域，將駕駛座的后側(cè)與副駕駛座的后側(cè)分別定義為C區(qū)域與D區(qū)域。
[0105] 駕駛員啟動(dòng)語(yǔ)音識(shí)別功能時(shí)，A、B、C、D區(qū)域的麥克風(fēng)同時(shí)開(kāi)啟，通過(guò)麥克風(fēng)接收四個(gè)區(qū)域的語(yǔ)音信號(hào)。由于四個(gè)區(qū)域的麥克風(fēng)接收到的除人類(lèi)語(yǔ)音之外的車(chē)輛噪音值是幾乎相同的，因此在A過(guò)濾車(chē)輛噪音值。然后分析四個(gè)區(qū)域的語(yǔ)音。首先分析四個(gè)區(qū)域的表示性別的語(yǔ)音向量值，若以A區(qū)域?yàn)榛鶞?zhǔn)從B、C、D區(qū)域提取到表示與A區(qū)域不同性別的向量值，則從A區(qū)域中過(guò)濾相當(dāng)于該向量值的信號(hào)。性別分析結(jié)束后按相同方法分析年齡、心情 /狀態(tài)等。
[0106] A區(qū)域中最大的必然是駕駛員的語(yǔ)音信號(hào)，但還存在B、C、D區(qū)域的語(yǔ)音信號(hào)時(shí)，A 區(qū)域無(wú)法只提取駕駛員的完整語(yǔ)音，因此采用該方法。
[0107] 此時(shí)可以利用除相互關(guān)系（CORRELATION)、ICA技術(shù)、波束形成（BEAM FORMING)技術(shù)之外的其他算法判別信號(hào)獨(dú)立還是具有近似性。
[0108] 可以在通過(guò)四個(gè)麥克風(fēng)進(jìn)行過(guò)濾的同時(shí)分析說(shuō)話者的個(gè)別特征，可利用獲分析個(gè) 別特征得到的信息過(guò)濾噪音，以此提高識(shí)別率。
[0109] 車(chē)輛一般具有四個(gè)座位，車(chē)輛內(nèi)語(yǔ)音識(shí)別系統(tǒng)使用者一般是駕駛員，若駕駛員使用語(yǔ)音識(shí)別系統(tǒng)的過(guò)程中其他座位乘客說(shuō)話，則多人的語(yǔ)音相疊加，因此語(yǔ)音識(shí)別系統(tǒng)無(wú) 法識(shí)別駕駛員的命令。目前一般使用的語(yǔ)音識(shí)別系統(tǒng)是在語(yǔ)音識(shí)別區(qū)間前設(shè)置無(wú)語(yǔ)音的區(qū) 間并將該區(qū)間的輸入識(shí)別為噪音，在語(yǔ)音輸入?yún)^(qū)間過(guò)濾噪音的結(jié)構(gòu)。
[0110] 本發(fā)明是利用多層感知機(jī)理論提取語(yǔ)音的特征并識(shí)別說(shuō)話者的特征，根據(jù)該數(shù)據(jù) 實(shí)時(shí)地為說(shuō)話者提供適合的信息的技術(shù)。通過(guò)采用多層感知機(jī)，①能夠根據(jù)說(shuō)話者的特征提供適配信息，或者，②能夠識(shí)別說(shuō)話者的位置并提供該位置的說(shuō)話者所需的功能。以下進(jìn) 一步說(shuō)明①與②。
[0111] 1.根據(jù)說(shuō)話者特征提供適配信息
[0112] 利用多層感知機(jī)構(gòu)建系統(tǒng)的情況下，即使多人的語(yǔ)音相疊加也能夠提取駕駛員的語(yǔ)音。該方法不僅可以適用于駕駛員，還可以識(shí)別其他人員。例如，只提取A區(qū)域的語(yǔ)音特征并忽略B、C、D區(qū)域的語(yǔ)音信號(hào)。
[0113] 多層感知機(jī)的大前提是預(yù)先形成根據(jù)大量DB及反向傳播（BACK PROPAGATION)技術(shù)進(jìn)行學(xué)習(xí)的算法。
[0114] 多層感知機(jī)建模具體是，例如分析20~29歲且狀態(tài)佳的首爾女性的大量語(yǔ)音提取特征（共振峰、基本頻率、能量值、LPC值等）并輸入到輸入端，將20~29歲且狀態(tài)佳的首爾女性作為輸出（OUTPUT)對(duì)象的情況下，感知機(jī)結(jié)構(gòu)內(nèi)部經(jīng)過(guò)反向傳播（BACK PROPAGATION)過(guò)程確定適當(dāng)?shù)募訖?quán)（WEIGHT)值。在如上學(xué)習(xí)多種特征的人的情況下，輸入的任何語(yǔ)音都能夠在經(jīng)過(guò)學(xué)習(xí)的結(jié)構(gòu)內(nèi)找到特征。LPC值是線性預(yù)測(cè)編碼值，是基于人類(lèi)發(fā) 聲模型的語(yǔ)音編碼方式中的一種，具有二十六維向量。
[0115] 輸入特定對(duì)象的大量語(yǔ)音的共振峰、基本頻率、LPC模型的二十六維向量值的情況下，通過(guò)反向展開(kāi)過(guò)程向多個(gè)目標(biāo)重復(fù)合適的加權(quán)值規(guī)所定的作業(yè)（例如20~29歲且狀態(tài)佳的首爾女性、30~40歲且狀態(tài)不佳的慶尚道地區(qū)男性…）。
[0116] 在經(jīng)過(guò)該學(xué)習(xí)過(guò)程的情況下，無(wú)論任何語(yǔ)音，只要輸入到對(duì)該語(yǔ)音的特征向量建模的感知機(jī)結(jié)構(gòu)即可獲知說(shuō)話者的特征。
[0117] 將即按即通（push to talk，以下簡(jiǎn)稱'PTT'）作為座位選擇基準(zhǔn)。若有四個(gè)PTT 鍵，則根據(jù)位置將相應(yīng)PTT輸入位置的麥克風(fēng)接收到的語(yǔ)音判斷為需要分析的語(yǔ)音，將其余判斷為噪音并過(guò)濾。根據(jù)過(guò)濾后的語(yǔ)音進(jìn)行識(shí)別并為說(shuō)話者提供最佳信息，以說(shuō)話者向多媒體產(chǎn)品發(fā)出命令的情況為例，若想要查找的是餐廳，則首先查找與說(shuō)話者特征相符的餐廳。
[0118] 整理以上說(shuō)明內(nèi)容可導(dǎo)出如下特征。
[0119] 首先，判別PTT位置并提取對(duì)應(yīng)于各語(yǔ)音信號(hào)特征的向量。
[0120] 然后，將四種信號(hào)的特征向量輸入到多層感知機(jī)結(jié)構(gòu)。
[0121] 然后，分別提取各語(yǔ)音信號(hào)的特征。
[0122] 然后，當(dāng)具有與基準(zhǔn)語(yǔ)音A不同的特征時(shí)，將A麥克風(fēng)信號(hào)中的其他特征值判斷為噪音并過(guò)濾。
[0123] 然后，利用只提取A區(qū)域語(yǔ)音得到的數(shù)據(jù)識(shí)別語(yǔ)音，并判別語(yǔ)音的意思。
[0124] 然后，針對(duì)A區(qū)域的說(shuō)話者的命令提供最佳信息。
[0125] 2.識(shí)別說(shuō)話者位置并提供該位置的說(shuō)話者所需的功能
[0126] 將即按即通（push to talk，以下簡(jiǎn)稱'PTT'）作為座位選擇基準(zhǔn)。若有四個(gè)PTT 鍵，則根據(jù)位置將相應(yīng)PTT輸入位置的麥克風(fēng)接收到的語(yǔ)音判斷為需要分析的語(yǔ)音，將其余判斷為噪音并過(guò)濾。以空調(diào)為例，若D區(qū)域的乘坐人員發(fā)出關(guān)于空調(diào)溫度的命令，可以使僅D區(qū)域的空調(diào)裝置按命令調(diào)節(jié)空調(diào)檔位。
[0127] 以下再次參照?qǐng)D1進(jìn)行說(shuō)明。
[0128] TTS DB 150是存儲(chǔ)關(guān)于年齡的基準(zhǔn)特征信息（10~19歲、20~29歲、30~39歲、 40~49歲、50~59歲、60~69歲、70歲以上等）、關(guān)于性別的基準(zhǔn)特征信息（男性、女性等）、關(guān)于愛(ài)好的基準(zhǔn)特征信息（溫柔、活潑等）等信息的數(shù)據(jù)庫(kù)。
[0129] TTS DB提取器140的功能是從TTS DB 150檢測(cè)對(duì)應(yīng)于說(shuō)話者語(yǔ)音分析器130發(fā) 現(xiàn)的說(shuō)話者年齡、性別、愛(ài)好等的信息。
[0130] 說(shuō)話者語(yǔ)音調(diào)整器160的功能是根據(jù)從TTS DB 150檢測(cè)到的信息調(diào)整（tuning) 為了 TTS服務(wù)而要輸出的語(yǔ)音。說(shuō)話者語(yǔ)音調(diào)整器160可以將從駕駛員的語(yǔ)音獲取的說(shuō)話速度信息（Pitch Period)、頻率的高低的信息（Log f0)等適用到要輸出的語(yǔ)音進(jìn)行調(diào)整。
[0131] GMM模型提取器170的功能是根據(jù)語(yǔ)音特征信息提取器120提取的說(shuō)話者的語(yǔ)音特征信息生成高斯混合模型。
[0132] 說(shuō)話者語(yǔ)音轉(zhuǎn)換器180的功能是向說(shuō)話者語(yǔ)音調(diào)整器160調(diào)整的語(yǔ)音適用高斯混合模型以進(jìn)一步轉(zhuǎn)換語(yǔ)音。本發(fā)明中，可以提供經(jīng)過(guò)說(shuō)話者語(yǔ)音調(diào)整器160調(diào)整的語(yǔ)音作為用于TTS服務(wù)的語(yǔ)音。但本發(fā)明不限于此，本發(fā)明還可以通過(guò)GMM (Gaussian Mixture Model)進(jìn)一步轉(zhuǎn)換說(shuō)話者的語(yǔ)音，以確保能夠?qū)崟r(shí)合理轉(zhuǎn)換說(shuō)話者的語(yǔ)音特征。
[0133] 以下進(jìn)一步說(shuō)明利用高斯混合模型的說(shuō)話者語(yǔ)音轉(zhuǎn)換器180。
[0134] X e Rn這一特定隨機(jī)向量的高斯混合密度（Gaussian Mixture Density)可用數(shù) 學(xué)式8表不：
[0135] 【數(shù)學(xué)式8】
[0137] 其中ρ(χ| λ)是成分參數(shù)，表示具有平均與離散的高斯函數(shù)。Q表示單高斯密度 (Gaussian Density)的總個(gè)數(shù)，α ;表示單高斯密度的加權(quán)值。
[0138] bi (X)表示多維高斯混合密度（Gaussian mixture density)。該bi (X)用單高斯密度表示如數(shù)學(xué)式9所示：
[0139] 【數(shù)學(xué)式9】
[0141] μ；：ηχ1 mean vector, Ο^ηχη cov ariance matrix
[0142] 因此，完成的高斯混合密度（Gaussian Mixture Density)由如下三個(gè)變量構(gòu)成：
[0143] λ = { a i，μ i，Ci}，i = 1，…，Q
[0144] 將X e Rn定義為T(mén)TS DB提取器140篩選出的語(yǔ)音，將y e Rn定義為駕駛員的語(yǔ) 音，則z= (x，y)T可以定義為T(mén)TS DB提取器140篩選出的語(yǔ)音與駕駛員語(yǔ)音之間的聯(lián)合密度（joint density)語(yǔ)音。這可以用如下數(shù)學(xué)式表示：
[OHS]【數(shù)學(xué)式10】
[0148] 因此，說(shuō)話者語(yǔ)音轉(zhuǎn)換器180如數(shù)學(xué)式11所示發(fā)現(xiàn)最小化均方誤差（Mean Square Error)的映射（Mapping)函數(shù) F(x)。
[0149] 【數(shù)學(xué)式11】
[0150] ense= E[ || y-F(x) || 2]
[0151] E表示期望值（Expectation)，F(xiàn)(x)表示所推定（estimated)語(yǔ)音的光譜向量 (Spectral Vector)〇
[0152] 利用聯(lián)合密度推定方法（Joint Density Estimation Method)的情況下，F(xiàn)(x) 可定義成如以下數(shù)學(xué)式12所示。此時(shí)，可參見(jiàn)'A.Kain and M.Macon，"Spectral voice conversion for text-to-speech synthesis'，Proc.ICASSP，pp.285 ~288,1998. '。
[0153] 【數(shù)學(xué)式12】
[0157] 以下具體說(shuō)明參照?qǐng)D1至圖3說(shuō)明的車(chē)輛用語(yǔ)音引導(dǎo)提供系統(tǒng)100的工作方法。圖4為顯示根據(jù)本發(fā)明一個(gè)實(shí)施例的車(chē)輛用語(yǔ)音引導(dǎo)提供系統(tǒng)的工作方法的流程圖。
[0158] 步驟S405中，駕駛員說(shuō)出特定命令時(shí)，步驟S410中，語(yǔ)音特征信息提取器120從說(shuō)話者的語(yǔ)音提取特征信息。
[0159] 然后在步驟S415中，說(shuō)話者語(yǔ)音分析器130根據(jù)特征信息實(shí)時(shí)分析性別、年齡、愛(ài) 好等。
[0160] 然后在步驟S420中，TTS DB提取器140從TTS DB 150選擇對(duì)應(yīng)于各分析結(jié)果的信息。
[0161] 然后在步驟S425中，說(shuō)話者語(yǔ)音調(diào)整器160根據(jù)TTS DB提取器140選擇的信息調(diào)整經(jīng)過(guò)語(yǔ)音轉(zhuǎn)換的信息。
[0162] 然后在步驟S430中，說(shuō)話者語(yǔ)音轉(zhuǎn)換器180將根據(jù)從說(shuō)話者語(yǔ)音得到的GMM模型調(diào)整后的語(yǔ)音轉(zhuǎn)換成接近駕駛員的實(shí)際語(yǔ)音。
[0163] 然后在步驟S435中，TTS輸出部（未示出）輸出經(jīng)過(guò)說(shuō)話者語(yǔ)音轉(zhuǎn)換器180轉(zhuǎn)換后的語(yǔ)首。
[0164] 以上參照?qǐng)D1至圖4說(shuō)明了本發(fā)明的一個(gè)實(shí)施形態(tài)。以下說(shuō)明能夠從這些實(shí)施形

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁(yè)1 2 3 4

相關(guān)技術(shù)