利用用戶的語音特征的對(duì)象信息語音輸出控制裝置及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通過語音輸出對(duì)象信息的控制裝置及方法,尤其涉及一種車輛用語音 輸出對(duì)象信息的控制裝置及方法。
【背景技術(shù)】
[0002] 通常,文轉(zhuǎn)聲(Text To Speech ;以下簡稱'TTS')是將文字或記號(hào)轉(zhuǎn)換成語音輸 出的技術(shù)。TTS構(gòu)建關(guān)于音素的發(fā)音數(shù)據(jù)庫并將此連接成連續(xù)的語音,此時(shí)關(guān)鍵是通過調(diào)節(jié) 語音大小、長度、高低等合成自然的語音。
[0003] 即,TTS是將字符串(文章)轉(zhuǎn)換成語音的文字-語音轉(zhuǎn)換裝置,大致分為語言處 理、生成韻律、波形合成等三個(gè)步驟,具體是接收到文本時(shí)在語言處理步驟分析接收到的文 書的語法結(jié)構(gòu),根據(jù)分析得到的語法結(jié)構(gòu)生成像真人朗讀一樣的韻律,并根據(jù)生成的韻律 匯集存儲(chǔ)的語音數(shù)據(jù)庫(以下簡稱'DB')的基本單位生成合成音。
[0004] TTS無對(duì)象詞匯限制,將一般文字形式的信息轉(zhuǎn)換成語音,因此構(gòu)建系統(tǒng)時(shí)應(yīng)用語 音學(xué)、語音分析、語音合成及語音識(shí)別技術(shù)等輸出多種自然的語音。
[0005] 但目前提供這種TTS的終端在用語音輸出文字消息等情況下,無論對(duì)方是誰,都 用預(yù)先設(shè)定的相同語音進(jìn)行輸出,因此無法滿足各類用戶的需求。
[0006] 韓國公開專利第2011-0032256號(hào)公開了一種TTS引導(dǎo)廣播裝置。但由于該裝置 只不過是一種單純地將指定文本轉(zhuǎn)換成語音的裝置,因此無法解決上述問題。
【發(fā)明內(nèi)容】
[0007] 技術(shù)問題
[0008] 為解決上述問題,本發(fā)明的目的在于提供一種根據(jù)從用戶的語音獲取的特征信息 提供TTS(Text To Speech)服務(wù)的利用用戶的語音特征(characteristic of user voice) 的對(duì)象信息語音輸出控制裝置及方法。
[0009] 但本發(fā)明的目的不限于以上記載的內(nèi)容,本領(lǐng)域技術(shù)人員可通過以下記載內(nèi)容明 確理解未記載的其他目的。
[0010] 技術(shù)方案
[0011] 為達(dá)成上述目的,本發(fā)明提供一種利用用戶的語音特征的對(duì)象信息語音輸出控制 裝置,其特征在于,包括:特征信息生成部,其根據(jù)用戶的語音信息生成所述用戶的特征信 息;對(duì)象信息生成部,其根據(jù)所述特征信息,利用文本形式的第一對(duì)象信息生成語音形式的 第二對(duì)象信息;以及,對(duì)象信息輸出部,其輸出所述第二對(duì)象信息。
[0012] 優(yōu)選地,所述特征信息生成部從所述語音信息提取共振峰(Formant)信息、頻率 (Log f0)信息、線性預(yù)測(cè)系數(shù)(Linear Predictive Coefficient ;LPC)信息、頻譜包絡(luò) 線(Spectral Envelope)信息、能量信息、說話速度(Pitch Period)信息及對(duì)數(shù)譜(Log Spectrum)信息中的至少一種信息,并根據(jù)所述至少一種信息實(shí)時(shí)生成所述特征信息。
[0013] 優(yōu)選地,所述特征信息生成部實(shí)時(shí)生成所述用戶的性別信息、所述用戶的年齡信 息及所述用戶的感情信息中的至少一種信息作為所述特征信息。
[0014] 優(yōu)選地,所述特征信息生成部從所述語音信息中去除噪音信息后生成所述特征信 息。
[0015] 優(yōu)選地,所述特征信息生成部向所述語音信息適用加權(quán)值信息生成所述特征信 息,其中,所述加權(quán)值信息為通過學(xué)習(xí)(training)對(duì)應(yīng)于所述語音信息的輸入信息與各輸 入信息的目標(biāo)信息得到的信息。
[0016] 優(yōu)選地,所述特征信息生成部利用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network ; ANN)算法、誤差反向傳播(Error Back Propagation ;EBP)算法及梯度下降法(Gradient Descent Method)獲取所述加權(quán)值信息。
[0017] 優(yōu)選地,所述對(duì)象信息生成部從數(shù)據(jù)庫中提取對(duì)應(yīng)于所述特征信息的基準(zhǔn)信息, 并根據(jù)所述基準(zhǔn)信息對(duì)所述第一對(duì)象信息轉(zhuǎn)換成語音得到的信息進(jìn)行調(diào)整生成所述第二 對(duì)象信息。
[0018] 優(yōu)選地,所述對(duì)象信息生成部根據(jù)從所述基準(zhǔn)信息得到的說話速度(Pitch Period)信息或頻率(Log f0)信息,對(duì)所述第一對(duì)象信息轉(zhuǎn)換成語音得到的信息進(jìn)行調(diào)整 生成所述第二對(duì)象信息。
[0019] 優(yōu)選地,所述對(duì)象信息生成部根據(jù)所述基準(zhǔn)信息與從所述特征信息獲取的說話者 識(shí)別信息生成所述第二對(duì)象信息。
[0020] 優(yōu)選地,所述對(duì)象信息生成部根據(jù)高斯混合模型(GMM)獲取所述說話者識(shí)別信 息。
[0021] 并且,本發(fā)明提供一種利用用戶的語音特征的對(duì)象信息語音輸出控制方法,其特 征在于,包括:根據(jù)用戶的語音信息生成所述用戶的特征信息的步驟;根據(jù)所述特征信息, 利用文本形式的第一對(duì)象信息生成語音形式的第二對(duì)象信息的步驟;以及,輸出所述第二 對(duì)象信息的步驟。
[0022] 優(yōu)選地,生成所述特征信息的步驟具體是,從所述語音信息提取共振峰(Formant) 信息、頻率(Log f0)信息、線性預(yù)測(cè)系數(shù)(Linear Predictive Coefficient ;LPC)信息、 頻譜包絡(luò)線(Spectral Envelope)信息、能量信息、說話速度(Pitch Period)信息及對(duì)數(shù) 譜(Log Spectrum)信息中的至少一種信息,并根據(jù)所述至少一種信息實(shí)時(shí)生成所述特征信 息。
[0023] 優(yōu)選地,生成所述特征信息的步驟具體是,實(shí)時(shí)生成所述用戶的性別信息、所述用 戶的年齡信息及所述用戶的感情信息中的至少一種信息作為所述特征信息。
[0024] 優(yōu)選地,生成所述特征信息的步驟具體是,從所述語音信息中去除噪音信息后生 成所述特征信息。
[0025] 優(yōu)選地,生成所述特征信息的步驟具體是,向所述語音信息適用加權(quán)值信息生成 所述特征信息,其中,所述加權(quán)值信息為通過學(xué)習(xí)(training)對(duì)應(yīng)于所述語音信息的輸入 信息與各輸入信息的目標(biāo)信息得到的信息。
[0026] 優(yōu)選地,生成所述特征信息的步驟具體是,利用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network ;ANN)算法、誤差反向傳播(Error Back Propagation ;EBP)算法及梯度下 降法(Gradient Descent Method)獲取所述加權(quán)值信息。
[0027] 優(yōu)選地,生成所述第二對(duì)象信息的步驟具體是,從數(shù)據(jù)庫中提取對(duì)應(yīng)于所述特征 信息的基準(zhǔn)信息,并根據(jù)所述基準(zhǔn)信息對(duì)所述第一對(duì)象信息轉(zhuǎn)換成語音得到的信息進(jìn)行調(diào) 整生成所述第二對(duì)象信息。
[0028] 優(yōu)選地,生成所述第二對(duì)象信息的步驟具體是,從所述基準(zhǔn)信息得到的說話速度 (Pitch Period)信息或頻率(Log f0)信息,對(duì)所述第一對(duì)象信息轉(zhuǎn)換成語音得到的信息進(jìn) 行調(diào)整生成所述第二對(duì)象信息。
[0029] 優(yōu)選地,生成所述第二對(duì)象信息的步驟具體是根據(jù)所述基準(zhǔn)信息與從所述特征信 息獲取的說話者識(shí)別信息生成所述第二對(duì)象信息。
[0030] 優(yōu)選地,生成所述第二對(duì)象信息的步驟具體是根據(jù)高斯混合模型(GMM)獲取所述 說話者識(shí)別信息。
[0031] 技術(shù)效果
[0032] 本發(fā)明根據(jù)從用戶的語音獲取的特征信息提供文轉(zhuǎn)聲(Text To Speech,以下簡 稱'TTS')服務(wù),從而具有如下效果:
[0033] 第一,從單向方式改成雙向方式溝通,從而能夠構(gòu)建自然的語音識(shí)別系統(tǒng)。
[0034] 第二,系統(tǒng)提供與駕駛員性別、年齡、愛好等相符的TTS服務(wù),因此車輛的語音識(shí) 別系統(tǒng)能夠提供非機(jī)械性的親和、易懂的語音。
【附圖說明】
[0035] 圖1為顯示根據(jù)本發(fā)明一個(gè)實(shí)施例的車輛用語音引導(dǎo)提供系統(tǒng)的內(nèi)部構(gòu)成的概 念圖;
[0036] 圖2及圖3為用于說明圖1所示車輛用語音引導(dǎo)提供系統(tǒng)中的說話者語音分析器 的參考圖;
[0037] 圖4為顯示根據(jù)本發(fā)明一個(gè)實(shí)施例的車輛用語音引導(dǎo)提供系統(tǒng)工作方法的流程 圖。
【具體實(shí)施方式】
[0038] 以下參照附圖具體說明本發(fā)明的優(yōu)選實(shí)施例。首先,需要注意的是在對(duì)各圖的構(gòu) 成要素添加附圖標(biāo)記方面,即使相同的構(gòu)成要素出現(xiàn)在不同的附圖上也盡可能添加相同的 附圖標(biāo)記。并且在說明本發(fā)明時(shí)若判斷認(rèn)為對(duì)相關(guān)公知結(jié)構(gòu)或功能的具體說明可能對(duì)本發(fā) 明的主題造成混淆,則省略相關(guān)具體說明。另外,以下將說明本發(fā)明的優(yōu)選實(shí)施例,但本發(fā) 明的技術(shù)方案并不限定或限制于此,所屬技術(shù)領(lǐng)域的技術(shù)人員可做多種變形實(shí)施。
[0039] 本發(fā)明的目的在于分析車輛內(nèi)駕駛員的語音特征并提供更加自然親切的語音引 導(dǎo)服務(wù)。
[0040] 圖1為顯示根據(jù)本發(fā)明一個(gè)實(shí)施例的車輛用語音引導(dǎo)提供系統(tǒng)的內(nèi)部構(gòu)成的概 念圖。
[0041] 車輛用語音引導(dǎo)提供系統(tǒng)100是利用駕駛員的語音,通過與當(dāng)前駕駛員的語音 相似的圖案提供語音引導(dǎo)的系統(tǒng),如圖1所示,包括噪音去除器110、語音特征信息提取 器120、說話者語音分析器130、文轉(zhuǎn)聲數(shù)據(jù)庫提取器(以下簡稱'TTS DB提取器')140、 TTS DB (以下簡稱'文轉(zhuǎn)聲數(shù)據(jù)庫')150、說話者語音調(diào)整器160、高斯混合模型提取器 (Gaussian Mixture Model提取器,以下簡稱'GMM提取器')170及說話者語音轉(zhuǎn)換器180〇
[0042] 車輛內(nèi)導(dǎo)航引導(dǎo)語音或語音識(shí)別引導(dǎo)語音一般使用生產(chǎn)時(shí)既已固定的特定 TTS DB。因此,無法充分滿足希望按年齡、性別、駕駛員愛好進(jìn)行語音引導(dǎo)的消費(fèi)者需求 (Needs)。例如,歲數(shù)大的老年人可能不太容易聽懂朝氣蓬勃的二十多歲人員語速較快的語 音,而年輕人則認(rèn)為五十多歲人員的慢速語音枯燥、無個(gè)性。
[0043] 本發(fā)明的車輛用語音引導(dǎo)提供系統(tǒng)100的目的在于為年輕人、中年人、老年人及 男性、女性、性格活潑或溫柔的駕駛員提供親和、易懂的語音品質(zhì),而不是提供機(jī)械性的TTS 引導(dǎo)語音。
[0044] 并且,車輛用語音引導(dǎo)提供系統(tǒng)100的目的在于在雙向溝通方式