两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

語音合成字典創(chuàng)建裝置以及語音合成字典創(chuàng)建方法

文檔序號:9583659閱讀:864來源:國知局
語音合成字典創(chuàng)建裝置以及語音合成字典創(chuàng)建方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實施例涉及語音合成字典創(chuàng)建裝置以及語音合成字典創(chuàng)建方法。
【背景技術(shù)】
[0002]近年來,隨著語音合成技術(shù)的質(zhì)量的提高,語音合成的使用范圍已經(jīng)急劇擴大,諸如在汽車導(dǎo)航系統(tǒng)中、在蜂窩電話的語音郵件讀取應(yīng)用中、在語音助手應(yīng)用中。此外,還提供了用于根據(jù)一般用戶的語音創(chuàng)建語音合成字典的服務(wù)。在該服務(wù)中,如果只有所記錄的語音可用,則語音合成字典可根據(jù)任何人的語音創(chuàng)建。
[0003]專利文獻1:特開2010-117528號公報

【發(fā)明內(nèi)容】

[0004]然而,如果語音是以欺詐方式從電視或因特網(wǎng)中獲得,則有可能通過模仿他人來創(chuàng)建語音合成字典,并且語音合成字典有被濫用的風險。因此,本發(fā)明的目的是提供一種語音合成字典創(chuàng)建裝置以及語音合成字典創(chuàng)建方法,其使得能夠防止以欺騙的方式創(chuàng)建語音合成字典。
[0005]根據(jù)實施例,語音合成字典創(chuàng)建裝置包括第一語音輸入單元、第二語音輸入單元、確定單元和創(chuàng)建單元。第一語音輸入單元接收第一語音數(shù)據(jù)的輸入。第二語音輸入單元接收被認為是適當?shù)恼Z音數(shù)據(jù)的第二語音數(shù)據(jù)的輸入。確定單元確定第一語音數(shù)據(jù)的說話人是否與第二語音數(shù)據(jù)的說話人相同。當確定單元確定第一語音數(shù)據(jù)的說話人與第二語音數(shù)據(jù)的說話人相同時,創(chuàng)建單元使用第一語音數(shù)據(jù)以及與第一語音數(shù)據(jù)對應(yīng)的文本來創(chuàng)建語音合成字典。
【附圖說明】
[0006]圖1是示出根據(jù)第一實施例的語音合成字典創(chuàng)建裝置的配置的配置圖;
[0007]圖2是示出根據(jù)第一實施例的語音合成字典創(chuàng)建裝置的變形例的配置的配置圖;
[0008]圖3是用于說明在根據(jù)第一實施例的語音合成字典創(chuàng)建裝置中執(zhí)行的用于創(chuàng)建語音合成字典的操作的流程圖;
[0009]圖4是示意性地示出在包括根據(jù)第一實施例的語音合成字典創(chuàng)建裝置的語音合成字典創(chuàng)建系統(tǒng)中執(zhí)行的操作的示例的圖;
[0010]圖5是示出根據(jù)第二實施例的語音合成字典創(chuàng)建裝置的配置的配置圖;
[0011]圖6是用于說明在根據(jù)第二實施例的語音合成字典創(chuàng)建裝置中執(zhí)行的用于創(chuàng)建語音合成字典的操作的流程圖;
[0012]圖7是示意性地示出在包括根據(jù)第二實施例的語音合成字典創(chuàng)建裝置的語音合成字典創(chuàng)建系統(tǒng)中執(zhí)行的操作的示例的圖。
【具體實施方式】
[0013]第一實施例
[0014]以下參考【附圖說明】根據(jù)第一實施例的語音合成字典創(chuàng)建裝置。圖1是示出根據(jù)第一實施例的語音合成字典創(chuàng)建裝置Ia的配置的配置圖。在此,語音合成字典創(chuàng)建裝置Ia例如是使用通用計算機實現(xiàn)的。也就是說,語音合成字典創(chuàng)建裝置Ia例如具有包括CPU、存儲器裝置、輸入輸出裝置和通信接口的計算機的功能。
[0015]如圖1所示,語音合成字典創(chuàng)建裝置Ia包括第一語音輸入單元10、第一存儲單元11、控制單元12、呈現(xiàn)單元13、第二語音輸入單元14、分析確定單元15、創(chuàng)建單元16和第二存儲單元17。在此,第一語音輸入單元10、控制單元12、呈現(xiàn)單元13、第二語音輸入單元14和分析確定單元15可使用硬件來配置或者可使用由CPU執(zhí)行的軟件來配置。第一存儲單元11和第二存儲單元17使用例如HDD(硬盤驅(qū)動器)或存儲器來配置。因此,語音合成字典創(chuàng)建裝置Ia可被配置以使得其功能通過執(zhí)行語音合成字典創(chuàng)建程序來實現(xiàn)。
[0016]第一語音輸入單元10例如經(jīng)由通信接口(未示出)接收例如任意用戶的語音數(shù)據(jù)(第一語音數(shù)據(jù));并將語音數(shù)據(jù)輸入到分析確定單元15。另外,第一語音輸入單元10可包括諸如通信接口和麥克風的硬件。
[0017]第一存儲單元11在其中存儲多個文本(或所記錄的文本),并響應(yīng)于控制單元12的控制而輸出所存儲的文本中的任何一個??刂茊卧?2控制語音合成字典創(chuàng)建裝置Ia的構(gòu)成單元。此外,控制單元12選擇在第一存儲單元11中存儲的文本中的任何一個,從第一存儲單元11讀取所選擇的文本,并向呈現(xiàn)單元13輸出所讀取的文本。
[0018]呈現(xiàn)單元13經(jīng)由控制單元12接收在第一存儲單元11中存儲的文本中的任何一個文本,并向用戶呈現(xiàn)所接收的文本。在此,呈現(xiàn)單元13以隨機的方式呈現(xiàn)在第一存儲單元11中存儲的文本。此外,呈現(xiàn)單元13呈現(xiàn)文本僅僅持續(xù)預(yù)定的時間段(例如,大約幾秒鐘到一分鐘)。另外,呈現(xiàn)單元13可以是例如顯示裝置、揚聲器或通信接口。也就是說,為了使用戶能夠識別并說出所選擇的文本,呈現(xiàn)單元13通過顯示文本或者通過執(zhí)行所記錄的文本的語音輸出來執(zhí)行文本呈現(xiàn)。
[0019]當任意用戶例如大聲朗讀由呈現(xiàn)單元13呈現(xiàn)的文本時,第二語音輸入單元14接收其語音數(shù)據(jù)作為適當?shù)恼Z音數(shù)據(jù)(第二語音數(shù)據(jù)),并將其輸入到分析確定單元15。在此,第二語音輸入單元14可例如經(jīng)由通信接口(未示出)接收第二語音數(shù)據(jù)。另外,第二語音輸入單元14可包括諸如通信接口和麥克風的與第一語音輸入單元10共享的硬件,或者可包括共享的軟件。
[0020]在經(jīng)由第一語音輸入單元10接收了第一語音數(shù)據(jù)后,分析確定單元15使控制單元12開始工作,以使得呈現(xiàn)單元13呈現(xiàn)文本。此外,在經(jīng)由第二語音輸入單元14接收了第二語音數(shù)據(jù)后,分析確定單元15通過將第一語音數(shù)據(jù)的特征量與第二語音數(shù)據(jù)的特征量進行比較來確定第一語音數(shù)據(jù)的說話人是否與第二語音數(shù)據(jù)的說話人相同。
[0021]例如,分析確定單元15對第一語音數(shù)據(jù)和第二語音數(shù)據(jù)執(zhí)行語音識別,并生成分別與第一語音數(shù)據(jù)和第二語音數(shù)據(jù)對應(yīng)的文本。此外,分析確定單元15可對第二語音數(shù)據(jù)執(zhí)行語音質(zhì)量檢查,以確定信噪比(SNR)和振幅值是否等于或大于預(yù)定閾值。另外,分析確定單元15基于第一語音數(shù)據(jù)和第二語音數(shù)據(jù)的以下屬性中的至少一個來比較特征量:振幅值、基本頻率(F。)的平均值或離散值、頻譜包絡(luò)提取結(jié)果的相關(guān)性、語音識別的單詞準確率和單詞識別率。在此,頻譜包絡(luò)提取方法的示例包括線性預(yù)測系數(shù)(LPC)、梅爾頻率倒譜系數(shù)、線譜對(LSP)、梅爾LPC和梅爾LSP。
[0022]然后,分析確定單元15將第一語音數(shù)據(jù)的特征量與第二語音數(shù)據(jù)的特征量進行比較。如果第一語音數(shù)據(jù)的特征量與第二語音數(shù)據(jù)的特征量之間的差等于或小于預(yù)定閾值,或者如果第一語音數(shù)據(jù)的特征量與第二語音數(shù)據(jù)的特征量之間的相關(guān)性等于或大于預(yù)定閾值,則分析確定單元15確定第一語音數(shù)據(jù)的說話人與第二語音數(shù)據(jù)的說話人相同。在此,假定由分析確定單元15在確定中使用的閾值通過預(yù)先學(xué)習同一個人的特征量的平均值和離散值或者通過預(yù)先從大量數(shù)據(jù)中學(xué)習語音識別結(jié)果來設(shè)置。
[0023]當確定第一語音數(shù)據(jù)的說話人與第二語音數(shù)據(jù)的說話人相同時,分析確定單元15確定語音是適當?shù)?。然后,分析確定單元15向創(chuàng)建單元16輸出第一語音數(shù)據(jù)(和第二語音數(shù)據(jù))作為適當?shù)恼Z音數(shù)據(jù),其中第一語音數(shù)據(jù)的說話人被確定為與第二語音數(shù)據(jù)的說話人相同。另外,分析確定單元15可被劃分成分析第一語音數(shù)據(jù)和第二語音數(shù)據(jù)的分析單元以及執(zhí)行確定的確定單元。
[0024]創(chuàng)建單元16實現(xiàn)語音識別技術(shù),并根據(jù)經(jīng)由分析確定單元15接收的第一語音數(shù)據(jù),創(chuàng)建所說出的內(nèi)容的文本。然后,創(chuàng)建單元16使用所創(chuàng)建的文本和第一語音數(shù)據(jù)創(chuàng)建語音合成字典,并向第二存儲單元17輸出語音合成字典。因此,第二存儲單元17在其中存儲從創(chuàng)建單元16接收的語音合成字典。
[0025]第一實施例的變形例
[0026]圖2是示出根據(jù)第一實施例的在圖1中示出的語音合成字典創(chuàng)建裝置Ia的變形例的配置的配置圖(語音合成字典創(chuàng)建裝置Ib的配置示例)。如圖2所示,語音合成字典創(chuàng)建裝置Ib包括第一語音輸入單元10、第一存儲單元11、控制單元12、呈現(xiàn)單元13、第二語音輸入單元14、分析確定單元15、創(chuàng)建單元16、第二存儲單元17和文本輸入單元18。在語音合成字典創(chuàng)建裝置Ib中,用相同的參考標記指代實際上與語音合成字典創(chuàng)建裝置Ia相同的構(gòu)成單元。
[0027]文本輸入單元18經(jīng)由例如通信接口(未示出)接收與第一語音數(shù)據(jù)對應(yīng)的文本,并將文本輸入到分析確定單元15。在此,文本輸入單元18可使用諸如能夠接收文本輸入的輸入裝置的硬件來配置,或者可使用軟件來配置。
[0028]分析確定單元15將輸入到文本輸入單元18的通過用戶說出文本而獲得的語音數(shù)據(jù)當作第一語音數(shù)據(jù),并確定第一語音數(shù)據(jù)的說話人是否與第二語音數(shù)據(jù)的說話人相同。然后,倉Il建單元16使用被分析確定單元15確定為適當?shù)恼Z音以及輸入到文本輸入單元18的文本來創(chuàng)建語音合成字典。因此,在語音合成字典創(chuàng)建裝置Ib中,由于包括了文本輸入單元18,因此,無需通過執(zhí)行語音識別來創(chuàng)建文本。這使得能夠?qū)崿F(xiàn)處理負載的減少。
[00
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
古丈县| 镇坪县| 乃东县| 福泉市| 平安县| 海口市| 苏尼特右旗| 平潭县| 罗定市| 蒙城县| 华阴市| 朝阳区| 平阳县| 焦作市| 敦煌市| 淳安县| 乳山市| 如皋市| 沙田区| 泌阳县| 多伦县| 奉贤区| 横峰县| 通渭县| 灵川县| 琼海市| 芷江| 渭源县| 健康| 织金县| 嵊泗县| 偃师市| 大余县| 祁东县| 平顶山市| 华亭县| 林西县| 伊宁市| 万全县| 肇源县| 常德市|