两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

文本到語(yǔ)音轉(zhuǎn)換設(shè)備及其轉(zhuǎn)換方法

文檔序號(hào):2830963閱讀:298來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):文本到語(yǔ)音轉(zhuǎn)換設(shè)備及其轉(zhuǎn)換方法
技術(shù)領(lǐng)域
本發(fā)明涉及用于將字符數(shù)據(jù)轉(zhuǎn)換為語(yǔ)音并輸出語(yǔ)音的語(yǔ)音朗讀(speech reading)設(shè)備、程序和方法,其中字符數(shù)據(jù)包括例如文檔的表音字符(phonetic character)。具體地,本發(fā)明涉及用于根據(jù)語(yǔ)速控制音素(phoneme)長(zhǎng)度的 語(yǔ)音朗讀設(shè)備、程序和方法,尤其是在以高速朗讀語(yǔ)音時(shí),選擇特定音素等 并使所述特定音素等能夠延長(zhǎng)或縮短。
背景技術(shù)
眾所周知,所謂語(yǔ)音朗讀的技術(shù),對(duì)包括表音字符的字符數(shù)據(jù)進(jìn)行分析, 通過(guò)語(yǔ)音合成從字符數(shù)據(jù)合成語(yǔ)音,并將字符數(shù)據(jù)輸出為語(yǔ)音。在例如蜂窩 電話的便攜式終端中,己開(kāi)始廣泛使用朗讀例如郵件的自由文本的語(yǔ)音合成 功能。此外,在個(gè)人計(jì)算機(jī)(PC)中,已開(kāi)始廣泛使用所謂"屏幕閱讀器" 的軟件。當(dāng)通過(guò)語(yǔ)音對(duì)文本內(nèi)容進(jìn)行理解時(shí),表示作用于聽(tīng)覺(jué)的例如元音、 輔音或停頓等的音素的長(zhǎng)度,是增強(qiáng)可識(shí)別性的重要因素。關(guān)于這種語(yǔ)音朗讀,日本特開(kāi)專(zhuān)利公布No. 6-149283 (例如摘要和圖l) 公開(kāi)了一種語(yǔ)音合成技術(shù);其中,當(dāng)語(yǔ)速(speech rate)小于預(yù)定值時(shí),將 短音節(jié)(mora)長(zhǎng)度設(shè)定為最小值,并基于語(yǔ)速設(shè)定與語(yǔ)速相對(duì)應(yīng)的短幀周 期,使得語(yǔ)速高于正常速度;以及,當(dāng)語(yǔ)速等于或大于預(yù)定值時(shí),設(shè)定與語(yǔ) 速相對(duì)應(yīng)的長(zhǎng)短音節(jié)長(zhǎng)度,并基于語(yǔ)速將幀周期的長(zhǎng)度設(shè)定為最小值,使得 語(yǔ)速低于正常速度。在此,假定可靈活設(shè)定語(yǔ)速,將每個(gè)音素的長(zhǎng)度設(shè)定為隨著語(yǔ)速反向變 化。例如,當(dāng)語(yǔ)速加倍時(shí),音素長(zhǎng)度則減至l/2;當(dāng)語(yǔ)速減至l/2時(shí),音素長(zhǎng) 度則加倍。在將語(yǔ)速和音素長(zhǎng)度之間的關(guān)系簡(jiǎn)單化(即音素長(zhǎng)度隨著語(yǔ)速反 向變化)的安排中,即使當(dāng)語(yǔ)音在正常語(yǔ)速下是正常的(當(dāng)可輕松聽(tīng)到該語(yǔ) 音)時(shí),在以高速和低速朗讀語(yǔ)音時(shí),可能很難聽(tīng)到該語(yǔ)音,以及該語(yǔ)音可 能是不自然的。因此,降低了可識(shí)別性。日本特開(kāi)專(zhuān)利公布No. 6-149283既沒(méi)有公開(kāi)或建議這種問(wèn)題,也沒(méi)有公開(kāi)或建議提供解答的任何方案。 發(fā)明內(nèi)容根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供一種用于將文本數(shù)據(jù)轉(zhuǎn)換為聲音信 號(hào)的設(shè)備,包括音素確定器,用于確定與多個(gè)音素相對(duì)應(yīng)的音素?cái)?shù)據(jù)以及 與多個(gè)停頓相對(duì)應(yīng)的停頓數(shù)據(jù),所述多個(gè)停頓被插入到將被轉(zhuǎn)換為所述聲音 信號(hào)的所述文本數(shù)據(jù)中的一連串音素之間;音素長(zhǎng)度調(diào)整器,用于通過(guò)分別根據(jù)所述聲音信號(hào)的速度確定所述音素的長(zhǎng)度,以及通過(guò)在所述文本數(shù)據(jù)中 作為摩擦音的所述音素中選擇性調(diào)整至少一個(gè)摩擦音音素的長(zhǎng)度,使得所述至少一個(gè)摩擦音音素與其它音素相比在時(shí)間上(timewise)被相對(duì)延長(zhǎng),以 此調(diào)整所述音素?cái)?shù)據(jù)和所述停頓數(shù)據(jù);以及輸出單元,用于基于通過(guò)所述音 素長(zhǎng)度調(diào)整器所調(diào)整的音素?cái)?shù)據(jù)和停頓數(shù)據(jù),輸出所述聲音信號(hào)。 本發(fā)明能夠改善文本轉(zhuǎn)換為語(yǔ)音的可識(shí)別性和可聽(tīng)性。


圖1為示出根據(jù)本發(fā)明第一實(shí)施例的語(yǔ)音朗讀設(shè)備的示例性組成的框圖;圖2為示出該語(yǔ)音朗讀設(shè)備中音素長(zhǎng)度控制單元的示例性組成的框圖; 圖3為示出其中整合有該語(yǔ)音朗讀設(shè)備的示例性便攜式終端的框圖; 圖4示出該便攜式終端的示例性結(jié)構(gòu); 圖5示出示例性屏幕顯示;圖6為示出根據(jù)該第一實(shí)施例的用于控制音素長(zhǎng)度的示例性處理過(guò)程的 流程圖;圖7為示出根據(jù)本發(fā)明第二實(shí)施例的用于控制音素長(zhǎng)度的示例性處理過(guò) 程的流程圖;圖8為示出根據(jù)本發(fā)明第三實(shí)施例的用于控制音素長(zhǎng)度的示例性處理過(guò) 程的流程圖;圖9為示出根據(jù)本發(fā)明第四實(shí)施例的音素長(zhǎng)度控制單元的框圖; 圖10為示出根據(jù)該第四實(shí)施例的用于控制音素長(zhǎng)度的示例性處理過(guò)程 的流程圖;圖11為示出根據(jù)本發(fā)明第五實(shí)施例的音素長(zhǎng)度控制單元的框圖; 圖12為示出根據(jù)該第五實(shí)施例的用于控制音素長(zhǎng)度的示例性處理過(guò)程 的流程圖;圖13為示出根據(jù)本發(fā)明第六實(shí)施例的用于控制音素長(zhǎng)度的示例性處理 過(guò)程的流程圖;圖14為示出根據(jù)本發(fā)明第七實(shí)施例的用于控制音素長(zhǎng)度的示例性處理 過(guò)程的流程圖;圖15為示出根據(jù)本發(fā)明第八實(shí)施例的用于控制音素長(zhǎng)度的示例性處理 過(guò)程的流程圖;圖16為示出包括語(yǔ)速調(diào)整單元的參數(shù)生成單元的框圖;圖17為示出用于控制音素長(zhǎng)度的示例性處理過(guò)程的流程圖;圖18為示出語(yǔ)言處理結(jié)果的表;圖19為示出所生成的音素長(zhǎng)度示例的表;圖20為示出所生成的音素長(zhǎng)度示例的表;圖21a、圖21b和圖21c分別示出合成的語(yǔ)音波形;圖22a和圖22b分別示出合成的語(yǔ)音波形;圖23a和圖23b分別示出合成的語(yǔ)音波形;圖24a和圖24b分別示出合成的語(yǔ)音波形;以及圖25a和圖25b分別示出合成的語(yǔ)音波形。
具體實(shí)施方式
第一實(shí)施例關(guān)于本發(fā)明的第一實(shí)施例,請(qǐng)參閱圖1和圖2。圖l為示出語(yǔ)音朗讀設(shè) 備2的示例性組成的框圖。圖2為示出語(yǔ)音朗讀設(shè)備2中音素長(zhǎng)度控制單元 18的示例性組成的框圖。語(yǔ)音朗讀設(shè)備(語(yǔ)音朗讀裝置、文本到語(yǔ)音朗讀設(shè)備)2包括計(jì)算機(jī)。 語(yǔ)音朗讀設(shè)備2包括例如語(yǔ)音合成器,語(yǔ)音合成器將例如文本(在日語(yǔ)的情 況下,文本包括中文字符和日語(yǔ)假名字符的混合體)的包括摩擦音(fricative) 和停頓(pause)的字符數(shù)據(jù)轉(zhuǎn)換為語(yǔ)音并朗讀該語(yǔ)音。語(yǔ)音朗讀設(shè)備2通過(guò) 根據(jù)語(yǔ)速控制字符數(shù)據(jù)中每個(gè)摩擦音的音素長(zhǎng)度,來(lái)改善從字符數(shù)據(jù)獲得的輸出語(yǔ)音的可聽(tīng)性(listenability),從而改善合成語(yǔ)音(朗讀輸出)的可識(shí) 別性(recogiiizability)。在這種情況下,字符數(shù)據(jù)經(jīng)歷語(yǔ)音朗讀,并包括含 有摩擦音和停頓的表音字符串。表音字符或表音字符串為包括標(biāo)音(phonetic transcription)的中間語(yǔ)言(interlanguage),其中該標(biāo)音具有用于語(yǔ)音合成 的韻律符號(hào)(prosodic symbol)。摩擦音為當(dāng)呼吸通過(guò)由口腔中發(fā)聲器官形 成的狹窄空間時(shí)發(fā)出的輔音,并包括例如"f" 、 "v" 、 "s"和"z"。停 頓為無(wú)聲區(qū)間(silent intervals),例如不被轉(zhuǎn)換為語(yǔ)音的區(qū)間(除了剛好在 爆破音或日語(yǔ)sokuon之前的間隙)。日語(yǔ)sokuon為英語(yǔ)中所謂的長(zhǎng)輔音 (geminate consonant)或雙輔音(double consonant)。例如,在日語(yǔ)語(yǔ)句"so tsugyoshi te, shinyou kin koni..."中,逗號(hào)","表示"so tsugyoshi te"禾口"shinyou kin koni"之間存在的無(wú)聲期間,而該逗號(hào)即為停頓的示例。日語(yǔ)語(yǔ)句"so tsugyoshi te, shinyou kin koni..."的意思是"(他)從(高中)畢業(yè)之后,(他 已)在銀行(工作)…"。換句話說(shuō),"so tsugyoshi te"的意思是"畢業(yè)之 后",而"shinyou kin koni"的意思是"在銀行"。在這種情況下,呼吸群 (breathgroup)為人類(lèi)在一次呼吸中發(fā)出聲音的單位,并且上述停頓插入在 呼吸群之間的呼吸中。為了實(shí)現(xiàn)這種功能,如圖1所示,語(yǔ)音朗讀設(shè)備2包括語(yǔ)言處理單元(語(yǔ) 言處理器)4、詞典6、參數(shù)生成單元(參數(shù)生成器)8、基音(pitch)提取/ 交疊單元(基音提取/重疊單元)10和波形庫(kù)12。語(yǔ)言處理單元4為語(yǔ)言處理裝置,在其中輸入包括中文字符和日語(yǔ)假名 字符混合體的文本,通過(guò)參閱詞典6分析文本中的詞,確定讀音(reading)、 重音(accent)和聲調(diào)(intonation),并輸出表音字符串(中間語(yǔ)言)。在 詞典6中存儲(chǔ)詞的類(lèi)型(例如,部分語(yǔ)音)、讀音、重音位置等。按自然規(guī)律(in physical term),重音和聲調(diào)與基音頻率(pitch frequency) 中的時(shí)間變化(temporal variations)模式緊密相關(guān)。特別地,基音頻率在重 音位置處是高的,以及在聲調(diào)上升時(shí)是高的。因此,基于例如通過(guò)輸入文本 中的詞分析提取出標(biāo)點(diǎn)符號(hào)和子句,語(yǔ)言處理單元4將輸入文本劃分為上述 呼吸群。參數(shù)生成單元8為參數(shù)生成裝置,用于設(shè)定例如每個(gè)音素的持續(xù)時(shí)間、 每個(gè)停頓的持續(xù)時(shí)間以及基音頻率模式。參數(shù)生成單元8根據(jù)語(yǔ)速控制音素長(zhǎng)度。參數(shù)生成單元8包括音素長(zhǎng)度設(shè)定單元(音素長(zhǎng)度設(shè)定器)14、音素長(zhǎng)度表16、音素長(zhǎng)度控制單元(音素長(zhǎng)度控制器)18以及基音模式生成單元 (基音模式生成器)20。在語(yǔ)言處理單元4中生成的表音字符串的級(jí)別,確定哪些音素需經(jīng)歷語(yǔ) 音合成。音素長(zhǎng)度設(shè)定單元14為用于設(shè)定每個(gè)音素的音素長(zhǎng)度的裝置;并 且,音素長(zhǎng)度設(shè)定單元14設(shè)定正常語(yǔ)速下的音素長(zhǎng)度。音素長(zhǎng)度表16為用 于存儲(chǔ)正常語(yǔ)速下的音素長(zhǎng)度的裝置,其中每個(gè)音素長(zhǎng)度與相應(yīng)的音素以及 之前和之后的音素相對(duì)應(yīng)。在音素長(zhǎng)度的示例性設(shè)定中,將正常語(yǔ)速下的音 素長(zhǎng)度(從數(shù)據(jù)庫(kù)提取到的值)預(yù)先存儲(chǔ)于音素長(zhǎng)度表16,每個(gè)音素長(zhǎng)度與 相應(yīng)的音素以及之前和之后的音素相對(duì)應(yīng),并參考音素長(zhǎng)度的這些值設(shè)定音 素長(zhǎng)度??衫闷渌鼌?shù)成分對(duì)音素長(zhǎng)度進(jìn)行校正。音素長(zhǎng)度控制單元18為音素長(zhǎng)度控制裝置,用于根據(jù)語(yǔ)速控制音素長(zhǎng) 度設(shè)定單元14中設(shè)定的正常語(yǔ)速下的音素長(zhǎng)度。將來(lái)自例如用于調(diào)整語(yǔ)速 的裝置(未示出)的語(yǔ)速提供給音素長(zhǎng)度控制單元18,作為控制信息(例如, 用戶設(shè)定)。如圖2所示,音素長(zhǎng)度控制單元(音素長(zhǎng)度控制器)18包括音素長(zhǎng)度調(diào) 整單元(音素長(zhǎng)度調(diào)節(jié)單元)24、語(yǔ)速確定單元(語(yǔ)速確定單元、講話速度 確定單元)26以及音素確定單元28。 一旦接收到來(lái)自語(yǔ)速確定單元26和音 素確定單元28的確定結(jié)果,音素長(zhǎng)度調(diào)整單元24調(diào)整每個(gè)音素的長(zhǎng)度和每 個(gè)停頓的長(zhǎng)度。語(yǔ)速確定單元26確定輸入語(yǔ)速屬于正常速度、高速和低速 中的哪一個(gè),并將確定結(jié)果輸出給音素長(zhǎng)度調(diào)整單元24。在這種情況下,從 語(yǔ)速確定單元26輸出的確定結(jié)果包括指示正常速度、高速、或低速的輸出 以及指示語(yǔ)速級(jí)別的輸出。音素確定單元28確定例如具有音素長(zhǎng)度設(shè)定單 元14 (圖l)中所設(shè)定的音素長(zhǎng)度的音素和停頓,并將確定結(jié)果輸出給音素 長(zhǎng)度調(diào)整單元24。在音素長(zhǎng)度控制單元18中進(jìn)行如下操作,例如,設(shè)定音素長(zhǎng)度,使其 隨著語(yǔ)速反向變化。特別地,假定正常語(yǔ)速為每秒7個(gè)短音節(jié),當(dāng)語(yǔ)速被設(shè) 定為每秒14個(gè)短音節(jié)時(shí),每個(gè)音素長(zhǎng)度被減半;當(dāng)語(yǔ)速被設(shè)定為每秒6個(gè) 短音節(jié)時(shí),每個(gè)音素長(zhǎng)度乘以7/6。短音節(jié)為與一個(gè)假名字符相對(duì)應(yīng)的單位,其中假名字符為表音字符。 一個(gè)例如"kya"的日語(yǔ)youon對(duì)應(yīng)于一個(gè)短音 節(jié)。在日語(yǔ)中,每個(gè)字符的短音節(jié)與此相同。youon為例如,其中具有半元 音(semivowel) [j]的輔音放在每個(gè)日語(yǔ)元音[a]、 [u]和[o]之前的音節(jié),或者 其中發(fā)音[w]插入在"ka" 、 "ga" 、 "ke"和"ge"每一個(gè)的輔音和元音之 間的音節(jié)。基音模式生成單元20為模式生成裝置,用于考慮例如有關(guān)表音字符串 中重音的信息來(lái)設(shè)定每個(gè)音素中的基音周期?;籼崛?交疊單元10為使用基音同步交疊相加(PSOLA, Pitch Synchronous OverLap and Add)方法(利用波形添加疊印的基音轉(zhuǎn)換方法) 的基音提取及交疊裝置。波形庫(kù)12中存儲(chǔ)了關(guān)于聲音的語(yǔ)音波形、表示哪 一部分對(duì)應(yīng)于哪一音素的音素表以及表示基音周期的基音標(biāo)記?;籼崛? 交疊單元10基于參數(shù)生成單元8中所生成的參數(shù),從波形庫(kù)12提取兩個(gè)周 期的語(yǔ)音波形,將所述語(yǔ)音波形與窗函數(shù)(例如,漢寧(Hanning)窗)相 乘,再將乘積乘以用于振幅調(diào)節(jié)的增益,如果需要的話,在波形庫(kù)12中的 基音頻率不同于期望的基音頻率時(shí)執(zhí)行基音轉(zhuǎn)換,并隨后將所提取的波形加 入波形相互交疊的狀態(tài),以輸出合成語(yǔ)音信號(hào)。關(guān)于語(yǔ)音朗讀設(shè)備2的硬件,請(qǐng)參閱圖3、圖4和圖5。圖3為示出其 中整合有語(yǔ)音朗讀設(shè)備2的示例性便攜式終端200的框圖。圖4示出便攜式 終端200的示例性結(jié)構(gòu)。圖5示出示例性屏幕顯示。便攜式終端(移動(dòng)終端設(shè)備、便攜式終端裝置)200僅為其上應(yīng)用有上 述語(yǔ)音朗讀設(shè)備2的一個(gè)示例,且根據(jù)本發(fā)明的用于語(yǔ)音朗讀的設(shè)備、方法 和程序并不局限于這種結(jié)構(gòu)。便攜式終端200包括例如通信功能,以及用于 將包括摩擦音和停頓的字符數(shù)據(jù)轉(zhuǎn)換為語(yǔ)音并輸出該語(yǔ)音的功能,其中該字 符數(shù)據(jù)例如是郵件文本的文本(在日語(yǔ)的情形下,文本包括中文字符和曰語(yǔ) 假名字符的混合體)。如圖3所示,便攜式終端200包括處理器202、存儲(chǔ) 單元204、無(wú)線電單元(無(wú)線通信單元、無(wú)線單元)206、輸入單元208、顯 示單元210、語(yǔ)音輸入單元(聲音輸入單元、嗓音輸入單元)212以及語(yǔ)音 輸出單元(聲音輸出單元、嗓音輸出單元)214。處理器202為控制裝置,用于控制電話通信、例如語(yǔ)音合成的語(yǔ)音朗讀 以及其它處理。處理器202包括中央處理單元(CPU)或微處理器單元(MPU),并執(zhí)行存儲(chǔ)單元204中所存儲(chǔ)的操作系統(tǒng)(OS)和應(yīng)用程序。這些應(yīng)用程序 包括,例如,用于執(zhí)行語(yǔ)音朗讀過(guò)程的程序。存儲(chǔ)單元204為存儲(chǔ)介質(zhì),其中存儲(chǔ)有在處理器202中執(zhí)行的程序以及 用于執(zhí)行程序的各種數(shù)據(jù),并形成處理區(qū)。存儲(chǔ)單元204包括程序存儲(chǔ)單元 216、數(shù)據(jù)存儲(chǔ)單元218以及隨機(jī)存取存儲(chǔ)器(RAM) 220。程序存儲(chǔ)單元 216存儲(chǔ)OS和應(yīng)用程序。數(shù)據(jù)存儲(chǔ)單元218存儲(chǔ)詞典6、波形庫(kù)12以及音 素長(zhǎng)度表16(圖1 ),其中音素長(zhǎng)度表16中存儲(chǔ)有上述數(shù)據(jù)段(pieces of data)。 RAM220組成工作區(qū)。無(wú)線電單元206為無(wú)線電通信裝置,用于通過(guò)大氣向基站發(fā)射例如語(yǔ)音 信號(hào)波和包信號(hào)波以及從基站接收例如語(yǔ)音信號(hào)波和包信號(hào)波。無(wú)線電單元 206受處理器202控制。輸入單元208為通過(guò)用戶的操作輸入例如控制數(shù)據(jù)并響應(yīng)于顯示在顯示 單元210上的對(duì)話的裝置。輸入裝置208包括例如鍵盤(pán)和觸摸板。顯示單元210受控于處理器202。顯示單元210為用于顯示例如字符和 圖形的顯示裝置,并包括例如液晶顯示(LCD)元件。例如,在顯示單元210 上顯示待朗讀的文本。語(yǔ)音輸入單元212為受控于處理器202的語(yǔ)音輸入裝置,并包括麥克風(fēng) 222。在麥克風(fēng)222中將輸入的語(yǔ)音轉(zhuǎn)換為語(yǔ)音信號(hào),將所述語(yǔ)音信號(hào)轉(zhuǎn)換 為數(shù)字信號(hào),并隨后將所述數(shù)字信號(hào)發(fā)送至處理器202。語(yǔ)音輸出單元214為受控于處理器202的語(yǔ)音輸出裝置,并包括接收器 224以及作為語(yǔ)音轉(zhuǎn)換裝置的揚(yáng)聲器226R和226L。從接收器224以及揚(yáng)聲 器226R和226L重現(xiàn)語(yǔ)音朗讀中的合成語(yǔ)音。在便攜式終端200中,語(yǔ)音朗讀設(shè)備2包括例如處理器202、存儲(chǔ)單元 204、顯示單元210以及語(yǔ)音輸出單元214。如圖4所示,在便攜式終端200中,例如,殼體228包括第一殼體單元 230和第二殼體單元232。第一殼體單元230和第二殼體單元232通過(guò)鉸接 單元234結(jié)合在一起,從而使得殼體228可折疊。第一殼體單元230包括輸 入單元208和麥克風(fēng)222。第二殼體單元232包括顯示單元210、接收器224 以及揚(yáng)聲器226R和226L。輸入單元208包括用于輸入例如字符的鍵236、 光標(biāo)鍵238、確認(rèn)鍵(conformation key) 240等。通過(guò)便攜式終端200使得例如郵件文本和小說(shuō)文本的各種類(lèi)型文本經(jīng)歷語(yǔ)音朗讀,以及例如,使得顯示在顯示單元210的屏幕上的文本經(jīng)歷語(yǔ)音合 成,以從接收器224以及揚(yáng)聲器226R和226L得以重現(xiàn)。在這種情況下,如 圖5所示,在顯示單元210的郵件文本顯示屏幕242上顯示郵件文本,并將 該郵件文本輸出為語(yǔ)音。在這個(gè)示例中,日語(yǔ)文本"yamanashiken no koukouwo so tsugyoshi te shinyou kin koni haitte 4nenme desu."顯不在由P件文本顯不 屏幕242上,并被重現(xiàn)為語(yǔ)音。"yamanashiken no koukou wo so tsugyoshi te shinyou kin koni haitte 4nenme desu"表不日語(yǔ)發(fā)音。日語(yǔ)語(yǔ)句"yamanashiken no koukou wo so tsugyoshi te shinyou kin koni haitte 4nenme desu"在英語(yǔ)中的意思也是"從高中畢業(yè)之后,他已在銀行工作了四年(after he graduated from關(guān)于音素長(zhǎng)度的控制,請(qǐng)參閱圖6。圖6為示出根據(jù)本發(fā)明第一實(shí)施例 用于控制音素長(zhǎng)度的示例性過(guò)程的流程圖。該過(guò)程為用于語(yǔ)音朗讀的示例性程序或示例性方法;并包括在以高速朗 讀語(yǔ)音的情況下,當(dāng)音素為摩擦音時(shí),延長(zhǎng)該音素的步驟。在語(yǔ)音朗讀設(shè)備 2 (圖1)中的音素長(zhǎng)度控制單元18 (圖2)內(nèi)執(zhí)行該過(guò)程。在這個(gè)實(shí)施例中, 為了改善可聽(tīng)性,根據(jù)語(yǔ)速對(duì)摩擦音的音素長(zhǎng)度進(jìn)行調(diào)整,例如,使其變成 其它音素長(zhǎng)度的3/2 (three seconds)。在這個(gè)過(guò)程中,如圖6所示,分別在步驟S101執(zhí)行語(yǔ)言處理以及在步 驟S102執(zhí)行音素長(zhǎng)度設(shè)定。語(yǔ)言處理是在語(yǔ)言處理單元4中執(zhí)行的。在語(yǔ) 言處理中,從輸入數(shù)據(jù)生成表音字符串。在這個(gè)階段,確定哪個(gè)音素將經(jīng)歷 語(yǔ)音合成。隨后,在音素長(zhǎng)度設(shè)定單元14中執(zhí)行音素長(zhǎng)度設(shè)定。在音素長(zhǎng) 度設(shè)定中,為每個(gè)音素設(shè)定正常語(yǔ)速下的音素長(zhǎng)度。在這種情況下,通過(guò)參 考音素長(zhǎng)度表16來(lái)設(shè)定與相應(yīng)的音素以及之前和之后的音素相對(duì)應(yīng)的正常 語(yǔ)速下的音素長(zhǎng)度。在這種音素長(zhǎng)度設(shè)定之后,當(dāng)對(duì)呼吸群中的音素進(jìn)行處理時(shí),執(zhí)行步驟 S103到S110。在步驟S103,對(duì)音素編號(hào)n進(jìn)行初始化(n=l)。隨后,在 步驟S104到S110,根據(jù)語(yǔ)速對(duì)音素長(zhǎng)度進(jìn)行控制。對(duì)每個(gè)呼吸群均執(zhí)行音 素長(zhǎng)度控制,且步驟S105到S109形成用于處理每個(gè)呼吸群中音素的循環(huán)。 音素長(zhǎng)度控制包括對(duì)經(jīng)受控制的音素的確定,以及根據(jù)確定結(jié)果調(diào)整音素長(zhǎng)high school, he has worked at a bank for 4 years)度。在音素長(zhǎng)度控制單元18中,在步驟S104,對(duì)輸入的語(yǔ)速信息進(jìn)行識(shí)別,并根據(jù)語(yǔ)速將相應(yīng)音素的長(zhǎng)度乘以常數(shù)因子(constant factor);以及,隨后 在步驟S105,確定語(yǔ)速是否為高速以及相應(yīng)的音素是否為摩擦音。也就是說(shuō), 在這個(gè)確定中,將摩擦音的音素長(zhǎng)度確定為待調(diào)整的目標(biāo)。當(dāng)語(yǔ)速為高速且相應(yīng)的音素為摩擦音時(shí),在步驟S106,將該音素的長(zhǎng)度 進(jìn)一步乘以預(yù)定因子,例如3/2。否則,不對(duì)該音素的長(zhǎng)度進(jìn)行調(diào)整。隨后, 在步驟S107,對(duì)音素編號(hào)n進(jìn)行更新(n=n+l);以及,在步驟S108,確定 是否已處理了該呼吸群中的所有音素,也即,音素編號(hào)n是否已達(dá)到該呼吸 群中音素的數(shù)量。這樣,該呼吸群中的所有音素均已被處理。當(dāng)該呼吸群中的所有音素均已被處理,以及當(dāng)?shù)竭_(dá)該呼吸群結(jié)尾處的停 頓時(shí),在步驟S109,根據(jù)語(yǔ)速將停頓的長(zhǎng)度乘以常數(shù)因子;以及,隨后在步 驟SllO,執(zhí)行終止判定。在這個(gè)終止判定中,確定是否已處理了輸入數(shù)據(jù)的 全部數(shù)據(jù)段。重復(fù)步驟S103到S110,直到輸入數(shù)據(jù)的全部數(shù)據(jù)段均已被處 理。當(dāng)確定輸入數(shù)據(jù)的全部數(shù)據(jù)段均已被處理時(shí),在步驟Slll,執(zhí)行語(yǔ)音合 成以輸出語(yǔ)音。這樣,根據(jù)語(yǔ)速對(duì)每個(gè)呼吸群調(diào)整摩擦音;并且,如上所述,在以高速 朗讀語(yǔ)音的情況下,每個(gè)摩擦音的音素長(zhǎng)度均乘以例如3/2。因此,由高速 朗讀語(yǔ)音導(dǎo)致的不清楚被消除,并可以實(shí)現(xiàn)可聽(tīng)性,從而能夠改善文本轉(zhuǎn)換 為語(yǔ)音的可識(shí)別性。第二實(shí)施例關(guān)于本發(fā)明的第二實(shí)施例,請(qǐng)參閱圖7。圖7為示出根據(jù)第二實(shí)施例的 用于控制音素長(zhǎng)度的示例性過(guò)程的流程圖。該過(guò)程為用于語(yǔ)音朗讀的示例性程序或示例性方法;并包括在以高速朗 讀語(yǔ)音的情況下,當(dāng)音素為摩擦音或前導(dǎo)音素(leading phoneme)時(shí),延長(zhǎng) 該音素的步驟。利用語(yǔ)音朗讀設(shè)備2 (圖1)以及音素長(zhǎng)度控制單元18 (圖 2)執(zhí)行該過(guò)程。在第二實(shí)施例中,在以高速朗讀語(yǔ)音的情況下,除了第一 實(shí)施例中的音素長(zhǎng)度調(diào)整之外,確定相應(yīng)的音素是否為前導(dǎo)音素,也即相應(yīng) 的音素是否跟在停頓后,以便延長(zhǎng)摩擦音的音素長(zhǎng)度和跟在停頓后的音素的 長(zhǎng)度。以此,改善可聽(tīng)性,卻不顯著延長(zhǎng)語(yǔ)音朗讀的總重現(xiàn)(playback)時(shí)間。在第二實(shí)施例中,為了確定其長(zhǎng)度需要延長(zhǎng)的音素,在音素確定單元28(圖2)中,確定相應(yīng)的音素是否為摩擦音,并基于確定結(jié)果將摩擦音的音素長(zhǎng)度延長(zhǎng)。在這個(gè)過(guò)程中,如圖7所示,分別在步驟S201執(zhí)行語(yǔ)言處理以及在步 驟S202執(zhí)行音素長(zhǎng)度設(shè)定。在語(yǔ)言處理和音素長(zhǎng)度設(shè)定之后,當(dāng)對(duì)呼吸群 中的音素進(jìn)行處理時(shí),執(zhí)行步驟S203到S211。在步驟S203,對(duì)音素編號(hào)n 進(jìn)行初始化(n=l)。隨后,在步驟S204到S211,根據(jù)語(yǔ)速對(duì)音素長(zhǎng)度進(jìn) 行控制。與第一實(shí)施例中一樣,對(duì)每個(gè)呼吸群均執(zhí)行音素長(zhǎng)度控制。在音素長(zhǎng)度控制單元18中,在步驟S204,根據(jù)輸入的有關(guān)語(yǔ)速的信息, 將相應(yīng)音素的長(zhǎng)度乘以常數(shù)因子;以及,隨后在步驟S205,確定語(yǔ)速是否為 高速以及相應(yīng)的音素是否為摩擦音。也就是說(shuō),在這個(gè)確定中,將摩擦音的 音素長(zhǎng)度確定為待調(diào)整的目標(biāo)。當(dāng)語(yǔ)速為高速且相應(yīng)的音素為摩擦音時(shí),在步驟S206,將該音素的長(zhǎng)度 進(jìn)一步乘以預(yù)定因子,例如3/2。否則,不對(duì)該音素的長(zhǎng)度進(jìn)行調(diào)整。隨后,在步驟S207,確定語(yǔ)速是否為高速以及相應(yīng)的音素是否為前導(dǎo)音 素(n=l)。當(dāng)語(yǔ)速為高速且相應(yīng)的音素為前導(dǎo)音素(n=l)時(shí),在步驟S208, 將該音素的長(zhǎng)度進(jìn)一步乘以預(yù)定因子,例如3/2。否則,不對(duì)該音素的長(zhǎng)度 進(jìn)行調(diào)整。隨后,在步驟S209,對(duì)音素編號(hào)n進(jìn)行更新(n=n+l);以及,在步驟 S210,確定是否已處理了呼吸群中的所有音素。這樣,該呼吸群中的所有音 素均被處理。當(dāng)該呼吸群中的所有音素均已被處理以及當(dāng)?shù)竭_(dá)該呼吸群結(jié)尾處的停 頓時(shí),在步驟S211,根據(jù)語(yǔ)速將停頓的長(zhǎng)度乘以常數(shù)因子;以及,隨后在步 驟S212,執(zhí)行終止判定。重復(fù)步驟S203到S212,直到全部數(shù)據(jù)均己被處理。 當(dāng)確定全部數(shù)據(jù)均已被處理時(shí),在步驟S213,執(zhí)行語(yǔ)音合成以輸出語(yǔ)音。這樣,根據(jù)語(yǔ)速對(duì)每個(gè)呼吸群調(diào)整前導(dǎo)音素以及摩擦音;并且,如上所 述,摩擦音和跟在停頓后的音素的音素長(zhǎng)度均乘以例如3/2。因此,改善了 合成語(yǔ)音的可聽(tīng)性,從而改善了文本轉(zhuǎn)換為語(yǔ)音的可識(shí)別性。第三實(shí)施例關(guān)于本發(fā)明的第三實(shí)施例,請(qǐng)參閱圖8。圖8為示出根據(jù)第三實(shí)施例的 用于控制音素長(zhǎng)度的示例性過(guò)程的流程圖。該過(guò)程為用于語(yǔ)音朗讀的示例性程序或示例性方法;并包括在以高速朗讀語(yǔ)音的情況下,延長(zhǎng)摩擦音的長(zhǎng)度并縮短其它音素的長(zhǎng)度的步驟。利用語(yǔ)音朗讀設(shè)備2 (圖1)以及音素長(zhǎng)度控制單元18 (圖2)執(zhí)行該過(guò)程。在第 三實(shí)施例中,除了第一實(shí)施例中的音素長(zhǎng)度調(diào)整之外,還將其它音素的長(zhǎng)度 縮短。在本實(shí)施例中,在摩擦音的音素長(zhǎng)度被延長(zhǎng)時(shí),其它音素的長(zhǎng)度被縮 短。以此,改善可聽(tīng)性,卻不延長(zhǎng)將文本轉(zhuǎn)換為語(yǔ)音所需的時(shí)間。在本實(shí)施 例中,作為其它音素的元音(vowd)的音素長(zhǎng)度被縮短。在第三實(shí)施例中,為了確定其長(zhǎng)度需要調(diào)整的音素,在音素確定單元28 (圖2)中,確定相應(yīng)的音素是否為元音,并基于確定結(jié)果將元音的音素長(zhǎng) 度縮短。在這個(gè)過(guò)程中,如圖8所示,分別在步驟S301執(zhí)行語(yǔ)言處理以及在步 驟S302執(zhí)行音素長(zhǎng)度設(shè)定。隨后,在對(duì)呼吸群中的音素進(jìn)行處理時(shí),執(zhí)行 步驟S303到S311。在步驟S303,對(duì)音素編號(hào)n進(jìn)行初始化(n=l)。隨后, 在步驟S304到S311,根據(jù)語(yǔ)速對(duì)音素長(zhǎng)度進(jìn)行控制。與第一實(shí)施例中一樣, 對(duì)每個(gè)呼吸群均執(zhí)行音素長(zhǎng)度控制。在音素長(zhǎng)度控制單元18中,在步驟S304,根據(jù)輸入的有關(guān)語(yǔ)速的信息, 將相應(yīng)音素的長(zhǎng)度乘以常數(shù)因子;以及,隨后在步驟S305,確定語(yǔ)速是否為 高速以及相應(yīng)的音素是否為摩擦音。也就是說(shuō),在這個(gè)確定中,將摩擦音的 音素長(zhǎng)度確定為待調(diào)整的目標(biāo)。當(dāng)語(yǔ)速為高速且相應(yīng)的音素為摩擦音時(shí),在步驟S306,將該音素的長(zhǎng)度 進(jìn)一步乘以預(yù)定因子,例如3/2。否則,不對(duì)該音素的長(zhǎng)度進(jìn)行調(diào)整。隨后,在步驟S307,確定語(yǔ)速是否為高速以及相應(yīng)的音素是否為元音。 當(dāng)語(yǔ)速為高速且相應(yīng)的音素為元音時(shí),在步驟S308,將該音素的長(zhǎng)度進(jìn)一步 乘以預(yù)定因子,例如9/10。否則,不對(duì)該音素的長(zhǎng)度進(jìn)行調(diào)整。隨后,在步驟S309,對(duì)音素編號(hào)n進(jìn)行更新(n=n+l);以及,在步驟 S310,確定是否已處理了呼吸群中的所有音素。在該呼吸群中的所有音素均 已被處理之后,當(dāng)?shù)竭_(dá)該呼吸群結(jié)尾處的停頓時(shí),在步驟S311,根據(jù)語(yǔ)速將 停頓的長(zhǎng)度乘以常數(shù)因子;以及,隨后在步驟S312,執(zhí)行終止判定。重復(fù)步驟S303到S312,直到全部數(shù)據(jù)均已被處理。當(dāng)確定全部數(shù)據(jù)均已被處理時(shí), 在步驟S313,執(zhí)行語(yǔ)音合成以輸出語(yǔ)音。這樣,根據(jù)語(yǔ)速對(duì)每個(gè)呼吸群調(diào)整摩擦音以及元音的音素長(zhǎng)度。如上所 述,在摩擦音的音素長(zhǎng)度乘以例如3/2時(shí),元音的音素長(zhǎng)度乘以例如9/10。元音音素長(zhǎng)度的縮短補(bǔ)償了摩擦音音素長(zhǎng)度的延長(zhǎng)。因此,在不延長(zhǎng)輸出語(yǔ) 音的總重現(xiàn)時(shí)間并將其實(shí)質(zhì)上保持不變的同時(shí),改善了合成語(yǔ)音的可聽(tīng)性, 從而改善了文本轉(zhuǎn)換為語(yǔ)音的可識(shí)別性。 第四實(shí)施例關(guān)于本發(fā)明的第四實(shí)施例,請(qǐng)參閱圖9和圖10。圖9為示出根據(jù)第四實(shí) 施例的音素長(zhǎng)度控制單元18的框圖。圖10為示出根據(jù)第四實(shí)施例用于控制 音素長(zhǎng)度的示例性過(guò)程的流程圖。在圖9中,利用與圖2中相同的附圖標(biāo)記 標(biāo)識(shí)相應(yīng)的元件。該過(guò)程為用于語(yǔ)音朗讀的示例性程序或示例性方法,并且是利用語(yǔ)音朗 讀設(shè)備2 (圖1)和音素長(zhǎng)度控制單元18 (圖2)來(lái)執(zhí)行的。在第四實(shí)施例 中,除了第一實(shí)施例中的音素長(zhǎng)度調(diào)整(即延長(zhǎng)摩擦音的音素長(zhǎng)度)之外, 通過(guò)將摩擦音音素長(zhǎng)度的延長(zhǎng)量按比例分配給呼吸群中的音素來(lái)削減(cut) 該延長(zhǎng)量。以此,在保持呼吸群長(zhǎng)度(即不延長(zhǎng)將文本轉(zhuǎn)換為語(yǔ)音所需的時(shí) 間)的同時(shí),改善了可聽(tīng)性。在第四實(shí)施例中,如圖9所示,語(yǔ)音朗讀設(shè)備2 (圖1)中的音素長(zhǎng)度 控制單元18 (圖2)還包括呼吸群長(zhǎng)度計(jì)算單元(短語(yǔ)長(zhǎng)度計(jì)算單元)30。 呼吸群長(zhǎng)度計(jì)算單元30計(jì)算從音素長(zhǎng)度調(diào)整單元24輸出的呼吸群的總長(zhǎng) 度。將計(jì)算結(jié)果作為控制信息提供給音素長(zhǎng)度調(diào)整單元24。音素長(zhǎng)度調(diào)整單 元24包括通過(guò)將特定音素(在這個(gè)示例中為摩擦音)的長(zhǎng)度延長(zhǎng)量按比例 分配給呼吸群中的所有音素,來(lái)減小所有音素的長(zhǎng)度的功能,從而使得朗讀 該呼吸群所需的時(shí)間長(zhǎng)度等于預(yù)定長(zhǎng)度。在這個(gè)過(guò)程中,如圖10所示,分別在步驟S401執(zhí)行語(yǔ)言處理以及在步 驟S402執(zhí)行音素長(zhǎng)度設(shè)定。隨后,當(dāng)對(duì)呼吸群中的音素進(jìn)行處理時(shí),執(zhí)行 步驟S403到S412。在步驟S403,對(duì)音素編號(hào)n進(jìn)行初始化(n=l)。隨后, 在步驟S404到S412,根據(jù)語(yǔ)速對(duì)音素長(zhǎng)度進(jìn)行控制。與第一實(shí)施例中一樣, 對(duì)每個(gè)呼吸群均執(zhí)行音素長(zhǎng)度控制。16在音素長(zhǎng)度控制單元18中,在步驟S404,根據(jù)輸入的有關(guān)語(yǔ)速的信息, 將相應(yīng)音素的長(zhǎng)度乘以常數(shù)因子;以及,隨后在步驟S405,確定語(yǔ)速是否為 高速以及相應(yīng)的音素是否為摩擦音。也就是說(shuō),在這個(gè)確定中,將摩擦音的 音素長(zhǎng)度確定為待調(diào)整的目標(biāo)。當(dāng)語(yǔ)速為高速且相應(yīng)的音素為摩擦音時(shí),在步驟S406,將該音素的長(zhǎng)度 進(jìn)一步乘以預(yù)定因子,例如3/2。否則,不對(duì)該音素的長(zhǎng)度進(jìn)行調(diào)整。隨后,在步驟S407,對(duì)音素編號(hào)n進(jìn)行更新(n=n+l);以及,在步驟 S408,確定是否已處理了呼吸群中的所有音素。在該呼吸群中的所有音素均 被處理之后,當(dāng)?shù)竭_(dá)該呼吸群結(jié)尾處的停頓時(shí),在步驟S409,根據(jù)語(yǔ)速將停 頓的長(zhǎng)度乘以常數(shù)因子。隨后,在步驟S410,計(jì)算該呼吸群的總長(zhǎng)度;以及在步驟S411,將所 有音素的總長(zhǎng)度按比例分配給這些音素,從而使得該呼吸群的長(zhǎng)度等于預(yù)定 長(zhǎng)度(例如,等于或?qū)嵸|(zhì)上等于在摩擦音的音素長(zhǎng)度未延長(zhǎng)情況下該呼吸群 的長(zhǎng)度)。隨后,在步驟S412,執(zhí)行終止判定。重復(fù)步驟S403到S412,直 到全部數(shù)據(jù)均已被處理。當(dāng)確定全部數(shù)據(jù)均已被處理時(shí),在步驟S413,執(zhí)行 語(yǔ)音合成以輸出語(yǔ)音。這樣,根據(jù)語(yǔ)速對(duì)每個(gè)呼吸群調(diào)整摩擦音的音素長(zhǎng)度。如上所述,雖然 摩擦音的音素長(zhǎng)度乘以例如3/2,但通過(guò)將摩擦音音素長(zhǎng)度的延長(zhǎng)量按比例 分配給呼吸群中的音素而削減了該延長(zhǎng)量。因此,在保持呼吸群長(zhǎng)度的同時(shí), 改善了合成語(yǔ)音的可聽(tīng)性,從而改善了文本轉(zhuǎn)換為語(yǔ)音的可識(shí)別性。第五實(shí)施例關(guān)于本發(fā)明的第五實(shí)施例,請(qǐng)參閱圖11和圖12。圖11為示出根據(jù)第五 實(shí)施例的音素長(zhǎng)度控制單元18的框圖。圖12為示出根據(jù)第五實(shí)施例用于控 制音素長(zhǎng)度的示例性過(guò)程的流程圖。在圖11中,利用與圖2中相同的附圖 標(biāo)記標(biāo)識(shí)相應(yīng)的元件。該過(guò)程為用于語(yǔ)音朗讀的示例性程序或示例性方法,并且是利用語(yǔ)音朗 讀設(shè)備2 (圖1)和音素長(zhǎng)度控制單元18 (圖2)來(lái)執(zhí)行的。在第五實(shí)施例 中,除了第一實(shí)施例中的音素長(zhǎng)度調(diào)整之外,其它音素的長(zhǎng)度被縮短。在這 個(gè)實(shí)施例中,在延長(zhǎng)摩擦音音素長(zhǎng)度的同時(shí),通過(guò)將摩擦音音素長(zhǎng)度的延長(zhǎng) 量按比例分配給整個(gè)文本中的音素來(lái)削減該延長(zhǎng)量。因此,在保持整個(gè)文本的長(zhǎng)度(即不延長(zhǎng)將文本轉(zhuǎn)換為語(yǔ)音所需的時(shí)間)的同時(shí),改善了可聽(tīng)性。 在第五實(shí)施例中,如圖11所示,語(yǔ)音朗讀設(shè)備2 (圖l)中的音素長(zhǎng)度控制單元18 (圖2)還包括總文本長(zhǎng)度計(jì)算單元(整句長(zhǎng)度計(jì)算單元)32。 總文本長(zhǎng)度計(jì)算單元32計(jì)算從音素長(zhǎng)度調(diào)整單元24輸出的整個(gè)文本的長(zhǎng) 度。將計(jì)算結(jié)果作為控制信息提供給音素長(zhǎng)度調(diào)整單元24。音素長(zhǎng)度調(diào)整單 元24包括通過(guò)將特定音素(在這個(gè)示例中為摩擦音)的長(zhǎng)度延長(zhǎng)量按比例 分配給整個(gè)文本中的所有音素,來(lái)減小所有音素的長(zhǎng)度的功能,從而使得朗 讀該文本所需的時(shí)間長(zhǎng)度等于預(yù)定長(zhǎng)度。在這個(gè)過(guò)程中,如圖12所示,分別在步驟S501執(zhí)行語(yǔ)言處理以及在步 驟S502執(zhí)行音素長(zhǎng)度設(shè)定。隨后,當(dāng)對(duì)呼吸群中的音素進(jìn)行處理時(shí),執(zhí)行 步驟S503到S512。在步驟S503,對(duì)音素編號(hào)n進(jìn)行初始化(n=l)。隨后, 在步驟S504到S512,根據(jù)語(yǔ)速對(duì)音素長(zhǎng)度進(jìn)行控制。與第一實(shí)施例中一樣, 對(duì)每個(gè)呼吸群均執(zhí)行音素長(zhǎng)度控制。在音素長(zhǎng)度控制單元18中,在步驟S504,根據(jù)輸入的有關(guān)語(yǔ)速的信息, 將相應(yīng)音素的長(zhǎng)度乘以常數(shù)因子;以及,隨后在步驟S505,確定語(yǔ)速是否為 高速以及相應(yīng)的音素是否為摩擦音。也就是說(shuō),在這個(gè)確定中,將摩擦音的 音素長(zhǎng)度確定為待調(diào)整的目標(biāo)。當(dāng)語(yǔ)速為高速且相應(yīng)的音素為摩擦音時(shí),在步驟S506,將該音素的長(zhǎng)度 進(jìn)一步乘以預(yù)定因子,例如3/2。否則,不對(duì)該音素的長(zhǎng)度進(jìn)行調(diào)整。隨后,在步驟S507,對(duì)音素編號(hào)n進(jìn)行更新(n=n+l);以及,在步驟 S508,確定是否已處理了呼吸群中的所有音素。在該呼吸群中的所有音素均 已被處理之后,當(dāng)?shù)竭_(dá)該呼吸群結(jié)尾處的停頓時(shí),在步驟S509,根據(jù)語(yǔ)速將 停頓的長(zhǎng)度乘以常數(shù)因子;以及,隨后在步驟S510,執(zhí)行終止判定。重復(fù)步 驟S503到S510,直到全部數(shù)據(jù)均已被處理。在全部數(shù)據(jù)均已被處理之后,在步驟S511,計(jì)算整個(gè)文本的長(zhǎng)度;以及 在步驟S512,將整個(gè)文本中所有音素的總長(zhǎng)度按比例分配給這些音素,從而 使得整個(gè)文本的長(zhǎng)度(即,朗讀該文本所需的時(shí)間)為預(yù)定長(zhǎng)度(例如,等 于或?qū)嵸|(zhì)上等于在摩擦音的音素長(zhǎng)度未延長(zhǎng)情況下整個(gè)文本的長(zhǎng)度)。隨后, 在步驟S513,執(zhí)行語(yǔ)音合成以輸出語(yǔ)音。這樣,根據(jù)語(yǔ)速對(duì)每個(gè)呼吸群調(diào)整摩擦音的音素長(zhǎng)度。如上所述,雖然摩擦音的音素長(zhǎng)度乘以例如3/2,但通過(guò)將摩擦音音素長(zhǎng)度的延長(zhǎng)量按比例 分配給整個(gè)文本中的所有音素而削減了該延長(zhǎng)量。因此,在保持朗讀整個(gè)文 本所需的時(shí)間長(zhǎng)度的同時(shí),改善了合成語(yǔ)音的可聽(tīng)性,從而改善了文本轉(zhuǎn)換 為語(yǔ)音的可識(shí)別性。 第六實(shí)施例關(guān)于本發(fā)明的第六實(shí)施例,請(qǐng)參閱圖13。圖13為示出根據(jù)第六實(shí)施例用于控制音素長(zhǎng)度的示例性過(guò)程的流程圖。該過(guò)程為用于語(yǔ)音朗讀的示例性程序或示例性方法,并且是利用語(yǔ)音朗讀設(shè)備2 (圖1)和音素長(zhǎng)度控制單元18 (圖2)來(lái)執(zhí)行的。在第六實(shí)施例 中,組合使用第二實(shí)施例(圖7)中的音素長(zhǎng)度調(diào)整以及第三實(shí)施例(圖8) 中的音素長(zhǎng)度調(diào)整。在延長(zhǎng)前導(dǎo)音素和摩擦音的音素長(zhǎng)度時(shí),其它音素(例 如,元音)的長(zhǎng)度被縮短。以此,改善可聽(tīng)性,卻不延長(zhǎng)將文本轉(zhuǎn)換為語(yǔ)音 所需的時(shí)間。在這個(gè)過(guò)程中,如圖13所示,分別在步驟S601執(zhí)行語(yǔ)言處理以及在步 驟S602執(zhí)行音素長(zhǎng)度設(shè)定。隨后,當(dāng)對(duì)呼吸群中音素進(jìn)行處理時(shí),執(zhí)行步 驟S603到S613。在步驟S603,對(duì)音素編號(hào)n進(jìn)行初始化(n=l)。隨后, 在步驟S604到S613,根據(jù)語(yǔ)速對(duì)音素長(zhǎng)度進(jìn)行控制。與第二實(shí)施例(圖7) 中一樣,對(duì)每個(gè)呼吸群均執(zhí)行音素長(zhǎng)度控制。在步驟S604,根據(jù)語(yǔ)速將相應(yīng)音素的長(zhǎng)度乘以常數(shù)因子;以及,隨后在 步驟S605,確定語(yǔ)速是否為高速以及相應(yīng)的音素是否為摩擦音。當(dāng)語(yǔ)速為高 速且相應(yīng)的音素為摩擦音時(shí),在步驟S606,將該音素的長(zhǎng)度進(jìn)一步乘以預(yù)定 因子,例如3/2。在步驟S607,確定語(yǔ)速是否為高速以及相應(yīng)的音素是否為 前導(dǎo)音素(n=l)。當(dāng)語(yǔ)速為高速且相應(yīng)的音素為前導(dǎo)音素(n=l)時(shí),在步 驟S608,將該音素的長(zhǎng)度進(jìn)一步乘以預(yù)定因子,例如3/2。隨后,在步驟S609,確定語(yǔ)速是否為高速以及相應(yīng)的音素是否為元音。 當(dāng)語(yǔ)速為高速且相應(yīng)的音素為元音時(shí),在步驟S610,將該音素的長(zhǎng)度進(jìn)一步 乘以預(yù)定因子,例如9/10。否則,不對(duì)該音素的長(zhǎng)度進(jìn)行調(diào)整。隨后,在步驟S611,對(duì)音素編號(hào)n進(jìn)行更新(n=n+l)。在步驟S612, 確定是否已處理了呼吸群中的所有音素。當(dāng)?shù)竭_(dá)該呼吸群結(jié)尾處的停頓時(shí), 在步驟S613,根據(jù)語(yǔ)速將停頓的長(zhǎng)度乘以常數(shù)因子。在步驟S614,執(zhí)行終止判定。隨后,在步驟S615,執(zhí)行語(yǔ)音合成。這樣,根據(jù)語(yǔ)速對(duì)每個(gè)呼吸群調(diào)整前導(dǎo)音素和摩擦音的音素長(zhǎng)度。如上所述,雖然摩擦音和跟在停頓后的音素的音素長(zhǎng)度乘以例如3/2,但元音的 音素長(zhǎng)度乘以例如9/10而被縮短。由跟在停頓后的音素以及摩擦音的音素長(zhǎng) 度的延長(zhǎng)導(dǎo)致的重現(xiàn)時(shí)間的延長(zhǎng)被減少,且所減少的量等于元音音素長(zhǎng)度的 縮短量。因此,在不延長(zhǎng)輸出語(yǔ)音的總重現(xiàn)時(shí)間(在一些示例中,總重現(xiàn)時(shí) 間被縮短)并將總重現(xiàn)時(shí)間保持大體不變的同時(shí),改善了合成語(yǔ)音的可聽(tīng)性, 從而改善了文本轉(zhuǎn)換為語(yǔ)音的可識(shí)別性。 第七實(shí)施例關(guān)于本發(fā)明的第七實(shí)施例,請(qǐng)參閱圖14。圖14為示出根據(jù)第七實(shí)施例 的用于控制音素長(zhǎng)度的示例性過(guò)程的流程圖。該過(guò)程為用于語(yǔ)音朗讀的示例性程序或示例性方法,并且是利用語(yǔ)音朗 讀設(shè)備2 (圖1)和音素長(zhǎng)度控制單元18 (圖2)來(lái)執(zhí)行的。在這個(gè)實(shí)施例 中,除了第二實(shí)施例(圖7)中的音素長(zhǎng)度調(diào)整(即,延長(zhǎng)前導(dǎo)音素和摩擦 音的音素長(zhǎng)度)之外,還提供了如下的安排;在該安排中,不保留或者減少 對(duì)應(yīng)于音素長(zhǎng)度的延長(zhǎng)量的其它音素(例如,停頓)的長(zhǎng)度。在這種設(shè)置中, 將前導(dǎo)音素和摩擦音的音素長(zhǎng)度的延長(zhǎng)量按比例分配給呼吸群中的音素,以 此削減該延長(zhǎng)量。因此,在保持呼吸群長(zhǎng)度(即,不延長(zhǎng)將文本轉(zhuǎn)換為語(yǔ)音 所需的時(shí)間)的同時(shí),改善可聽(tīng)性。在第七實(shí)施例中,與第四實(shí)施例(圖9)中一樣,為音素長(zhǎng)度控制單元 18中的音素長(zhǎng)度調(diào)整單元24提供呼吸群長(zhǎng)度計(jì)算單元30。呼吸群長(zhǎng)度計(jì)算 單元30計(jì)算從音素長(zhǎng)度調(diào)整單元24輸出的呼吸群的總長(zhǎng)度。將計(jì)算結(jié)果作 為控制信息提供給音素長(zhǎng)度調(diào)整單元24。音素長(zhǎng)度調(diào)整單元24包括通過(guò)將 特定音素(在這個(gè)示例中為摩擦音和前導(dǎo)音素)的長(zhǎng)度延長(zhǎng)量按比例分配給 呼吸群中的所有音素,來(lái)減少所有音素的長(zhǎng)度的功能,從而使得朗讀該呼吸 群所需的時(shí)間長(zhǎng)度等于預(yù)定長(zhǎng)度。在這個(gè)過(guò)程中,如圖14所示,分別在步驟S701執(zhí)行語(yǔ)言處理以及在步 驟S702執(zhí)行音素長(zhǎng)度設(shè)定。隨后,當(dāng)對(duì)呼吸群中的音素進(jìn)行處理時(shí),執(zhí)行 步驟S703到S713。在步驟S703,對(duì)音素編號(hào)n進(jìn)行初始化(n=l)。隨后, 在步驟S704到S713,根據(jù)語(yǔ)速對(duì)音素長(zhǎng)度進(jìn)行控制。與第二實(shí)施例(圖7)中一樣,對(duì)每個(gè)呼吸群均執(zhí)行音素長(zhǎng)度控制。在步驟S704,根據(jù)語(yǔ)速將相應(yīng)音素的長(zhǎng)度乘以常數(shù)因子;以及,隨后在步驟S705,確定語(yǔ)速是否為高速以及相應(yīng)的音素是否為摩擦音。當(dāng)語(yǔ)速為高 速且相應(yīng)的音素為摩擦音時(shí),在步驟S706,將該音素的長(zhǎng)度進(jìn)一步乘以預(yù)定 因子,例如3/2。在步驟S707,確定語(yǔ)速是否為高速以及相應(yīng)的音素是否為 前導(dǎo)音素(n=l)。當(dāng)語(yǔ)速為高速且相應(yīng)的音素為前導(dǎo)音素(n=l)時(shí),在步 驟S708,將該音素的長(zhǎng)度進(jìn)一步乘以預(yù)定因子,例如3/2。隨后,在步驟S709,對(duì)音素編號(hào)n進(jìn)行更新(n=n+l);以及,在步驟 S710,確定是否已處理了呼吸群中的所有音素。當(dāng)?shù)竭_(dá)該呼吸群結(jié)尾處的停 頓時(shí),在步驟S711,根據(jù)語(yǔ)速將停頓的長(zhǎng)度乘以常數(shù)因子。隨后,在步驟 S712,計(jì)算該呼吸群的總長(zhǎng)度;以及,在步驟S713,將所有音素的總長(zhǎng)度按 比例分配給這些音素,從而使得該呼吸群的長(zhǎng)度等于預(yù)定長(zhǎng)度(例如,等于 或?qū)嵸|(zhì)上等于在音素長(zhǎng)度未延長(zhǎng)情況下該呼吸群的長(zhǎng)度)。隨后,在步驟 S714,執(zhí)行終止判定。重復(fù)步驟S703到S714,直到全部數(shù)據(jù)均已被處理。 當(dāng)確定全部數(shù)據(jù)均已被處理時(shí),在步驟S715,執(zhí)行語(yǔ)音合成以輸出語(yǔ)音。這樣,根據(jù)語(yǔ)速對(duì)每個(gè)呼吸群調(diào)整前導(dǎo)音素和摩擦音的音素長(zhǎng)度。如上 所述,雖然摩擦音和跟在停頓后的音素的音素長(zhǎng)度乘以例如3/2,但通過(guò)將 這些音素的音素長(zhǎng)度延長(zhǎng)量按比例分配給呼吸群中的音素而削減了該延長(zhǎng) 量。因此,在保持呼吸群長(zhǎng)度的同時(shí),改善了合成語(yǔ)音的可聽(tīng)性,從而改善 了文本轉(zhuǎn)換為語(yǔ)音的可識(shí)別性。第八實(shí)施例關(guān)于本發(fā)明的第八實(shí)施例,請(qǐng)參閱圖15。圖15為示出根據(jù)第八實(shí)施例 的用于控制音素長(zhǎng)度的示例性過(guò)程的流程圖。該過(guò)程為用于語(yǔ)音朗讀的示例性程序或示例性方法,并且是利用語(yǔ)音朗 讀設(shè)備2 (圖1)和音素長(zhǎng)度控制單元18 (圖2)來(lái)執(zhí)行的。在這個(gè)實(shí)施例 中,除了第二實(shí)施例(圖7)中的音素長(zhǎng)度調(diào)整之外,還通過(guò)將摩擦音和前 導(dǎo)音素的音素長(zhǎng)度的延長(zhǎng)量按比例分配給整個(gè)文本中的音素來(lái)削減該延長(zhǎng) 量。因此,在保持整個(gè)文本長(zhǎng)度(即,不延長(zhǎng)將文本轉(zhuǎn)換為語(yǔ)音所需的時(shí)間) 的同時(shí),改善可聽(tīng)性。在第八實(shí)施例中,與第五實(shí)施例(圖ll)中一樣,語(yǔ)音朗讀設(shè)備2 (圖1)中的音素長(zhǎng)度控制單元18包括總文本長(zhǎng)度計(jì)算單元32??偽谋鹃L(zhǎng)度計(jì)算單元32計(jì)算從音素長(zhǎng)度調(diào)整單元24輸出的整個(gè)文本的長(zhǎng)度。將計(jì)算結(jié)果作 為控制信息提供給音素長(zhǎng)度調(diào)整單元24。音素長(zhǎng)度調(diào)整單元24包括通過(guò)將 特定音素(在這個(gè)示例中為前導(dǎo)音素和摩擦音)的長(zhǎng)度延長(zhǎng)量按比例分配給 整個(gè)文本中的所有音素來(lái)減少所有音素的長(zhǎng)度的功能,從而使得朗讀該文本 所需的時(shí)間長(zhǎng)度等于預(yù)定長(zhǎng)度。在這個(gè)過(guò)程中,如圖15所示,分別在步驟S801執(zhí)行語(yǔ)言處理以及在步 驟S802執(zhí)行音素長(zhǎng)度設(shè)定。隨后,當(dāng)對(duì)呼吸群中的音素進(jìn)行處理時(shí),執(zhí)行 步驟S803到S811。在步驟S803,對(duì)音素編號(hào)n進(jìn)行初始化(n=l)。隨后, 在步驟S804到S811,根據(jù)語(yǔ)速對(duì)音素長(zhǎng)度進(jìn)行控制。與第二實(shí)施例(圖7) 中一樣,對(duì)每個(gè)呼吸群均執(zhí)行音素長(zhǎng)度控制。在步驟S804,根據(jù)語(yǔ)速將相應(yīng)音素的長(zhǎng)度乘以常數(shù)因子;以及,隨后在 步驟S805,確定語(yǔ)速是否為高速以及相應(yīng)的音素是否為摩擦音。當(dāng)語(yǔ)速為高 速且相應(yīng)的音素為摩擦音時(shí),在步驟S806,將該音素的長(zhǎng)度進(jìn)一步乘以預(yù)定 因子,例如3/2。在步驟S807,確定語(yǔ)速是否為高速以及相應(yīng)的音素是否為 前導(dǎo)音素(n=l)。當(dāng)語(yǔ)速為高速且相應(yīng)的音素為前導(dǎo)音素(n=l)時(shí),在步 驟S808,將該音素的長(zhǎng)度進(jìn)一步乘以預(yù)定因子,例如3/2。隨后,在步驟S809,對(duì)音素編號(hào)n進(jìn)行更新(n=n+l);以及,在步驟 S810,確定是否已處理了呼吸群中的所有音素。當(dāng)?shù)竭_(dá)該呼吸群結(jié)尾處的停 頓時(shí),在步驟S8U,根據(jù)語(yǔ)速將停頓的長(zhǎng)度乘以常數(shù)因子。隨后,在步驟 S812,執(zhí)行終止判定。在全部數(shù)據(jù)均已被處理之后,在步驟S813,計(jì)算整個(gè)文本的長(zhǎng)度;以及, 在步驟S814,將整個(gè)文本中所有音素的總長(zhǎng)度按比例分配給這些音素,從而 使得整個(gè)文本的長(zhǎng)度(即,朗讀該文本所需的時(shí)間)為預(yù)定長(zhǎng)度(例如,等 于或?qū)嵸|(zhì)上等于在音素長(zhǎng)度未延長(zhǎng)情況下整個(gè)文本的長(zhǎng)度)。隨后,在步驟 S815,執(zhí)行語(yǔ)音合成以輸出語(yǔ)音。這樣,根據(jù)語(yǔ)速對(duì)每個(gè)呼吸群調(diào)整前導(dǎo)音素和摩擦音的音素長(zhǎng)度。如上 所述,雖然摩擦音和跟在停頓后的音素的長(zhǎng)度例如乘以3/2,但通過(guò)將音素 長(zhǎng)度的延長(zhǎng)量按比例分配給整個(gè)文本中的所有音素即削減了該延長(zhǎng)量。因 此,在保持朗讀整個(gè)文本所需的時(shí)間長(zhǎng)度的同時(shí),改善了合成語(yǔ)音的可聽(tīng)性,從而改善了文本轉(zhuǎn)換為語(yǔ)音的可識(shí)別性。 其它實(shí)施例關(guān)于輸入到音素長(zhǎng)度控制單元18的語(yǔ)速信息,請(qǐng)參閱圖16。圖16為示 出參數(shù)生成單元8的框圖,其包括語(yǔ)速調(diào)整單元22。在上述實(shí)施例中,將語(yǔ) 速信息輸入到音素長(zhǎng)度控制單元18。參數(shù)生成單元8可包括能夠被外部調(diào)整 的語(yǔ)速調(diào)整單元22,使得能夠外部設(shè)定期望的語(yǔ)速。雖然在上述實(shí)施例中描述了延長(zhǎng)例如摩擦音的音素長(zhǎng)度的示例,但本發(fā) 明還可應(yīng)用于縮短音素長(zhǎng)度的示例。在第一實(shí)施例中,示出便攜式終端200 (圖3和圖4)作為示例。然而, 本發(fā)明并不局限于上述實(shí)施例,還可應(yīng)用于例如個(gè)人數(shù)字助理(PDA)、包 括計(jì)算機(jī)并輸出語(yǔ)音的電子設(shè)備(例如個(gè)人計(jì)算機(jī))以及其中整合有電子裝 置單元的各種設(shè)備。雖然在上述實(shí)施例中描述了摩擦音、元音以及輔音作為示例,但本發(fā)明 可支持其它音素,例如半元音(semivowel) 、 youons以及塞擦音(affricate)。 在這種情況下,半元音在清晰度(articulation)方面與元音類(lèi)似。然而,半 元音無(wú)法獨(dú)立形成音節(jié)。示例性半元音包括[w]和[j]。塞擦音以如下方式發(fā)音, 其中摩擦音跟在爆破音(plosive)后,且該摩擦音和該爆破音被當(dāng)成一個(gè)發(fā) 音。示例性塞擦音包括[ts]、 [dz]和[tJi。在上述實(shí)施例中,當(dāng)語(yǔ)速為高時(shí),可將字符數(shù)據(jù)中的一些或全部停頓刪 除。通過(guò)刪除停頓,能夠減少重現(xiàn)時(shí)間卻不消弱可聽(tīng)性。示例第一示例關(guān)于本發(fā)明的第一示例,請(qǐng)參閱圖17和圖18。圖17為示出與圖6中流 程圖相對(duì)應(yīng)的對(duì)比示例的流程圖。圖18示出語(yǔ)言處理結(jié)果。在語(yǔ)音朗讀設(shè)備2 (圖1)中,當(dāng)根據(jù)語(yǔ)速以相同的方式延長(zhǎng)了各音素 的長(zhǎng)度時(shí),執(zhí)行圖17中流程圖所示的處理。在這種情況下,與圖6中相同 的附圖標(biāo)記標(biāo)識(shí)相對(duì)應(yīng)的步驟,并且示出了其中不對(duì)摩擦音的音素長(zhǎng)度進(jìn)行 調(diào)整的處理。也就是說(shuō),圖17中的流程圖不包括圖6中的流程圖內(nèi)的步驟 S105和S106。在圖17所示的處理中,在以高速朗讀語(yǔ)音時(shí)不延長(zhǎng)摩擦音的 音素長(zhǎng)度,而將音素長(zhǎng)度乘以隨語(yǔ)速而反向變化的常數(shù)因子。在這個(gè)處理中,當(dāng)示例性輸入文本為日語(yǔ)文本"yamanashi ken no koukou o so tsugyoushi te, shinyou kin koni haitte yonenme desu.,,(圖5 )時(shí),如圖18 所示,可通過(guò)輸入文本、語(yǔ)音部分以及表音字符來(lái)示出詞分析結(jié)果。在日語(yǔ)文本"yamanashi ken no koukou o so tsugyoushi te, shinyou kin koni haitte yonenme desu."中,"yamanashi"為名詞(noun),相應(yīng)的表音字符 串為"yamanashi," ; "ken"為名詞,相應(yīng)的表音字符串為"ken" ; "no" 為日語(yǔ)助詞(particle) joshi,相應(yīng)的表音字符串為"no";跟在"no"后的 空白為重音短語(yǔ)邊界(boundary) ; "koukou"為名詞,相應(yīng)的表音字符串為"koukou" ;"O"為日語(yǔ)助詞joshi,相應(yīng)的表音字符串為"O";跟在"O"后的空白為重音短語(yǔ)邊界;"sotsugyoshi"為動(dòng)詞(verb) (renyou形式(日 語(yǔ)中動(dòng)詞和形容詞的結(jié)合形式)),相應(yīng)的表音字符串為"sotsugyoshi";"te"為日語(yǔ)助詞joshi,相應(yīng)的表音字符串為"te";","為呼吸群邊界(停 頓長(zhǎng)度為中等),相應(yīng)的表音字符串為",";"shinyou"為名詞,相應(yīng)的 表音字符串為"shinyoo" ; "kin ko"為名詞,相應(yīng)的表音字符串為"ki'nko";"ni"為日語(yǔ)助詞joshi,相應(yīng)的表音字符串為"ni";跟在"ni"后的空白 為重音短語(yǔ)邊界;"hait"為動(dòng)詞(renyou形式(日語(yǔ)中動(dòng)詞和形容詞的結(jié) 合形式),日語(yǔ)sokuon-bin),相應(yīng)的表音字符串為"ha*it" ; "te"為日 語(yǔ)助詞joshi,相應(yīng)的表音字符串為"te";跟在"te"后的部分為呼吸群邊 界(停頓長(zhǎng)度為小),相應(yīng)的表音字符串為" " ; "yo"為數(shù)詞(numeral), 相應(yīng)的表音字符串為"yo" ; "nen"為日語(yǔ)josuushi (量詞(counter word), 日語(yǔ)語(yǔ)音部分),相應(yīng)的表音字符串為"nen" ; "me"為josimshi的后置, 相應(yīng)的表音字符串為"me'" ; "desu"為動(dòng)態(tài)助詞(auxiliary verb),相應(yīng) 的表音字符串為"desu";以及"."為呼吸群邊界(停頓長(zhǎng)度為大),相應(yīng) 的表音字符串為"."。這樣,上述示例性日語(yǔ)文本的表音字符串為"yamanashi' ken no koukou o so tsugyoushi te, shinyoo ki'n koni ha*itte yonenme' desu."。關(guān)于表音字符串中"shinyoo"部分音素長(zhǎng)度的生成以及根據(jù)語(yǔ)速對(duì)該音 素長(zhǎng)度的調(diào)整,請(qǐng)參閱圖19。圖19示出在這種情況下所生成的音素長(zhǎng)度的 示例。在圖18中,通過(guò)使用羅馬字符書(shū)寫(xiě)輸入文本和表音字符串,但輸入 文本是與表音字符串不同的數(shù)據(jù)。換句話說(shuō),語(yǔ)音朗讀設(shè)備2將輸入文本轉(zhuǎn) 換為表音字符串。在這些示例中,假定每秒約7個(gè)短音節(jié)為1倍(IX)速度,當(dāng)生成了3 倍(3X)速度下的音素長(zhǎng)度(每秒約21個(gè)短音節(jié))時(shí),從音素長(zhǎng)度表16 (圖1)讀取1倍速度下的音素長(zhǎng)度,并對(duì)音素長(zhǎng)度進(jìn)行調(diào)整,使其隨語(yǔ)速 而反向變化。在調(diào)整音素長(zhǎng)度之后,基于有關(guān)例如重音的信息生成基音模式, 并合成語(yǔ)音波形。另一方面,關(guān)于第一實(shí)施例(圖6)中處理的結(jié)果,請(qǐng)參閱圖20。圖20 為示出第一實(shí)施例(圖6)中所生成音素長(zhǎng)度的示例。在這個(gè)示例中,當(dāng)生成3倍速度下的音素長(zhǎng)度時(shí),通過(guò)將基于簡(jiǎn)單反比 關(guān)系獲得的"sh"(為摩擦音)的音素長(zhǎng)度乘以3/2,來(lái)生成"sh"的音素長(zhǎng) 度。結(jié)果,如圖20所示,當(dāng)"sh"在l倍速度下的音素長(zhǎng)度為117ms時(shí), "sh"在3倍速度下的音素長(zhǎng)度為59ms。將這些音素長(zhǎng)度與其它音素"i"、 "n" 、 "y" 、 "o"和"o"的音素長(zhǎng)度進(jìn)行比較,顯示出在1倍速度下, 由于音素"sh"的音素長(zhǎng)度為117ms,而其它音素"i" 、 "n" 、 "y" 、 "o" 和"o"的音素長(zhǎng)度分別為60ms、 60ms、 65 ms、 80ms禾Q105ms,沒(méi)有出 現(xiàn)明顯差異;另一方面,在3倍速度下,由于音素"sh"音素長(zhǎng)度為59ms, 而其它音素"i" 、 "n" 、 "y" 、 "o"和"o"的音素長(zhǎng)度分別為20ms、 20ms、 22ms、 27ms和35ms,出現(xiàn)了明顯差異。結(jié)果,可以改善可聽(tīng)性, 從而改善可識(shí)別性。關(guān)于作為處理結(jié)果的合成語(yǔ)音波形,請(qǐng)參閱圖21a、圖21b和圖21c。 圖21c示出以正常語(yǔ)速朗讀文本"so tsugyoushi te, shinyou kin koni"的 情況下的合成語(yǔ)音波形。在這種情況下,通過(guò)圖17中流程圖所示的處理 朗讀該文本。圖21b示出以高語(yǔ)速朗讀同一文本的情況下的合成語(yǔ)音波 形。在這種情況下,通過(guò)圖17中流程圖所示的處理朗讀該文本,即不延 長(zhǎng)摩擦音的音素長(zhǎng)度。圖21c示出以高語(yǔ)速朗讀同一文本的情況下的合 成語(yǔ)音波形。在這種情況下,應(yīng)用根據(jù)第一實(shí)施例的處理(圖6中所示 流程圖),并延長(zhǎng)摩擦音的音素長(zhǎng)度。假定圖21a中的語(yǔ)音朗讀時(shí)間為 To,在圖21b和圖21c中,由于選擇了3倍速度,因此語(yǔ)音朗讀時(shí)間為 To/3。圖21a中由虛線包圍的部分a表示摩擦音,圖21b中由虛線包圍的 部分b也表示同一音素。能夠理解,根據(jù)三倍的語(yǔ)速,部分b中的音素長(zhǎng)度被減小。當(dāng)聽(tīng)取這個(gè)音素的語(yǔ)音發(fā)聲時(shí),就象聲音中出現(xiàn)了中斷(break),難于聽(tīng)到該摩擦音。另一方面,對(duì)于圖21c中由虛線包圍的 部分c,根據(jù)三倍的語(yǔ)速將該摩擦音的音素長(zhǎng)度延長(zhǎng)。因此,即使在高語(yǔ) 速下聽(tīng)取這個(gè)音素的語(yǔ)音發(fā)聲,聲音中也沒(méi)有中斷出現(xiàn),并能夠改善可 聽(tīng)性。第二示例關(guān)于表示第二示例中處理結(jié)果的合成語(yǔ)音波形,請(qǐng)參閱圖22a和圖22b 以及圖23a和圖23b。圖22a和圖22b示出對(duì)比示例中的合成語(yǔ)音波形。圖 23a和圖23b示出第二示例中的合成語(yǔ)音波形。圖22a示出正常語(yǔ)速下的波 形,而圖22b示出高語(yǔ)速下的波形。在圖22b示出的高語(yǔ)速下朗讀語(yǔ)音的情 況中,部分d中摩擦音的音素長(zhǎng)度被縮短,使其隨語(yǔ)速而反向變化。在這個(gè) 示例中,摩擦音的音素長(zhǎng)度被縮短為15ms。另一方面,圖23a示出根據(jù)第一實(shí)施例的處理(圖6中流程圖)中在正 常語(yǔ)速下的波形,而圖23b示出根據(jù)高語(yǔ)速將摩擦音的音素長(zhǎng)度延長(zhǎng)的情況 下的波形。將圖22b中的部分d和圖23b中的部分e進(jìn)行比較,顯示出當(dāng)將基于 簡(jiǎn)單反比關(guān)系得到的音素長(zhǎng)度延長(zhǎng)時(shí),該音素長(zhǎng)度被延長(zhǎng)為35 ms,即該音 素長(zhǎng)度乘以約2.3。因此,聲音中不出現(xiàn)中斷,而改善了可聽(tīng)性。第三實(shí)施例關(guān)于表示第三示例中處理結(jié)果的合成語(yǔ)音波形,請(qǐng)參閱圖24a和圖24b 以及圖25a和圖25b。圖24a和圖24b示出對(duì)比示例中的合成語(yǔ)音波形。圖 25a和圖25b示出第三示例中的合成語(yǔ)音波形。在第一和第二示例中朗讀日 語(yǔ)文本,而在第三示例中朗讀英語(yǔ)文本"happy, shock, shoot"。圖24a示出正常語(yǔ)速下的波形,而圖24b示出高語(yǔ)速下的波形。在以圖 24b示出的高語(yǔ)速朗讀語(yǔ)音的情況中,部分f和g中摩擦音的音素長(zhǎng)度被縮 短,使其隨語(yǔ)速而反向變化。在這個(gè)示例中,部分f中摩擦音的音素長(zhǎng)度被 縮短為19 ms,而部分g中摩擦音的音素長(zhǎng)度被縮短為14 ms。另一方面,圖25a示出根據(jù)第一實(shí)施例的處理(圖6中流程圖)中在正 常語(yǔ)速下的波形,而圖25b示出根據(jù)高語(yǔ)速將摩擦音的音素長(zhǎng)度延長(zhǎng)的情況 下的波形。將圖24b中的部分f和g與圖25b中的部分h和i進(jìn)行比較,顯示出 當(dāng)將基于簡(jiǎn)單反比關(guān)系得到的音素長(zhǎng)度延長(zhǎng)時(shí),部分h中的音素長(zhǎng)度被延長(zhǎng)為27 ms,而部分i中的音素長(zhǎng)度被延長(zhǎng)為25 ms,即音素長(zhǎng)度實(shí)質(zhì)上翻倍了。 因此,聲音中不出現(xiàn)中斷,而改善了可聽(tīng)性。在權(quán)利要求中將描述從本發(fā)明的上述實(shí)施例提取出的技術(shù)構(gòu)思。
權(quán)利要求
1.一種將文本數(shù)據(jù)轉(zhuǎn)換為聲音信號(hào)的設(shè)備,包括音素確定器,用于確定與多個(gè)音素相對(duì)應(yīng)的音素?cái)?shù)據(jù)以及與多個(gè)停頓相對(duì)應(yīng)的停頓數(shù)據(jù),其中所述多個(gè)停頓被插入到將被轉(zhuǎn)換為聲音信號(hào)的所述文本數(shù)據(jù)中的一連串音素之間;音素長(zhǎng)度調(diào)整器,通過(guò)分別根據(jù)所述聲音信號(hào)的速度確定所述音素的長(zhǎng)度,以及通過(guò)在所述文本數(shù)據(jù)中作為摩擦音的所述音素中選擇性調(diào)整至少一個(gè)摩擦音音素的長(zhǎng)度,使得所述至少一個(gè)摩擦音音素與其它音素相比在時(shí)間上被相對(duì)延長(zhǎng)來(lái)調(diào)整所述音素?cái)?shù)據(jù)和所述停頓數(shù)據(jù);以及輸出單元,基于由所述音素長(zhǎng)度調(diào)整器所調(diào)整的音素?cái)?shù)據(jù)和停頓數(shù)據(jù),來(lái)輸出聲音信號(hào)。
2. 如權(quán)利要求1所述的設(shè)備,還包括 速度確定器,用于確定所述聲音信號(hào)的速度;其中,當(dāng)所述速度確定器確定所述聲音信號(hào)的速度高于預(yù)定速度時(shí),所 述音素長(zhǎng)度調(diào)整器通過(guò)增大所述摩擦音音素的長(zhǎng)度對(duì)所述音素?cái)?shù)據(jù)進(jìn)行調(diào) 整。
3. 如權(quán)利要求1所述的設(shè)備,還包括 呼吸群計(jì)算器,用于計(jì)算呼吸群的長(zhǎng)度;其中,所述音素長(zhǎng)度調(diào)整器根據(jù)所述呼吸群的長(zhǎng)度,通過(guò)按比例增大或 減小所述呼吸群中的音素長(zhǎng)度和停頓長(zhǎng)度,來(lái)調(diào)整所述音素?cái)?shù)據(jù)和停頓數(shù) 據(jù)。
4. 如權(quán)利要求1所述的設(shè)備,還包括語(yǔ)句計(jì)算器,用于計(jì)算所述文本數(shù)據(jù)中的朗讀語(yǔ)句的長(zhǎng)度;其中,所述音素長(zhǎng)度調(diào)整器根據(jù)所述文本數(shù)據(jù)中的朗讀語(yǔ)句的長(zhǎng)度,通過(guò)按比例增大或減小所述語(yǔ)句中的音素長(zhǎng)度和停頓長(zhǎng)度,來(lái)按比例調(diào)整所述音素?cái)?shù)據(jù)和停頓數(shù)據(jù)。
5. 如權(quán)利要求l所述的設(shè)備,其中,當(dāng)所述聲音信號(hào)的速度高于預(yù)定速 度時(shí),所述音素長(zhǎng)度調(diào)整器通過(guò)將所述文本數(shù)據(jù)中的停頓長(zhǎng)度減小為比與所 述聲音信號(hào)的速度相對(duì)應(yīng)的停頓長(zhǎng)度小的停頓長(zhǎng)度,來(lái)調(diào)整所述停頓數(shù)據(jù)。
6. 如權(quán)利要求l所述的設(shè)備,其中,當(dāng)所述聲音信號(hào)的速度高于預(yù)定速 度時(shí),所述音素長(zhǎng)度調(diào)整器通過(guò)移除所述文本數(shù)據(jù)中的最后一個(gè)停頓,來(lái)調(diào) 整所述停頓數(shù)據(jù)。
7. 如權(quán)利要求l所述的設(shè)備,其中,所述音素長(zhǎng)度調(diào)整器通過(guò)減小其它音素長(zhǎng)度和其它停頓長(zhǎng)度以與所述音素長(zhǎng)度的增大相對(duì)應(yīng),來(lái)調(diào)整所述音素 數(shù)據(jù)和所述停頓數(shù)據(jù)。
8. —種用于將文本數(shù)據(jù)轉(zhuǎn)換為聲音信號(hào)的方法,包括以下步驟 確定與多個(gè)音素相對(duì)應(yīng)的音素?cái)?shù)據(jù)以及與多個(gè)停頓相對(duì)應(yīng)的停頓數(shù)據(jù),其中所述多個(gè)停頓被插入到將被轉(zhuǎn)換為聲音信號(hào)的所述文本數(shù)據(jù)中的一連串音素之間;通過(guò)分別根據(jù)所述聲音信號(hào)的速度來(lái)確定所述音素的長(zhǎng)度,以及通過(guò)在 所述文本數(shù)據(jù)中作為摩擦音的所述音素中選擇性調(diào)整至少一個(gè)摩擦音音 素的長(zhǎng)度,使得所述至少一個(gè)摩擦音音素與其它音素相比在時(shí)間上被相對(duì)延 長(zhǎng),來(lái)調(diào)整所述音素?cái)?shù)據(jù)和所述停頓數(shù)據(jù);以及基于所調(diào)整的音素?cái)?shù)據(jù)和停頓數(shù)據(jù),輸出聲音信號(hào)。
9. 如權(quán)利要求8所述的方法,還包括以下步驟 確定所述聲音信號(hào)的速度;以及當(dāng)所述聲音信號(hào)的速度高于預(yù)定速度時(shí),通過(guò)增大所述摩擦音音素的長(zhǎng) 度,來(lái)調(diào)整所述音素?cái)?shù)據(jù)
10. 如權(quán)利要求8所述的方法,還包括以下步驟 計(jì)算呼吸群的長(zhǎng)度;以及根據(jù)所述呼吸群的長(zhǎng)度,通過(guò)按比例增大或減小所述呼吸群中的音素長(zhǎng) 度,來(lái)調(diào)整所述音素?cái)?shù)據(jù)。
11. 如權(quán)利要求8所述的方法,還包括以下步驟 計(jì)算所述文本數(shù)據(jù)中的朗讀語(yǔ)句的長(zhǎng)度;以及根據(jù)所述文本數(shù)據(jù)中的朗讀語(yǔ)句的長(zhǎng)度,通過(guò)按比例增大或減小所述語(yǔ) 句中的音素長(zhǎng)度,來(lái)調(diào)整所述音素?cái)?shù)據(jù)。
12. 如權(quán)利要求8所述的方法,還包括以下步驟-當(dāng)所述聲音信號(hào)的速度高于預(yù)定速度時(shí),通過(guò)將所述文本數(shù)據(jù)中的停頓 長(zhǎng)度減小為比與所述聲音信號(hào)的速度相對(duì)應(yīng)的停頓長(zhǎng)度小的停頓長(zhǎng)度,來(lái)調(diào)整所述停頓數(shù)據(jù)。
13. 如權(quán)利要求8所述的方法,還包括以下步驟當(dāng)所述聲音信號(hào)的速度高于預(yù)定速度時(shí),移除所述文本數(shù)據(jù)中的最后一 個(gè)停頓,來(lái)調(diào)整所述停頓數(shù)據(jù)。
14. 如權(quán)利要求8所述的方法,還包括以下步驟通過(guò)減小其它音素長(zhǎng)度和停頓長(zhǎng)度,使得與所述摩擦音長(zhǎng)度的增大相對(duì) 應(yīng),來(lái)調(diào)整所述音素?cái)?shù)據(jù)和所述停頓數(shù)據(jù)。
15. —種將文本數(shù)據(jù)轉(zhuǎn)換為聲音信號(hào)的設(shè)備,包括-處理器,用于執(zhí)行將所述文本數(shù)據(jù)轉(zhuǎn)換為聲音信號(hào)的處理,其中所述處 理包括以下步驟確定與所述文本數(shù)據(jù)中的多個(gè)音素類(lèi)型相對(duì)應(yīng)的數(shù)據(jù),其中所述文 本數(shù)據(jù)將被轉(zhuǎn)換為聲音信號(hào);確定與多個(gè)音素相對(duì)應(yīng)的音素?cái)?shù)據(jù)以及與多個(gè)停頓相對(duì)應(yīng)的停頓 數(shù)據(jù),其中所述多個(gè)停頓被插入到將被轉(zhuǎn)換為聲音信號(hào)的所述文本數(shù)據(jù)中的一連串音素之間;通過(guò)分別根據(jù)所述聲音信號(hào)的速度確定所述音素的長(zhǎng)度,以及通過(guò) 在所述文本數(shù)據(jù)中作為摩擦音的所述音素中選擇性調(diào)整至少一個(gè)摩擦音 音素的長(zhǎng)度,使得所述至少一個(gè)摩擦音音素與其它音素相比在時(shí)間上被相對(duì) 延長(zhǎng),來(lái)調(diào)整所述音素?cái)?shù)據(jù)和所述停頓數(shù)據(jù);以及輸出單元,基于所調(diào)整的音素?cái)?shù)據(jù)和停頓數(shù)據(jù),輸出聲音信號(hào)。
全文摘要
本發(fā)明涉及文本到語(yǔ)音轉(zhuǎn)換設(shè)備及其轉(zhuǎn)換方法。根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供一種用于將文本數(shù)據(jù)轉(zhuǎn)換為聲音信號(hào)的設(shè)備,包括音素確定器,用于確定與多個(gè)音素相對(duì)應(yīng)的音素?cái)?shù)據(jù)以及與多個(gè)停頓相對(duì)應(yīng)的停頓數(shù)據(jù),其中所述停頓被插入到將被轉(zhuǎn)換為聲音信號(hào)的文本數(shù)據(jù)中的一連串音素之間;音素長(zhǎng)度調(diào)整器,通過(guò)分別根據(jù)聲音信號(hào)的速度確定音素的長(zhǎng)度,以及選擇性調(diào)整文本數(shù)據(jù)中作為摩擦音的至少一個(gè)音素的長(zhǎng)度,使得至少一個(gè)摩擦音音素與其它音素相比在時(shí)間上被相對(duì)延長(zhǎng),以此調(diào)整音素?cái)?shù)據(jù)和停頓數(shù)據(jù);以及輸出單元,用于基于通過(guò)音素長(zhǎng)度調(diào)整器所調(diào)整的音素?cái)?shù)據(jù)和停頓數(shù)據(jù),輸出聲音信號(hào)。本發(fā)明能夠改善文本轉(zhuǎn)換為語(yǔ)音的可識(shí)別性和可聽(tīng)性。
文檔編號(hào)G10L13/02GK101334995SQ20081012489
公開(kāi)日2008年12月31日 申請(qǐng)日期2008年6月25日 優(yōu)先權(quán)日2007年6月25日
發(fā)明者佐佐木均, 西池理香 申請(qǐng)人:富士通株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阳信县| 成安县| 江阴市| 房山区| 隆德县| 库伦旗| 襄垣县| 什邡市| 正蓝旗| 务川| 来安县| 视频| 巨野县| 镇康县| 桃园县| 夏邑县| 峨山| 嘉义县| 兴业县| 岚皋县| 凤山县| 中阳县| 琼海市| 上犹县| 阿拉善左旗| 隆子县| 冕宁县| 天津市| 锦州市| 玉门市| 平江县| 南澳县| 建德市| 永靖县| 渝北区| 尖扎县| 枣强县| 洛阳市| 轮台县| 巴楚县| 洪江市|