專(zhuān)利名稱(chēng):語(yǔ)音合成方法、語(yǔ)音合成裝置及記錄媒體的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文本語(yǔ)音合成,特別涉及由音位符號(hào)串、音高、音位時(shí)長(zhǎng)等信息生成語(yǔ)音信號(hào)的語(yǔ)音合成。
背景技術(shù):
從任意文章作出語(yǔ)音信號(hào)稱(chēng)為文本語(yǔ)音合成。通常這一文本語(yǔ)音合成系統(tǒng)包括言語(yǔ)處理單元、音位處理單元、語(yǔ)音信號(hào)生成單元三個(gè)階段。
輸入的文本首先在言語(yǔ)處理單元進(jìn)行詞素分析及構(gòu)文分析等,之后在音位處理單元中進(jìn)行重音及語(yǔ)調(diào)處理,輸出音位符號(hào)串、音高模式(聲高的變化模式)、音位時(shí)長(zhǎng)等信息。最后,語(yǔ)音信號(hào)生成單元,即語(yǔ)音合成器,由音位符號(hào)串、音高模式、音位時(shí)長(zhǎng)等信息合成語(yǔ)音信號(hào)。
這種可合成任意的音位符號(hào)串的合成器,如以V表示母音,以C表示子音,可存儲(chǔ)以CV、CVC、VCV等為基本的小單位的特征參數(shù)(語(yǔ)音單元),通過(guò)控制音高及時(shí)長(zhǎng)而進(jìn)行拼接就可以合成語(yǔ)音。
利用這種語(yǔ)音合成器,作為從語(yǔ)音單元的信息生成所要求的音高模式及音位時(shí)長(zhǎng)的語(yǔ)音信號(hào)的方法,公知的有PSOLA(基音同步疊加)法。已知利用PSOLA法生成的合成語(yǔ)音,在音高周期改變程度小的場(chǎng)合,由于音高周期改變?cè)斐傻囊糍|(zhì)劣化小,音質(zhì)良好。但是,PSOLA法,在音高周期改變大時(shí),就存在音質(zhì)劣化的問(wèn)題。
另外,在語(yǔ)音單元的拼接單元中產(chǎn)生頻譜不連續(xù)的場(chǎng)合,存在由于進(jìn)行平滑處理而使頻譜產(chǎn)生歧變使音質(zhì)劣化的問(wèn)題。此外,由于是將波形本身作為語(yǔ)音單元,難以使音質(zhì)變化而缺少柔軟性。
另外,還有另外一種語(yǔ)音合成器方式,共振峰合成方式。共振峰合成方式是模擬人的發(fā)音機(jī)構(gòu)的模型,利用使聲帶發(fā)出的信號(hào)模型化的音源信號(hào),通過(guò)驅(qū)動(dòng)使聲道特性模型化的的濾波器生成語(yǔ)音信號(hào)。在共振峰合成方式中,通過(guò)組合共振峰頻率和頻帶寬,可決定合成語(yǔ)音的音位(/a/,/i∠/u/等)及音質(zhì)(男聲、女聲等)。因此,語(yǔ)音單元的信息變成不是波形而是共振峰頻率合頻帶寬的值的組合。共振峰合成方式,可控制直接關(guān)系到音位和音質(zhì)的參數(shù)。因此具有可進(jìn)行靈活控制使音質(zhì)變化等優(yōu)點(diǎn)。但是,存在模型精度不佳的問(wèn)題。就是說(shuō),只是利用共振峰頻率和頻帶寬不能表現(xiàn)實(shí)際語(yǔ)音的頻譜的精細(xì)結(jié)構(gòu),音質(zhì)不佳缺乏人聲感(似人度)。
本發(fā)明的目的在于提供一種音質(zhì)良好、同時(shí)音質(zhì)等可靈活變化的語(yǔ)音合成器。
發(fā)明概述根據(jù)本發(fā)明的第一個(gè)方面,提供一種語(yǔ)音合成方法,包括準(zhǔn)備大量共振峰參數(shù),根據(jù)音高模式、音位時(shí)長(zhǎng)、音位符號(hào)串從共振峰參數(shù)中選擇預(yù)定的共振峰參數(shù);基于所選擇的共振峰參數(shù)的共振峰頻率和共振峰相位生成多個(gè)正弦波波形;將正弦波波形分別乘以所選擇的共振峰參數(shù)的窗函數(shù)以生成多個(gè)共振峰波形;疊加共振峰波形以生成多個(gè)音高波形;以及根據(jù)音高周期抑制音高波形以生成語(yǔ)音信號(hào)。
根據(jù)本發(fā)明的第二個(gè)方面,提供一種語(yǔ)音合成器,包括音高標(biāo)記發(fā)生器,用來(lái)參照音高模式和音位時(shí)長(zhǎng)生成音高標(biāo)記;音高波形發(fā)生器,用來(lái)參照音高模式、音位時(shí)長(zhǎng)和音位符號(hào)串對(duì)音高標(biāo)記生成音高波形;波形抑制器件,用來(lái)根據(jù)音高標(biāo)記抑制音高波形以生成有聲語(yǔ)音信號(hào);無(wú)聲語(yǔ)音發(fā)生器,用來(lái)生成無(wú)聲語(yǔ)音;以及疊加器,用來(lái)將有聲語(yǔ)音和無(wú)聲語(yǔ)音疊加以生成合成語(yǔ)音,此音高波形發(fā)生器包含存儲(chǔ)器,用來(lái)存儲(chǔ)多個(gè)以合成單位為單位計(jì)算的共振峰參數(shù),參數(shù)選擇器,用來(lái)參照音高模式、音位時(shí)長(zhǎng)和音位符號(hào)串為對(duì)應(yīng)于音高標(biāo)記的一幀選擇共振峰參數(shù),正弦波發(fā)生器,用來(lái)根據(jù)讀出的共振峰參數(shù)的共振峰頻率和共振峰相位生成正弦波,乘法器,用來(lái)將正弦波波形與所選擇的共振峰參數(shù)的窗函數(shù)相乘以生成共振峰波形,疊加器,用來(lái)疊加共振峰波形以生成音高波形。
附圖簡(jiǎn)述
圖1為本發(fā)明的一實(shí)施方式的語(yǔ)音合成器的框圖。
圖2示出由音高波形疊加產(chǎn)生有聲語(yǔ)音的發(fā)生過(guò)程。
圖3為本發(fā)明的一實(shí)施方式的音高波形發(fā)生單元的框圖。
圖4示出共振峰參數(shù)的一個(gè)例子。
圖5示出共振峰參數(shù)的另一個(gè)例子。
圖6示出正弦波、窗函數(shù)、共振峰波形和音高波形。
圖7示出正弦波、窗函數(shù)、共振峰波形和音高波形的功率譜。
圖8為本發(fā)明的一實(shí)施方式的音高波形發(fā)生單元的框圖。
圖9為本發(fā)明的一實(shí)施方式的音高波形發(fā)生單元的框圖。
圖10示出共振峰頻率的控制函數(shù)。
圖11示出共振峰增益的控制函數(shù)。
圖12示出用于聲質(zhì)變換的共振峰頻率的映射函數(shù)。
圖13為本發(fā)明的一實(shí)施方式的音高波形發(fā)生單元的框圖。
圖14為說(shuō)明共振峰頻率的平滑化的示圖。
圖15為說(shuō)明共振峰頻率的平滑化的示圖。
圖16A及16B示出窗函數(shù)的平滑化。
圖17A、17B和17C為示出本發(fā)明的語(yǔ)音合成器的處理的流程圖。
實(shí)施發(fā)明的具體方式下面參照附圖對(duì)本發(fā)明的實(shí)施方式予以說(shuō)明。
圖1示出實(shí)現(xiàn)本發(fā)明的一實(shí)施方式的語(yǔ)音合成方法的語(yǔ)音合成裝置的構(gòu)成。聲音合成裝置接受音高模式306、音位時(shí)長(zhǎng)307和音位符號(hào)串308,輸出合成語(yǔ)音信號(hào)305。上述語(yǔ)音合成裝置由有聲語(yǔ)音合成單元31和無(wú)聲語(yǔ)音合成單元32構(gòu)成,通過(guò)將從這些合成單元分別輸出無(wú)聲語(yǔ)音信號(hào)304和有聲語(yǔ)音信號(hào)303相加而生成合成語(yǔ)音信號(hào)305。
無(wú)聲語(yǔ)音合成單元32,在音素主要是無(wú)聲子音及有聲摩擦音的場(chǎng)合,參照音位時(shí)長(zhǎng)307和音位符號(hào)串308生成無(wú)聲語(yǔ)音信號(hào)304。無(wú)聲語(yǔ)音合成單元32,可利用以白噪音驅(qū)動(dòng)LPC合成濾波器的方法等公知的技術(shù)實(shí)現(xiàn)。
有聲語(yǔ)音合成單元31,由音高標(biāo)記發(fā)生單元33、音高波形發(fā)生單元34及波形重疊單元35構(gòu)成。音高標(biāo)記發(fā)生單元33,參照音高模式306和音位時(shí)長(zhǎng)307,生成如圖2所示的音高標(biāo)記302。音高標(biāo)記302,表示重疊音高波形301的位置。音高標(biāo)記的間隔與音高周期相對(duì)應(yīng)。音高波形發(fā)生單元,參照音高模式306、音位時(shí)長(zhǎng)307和音位符號(hào)串308,如圖2所示,生成分別與音高標(biāo)記302對(duì)應(yīng)的音高波形301。波形重疊單元35,在音高標(biāo)記302所示的位置處通過(guò)重疊對(duì)應(yīng)的音高波形301生成有聲語(yǔ)音信號(hào)303。
下面詳細(xì)說(shuō)明圖1的音高波形發(fā)生單元的構(gòu)成。
如圖3所示,音高波形發(fā)生單元34,由共振峰參數(shù)存儲(chǔ)單元41、參數(shù)選擇單元42和正弦波發(fā)生單元(43、44、45)構(gòu)成。在共振峰參數(shù)存儲(chǔ)單元41中對(duì)每個(gè)語(yǔ)音單元單位存儲(chǔ)共振峰參數(shù)。
圖4示出音位/a/的單元的共振峰參數(shù)的一個(gè)例子。在此例子中,/a/的單元由3幀構(gòu)成,各幀由3個(gè)共振峰構(gòu)成。將共振峰頻率、共振峰相位和窗函數(shù)作為表示各共振峰的特征的參數(shù)存儲(chǔ)于共振峰參數(shù)存儲(chǔ)單元41中。
參數(shù)選擇單元42,參照輸入到音高波形發(fā)生單元34的音高模式306、音位時(shí)長(zhǎng)307和音位符號(hào)串30從共振峰參數(shù)存儲(chǔ)單元41讀出對(duì)應(yīng)于音高標(biāo)記302的1幀大小的共振峰參數(shù)401。
與共振峰序號(hào)1相對(duì)應(yīng)的參數(shù)作為共振峰頻率402、共振峰相位403、窗函數(shù)411從共振峰參數(shù)存儲(chǔ)單元41輸出。同樣,與共振峰序號(hào)2相對(duì)應(yīng)的參數(shù)作為共振峰頻率404、共振峰相位405、窗函數(shù)412從共振峰參數(shù)存儲(chǔ)單元41輸出。此外,與共振峰序號(hào)3相對(duì)應(yīng)的參數(shù)作為共振峰頻率406、共振峰相位407、窗函數(shù)413從共振峰參數(shù)存儲(chǔ)單元41輸出。
正弦波發(fā)生單元43,按照共振峰頻率402和共振峰相位403輸出正弦波408。正弦波408由窗函數(shù)411進(jìn)行窗乘處理而生成共振峰波形414。如以ω表示共振峰頻率402,以φ表示共振峰相位403,以w表示窗函數(shù)411,則共振峰波形y(t)可用下式表示y(t)=W(t)·sin(ωt+φ)正弦波發(fā)生單元44,按照共振峰頻率404和共振峰相位405輸出正弦波409,此正弦波409由窗函數(shù)412進(jìn)行窗乘處理而生成共振峰波形415。共振峰波形415,按照共振峰頻率406和共振峰相位407輸出正弦波410,此正弦波410由窗函數(shù)413進(jìn)行窗乘處理而生成共振峰波形416。
音高波形301,通過(guò)將共振峰波形(414、415、416)分別相加而生成。正弦波、窗函數(shù)、共振峰波形和音高波形的示例如圖6所示。這些波形的功率譜示于圖7。在圖6中,橫軸表示時(shí)間,縱軸表示振幅。在圖7中,橫軸表示頻率,縱軸表示振幅。
正弦波變成具有尖峰的線狀譜,窗函數(shù)變成集中于低頻區(qū)的譜線。在時(shí)間區(qū)域的窗乘(乘法)在頻率區(qū)域中相當(dāng)于折疊。因此,共振峰波形的波譜成為平行移動(dòng)到正弦波的頻率的位置的形狀。因此,通過(guò)控制正弦波的頻率和相位可以使音高波形得共振峰的中心頻率及相位變化。通過(guò)控制窗函數(shù)的形狀可以使音高波形的共振峰的頻譜形狀變化。
這樣,因?yàn)榭梢詫?duì)每個(gè)共振峰獨(dú)立控制其共振峰的中心頻率及相位及頻譜形狀,所以可以實(shí)現(xiàn)靈活性高的模型。另外,因?yàn)榭梢岳么昂瘮?shù)的形狀來(lái)表現(xiàn)頻譜的精細(xì)結(jié)構(gòu),所以可以使合成語(yǔ)音高精度地近似人聲,可合成具有人聲感的語(yǔ)音。
下面參照?qǐng)D8對(duì)本發(fā)明的第二實(shí)施方式的音高波形發(fā)生單元34予以說(shuō)明。
對(duì)于與圖3相對(duì)應(yīng)的部分賦予同一標(biāo)號(hào),對(duì)不同點(diǎn)予以說(shuō)明。在本實(shí)施方式中,窗函數(shù)由基函數(shù)展開(kāi),不是存儲(chǔ)窗函數(shù)作為共振峰參數(shù),而是存儲(chǔ)權(quán)重系數(shù)組。窗函數(shù)發(fā)生單元56生成權(quán)重系數(shù)組。
圖5示出共振峰參數(shù)存儲(chǔ)單元51中存儲(chǔ)的共振峰參數(shù)的一個(gè)例子。在此示例中窗函數(shù)對(duì)3個(gè)基函數(shù)的權(quán)重和展開(kāi),將3個(gè)系數(shù)組作為窗函數(shù)權(quán)重系數(shù)的集合存儲(chǔ)。參數(shù)選擇單元42在所選擇的共振峰參數(shù)501中將共振峰頻率(402,404,406)、共振峰相位(403,405,407)輸出到正弦波發(fā)生單元(43、44、45),將窗函數(shù)權(quán)重系數(shù)集合(517,518,519)輸出到窗函數(shù)發(fā)生單元56。
窗函數(shù)發(fā)生單元56,按照窗函數(shù)權(quán)重系數(shù)集合(517,518,519),分別生成窗函數(shù)(511,512,513)。如設(shè)權(quán)重系數(shù)分別為a1,a2,a3,基函數(shù)為b1(t),b2(t),b3(t),則窗函數(shù)W(t)可以以下式表示w(t)=a1·b1(t)+a2·b2(t)+a3·b3(t)另外,基函數(shù)也可以利用DCT基等,也可利用通過(guò)KL展開(kāi)的窗函數(shù)所生成的基函數(shù)。在本實(shí)施方式中設(shè)基的次數(shù)為3,但次數(shù)為多少都可以。通過(guò)將窗函數(shù)展開(kāi)為基函數(shù),可削減共振峰參數(shù)存儲(chǔ)單元的存儲(chǔ)容量。
下面參照?qǐng)D9對(duì)本發(fā)明的第三實(shí)施方式的音高波形發(fā)生單元34予以說(shuō)明。如對(duì)于與圖3相對(duì)應(yīng)的部分賦予同一標(biāo)號(hào),以不同點(diǎn)作為中心予以說(shuō)明,則在本實(shí)施方式中,參數(shù)變形單元67是附加的,按照音高模式306使共振峰參數(shù)改變。
參數(shù)變形單元67,通過(guò)使共振峰頻率402、共振峰相位403、窗函數(shù)411、共振峰頻率404、共振峰相位405、窗函數(shù)412、共振峰頻率406、共振峰相位407和窗函數(shù)413按照音高模式306變化而分別輸出共振峰頻率720、共振峰相位721、窗函數(shù)717、共振峰頻率722、共振峰相位723、窗函數(shù)718、共振峰頻率724、共振峰相位725、窗函數(shù)719??梢允顾械膮?shù)變化,也可以使一部分的參數(shù)變化。
圖10示出在根據(jù)音高周期控制共振峰頻率的場(chǎng)合時(shí)的控制函數(shù)的示例。這種控制函數(shù)最好是根據(jù)音位設(shè)定,或者也可以每個(gè)幀、每個(gè)共振峰號(hào)設(shè)定。通過(guò)將這種控制函數(shù)輸入到參數(shù)變形單元67即可根據(jù)音高周期控制共振峰頻率。也可以不使用共振峰頻率本身,而使用控制輸入共振峰頻率和輸出共振峰頻率的差分值及比值的控制函數(shù)。
圖11示出通過(guò)將音高周期對(duì)應(yīng)的增益乘以窗函數(shù)來(lái)表示用于控制共振峰的功率的控制函數(shù)。
將這種控制函數(shù)輸入到參數(shù)變形單元67,通過(guò)根據(jù)音高周期使參數(shù)變化,可以使由于音高周期變化導(dǎo)致的語(yǔ)音頻譜的變化模型化。結(jié)果就可以與音高無(wú)關(guān)地生成高音質(zhì)的合成語(yǔ)音。
另外,也可以通過(guò)將音位符號(hào)串308輸入到參數(shù)變形單元67,根據(jù)先行或后續(xù)的音位的種類(lèi)改變共振峰參數(shù)。結(jié)果,可以使由于音位環(huán)境導(dǎo)致的語(yǔ)音頻譜的變化模型化,就可以提高音質(zhì)。
此外,也可以根據(jù)從外部輸入到參數(shù)變形單元67的音質(zhì)信息309改變參數(shù)。由此,可以生成各種音質(zhì)的合成語(yǔ)音。
圖12示出通過(guò)使共振峰頻率改變來(lái)改變語(yǔ)音的粗細(xì)度的控制函數(shù)的示例。如利用控制函數(shù)(a)變換所有的共振峰頻率,則因?yàn)楣舱穹逡葡蚋哳l區(qū)而可生成細(xì)聲語(yǔ)音。利用控制函數(shù)(b)可生成稍微細(xì)聲的語(yǔ)音。如利用控制函數(shù)(b,則因?yàn)楣舱穹孱l率移向低頻區(qū)而可生成粗聲語(yǔ)音。利用控制函數(shù)(c)可生成稍微粗聲的語(yǔ)音。
下面參照?qǐng)D13對(duì)本發(fā)明的第四實(shí)施方式的音高波形發(fā)生單元34予以說(shuō)明。對(duì)于與圖3相對(duì)應(yīng)的部分賦予同一標(biāo)號(hào),以不同點(diǎn)作為中心予以說(shuō)明,在本實(shí)施方式中,新加了參數(shù)平滑單元77,可對(duì)參數(shù)進(jìn)行平滑化以使各共振峰參數(shù)隨時(shí)間的變化變得平滑。參數(shù)平滑單元77,通過(guò)分別使共振峰頻率402、共振峰相位403、窗函數(shù)411、共振峰頻率404、共振峰相位405、窗函數(shù)412、共振峰頻率406、共振峰相位407和窗函數(shù)413平滑化而分別輸出共振峰頻率820、共振峰相位821、窗函數(shù)817、共振峰頻率822、共振峰相位823、窗函數(shù)818、共振峰頻率824、共振峰相位825、窗函數(shù)819??梢允顾械膮?shù)平滑化,也可以使一部分的參數(shù)平滑化。
圖14為說(shuō)明共振峰頻率的平滑化的示例圖?!帘硎酒交暗墓舱穹孱l率402、404、406,通過(guò)使先行或后續(xù)幀的對(duì)應(yīng)共振峰頻率的變化平滑化,可分別生成以O(shè)表示的經(jīng)過(guò)平滑化的共振峰頻率820、822、824。
在共振峰的對(duì)應(yīng)在語(yǔ)音單元的拼接單元中取不到的場(chǎng)合,就如圖15A中以×所表示的那樣,會(huì)引起與共振峰頻率404對(duì)應(yīng)的共振峰消失。在此場(chǎng)合,因?yàn)轭l譜中產(chǎn)生很大的不連續(xù)而使音質(zhì)劣化,如用O所表示那樣,附加共振峰而生成共振峰頻率822。此時(shí),如圖15B所示,通過(guò)使共振峰頻率822對(duì)應(yīng)的窗函數(shù)818的功率衰減可以使共振峰的功率的不連續(xù)不產(chǎn)生。
圖16示出窗函數(shù)位置的平滑化的例子。通過(guò)使窗函數(shù)位置平滑化而使窗函數(shù)411的尖峰位置在幀間平滑變化,可生成窗函數(shù)817。除此之外,也可以對(duì)窗函數(shù)的形狀及窗函數(shù)的功率進(jìn)行平滑化。
在上述的本發(fā)明的實(shí)施方式中,對(duì)共振峰數(shù)3的場(chǎng)合進(jìn)行了說(shuō)明,但共振峰數(shù)是多少都可以,每幀的共振峰數(shù)也可以改變。
另外,本發(fā)明的實(shí)施方式的正弦波發(fā)生單元對(duì)作為輸出正弦波的裝置進(jìn)行了說(shuō)明,但如果是具有接近線狀譜的功率譜的波形,即使不是完全的正弦波也可以。比如,在為了減少計(jì)算量降低正弦波生成單元的計(jì)算精度,或正弦波生成單元由列表構(gòu)成的場(chǎng)合,存在由于誤差的原因不能得到完全正弦波的場(chǎng)合。
另外,共振峰波形的頻譜不一定限于表現(xiàn)語(yǔ)音信號(hào)的頻譜的山峰部分,作為多個(gè)共振峰波形的和的音高波形的頻譜可表現(xiàn)頻譜。
雖然作為本發(fā)明的實(shí)施方式說(shuō)明了用于語(yǔ)音合成的合成器,但作為本發(fā)明的其他實(shí)施方式有復(fù)用語(yǔ)音編碼的復(fù)用器。
即,編碼器,從語(yǔ)音信號(hào)通過(guò)分析而求出共振峰頻率、共振峰相位、窗函數(shù)等的共振峰參數(shù)和音高周期等,將其編碼之后進(jìn)行傳送或存儲(chǔ)。復(fù)用器對(duì)共振峰參數(shù)和音高周期復(fù)用,與上述合成器同樣地重放語(yǔ)音信號(hào)。
上述的語(yǔ)音合成可通過(guò)按照存儲(chǔ)于記錄媒體中的程序?qū)τ?jì)算機(jī)進(jìn)行程序控制而進(jìn)行。下面參照?qǐng)D17A~17C對(duì)程序控制予以說(shuō)明。
圖17A為示出語(yǔ)音合成的處理流程圖,圖17B示出語(yǔ)音合成處理內(nèi)的有聲語(yǔ)音生成處理的流程圖,圖17C示出圖17B的有聲語(yǔ)音生成處理的音高波形生成處理的流程圖。
在圖17A的語(yǔ)音合成處理中,輸入音高模式306、音位時(shí)長(zhǎng)307以及音位符號(hào)串308(S11)。根據(jù)音高模式306、音位時(shí)長(zhǎng)307以及音位符號(hào)串308生成有聲語(yǔ)音信號(hào)303(S12)。參照音位時(shí)長(zhǎng)307及音位符號(hào)串308生成無(wú)聲語(yǔ)音信號(hào)304(S13)。將有聲語(yǔ)音信號(hào)與無(wú)聲語(yǔ)音信號(hào)相加而合成語(yǔ)音信號(hào)305(S14)。
在圖17B的語(yǔ)音合成處理中,參照音高模式306和音位時(shí)長(zhǎng)307生成音高標(biāo)記302(S21)。參照音高模式306、音位時(shí)長(zhǎng)307以及音位符號(hào)串308生成與音高標(biāo)記302分別對(duì)應(yīng)的音高波形301(S22)。重疊與音高標(biāo)記302所示的位置對(duì)應(yīng)的音高波形301而生成有聲語(yǔ)音(S23)。
在圖17C的音高波形生成處理中,參照音高模式306、音位時(shí)長(zhǎng)307以及音位符號(hào)串308從共振峰參數(shù)存儲(chǔ)單元41中選擇與音高標(biāo)記302對(duì)應(yīng)的1幀大小的共振峰參數(shù)401(S31)。按照與所選擇的共振峰參數(shù)401的共振峰號(hào)對(duì)應(yīng)的共振峰頻率和共振峰相位生成多個(gè)正弦波(S32)。通過(guò)對(duì)多個(gè)正弦波以窗函數(shù)進(jìn)行窗乘而生成共振峰波形414,415,416(S33)。將這些共振峰波形相加生成音高波形(S34)。
如上所述,根據(jù)本發(fā)明,由于可以對(duì)每個(gè)共振峰獨(dú)立控制其共振峰頻率及共振峰形狀,所以可以表現(xiàn)由于音高周期及音質(zhì)差異引起的語(yǔ)音頻譜的變化,在語(yǔ)音合成中可以實(shí)現(xiàn)高靈活性。因?yàn)榭梢岳么昂瘮?shù)的形狀來(lái)表現(xiàn)頻譜的精細(xì)結(jié)構(gòu),所以可合成具有人聲感的高音質(zhì)的語(yǔ)音。
對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō),其它優(yōu)點(diǎn)和變型是容易實(shí)現(xiàn)的。因此,本發(fā)明在其更廣的方面不受限于此處所描述的具體的細(xì)節(jié)和代表性的實(shí)施方式。因此,在不脫離由后附的權(quán)利要求及其等效物確定的總的發(fā)明構(gòu)思的精神或范圍的條件下可以進(jìn)行各種變更。
權(quán)利要求
1.一種語(yǔ)音合成方法,其特征在于包括在存儲(chǔ)器存儲(chǔ)大量共振峰參數(shù),該共振峰參數(shù)代表共振峰頻率和共振峰相位、以及窗函數(shù);根據(jù)音高模式、音位時(shí)長(zhǎng)、音位符號(hào)串從共振峰參數(shù)中選擇預(yù)定的共振峰參數(shù);基于所選擇的共振峰參數(shù)的共振峰頻率和共振峰相位生成多個(gè)正弦波波形;將正弦波波形分別乘以所選擇的共振峰參數(shù)的窗函數(shù)以生成多個(gè)共振峰波形;疊加共振峰波形以生成多個(gè)音高波形;以及根據(jù)音高周期抑制音高波形以生成語(yǔ)音信號(hào)。
2.如權(quán)利要求1的語(yǔ)音合成方法,其特征在于共振峰波形y(t)可用下式表示y(t)=W(t)*sin(ωt+φ)其中,ω表示共振峰頻率,φ表示共振峰相位,w(t)表示窗函數(shù)。
3.如權(quán)利要求1的語(yǔ)音合成方法,其中包括在存儲(chǔ)器中存儲(chǔ)權(quán)重系數(shù)和疊加由權(quán)重系數(shù)加權(quán)的基函數(shù)以生成窗函數(shù)。
4.如權(quán)利要求1的語(yǔ)音合成方法,其中包括根據(jù)音高周期改變至少一個(gè)共振峰波形的至少一個(gè)冪次、至少一個(gè)窗函數(shù)的形狀、至少一個(gè)窗函數(shù)的位置和至少一個(gè)共振峰頻率的窗函數(shù)。
5.如權(quán)利要求4的語(yǔ)音合成方法,其特征在于至少一個(gè)共振峰波形的至少一個(gè)冪次、至少一個(gè)窗函數(shù)的形狀、至少一個(gè)窗函數(shù)的位置和至少一個(gè)共振峰頻率的窗函數(shù),對(duì)每個(gè)音位、每幀和每個(gè)共振峰號(hào)改變。
6.如權(quán)利要求1的語(yǔ)音合成方法,其中包括根據(jù)一種至少先行或后續(xù)的音位改變至少一個(gè)共振峰波形的至少一個(gè)冪次、至少一個(gè)窗函數(shù)的形狀、至少一個(gè)窗函數(shù)的位置和至少一個(gè)共振峰頻率的窗函數(shù)。
7.如權(quán)利要求1的語(yǔ)音合成方法,其特征在于包括根據(jù)給定的音質(zhì)信息改變至少一個(gè)共振峰波形的至少一個(gè)冪次、至少一個(gè)窗函數(shù)的形狀、至少一個(gè)窗函數(shù)的位置和至少一個(gè)共振峰頻率的窗函數(shù)。
8.如權(quán)利要求1的語(yǔ)音合成方法,其特征在于包括根據(jù)至少一個(gè)先行音高波形或后續(xù)的音高波形的相應(yīng)的共振峰的至少一個(gè)共振峰波形的至少一個(gè)冪次、至少一個(gè)共振峰波形的至少一個(gè)冪次、至少一個(gè)共振峰頻率、至少一個(gè)正弦波的相位和至少一個(gè)窗函數(shù)的位置,改變至少一個(gè)共振峰波形的至少一個(gè)冪次、至少一個(gè)共振峰頻率、至少一個(gè)窗函數(shù)的形狀、至少一個(gè)正弦波的相位和至少一個(gè)窗函數(shù)的位置。
9.如權(quán)利要求1的語(yǔ)音合成方法,其特征在于包括根據(jù)存在至少一個(gè)先行音高波形或后續(xù)的音高波形的相應(yīng)的共振峰,改變至少一個(gè)共振峰波形的至少一個(gè)冪次、至少一個(gè)共振峰頻率、至少一個(gè)窗函數(shù)的形狀、至少一個(gè)正弦波的相位和至少一個(gè)窗函數(shù)的位置。
10.如權(quán)利要求1的語(yǔ)音合成方法,其特征在于包括有選擇地平滑共振峰頻率、共振峰相位和窗函數(shù)。
11.一種有音高模式、音位時(shí)長(zhǎng)和音位符號(hào)串的語(yǔ)音合成器,包括音高標(biāo)記發(fā)生裝置(33),用來(lái)參照音高模式和音位時(shí)長(zhǎng)生成音高標(biāo)記;音高波形發(fā)生裝置(34),用來(lái)參照音高模式、音位時(shí)長(zhǎng)和音位符號(hào)串對(duì)音高標(biāo)記生成音高波形;波形抑制裝置(35),用來(lái)根據(jù)音高標(biāo)記抑制音高波形以生成有聲語(yǔ)音信號(hào);無(wú)聲語(yǔ)音發(fā)生裝置(32);以及疊加裝置,用來(lái)將有聲語(yǔ)音和無(wú)聲語(yǔ)音疊加以生成合成語(yǔ)音,該音高波形發(fā)生器包含存儲(chǔ)裝置(41),用來(lái)存儲(chǔ)多個(gè)以合成單位為單位計(jì)算的共振峰參數(shù),共振峰參數(shù)選擇裝置(42),用來(lái)參照音高模式、音位時(shí)長(zhǎng)和音位符號(hào)串為對(duì)應(yīng)于音高標(biāo)記的一幀選擇共振峰參數(shù),正弦波發(fā)生裝置(43-45),用來(lái)根據(jù)讀出的共振峰參數(shù)的共振峰頻率和共振峰相位生成正弦波,乘法裝置,用來(lái)將正弦波波形與所選擇的共振峰參數(shù)的窗函數(shù)相乘以生成共振峰波形,疊加裝置,用來(lái)疊加共振峰波形以生成音高波形。
12.如權(quán)利要求11的語(yǔ)音合成器,其特征在于存儲(chǔ)器(41)存儲(chǔ)窗函數(shù)。
13.如權(quán)利要求11的語(yǔ)音合成器,其特征在于存儲(chǔ)器(51)存儲(chǔ)加權(quán)函數(shù)權(quán)重系數(shù),并且其構(gòu)成包括通過(guò)疊加經(jīng)權(quán)重系數(shù)加權(quán)的基函數(shù)生成窗函數(shù)對(duì)窗函數(shù)發(fā)生裝置(56)。
14.如權(quán)利要求11的語(yǔ)音合成器,其特征在于包括根據(jù)音高周期變換所選擇的共振峰參數(shù)的參數(shù)變形裝置(67)。
15.如權(quán)利要求11的語(yǔ)音合成器,其特征在于參數(shù)變形裝置(67)對(duì)每個(gè)音位、每幀或每個(gè)共振峰號(hào)變換所選擇的共振峰參數(shù)。
16.如權(quán)利要求11的語(yǔ)音合成器,其特征在于包括根據(jù)先行或后續(xù)的音位變換所選擇的共振峰參數(shù)的參數(shù)變形裝置(67)。
17.如權(quán)利要求11的語(yǔ)音合成器,其特征在于包括根據(jù)給定的音質(zhì)變換所選擇的共振峰參數(shù)的參數(shù)變形裝置(67)。
18.如權(quán)利要求11的語(yǔ)音合成器,其特征在于包括用來(lái)平滑隨時(shí)間變化的共振峰參數(shù)的參數(shù)平滑裝置(77)。
全文摘要
一種語(yǔ)音合成方法,包括:根據(jù)音高模式、音位時(shí)長(zhǎng)、音位符號(hào)串從共振峰參數(shù)中選擇預(yù)定的共振峰參數(shù);基于所選擇的共振峰參數(shù)的共振峰頻率和共振峰相位生成多個(gè)正弦波波形;將正弦波波形分別乘以所選擇的共振峰參數(shù)的窗函數(shù)以生成多個(gè)共振峰波形;疊加共振峰波形以生成多個(gè)音高波形;以及根據(jù)音高周期抑制音高波形以生成語(yǔ)音信號(hào)。
文檔編號(hào)G10L13/06GK1378199SQ02108049
公開(kāi)日2002年11月6日 申請(qǐng)日期2002年3月26日 優(yōu)先權(quán)日2001年3月26日
發(fā)明者籠嶋岳彥, 赤嶺政巳 申請(qǐng)人:株式會(huì)社東芝