歌唱聲音合成方法

文檔序號(hào)：2822049閱讀：514來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：歌唱聲音合成方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種歌唱聲音的合成方法，歌唱聲音合成裝置，以及使用相位聲音合成器技術(shù)的存儲(chǔ)媒體。
背景技術(shù)：
傳統(tǒng)上，作為歌唱聲音合成技術(shù)，使用公知的美國專利No.5029509說明書所描述的譜模式合成(SMS)技術(shù)的歌唱聲音合成較為常見(例如，參見日本專利No2906970)。
圖21示出了采用日本專利申請(qǐng)No.2906970中所述技術(shù)的歌唱聲音合成裝置的流程圖。在步驟S1，輸入一個(gè)歌唱聲音信號(hào)，在步驟S2，輸入的歌唱聲音信號(hào)被進(jìn)行SMS分析處理和片段分割處理。
在SMS分析處理中，輸入的歌唱聲音信號(hào)被分成為一系列時(shí)間幀，對(duì)應(yīng)于每一幀，通過快速傅立葉變換(FFT)等生成一組量值譜數(shù)據(jù)，線性譜按每一幀與從一組量值譜數(shù)據(jù)獲得的多個(gè)峰值相對(duì)應(yīng)。代表這些線性譜的幅值和頻率的數(shù)據(jù)被稱為確定性成分(DeterministicComponent)。隨后，從輸入聲音波形的譜中減去該確定性成分的譜，以獲得一剩余差分譜。此剩余差分譜被稱為隨機(jī)成分(StochasticComponent)。
在片斷分割處理中，對(duì)應(yīng)于一聲音合成單元，確定成分?jǐn)?shù)據(jù)和由SMS分析處理所獲得隨機(jī)數(shù)據(jù)被分開。聲音合成單元是歌詞的結(jié)構(gòu)元素。例如，聲音合成單元由諸如[a]或[i]之類的單音素，或諸如[a_i]或[a_p]之類的音素鏈(一個(gè)多音素的鏈)所組成。
在聲音合成單元數(shù)據(jù)庫DB中，為每個(gè)聲音合成單元儲(chǔ)存著確定性成分?jǐn)?shù)據(jù)和隨機(jī)成分?jǐn)?shù)據(jù)。
在歌唱聲音合成中，在步驟S3，輸入歌詞數(shù)據(jù)和旋律數(shù)據(jù)。隨后，在步驟S4，對(duì)歌詞數(shù)據(jù)所代表的音素序列進(jìn)行音素序列/聲音合成單元轉(zhuǎn)換處理，從而將音素序列分割為聲音合成單元。而后，為每個(gè)聲音合成單元從數(shù)據(jù)庫DB中讀取確定性成分?jǐn)?shù)據(jù)和隨機(jī)成分?jǐn)?shù)據(jù)作為聲音合成單元數(shù)據(jù)。
在步驟S5，對(duì)從數(shù)據(jù)庫DB中讀取的聲音合成單元數(shù)據(jù)(確定性成分?jǐn)?shù)據(jù)和隨機(jī)成分?jǐn)?shù)據(jù))進(jìn)行聲音合成單元連接處理，從而將聲音合成單元數(shù)據(jù)以一定發(fā)音順序連接起來。在步驟S6，為每個(gè)聲音合成單元在確定性成分?jǐn)?shù)據(jù)和旋律數(shù)據(jù)所指定的音調(diào)音高基礎(chǔ)上，生成適合于該音調(diào)音高的新的確定性成分?jǐn)?shù)據(jù)。此時(shí)，如果接收到的譜密度被調(diào)整成在步驟S5確定性成分?jǐn)?shù)據(jù)所處理的頻譜包絡(luò)的形式，在步驟S1所輸入的聲音信號(hào)的音調(diào)就能夠通過新的確定性成分?jǐn)?shù)據(jù)復(fù)制出來。
在步驟S7，在每個(gè)聲音合成單元中，步驟S6所生成的確定性成分?jǐn)?shù)據(jù)被加到步驟S5所處理的隨機(jī)成分?jǐn)?shù)據(jù)上。而后，在步驟S8，在每個(gè)聲音合成單元中，步驟S7中被進(jìn)行加處理的數(shù)據(jù)，通過反快速傅立葉變化(FFT)等轉(zhuǎn)換成時(shí)域內(nèi)合成的聲音信號(hào)。
例如，為了合成歌唱聲音[saita]，需要從數(shù)據(jù)庫DB中讀取對(duì)應(yīng)于[#s]，[s_a]，[a]，[a_i]，[l]，[i_t]，[a]，[a#](#代表靜音)的聲音合成單元，并將它們?cè)诓襟ES5中相互連接起來。而后，在步驟S6，在每個(gè)聲音合成單元中，生成具有對(duì)應(yīng)于輸入音調(diào)音高的確定性成分?jǐn)?shù)據(jù)。在步驟S7的疊加過程和步驟S8的轉(zhuǎn)換過程之后，就可獲得[saita]的歌唱聲音信號(hào)。
根據(jù)上述現(xiàn)有技術(shù)，確定性成分與隨機(jī)成分之間的一致性趨向并不能令人滿意。更準(zhǔn)確的說，因?yàn)樵诓襟ES1輸入的聲音信號(hào)音高根據(jù)步驟S6的輸入音調(diào)音高進(jìn)行轉(zhuǎn)換，而且隨機(jī)成分?jǐn)?shù)據(jù)與轉(zhuǎn)換后的音高在步驟S7一起加到確定性成分?jǐn)?shù)據(jù)中，從而使得歌唱的聲音具有類似人工聲音的趨勢(shì)。例如，在發(fā)[saita]中[i]這樣的長(zhǎng)音時(shí)，隨機(jī)成分?jǐn)?shù)據(jù)所發(fā)出的聲音就被分割開。
為了消除這種趨向，本發(fā)明的發(fā)明人建議將隨機(jī)成分?jǐn)?shù)據(jù)所代表的較弱區(qū)域的振幅譜分布根據(jù)先前輸入的音調(diào)音高進(jìn)行調(diào)整(參考日本專利申請(qǐng)2000-401041)。然而，如果根據(jù)上述方法調(diào)整隨機(jī)成分?jǐn)?shù)據(jù)，隨機(jī)成分的分割和回響就較難完全控制。
同樣，在SMS技術(shù)中，分析摩擦音和爆破音非常困難，合成的聲音將會(huì)非常人工化。SMS技術(shù)基于聲音信號(hào)完全由確定性成分和隨機(jī)成分組成的假設(shè)，根據(jù)SMS技術(shù)，其基本的問題在于聲音信號(hào)并不能夠分割為確定性成分和隨機(jī)成分。
另一方面，相位聲碼器(vocoder)技術(shù)在美國專利No.3360610的說明書中進(jìn)行了描述。在相位聲碼器技術(shù)中，信號(hào)以往由濾波器組所代表，目前由作為輸入信號(hào)的快速傅立葉變換結(jié)果的頻率范圍所代表。目前，相位聲碼器技術(shù)廣泛的應(yīng)用于時(shí)間延展(不改變?cè)家舾叨诱够驂嚎s時(shí)間軸)，音高變換(不改變時(shí)間長(zhǎng)度而改變音高)等。在這種音高變換技術(shù)中，輸入信號(hào)的快速傅立葉變化結(jié)果并沒有按其原本形式被采用。眾所周知，音高變換是在將FFT譜分割為局部峰值周圍的多個(gè)譜分布后，通過在每個(gè)譜分布區(qū)域頻率軸上移動(dòng)譜分布而實(shí)現(xiàn)的(例如，參考J.Laroche與M.Dolson發(fā)表于J.Audio Eng.Soc.1999年11期47卷上的“用于實(shí)時(shí)音高變換，合唱，和聲與其他外來聲音修正的新相位合成器技術(shù)”)。然而，音高變換技術(shù)與歌唱聲音合成技術(shù)之間的關(guān)聯(lián)并不明確。

發(fā)明內(nèi)容
本發(fā)明的目的是提供通過使用相位聲碼器技術(shù)和存儲(chǔ)媒體以實(shí)現(xiàn)自然和高質(zhì)量聲音合成的新的歌唱聲音合成方法和裝置。
根據(jù)本發(fā)明的一個(gè)方面，提供一種歌唱聲音合成方法，該方法包括下列步驟(a)通過分析對(duì)應(yīng)于要被合成聲音的聲音合成單元的聲音波形頻率，檢測(cè)頻譜；(b)檢測(cè)該頻譜上譜密度的多個(gè)局部峰值；(c)為多個(gè)局部峰值中的每一個(gè)指定包括局部峰值和頻譜上前和后譜的譜分布區(qū)域；和相對(duì)每個(gè)譜分布區(qū)域，生成表示依頻率軸而定的振幅譜分布的振幅譜數(shù)據(jù)；(d)相對(duì)每個(gè)譜分布區(qū)域，生成表示依頻率軸而定的相位譜分布的相位譜數(shù)據(jù)；(e)為要被合成的聲音指定音高；(f)相對(duì)每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，從而根據(jù)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)所代表的振幅譜分布；(g)相對(duì)每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整，對(duì)由相位譜數(shù)據(jù)所代表的相位譜分布進(jìn)行調(diào)整；和(h)將調(diào)整后的振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)。
根據(jù)第一歌唱聲音合成方法，對(duì)聲音合成單元(音素或者音素鏈)相對(duì)應(yīng)的聲音波形進(jìn)行頻率分析，和對(duì)頻譜進(jìn)行檢測(cè)。而后，以頻譜為基礎(chǔ)生成振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)。當(dāng)指定需要的音高后，根據(jù)指定的音高調(diào)整振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)，以調(diào)整后的振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)為基礎(chǔ)生成時(shí)域內(nèi)的合成聲音信號(hào)。因?yàn)樵诼曇艉铣傻倪^程中，無需將聲音波形的頻率分析結(jié)果分割為確定性成分和隨機(jī)成分，所以隨機(jī)成分可以不用分割和回響。從而，能夠獲得自然的合成聲音。此外，摩擦音和爆破音也可以獲得自然的合成聲音。
根據(jù)本發(fā)明的另一個(gè)方面，提供一種歌唱聲音合成方法，該方法包括下列步驟(a)對(duì)應(yīng)于要被合成的聲音的一個(gè)合成單元獲得振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)，其中該振幅譜數(shù)據(jù)是表示依每個(gè)譜分布區(qū)域的頻率軸而定的振幅譜分布的數(shù)據(jù)，譜密度的多個(gè)局部峰值中的每一個(gè)包括該峰值和通過對(duì)聲音合成單元的聲音波形的頻率分析獲得的在一頻譜前和后的譜，所述相位譜數(shù)據(jù)是表示依每個(gè)譜分布區(qū)域的頻率軸而定的相位譜分布的數(shù)據(jù)；(b)為要被合成的聲音指定音高；(c)相對(duì)每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，用以根據(jù)音調(diào)沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)表示的振幅譜分布；(d)相對(duì)每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整，對(duì)由相位譜數(shù)據(jù)表示的相位譜分布進(jìn)行調(diào)整；和(e)將調(diào)整的振幅譜數(shù)據(jù)和調(diào)整的相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)第二歌唱聲音合成方法對(duì)應(yīng)于在執(zhí)行至生成相位譜數(shù)據(jù)步驟之后，振幅譜數(shù)據(jù)與相位譜數(shù)據(jù)按每個(gè)聲音合成單元存儲(chǔ)在數(shù)據(jù)庫中的情況，或者至生成相位譜數(shù)據(jù)之后的過程由其他裝置完成的情況。具體的說，在第二歌唱聲音合成方法中，在獲取步驟，從其他裝置或者數(shù)據(jù)庫獲得對(duì)應(yīng)于要被合成聲音的聲音合成單元的振幅譜數(shù)據(jù)與相位譜數(shù)據(jù)，指定音高步驟后的過程與第一歌唱聲音合成方法相同。因此，根據(jù)第二歌唱聲音合成方法，能夠獲得與第一歌唱聲音合成方法相同的自然合成聲音。
根據(jù)本發(fā)明的另一方面，提供一種歌唱聲音合成裝置，該裝置包括為每個(gè)要被合成的聲音指定聲音合成單元和音高的指定裝置；從聲音合成單元數(shù)據(jù)庫中讀取表示對(duì)應(yīng)于聲音合成單元波形的聲音波形數(shù)據(jù)，作為聲音合成單元數(shù)據(jù)的讀取裝置；通過分析由聲音波形數(shù)據(jù)所表示的聲音波形的頻率，以檢測(cè)頻譜的第一檢測(cè)裝置；檢測(cè)頻譜上譜密度的多個(gè)局部峰值的第二檢測(cè)裝置；相對(duì)多個(gè)局部峰值的每一個(gè)，指定包括局部峰值和頻譜上前后譜的譜分布區(qū)域，并為每個(gè)譜分布區(qū)域生成代表依頻率軸而定的振幅譜分布的振幅譜數(shù)據(jù)的第一生成裝置；相對(duì)每個(gè)譜分布區(qū)域，生成依頻率軸而定的相位譜分布的相位譜數(shù)據(jù)的第二生成裝置；相對(duì)每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，用以根據(jù)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)所表示的振幅譜分布的第一調(diào)整裝置；相對(duì)每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整，對(duì)由相位譜數(shù)據(jù)所表示的相位譜分布進(jìn)行調(diào)整的第二調(diào)整裝置；將調(diào)整后的振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)的轉(zhuǎn)換裝置。
根據(jù)本發(fā)明的另一方面，提供一個(gè)歌唱聲音合成裝置，該裝置包括為每個(gè)要被合成的聲音指定聲音合成單元和音高的指定裝置；從聲音合成單元數(shù)據(jù)庫中讀取表示對(duì)應(yīng)于聲音合成單元波形的聲音波形數(shù)據(jù)，作為聲音合成單元數(shù)據(jù)的讀取裝置，其中該振幅譜數(shù)據(jù)是表示依每個(gè)譜分布區(qū)域的頻率軸而定的振幅譜分布的數(shù)據(jù)，譜密度的多個(gè)局部峰值中的每一個(gè)包括該峰值和通過對(duì)聲音合成單元的聲音波形的頻率分析獲得的在一頻譜前的后的譜，所述相位譜數(shù)據(jù)是表示依每個(gè)譜分布區(qū)域的頻率軸而定的相位譜分布的數(shù)據(jù)；相對(duì)每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，用以根據(jù)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)所代表的振幅譜分布的第一調(diào)整裝置；相對(duì)每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整，調(diào)整由相位譜數(shù)據(jù)所代表的相位譜分布的第二調(diào)整裝置；將調(diào)整后的振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)的轉(zhuǎn)換裝置。
第一和第二歌唱聲音合成裝置通過使用聲音合成單元數(shù)據(jù)庫執(zhí)行前述的第一和第二歌唱聲音合成方法，從而獲得自然的歌唱合成聲音。
根據(jù)本發(fā)明的又一個(gè)方面，提供一種歌唱聲音合成裝置，該裝置包括為每個(gè)要被順序合成的聲音指定聲音合成單元和音高的指定裝置；從聲音合成單元數(shù)據(jù)庫中讀取對(duì)應(yīng)于指定裝置所指定的每個(gè)聲音合成單元的聲音波形數(shù)據(jù)的讀取裝置；通過分析對(duì)應(yīng)于每個(gè)聲音波形的聲音波形頻率，以檢測(cè)頻譜的第一檢測(cè)裝置；檢測(cè)對(duì)應(yīng)于每個(gè)聲音波形頻譜的譜密度的多個(gè)局部峰值的第二檢測(cè)裝置；相對(duì)每個(gè)聲音合成單元的多個(gè)局部峰值中的每一個(gè)，指定包括局部峰值和頻譜上前后譜的譜分布區(qū)域，并相對(duì)每個(gè)譜分布區(qū)域生成代表依頻率軸而定的振幅譜分布的振幅譜數(shù)據(jù)的第一生成裝置；相對(duì)每個(gè)聲音合成單元的每個(gè)譜分布區(qū)域，生成代表依頻率軸而定的相位譜分布的相位譜數(shù)據(jù)的第二生成裝置；相對(duì)每個(gè)聲音合成單元的每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，用以根據(jù)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)所代表的振幅譜分布的第一調(diào)整裝置；相對(duì)每個(gè)聲音合成單元的每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整，調(diào)整由相位譜數(shù)據(jù)所代表的相位譜分布的第二調(diào)整裝置；將調(diào)整后的振幅譜數(shù)據(jù)根據(jù)要被順序合成的聲音的發(fā)音序列，連接到相應(yīng)的順序聲音合成單元的第一連接裝置，其中在順序聲音合成單元的連接點(diǎn)上，各譜密度被調(diào)整到相互一致或者近似一致；將調(diào)整后的相位譜數(shù)據(jù)根據(jù)要被順序合成的聲音的發(fā)音序列，連接到相應(yīng)的順序聲音合成單元的第二連接裝置，其中在順序聲音合成單元的連接點(diǎn)上，各相位被調(diào)整到相互一致或者近似一致；將連接后的振幅譜數(shù)據(jù)和連接后的相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)的轉(zhuǎn)換裝置。
根據(jù)本發(fā)明的另一個(gè)方面，提供一種歌唱聲音合成裝置，該裝置包括為每個(gè)要被順序合成的聲音指定聲音合成單元和音高的指定裝置；從聲音合成單元數(shù)據(jù)庫中讀取對(duì)應(yīng)于指定裝置所指定的每個(gè)聲音合成單元的聲音波形數(shù)據(jù)的讀取裝置，其中該振幅譜數(shù)據(jù)是表示依每個(gè)譜分布區(qū)域的頻率軸而定的振幅譜分布的數(shù)據(jù)，譜密度的多個(gè)局部峰值中的每一個(gè)包括該峰值和通過對(duì)聲音合成單元的聲音波形的頻率分析獲得的在一頻譜前后的譜，所述相位譜數(shù)據(jù)是表示依每個(gè)譜分布區(qū)域的頻率軸而定的相位譜分布的數(shù)據(jù)；相對(duì)每個(gè)聲音合成單元的每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，用以根據(jù)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)所代表的振幅譜分布的第一調(diào)整裝置；相對(duì)每個(gè)聲音合成單元的每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整，調(diào)整由相位譜數(shù)據(jù)所代表的相位譜分布的第二調(diào)整裝置；將調(diào)整后的振幅譜數(shù)據(jù)根據(jù)被順序合成的聲音的發(fā)音序列，連接到相應(yīng)的順序聲音合成單元的第一連接裝置，其中在順序聲音合成單元的連接點(diǎn)上，各譜密度被調(diào)整到相互一致或者近似一致；將調(diào)整后的相位譜數(shù)據(jù)根據(jù)被順序合成的聲音的發(fā)音序列，連接到相應(yīng)的順序聲音合成單元的第二連接裝置，其中在順序聲音合成單元的連接點(diǎn)上，各相位被調(diào)整到相互一致或者近似一致；將連接后的振幅譜數(shù)據(jù)和連接后相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)的轉(zhuǎn)換裝置。
第三和第四歌唱聲音合成裝置通過使用聲音合成數(shù)據(jù)庫來執(zhí)行前述的第一或第二歌唱聲音合成方法，從而獲得自然的歌唱合成聲音。此外，在以一定的發(fā)音序列連接聲音合成單元的過程中，在連接要被修改的振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)時(shí)，順序聲音合成單元的連接部的譜密度與相位被調(diào)整到相互一致或者近似一致；因而，就能夠防止在生成合成聲音時(shí)產(chǎn)生噪音。
根據(jù)本發(fā)明，振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)以對(duì)應(yīng)于聲音合成單元的聲音波形的頻率分析結(jié)果為基礎(chǔ)而生成，而且根據(jù)指定的音高被進(jìn)行調(diào)整。然后，因?yàn)楹铣陕曇粜盘?hào)以調(diào)整后的振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)為基礎(chǔ)而生成，傳統(tǒng)實(shí)例中因頻率分析結(jié)果被分割為確定性成分和隨機(jī)成分而導(dǎo)致的隨機(jī)成分分割和回響的情況原則上不會(huì)發(fā)生，因而能夠獲得自然或高質(zhì)量歌唱聲音合成的效果。

圖1是顯示根據(jù)本發(fā)明一個(gè)實(shí)施例的歌唱聲音合成裝置電路結(jié)構(gòu)的方框圖。
圖2是顯示一個(gè)歌唱聲音分析過程實(shí)例的流程圖。
圖3是顯示聲音合成單元數(shù)據(jù)庫存儲(chǔ)狀態(tài)的圖表。
圖4是顯示一個(gè)歌唱聲音合成過程實(shí)例的流程圖。
圖5是顯示圖4中的步驟76轉(zhuǎn)換過程實(shí)例的流程圖。
圖6是顯示另一個(gè)歌唱聲音分析過程實(shí)例的流程圖。
圖7是顯示另一個(gè)歌唱聲音合成過程實(shí)例的流程圖。
圖8A是顯示輸入聲音信號(hào)作為分析目標(biāo)的波形圖。圖8B是顯示頻率分析結(jié)果的頻譜圖。
圖9A是顯示音高變換前譜分布區(qū)域點(diǎn)的頻譜圖。圖9B是顯示音高變換后譜分布區(qū)域點(diǎn)的頻譜圖。
圖10A是顯示音高變換前振幅譜和相位譜分布的圖表。圖10B是顯示音高變換后振幅譜和相位譜分布的圖表。
圖11是解釋音高被調(diào)低時(shí)譜分布指定過程的圖表。
圖12A是顯示音高變化前局部峰值點(diǎn)和頻譜包絡(luò)的圖表。圖12B是顯示音高變化后局部峰值點(diǎn)和頻譜包絡(luò)的圖表。
圖13是顯示一個(gè)頻譜包絡(luò)線實(shí)例的圖表。
圖14是顯示音高變換過程和長(zhǎng)音音調(diào)調(diào)整過程的方框圖。
圖15是顯示一個(gè)長(zhǎng)音音調(diào)調(diào)整過程實(shí)例的方框圖。
圖16是顯示另一個(gè)長(zhǎng)音音調(diào)調(diào)整過程實(shí)例的方框圖。
圖17是解釋頻譜包絡(luò)模型化的圖表。
圖18是解釋在連接聲音合成單元時(shí)出現(xiàn)的音調(diào)與等級(jí)不匹配的圖表。
圖19是解釋平滑過程的圖表。
圖20是解釋等級(jí)調(diào)整的圖表。
圖21是顯示一個(gè)傳統(tǒng)歌唱聲音合成過程實(shí)例的方框圖。
具體實(shí)施例方式
圖1是顯示根據(jù)本發(fā)明一個(gè)實(shí)施例的歌唱聲音合成裝置電路結(jié)構(gòu)的方框圖。此歌唱聲音合成裝置具有小型計(jì)算機(jī)10控制操作的結(jié)構(gòu)。
中央處理單元(CPU)12，只讀存儲(chǔ)器(ROM)14，隨機(jī)存取存儲(chǔ)器(RAM)16，歌唱聲音輸入單元17，歌詞/旋律輸入單元18，控制參數(shù)輸入單元20，外部存儲(chǔ)單元22，顯示單元24，定時(shí)器26，數(shù)/模(D/A)轉(zhuǎn)換單元28，樂器數(shù)字(MIDI)接口30，通信接口32等都連接到總線11。
中央處理單元(CPU)根據(jù)儲(chǔ)存于ROM14中的程序，執(zhí)行各種與歌唱聲音合成相關(guān)的處理。與歌唱聲音合成相關(guān)的各種處理將隨后參照?qǐng)D2至7等進(jìn)行解釋。
RAM16包括了各種不同的存儲(chǔ)區(qū)域，例如在CPU12中的各種處理的時(shí)的工作區(qū)域。作為根據(jù)本發(fā)明實(shí)施例的存儲(chǔ)區(qū)域，例如，輸入數(shù)據(jù)儲(chǔ)存區(qū)域分別對(duì)應(yīng)于輸入單元17，18和20。隨后將詳細(xì)解釋。
歌唱聲音輸入單元17包含有一麥克風(fēng)，和用于輸入歌唱聲音信號(hào)的聲音輸入終端等等，并配備有數(shù)/模轉(zhuǎn)換(D/A)裝置，用以將輸入歌唱聲音信號(hào)轉(zhuǎn)換成數(shù)字波形數(shù)據(jù)。被輸入的數(shù)字波形數(shù)據(jù)存儲(chǔ)于RAM16的預(yù)定區(qū)域。
歌詞/旋律輸入單元18配備有用以輸入字符和數(shù)字的鍵盤，和能夠讀取樂譜的讀取裝置。它能夠輸入表示構(gòu)成歌詞數(shù)據(jù)的一系列音符(包括休止符)的旋律數(shù)據(jù)，和表示構(gòu)成所需歌唱聲音歌詞的音素序列的旋律。被輸入的歌詞數(shù)據(jù)和旋律數(shù)據(jù)存儲(chǔ)于RAM16的預(yù)定區(qū)域。
控制參數(shù)輸入單元20配備有諸如開關(guān)和音量調(diào)節(jié)器等的參數(shù)設(shè)定裝置，能夠設(shè)定控制合成歌唱聲音放送的控制參數(shù)。音調(diào)，音高等級(jí)(高，中，低等)，音高脈動(dòng)(throb)(彎音輪(pitch bend)，顫音等)，動(dòng)態(tài)等級(jí)(高，中，低等音量)，節(jié)拍等級(jí)(快，中，慢節(jié)拍)等都能夠被設(shè)定為控制參數(shù)。代表被設(shè)定的控制參數(shù)的控制參數(shù)數(shù)據(jù)存儲(chǔ)于RAM16的預(yù)定區(qū)域。
外部存儲(chǔ)單元22包括一種或者多種類型的可移動(dòng)存儲(chǔ)媒體，例如軟盤(FD)，密致盤(CD)，數(shù)字多能盤(DVD)，磁光盤(MO)等等。當(dāng)外部存儲(chǔ)單元22裝載有所需的存儲(chǔ)媒體時(shí)，數(shù)據(jù)能夠從存儲(chǔ)媒體傳送到RAM16。當(dāng)裝載的存儲(chǔ)媒體是可復(fù)寫式的硬盤(HD)和軟盤(FD)時(shí)，數(shù)據(jù)能夠從RAM16傳送到存儲(chǔ)媒體。
外部存儲(chǔ)單元的存儲(chǔ)媒體能夠用來替代ROM14作為程序存儲(chǔ)單元。在這種情況下，存儲(chǔ)于存儲(chǔ)媒體的程序由外部存儲(chǔ)單元22傳送到RAM16。而后，CPU根據(jù)RAM16所儲(chǔ)存的程序執(zhí)行操作。通過這種方法能夠輕易的完成程序附加和版本升級(jí)。
顯示單元24包括諸如液晶顯示器等的顯示裝置，能夠顯示例如前述的頻率分析結(jié)果等的多種類型信息。
定時(shí)器26根據(jù)節(jié)拍數(shù)據(jù)TM所指定的節(jié)拍周期生成節(jié)拍時(shí)鐘信號(hào)TCL，節(jié)拍時(shí)鐘信號(hào)TCL被提供給中央處理單元CPU12。CPU12根據(jù)節(jié)拍時(shí)鐘信號(hào)TCL對(duì)數(shù)/模轉(zhuǎn)換單元28執(zhí)行信號(hào)輸出處理。節(jié)拍數(shù)據(jù)TM所指定的節(jié)拍能夠通過輸入單元20內(nèi)的節(jié)拍設(shè)定裝置改變?cè)O(shè)定。
數(shù)/模轉(zhuǎn)換單元28將合成的數(shù)字聲音信號(hào)轉(zhuǎn)換成模擬聲音信號(hào)。由數(shù)/模轉(zhuǎn)換單元28所傳送的模擬聲音信號(hào)通過諸如放大器，揚(yáng)聲器等的音響系統(tǒng)34，轉(zhuǎn)換成音頻聲音。
MIDI接口30向獨(dú)立于此歌唱聲音合成裝置的MIDI裝置36執(zhí)行MIDI通信，并用于從本發(fā)明中的MIDI裝置36接收歌唱聲音合成數(shù)據(jù)。作為歌唱聲音合成數(shù)據(jù)，接收到的數(shù)據(jù)包括所需歌唱聲音的歌詞數(shù)據(jù)和旋律數(shù)據(jù)，以及控制音樂放送的控制參數(shù)數(shù)據(jù)。這些歌唱聲音合成數(shù)據(jù)根據(jù)MIDI格式生成，MIDI格式更加適合由數(shù)據(jù)單元18所輸入的歌詞數(shù)據(jù)和旋律數(shù)據(jù)，以及由輸入單元20所輸入的控制參數(shù)數(shù)據(jù)。
至于經(jīng)MIDI接口30所接收的歌詞數(shù)據(jù)、旋律數(shù)據(jù)和控制參數(shù)數(shù)據(jù)，可由制造商定義的具有專用格式的MIDI系統(tǒng)專用數(shù)據(jù)能夠先于其他數(shù)據(jù)被讀取。同樣，相對(duì)于由輸入單元20所輸入的控制參數(shù)數(shù)據(jù)和由MIDI接口30所接收的控制參數(shù)數(shù)據(jù)，當(dāng)為每個(gè)歌手(或音調(diào))將聲音合成單元數(shù)據(jù)儲(chǔ)存到后面所述的數(shù)據(jù)庫時(shí)，需要使用一歌手(或音調(diào))指定參數(shù)。在這種情況下，相對(duì)于歌手(或音調(diào))指定數(shù)據(jù)，需要使用MIDI程序變更數(shù)據(jù)。
通信接口32通過通信網(wǎng)絡(luò)(例如局域網(wǎng)，互聯(lián)網(wǎng)和電話線)37向另一電腦38提供數(shù)據(jù)通信。執(zhí)行本發(fā)明所需的各種程序和數(shù)據(jù)(例如歌詞數(shù)據(jù)，旋律數(shù)據(jù)，聲音合成單元數(shù)據(jù)等)能夠根據(jù)下載要求通過通信網(wǎng)絡(luò)37由計(jì)算機(jī)38加載到RAM16或者外部存儲(chǔ)單元22。
以下參照?qǐng)D2介紹一個(gè)歌唱聲音合成過程實(shí)例。在步驟40，對(duì)由麥克風(fēng)或者聲音輸入終端輸入到輸入單元17的歌唱聲音信號(hào)進(jìn)行A/D轉(zhuǎn)換，表示輸入信號(hào)聲音波形的數(shù)字波形數(shù)據(jù)被儲(chǔ)存于RAM16。圖8A示出了一個(gè)輸入聲音波形的實(shí)例。此外，在圖8A以及其他圖表中的“t”代表時(shí)間。
在步驟42，對(duì)要被儲(chǔ)存的數(shù)字波形數(shù)據(jù)(分割數(shù)字波形數(shù)據(jù))，將對(duì)應(yīng)于每個(gè)聲音合成單元(音素或者音素鏈)的每個(gè)片斷分割成片斷波形。對(duì)于聲音合成單元，存在著元音音素，元音與輔音或者輔音與元音音素鏈，輔音與輔音音素鏈，元音與元音音素鏈，靜音與輔音或元音音素鏈，元音或輔音與靜音音素鏈等。對(duì)于元音音素，還存在著延長(zhǎng)元音發(fā)音的長(zhǎng)音音素。例如，對(duì)于歌唱聲音[saita]，片斷波形與[#s]，[a]，[a_i]，[l]，[i_t]，[a]，[a#]中的每一個(gè)相對(duì)應(yīng)被分割開。
在步驟44，一個(gè)或者多個(gè)時(shí)間幀被每個(gè)片斷波形所固定，對(duì)每幀通過快速傅立葉變換(FFT)進(jìn)行頻率分析，從而獲得頻譜(振幅譜和相位譜)。而后，代表頻譜的數(shù)據(jù)被儲(chǔ)存于RAM16的預(yù)定區(qū)域。每幀的長(zhǎng)度是固定或者可變的。為了使時(shí)間幀的長(zhǎng)度可變，在以固定長(zhǎng)度對(duì)一幀進(jìn)行完頻率分析后，通過頻率分析結(jié)果檢測(cè)到一個(gè)音高，對(duì)應(yīng)于檢測(cè)到的音高的幀長(zhǎng)度被設(shè)定后，對(duì)此幀可再次進(jìn)行頻率分析。在另外一種情況下，以固定長(zhǎng)度對(duì)一幀進(jìn)行完頻率分析后，通過頻率分析結(jié)果檢測(cè)到一個(gè)音高，對(duì)應(yīng)于檢測(cè)到的音高的下一幀長(zhǎng)度被設(shè)定，而后再對(duì)下一幀進(jìn)行頻率分析。由元音構(gòu)成的單音素，幀的數(shù)量可以是一或者多幀；而對(duì)音素鏈，則是多幀。圖8B示出對(duì)圖8A中聲音波形運(yùn)算快速傅立葉變換(FFT)執(zhí)行頻率分析后所獲得的頻譜。此外，在圖8B和其他圖表中的“f”代表頻率。
而后，在步驟46，聲音合成單元在振幅譜基礎(chǔ)上檢測(cè)到一個(gè)音高，生成代表檢測(cè)到的音高的音高數(shù)據(jù)，該數(shù)據(jù)儲(chǔ)存于RAM16的預(yù)定區(qū)域。音高檢測(cè)通過每幀所獲得音高的所有幀的取平均法進(jìn)行。
在步驟48，按每幀檢測(cè)振幅譜的譜密度(振幅)的多個(gè)局部峰值。為了檢測(cè)局部峰值，可使用從續(xù)多個(gè)峰值(例如4個(gè))檢測(cè)振幅值最大的峰值的方法。在圖8B中，示出了檢測(cè)到的多個(gè)局部峰值P1，P2，P3.....。
在步驟50，指定對(duì)應(yīng)于振幅譜的每幀的每個(gè)局部峰值的譜分布區(qū)域，依頻率軸而定的代表振幅譜分布區(qū)域的振幅譜數(shù)據(jù)儲(chǔ)存在RAM16的預(yù)定區(qū)域。指定譜分布區(qū)域的方法包括，一種方法是將在兩個(gè)相鄰局部峰值之間分開的每一半頻率軸分配給包括更接近該半軸的局部峰值的譜分布區(qū)域；另一種方法是將兩個(gè)局部峰值之間振幅最低處設(shè)為底部，該底部的頻率作為相鄰譜分布區(qū)域的邊界。圖8B示出了前一種方法的實(shí)例，其中譜分布區(qū)域R1，R2，R3......分別被分配給局部峰值P1，P2，P3......。
在步驟52，生成代表基于相位譜的每一幀依頻率軸而定的每個(gè)譜分布的相位分布的相位譜數(shù)據(jù)，該數(shù)據(jù)儲(chǔ)存在RAM16的預(yù)定區(qū)域。在圖10A中，一個(gè)譜分布區(qū)域的一幀的振幅譜分布和相位譜分布分別由曲線AM1和PH1示出。
在步驟54，每個(gè)聲音合成單元將音高數(shù)據(jù)，振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)儲(chǔ)存到聲音合成單元數(shù)據(jù)庫中。RAM16或者外部存儲(chǔ)器22都可以被用作聲音合成單元數(shù)據(jù)庫。
圖3示出了一個(gè)聲音合成單元數(shù)據(jù)庫DBS存儲(chǔ)狀態(tài)的實(shí)例。各對(duì)應(yīng)于諸如[a]，[i]等單音素的聲音合成單元，與各對(duì)應(yīng)于諸如[a_i]，[s_a]等音素鏈的聲音合成單元被儲(chǔ)存在數(shù)據(jù)庫DBS中。在步驟54，音高數(shù)據(jù)，振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)被儲(chǔ)存為聲音合成單元數(shù)據(jù)。
在儲(chǔ)存聲音合成單元數(shù)據(jù)時(shí)，通過儲(chǔ)存每個(gè)具有不同于其他聲音合成單元的歌手(音調(diào))、音高等級(jí)、動(dòng)態(tài)等級(jí)和節(jié)拍等級(jí)的聲音合成單元數(shù)據(jù)，能夠合成自然(或高質(zhì)量)的歌唱聲音。例如，對(duì)聲音合成單元[a]，通過讓歌手A在節(jié)拍等級(jí)“慢”，“中”，“快”，音高等級(jí)“高”，“中”，“低”和動(dòng)態(tài)等級(jí)“大”，“中”，“小”的所有組合下演唱，紀(jì)錄下當(dāng)音高等級(jí)為“低”，動(dòng)態(tài)等級(jí)為“小”時(shí)的對(duì)應(yīng)于節(jié)拍等級(jí)“慢”，“中”和“快”的聲音合成單元數(shù)據(jù)M1，M2，M3。對(duì)應(yīng)于其他組合的聲音合成數(shù)據(jù)也通過同樣方式紀(jì)錄。步驟46所生成的音高數(shù)據(jù)用來判定聲音合成單元數(shù)據(jù)屬于“高”，“中”，“低”音高等級(jí)中的哪一個(gè)。
對(duì)于與歌手A具有不同聲音的歌手B，通過讓歌手B用類似于前述的歌手A的方法進(jìn)行演唱，而將具有不同音高等級(jí)，動(dòng)態(tài)等級(jí)和音高等級(jí)的多種聲音合成單元數(shù)據(jù)紀(jì)錄于數(shù)據(jù)庫DBS。同樣，不同于[a]的聲音合成單元也通過前述的方式紀(jì)錄。
盡管在前述的實(shí)例中，聲音合成單元數(shù)據(jù)根據(jù)輸入單元17所輸入的歌唱聲音信號(hào)所生成，聲音合成單元數(shù)據(jù)也能夠根據(jù)接口30和32所輸入的歌唱聲音信號(hào)所生成。此外，數(shù)據(jù)庫DBS不僅能被儲(chǔ)存于RAM16或外部存儲(chǔ)單元22，還能夠被儲(chǔ)存于ROM14，MIDI裝置36的存儲(chǔ)單元和計(jì)算機(jī)38的存儲(chǔ)單元等處。
圖4示出了一個(gè)歌唱聲音合成過程的實(shí)例。在步驟60，所需歌曲的歌詞數(shù)據(jù)和旋律數(shù)據(jù)從輸入單元18輸入并被儲(chǔ)存于RAM16。歌詞數(shù)據(jù)和旋律數(shù)據(jù)也能夠通過接口30和32輸入。
在步驟62，對(duì)應(yīng)于輸入的歌詞數(shù)據(jù)的音素序列被轉(zhuǎn)換成單獨(dú)的聲音合成單元。其后，在步驟64，對(duì)應(yīng)于每個(gè)聲音合成單元的聲音合成單元數(shù)據(jù)(音高數(shù)據(jù)，振幅譜數(shù)據(jù)和相位數(shù)據(jù))被從數(shù)據(jù)庫DBS中讀取出來。在步驟64，音色，音高等級(jí)，動(dòng)態(tài)等級(jí)和節(jié)拍等級(jí)等能夠通過輸入單元20輸入作為控制參數(shù)，和與由該數(shù)據(jù)指向的控制參數(shù)對(duì)應(yīng)的聲音合成單元數(shù)據(jù)。
此外，聲音合成單元的發(fā)音持續(xù)時(shí)間對(duì)應(yīng)于聲音合成單元數(shù)據(jù)的數(shù)量。也就是說，當(dāng)不加修改地使用儲(chǔ)存的聲音合成單元數(shù)據(jù)進(jìn)行聲音合成時(shí)，能夠獲得對(duì)應(yīng)于聲音合成單元數(shù)據(jù)的數(shù)量的發(fā)音持續(xù)時(shí)間。然而，依靠音調(diào)持續(xù)時(shí)間(輸入音調(diào)長(zhǎng)度)和節(jié)拍設(shè)定等的發(fā)音持續(xù)時(shí)間并不合適，需要調(diào)整發(fā)音持續(xù)時(shí)間。為了滿足此種需要，聲音合成單元數(shù)據(jù)的讀取幀數(shù)量能夠根據(jù)輸入音調(diào)長(zhǎng)度和節(jié)拍設(shè)定等進(jìn)行控制。
例如，為了縮短聲音合成單元的發(fā)音持續(xù)時(shí)間，讀取聲音合成單元數(shù)據(jù)時(shí)將跳過一部分幀。同樣，為了延長(zhǎng)聲音合成單元的發(fā)音持續(xù)時(shí)間，將重復(fù)讀取聲音合成單元數(shù)據(jù)。此外，當(dāng)合成諸如[a]的單音素長(zhǎng)音時(shí)，發(fā)音持續(xù)時(shí)間往往被修改。長(zhǎng)音的合成將在后面參照?qǐng)D14到16詳細(xì)解釋。
在步驟66，根據(jù)每個(gè)聲音合成單元的輸入音調(diào)音高調(diào)整每幀的振幅譜數(shù)據(jù)。也就是說，每個(gè)譜分布區(qū)域的由振幅譜數(shù)據(jù)所代表的振幅譜分布將在頻率軸上移動(dòng)，從而生成對(duì)應(yīng)于輸入音調(diào)音高的音高。
圖10A和圖10B示出了一個(gè)為升高具有局部峰值頻率fi的譜分布區(qū)域的音高，而將譜分布區(qū)域由AM1移動(dòng)到AM2的實(shí)例，低和高限頻率分別為fi和fu。
在這種情況下，對(duì)于譜分布AM2，局部峰值的頻率為Fi＝T，fi，音高轉(zhuǎn)換率為T＝Fi/fi。同樣，低限頻率Fi和高限頻率Fu由相應(yīng)的每個(gè)頻率偏差“fi-fi”和“fu-fi”所決定。
圖9A示出了具有對(duì)應(yīng)于局部峰值P1，P2，P3的譜分布區(qū)域R1，R2，R3(同圖8B所示)，圖9B示出了一個(gè)向頻率軸上高音調(diào)方向移動(dòng)譜分布區(qū)域的實(shí)例。在圖9B中所示的譜分布區(qū)域R1中，局部峰值P1的頻率，低限頻率f11和高限頻率f12都通過前面參照?qǐng)D10所述的相同方法所決定。它同樣可以應(yīng)用于其他的譜分布區(qū)域。
盡管在前述的實(shí)例中，譜分布區(qū)域?yàn)榱松咭舾叨蝾l率軸的高音高方向移動(dòng)，其也能夠向頻率軸的低音高方向移動(dòng)用以降低音高。在這種情況下，圖11示出了部分重疊的兩個(gè)譜分布區(qū)域Ra和Rb。
在圖11所示的實(shí)例中，局部峰值Pb和對(duì)譜分布區(qū)域具有低限頻率fb1(fb1＜fa2)、高限頻率fb2(fb2＞fa2)的譜分布區(qū)域Pb，在頻率區(qū)域fa1到fa2之間有部分重疊。為了避免這種情況，例如可將頻率區(qū)域fb1到fa2從中心頻率分割為兩部分，將區(qū)域Ra的高限頻率fa2轉(zhuǎn)換成一個(gè)低于fc的預(yù)定頻率，將區(qū)域Rb的低限頻率fb1轉(zhuǎn)換成一個(gè)高于fc的預(yù)定頻率。由此，就能夠在區(qū)域Ra的低于fc的頻率區(qū)域，和區(qū)域Rb的高于fc的頻率區(qū)域使用譜分布AMa。
如前所述，當(dāng)包括局部峰值的譜分布在頻率軸上移動(dòng)時(shí)，頻譜包絡(luò)僅能通過頻率設(shè)定而延伸和縮短，因此存在著音調(diào)不同于所輸入聲音波形的問題。為了能夠復(fù)制輸入聲音波形的音調(diào)，就需要沿對(duì)應(yīng)于每幀的一系列譜分布的局部峰值的連接線的頻譜包絡(luò)，調(diào)整一個(gè)或者多個(gè)譜分布區(qū)域的譜密度。
圖12示出了一個(gè)譜密度調(diào)整的實(shí)例，圖12A示出了一個(gè)對(duì)應(yīng)于音高轉(zhuǎn)換前的局部峰值P11到P18的頻譜包絡(luò)EV。為了根據(jù)輸入音調(diào)音高比例升高音高，譜密度在局部峰值P11到P18被移動(dòng)到頻率軸上如圖12B所示的P21到P28時(shí)，隨著頻譜包絡(luò)一起上升或下降到頻譜包絡(luò)EV。由此而獲得與輸入聲音波形相同的音調(diào)。
在圖12A中，Rf是缺少頻譜包絡(luò)的頻率區(qū)域。當(dāng)上升音高時(shí)，可能會(huì)需要將諸如P27，P28的局部峰值轉(zhuǎn)移到如圖12B所示的頻率區(qū)域Rf。為了避免這種情況，頻率區(qū)域Rf的頻譜包絡(luò)可以通過如圖12B所示的插值法所獲得，根據(jù)所獲得頻譜包絡(luò)EV可調(diào)整局部峰值的譜密度。
在前述的實(shí)例中，再現(xiàn)了輸入聲音波形的音調(diào)，可將與輸入聲音波形不同的音調(diào)加到合成音中。這樣，可利用變換如圖12所示的頻譜包絡(luò)EV的頻譜包絡(luò)或者新的頻譜包絡(luò)來調(diào)整頻譜強(qiáng)度。
為了簡(jiǎn)化使用頻譜包絡(luò)的過程，頻譜包絡(luò)最好被表示為曲線或者直線。圖13示出了兩種不同的頻譜包絡(luò)曲線EV1和EV2。曲線EV1僅通過由直線連接每個(gè)局部峰值的直線圖來表示頻譜包絡(luò)。同樣，曲線EV2使用三次樣條函數(shù)表示頻譜包絡(luò)。在使用曲線EV2時(shí)，能夠精確地進(jìn)行內(nèi)插。
隨后，在圖4中的步驟68，根據(jù)每幀的振幅譜數(shù)據(jù)的調(diào)整，對(duì)每個(gè)聲音合成單元的相位譜數(shù)據(jù)進(jìn)行調(diào)整。也就是說，在圖10A所示的包括一幀的第i個(gè)局部峰值的譜分布區(qū)域內(nèi)，相位譜分布PH1對(duì)應(yīng)于振幅譜分布AM1。在步驟66，在振幅譜分布AM1被移動(dòng)到AM2時(shí)，需要根據(jù)振幅譜分布AM2來調(diào)整相位譜分布PH1。這是為了使相位譜分布PH1在移動(dòng)目標(biāo)位置的局部峰值的頻率上成為正弦波。
當(dāng)每幀之間的時(shí)間間隔為Δt，局部峰值頻率為fi，音高轉(zhuǎn)換比率為T時(shí)，與包含第i個(gè)局部峰值的譜分布區(qū)域有關(guān)的相位插值量Δψ1由以下等式A1獲得Δψi＝2πfi(T-1)Δt........(A1)如圖10B所示，由等式A1所獲得的插值量Δψi被疊加到區(qū)域Fi到Fu內(nèi)的每個(gè)相位譜的相位上，頻率為Fi的局部峰值的相位為ψi+Δψi。
對(duì)于每個(gè)譜分布區(qū)域都將進(jìn)行上述的相位插值。例如，當(dāng)一幀的局部峰值頻率是完美的諧波時(shí)(諧波頻率是基波頻率的絕對(duì)整數(shù)倍)，輸入聲音的基波頻率(聲音合成單元數(shù)據(jù)中音高數(shù)據(jù)所代表的音高)是f0。當(dāng)譜分布區(qū)域的數(shù)量為k＝1，2，3...時(shí)，相位插值量ψi由以下等式A2獲得。
Δψi＝2πf0(T-1)Δt........(A2)在步驟70，根據(jù)每個(gè)聲音合成單元的設(shè)定節(jié)拍等決定復(fù)制開始時(shí)間。復(fù)制開始時(shí)間取決于設(shè)定節(jié)拍和輸入音調(diào)長(zhǎng)度，并且由節(jié)拍時(shí)鐘信號(hào)TCL的時(shí)鐘計(jì)數(shù)值所代表。例如歌唱聲音[saita]，聲音合成單元[s_a]的再現(xiàn)開始時(shí)間被設(shè)定為在由輸入音調(diào)長(zhǎng)度和設(shè)定節(jié)拍所決定的發(fā)音時(shí)間開始[a]音而不是[s]音。在步驟60，歌詞數(shù)據(jù)和旋律數(shù)據(jù)被實(shí)時(shí)輸入。當(dāng)進(jìn)行實(shí)時(shí)歌唱聲音合成時(shí)，需要先于發(fā)音時(shí)間輸入歌詞數(shù)據(jù)和旋律數(shù)據(jù)，用以設(shè)定前述的復(fù)制開始時(shí)間。
在步驟72，在聲音合成單元間調(diào)節(jié)譜密度等級(jí)。通過對(duì)振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)都進(jìn)行等級(jí)調(diào)整過程，從而防止在下一步驟74中通過數(shù)據(jù)連接合成聲音時(shí)產(chǎn)生噪音。此處存在著平滑過程，等級(jí)調(diào)節(jié)或者類似的過程，將在后面參照?qǐng)D17到20詳細(xì)解釋這些過程。
在步驟74，振幅譜數(shù)據(jù)被相互連接起來，相位譜數(shù)據(jù)也同樣被相互連接到一起。而后，在步驟76，振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)被每個(gè)聲音合成單元轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)(數(shù)字波形數(shù)據(jù))。
圖5示出了步驟76中的轉(zhuǎn)換過程的實(shí)例。在步驟76a，對(duì)頻率區(qū)域的每一幀數(shù)據(jù)(振幅譜數(shù)據(jù)和相位譜數(shù)據(jù))進(jìn)行反快速傅立葉變化(FFT)，從而獲得時(shí)域的合成聲音信號(hào)。而后，在步驟76b，對(duì)時(shí)域的合成聲音信號(hào)進(jìn)行窗口化處理。在此過程中，對(duì)時(shí)域的合成聲音信號(hào)乘以一個(gè)時(shí)間窗函數(shù)。在步驟76c，對(duì)時(shí)域的合成聲音信號(hào)進(jìn)行重疊處理。在此過程中，通過根據(jù)一定的順序重疊聲音合成單元的波形，而將時(shí)域的合成聲音信號(hào)連接起來。
在步驟78，參照步驟78所決定的再現(xiàn)開始時(shí)間，合成的聲音信號(hào)被輸出到數(shù)/模轉(zhuǎn)換單元28。由此，通過音響系統(tǒng)34生成合成歌唱聲音。
圖6示出了另一個(gè)歌唱聲音分析過程的實(shí)例。在步驟80，以與步驟40所述的相同方法輸入歌唱聲音信號(hào)，代表輸入信號(hào)聲音波形的數(shù)字波形數(shù)據(jù)儲(chǔ)存于RAM16的預(yù)定區(qū)域。歌唱聲音信號(hào)也能夠通過接口30和32輸入。
在步驟82，為被保存的數(shù)字波形數(shù)據(jù)，將每個(gè)片斷以與步驟42所述的相同方法分割成片斷波形。
在步驟83，每個(gè)聲音合成單元代表片斷波形的片斷波形數(shù)據(jù)(聲音合成單元數(shù)據(jù))被儲(chǔ)存到聲音合成單元數(shù)據(jù)庫中。RAM16和外部存儲(chǔ)單元22都可作為聲音合成單元數(shù)據(jù)庫，另外也可根據(jù)需要使用ROM14，MIDI裝置36的存儲(chǔ)裝置和計(jì)算機(jī)38的存儲(chǔ)裝置。在儲(chǔ)存聲音合成單元數(shù)據(jù)時(shí)，針對(duì)歌手(音調(diào))，音高等級(jí)，動(dòng)態(tài)等級(jí)和節(jié)拍等級(jí)等而不同的片斷波形數(shù)據(jù)m1，m2，m3...由每個(gè)聲音合成單元以與前面參照?qǐng)D3所述的相同方法儲(chǔ)存到聲音合成單元數(shù)據(jù)庫DBS中。
下面參照?qǐng)D7解釋另一個(gè)歌唱聲音合成過程的實(shí)例。在步驟90，通過步驟60所述的相同方法輸入要被合成歌唱聲音的歌詞數(shù)據(jù)和旋律數(shù)據(jù)。
在步驟92，通過與步驟62所述的相同方法，將歌詞數(shù)據(jù)所代表的音素序列轉(zhuǎn)換成單獨(dú)的聲音合成單元。而后在步驟94，從在步驟84執(zhí)行存儲(chǔ)過程的數(shù)據(jù)庫中，讀取每個(gè)聲音合成單元的片斷波形數(shù)據(jù)。在這種情況下，諸如音調(diào)，音高等級(jí)，動(dòng)態(tài)等級(jí)和節(jié)拍等級(jí)的數(shù)據(jù)從輸入單元20輸入作為控制參數(shù)，對(duì)應(yīng)于這些參數(shù)所形成的控制參數(shù)的片斷波形數(shù)據(jù)也同時(shí)被讀出。同樣，通過步驟64所述的相同方法，能夠根據(jù)輸入音調(diào)長(zhǎng)度和設(shè)定節(jié)拍改變發(fā)音持續(xù)時(shí)間。這樣，在讀取聲音波形之后，有可能會(huì)通過省略一部分聲音波形、重復(fù)一部分或整個(gè)聲音波形的方式來持續(xù)讀取聲音波形，從而獲得所需的發(fā)音持續(xù)時(shí)間。
在步驟96，由要讀取的每個(gè)片斷波形數(shù)據(jù)為片斷波形決定一個(gè)或者多個(gè)時(shí)間幀，并且通過快速傅立葉變換(FFT)等按每幀進(jìn)行頻率分析以檢測(cè)頻譜(振幅譜和相位譜)。然后，將代表頻譜的數(shù)據(jù)儲(chǔ)存于RAM16的預(yù)定區(qū)域。
在步驟98，通過執(zhí)行與圖2中步驟46到52的相同過程，由每個(gè)聲音合成單元生成音高數(shù)據(jù)，振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)。而后在步驟100，通過執(zhí)行與圖4中步驟66到78的相同過程，合成并再現(xiàn)歌唱聲音。
比較圖4與圖7中所示的兩個(gè)歌唱聲音合成過程。圖4所示的歌唱聲音合成過程，通過由數(shù)據(jù)庫獲取的每個(gè)聲音合成單元的振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)進(jìn)行歌唱聲音合成。另一方面，圖7所示的歌唱聲音合成過程，通過由數(shù)據(jù)庫獲取的每個(gè)聲音合成單元的片斷波形數(shù)據(jù)進(jìn)行歌唱聲音合成。雖然兩者具有上述的不同點(diǎn)，但是它們的歌唱聲音合成過程實(shí)質(zhì)上是相同的。圖4和圖7所示的歌唱聲音合成過程，因?yàn)槲磳⑤斎肼曇舨ㄐ蔚念l率分析結(jié)果分割為確定性成分和隨機(jī)成分，就不會(huì)出現(xiàn)隨機(jī)成分的分割與回響。因而，就能夠獲得自然(高質(zhì)量)的合成聲音。同樣也可獲得摩擦音和爆破音的自然合成聲音。
圖14示出了類似[a]的單音素長(zhǎng)音的音高轉(zhuǎn)換過程和音調(diào)調(diào)節(jié)過程(對(duì)應(yīng)于圖4中的步驟66)。此時(shí)，數(shù)據(jù)庫提供如圖3所示的由音高數(shù)據(jù)，振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)所組成的一組數(shù)據(jù)。同樣，針對(duì)歌手(音調(diào))，音高等級(jí)，動(dòng)態(tài)等級(jí)和節(jié)拍等級(jí)而不同的聲音合成單元數(shù)據(jù)也儲(chǔ)存在數(shù)據(jù)庫中。當(dāng)輸入單元20指定諸如所需歌手(所需音調(diào))，音高等級(jí)，動(dòng)態(tài)等級(jí)和節(jié)拍等級(jí)等的控制參數(shù)后，將讀取控制參數(shù)所指定的聲音合成單元數(shù)據(jù)。
在步驟110，對(duì)由長(zhǎng)音合成單元數(shù)據(jù)SD所得的振幅譜數(shù)據(jù)FSP進(jìn)行與步驟66相同的音高改變過程。具體地講，是在與振幅譜數(shù)據(jù)FSP有關(guān)的每幀的每個(gè)譜分布區(qū)域，將譜分布移動(dòng)到對(duì)應(yīng)于輸入音調(diào)音高數(shù)據(jù)PT在頻率軸上所示的輸入音調(diào)音高的位置。
在需要發(fā)音持續(xù)時(shí)間比聲音合成單元數(shù)據(jù)SD的時(shí)間長(zhǎng)度長(zhǎng)的的長(zhǎng)音的情況下，在讀取聲音合成單元數(shù)據(jù)SD到結(jié)束后，操作將返回并從頭再次讀取該數(shù)據(jù)。通過此種方式，可采用根據(jù)需要以一定時(shí)序重復(fù)讀取的方法。作為另一種方法，當(dāng)其讀取到結(jié)尾后，從結(jié)尾到開始讀取聲音合成單元數(shù)據(jù)，可以采用根據(jù)需要按一定時(shí)序重復(fù)讀取或按相反的時(shí)序讀取的方法。在這種方法中，能夠隨意設(shè)定反向時(shí)序中讀取時(shí)間的讀取開始點(diǎn)。
在步驟110的音高改變過程中，例如，對(duì)應(yīng)于諸如[a]之類的每個(gè)長(zhǎng)音合成單元數(shù)據(jù)M1(或m1)，M2(或m2)，M3(或m3)等，將代表時(shí)間持續(xù)音高改變的音高脈動(dòng)數(shù)據(jù)儲(chǔ)存在圖3所示的數(shù)據(jù)庫DBS中。在這種情況下，在步驟112，把要讀取的音高脈動(dòng)數(shù)據(jù)加到輸入的音調(diào)音高上，根據(jù)作為疊加結(jié)果的音高控制數(shù)據(jù)，控制步驟110的音高改變。通過這種方法，可以將音高脈動(dòng)(如彎音輪，顫音等)疊加到合成聲音上，從而獲得自然的合成聲音。而且，通過諸如音調(diào)，音高等級(jí)，動(dòng)態(tài)等級(jí)和節(jié)拍等級(jí)等的控制參數(shù)能夠改變音高脈動(dòng)風(fēng)格，從而提高合成聲音的自然度。音高脈動(dòng)數(shù)據(jù)的使用是通過根據(jù)諸如音調(diào)等控制參數(shù)進(jìn)行插值，而修改與聲音合成單元對(duì)應(yīng)的一個(gè)或者多個(gè)音高脈動(dòng)數(shù)據(jù)。
在步驟114，對(duì)在步驟110執(zhí)行音高改變過程的振幅譜數(shù)據(jù)FSP′進(jìn)行音調(diào)調(diào)整過程。此過程通過前面參照?qǐng)D12所述的每幀根據(jù)頻譜包絡(luò)來設(shè)定調(diào)整譜密度的合成聲音的音調(diào)。
圖15示出了步驟114的音調(diào)調(diào)整過程的實(shí)例。在此實(shí)例中，例如，代表對(duì)應(yīng)于長(zhǎng)音[a]的聲音合成單元的一個(gè)典型的頻譜包絡(luò)的頻譜包絡(luò)數(shù)據(jù)被儲(chǔ)存在圖3所示的數(shù)據(jù)庫中。
在步驟116，從數(shù)據(jù)庫DBS中讀取對(duì)應(yīng)于長(zhǎng)音合成單元的頻譜包絡(luò)數(shù)據(jù)。而后在步驟118，根據(jù)讀取出的頻譜包絡(luò)數(shù)據(jù)進(jìn)行頻譜包絡(luò)設(shè)定過程。也就是說，為了長(zhǎng)音幀組FR中的n個(gè)幀振幅譜數(shù)據(jù)FRi到FRn中的每個(gè)幀的每個(gè)振幅譜數(shù)據(jù)的頻譜包絡(luò)數(shù)據(jù)指示的頻譜包絡(luò)一起而通過調(diào)整譜密度來設(shè)定譜包絡(luò)。由此，可將一合適的音調(diào)添加在長(zhǎng)音上。
在步驟118的頻譜包絡(luò)設(shè)定過程中，對(duì)應(yīng)于諸如[a]之類的每個(gè)長(zhǎng)音合成單元數(shù)據(jù)M1(m1)，M2(m2)，M3(m3)，將例如代表時(shí)間持續(xù)頻譜包絡(luò)改變的頻譜包絡(luò)脈動(dòng)數(shù)據(jù)儲(chǔ)存到圖3所示的數(shù)據(jù)庫DBS中，響應(yīng)在輸入單元20中指定諸如音調(diào)，音高等級(jí)，動(dòng)態(tài)等級(jí)和節(jié)拍等級(jí)等，可讀取與要被指定的控制參數(shù)對(duì)應(yīng)的頻譜包絡(luò)脈動(dòng)數(shù)據(jù)。在這種情況下，在步驟118，要被讀取的頻譜包絡(luò)脈動(dòng)數(shù)據(jù)VE被加到步驟116所讀取的頻譜包絡(luò)脈動(dòng)數(shù)據(jù)上，對(duì)應(yīng)于作為疊加結(jié)果的譜包絡(luò)控制數(shù)據(jù)，控制步驟118的頻譜包絡(luò)設(shè)定。通過此種方法，能夠?qū)⒁粽{(diào)脈動(dòng)(如彎音輪等)疊加到合成聲音上，從而獲得自然合成聲音。而且，由于可對(duì)應(yīng)諸如音調(diào)，音高等級(jí)，動(dòng)態(tài)等級(jí)和節(jié)拍等級(jí)之類的控制參數(shù)改變音高脈動(dòng)風(fēng)格，從而提高了合成聲音的自然度。可通過與諸如音調(diào)之類的控制參數(shù)對(duì)應(yīng)的插值，通過修改與聲音合成單元對(duì)應(yīng)的一個(gè)或者多個(gè)音高脈動(dòng)數(shù)據(jù)來使用音高脈動(dòng)數(shù)據(jù)。
圖16示出了步驟114的音調(diào)調(diào)節(jié)過程的另一個(gè)實(shí)例。在歌唱聲音合成中，一個(gè)典型的實(shí)例就是例如前面所述的歌唱[saita]，即一音素序列(例如，[s_a])-單音素(例如[a])-一音素序列(例如[a_i])的歌唱聲音合成，圖16示出了此典型歌唱聲音合成的實(shí)例。在圖16中，前一音符最后一幀的振幅譜數(shù)據(jù)PFR中的前一音符對(duì)應(yīng)于例如音素序列[s_a]，長(zhǎng)音的n個(gè)幀的振幅譜數(shù)據(jù)FRi到FRn的長(zhǎng)音對(duì)應(yīng)于例如單音素[a]，后一音符的第一幀的振幅譜數(shù)據(jù)PFR中的后一音符對(duì)應(yīng)于例如音素鏈[a_i]。
在步驟120，從前一音符最后一幀的振幅譜數(shù)據(jù)PFR中提取譜包絡(luò)，和從后一音符的第一幀的振幅譜數(shù)據(jù)NFR中提取譜包絡(luò)。而后，對(duì)這兩個(gè)提取出的譜包絡(luò)進(jìn)行時(shí)間插值，并形成表示長(zhǎng)音譜包絡(luò)的譜包絡(luò)數(shù)據(jù)。
在步驟122，通過調(diào)整譜密度來設(shè)定該譜包絡(luò)，以便與要在步驟120形成的譜包絡(luò)數(shù)據(jù)表示的頻譜包絡(luò)一起指示n個(gè)幀的振幅譜數(shù)據(jù)FRi到FRn中的每個(gè)幀的每個(gè)振幅譜數(shù)據(jù)，由此，可將一合適的音調(diào)加在兩個(gè)音素鏈之間的長(zhǎng)音上。
另外，在步驟122，通過上面參照步驟118描述的相同過程，通過從數(shù)據(jù)庫DBS讀取對(duì)應(yīng)于諸如音調(diào)之類的控制參數(shù)來控制頻譜包絡(luò)設(shè)定。通過這種方法，可獲得自然的合成聲音。
以下參照?qǐng)D17到19解釋平滑過程(對(duì)應(yīng)于步驟72)的實(shí)例。在此實(shí)例中，為了使數(shù)據(jù)易于操作并簡(jiǎn)化計(jì)算，將聲音合成單元每幀的頻譜包絡(luò)分析為如圖17所示的一條由直線(或指數(shù)函數(shù))所代表的斜率成分，和一個(gè)或多個(gè)由指數(shù)函數(shù)所代表的諧波成分。也就是說，在斜率成分基礎(chǔ)上經(jīng)計(jì)算而得諧波成分密度，頻譜包絡(luò)通過添加斜率成分和諧波成分而獲得。同樣，延長(zhǎng)斜率成分到0Hz所得的值稱為斜率成分增益。
作為實(shí)例，如圖18所示的兩個(gè)聲音合成單元[a_i]和[i_a]被相互連接。因?yàn)檫@兩個(gè)聲音合成單元最初是從不同的錄音所提取的，所以在連接部[i]的音調(diào)和等級(jí)互相不匹配。因而，在圖18所示的連接部形成了一個(gè)波形臺(tái)階，使得其聽起來為一噪音。通過對(duì)兩個(gè)聲音合成單元數(shù)據(jù)以連接點(diǎn)為中心的前后幾幀的斜率成分和諧波成分參數(shù)進(jìn)行交叉衰弱，能夠消除連接點(diǎn)處的臺(tái)階從而防止產(chǎn)生噪音。
例如，如圖19所示，為了交叉衰弱諧波分量的參數(shù)，兩個(gè)聲音合成單元數(shù)據(jù)的諧波成分參數(shù)被乘以一函數(shù)(交叉衰弱參數(shù))，使連接點(diǎn)上的參數(shù)變?yōu)?.5，并且將兩個(gè)乘積再相加到一起。圖19為一個(gè)通過使波形相加進(jìn)行交叉衰弱的實(shí)例，其中每個(gè)波形都代表聲音合成單元[a_i]或[i_a]的一次諧波成分密度的時(shí)間持續(xù)改變，而且每個(gè)波形都被乘以交叉衰弱參數(shù)。
對(duì)其他類似于上述諧波成分和斜率成分的參數(shù)也可進(jìn)行交叉衰弱。
圖20示出了一個(gè)等級(jí)調(diào)整過程(對(duì)應(yīng)于步驟72)的實(shí)例。在此實(shí)例中，如前所述，將解釋連接[a_i]和[i_a]以進(jìn)行合成的情況下的等級(jí)調(diào)整過程。
這種情況下，由等級(jí)調(diào)整代替交叉衰弱使得聲音合成單元連接點(diǎn)前后的振幅近乎相同。等級(jí)調(diào)整可以通過將聲音合成單元振幅乘以固定或可變系數(shù)來進(jìn)行。
在此實(shí)例中，解釋了兩個(gè)聲音合成單元斜率成分增益的連接。首先，如圖20A和20B所示，對(duì)于聲音合成單元[a_i]和[i_a]，通過對(duì)第一幀和最后一幀之間的斜率成分增益進(jìn)行插值，以及實(shí)際斜率成分與插值后參數(shù)之差值來計(jì)算參數(shù)(圖中虛線所示)。
此后，計(jì)算每個(gè)音素[a]和[i]的典型樣本(斜率成分和每個(gè)諧波成分參數(shù))。作為典型樣本，可計(jì)算[a_i]的第一和最后一幀的振幅譜數(shù)據(jù)。
根據(jù)[a]和[i]的典型樣本，如圖20C中虛線所示，獲得由[a]和[i]之間的斜率成分的增益的線性插值計(jì)算的參數(shù)，并獲得由[i]和[a]之間的斜率成分的增益的線性插值計(jì)算的參數(shù)。接下來，通過將利用圖20A和圖20B所計(jì)算而得的差值分別加到插值后參數(shù)，可使得插值后參數(shù)每當(dāng)在邊界時(shí)一致；因而就不會(huì)產(chǎn)生斜率成分增益的不連續(xù)性。通過同樣方法，也可防止其他如諧波成分參數(shù)等的參數(shù)出現(xiàn)中斷。
在前述的步驟72，為了調(diào)整相位，不僅對(duì)振幅譜數(shù)據(jù)而且對(duì)相位譜數(shù)據(jù)也進(jìn)行前述的平滑過程和等級(jí)調(diào)整過程。因而，防止產(chǎn)生噪音以便獲得高質(zhì)量的合成歌唱聲音。此外，在平滑過程和等級(jí)調(diào)整過程中，盡管譜密度在連接點(diǎn)上完全相同，但整個(gè)譜密度只是大致相同。
已參照特定實(shí)施例描述了本發(fā)明。本發(fā)明不僅限于以上幾個(gè)實(shí)施例。各種改進(jìn)，改善和組合等對(duì)本領(lǐng)域的技術(shù)人員來說是顯而易見的。
權(quán)利要求
1.一種歌唱聲音合成方法，包括步驟(a)通過分析與要被合成的聲音的聲音合成單元對(duì)應(yīng)的聲音波形頻率來頻譜進(jìn)行檢測(cè)；(b)檢測(cè)頻譜上譜密度的多個(gè)局部峰值(c)對(duì)于該多個(gè)局部峰值中的每一個(gè)，指定頻譜上包括該局部峰值和此前和此后的譜的譜分布區(qū)域，依據(jù)每個(gè)譜分布區(qū)域的頻率軸生成表示振幅譜分布的振幅譜數(shù)據(jù)；(d)依據(jù)每個(gè)譜分布區(qū)域的頻率軸生成表示相位譜分布的相位譜數(shù)據(jù)；(e)為要被合成的聲音指定音高；(f)對(duì)于每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，以便根據(jù)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)表示的振幅譜分布；(g)對(duì)于每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整，調(diào)整由相位譜數(shù)據(jù)表示的相位譜分布；和(h)將調(diào)整后的振幅譜數(shù)據(jù)和調(diào)整后的相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)。
2.一種歌唱聲音合成方法，包括步驟(a)獲得與要被合成的聲音的聲音合成單元對(duì)應(yīng)的振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)，其中該振幅譜數(shù)據(jù)是表示依據(jù)譜密度的多個(gè)局部峰值中的每一個(gè)峰值的每個(gè)譜分布區(qū)域的頻率軸而定的振幅譜分布的數(shù)據(jù)，譜密度的多個(gè)局部峰值中的每一個(gè)包括該峰值和通過對(duì)聲音合成單元的聲音波形的頻率分析獲得的頻譜中此前和此后的譜，所述相位譜數(shù)據(jù)是表示依據(jù)每個(gè)譜分布區(qū)域的頻率軸而定的相位譜分布的數(shù)據(jù)；(b)為要被合成的聲音指定音高；(c)對(duì)于每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，以便根據(jù)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)表示的振幅譜分布；(d)對(duì)于每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整，調(diào)整由相位譜數(shù)據(jù)表示的相位譜分布；和(e)將調(diào)整后的振幅譜數(shù)據(jù)和調(diào)整后的相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)。
3.根據(jù)權(quán)利要求1所述的歌唱聲音合成方法，其中的音高指定步驟(e)根據(jù)表示一個(gè)時(shí)序中的音高變化的音高脈動(dòng)數(shù)據(jù)來指定音高。
4.根據(jù)權(quán)利要求3所述的歌唱聲音合成方法，其中音高脈動(dòng)數(shù)據(jù)對(duì)應(yīng)于用于控制要被合成的聲音的音樂表達(dá)的控制參數(shù)。
5.根據(jù)權(quán)利要求1所述的歌唱聲音合成方法，其中振幅譜數(shù)據(jù)調(diào)整步驟(f)把在調(diào)整前與連接該多個(gè)局部峰值中的每一個(gè)的譜線對(duì)應(yīng)的頻譜包絡(luò)不在一起的局部峰值的譜密度調(diào)整成與該譜包絡(luò)在一起。
6.根據(jù)權(quán)利要求1所述的歌唱聲音合成方法，其中振幅譜調(diào)整步驟(f)把與一預(yù)定譜包絡(luò)不在一起的局部峰值的譜密度調(diào)整成與該預(yù)定譜包絡(luò)在一起。
7.根據(jù)權(quán)利要求5所述的歌唱聲音合成方法，其中振幅譜調(diào)整步驟(f)根據(jù)表示頻譜包絡(luò)的變化的頻譜包絡(luò)脈動(dòng)數(shù)據(jù)，通過針對(duì)連續(xù)時(shí)間幀的時(shí)序調(diào)整該密度來設(shè)定在時(shí)序中變化的頻譜包絡(luò)。
8.根據(jù)權(quán)利要求7所述的歌唱聲音合成方法，其中頻譜包絡(luò)脈動(dòng)數(shù)據(jù)對(duì)應(yīng)于用于控制要被合成的聲音的音樂表達(dá)的控制參數(shù)。
9.一種歌唱聲音合成裝置，包括指定裝置，用于為要被合成的聲音指定聲音合成單元和音高；讀取裝置，用于從聲音合成單元數(shù)據(jù)庫中讀取代表對(duì)應(yīng)于聲音合成單元的波形的聲音波形數(shù)據(jù)作為聲音合成單元數(shù)據(jù)；第一檢測(cè)裝置，通過分析由聲音波形數(shù)據(jù)表示的聲音波形的頻率來檢測(cè)頻譜；第二檢測(cè)裝置，用于檢測(cè)頻譜上譜密度的多個(gè)局部峰值；第一生成裝置，用于針對(duì)多個(gè)局部峰值中的每一個(gè)，指定包括該局部峰值和頻譜上此前和此后的譜的譜分布區(qū)域，并依據(jù)每個(gè)譜分布區(qū)域的頻率軸生成表示振幅譜分布的振幅譜數(shù)據(jù)；第二生成裝置，用于針對(duì)每個(gè)譜分布區(qū)域，依據(jù)頻率軸生成表示相位譜分布的相位譜數(shù)據(jù)；第一調(diào)整裝置，用于針對(duì)每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，以便根據(jù)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)表示的振幅譜分布；第二調(diào)整裝置，用于針對(duì)每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整，調(diào)整由相位譜數(shù)據(jù)表示的相位譜分布；和轉(zhuǎn)換裝置，用于將調(diào)整后的振幅譜數(shù)據(jù)和調(diào)整后的相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)。
10.一種聲音合成裝置，包括指定裝置，用于為要被合成的聲音指定聲音合成單元和音高讀取裝置，用于從聲音合成單元數(shù)據(jù)庫中讀取對(duì)應(yīng)于聲音合成單元的振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)作為聲音合成單元數(shù)據(jù)，其中該振幅譜數(shù)據(jù)是表示依據(jù)譜密度的多個(gè)局部峰值中的每一個(gè)峰值的每個(gè)譜分布區(qū)域的頻率軸而定的振幅譜分布的數(shù)據(jù)，譜密度的多個(gè)局部峰值中的每一個(gè)包括該峰值和通過對(duì)聲音合成單元的聲音波形的頻率分析獲得的頻譜中此前和此后的譜，所述相位譜數(shù)據(jù)是表示依據(jù)每個(gè)譜分布區(qū)域的頻率軸而定的相位譜分布的數(shù)據(jù)；第一調(diào)整裝置，用于針對(duì)每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，以便根據(jù)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)表示的振幅譜分布；第二調(diào)整裝置，用于針對(duì)每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整來調(diào)整由相位譜數(shù)據(jù)表示的相位譜分布；和轉(zhuǎn)換裝置，用于將調(diào)整后的振幅譜數(shù)據(jù)和調(diào)整后的相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)。
11.根據(jù)權(quán)利要求9所述的歌唱聲音合成裝置，其中指定裝置指定用于控制要被合成的聲音的音樂表達(dá)的控制參數(shù)，和讀取裝置讀取對(duì)應(yīng)于聲音合成單元和控制參數(shù)的聲音合成單元數(shù)據(jù)。
12.根據(jù)權(quán)利要求9所述的歌唱聲音合成裝置，其中指定裝置指定要被合成的聲音的音調(diào)長(zhǎng)度和/或節(jié)拍，和讀取裝置通過省略一部分，或重復(fù)一部分或整個(gè)聲音合成單元數(shù)據(jù)來讀取與音調(diào)長(zhǎng)度和/或節(jié)拍對(duì)應(yīng)的時(shí)間的聲音合成單元數(shù)據(jù)。
13.一種歌唱聲音合成裝置，包括指定裝置，用于為要被順序合成的每個(gè)聲音指定聲音合成單元和音高；讀取裝置，用于從聲音合成單元數(shù)據(jù)庫中讀取與由指定裝置所指定的每個(gè)聲音合成單元對(duì)應(yīng)的聲音波形數(shù)據(jù)；第一檢測(cè)裝置，用于通過分析對(duì)應(yīng)于每個(gè)聲音波形的聲音波形的頻率來檢測(cè)頻譜；第二檢測(cè)裝置，用于檢測(cè)對(duì)應(yīng)于每個(gè)聲音波形的頻譜上的譜密度的多個(gè)局部峰值；第一生成裝置，用于針對(duì)每個(gè)聲音合成單元的多個(gè)局部峰值中的每一個(gè)，指定包括局部峰值和頻譜上此前和此后的譜的譜分布區(qū)域，并依據(jù)每個(gè)譜分布區(qū)域的頻率軸生成表示振幅譜分布的振幅譜數(shù)據(jù)；第二生成裝置，用于依據(jù)每個(gè)聲音合成單元的每個(gè)譜分布區(qū)域的頻率軸生成表示相位譜分布的相位譜數(shù)據(jù)；第一調(diào)整裝置，用于針對(duì)每個(gè)聲音合成單元的每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，以便根據(jù)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)表示的振幅譜分布；第二調(diào)整裝置，用于針對(duì)每個(gè)聲音合成單元的每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整來調(diào)整由相位譜數(shù)據(jù)表示的相位譜分布；第一連接裝置，用于連接調(diào)整后的振幅譜數(shù)據(jù)，以便根據(jù)要按發(fā)音順序依次合成的聲音分別連接連續(xù)的聲音合成單元，其中在連續(xù)的聲音合成單元的連接點(diǎn)上，各譜密度被調(diào)整到相互一致或者近似一致；第二連接裝置，用于連接調(diào)整后的相位譜數(shù)據(jù)，以便根據(jù)要按發(fā)音順序依次合成的聲音的分別連接連續(xù)的聲音合成單元，其中在連續(xù)的聲音合成單元的連接點(diǎn)上，各相位被調(diào)整到相互一致或者近似一致；轉(zhuǎn)換裝置，用于將連接后的振幅譜數(shù)據(jù)和連接后的相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)。
14.一種歌唱聲音合成裝置，包括指定裝置，用于為要被順序合成的每個(gè)聲音指定聲音合成單元和音高；讀取裝置，用于從聲音合成單元數(shù)據(jù)庫中讀取與由指定裝置所指定的每個(gè)聲音合成單元對(duì)應(yīng)的聲音波形數(shù)據(jù)，其中該振幅譜數(shù)據(jù)是表示依據(jù)譜密度的多個(gè)局部峰值中的每一個(gè)峰值的每個(gè)譜分布區(qū)域的頻率軸而定的振幅譜分布的數(shù)據(jù)，譜密度的多個(gè)局部峰值中的每一個(gè)包括該峰值和通過對(duì)聲音合成單元的聲音波形的頻率分析獲得的頻譜中此前和此后的譜，所述相位譜數(shù)據(jù)是表示依據(jù)每個(gè)譜分布區(qū)域的頻率軸而定的相位譜分布的數(shù)據(jù)；第一調(diào)整裝置，用于針對(duì)每個(gè)聲音合成單元的每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，以便根據(jù)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)表示的振幅譜分布；第二調(diào)整裝置，用于針對(duì)每個(gè)聲音合成單元的每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整來調(diào)整由相位譜數(shù)據(jù)表示的相位譜分布；第一連接裝置，用于連接調(diào)整后的振幅譜數(shù)據(jù)，以便根據(jù)要按發(fā)音順序依次合成的聲音分別連接連續(xù)的聲音合成單元，其中在連續(xù)的聲音合成單元的連接點(diǎn)上，各譜密度被調(diào)整到相互一致或者近似一致；第二連接裝置，用于連接調(diào)整后的相位譜數(shù)據(jù)，以便根據(jù)要按發(fā)音順序依次合成的聲音的分別連接連續(xù)的聲音合成單元，其中在連續(xù)的聲音合成單元的連接點(diǎn)上，各相位被調(diào)整到相互一致或者近似一致；轉(zhuǎn)換裝置，用于將連接后的振幅譜數(shù)據(jù)和連接后的相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)。
15.一種存儲(chǔ)用于歌唱聲音合成裝置的程序的存儲(chǔ)介質(zhì)，該程序包括指令(a)通過分析與要被合成的聲音的聲音合成單元對(duì)應(yīng)的聲音波形頻率來頻譜進(jìn)行檢測(cè)；(c)檢測(cè)頻譜上譜密度的多個(gè)局部峰值；(c)對(duì)于該多個(gè)局部峰值中的每一個(gè)，指定頻譜上包括該局部峰值和此前和此后的譜的譜分布區(qū)域，依據(jù)每個(gè)譜分布區(qū)域的頻率軸生成表示振幅譜分布的振幅譜數(shù)據(jù)；(f)依據(jù)每個(gè)譜分布區(qū)域的頻率軸生成表示相位譜分布的相位譜數(shù)據(jù)；(g)為要被合成的聲音指定音高；(f)對(duì)于每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，以便根據(jù)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)表示的振幅譜分布；(g)對(duì)于每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整，調(diào)整由相位譜數(shù)據(jù)表示的相位譜分布；和(h)將調(diào)整后的振幅譜數(shù)據(jù)和調(diào)整后的相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)。
16.一種存儲(chǔ)用于歌唱聲音合成裝置的程序的存儲(chǔ)介質(zhì)，該程序包括指令(a)獲得與要被合成的聲音的聲音合成單元對(duì)應(yīng)的振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)，其中該振幅譜數(shù)據(jù)是表示依據(jù)譜密度的多個(gè)局部峰值中的每一個(gè)峰值的每個(gè)譜分布區(qū)域的頻率軸而定的振幅譜分布的數(shù)據(jù)，譜密度的多個(gè)局部峰值中的每一個(gè)包括該峰值和通過對(duì)聲音合成單元的聲音波形的頻率分析獲得的頻譜中此前和此后的譜，所述相位譜數(shù)據(jù)是表示依據(jù)每個(gè)譜分布區(qū)域的頻率軸而定的相位譜分布的數(shù)據(jù)；(b)為要被合成的聲音指定音高；(c)對(duì)于每個(gè)譜分布區(qū)域，調(diào)整振幅譜數(shù)據(jù)，以便根據(jù)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)表示的振幅譜分布；(d)對(duì)于每個(gè)譜分布區(qū)域，根據(jù)振幅譜數(shù)據(jù)的調(diào)整，調(diào)整由相位譜數(shù)據(jù)表示的相位譜分布；和(e)將調(diào)整后的振幅譜數(shù)據(jù)和調(diào)整后的相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)。
17.一種用于歌唱聲音合成裝置的存儲(chǔ)介質(zhì)，存儲(chǔ)與要被合成的聲音的聲音合成單元對(duì)應(yīng)的振幅譜數(shù)據(jù)和相位譜數(shù)據(jù)，其中該振幅譜數(shù)據(jù)是表示依據(jù)譜密度的多個(gè)局部峰值中的每一個(gè)峰值的每個(gè)譜分布區(qū)域的頻率軸而定的振幅譜分布的數(shù)據(jù)，譜密度的多個(gè)局部峰值中的每一個(gè)包括該峰值和通過對(duì)聲音合成單元的聲音波形的頻率分析獲得的頻譜中此前和此后的譜，所述相位譜數(shù)據(jù)是表示依據(jù)每個(gè)譜分布區(qū)域的頻率軸而定的相位譜分布的數(shù)據(jù)。
全文摘要
通過分析對(duì)應(yīng)于由音素或音素鏈構(gòu)成的聲音合成單元的聲音波形的頻率來檢測(cè)得頻譜。在頻譜上檢測(cè)局部峰值，指定包括局部峰值的譜分布區(qū)域。對(duì)于每個(gè)譜分布區(qū)域，生成代表依頻率軸而定的振幅譜分布的振幅譜數(shù)據(jù)，和依頻率軸而定的相位譜分布的相位譜數(shù)據(jù)。調(diào)整振幅譜數(shù)據(jù)，以便根據(jù)輸入音調(diào)音高沿頻率軸移動(dòng)由振幅譜數(shù)據(jù)表示的振幅譜分布，根據(jù)振幅譜數(shù)據(jù)的調(diào)整來調(diào)整由相位譜數(shù)據(jù)表示的相位譜分布。將譜密度和與所需音調(diào)音色對(duì)應(yīng)的頻譜包絡(luò)調(diào)整到一起。將調(diào)整后的振幅譜數(shù)據(jù)和調(diào)整后的相位譜數(shù)據(jù)轉(zhuǎn)換成時(shí)域的合成聲音信號(hào)。
文檔編號(hào)G10H7/00GK1581290SQ0312755
公開日2005年2月16日申請(qǐng)日期2003年8月6日優(yōu)先權(quán)日2003年8月6日
發(fā)明者劍持秀紀(jì), 若爾迪·博納達(dá), 亞歷克斯·洛斯科斯申請(qǐng)人:雅馬哈株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載