一種多方通話的多模式語音合成方法與系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于多方通話領(lǐng)域,特別涉及一種多方通話的多模式語音合成方法與系 統(tǒng)。
【背景技術(shù)】
[0002] 目前,隨著經(jīng)濟社會的發(fā)展,能夠?qū)崿F(xiàn)多方、異地實時交流的多方通話技術(shù),例如 電話會議,正在蓬勃發(fā)展。在多方通話的語音技術(shù)方面,傳統(tǒng)上是使用控制發(fā)言權(quán)的方法, 即某一時刻只允許一個人發(fā)言,每個會議中首先選定一個會議主席,發(fā)言者在發(fā)言前必須 向會議主席申請發(fā)言權(quán),在發(fā)言結(jié)束后釋放發(fā)言權(quán)。然而,這大大限制了會議成員之間的交 流。而采用語音合成技術(shù)即可解決多方通話中的上述問題。語音合成技術(shù)是將各個參會者 的語音數(shù)據(jù)通過混音算法混合,編碼后傳輸給所有的參會者。語音合成技術(shù)讓更多的參會 者可以在同一時刻發(fā)言,并將所有發(fā)言者的信息傳達給所有參會者。在一個多方通話系統(tǒng) 中,語音合成技術(shù)起著非常關(guān)鍵的作用,其是衡量一個系統(tǒng)質(zhì)量好壞的重要標準之一。
[0003] 傳統(tǒng)的混音算法是將所有輸入的語音數(shù)據(jù)進行線性疊加,但是采用該方式,一旦 語音信號疊加后的值超過線性樣本的取值范圍,則會產(chǎn)生溢出現(xiàn)象,從而引入噪聲。隨著混 音路數(shù)的增多,發(fā)生溢出的頻率就會越高,隨之產(chǎn)生的噪聲問題就會越嚴重,一般情況下, 當混音路數(shù)超過4路時,由溢出引入的噪音就會過大,直接導(dǎo)致混音后的語音無法辨認。這 會大大降低系統(tǒng)的通話性能。目前,對于混音后的溢出問題普遍采用下述方案:在混音過程 中對語音信號的振幅做一定的平滑處理,即在線性疊加的同時加入一個混音權(quán)重系數(shù),使 混音后的樣本值控制在應(yīng)有的范圍內(nèi),這樣就降低了溢出的頻率。然而,上述方案雖然可以 減弱或者消除溢出現(xiàn)象,但是會對混音后的語音信號做出較大的衰減,增加了算法的復(fù)雜 度,混音速度慢,同時可能會引入嚴重的噪聲;并且上述方案并沒有對各個發(fā)言人的發(fā)言情 況進行統(tǒng)計分析,沒有根據(jù)統(tǒng)計分析結(jié)果進行個性化的混音處理。
【發(fā)明內(nèi)容】
[0004] 為了解決現(xiàn)有技術(shù)中存在的上述技術(shù)問題,本發(fā)明提出了一種多方通話的多模式 語音合成方法與系統(tǒng)。
[0005] 本發(fā)明所述的一種多方通話的多模式語音合成方法,包括如下步驟:
[0006] 步驟10,對經(jīng)由通信網(wǎng)絡(luò)從各個通話方客戶端接收的M路語音信號進行解碼,得 到M路解碼后的語音信號,其中每一路解碼后的語音信號記為,其中M為大于等于1的整 數(shù),i為大于等于1且小于等于M的整數(shù);
[0007] 步驟20,對所述M路解碼后的語音信號進行Q位的統(tǒng)一的重新采樣,得到M路 采樣后的語音信號,其中采樣后的語音信號記為b 1;
[0008] 步驟30,將所述M路采樣后的語音信號中的每一路Id1,以音頻幀為單位,同步進行 靜音檢測,其中,在第j幀獲得的非靜音的語音信號記為b s (j),在第j幀獲得的非靜音的語 音信號的路數(shù)記為N,其中N為大于等于0且小于等于M的整數(shù),s為大于等于1且小于等 于N的整數(shù);
[0009] 步驟40,如果N為0,則返回步驟30 ;如果N為1,則進入步驟50 ;如果N等于2,則 進入步驟60 ;如果N大于等于3,則進入步驟70 ;
[0010] 步驟50,采用第一語音合成模式對在第j幀獲得的N路非靜音的語音信號進行處 理,獲得第一語音合成結(jié)果C 1 (j),然后進入步驟80 ;其中步驟50中的采用第一語音合成模 式對在第j幀獲得的N路非靜音的語音信號進行處理,獲得第一語音合成結(jié)果C1 (j)具體 為:采用公式一獲得第j幀的第一語音合成結(jié)果C1(J),其中,Q為步驟20中的統(tǒng)一的重新 采用的位數(shù):
[0012] 步驟60,采用第二語音合成模式對在第j幀獲得的N路非靜音的語音信號進行處 理,獲得第二語音合成結(jié)果C2 (j),然后進入步驟80 ;其中步驟60中的采用第二語音合成模 式對在第j幀獲得的N路非靜音的語音信號進行處理,獲得第二語音合成結(jié)果C2 (j)具體 為:采用公式二獲得第j幀的第二語音合成結(jié)果(:2(」),其中,公式二中的權(quán)重Ws(j)采用公 式三獲得,Ib s (j) I為在第j幀獲得的第s路非靜音的語音信號的信號強度,F(xiàn)s為在第j幀 獲得的第s路非靜音的語音信號在其第1到第j幀中的非靜音幀的數(shù)量,α為信號強度權(quán) 重系數(shù),β為非靜音幀數(shù)量權(quán)重系數(shù),α+β = 1,α和β分別為正數(shù):
[0015] 步驟70,采用第三語音合成模式對在第j幀獲得的N路非靜音的語音信號進行處 理,獲得第三語音合成結(jié)果C 3 (j),然后進入步驟80,其中步驟70中的采用第三語音合成模 式對在第j幀獲得的N路非靜音的語音信號進行處理,獲得第三語音合成結(jié)果C 3 (j)具體 包括;
[0016] 步驟71,將所述N路非靜音的語音信號按照信號強度進行排序;
[0017] 步驟72,選取信號強度最大的前P路非靜音的語音信號采用公式四獲得第三語音 合成結(jié)果C3 (j),剩余的N-P路非靜音的語音信號不參與語音合成,即剩余的N-P路非靜音 的語音信號的權(quán)重Ws (j)為0,其中P為大于2且小于N的整數(shù),其中,公式四中的權(quán)重Ws (j) 采用公式五獲得,Ibs(j) I為在第j幀獲得的第s路非靜音的語音信號的信號強度,F(xiàn)s為在 第j幀獲得的第s路非靜音的語音信號在其第1到第j幀中的非靜音幀的數(shù)量,α為信號 強度權(quán)重系數(shù),β為非靜音幀數(shù)量權(quán)重系數(shù),α+β = 1,α和β分別為正數(shù):
[0020] 步驟80,將第一語音合成結(jié)果、第二語音合成結(jié)果或者第三語音合成結(jié)果減去各 個通話方客戶端的語音數(shù)據(jù)后,再進行回聲消除處理,得到各個通話方客戶端的輸出語音 信號;
[0021] 步驟90,將各個通話方客戶端的輸出語音信號按照各個通話方客戶端的編碼方式 進行編碼后傳輸?shù)较鄳?yīng)的各個通話方客戶端。
[0022] 優(yōu)選的,利用步驟70'替換權(quán)利要求1中的步驟70 :
[0023] 步驟70',采用第三語音合成模式對在第j幀獲得的N路非靜音的語音信號進行處 理,獲得第三語音合成結(jié)果C 3 (j),然后進入步驟80,其中步驟70中的采用第三語音合成模 式對在第j幀獲得的N路非靜音的語音信號進行處理,獲得第三語音合成結(jié)果C 3 (j)具體 包括;
[0024] 步驟71',將所述N路非靜音的語音信號按照信號強度進行排序;
[0025] 步驟72',將所述N路非靜音的語音信號按照在其第1到第j幀中的非靜音幀的數(shù) 量進行排序;
[0026] 步驟73',取步驟71'和步驟72'中的兩種排序的交集,獲得X路信號強度和在其 第1到第j幀中的非靜音幀的數(shù)量逐漸遞減的非靜音的語音信號,其中X為大于等于〇且 小于等于N的整數(shù),如果X為0,則進入步驟74',如果X大于0,則進入步驟75' ;
[0027] 步驟74',將通過步驟71'的排序獲得的信號強度最大的前P路非靜音的語音信 號采用公式四獲得第三語音合成結(jié)果C 3 (j),剩余的N-P路非靜音的語音信號不參與語音合 成,即剩余的N-P路非靜音的語音信號的權(quán)重Ws (j)為0,其中P為大于2且小于N的整數(shù), 其中,公式四中的權(quán)重Ws(j)采用公式五獲得,|b s (j)|為在第j幀獲得的第s路非靜音的 語音信號的信號強度,F(xiàn)s為在第j幀獲得的第s路非靜音的語音信號在其第1到第j幀中 的非靜音幀的數(shù)量,α為信號強度權(quán)重系數(shù),β為非靜音幀數(shù)量權(quán)重系數(shù),α+β = 1,α 和β分別為正數(shù):
[0030] 步驟75',將步驟73'中獲得的X路信號強度和在其第1到第j幀中的非靜音幀的 數(shù)量逐漸遞減的非靜音的語音信號采用公式六獲得第三語音合成結(jié)果C3 (j),剩余的N-X路 非靜音的語音信號不參與語音合成,其中,公式六中的權(quán)重Ws(j)采用公式七獲得,|b s (j) 為在第j幀獲得的第s路非靜音的語音信號的信號強度,F(xiàn)s為在第j幀獲得的第s路非靜 音的語音信號在其第1到第j幀中的非靜音幀的數(shù)量,α為信號強度權(quán)重系數(shù),β為非靜 音幀數(shù)量權(quán)重系數(shù),α+β = 1,α和β分別為正數(shù):
[0033] 優(yōu)選的,在步驟30中的靜音檢測具體為:
[0034] 步驟31,將所述M路采樣后的語音信號中的每一路Id1的第j幀劃分成Z段,其中 每一段記為b lz(j),其中,Z為大于1的整數(shù),Z根據(jù)實際應(yīng)用設(shè)定,z為大于等于1且小于 等于Z的整數(shù);
[0035] 步驟32,采用公式八計算采樣后的第匕路語音信號在第j幀中的信號強度E1(j);
[0037] 步驟33,統(tǒng)計采樣后的第匕路語音信號在第j幀中的過零次數(shù)R i (j);
[0038] 步驟34,將通過步驟32獲得的E1 (j)與第一閾值進行比較,將通過步驟33獲得的 R1(J)與第二閾值進行比較,只有當E1(J)小于所述第一閾值且R1(J)大于第二閾值的情況 下,才將采樣后的第h路語音信號作為靜音的語音信號。
[0039] 優(yōu)選的,在步驟10中,是采用與各自的編碼方法對應(yīng)的解碼方法對接收的M路語 音信號進行解碼。
[0040] 優(yōu)選的,在步驟20中