專利名稱:一種混音處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音處理方法,特別涉及一種用于多方通話(例如會(huì)議電話和會(huì)議電視等場合)的混音處理方法。
背景技術(shù):
隨著通信網(wǎng)絡(luò)及業(yè)務(wù)的蓬勃發(fā)展,多方通話業(yè)務(wù)已經(jīng)成為公共交換電信網(wǎng)/綜合業(yè)務(wù)數(shù)字網(wǎng)(PSTN/ISDN)、分組語音網(wǎng)和移動(dòng)網(wǎng)必備的補(bǔ)充業(yè)務(wù),同時(shí)在上述網(wǎng)絡(luò)中會(huì)議電話和會(huì)議電視業(yè)務(wù)應(yīng)用也越來越廣泛?;镜恼Z音業(yè)務(wù)僅涉及兩個(gè)通話方,通話雙方可互相聽到對(duì)方的聲音,而在多方通話業(yè)務(wù)和會(huì)議業(yè)務(wù)中,同時(shí)通話方可能不止兩方,其中任意一方的語音信號(hào)都可以被傳送至所有其他通話方,而每一通話方都同時(shí)可聽到多個(gè)其他通話方的聲音。為此,在多方通話或會(huì)議電話業(yè)務(wù)中通常需要進(jìn)行混音處理,也即將多個(gè)通話方的語音信號(hào)混合起來,以便任意一個(gè)通話成員都可同時(shí)聽到其它通話方的聲音。
傳統(tǒng)的混音一般采用兩種方法,以下分別加以描述。在第一種方法中,通信系統(tǒng)首先比較所有正在講話的通話方的語音信號(hào)強(qiáng)弱(以語音信號(hào)的能量或幅度量度),找出聲音最強(qiáng)的通話方(以下簡稱為最大方)和聲音次強(qiáng)的通話方(以下簡稱為次大方),然后將最大方的語音信號(hào)傳送給所有其他通話方,并將次大方的語音信號(hào)傳送給最大方,以下將這種方法稱之為最大方比較法。這種方法的優(yōu)點(diǎn)是實(shí)現(xiàn)方式較簡單,缺點(diǎn)是當(dāng)兩方或多方同時(shí)或很快地交替說話時(shí)(例如兩個(gè)人爭吵的情況),將使得各方無法同時(shí)聽到說話者的聲音,并會(huì)導(dǎo)致最大方聲音的頻繁切換,混音效果很差,甚至根本無法聽清聲音。
另一種方法稱之為多方混音法,其基本原理是將通話中聲音較強(qiáng)的幾方或所有方的語音信號(hào)都混合起來(例如采用線性或非線性疊加方式處理)后傳送給所有各方。該方法能很好地解決最大方比較法中的頻繁切換問題,混音效果較好,但是一般僅適合通話各方都使用G.711編解碼傳輸語音或基于波形的語音編解碼情況,即,僅適合PSTN/ISDN網(wǎng)絡(luò)中的多方通話業(yè)務(wù),但不適合通話方中有使用低比特率語音編解碼的情況(例如移動(dòng)網(wǎng)絡(luò)和分組語音網(wǎng)絡(luò)中的多方通話業(yè)務(wù))。這是因?yàn)?,目前移?dòng)網(wǎng)絡(luò)和分組語音網(wǎng)絡(luò)等通信網(wǎng)絡(luò)所采用的低比特率語音編解碼方法都基于參數(shù)編碼原理或分析-合成方式,即通過提取說話人語音信號(hào)中的特征參數(shù)來壓縮語音,例如GSM網(wǎng)絡(luò)中的全球移動(dòng)通信系統(tǒng)(GSM)全速率/半速率/增強(qiáng)型全速率(GSM-FR/HR/EFR)語音編解碼方法,通用移動(dòng)電信系統(tǒng)(UMTS)網(wǎng)絡(luò)中的自適應(yīng)多碼速率(AMR)語音編解碼方法以及H.323網(wǎng)絡(luò)中的G.723.1、G.729等語音編解碼方法。就上述這些基于分析-合成的語音編解碼而言,其僅能夠提取單個(gè)說話人語音信號(hào)中的特征參數(shù),對(duì)于包含多個(gè)說話者聲音的混音信號(hào),由于無法區(qū)分出每個(gè)說話人語音信號(hào)中的特征參數(shù),因此難以進(jìn)行語音編解碼處理。也就是說,經(jīng)過混音后的語音信號(hào)若經(jīng)過低比特率語音編解碼處理,語音質(zhì)量非常差,特別是混音信號(hào)包含較多方語音的情況下更是如此。
在實(shí)際應(yīng)用中,隨著移動(dòng)通信和分組語音通信的普及,多方通話或會(huì)議業(yè)務(wù)必然將包括移動(dòng)用戶和分組語音用戶,因此需要一種混音方法,它適用于同時(shí)包含高、低比特率語音編解碼用戶的多方通話業(yè)務(wù)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于多方通話(例如會(huì)議電話和電視業(yè)務(wù)中)的混音處理方法,它可以使得多方通話業(yè)務(wù)中的使用各種語音編解碼方式的用戶都能接收到語音質(zhì)量令人滿意的信號(hào)。
按照本發(fā)明的用于多方通話業(yè)務(wù)的混音處理方法,業(yè)務(wù)處理系統(tǒng)對(duì)通話各方語音信號(hào)的混音處理包含以下步驟(1)通過比較正在通話各方語音信號(hào)的能量或幅度和優(yōu)先級(jí)設(shè)定規(guī)則,從中確定出最優(yōu)先通話方、次優(yōu)先通話方和語音信號(hào)混合處理所需通話方;(2)對(duì)確定的混合處理所需通話方的語音信號(hào)進(jìn)行語音混合處理;(3)將次優(yōu)先通話方的語音信號(hào)發(fā)送給最優(yōu)先通話方,并且以下述方式向其它通話方發(fā)送語音信號(hào)如果通話方采用基于分析-合成的語音編解碼方式,則向其傳送最優(yōu)先通話方的語音信號(hào),否則向其傳送經(jīng)過混合處理的語音信號(hào)。
對(duì)于采用基于分析-合成的語音編解碼方式的通話方(例如GSM或UTMS網(wǎng)移動(dòng)用戶、使用低比特率語音編解碼的分組語音用戶),本發(fā)明的方法只傳送最優(yōu)先通話方的語音信號(hào)而不傳送混合處理后的語音信號(hào),因此有效解決了在這些語音編解碼方式下無法從多方混音中提取特征參數(shù)的問題,提高了這部分通話方接收到的聲音效果。對(duì)于采用其它基于波形的語音編解碼方式的通話方(例如PSTN/ISDN用戶),本發(fā)明的方法傳送混合處理后的多方語音信號(hào),解決了最大方比較法中最大方聲音頻繁切換的問題,顯著提高了混音效果和質(zhì)量。
附圖簡述
圖1為本發(fā)明混音處理方法的流程圖。
具體實(shí)施例方式
如上所述,最大方比較法不適合于多方通話中最大方聲音頻繁切換的情形,而多方混音法雖然很好地解決了最大方比較法中的頻繁切換問題,混音效果較好,但是不適合通話方中有使用基于分析-合成的語音編解碼方式的情況(例如GSM或UTMS移動(dòng)網(wǎng)絡(luò)和H.323分組語音網(wǎng)絡(luò)中的多方通話業(yè)務(wù))。針對(duì)多方通話業(yè)務(wù)中包含不同語音編解碼方式通話方的情形,本發(fā)明的方法采用相應(yīng)的優(yōu)化方式分別處理兩種通話方的語音信號(hào)傳送,以下結(jié)合圖1描述本發(fā)明方法的原理。
如圖1所示,在步驟1中,實(shí)現(xiàn)多方通話業(yè)務(wù)的處理系統(tǒng)首先根據(jù)語音信號(hào)的能量或幅度和優(yōu)先級(jí)設(shè)置規(guī)則確定最優(yōu)先通話方、次優(yōu)先通話方和語音信號(hào)混合處理所需通話方。值得指出的是,這里最優(yōu)先通話方、次優(yōu)化通話方和語音信號(hào)混合處理所需通話方的確定與最大方比較法或多方混音法中的略有不同,在上述最大方比較法或多方混音法中,確定的判決僅是語音信號(hào)的強(qiáng)弱,而本發(fā)明的方法還考慮到優(yōu)先級(jí)設(shè)定規(guī)則。至于優(yōu)先級(jí)設(shè)定規(guī)則,本發(fā)明并無限制。例如,設(shè)定規(guī)則可以是,只要主持會(huì)議的通話方講話,其即被確定為最優(yōu)先通話方和語音信號(hào)混合處理所需通話方,又如,當(dāng)多個(gè)通話方的語音信號(hào)強(qiáng)弱差不多時(shí),可以按照通話方講話開始時(shí)間的先后設(shè)定最優(yōu)先通話方和次優(yōu)先通話方。
接著進(jìn)入步驟2,對(duì)步驟(1)所確定的混合處理所需通話方的語音信號(hào)進(jìn)行信號(hào)混合處理,語音信號(hào)混合的方式可以采用例如線性疊加或非線性疊加等式,本發(fā)明對(duì)此并無限制。
在步驟3中,將步驟(1)確定的次優(yōu)先通話方的語音信號(hào)發(fā)送給最優(yōu)先通話方,并且以下述方式向其它通話方發(fā)送語音信號(hào)如果接收語音信號(hào)的通話方采用基于分析-合成的語音編解碼方式,則向其傳送最優(yōu)先通話方的語音信號(hào),否則向其傳送經(jīng)過混合處理的語音信號(hào)。完成上述處理后即返回步驟1以進(jìn)行下一次混音處理。
在上述方法中,使用G.711編解碼之類較基于波形的語音編解碼方式的通話方(PSTN/ISDN用戶)將接收到經(jīng)過混合處理的連續(xù)聲音,而使用基于分析-合成的語音編解碼方式的通話方(GSM或UTMS移動(dòng)用戶和H.323分組語音用戶)將接收到最優(yōu)先通話方較清晰的聲音。
在上述混音處理方法中,比較好的是,業(yè)務(wù)處理系統(tǒng)根據(jù)多方通話業(yè)務(wù)呼叫建立時(shí)各方呼叫局的信息(特別是各方呼叫局向及呼叫參數(shù)的信息)判斷其是否采用低比特率語音編解碼,并且如果無法判斷,則確定其采用基于分析-合成的語音編解碼方式以確保通話方收聽到的語音信號(hào)質(zhì)量至少維持在一定的水平之上。
以下進(jìn)一步描述本發(fā)明方法的較佳實(shí)施方式。為了方便地管理多方通話或會(huì)議電話業(yè)務(wù)中各個(gè)通話方的信息,可以在業(yè)務(wù)開始時(shí)創(chuàng)建存儲(chǔ)相關(guān)信息的表格并且進(jìn)行實(shí)時(shí)動(dòng)態(tài)維護(hù)該表格。表格存儲(chǔ)的信息包括但不限于每個(gè)通話方的標(biāo)識(shí)、傳送和接收語音信號(hào)所用的通道編號(hào)、語音編解碼方式標(biāo)識(shí)信息、與混音處理方式有關(guān)的狀態(tài)信息等。所謂語音編解碼方式標(biāo)識(shí)信息即該通話方當(dāng)前是否采用基于分析-合成的語音編解碼方式的信息,例如可以用一個(gè)取值為1的比特表示其采用基于分析-合成的語音編解碼方式而用一個(gè)取值為0的比特表示其采用基于波形的語音編解碼方式。所謂與混音處理方式有關(guān)的狀態(tài)信息即該通話方當(dāng)前是否為最優(yōu)先通話方、次優(yōu)先通話方或語音信號(hào)混合處理所需的通話方。
表1示出了這樣一種表格的示例。如表1所示,第一行為所存儲(chǔ)信息類型的名稱,包括呼叫方編號(hào)、通話所用通道編號(hào)、是否使用基于分析-合成的語音編解碼方式的標(biāo)志、最優(yōu)先標(biāo)識(shí)、次優(yōu)先標(biāo)識(shí)以及是否參與語音信號(hào)混合處理的標(biāo)識(shí)等。每個(gè)通話方都被視為多方通話或會(huì)議電話的呼叫方,當(dāng)呼叫建立時(shí)由業(yè)務(wù)處理系統(tǒng)將呼叫方的編號(hào)、所用通道編號(hào)以及是否使用低比特率語音編解碼的標(biāo)志信息寫入表1相應(yīng)的位置。例如表1即假設(shè)呼叫方1(即編號(hào)為1的呼叫方,以下同)使用編號(hào)為3的通道并且采用比特1表示基于分析-合成的語音編解碼方式,呼叫方2使用編號(hào)為1的通道并且采用比特0表示基于波形的語音編解碼方式,呼叫方3使用編號(hào)為2的通道并且采用比特0基于波形的語音編解碼方式。
業(yè)務(wù)處理系統(tǒng)按照先前描述的方式,根據(jù)語音信號(hào)能量或幅度大小和優(yōu)先級(jí)別設(shè)定規(guī)則,從通話各方的語音信號(hào)確立最優(yōu)先通話方、次優(yōu)先通話方和語音信號(hào)混合處理所需的通話方,并且將判斷結(jié)果寫入表1相應(yīng)的位置。例如假定根據(jù)判斷結(jié)果,呼叫方1~3都為語音信號(hào)混合處理所需的通話方,呼叫方2為最優(yōu)先通話方而呼叫方3為次優(yōu)先通話方,因此在表1中,呼叫方2的最優(yōu)先標(biāo)識(shí)比特取值為1,呼叫方3的次優(yōu)先標(biāo)識(shí)比特取值為1,呼叫方1~3的是否參與混合處理的標(biāo)識(shí)比特取值為1。
隨后,業(yè)務(wù)處理系統(tǒng)按照表1進(jìn)行相應(yīng)的操作。具體而言,業(yè)務(wù)處理系統(tǒng)將呼叫方1~3的語音信號(hào)進(jìn)行混合,將呼叫方3的語音信號(hào)傳送給呼叫方2,將呼叫方2的語音信號(hào)傳送給呼叫方1,而將混合處理后的語音信號(hào)傳送給呼叫方3。
值得指出的是,表1存儲(chǔ)的信息是動(dòng)態(tài)變化的,例如當(dāng)有新的通話方建立呼叫時(shí)或者已有通話方退出呼叫時(shí),表1的呼叫方信息將作增刪,又如,業(yè)務(wù)處理系統(tǒng)在確定最優(yōu)先通話方、次優(yōu)先通話方和語音信號(hào)混合處理所需的通話方后即以最新確定的結(jié)果更新表1相應(yīng)的內(nèi)容。
表1
權(quán)利要求
1.一種用于多方通話的混音處理方法,其特征在于,業(yè)務(wù)處理系統(tǒng)對(duì)通話各方語音信號(hào)的混音處理包含以下步驟(1)通過比較正在通話各方語音信號(hào)的能量或幅度和優(yōu)先級(jí)設(shè)定規(guī)則,從中確定出最優(yōu)先通話方、次優(yōu)先通話方和語音信號(hào)混合處理所需通話方;(2)對(duì)確定的混合處理所需通話方的語音信號(hào)進(jìn)行混合處理;(3)將次優(yōu)先通話方的語音信號(hào)發(fā)送給最優(yōu)先通話方,并且以下述方式向其它通話方發(fā)送語音信號(hào)如果通話方采用基于分析-合成的語音編解碼方式,則向其傳送最優(yōu)先通話方的語音信號(hào),否則向其傳送經(jīng)過混合處理的語音信號(hào)。
2.如權(quán)利要求1所述的混音處理方法,其特征在于,所述業(yè)務(wù)處理系統(tǒng)根據(jù)多方通話業(yè)務(wù)呼叫建立時(shí)各方呼叫局向及呼叫參數(shù)的信息判斷其是否采用基于分析-合成的語音編解碼方式。
3.如權(quán)利要求2所述的混音處理方法,其特征在于,如果無法判斷是否采用基于分析-合成的語音編解碼方式,則認(rèn)為通話方其采用基于分析-合成的語音編解碼方式。
4.如權(quán)利要求1-3中任意一項(xiàng)所述的混音處理方法,其特征在于,步驟(2)中的所述混合處理采用語音信號(hào)的線性或非線性疊加方式實(shí)現(xiàn)。
5.如權(quán)利要求1-3中任意一項(xiàng)所述的混音處理方法,其特征在于,所述基于波形的語音編解碼方式為G.711協(xié)議語音編解碼方式或G.726協(xié)議語音編解碼方式,所述基于分析-合成的語音編解碼方式為GSM全速率/半速率/增強(qiáng)型全速率語音編解碼方式、自適應(yīng)多碼速率語音編解碼方式、G.723.1協(xié)議語音編解碼方式和G.729協(xié)議語音編解碼方式中的其中一種方式。
全文摘要
本發(fā)明的目的是提供一種用于多方通話(例如會(huì)議電話/電視業(yè)務(wù)中)的混音處理方法,它可以使得多方通話業(yè)務(wù)中使用各種語音編解碼方式的用戶都接收到語音質(zhì)量令人滿意的信號(hào)。本發(fā)明的混音處理方法包含以下步驟(1)通過比較正在通話各方語音信號(hào)的能量或幅度和優(yōu)先級(jí)設(shè)定規(guī)則,從中確定出最優(yōu)先通話方、次優(yōu)先通話方和語音信號(hào)混合處理所需的通話方;(2)對(duì)確定的混合處理所需通話方的語音信號(hào)進(jìn)行語音混合處理;(3)將次優(yōu)先通話方的語音信號(hào)發(fā)送給最優(yōu)先通話方,并且以下述方式向其它通話方發(fā)送語音信號(hào)如果通話方采用基于分析-合成的語音編解碼方式,則向其傳送最優(yōu)先通話方的語音信號(hào),否則向其傳送經(jīng)過混合處理的語音信號(hào)。
文檔編號(hào)H04N7/15GK1510898SQ0215765
公開日2004年7月7日 申請(qǐng)日期2002年12月23日 優(yōu)先權(quán)日2002年12月23日
發(fā)明者周亮, 周 亮 申請(qǐng)人:華為技術(shù)有限公司