語音服務器及其語音處理方法

文檔序號：7552395閱讀：250來源：國知局

專利名稱：語音服務器及其語音處理方法
技術領域：
本發(fā)明涉及網絡技術領域，尤其涉及一種語音服務器及其語音處理方法。
背景技術：
現(xiàn)有的語音主要有混音和透傳兩種處理方式，而且在同一語音處理系統(tǒng)中，大多只采用單一的處理方式來處理所有的語音，處理方式固定。由于固定的處理方式大多只針對常見的一般情況進行折中考慮，因此容易導致在某些情況下處理效果的不佳，例如在一個網絡聊天室系統(tǒng)中，語音服務器通常采用混音的方式處理混音數據，然而，即使該聊天室中只有固定的一或兩個用戶聊天時，采用的還是固定的混音方式，對有些可以直接通過透傳方式處理的語音還是采用固定的混音的處理機制進行處理，由于混音操作復雜，從而造成某些語音數據傳輸的時延大，且對服務器增加了不必要的開銷。而且當網絡聊天室用戶的上麥用戶在兩個以上時，由語音服務器以透傳方式處理語音，并由目的客戶端進行混音處理，也可以在確保用戶體驗的前提下優(yōu)化語音服務器及其客戶端的資源配置。

發(fā)明內容
本發(fā)明的主要目的在于公開一種語音服務器及其語音處理方法，以靈活地處理多情況下的語音。為達上述目的，本發(fā)明公開了一種語音處理方法，應用于聊天室的語音服務器側，包括以下步驟:將麥上活躍用戶數分成至少三個不同的區(qū)段，并對應麥上活躍用戶數的不同區(qū)段設置相應的語音處理方式，所述語音處理方式包括透傳、混音和半透傳半混音三種方式；根據上傳語音數據的振幅大小，將上麥用戶細分為麥上活躍用戶和麥上沉默用戶；根據所述麥上活躍用戶數區(qū)段的變化動態(tài)切換語音處理方式?？蛇x的，上述根據所述麥上活躍用戶數區(qū)段的變化動態(tài)切換語音處理方式包括:設置切換語音處理方式的第一及第二閾值；以及當所述麥上活躍用戶數小于所述第一閾值時，所述語音服務器以透傳的方式處理所述聊天室的所有語音數據；當所述麥上活躍用戶數大于或等于所述第一閾值且小于所述第二閾值時，所述語音服務器以半透傳半混音的方式處理所述聊天室中的語音數據，即以透傳方式處理麥上活躍用戶之間的語音數據，并將所有麥上活躍用戶的語音數據混音后發(fā)送給聊天室中的其它芳聽用戶；當所述麥上活躍用戶數大于或等于所述第二閾值時，所述語音服務器以混音的方式處理所述聊天室中的語音數據。為達上述目的，本發(fā)明還公開一種與上述處理方法相對應的語音服務器，包括:與透傳模塊、混音模塊和半透傳半混音模塊建立通信連接的切換模塊，用于根據上傳語音數據的振幅大小，將上麥用戶細分為麥上活躍用戶和麥上沉默用戶，獲取麥上活躍用戶數，判斷麥上活躍用戶數所處的切換語音處理方式的區(qū)段，并針對麥上活躍用戶數的不同區(qū)段的動態(tài)變化調用相應的透傳模塊、混音模塊或半透傳半混音模塊以相應的透傳、混音或半透傳半混音方式處理語音?？蛇x的，上述切換模塊包括:設置單元，用于設置切換語音處理方式的第一及第二閾值；分類單元，用于根據上傳語音數據的振幅大小實時分類麥上活躍用戶和麥上沉默用戶；切換單元，用于從所述分類單元獲取當前的麥上活躍用戶數，根據上述設置單元設置的第一和第二閾值判斷該麥上活躍用戶數所處的切換語音處理方式的區(qū)段；當所述麥上活躍用戶數小于所述第一閾值時，觸發(fā)所述透傳模塊以透傳的方式處理所述聊天室的所有語音數據；當所述麥上活躍用戶數大于或等于所述第一閾值且小于所述第二閾值時，觸發(fā)所述半透傳半混音模塊以半透傳半混音的方式處理所述聊天室中的語音數據，即以透傳方式處理上麥用戶之間的語音數據，并將所有麥上的語音數據混音后發(fā)送給聊天室中的其它用戶；以及當所述麥上活躍用戶數大于或等于所述第二閾值時，觸發(fā)所述混音模塊以混音的方式處理所述聊天室中的語音數據。與現(xiàn)有技術相比，本發(fā)明實施例至少具有以下優(yōu)點:將上麥用戶細分為麥上活躍用戶和麥上沉默用戶，剔除了麥上沉默用戶上傳的噪音等對語音處理的干擾，并根據麥上活躍用戶數區(qū)段的變化動態(tài)切換語音處理方式，實現(xiàn)了各情況下語音的靈活處理，減少服務器混音操作的開銷。

圖1是本發(fā)明實施例公開的語音處理方法的流程圖；圖2是本發(fā)明實施例公開的語音服務器的功能結構框圖。
具體實施例方式下面結合說明書附圖對本發(fā)明的具體實現(xiàn)方式做一詳細描述。實施例一本實施例公開一種語音的處理方法，如圖1所示，包括以下步驟:步驟S1、將麥上活躍用戶數分成至少三個不同的區(qū)段，并對應麥上活躍用戶數的不同區(qū)段設置相應的語音處理方式，該語音處理方式至少包括透傳、混音和半透傳半混音三種方式。所謂半透傳半混音方式，即以透傳方式處理麥上活躍用戶之間的語音數據，并將所有麥上活躍用戶的語音數據混音后發(fā)送給聊天室中的其它用戶，值得說明的是，該方式中“半”的理解不應狹義的限制在1/2，而應做廣義的“一部分”理解，后續(xù)不再贅述?，F(xiàn)有語音服務器的混音處理可以是先解碼源客戶端發(fā)送的語音編碼數據，解碼后的數據統(tǒng)一為PCM格式，然后判斷所有源客戶端所傳送的語音編碼數據的采樣率和聲道是否與標準一致，如果不一致，基于標準采樣率對與之不同的源客戶端的語音數據進行重新采樣，并基于標準聲道對與之不同的所有源客戶端的語音數據進行擴展或合并；根據時間戳對齊所述采樣率和聲道統(tǒng)一的語音數據；最后再將對齊后的語音數據進行混音處理后發(fā)送給宿客戶端。有關混音的處理方法，可以參考本案申請人于2011年5月25日被受理的201110136353.0號專利申請(申請公布日:2011.10.26，公告號:CN102226944A)，在此不作贅述。所謂透傳，即是透明傳送，也就是語音服務器不管傳輸的業(yè)務如何，只負責將接收的源客戶端的語音數據中轉到宿客戶端，而不對傳輸的業(yè)務進行處理，由此省略了編解碼及幀對齊等處理，相比較混音而言，各路數據的傳輸時延更小。步驟S2、根據上傳語音數據的振幅大小，將上麥用戶細分為麥上活躍用戶和麥上沉默用戶。本發(fā)明中，所謂上麥用戶即指打開麥克風、建立有向語音服務器輸送音頻數據通道的用戶。麥上活躍用戶與麥上沉默用戶是構成上麥用戶的兩大用戶組，麥上活躍用戶即指一段時間內發(fā)言音量達標且發(fā)言具有可持續(xù)性的上麥用戶，反之，其它的上麥用戶則為麥上沉默用戶。麥上活躍用戶和麥上沉默用戶的用戶數是兩個動態(tài)的變量。其中，在用戶剛上麥時，默認將該用戶設置為麥上沉默用戶。該步驟中，劃分麥上活躍用戶的方法包括但不限于下述兩種方式:方式一、設置第一振幅閾值，當任一上麥用戶在M個檢測周期內有N個大于所述第一振幅閾值的抽樣值，則將該上麥用戶界定為麥上活躍用戶；其中正整數M>N。方式二、設置第二振幅閾值，當任一上麥用戶持續(xù)L個振幅的抽樣檢測值大于所述第二振幅閾值，則將該上麥用戶界定為麥上活躍用戶；其中L為正整數。步驟S3、根據麥上活躍用戶數區(qū)段的變化動態(tài)切換語音處理方式。本實施例中，可選的，語音服務器設置有切換語音處理方式的第一及第二閾值；當麥上活躍用戶數小于第一閾值時，以透傳的方式處理聊天室的所有語音數據；當麥上活躍用戶數大于或等于第一閾值且小于第二閾值時，以半透傳半混音的方式處理聊天室中的語音數據；以及當麥上活躍用戶數大于或等于第二閾值時，以混音的方式處理聊天室中的語音數據。舉例說明:在一個簡單的網絡聊天室系統(tǒng)中，該第一閾值可以設置為2，第二閾值可以設置為3 ;藉此，則在該網絡聊天室中，當一個麥上活躍用戶發(fā)言時，直接以透傳的方式對該用戶的語音數據廣播給聊天室中的其它用戶，當兩個麥上活躍用戶發(fā)言時，該兩活躍用戶之間的語音數據以透傳方式進行傳輸，延時短，而對聊天室中的其它用戶，由于這部分用戶都是聽眾，對語音傳輸的及時性要求不高，則接收的是語音服務器對該兩上麥用戶混音后的語音數據。在其他具體的應用場景中，當網絡聊天室用戶的麥上活躍用戶在兩個以上時，通過合理設置第一閾值，即由語音服務器以透傳方式處理語音，并由目的客戶端進行混音處理，也可以在確保用戶體驗并減少時延的前提下優(yōu)化語音服務器及其客戶端的資源配置。同理，通過第二閾值的合理設置，可以進一步優(yōu)化語音服務器及其客戶端的資源配置，極大地提高了語音服務器處理語音的靈活度。綜上，本實施例公開的語音處理方法，將上麥用戶細分為麥上活躍用戶和麥上沉默用戶，剔除了麥上沉默用戶上傳的噪音等對語音處理的干擾，并根據麥上活躍用戶數區(qū)段的變化動態(tài)切換語音處理方式，實現(xiàn)了各情況下語音的靈活處理，減少服務器混音操作的開銷。
實施例二本實施例公開一種執(zhí)行上述實施例一所公開方法的語音服務器，如圖2所示，包括:與透傳模塊1、混音模塊2和半透傳半混音模塊3建立通信連接的切換模塊4，用于根據上傳語音數據的振幅大小，將上麥用戶細分為麥上活躍用戶和麥上沉默用戶，獲取麥上活躍用戶數，判斷麥上活躍用戶數所處的切換語音處理方式的區(qū)段，并針對麥上活躍用戶數的不同區(qū)段的動態(tài)變化調用相應的透傳模塊、混音模塊或半透傳半混音模塊以相應的透傳、混音或半透傳半混音方式處理語音。可選的，如圖2所示，上述切換模塊包括:設置單元41，用于設置切換語音處理方式的第一及第二閾值；分類單元42，用于根據上傳語音數據的振幅大小實時分類麥上活躍用戶和麥上沉默用戶；切換單元43，用于從所述分類單元獲取當前的麥上活躍用戶數，根據上述設置單元設置的第一和第二閾值判斷該麥上活躍用戶數所處的切換語音處理方式的區(qū)段；當所述麥上活躍用戶數小于所述第一閾值時，觸發(fā)所述透傳模塊以透傳的方式處理所述聊天室的所有語音數據；當所述麥上活躍用戶數大于或等于所述第一閾值且小于所述第二閾值時，觸發(fā)所述半透傳半混音模塊以半透傳半混音的方式處理所述聊天室中的語音數據，即以透傳方式處理上麥用戶之間的語音數據，并將所有麥上的語音數據混音后發(fā)送給聊天室中的其它旁聽用戶；以及當所述麥上活躍用戶數大于或等于所述第二閾值時，觸發(fā)所述混音模塊以混音的方式處理所述聊天室中的語音數據。本實施例中，可選的，上述分類單元設置有第一振幅閾值，當任一上麥用戶在M個檢測周期內有N個大于該第一振幅閾值的抽樣值，則將該上麥用戶界定為麥上活躍用戶；其中正整數M>N?；蛘?，上述分類單元設置有第二振幅閾值，當任一上麥用戶持續(xù)L個振幅的抽樣檢測值大于所述第二振幅閾值，則將該上麥用戶界定為麥上活躍用戶；其中L為正整數。舉例說明:在一個簡單的網絡聊天室系統(tǒng)中，該第一閾值可以設置為2，第二閾值可以設置為3 ;藉此，則在該網絡聊天室中，當一個麥上活躍用戶發(fā)言時，直接以透傳的方式對該用戶的語音數據廣播給聊天室中的其它旁聽用戶，當兩個麥上活躍用戶發(fā)言時，該兩活躍用戶之間的語音數據以透傳方式進行傳輸，延時短，而對聊天室中的其它用戶，由于這部分用戶都是聽眾，對語音傳輸的及時性要求不高，則接收的是語音服務器對該兩上麥用戶混音后的語音數據。在其他具體的應用場景中，當網絡聊天室用戶的麥上活躍用戶在兩個以上時，通過合理設置第一閾值，即由語音服務器以透傳方式處理語音，并由目的客戶端進行混音處理，也可以在確保用戶體驗并減少時延的前提下優(yōu)化語音服務器及其客戶端的資源配置。同理，通過第二閾值的合理設置，可以進一步優(yōu)化語音服務器及其客戶端的資源配置，極大地提高了語音服務器處理語音的靈活度。綜上，本實施例公開的語音服務器，將上麥用戶細分為麥上活躍用戶和麥上沉默用戶，剔除了麥上沉默用戶上傳的噪音等對語音處理的干擾，并根據麥上活躍用戶數區(qū)段的變化動態(tài)切換語音處理方式，實現(xiàn)了各情況下語音的靈活處理，減少服務器混音操作的開銷。以上公開的僅為本發(fā)明的幾個具體實施例，但是，本發(fā)明并非局限于此，任何本領域的技術人員能思之的變化都應落入本發(fā)明的保護范圍。
權利要求
1.一種語音處理方法，應用于聊天室的語音服務器側，其特征在于，包括以下步驟: 將麥上活躍用戶數分成至少三個不同的區(qū)段，并對應麥上活躍用戶數的不同區(qū)段設置相應的語音處理方式，所述語音處理方式包括透傳、混音和半透傳半混音三種方式；根據上傳語音數據的振幅大小，將上麥用戶細分為麥上活躍用戶和麥上沉默用戶；根據所述麥上活躍用戶數區(qū)段的變化動態(tài)切換語音處理方式。
2.根據權利要求1所述的語音處理方法，其特征在于，所述根據所述麥上活躍用戶數區(qū)段的變化動態(tài)切換語音處理方式包括: 設置切換語音處理方式的第一及第二閾值；以及當所述麥上活躍用戶數小于所述第一閾值時，所述語音服務器以透傳的方式處理所述聊天室的所有語音數據；當所述麥上活躍用戶數大于或等于所述第一閾值且小于所述第二閾值時，所述語音服務器以半透傳半混音的方式處理所述聊天室中的語音數據；當所述麥上活躍用戶數大于或等于所述第二閾值時，所述語音服務器以混音的方式處理所述聊天室中的語音數據。
3.根據權利要求1或2所述的語音處理方法，其特征在于，所述根據上傳語音數據的振幅大小，將上麥用戶細分為麥上活躍用戶和麥上沉默用戶包括: 設置第一振幅閾值，當任一上麥用戶在M個檢測周期內有N個大于所述第一振幅閾值的抽樣值，則將該上麥用戶界定為麥上活躍用戶；其中正整數M>N。
4.根據權利要求1或2所述的語音處理方法，其特征在于，所述根據上傳語音數據的振幅大小，將上麥用戶細分為麥上活躍用戶和麥上沉默用戶包括: 設置第二振幅閾值，當任一上麥用戶持續(xù)L個振幅的抽樣檢測值大于所述第二振幅閾值，則將該上麥用戶界定為麥上活躍用戶；其中L為正整數。
5.—種語音服務器,其特征在于,包括: 與透傳模塊、混音模塊和半透傳半混音模塊建立通信連接的切換模塊，用于根據上傳語音數據的振幅大小，將上麥用戶細分為麥上活躍用戶和麥上沉默用戶，獲取麥上活躍用戶數，判斷麥上活躍用戶數所處的切換語音處理方式的區(qū)段，并針對麥上活躍用戶數的不同區(qū)段的動態(tài)變化調用相應的透傳模塊、混音模塊或半透傳半混音模塊以相應的透傳、混音或半透傳半混音方式處理語音。
6.根據權利要求5所述的語音服務器，其特征在于，所述切換模塊包括: 設置單元，用于設置切換語音處理方式的第一及第二閾值；分類單元，用于根據上傳語音數據的振幅大小實時分類麥上活躍用戶和麥上沉默用戶；切換單元，用于從所述分類單元獲取當前的麥上活躍用戶數，根據上述設置單元設置的第一和第二閾值判斷該麥上活躍用戶數所處的切換語音處理方式的區(qū)段；當所述麥上活躍用戶數小于所述第一閾值時，觸發(fā)所述透傳模塊以透傳的方式處理所述聊天室的所有語音數據；當所述麥上活躍用戶數大于或等于所述第一閾值且小于所述第二閾值時，觸發(fā)所述半透傳半混音模塊以半透傳半混音的方式處理所述聊天室中的語音數據，即以透傳方式處理上麥用戶之間的語音數據，并將所有麥上的語音數據混音后發(fā)送給聊天室中的其它旁聽用戶；以及當所述麥上活躍用戶數大于或等于所述第二閾值時，觸發(fā)所述混音模塊以混音的方式處理所述聊天室中的語音數據。
7.根據權利要求6所述的語音服務器，其特征在于，所述分類單元設置有第一振幅閾值，當任一上麥用戶在M個檢測周期內有N個大于該第一振幅閾值的抽樣值，則將該上麥用戶界定為麥上活躍用戶；其中正整數M>N。
8.根據權利要求6所述的語音服務器，其特征在于，所述分類單元設置有第二振幅閾值，當任一上麥用戶持續(xù)L個振幅的抽樣檢測值大于所述第二振幅閾值，則將該上麥用戶界定為麥上活躍用戶；其中 L為正整數。
全文摘要
本發(fā)明公開一種語音服務器及其語音處理方法，以靈活地處理多情況下的語音。該語音處理方法可應用于聊天室的語音服務器側，包括將麥上活躍用戶數分成至少三個不同的區(qū)段，并對應麥上活躍用戶數的不同區(qū)段設置相應的語音處理方式，所述語音處理方式包括透傳、混音和半透傳半混音三種方式；根據上傳語音數據的振幅大小，將上麥用戶細分為麥上活躍用戶和麥上沉默用戶；根據所述麥上活躍用戶數區(qū)段的變化動態(tài)切換語音處理方式。
文檔編號H04H60/04GK103151046SQ20131005528
公開日2013年6月12日申請日期2013年2月21日優(yōu)先權日2012年10月30日
發(fā)明者李曉鵬, 王海, 張健, 史紅軍, 周平, 晏利平, 羅光喜, 楊平, 羅洋, 彭佳琦, 袁孟全, 張云申請人:貴陽朗瑪信息技術股份有限公司

完整全部詳細技術資料下載