用于改善語音質(zhì)量和可懂度的系統(tǒng)的制作方法

文檔序號：2830034閱讀：553來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于改善語音質(zhì)量和可懂度的系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及用于改善通信系統(tǒng)中的語音信號的質(zhì)量和可懂度(intelligibility)的方法和系統(tǒng)。
技術(shù)背景所有通信系統(tǒng)，特別是無線通信系統(tǒng)，都受到帶寬限制的影響。在這種系統(tǒng)中傳輸?shù)恼Z音信號的質(zhì)量和可懂度必須與系統(tǒng)所能獲得的有限帶寬相平衡。例如，在無線電話網(wǎng)絡(luò)中，帶寬一般根據(jù)成功通信所必須的最小帶寬來設(shè)置。理解元音所必需的最低頻率為大約200Hz 并且最高頻率元音共振峰為大約3000Hz。然而，多數(shù)輔音為寬帶，通常具有的能量在大約3400Hz以下的頻率中。因此，多數(shù)無線語音通信系統(tǒng)被最優(yōu)化成通過300和3400Hz之間。圖1顯示了語音通信系統(tǒng)的典型通帶10。一般地，通帶10足以傳送既是可理解的又是人員話音的合理傳真的語音信號。然而，包含在通帶10以外較高頻率中的主要涉及輔音聲音的語音信息由于帶通濾波而被丟棄。這可能會對出現(xiàn)大量噪聲的環(huán)境中的可懂度產(chǎn)生有害影響。產(chǎn)生圖1中顯示的典型通帶10的通帶標(biāo)準(zhǔn)是基于近場區(qū)測量的，其中獲得說話人聲音的話筒位于與說話人的嘴相距10 cm以內(nèi)的地方。在這些情況下，信號噪聲比很高并且足夠的高頻信息被保留從而使多數(shù)輔音可聽懂。在遠(yuǎn)場區(qū)布置方式中，例如免提電話系統(tǒng)，話筒位于與說話人的嘴相距20cm或更遠(yuǎn)的地方。在這些情況下，信號噪聲比比使用傳統(tǒng)電話聽筒時低很多。在免提電話被應(yīng)用在移動車輛中時，道路、風(fēng)和引擎的噪聲會加劇噪聲問題。實(shí)際上，在帶有免提電話的車輛中的噪聲水平可以高到使許多寬帶低能量輔音被完全掩蓋掉。例如，圖2顯示出說出的詞"seven"的兩個攝譜(spectrograph)。第一攝譜12是在安靜的近場區(qū)條件下取得的。第二個是在有噪聲的遠(yuǎn) 場區(qū)條件下，典型地為移動車輛的免提電話的情況下取得的。首先參
考"安靜的"seven 12，我們能看到組成說出的詞"seven"的每個聲音的跡象。首先，我們看到聲音"S" 16。這是一個大多數(shù)能量在較高頻率中的寬帶聲音。我們看到第一和第二個E和所有它們的諧波18、 22 和夾在中間的寬帶聲音"V" 20。在詞結(jié)尾的"N"的聲音與第二個E22 結(jié)合起來直到舌頭從嘴頂部放下，在詞尾產(chǎn)生短的寬帶能量24。能聽到輔音是決定語音信號的可懂度的最重要的一個因素。比較 "安靜"情況下的sevenl2與"有噪聲的"情況下的sevenl4，我們見到"S"聲音16被完全掩藏在第二個攝譜14中。在"有噪聲的"seven 的攝譜14中可以看清的聲音僅僅為第一和第二個E 18、 22的聲音。這樣，在有噪聲的情況下，說出的詞"seven"的可懂度被嚴(yán)重降低。如果噪聲能量比輔音能量高許多(例如，3dB)，則去除一定量噪聲和通帶內(nèi)的濾波都不能改善可懂度。車輛噪聲將隨著頻率下降。另一方面，許多輔音(例如，F(xiàn)、 T、 S) 傾向于在高頻處具有很多能量。例如，通常僅在10KHz以上的語音信號的信息與輔音相關(guān)。圖3重復(fù)在有噪聲的環(huán)境中記錄的但被延展到更寬的頻率范圍的詞"seven"的攝譜。即使在出現(xiàn)大量噪聲的情況下， "S" 16的聲音也可以被清楚地看到，但其僅在大約6000Hz以上的頻率處可見。因?yàn)榉涓C電話通帶不包括大于3400Hz的頻率，在傳統(tǒng)蜂窩電話通信中此高頻信息被丟棄。由于對帶寬容量的較高要求，擴(kuò)展通帶以保留此高頻率信息不是改善語音通信可懂度的實(shí)際可行的解決方案。已經(jīng)嘗試過壓縮語音信號使它們?nèi)康念l譜(或至少一般丟棄了的高頻內(nèi)容的重要部分)落入通帶中。圖4顯示出將被以此方式壓縮的5500Hz語音信號26。圖5中的信號28為被線性壓縮到較窄的3000Hz 范圍內(nèi)的圖4的5500Hz信號26。盡管壓縮的信號28僅擴(kuò)展到3000Hz，所有包括在從3000到5500頻率范圍中的原始信號26高頻內(nèi)容被保留在壓縮信號28中，但是以嚴(yán)重改變原始信號的基本音調(diào)和音質(zhì)為代價的。原始信號26的所有頻率，包括控制音調(diào)的與元音相關(guān)的低頻被壓縮到較低頻率范圍。如果壓縮的信號28不經(jīng)過后續(xù)的重擴(kuò)展而再現(xiàn)，則語音將具有為語音通信所不能接受的不自然的低音調(diào)。在接收機(jī)處擴(kuò)展壓縮的信號將解決這一問題，但這需要在接收機(jī)處了解由發(fā)射機(jī) 應(yīng)用的壓縮。這種方案對于多數(shù)電話應(yīng)用情況都是不現(xiàn)實(shí)的，在多數(shù) 電話應(yīng)用中，不會供應(yīng)與語音信號一起發(fā)送的編碼信息。為了保留高頻語音信息，電話或其它開放網(wǎng)絡(luò)應(yīng)用的編碼系統(tǒng)或壓縮技術(shù)必須是足夠靈活的，以使得無論壓縮的信號是否在接收機(jī)處重擴(kuò)展或無論未壓縮的信號是否被后續(xù)擴(kuò)展在接收機(jī)處重現(xiàn)的語音信號的質(zhì)量都為可接受的，在此開放網(wǎng)絡(luò)應(yīng)用中，語音信號發(fā)射機(jī)和接收機(jī)都不了解它們對端的能力。根據(jù)改善的編碼系統(tǒng)或技術(shù)，發(fā)射機(jī) 可對語音信號進(jìn)行編碼而不用考慮在通信對端的接收機(jī)是否具有解碼該信號的能力。類似地，接收機(jī)可解碼接收的信號而不考慮信號是否是在發(fā)射機(jī)處被最先編碼的。換言之，改善的編碼系統(tǒng)或壓縮技術(shù)應(yīng) 該以以下方式壓縮語音信號，即，重現(xiàn)的語音信號的質(zhì)量即使在信號不經(jīng)過接收機(jī)處重擴(kuò)展而重現(xiàn)也是滿意的。在即使接收的信號沒有首先由發(fā)射機(jī)編碼接收機(jī)擴(kuò)展語音信號的情況下，語音質(zhì)量也是令人滿意的。此外，此改善的系統(tǒng)應(yīng)該在傳輸?shù)穆曇粜盘栐诎l(fā)射機(jī)處根據(jù)改善的技術(shù)被壓縮時顯示出對傳輸?shù)恼Z音信號的可懂度的顯著改善。發(fā)明內(nèi)容本發(fā)明涉及用于改善傳輸?shù)恼Z音信號中的語音可懂度的系統(tǒng)和方法。本發(fā)明通過保留一般被丟棄或在多數(shù)常規(guī)通信系統(tǒng)中會丟失的高頻信息而增加了語音將被準(zhǔn)確識別和解釋的可能性。本發(fā)明這樣做不會根本地改變受影響的語音信號的音調(diào)和音質(zhì)。本發(fā)明使用頻率壓縮的形式來將較高頻信息移動到通信系統(tǒng)的通帶中的較低頻率處。結(jié)果是，一般與清楚發(fā)音的輔音相關(guān)的高頻信息不會由于濾波或其它限制系統(tǒng)帶寬的因素而丟失。本發(fā)明使用兩階段法(two stage approach)。語音信號的低頻分量例如那些與元音相關(guān)的分量保持不變。這大體上保持了原始語音信號的整體音質(zhì)和音調(diào)。如果壓縮的語音信號不經(jīng)過后續(xù)的重擴(kuò)展而被重現(xiàn)，信號聽起來與重現(xiàn)的不經(jīng)壓縮語音信號相當(dāng)類似。但，通帶的一部分被保留用于壓縮的較高頻信息。一般與輔音相關(guān)的且在常規(guī)通信系統(tǒng)中一般因?yàn)V波而丟失的語音信號較高頻分量，通過將較高頻信息壓縮到保留的通帶部分中而被保留。以此方式壓縮的傳輸語音信號保留了非常改善接收信號的可懂度的輔音信息。本發(fā)明實(shí)現(xiàn)此目的時不會根本上改變傳輸信號的音調(diào)。包含壓縮頻率的通帶保留部分可在接收機(jī)被重擴(kuò)展以進(jìn)一步改善接收到的語音信號的質(zhì)量。本發(fā)明特別適用于免提通信系統(tǒng)，例如車輛中的免提蜂窩電話。如在背景技術(shù)中所述，車輛噪聲可能對語音信號有非常有害的影響，特別在話筒距離說話人的嘴很遠(yuǎn)的免提系統(tǒng)中。通過保留較高頻率信息，作為可懂度中的重要因素的輔音可更容易地被識別，并且被車輛噪聲掩蓋的可能性較少。對于本領(lǐng)域的技術(shù)人員，在審查了以下附圖和詳細(xì)說明的情況下，本發(fā)明的其他系統(tǒng)、方法、特性和優(yōu)點(diǎn)將是明顯的或變得明顯。所有這些附加的系統(tǒng)、方法、特性和優(yōu)點(diǎn)都意在被包括在此說明書中，包括在本發(fā)明的范圍中，并且由權(quán)利要求所保護(hù)。

參照以下附圖和說明，本發(fā)明可被更好地理解。附圖中的組件不必須是按比例繪制的、而重點(diǎn)在于說明本發(fā)明的原理。此外，在附圖中，相似的附圖標(biāo)記指示所有不同視圖中的相應(yīng)部分。圖1顯示出蜂窩式通信系統(tǒng)的典型通帶。圖2顯示出在安靜條件下和噪聲條件下的說出的詞"seven"的攝;並 t^曰o圖3為顯示出比圖2攝譜更寬的頻率范圍的噪聲條件下說出的詞 seven的攝譜。圖4為未壓縮的5500Hz語音信號的譜。圖5為圖4的語音信號在經(jīng)過全譜線性壓縮后的譜。圖6為根據(jù)本發(fā)明執(zhí)行語音信號的頻率壓縮的方法的流程圖。圖7為根據(jù)本發(fā)明的用于壓縮語音信號的一些不同壓縮函數(shù)的圖。圖8為未壓縮語音信號的譜。圖9為根據(jù)本發(fā)明的圖8的語音信號在經(jīng)過壓縮后的譜。圖IO為己經(jīng)被標(biāo)準(zhǔn)化以減小經(jīng)壓縮的語音信號的瞬時峰值功率的經(jīng)壓縮語音信號的譜。圖11為根據(jù)本發(fā)明的執(zhí)行語音信號的頻率擴(kuò)展的方法的流程圖。
圖12為根據(jù)本發(fā)明的在被擴(kuò)展前的經(jīng)壓縮語音信號的譜。圖13為根據(jù)本發(fā)明的已經(jīng)被擴(kuò)展的語音信號的譜。圖14為已經(jīng)被標(biāo)準(zhǔn)化以補(bǔ)償擴(kuò)展信號的峰值功率由于擴(kuò)展而產(chǎn)生的減少的圖12的擴(kuò)展語音信號的譜。圖15為使用本發(fā)明的通信系統(tǒng)的高等級框圖。圖16為圖15的高頻編碼器的框圖。圖17為圖16的高頻壓縮器的框圖。圖18為圖17的壓縮器138的框圖。圖19為圖15的帶寬擴(kuò)展器的框圖。圖20為圖19的譜包絡(luò)擴(kuò)展器的框圖。
具體實(shí)施方式
圖6示出根據(jù)本發(fā)明的對語音信號進(jìn)行編碼的方法的流程圖。第一步驟Sl為限定通帶。通帶限定了將被通信系統(tǒng)實(shí)際傳輸?shù)恼Z音信號的頻率上限和下限。通帶一般根據(jù)使用本發(fā)明的系統(tǒng)的要求而建立。例如，如果本發(fā)明在蜂窩通信系統(tǒng)中使用，則通帶一般從300Hz延伸到3400Hz。本發(fā)明同樣能很好適用于其它系統(tǒng)可限定不同的通帶。第二步驟S2為限定通帶中的閾值頻率。頻率在閾值頻率以下的語音信號分量不被壓縮。頻率在頻率閾值以上的語音信號分量將被壓縮。由于元音主要負(fù)責(zé)確定音調(diào)，并且由于元音的最高頻率大約為3000Hz，希望將頻率閾值設(shè)置在3000Hz左右。這將保持接收到的語音信號的大致音質(zhì)和音調(diào)。在步驟S3中語音信號被接收到。這為將被壓縮的并且將被傳輸?shù)竭h(yuǎn)端接收機(jī)的語音信號。下一步驟S4為識別將被保留的接收到的信號的最高頻率分量。包含在高于此限制的頻率中的所有信息將丟失，然而，低于此頻率限制的信息將被保留。根據(jù)本發(fā)明的編碼語音信號的最后步驟S5為選擇性地壓縮接收語音信號。在從閾值頻率到接收信號的將被保留的最高頻率這一頻率范圍中的接收語音信號頻率分量被壓縮到從閾值頻率延伸到通帶頻率上限的頻率范圍中。低于閾值頻率的頻率保持不變。圖7顯示出用于執(zhí)行根據(jù)上述處理的選擇性壓縮的一些不同壓縮函數(shù)。每一個壓縮函數(shù)的目的都是保持較低頻率(那些低于閾值頻率
的頻率)基本上不被壓縮以保留原始信號的大體音質(zhì)和音調(diào)，而同時對閾值頻率以上的那些頻率應(yīng)用較大的壓縮。壓縮較高頻率保留了大量的一般被丟失的和改善語音信號可懂度的高頻信息。圖7中的圖示出三個不同的壓縮函數(shù)。圖的橫軸表示未壓縮語音信號中的頻率，并且縱軸表示沿橫軸的頻率被映射到的壓縮的頻率。虛線30顯示的第一函數(shù)表示在閾值上的線性壓縮和在閾值以下不壓縮。由實(shí)線32表示的第二壓縮函數(shù)使用在閾值頻率上進(jìn)行非線性壓縮而閾值以下不壓縮。在閾值頻率上，隨著頻率增加，應(yīng)用逐漸增加的壓縮度。這樣，比閾值頻率高很多的頻率比接近閾值的頻率被壓縮至更大程度。最后，第三壓縮函數(shù)由點(diǎn)線34表示。此函數(shù)對接收到的語音信號的整個譜應(yīng)用非線性壓縮。然而，選擇壓縮函數(shù)以使在閾值頻率以下的較低頻率上進(jìn)行較少的或不進(jìn)行壓縮，而在較高頻率上應(yīng)用逐漸增加的壓縮。圖8顯示出未壓縮的5500Hz語音信號36的譜。圖9顯示出圖8 的語音信號36在信號已經(jīng)用圖7所示的閾值壓縮函數(shù)30的線性壓縮進(jìn)行壓縮后的譜38。低于閾值頻率(大約3000Hz)的頻率保持不變，而高于閾值頻率的頻率以線性方式進(jìn)行壓縮。圖8和9中的兩個信號在從0-3000Hz的頻率范圍中相同。然而，原始信號36的從3000Hz到 5500Hz的頻率范圍中的部分被壓縮到圖9的信號38中的3000Hz和 3500Hz間的頻率范圍中。這樣，圖8的初始語音信號36的較高頻率范圍中包含的信息被保留到圖9的壓縮信號38中，但已經(jīng)變換到較低頻率。這改變了高頻分量的音調(diào)，但不改變節(jié)奏。然而，由于較低頻率范圍保持不變，壓縮信號38的基本音調(diào)特性保持與原始信號36相同。被壓縮到壓縮信號38的3000-3400Hz范圍中的較高頻率信息為在初始語音信號36若在帶通為300-3400Hz的典型通信系統(tǒng)中傳輸時其大多數(shù)已經(jīng)由濾波而丟失的信息。由于較高頻率內(nèi)容一般涉及清楚發(fā) 出的輔音，在重現(xiàn)時的壓縮的信號將比其他情況下的重現(xiàn)更容易理解。此外，改善的可懂度在沒有不適當(dāng)?shù)馗淖兂跏颊Z音信號的基本音調(diào)特性的情況下被實(shí)現(xiàn)。即使在壓縮信號不經(jīng)過后續(xù)重擴(kuò)展而被再現(xiàn)時也可實(shí)現(xiàn)這些有益效果。接收壓縮信號的通信終端不需要能夠執(zhí)行反向擴(kuò)展，也不必知道接收的信號已經(jīng)被壓縮，以使能重現(xiàn)比沒有經(jīng)過任何壓縮的信號更容易理解的語音信號。然而，應(yīng)注意到，在實(shí)際上由接收機(jī)執(zhí)行有利的重擴(kuò)展時，結(jié)果更加令人滿意。盡管沒對原始語音信號的基本音調(diào)和音質(zhì)有較大的改變就能實(shí)現(xiàn) 以上述方式壓縮的傳輸語音信號的改善的可懂度，這并不是說無論什么壓縮信號的聲音或質(zhì)量都沒有改變。在語音信號被壓縮時，原始信號的總功率被保留。換言之，壓縮信號的壓縮部分的總功率保持與初始語音信號的將被壓縮的部分的總功率相等。然而，瞬時峰值功率不被保留?？偣β视蓤D8和9中所示的曲線下的面積表示。因?yàn)閳D8中的原始語音信號的頻率(區(qū)域的水平分量)被壓縮到窄很多的頻率范圍中，如果曲線下的面積要保持相同，則曲線(峰信號功率)的垂直分量(或幅度)必須增加。壓縮語音信號較高頻率分量的峰值功率的增加不影響語音信號的基本音調(diào)，但其可能對語音信號的整體音質(zhì)產(chǎn) 生有害影響。在壓縮信號不經(jīng)過后續(xù)重擴(kuò)展就被再現(xiàn)時，輔音和高頻元音成分聽起來可能發(fā)咝咝聲或不自然地變強(qiáng)。此效果可通過標(biāo)準(zhǔn)化壓縮信號的峰值功率被最小化。標(biāo)準(zhǔn)化可通過以與壓縮量成比例的量減小峰值功率來實(shí)現(xiàn)。例如，如果頻率范圍被由2:1的系數(shù)壓縮，壓縮信號的峰值功率被近似加倍。因此，標(biāo)準(zhǔn)化輸出功率的適當(dāng)?shù)牟襟E是將壓縮信號的峰值功率減小一半或-3dB。圖10顯示出以此方式40標(biāo) 準(zhǔn)化的圖9的壓縮語音信號。以所述方式壓縮語音信號本身就能充分地改善可懂度。然而，如果在壓縮信號上執(zhí)行后續(xù)的重擴(kuò)展而信號被返回到其初始的未壓縮狀態(tài)時，改善將更加顯著。不僅可懂度被改善，原始信號的高頻特性實(shí) 質(zhì)上返回到它們初始的壓縮前的狀態(tài)。擴(kuò)展壓縮的信號簡單地為已經(jīng)說明的壓縮步驟的反向。圖11顯示出根據(jù)本發(fā)明的顯示擴(kuò)展語音信號的方法的流程圖。第一步驟S10為接收帶通受限信號。第二步驟Sll為限定通帶中的閾值頻率。優(yōu)選地，此為與壓縮算法中限定的相同的閾值頻率。然而，由于擴(kuò)展是在接收機(jī)處執(zhí)行的，接收機(jī)可能不知道是否對接收到的信號應(yīng)用過壓縮，并且不知道初始建立的閾值頻率，則如果存在這樣的閾值，選擇用于擴(kuò) 展的閾值頻率不必須一定與選擇用于壓縮信號的閾值頻率相匹配。下一步驟S12為限定解碼的語音信號的頻率上限。此限制表示擴(kuò)展的信號的頻率上限。最后的步驟S13為擴(kuò)展接收到的信號位于從閾值頻率到通帶的上限的頻率范圍中的部分，以充滿從閾值頻率到對擴(kuò)展的語音信號限定的頻率上限的頻率范圍。圖12示出在擴(kuò)展前的接收到的帶通受限語音信號的譜42。圖13 顯示出相同信號在已經(jīng)根據(jù)本發(fā)明進(jìn)行擴(kuò)展后的譜44。信號在 0-3000Hz的頻率范圍中的部分大體上保持不變。然而，在3000-3400Hz 的頻率范圍中的部分被水平拉伸以充滿從3400Hz到5500Hz的整個頻率范圍。與上述譜壓縮處理類似，對接收信號進(jìn)行擴(kuò)展的操作在擴(kuò)展信號的峰值功率上具有類似的但相反的效果。在擴(kuò)展過程中，接收信號的譜被拉伸以充滿擴(kuò)展的頻率范圍。再次，接收信號的總功率被保持，但峰值功率不被保持。這樣，輔音和高頻元音成分將具有比它們應(yīng)該具有的少的能量。在語音信號被重現(xiàn)時，這可能對語音質(zhì)量有害。與編碼處理相同，此問題可通過標(biāo)準(zhǔn)化擴(kuò)展信號來解決。圖14顯示出擴(kuò) 展的語音信號在其已經(jīng)被標(biāo)準(zhǔn)化后的譜46。再次，標(biāo)準(zhǔn)化的量將由擴(kuò) 展的程度指示。如果正在擴(kuò)展的語音信號按上述那樣被壓縮和標(biāo)準(zhǔn)化，則在接收機(jī)處擴(kuò)展和標(biāo)準(zhǔn)化信號將產(chǎn)生與原始信號大致上相同的總功率和峰值功率。然而，應(yīng)記住，上述擴(kuò)展技術(shù)將很可能在其中解碼信號的接收機(jī)不知道接收到的信號是否已經(jīng)被編碼和標(biāo)準(zhǔn)化的系統(tǒng)中使用，標(biāo)準(zhǔn) 化擴(kuò)展的信號可能正在將功率增加到在原始信號中未出現(xiàn)的頻率上。這可能比標(biāo)準(zhǔn)化實(shí)際上已經(jīng)被壓縮和標(biāo)準(zhǔn)化的擴(kuò)展信號不成功對信號質(zhì)量有更嚴(yán)重的負(fù)面影響。因此，在不知道由解碼器接收到的信號是否已經(jīng)被編碼和標(biāo)準(zhǔn)化的系統(tǒng)中，可能更需要放棄或限制對擴(kuò)展的解碼信號進(jìn)行標(biāo)準(zhǔn)化。在任何情況下，本發(fā)明的壓縮和擴(kuò)展技術(shù)提供用于改善語音信號的可懂度的有效機(jī)制。這些技術(shù)具有重要的優(yōu)點(diǎn)，目卩，壓縮和擴(kuò)展兩者可相互間獨(dú)立地被應(yīng)用，而不會對傳輸?shù)恼Z音信號的整體音質(zhì)產(chǎn)生嚴(yán)重的不利影響。此處公開的壓縮技術(shù)即使在沒有后續(xù)的重擴(kuò)展時也對可懂度有顯著改善。根據(jù)本發(fā)明的編碼和解碼語音信號的方法提供
對在噪聲環(huán)境和獲取語音信號的話筒距離說話人的嘴較遠(yuǎn)的免提系統(tǒng) 中的語音信號可懂度的顯著的改善。圖15示出實(shí)現(xiàn)本發(fā)明的信號壓縮和擴(kuò)展技術(shù)的通信系統(tǒng)100的高等級框圖。通信系統(tǒng)100包括發(fā)射機(jī)102;接收機(jī)104，和在其間伸展的通信信道106。發(fā)射機(jī)102通過通信信道106向接收機(jī)104發(fā)送在發(fā) 射機(jī)初始產(chǎn)生的語音信號。接收機(jī)104從通信信道106接收語音信號并且對在接收機(jī)104附近的用戶有利地重現(xiàn)語音信號。在系統(tǒng)100中，發(fā)射機(jī)102包括高頻編碼器108,而接收機(jī)104包括帶寬擴(kuò)展器110。然而，必須注意到，本發(fā)明也可以用在發(fā)射機(jī)102包括高頻編碼器但接收機(jī)不包括帶寬擴(kuò)展器的系統(tǒng)中，或用在發(fā)射機(jī)102不包括高頻編碼器但接收機(jī)卻包括帶寬擴(kuò)展器110的系統(tǒng)中。圖16顯示出圖15的高頻編碼器108的更詳細(xì)的視圖。高頻編碼器包括A/D轉(zhuǎn)換器(ADC) 122，時域到頻域變換器124，高頻壓縮器 126;頻域到時域變換器128;下采樣器30;和D/A轉(zhuǎn)換器132。ADC 122接收將在通信信道106上傳輸?shù)妮斎胝Z音信號。ADC 122 將模擬語音信號轉(zhuǎn)換為數(shù)字語音信號，并且將該數(shù)字化的信號輸出到時域到頻域變換器。時域到頻域變換器124將該數(shù)字化的語音信號從時域變換到頻域。從時域到頻域的變換可由一些不同的算法實(shí)現(xiàn)。例如，時域到頻域變換器124可使用快速傅利葉變換(FFT)、數(shù)字傅利葉變換(DFT)、數(shù)字余弦變換(DCT);數(shù)字濾波器組；小波變換；或其它時域到頻域變換。一旦語音信號被變換到頻域，其可在高頻壓縮器126中通過譜變換(spectrally transpose)而被壓縮。高頻壓縮器126將數(shù)字化的語音信號中的較高頻率分量壓縮到通信信道106通帶的較高頻率中的窄帶中。圖17和18更詳細(xì)地顯示高頻壓縮器。根據(jù)圖6的流程圖，最初接收的語音信號僅被部分地壓縮。預(yù)定閾值頻率以下的頻率保持不變，而閾值頻率以上的頻率被壓縮到從閾值頻率到通信信道106通帶的上限頻率的頻帶中。高頻壓縮器126從時域到頻域變換器124接收頻域語音信號。高頻壓縮器126將信號分為兩路。第一路被輸入到高通濾波器(HPF) 134，而第二路被應(yīng)用到低通濾波器(LPF) 136。 HPF 134
和LPF 136根本上將語音信號分為兩個分量高頻分量和低頻分量。根據(jù)圖17中顯示的兩個分開的信號路徑分別處理兩個分量。HPF 134 和LPF 136具有近似等于閾值頻率的截止頻率，閾值頻率被建立用于確定哪些頻率將被壓縮和哪些將不被壓縮。在上信號路徑中，HPF 134 輸出語音信號將被壓縮的較高頻率分量。在下信號路徑中，LPF 138輸出語音信號的將保持不變的較低頻率分量。這樣，來自HPF 134的輸出被輸入到頻率壓縮器138。頻率壓縮器138的輸出被輸入到信號組合器140。在下信號路徑中，來自LPF 136的輸出被直接應(yīng)用到組合器 140而不經(jīng)過壓縮。這樣，經(jīng)過HPF 134的較高頻率被壓縮而經(jīng)過LPF 136的較低頻率保持不變。壓縮的較高頻率和未壓縮的較低頻率在組合器140中被組合。組合的信號具有希望的特性，其包括大體上不變的初始語音信號的較低頻率分量(那些低于閾值頻率的頻率分量)，和初始語音信號的較高頻率分量(那些高于閾值頻率的頻率分量)，其被壓縮到通信信道106通帶內(nèi)的窄頻率范圍中。圖18顯示出壓縮器138本身。來自HPF 134的語音信號輸出的高頻分量在它們到達(dá)壓縮器138時再次被分為兩個信號路徑。第一信號路徑被應(yīng)用到頻率映射矩陣142。第二信號路徑被直接應(yīng)用到增益控制器144。頻率映射矩陣將未壓縮信號域中的頻率槽(frequency pin)映射到壓縮信號范圍中的頻率槽。來自頻率映射矩陣142的輸出也被應(yīng) 用到增益控制器144。增益控制器144是自適應(yīng)控制器，基于由第二信號路徑供應(yīng)的原始信號的譜形狀調(diào)整頻率映射矩陣142的輸出。增益控制器幫助保持譜形狀或原始信號在已經(jīng)被壓縮后的"傾斜"原始信號。增益控制器144的輸出被輸入到圖17的組合器140。組合器140 的輸出包括高頻壓縮器126 (圖16)的實(shí)際輸出并且被輸入到如圖16 所示的頻域到時域變換器128。頻域到時域變換器128將壓縮的語音信號變換回時域。從頻域到時域的變換可為由時域到頻域變換器124執(zhí)行的時域到頻域變換的反變換，但其不必須為此。實(shí)質(zhì)上，可以為任何從頻域到時域的變換。隨后，下采樣器130采樣來自頻域到時域變換器128的時域數(shù)字語音信號輸出。下采樣器130以與壓縮的信號的最高頻率分量一致的采樣速率采樣信號。例如，如果壓縮信號的最高頻率為4000Hz，則下
采樣器將以至少8000Hz的速率采樣壓縮信號。然后向下采樣的信號隨后被應(yīng)用到輸出壓縮模擬語音信號的數(shù)字到模擬轉(zhuǎn)換器(DAC) 132。 DAC 132輸出可在通信信道106上傳輸。因?yàn)閼?yīng)用到語音信號的壓縮，初始語音信號的較高頻率不會由于通信信道106的優(yōu)先帶寬而被丟失。可替換地，數(shù)字到模擬轉(zhuǎn)換可被省略，并且壓縮的數(shù)字語音信號可被直接輸入到例如自動語音識別系統(tǒng)的其它系統(tǒng)。圖19顯示出圖15的帶寬擴(kuò)展器110的更為詳細(xì)的視圖。參照圖 11的流程圖，帶寬擴(kuò)展器的目的為部分地擴(kuò)展在通信信道106上接收到的限帶語音信號。帶寬擴(kuò)展器僅擴(kuò)展接收到的語音信號的在預(yù)定頻率閾值以上的頻率分量。帶寬擴(kuò)展器110包括模擬到數(shù)字轉(zhuǎn)換器(ADC) 146;上采樣器148;時域到頻域變換器150，譜包絡(luò)擴(kuò)展器152;激勵信號生成器154;組合器156;頻域到時域變換器158;數(shù)字到模擬轉(zhuǎn)換器(DAC) 160。ADC 146從通信信道106接收帶限模擬語音信號并將其轉(zhuǎn)換為數(shù) 字信號。上采樣器148隨后以與經(jīng)擴(kuò)展的信號的預(yù)計最高頻率的最高速率相對應(yīng)的采樣速率采樣數(shù)字化語音信號。向上采樣的信號隨后由時域到頻域變換器150從時域變換到頻域。與高頻編碼器108相同，此變換可為快速傅利葉變換(FFT)、數(shù)字傅利葉變換(DFT)、數(shù)字余弦變換；數(shù)字濾波器組；小波變換等。頻域信號隨后被分為兩個分開的路徑。第一個被輸入到譜包絡(luò)擴(kuò)展器152而第二個被應(yīng)用到激勵信號生成器154。譜包絡(luò)擴(kuò)展器在圖20中詳細(xì)顯示出。到包絡(luò)擴(kuò)展器142的輸入被應(yīng)用到頻率解映射矩陣162和增益控制器164。頻率屆映射矩陣162 將接收到的壓縮語音信號的較低頻率槽映射到未壓縮信號的擴(kuò)展的頻率的較高頻率槽。頻率解映射矩陣162的輸出為具有與帶寬擴(kuò)展器110 的希望的最高頻率輸出相對應(yīng)的最高頻率分量的語音信號的擴(kuò)展的譜。來自頻率解映射矩陣的信號輸出的譜被隨后由增益控制器164基于初始未擴(kuò)展信號的譜的譜形狀進(jìn)行調(diào)整，初始未擴(kuò)展信號如所述也輸入到增益控制器164。增益控制器164的輸出形成譜包絡(luò)擴(kuò)展器162 的輸出。在以所述的方式擴(kuò)展語音信號的譜時，產(chǎn)生諧波和相位信息被丟失的問題。激勵信號生成器基于原始的未擴(kuò)展信號產(chǎn)生諧波信息。組合器156將來自譜包絡(luò)擴(kuò)展器152的譜擴(kuò)展語音信號輸出與激勵信號生成器154的輸出組合起來。組合器使用激勵信號生成器的輸出以調(diào) 整擴(kuò)展信號的形狀以添加適當(dāng)?shù)闹C波并且校正它們的相位關(guān)系。組合器156的輸出隨后由頻域到時域變換器158變換回時域。頻域到時域變換器可使用時域到頻域變換150的反變換，或使用一些其它變換。一旦回到時域，擴(kuò)展的語音信號被DAC160轉(zhuǎn)換回模擬信號。模擬信號可隨后由揚(yáng)聲器對接收機(jī)用戶有利地重現(xiàn)。通過使用如圖6和11的流程圖所說明的語音信號壓縮和擴(kuò)展技術(shù)，通信系統(tǒng)100提供比傳統(tǒng)帶限系統(tǒng)中傳輸?shù)恼Z音信號更容易理解和具有更好質(zhì)量的語音信號的傳輸。通信系統(tǒng)100保留了一般由于通信信道的通帶限制而被丟棄的高頻語音信息。此外，通信系統(tǒng)100以以下方式保留高頻信息，S卩，無論在壓縮信號被接收時壓縮信號是否被重擴(kuò)展，均能改善可懂度的方式。信號也可在無論信號是否在傳輸前被壓縮都被擴(kuò)展，而不會對音質(zhì)產(chǎn)生顯著有害影響。這樣，包括高頻編碼器的發(fā)射機(jī)102可傳輸壓縮的信號到不像接收機(jī)104 —樣，不具有帶寬擴(kuò)展器的接收機(jī)。類似地，接收機(jī)104可接收并擴(kuò)展從發(fā)射機(jī)接收的信號，發(fā)射機(jī)不像發(fā)射機(jī)102，不包括高頻編碼器。在所有情況下，傳輸?shù)恼Z音信號的可懂度都被改善。應(yīng)該注意到，本領(lǐng)域的普通技術(shù)人員在不偏離本發(fā)明的精神和范圍下可對本發(fā)明做出不同的改變和更改，本發(fā)明的精神和范圍在權(quán)利要求中被更詳細(xì)地說明。此外，那些本領(lǐng)域的普通技術(shù)人員將認(rèn)識到前述說明僅作為實(shí)例，而不意在限制權(quán)利要求中說明的發(fā)明。盡管已經(jīng)說明了本發(fā)明的不同實(shí)施例，對于本領(lǐng)域的普通技術(shù)人員，明顯的是在本發(fā)明的范圍內(nèi)可有更多實(shí)施例和實(shí)現(xiàn)。因此，本發(fā) 明除了根據(jù)所附權(quán)利要求及其等價物外不受到更多限制。
權(quán)利要求
1.一種改善語音信號可懂度的方法，其包括識別具有通帶頻率下限和通帶頻率上限的頻率通帶；限定所述通帶中的閾值頻率；接收頻譜的最高頻率分量大于所述通帶頻率上限的語音信號；將所述語音信號譜的在第一頻率范圍中的部分壓縮到在所述閾值頻率和所述通帶頻率上限之間的頻率范圍中，所述第一頻率范圍在所述閾值頻率和所述語音信號的最高頻率分量之間。
2. 如權(quán)利要求1所述的改善語音信號可懂度的方法，還包括傳輸所述經(jīng)壓縮的語音信號；接收所述經(jīng)壓縮的語音信號；和可聽見地重現(xiàn)所述經(jīng)壓縮的語音信號。
3. 如權(quán)利要求1所述的改善語音信號可懂度的方法，還包括傳輸所述經(jīng)壓縮的語音信號；接收所述經(jīng)壓縮的語音信號；和擴(kuò)展接收到的經(jīng)壓縮的語音信號。
4. 如權(quán)利要求1所述的改善語音信號可懂度的方法，還包括標(biāo)準(zhǔn)化經(jīng)壓縮的語音信號的峰值功率。
5. 如權(quán)利要求4所述的改善語音信號可懂度的方法，還包括傳輸所述經(jīng)壓縮的標(biāo)準(zhǔn)化的語音信號；接收所述經(jīng)壓縮的標(biāo)準(zhǔn)化的語音信號；和擴(kuò)展所接收到的經(jīng)壓縮的標(biāo)準(zhǔn)化的信號。
6. 如權(quán)利要求5所述的改善語音信號可懂度的方法，還包括重新標(biāo)準(zhǔn)化所述經(jīng)擴(kuò)展的接收到的語音信號，并可聽見地重現(xiàn)所述重新標(biāo)準(zhǔn)化的經(jīng)擴(kuò)展的語音信號。
7. 如權(quán)利要求5所述的改善語音信號可懂度的方法，還包括可聽見地重現(xiàn)所述經(jīng)擴(kuò)展的接收到的信號。
8. 如權(quán)利要求1所述的改善語音信號可懂度的方法，其中，壓縮所述語音信號譜的一部分包括在所述閾值頻率以上應(yīng)用線性頻率壓縮。
9. 如權(quán)利要求1所述的改善語音信號可懂度的方法，其中，壓縮所述語音信號譜的一部分包括在所述閾值頻率以上應(yīng)用非線性頻率壓縮。
10. 如權(quán)利要求1所述的改善語音信號可懂度的方法，其中，壓縮所述語音信號譜的一部分包括在所述語音信號的所述譜的整個范圍中應(yīng)用非線性頻率壓縮，其中，用于執(zhí)行所述壓縮的壓縮函數(shù)被選擇成使得在較低頻率中應(yīng)用最小的壓縮并且在較高頻率中應(yīng)用遞增的壓縮。
11. 一種改善語音信號可懂度的方法，其包括接收具有頻率下限和頻率上限的通帶受限信號；限定所述接收到的語音信號的通帶中的閾值頻率；限定經(jīng)擴(kuò)展的信號的頻率上限；對所述接收到的語音信號的一部分執(zhí)行頻率擴(kuò)展，以使所述接收到的語音信號在所述閾值頻率和所述通帶的頻率上限之間的頻率范圍中的頻率分量被擴(kuò)展，以填滿所述閾值頻率和所述擴(kuò)展信號頻率上限之間的頻率范圍；和可聽見地重現(xiàn)所述經(jīng)擴(kuò)展的語音信號。
12. 如權(quán)利要求11所述的改善語音信號可懂度的方法，還包括標(biāo) 準(zhǔn)化所述經(jīng)擴(kuò)展的信號的峰值功率。
13. 如權(quán)利要求11所述的改善語音信號可懂度的方法，其中，所述頻率擴(kuò)展包括從所述閾值頻率開始的線性擴(kuò)展。
14. 如權(quán)利要求11所述的改善語音信號可懂度的方法，其中，所述頻率擴(kuò)展包括從所述閾值頻率開始的非線性擴(kuò)展。
15. 如權(quán)利要求11所述的改善語音信號可懂度的方法，其中，所述頻率擴(kuò)展包括在所述接收到的信號的整個譜上的非線性擴(kuò)展，其中，用于實(shí)現(xiàn)擴(kuò)展的擴(kuò)展函數(shù)在所述接收到的信號的較低頻率部分上應(yīng)用較小的擴(kuò)展或不應(yīng)用擴(kuò)展，而在所述接收到的信號的較高頻率部分上應(yīng)用遞增的擴(kuò)展。
16. —種用于改善傳輸?shù)恼Z音信號的可懂度的系統(tǒng)，所述系統(tǒng)包括高頻編碼器，其適用于將語音信號在通信信道的通帶以外的高頻分量壓縮到所述通信信道的所述通帶內(nèi)的頻率范圍中，而使所述語音信號的較低頻率分量保持大體上不變；和發(fā)射機(jī)，其用于在所述通信信道上傳輸由所述高頻編碼器壓縮的語首f曰萬。
17. 如權(quán)利要求16所述的系統(tǒng)，其中，所述高頻編碼器包括用于將時域語音信號變換到頻域信號的時域到頻域變換器；用于壓縮所述頻域信號的所述高頻分量的高頻壓縮器；和用于將來自所述高頻壓縮器的所述壓縮的語音信號輸出變換到時域信號的頻域到時域變換器。
18. 如權(quán)利要求18所述的系統(tǒng)，其中，所述高頻壓縮器包括高通濾波器和低通濾波器，用于將所述語音信號的所述高頻分量與所述語音信號的所述低頻分量分開；頻率映射矩陣，用于將所述語音信號的所述高頻分量從所述未壓縮頻域中的頻率槽映射到所述壓縮的頻率范圍中的頻率槽；和組合器，用于將所述語音信號的所述壓縮高頻分量與所述語音信號的所述低頻分量組合起來。
19. 如權(quán)利要求16所述的系統(tǒng)還包括接收機(jī)，其用于接收在所述通信信道上的語音信號；和帶寬擴(kuò)展器，其適于將接收到的信號在所述通信信道通帶的上部中的頻率分量擴(kuò)展到在所述通帶上限以上延伸的頻率范圍中，而使得所述接收到的信號在所述通帶的下部中的頻率分量保持大體上不變。
20. 如權(quán)利要求19所述的系統(tǒng)，其中所述帶寬擴(kuò)展器包括上采樣器，用于增加接收到的信號的采樣速率；時域到頻域變換器，用于將所述經(jīng)向上采樣的信號變換到頻域；譜包絡(luò)擴(kuò)展器，包括頻率解映射矩陣，該頻率解映射矩陣用于將未采樣的頻域信號的頻率分量從所述未擴(kuò)展頻率范圍中的頻率槽映射到所述擴(kuò)展的頻率范圍中的較大頻率槽；激勵信號生成器，其用于從所述未采樣頻域信號生成諧波和相位組合器，其用于組合所述譜包絡(luò)擴(kuò)展器和所述激勵信號生成器的輸出；禾口時域到頻域變換器，其用于將所述組合信號變換到所述時域。
21. —種高頻編碼器，其包括A/D轉(zhuǎn)換器，其用于將模擬語音信號轉(zhuǎn)換成數(shù)字時域語音信號；時域到頻域變換器，其用于將所述時域語音信號變換為頻域語音高頻壓縮器，其用于將所述頻域語音信號的高頻分量譜變換到壓縮的頻域語音信號的較低頻率。頻域到時域變換器，其用于將所述壓縮的頻域語音信號變換成壓縮的時域語音信號；和下采樣器，其用于以適合所述壓縮的時域語音信號的所述最高頻率的采樣速率來對所述壓縮的時域信號進(jìn)行采樣。
22.如權(quán)利要求21所述的高頻編碼器，其中，所述高頻壓縮器包括用于提取所述頻域語音信號的高頻分量的高通濾波器，和用于將所述頻域語音信號的所述高頻分量映射到較低頻率的頻率映射矩陣，所述較低頻率是所述高頻分量被譜變換到的頻率。
23. 如權(quán)利要求21所述的高頻編碼器，其中，所述高頻壓縮器還包括用于提取所述頻域語音信號的低頻分量的低通濾波器，和組合器，所述組合器用于組合所述提取的頻域語音信號的低頻分量和譜變換到較低頻率的所述頻域語音信號高頻分量。
24. —種用于改善語音信號可懂度的方法，其包括識別頻率通帶；接收頻譜的最高頻率分量大于所述通帶的頻率上限的語音信號；通過應(yīng)用頻率壓縮函數(shù)來對所述語音信號的所述頻譜的整個范圍應(yīng)用非線性頻率壓縮以使經(jīng)壓縮的語音信號譜在所述通帶內(nèi)，在所述頻率壓縮函數(shù)中，對所述語音信號譜的較低頻率范圍應(yīng)用最小的壓縮，而對所述語音信號譜的較高頻率范圍應(yīng)用大很多的壓縮。
全文摘要
用于改善語音信號的質(zhì)量和可懂度的系統(tǒng)和方法。此系統(tǒng)和方法對語音信號高頻分量應(yīng)用頻率壓縮，而保持低頻分量大體上不變。這保留了一般由于濾波和帶通限制被丟失的關(guān)于輔音的高頻信息。信息被保留而不嚴(yán)重改變語音信號的基本音調(diào)，以使在語音信號被重現(xiàn)時保留其總的音質(zhì)。該系統(tǒng)和方法還對語音信號應(yīng)用頻率擴(kuò)展。與壓縮類似，僅擴(kuò)展接收語音信號的較高頻率。在對已根據(jù)本發(fā)明壓縮的語音信號應(yīng)用頻率擴(kuò)展時，語音信號大體上返回其壓縮前狀態(tài)。但根據(jù)本發(fā)明的頻率壓縮即使在語音信號隨后不被重新擴(kuò)展時也會改善可懂度。同樣，語音信號可在原始信號即使不被壓縮時也被擴(kuò)展，而不會嚴(yán)重降低語音信號質(zhì)量。這樣，發(fā)射機(jī)包括在接收機(jī)無論能否重新擴(kuò)展信號時都應(yīng)用高頻壓縮的系統(tǒng)。同樣，接收機(jī)可不論信號是否在之前被壓縮都擴(kuò)展接收語音信號。
文檔編號G10L21/02GK101164104SQ200680013216
公開日2008年4月16日申請日期2006年3月23日優(yōu)先權(quán)日2005年4月20日
發(fā)明者P·赫瑟林頓, X·李申請人:Qnx軟件操作系統(tǒng)(威美科)有限公司

完整全部詳細(xì)技術(shù)資料下載