專利名稱::用于語(yǔ)音信號(hào)的組合頻域和時(shí)域音高提取的系統(tǒng)和方法
技術(shù)領(lǐng)域:
:本發(fā)明一般涉及語(yǔ)音處理系統(tǒng)例如語(yǔ)音編碼和語(yǔ)音識(shí)別系統(tǒng)的領(lǐng)域,特別涉及用于窄帶寬通信和無(wú)線通信的分布式語(yǔ)音識(shí)別系統(tǒng)。
背景技術(shù):
:隨著移動(dòng)電話和無(wú)線通信設(shè)備的出現(xiàn),無(wú)線服務(wù)產(chǎn)業(yè)已經(jīng)發(fā)展成數(shù)十億美元的產(chǎn)業(yè)。無(wú)線服務(wù)提供者(WSP)的大量收入來(lái)自訂購(gòu)。這樣,WSP運(yùn)營(yíng)成功網(wǎng)絡(luò)的能力取決于在具有有限帶寬的網(wǎng)絡(luò)上向訂戶提供的服務(wù)的質(zhì)量。為此,WSP不斷地尋找減少在網(wǎng)絡(luò)上傳送的信息的數(shù)量同時(shí)向訂戶保持高服務(wù)質(zhì)量的方法。近來(lái),語(yǔ)音識(shí)別在無(wú)線服務(wù)產(chǎn)業(yè)內(nèi)獲得了成功。語(yǔ)音識(shí)別用于各種應(yīng)用和服務(wù)。例如,無(wú)線服務(wù)訂戶可被提供快速撥號(hào)特性,由此訂戶將呼叫接收者的姓名說(shuō)入無(wú)線設(shè)備。使用語(yǔ)音識(shí)別來(lái)識(shí)別接收者的姓名,并且在訂戶和接收者之間發(fā)起呼叫。在另一個(gè)例子中,主叫者信息(411)可以利用語(yǔ)音識(shí)別來(lái)識(shí)別訂戶試圖向其發(fā)出呼叫的接收者的姓名。隨著語(yǔ)音識(shí)別在無(wú)線領(lǐng)域(wirelesscommunity)內(nèi)獲得了接受,分布式語(yǔ)音識(shí)別(DSR)已經(jīng)作為新興技術(shù)而出現(xiàn)。DSR是指語(yǔ)音識(shí)別系統(tǒng)的特征提取和模式識(shí)別部分是分布式的框架。也就是,在兩個(gè)不同的位置由兩個(gè)不同的處理單元執(zhí)行語(yǔ)音識(shí)別系統(tǒng)的特征提取和模式識(shí)別部分。具體地說(shuō),在前端即在無(wú)線設(shè)備上執(zhí)行特征提取處理,而在后端即由無(wú)線服務(wù)提供者系統(tǒng)執(zhí)行模式識(shí)別處理。DSR使得無(wú)線設(shè)備能夠處理較復(fù)雜的語(yǔ)音識(shí)別任務(wù),例如采用口述航班信息的自動(dòng)飛機(jī)預(yù)訂或者具有類似特性的經(jīng)紀(jì)業(yè)交易。歐洲電信標(biāo)準(zhǔn)協(xié)會(huì)(ETSI)頒布了一組用于DSR的標(biāo)準(zhǔn)。ETSIDSR標(biāo)準(zhǔn)ES201108(2000年4月)和ES202050(2002年7月)定義了前端的特征提取和壓縮算法。然而,這些標(biāo)準(zhǔn)沒有加入后端的語(yǔ)音重構(gòu),這在一些應(yīng)用中可能是重要的。結(jié)果,新工作項(xiàng)WI-030和WI-034已經(jīng)由ETSI發(fā)布,以擴(kuò)展上述標(biāo)準(zhǔn)(分別地,ES201108和ES202050)以便包括后端的語(yǔ)音重構(gòu)以及聲調(diào)語(yǔ)言識(shí)別。在當(dāng)前DSR標(biāo)準(zhǔn)中,被提取、壓縮且傳送到后端的特征是13個(gè)梅兒(Mel)頻率倒譜系數(shù)(MFCC)C0-C12以及幀能量的對(duì)數(shù)log-E。每10毫秒或者每秒100次更新這些特征。在擴(kuò)展標(biāo)準(zhǔn)的提議(即,上述工作項(xiàng))中,除了MFCC和log-E之外,還規(guī)定針對(duì)每幀獲得并傳送音高(pitch)和類(或濁音化(voicing))信息。然而,音高信息提取方法仍然被定義在對(duì)當(dāng)前DSR標(biāo)準(zhǔn)的擴(kuò)展中。各種技術(shù)已被用于采用時(shí)域方法或頻域方法的音高估計(jì)。眾所周知,表示較短幀內(nèi)的濁音的語(yǔ)音信號(hào)可以由周期信號(hào)近似。該周期性以周期循環(huán)時(shí)長(zhǎng)(音高周期)T或者被稱作基頻F0的其倒數(shù)為特征。清音以非周期語(yǔ)音信號(hào)表示。在標(biāo)準(zhǔn)聲碼器例如LPC-10聲碼器和MELP(混合激勵(lì)線性預(yù)測(cè))聲碼器中,通常采用時(shí)域方法進(jìn)行音高提取。用于時(shí)域音高估計(jì)的常用方法也使用相關(guān)型方案,其搜索最大化以時(shí)間t為中心的信號(hào)段與以時(shí)間t-T為中心的信號(hào)段之間的互相關(guān)的音高周期T。采用時(shí)域方法的音高估計(jì)的成功性取決于所涉及的復(fù)雜性和背景噪聲條件而變化。一般而言,這樣的時(shí)域方法由于在給定時(shí)間窗口內(nèi)包含很多音高周期而往往對(duì)于高音高聲音較好。眾所周知,無(wú)限周期信號(hào)的傅立葉頻譜是位于基頻倍數(shù)處的脈沖(諧波、線)序列。因此,頻域音高估計(jì)典型地基于分析頻譜峰值的位置和幅度。用于基頻搜索(即,用于音高估計(jì))的標(biāo)準(zhǔn)是基頻值與頻譜峰值之間的高度兼容性。一般而言,頻域方法由于在分析帶寬內(nèi)典型地存在大量諧波而往往對(duì)于估計(jì)低音高頻率聲音較好。由于頻域方法分析頻譜峰值而非整個(gè)頻譜,因此僅僅部分使用駐留在語(yǔ)音信號(hào)中的信息來(lái)估計(jì)語(yǔ)音樣本的基頻。頻域方法的優(yōu)點(diǎn)和缺點(diǎn)都起因于這一事實(shí)。其優(yōu)點(diǎn)是對(duì)真實(shí)語(yǔ)音數(shù)據(jù)與精確周期模型的偏差的潛在容忍性、噪聲魯棒性以及在計(jì)算復(fù)雜性減輕方面的相對(duì)有效性。然而,該搜索標(biāo)準(zhǔn)由于僅僅測(cè)試部分頻譜信息而不能被視作足夠的條件。由于公知的用于音高提取的頻域方法典型地僅僅使用有關(guān)頻譜中的諧波峰值的信息,因此單獨(dú)使用這些公知的頻域方法將導(dǎo)致遭受對(duì)于DSR應(yīng)用是不可接受的準(zhǔn)確性和誤差的音高估計(jì)。
發(fā)明內(nèi)容簡(jiǎn)要地,根據(jù)本發(fā)明的優(yōu)選實(shí)施例,公開了一種用于提取與音頻信號(hào)相關(guān)聯(lián)的音高信息的系統(tǒng)、方法和計(jì)算機(jī)可讀介質(zhì)。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,頻域和時(shí)域方法的組合用來(lái)捕獲音頻信號(hào)幀,并且準(zhǔn)確地提取每一個(gè)音頻信號(hào)幀的音高信息,同時(shí)保持針對(duì)無(wú)線設(shè)備如蜂窩電話或雙向無(wú)線電設(shè)備的低處理復(fù)雜性。本發(fā)明的優(yōu)選實(shí)施例被實(shí)施在分布式語(yǔ)音識(shí)別系統(tǒng)中。另外,優(yōu)選實(shí)施例可以被實(shí)施在利用與語(yǔ)音音頻信號(hào)相關(guān)的語(yǔ)音編碼的任何信息處理系統(tǒng)中。在本發(fā)明的實(shí)施例中,音高提取器提取由設(shè)備或系統(tǒng)正在處理的音頻信號(hào)的音高信息。例如,該設(shè)備或系統(tǒng)包括用于接收音頻信號(hào)的麥克風(fēng)。音高提取器提取與所接收的音頻信號(hào)對(duì)應(yīng)的音高信息。本發(fā)明的優(yōu)選實(shí)施例是有利的,因?yàn)樗鼈冇脕?lái)改善處理性能同時(shí)準(zhǔn)確地提取語(yǔ)音信號(hào)的音高信息,由此提高通信質(zhì)量。改善的處理性能還將延長(zhǎng)實(shí)現(xiàn)本發(fā)明優(yōu)選實(shí)施例的電池供電設(shè)備的電池壽命。與下面詳細(xì)描述一起包括在本說(shuō)明書中且形成其一部分的附圖用來(lái)進(jìn)一步闡述根據(jù)本發(fā)明的各個(gè)實(shí)施例以及說(shuō)明其各種原理和優(yōu)點(diǎn),其中相同的附圖標(biāo)記貫穿不同的視圖引用相同或在功能上類似的單元。圖1是示出根據(jù)本發(fā)明優(yōu)選實(shí)施例的適于分布式語(yǔ)音識(shí)別的連網(wǎng)系統(tǒng)的方框圖。圖2是根據(jù)本發(fā)明優(yōu)選實(shí)施例的適于分布式語(yǔ)音識(shí)別的無(wú)線通信系統(tǒng)的詳細(xì)方框圖。圖3是示出根據(jù)本發(fā)明優(yōu)選實(shí)施例的用于在無(wú)線通信系統(tǒng)中操作的無(wú)線設(shè)備的方框圖。圖4是示出根據(jù)本發(fā)明優(yōu)選實(shí)施例的適于分布式語(yǔ)音識(shí)別前端的無(wú)線設(shè)備的各組件的方框圖。圖5是示出根據(jù)本發(fā)明優(yōu)選實(shí)施例的音高提取處理的功能方框圖。圖6、7和8是示出根據(jù)本發(fā)明優(yōu)選實(shí)施例的音高提取處理的各部分的操作流程圖。圖9和10是示出根據(jù)本發(fā)明優(yōu)選實(shí)施例的時(shí)域信號(hào)分析處理的時(shí)間線-信號(hào)能量圖。圖11是適于實(shí)現(xiàn)本發(fā)明優(yōu)選實(shí)施例的計(jì)算機(jī)系統(tǒng)的方框圖。具體實(shí)施例方式根據(jù)需要,這里公開了本發(fā)明的詳細(xì)實(shí)施例。然而,應(yīng)當(dāng)理解,所公開的實(shí)施例對(duì)于本發(fā)明而言僅僅是示例性的,本發(fā)明可以采用各種形式來(lái)實(shí)施。因此,這里公開的特定結(jié)構(gòu)和功能細(xì)節(jié)不應(yīng)當(dāng)被解釋為限制性的,而是僅被解釋為權(quán)利要求的基礎(chǔ)以及用于教導(dǎo)本領(lǐng)域的技術(shù)人員以實(shí)際上任何適當(dāng)?shù)木唧w結(jié)構(gòu)以各種方式采用本發(fā)明的代表性基礎(chǔ)。此外,這里使用的術(shù)語(yǔ)和短語(yǔ)不旨在是限制性的;而是提供對(duì)本發(fā)明的可理解描述。這里所使用的術(shù)語(yǔ)“a”或“an”被定義為一個(gè)或多于一個(gè)。這里所使用的術(shù)語(yǔ)“plurality(多個(gè))”被定義為兩個(gè)或多于兩個(gè)。這里所使用的術(shù)語(yǔ)“another(另一個(gè))”被定義為至少第二個(gè)或更多個(gè)。這里所使用的術(shù)語(yǔ)“including(包括)”和/或“having(具有)”被定義為comprising(包括)(即,開放式語(yǔ)言)。這里使用的術(shù)語(yǔ)“耦接”被定義為連接,但是不一定是直接的并且不一定是機(jī)械的。這里所使用的術(shù)語(yǔ)“程序”、“軟件應(yīng)用”等被定義為被設(shè)計(jì)成在計(jì)算機(jī)系統(tǒng)上執(zhí)行的指令序列。程序、計(jì)算機(jī)程序或軟件應(yīng)用可以包括子例程、函數(shù)、過程、對(duì)象方法、對(duì)象實(shí)現(xiàn)、可執(zhí)行應(yīng)用、小應(yīng)用程序、小服務(wù)程序、源代碼、目標(biāo)代碼、共享庫(kù)/動(dòng)態(tài)裝載庫(kù)和/或被設(shè)計(jì)成在計(jì)算機(jī)上執(zhí)行的其它指令序列。根據(jù)優(yōu)選實(shí)施例,如下所述,本發(fā)明通過提出一種有效地組合頻域和時(shí)域技術(shù)的優(yōu)點(diǎn)的低復(fù)雜性、準(zhǔn)確且魯棒的音高估計(jì)方法,有利地克服了現(xiàn)有技術(shù)的問題。根據(jù)本發(fā)明優(yōu)選實(shí)施例而利用的頻域和時(shí)域方法彼此互補(bǔ)并且提供準(zhǔn)確的結(jié)果。例如,頻域方法由于在所分析的帶寬內(nèi)存在大量諧波峰值而往往對(duì)于低音高聲音執(zhí)行得較好,而時(shí)域方法由于在特定時(shí)間窗口內(nèi)存在大量音高循環(huán)而往往對(duì)于高音高聲音執(zhí)行得較好。如下面更詳細(xì)描述的那樣,使用頻域和時(shí)域音高估計(jì)方法的組合來(lái)分析語(yǔ)音音頻信號(hào)將導(dǎo)致總體上更準(zhǔn)確的對(duì)語(yǔ)音音頻信號(hào)的音高的估計(jì),同時(shí)保持音高提取處理的較低處理復(fù)雜性。重要的是,音高提取方法是準(zhǔn)確的,并且具有抗背景噪聲的魯棒性以及低復(fù)雜性。降低音高提取操作方法的復(fù)雜性對(duì)于減小前端設(shè)備例如無(wú)線設(shè)備上的處理開銷尤其重要,其中該前端設(shè)備在處理能力、可用存儲(chǔ)器和其它設(shè)備資源、以及來(lái)自小型便攜式電源例如電池的可用工作功率方面可能受到嚴(yán)重限制。處理器所需的處理開銷量越小,例如從語(yǔ)音信號(hào)提取音高信息,則無(wú)線設(shè)備的電源例如電池中的電能就節(jié)約得越多。用戶不斷地尋求無(wú)線設(shè)備的較長(zhǎng)電池壽命。通過延長(zhǎng)無(wú)線設(shè)備的電池壽命,它向用戶增加了優(yōu)點(diǎn)和益處,因此提高了該產(chǎn)品在市場(chǎng)上的商業(yè)生命力。一般地,本發(fā)明的優(yōu)選實(shí)施例通過利用頻域和時(shí)域音高估計(jì)方法的組合來(lái)處理以幀采樣的語(yǔ)音信號(hào),從而確定每個(gè)語(yǔ)音信號(hào)樣本的音高估計(jì)值,由此提取每個(gè)語(yǔ)音信號(hào)樣本的音高信息。在擴(kuò)展DSR標(biāo)準(zhǔn)的提議中,可以容易地獲得輸入語(yǔ)音信號(hào)的頻譜信息(短時(shí)傅立葉變換形式的頻域信息),以便由音高估計(jì)方法使用。因此,根據(jù)本發(fā)明的優(yōu)選實(shí)施例,頻域音高估計(jì)方法利用可用的頻譜信息。下面討論用于音高估計(jì)的優(yōu)選方法的概述,隨后是新穎系統(tǒng)以及全新且新穎的音高估計(jì)方法的更詳細(xì)描述。使用在DSR前端處已經(jīng)可用的頻譜信息(采取每個(gè)語(yǔ)音幀的短時(shí)傅立葉變換的形式),隨同關(guān)聯(lián)的頻譜得分一起使用頻域方法來(lái)選擇少量的音高候選值,其中該頻譜得分是音高頻率候選值與每個(gè)語(yǔ)音幀的短時(shí)傅立葉變換中的頻譜峰值的兼容性的量度。對(duì)于每一個(gè)音高候選值,計(jì)算對(duì)應(yīng)的時(shí)滯,并且采用時(shí)域相關(guān)方法計(jì)算歸一化的相關(guān)分值,其中優(yōu)選地使用經(jīng)過低通濾波、下采樣的語(yǔ)音信號(hào),以便對(duì)于音高估計(jì)時(shí)域相關(guān)方法保持處理復(fù)雜性低。然后,由邏輯單元處理頻譜得分、相關(guān)得分以及先前音高估計(jì)值的歷史,以選擇最佳候選值作為當(dāng)前幀的音高估計(jì)值。在描述了用于實(shí)現(xiàn)本發(fā)明的可選實(shí)施例的示例性系統(tǒng)之后,下面討論將詳細(xì)描述根據(jù)本發(fā)明優(yōu)選實(shí)施例的特定音高提取方法。圖1是示出根據(jù)本發(fā)明優(yōu)選實(shí)施例的用于分布式語(yǔ)音識(shí)別(DSR)的網(wǎng)絡(luò)的方框圖。圖1示出了在網(wǎng)絡(luò)104上工作的網(wǎng)絡(luò)服務(wù)器或無(wú)線服務(wù)提供者102,其中網(wǎng)絡(luò)104連接服務(wù)器/無(wú)線服務(wù)提供者102與客戶端106和108。在本發(fā)明的一個(gè)實(shí)施例中,圖1表示網(wǎng)絡(luò)計(jì)算機(jī)系統(tǒng),其包括服務(wù)器102、網(wǎng)絡(luò)104以及客戶端計(jì)算機(jī)106到108。在第一實(shí)施例中,網(wǎng)絡(luò)104是電路交換網(wǎng)絡(luò),例如公共服務(wù)電話網(wǎng)絡(luò)(PSTN)??蛇x地,網(wǎng)絡(luò)104是分組交換網(wǎng)絡(luò)。分組交換網(wǎng)絡(luò)是廣域網(wǎng)(WAN),例如全球因特網(wǎng)、專用WAN、局域網(wǎng)(LAN)、電信網(wǎng)絡(luò)或者上述網(wǎng)絡(luò)的任何組合。在另一個(gè)可選方案中,網(wǎng)絡(luò)104是有線網(wǎng)絡(luò)、無(wú)線網(wǎng)絡(luò)、廣播網(wǎng)絡(luò)或者點(diǎn)到點(diǎn)網(wǎng)絡(luò)。在第一實(shí)施例中,服務(wù)器102和計(jì)算機(jī)客戶端106和108包括一個(gè)或多個(gè)個(gè)人計(jì)算機(jī)(PC)(例如,運(yùn)行MicrosoftWindows95/98/2000/ME/CE/NT/XP操作系統(tǒng)的IBM或兼容PC工作站、運(yùn)行MacOS操作系統(tǒng)的Macintosh計(jì)算機(jī)、運(yùn)行LINUX操作系統(tǒng)的PC等等)或者任何其它計(jì)算機(jī)處理設(shè)備??蛇x地,服務(wù)器102以及計(jì)算機(jī)客戶端106和108包括一個(gè)或多個(gè)服務(wù)器系統(tǒng)(例如,運(yùn)行SunOS或AIX操作系統(tǒng)的SUNUltra工作站、運(yùn)行AIX操作系統(tǒng)的IBMRS/6000工作站和服務(wù)器、或者運(yùn)行LINUX操作系統(tǒng)的服務(wù)器)。在本發(fā)明的另一個(gè)實(shí)施例中,圖1表示無(wú)線通信系統(tǒng),其包括無(wú)線服務(wù)提供者102、無(wú)線網(wǎng)絡(luò)104和無(wú)線設(shè)備106到108。無(wú)線服務(wù)提供者102是第一代模擬移動(dòng)電話服務(wù)、第二代數(shù)字移動(dòng)電話服務(wù)或者第三代支持因特網(wǎng)的移動(dòng)電話服務(wù)。在該示例性實(shí)施例中,無(wú)線網(wǎng)絡(luò)104是移動(dòng)電話無(wú)線網(wǎng)絡(luò)、移動(dòng)文本消息傳遞設(shè)備網(wǎng)絡(luò)、尋呼機(jī)網(wǎng)絡(luò)等。此外,圖1的無(wú)線網(wǎng)絡(luò)104的通信標(biāo)準(zhǔn)是碼分多址(CDMA)、時(shí)分多址(TDMA)、全球移動(dòng)通信系統(tǒng)(GSM)、通用分組無(wú)線服務(wù)(GPRS)、頻分多址(FDMA)等。無(wú)線網(wǎng)絡(luò)104支持任意數(shù)目的無(wú)線設(shè)備106到108,其是移動(dòng)電話、文本消息傳遞設(shè)備、手持計(jì)算機(jī)、尋呼機(jī)、傳呼機(jī)等。在該示例性實(shí)施例中,無(wú)線服務(wù)提供者102包括服務(wù)器,其包括一個(gè)或多個(gè)個(gè)人計(jì)算機(jī)(PC)(例如,運(yùn)行MicrosoftWindows95/98/2000/ME/CE/NT/XP操作系統(tǒng)的IBM或兼容PC作站、運(yùn)行MacOS操作系統(tǒng)的Macintosh計(jì)算機(jī)、運(yùn)行LINUX操作系統(tǒng)的PC等等)或者任何其它計(jì)算機(jī)處理設(shè)備。在本發(fā)明的另一個(gè)實(shí)施例中,無(wú)線服務(wù)提供者102的服務(wù)器是一個(gè)或多個(gè)服務(wù)器系統(tǒng)(例如,運(yùn)行SunOS或AIX操作系統(tǒng)的SUNUltra工作站、運(yùn)行AIX操作系統(tǒng)的IBMRS/6000工作站和服務(wù)器、或者運(yùn)行LINUX操作系統(tǒng)的服務(wù)器)。如上所述,DSR是指語(yǔ)音識(shí)別系統(tǒng)的特征提取和模式識(shí)別部分是分布式的框架。也就是,在兩個(gè)不同的位置由兩個(gè)不同的處理單元執(zhí)行語(yǔ)音識(shí)別系統(tǒng)的特征提取和模式識(shí)別部分。具體地說(shuō),由前端例如無(wú)線設(shè)備106和108執(zhí)行特征提取處理,而由后端例如無(wú)線服務(wù)提供者102的服務(wù)器執(zhí)行模式識(shí)別處理。如圖1所示,特征提取處理器107位于前端無(wú)線設(shè)備106中,而模式識(shí)別處理器103位于無(wú)線服務(wù)提供者服務(wù)器102中。特征提取處理器107從語(yǔ)音信號(hào)提取特征信息,例如提取音高信息,然后在網(wǎng)絡(luò)104上將所提取的信息傳達(dá)到模式識(shí)別處理器103。下面將更詳細(xì)地描述由根據(jù)本發(fā)明優(yōu)選實(shí)施例的前端無(wú)線設(shè)備106上的特征提取處理器107執(zhí)行的特征提取處理。圖2是根據(jù)本發(fā)明示例性實(shí)施例的用于DSR的無(wú)線通信系統(tǒng)的詳細(xì)方框圖。圖2是上面參照?qǐng)D1描述的無(wú)線通信系統(tǒng)的更詳細(xì)方框圖。圖2的無(wú)線通信系統(tǒng)包括耦接到基站202、203和204的系統(tǒng)控制器201。系統(tǒng)控制器201以對(duì)于本領(lǐng)域的普通技術(shù)人員是公知的方式控制整個(gè)系統(tǒng)通信。另外,圖2的無(wú)線通信系統(tǒng)通過電話接口206與外部電話網(wǎng)絡(luò)接口?;?02、203和204各自支持包含訂戶單元或收發(fā)器(即無(wú)線設(shè)備)106和108(參見圖1)的地理覆蓋區(qū)域的一部分。無(wú)線設(shè)備106和108使用諸如CDMA、FDMA、CDMA、GPRS和GSM的通信協(xié)議與基站202、203和204接口。在圖2所示的示例性系統(tǒng)中,并且參照?qǐng)D1,無(wú)線設(shè)備106包括特征提取處理器107,并且提供DSR的前端,而基站202包括模式識(shí)別處理器103,其在維護(hù)與無(wú)線設(shè)備106的無(wú)線通信和接口的同時(shí)提供DSR的后端。還應(yīng)當(dāng)注意,在該示例性系統(tǒng)中,基站202、203和204的每一個(gè)包括模式識(shí)別處理器103,其在維護(hù)與前端無(wú)線設(shè)備106的無(wú)線通信和接口的同時(shí)向前端無(wú)線設(shè)備106提供DSR的后端。對(duì)于本領(lǐng)域的普通技術(shù)人員是顯而易見的,DSR后端可以位于整個(gè)通信系統(tǒng)中的另一個(gè)點(diǎn)。例如,控制器201(參見圖2)可以包括DSR后端,其為無(wú)線設(shè)備106、108處理模式識(shí)別,與基站202、203和204通信??蛇x地,DSR后端可以跨越可通信地耦接到控制器201的網(wǎng)絡(luò),例如跨越廣域網(wǎng)如因特網(wǎng)或者例如經(jīng)由電話接口206跨越公共交換電話網(wǎng)絡(luò)(PSTN)而位于遠(yuǎn)程服務(wù)器處。例如,DSR后端可以位于提供航班預(yù)訂服務(wù)的遠(yuǎn)程服務(wù)器處。例如,無(wú)線設(shè)備106的用戶可以能夠?qū)⒄Z(yǔ)音命令和查詢傳達(dá)到遠(yuǎn)程航班預(yù)訂服務(wù)器。本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,任何遠(yuǎn)程應(yīng)用服務(wù)器可以受益于利用本發(fā)明優(yōu)選實(shí)施例的分布式語(yǔ)音識(shí)別系統(tǒng)。圖2的無(wú)線通信系統(tǒng)的地理覆蓋區(qū)域被劃分成多個(gè)覆蓋區(qū)域或小區(qū),其各自由基站202、203和204(這里也被稱作小區(qū)服務(wù)器)服務(wù)。在無(wú)線通信系統(tǒng)內(nèi)操作的無(wú)線設(shè)備選擇特定小區(qū)服務(wù)器作為其用于系統(tǒng)內(nèi)的接收和發(fā)射操作的主要接口。例如,無(wú)線設(shè)備106具有小區(qū)服務(wù)器202作為其主要小區(qū)服務(wù)器,并且無(wú)線設(shè)備108具有小區(qū)服務(wù)器204作為其主要小區(qū)服務(wù)器。優(yōu)選地,無(wú)線設(shè)備選擇提供到無(wú)線通信系統(tǒng)中的最佳通信接口的小區(qū)服務(wù)器。通常,這將取決于無(wú)線設(shè)備與特定小區(qū)服務(wù)器之間的通信信號(hào)質(zhì)量。當(dāng)無(wú)線設(shè)備在無(wú)線通信系統(tǒng)的地理覆蓋區(qū)域內(nèi)的不同地理位置或小區(qū)之間移動(dòng)時(shí),可能需要越區(qū)切換或切換到另一個(gè)小區(qū)服務(wù)器,然后該小區(qū)服務(wù)器將用作主要小區(qū)服務(wù)器。無(wú)線設(shè)備監(jiān)測(cè)來(lái)自服務(wù)相鄰小區(qū)的基站的通信信號(hào),以確定最適當(dāng)?shù)男路?wù)器,以便進(jìn)行越區(qū)切換。除了監(jiān)測(cè)來(lái)自相鄰小區(qū)服務(wù)器的發(fā)射信號(hào)的質(zhì)量之外,根據(jù)本例,無(wú)線設(shè)備還監(jiān)測(cè)與發(fā)射信號(hào)相關(guān)聯(lián)的發(fā)射色碼(colorcode)信息,以便快速地識(shí)別哪個(gè)相鄰小區(qū)服務(wù)器是發(fā)射信號(hào)源。圖3是示出根據(jù)本發(fā)明優(yōu)選實(shí)施例的用于無(wú)線通信系統(tǒng)的無(wú)線設(shè)備的方框圖。圖3是上面參照?qǐng)D1和2描述的無(wú)線設(shè)備的更詳細(xì)方框圖。圖3示出了如圖1所示的無(wú)線設(shè)備106。在本發(fā)明的一個(gè)實(shí)施例中,無(wú)線設(shè)備106包括能夠在諸如CDMA、FDMA、CDMA、GPRS或GSM的通信協(xié)議下通過通信信道接收和發(fā)射射頻信號(hào)的雙向無(wú)線電設(shè)備。無(wú)線設(shè)備106在控制器302的控制下操作,其中控制器302在接收和發(fā)射模式之間切換無(wú)線設(shè)備106。在接收模式中,控制器302通過發(fā)射/接收開關(guān)314將天線316耦接到接收器304。接收器304解碼所接收的信號(hào),并且將這些解碼信號(hào)提供給控制器302。在發(fā)射模式中,控制器302通過開關(guān)314將天線316耦接到發(fā)射器312??刂破?02根據(jù)存儲(chǔ)在存儲(chǔ)器310中的程序指令來(lái)操作發(fā)射器和接收器。所存儲(chǔ)的指令包括相鄰小區(qū)測(cè)量調(diào)度(scheduling)算法。根據(jù)本例,存儲(chǔ)器310包括閃存、其它非易失性存儲(chǔ)器、隨機(jī)存取存儲(chǔ)器(RAM)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)等。定時(shí)器模塊311向控制器302提供定時(shí)信息,以跟蹤(keeptrackof)定時(shí)事件。此外,控制器302可以利用來(lái)自定時(shí)器模塊311的時(shí)間信息來(lái)跟蹤對(duì)相鄰小區(qū)服務(wù)器發(fā)射的調(diào)度和所發(fā)射的色碼信息。當(dāng)調(diào)度相鄰小區(qū)測(cè)量時(shí),接收器304在控制器302的控制下監(jiān)測(cè)相鄰小區(qū)服務(wù)器,并且接收“接收信號(hào)質(zhì)量指示符”(RSQI)。RSQI電路308生成RSQI信號(hào),其表示由每個(gè)所監(jiān)測(cè)的小區(qū)服務(wù)器發(fā)射的信號(hào)的信號(hào)質(zhì)量。每個(gè)RSQI信號(hào)由模擬到數(shù)字轉(zhuǎn)換器306轉(zhuǎn)換成數(shù)字信息,并且作為輸入提供給控制器302。當(dāng)需要越區(qū)切換時(shí),使用色碼信息和關(guān)聯(lián)的接收信號(hào)質(zhì)量指示符,無(wú)線設(shè)備106確定最適當(dāng)?shù)南噜徯^(qū)服務(wù)器以用作主要小區(qū)服務(wù)器。圖3所示的處理器320執(zhí)行下面更詳細(xì)描述的各種功能,例如歸因于分布式語(yǔ)音識(shí)別的功能。根據(jù)本例,操作各種DSR功能的處理器320對(duì)應(yīng)于圖1所示的特征提取處理器107。在本發(fā)明的可選實(shí)施例中,圖3所示的處理器320包括用于執(zhí)行上述功能和任務(wù)的單個(gè)處理器或者多于一個(gè)處理器。下面將更詳細(xì)地討論根據(jù)本發(fā)明優(yōu)選實(shí)施例的圖1的特征提取處理器107的有利結(jié)構(gòu)和功能。圖4是示出無(wú)線設(shè)備106的各組件的方框圖,其中無(wú)線設(shè)備106用來(lái)提供DSR的前端,而后端支持來(lái)自無(wú)線服務(wù)提供者服務(wù)器102。將參照?qǐng)D1、2和3來(lái)討論圖4。應(yīng)當(dāng)理解,在本例中,以來(lái)自存儲(chǔ)器310的功能組件操作的處理器320實(shí)現(xiàn)DSR前端的功能和特征。例如,與處理器320可通信地耦接的特征提取處理器107從例如當(dāng)用戶向麥克風(fēng)404提供語(yǔ)音音頻402時(shí)通過麥克風(fēng)404接收的語(yǔ)音信號(hào)中提取音高信息。如圖3所示,處理器320還可通信地耦接到無(wú)線設(shè)備106的發(fā)射器312,并且用來(lái)將所提取的音高信息無(wú)線從前端特征提取處理器107傳達(dá)到無(wú)線網(wǎng)絡(luò)104中,以便由服務(wù)器102和提供DSR后端的模式識(shí)別處理器103接收。根據(jù)本例,無(wú)線設(shè)備106包括麥克風(fēng)404,其用于從設(shè)備106的用戶接收音頻402如語(yǔ)音音頻。麥克風(fēng)404接收音頻402,然后將語(yǔ)音信號(hào)耦接到處理器320。在由處理器320執(zhí)行的處理中,特征提取處理器107從語(yǔ)音信號(hào)中提取音高信息。將所提取的音高信息編碼在至少一個(gè)碼字中,其中所述至少一個(gè)碼字包括在信息包中。然后,通過網(wǎng)絡(luò)104由發(fā)射器312將該包發(fā)射到包括模式識(shí)別處理器103的無(wú)線服務(wù)提供者服務(wù)器102。下面將更詳細(xì)地描述根據(jù)本發(fā)明優(yōu)選實(shí)施例的用于提取音高信息的有利功能組件和處理。圖5是示出根據(jù)本發(fā)明優(yōu)選實(shí)施例的由特征提取處理器107執(zhí)行的音高提取處理的功能方框圖。參照?qǐng)D1、2、3和4將更好地理解關(guān)于圖5的討論。現(xiàn)在參考圖5,其是示出根據(jù)本發(fā)明的優(yōu)選實(shí)施例而操作的音高估計(jì)系統(tǒng)的簡(jiǎn)化功能方框圖。例如,圖1的特征提取處理器107包括如圖5所示的音高提取系統(tǒng)。圖5的音高提取器包括成幀器502、短時(shí)傅立葉變換(STFT)電路504、頻域音高候選值生成器(FDPCG)506、再采樣器508、相關(guān)電路510、音高單元轉(zhuǎn)換器512、邏輯單元514以及延遲單元516。系統(tǒng)輸入是數(shù)字化的語(yǔ)音信號(hào)。系統(tǒng)輸出是與均勻間隔的時(shí)刻或幀相關(guān)聯(lián)的音高值序列(音高輪廓)。一個(gè)音高值表示對(duì)應(yīng)時(shí)刻附近的語(yǔ)音信號(hào)段的周期性。諸如零的保留音高值表示信號(hào)是非周期的清音語(yǔ)音段。在一些優(yōu)選實(shí)施例中,例如,在ETSIDSR標(biāo)準(zhǔn)擴(kuò)展的提議中,音高估計(jì)只是用于語(yǔ)音編碼、識(shí)別或其它語(yǔ)音處理需要的更一般系統(tǒng)的子系統(tǒng)。在這樣的實(shí)施例中,成幀器502和/或STFT電路504可以是父系統(tǒng)而非音高估計(jì)子系統(tǒng)的功能塊。對(duì)應(yīng)地,在音高估計(jì)子系統(tǒng)之外產(chǎn)生它們的輸出,并且將這些輸出饋送到該音高估計(jì)子系統(tǒng)中。成幀器502將語(yǔ)音信號(hào)劃分成以預(yù)定義的偏移量如10毫秒相對(duì)偏移的、預(yù)定義時(shí)長(zhǎng)如25毫秒的幀。每個(gè)幀被并行傳遞到STFT電路504和再采樣器508中,并且控制流程如圖5所示分支。以該功能方框圖的上分支開始,在STFT電路504內(nèi),對(duì)幀施加短時(shí)傅立葉變換,包括乘以窗口函數(shù)例如漢明窗口,并且對(duì)加窗的幀進(jìn)行快速傅立葉變換(FFT)。由STFT電路504獲得的幀頻譜被進(jìn)一步傳遞到FDPCG506,F(xiàn)DPCG506執(zhí)行基于頻譜峰值的音高候選值確定。FDPCG506可以采用任何公知的頻域音高估計(jì)方法,例如在2000年7月14日提交的美國(guó)專利申請(qǐng)No.09/617,582中描述的頻域音高估計(jì)方法,在此將其全文引作參考。這些方法中的一些使用從一個(gè)或多個(gè)先前幀估計(jì)的音高值。對(duì)應(yīng)地,根據(jù)一個(gè)或多個(gè)先前幀從邏輯單元514(下面對(duì)其進(jìn)行描述)獲得并且存儲(chǔ)在延遲單元516中的整個(gè)音高估計(jì)系統(tǒng)的輸出被饋送到FDPCG506中。所選頻域方法的操作模式被修改成根據(jù)該示例性實(shí)施例,一旦確定了音高候選值,也就是,在進(jìn)行最佳候選值的最終選擇之前,就終止該處理。這樣,F(xiàn)DPCG506輸出多個(gè)音高候選值。在ETSIDSR標(biāo)準(zhǔn)擴(kuò)展的提議中,由FDPCG506產(chǎn)生不多于六個(gè)音高候選值。然而,對(duì)于本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)是顯而易見的,任何數(shù)目的音高候選值可以同樣地適于本發(fā)明的可選實(shí)施例。與每個(gè)音高候選值相關(guān)聯(lián)的信息包括歸一化的基頻F0值(1除以以樣本表達(dá)的音高周期)以及頻譜得分SS,其中頻譜得分SS是該基頻與包含在頻譜中的頻譜峰值的兼容性的量度。返回到流程分支點(diǎn)。每個(gè)幀被饋送到再采樣器508中,其中該幀經(jīng)歷具有截止頻率Fc的低通濾波(LPF),然后是下采樣。在該方法的優(yōu)選實(shí)施例中,組合800Hz低通無(wú)限脈沖響應(yīng)(IIR)第6階巴式(Butterworth)濾波器與第1階IIR低頻加重濾波器(emphasisfilter)。將該組合的濾波器施加到幀的最后FS個(gè)樣本,其中FS是相對(duì)幀偏移,因?yàn)橹挥羞@些樣本才是未出現(xiàn)在先前幀中的新樣本。再采樣器508維護(hù)歷史緩沖器,其中存儲(chǔ)了從先前幀產(chǎn)生的LH個(gè)濾波樣本。LH被定義為L(zhǎng)H=2*MaxPitch-FS,其中,預(yù)定義數(shù)MaxPitch是音高搜索范圍的上限。濾波信號(hào)的FS個(gè)新樣本被附加到歷史緩沖器的內(nèi)容,從而產(chǎn)生2*MaxPitch樣本長(zhǎng)度的擴(kuò)展濾波幀。然后,對(duì)擴(kuò)展濾波幀進(jìn)行下采樣,這產(chǎn)生下采樣擴(kuò)展幀。下采樣因數(shù)DSF優(yōu)選地被選成略微低于由下式給出的最大理論合理值DSF=0.5*Fs/Fc其中,F(xiàn)s是原始語(yǔ)音信號(hào)的采樣頻率,以便避免由于非理想低通濾波而產(chǎn)生的混疊效應(yīng)。這樣,在該方法的優(yōu)選實(shí)施例中,在Fs值分別是8000Hz、11000Hz和16000Hz的情況下,使用4、5和8的DSF值。(分別與5、6.875和10的理論值相比較)。由再采樣器508產(chǎn)生的下采樣擴(kuò)展幀被傳遞到相關(guān)電路510。相關(guān)電路510的任務(wù)是為由FDPCG506生成的每個(gè)音高候選值計(jì)算基于相關(guān)的得分。相應(yīng)地,由音高單元轉(zhuǎn)換器512根據(jù)下式將與由FDPCG506產(chǎn)生的音高候選值相關(guān)聯(lián)的基頻值{F0i}轉(zhuǎn)換成對(duì)應(yīng)的下采樣滯后值{Ti}Ti=1/(F0i*DSF)并且將其饋送到相關(guān)電路510中。對(duì)于每個(gè)音高候選值,相關(guān)電路510產(chǎn)生相關(guān)得分值CS。下面參照?qǐng)D7更詳細(xì)地描述相關(guān)電路510的優(yōu)選操作模式。最后,將音高候選值列表饋送到邏輯單元514中。與每個(gè)候選值相關(guān)聯(lián)的信息包括a)基頻值F0;b)頻譜得分SS;以及c)相關(guān)得分CS。邏輯單元優(yōu)選地在內(nèi)部維護(hù)關(guān)于從一個(gè)或多個(gè)先前幀獲得的音高估計(jì)值的歷史信息。使用所有上述信息,邏輯單元514從傳到其中的多個(gè)音高候選值中選擇音高估計(jì)值,或者指示該幀為清音。在選擇音高估計(jì)值時(shí),邏輯單元514優(yōu)先選擇具有高(即最佳)相關(guān)和頻譜得分、高基頻(短音高循環(huán)周期)值和與從先前幀獲得的音高估計(jì)值的基頻值接近(即,最佳匹配)的基頻值的候選值。根據(jù)本討論對(duì)于本領(lǐng)域的普通技術(shù)人員是顯而易見的,可以使用實(shí)現(xiàn)這類折衷的任何邏輯方案。圖6是示出在該方法的優(yōu)選實(shí)施例中實(shí)現(xiàn)的邏輯單元514的操作的流程圖。在步驟602,按照候選值的F0值的降序?qū)蜻x值進(jìn)行排序。然后,在步驟604,順序地掃描候選值,直到找到了類1的候選值,或者測(cè)試了所有候選值為止。如果與候選值相關(guān)聯(lián)的CS和SS值滿足下面條件,則候選值被定義為類1(CS>C1并且SS>S1)或者(SS>S11并且SS+CS>CS1)(類1條件)其中,C1=0.79,S1=0.78,S11=0.68以及CS1=1.6。在步驟606,流程發(fā)生分支。如果找到類1候選值,則選擇它作為優(yōu)選候選值,并且控制傳到步驟608,從而執(zhí)行下面描述的“查找附近最佳者(FindBestinVicinity)”過程。檢查優(yōu)選候選值之后的候選值當(dāng)中的那些候選值(thosecandidatesamongtheonesfollowingthepreferredcandidate),以確定哪些候選值在F0上接近于優(yōu)選候選值。如果滿足下列條件,則兩個(gè)值F01和F02被定義為彼此接近(F01<1.2*F02并且F02<1.2*F01)(接近條件)在接近的候選值當(dāng)中確定多個(gè)較佳候選值。較佳候選值必須分別具有高于優(yōu)選候選值的SS和CS值。如果存在至少一個(gè)較佳候選值,則在這些較佳候選值當(dāng)中確定最佳候選值。最佳候選值的特征在于沒有其它較佳候選值分別具有高于最佳候選值的SS和CS值。將最佳候選值選擇為優(yōu)選候選值來(lái)代替前面候選值。如果沒有找到較佳候選值,則優(yōu)選候選值保持不變。在步驟610,逐一地掃描優(yōu)選候選值之后的候選值,直到找到其平均得分顯著高于優(yōu)選候選值的平均得分的類1候選值SScandidate+CScandidate>SSpreferred+CSpreferred+0.18或者掃描了所有候選值為止。如果找到滿足上述條件的候選值,則在步驟612,選擇它作為優(yōu)選候選值,并且在步驟614施加“查找附近最佳者”過程。否則,控制直接傳到步驟616。在步驟616,將音高估計(jì)值設(shè)成優(yōu)選候選值,并且將控制傳到在步驟670更新歷史,然后在步驟672退出流程圖。返回到條件分支步驟606,如果沒有找到類1候選值,則在步驟620,檢查內(nèi)部維護(hù)的歷史信息是否表示“在穩(wěn)定軌跡上”(OnStableTrack)條件?!斑B續(xù)的音高軌跡”被定義為這樣情況下的兩個(gè)或更多個(gè)順序幀的序列,其中與該序列中的每個(gè)幀相關(guān)聯(lián)的音高估計(jì)值在F0上接近于與先前幀相關(guān)聯(lián)的音高估計(jì)值(按照所規(guī)定的上述接近定義)。如果屬于連續(xù)音高軌跡的最后幀是前一幀或者緊鄰在前一幀之前的幀,并且連續(xù)音高軌跡至少6幀長(zhǎng),則認(rèn)為滿足“在穩(wěn)定軌跡上”條件。如果“在穩(wěn)定軌跡上”條件有效,則控制傳到步驟622,否則傳到步驟640。在步驟622,將參考基頻值F0ref設(shè)成與屬于穩(wěn)定軌跡的最后幀相關(guān)聯(lián)的F0。然后,在步驟624,順序地掃描候選值,直到找到類2的候選值,或者測(cè)試了所有候選值為止。如果與候選值相關(guān)聯(lián)的F0值以及CS和SS得分滿足下面條件,則候選值被定義為類2(CS>C2并且SS>S2)并且(F0和F0ref彼此接近)(類2條件)其中,C2=0.7,S2=0.7。如果在步驟626沒有找到類2候選值,則在步驟628將音高估計(jì)值設(shè)成表示清音幀。否則,在步驟630選擇類2候選值作為優(yōu)選候選值,并且施加“查找附近最佳者”過程。然后,在步驟632,將音高估計(jì)值設(shè)成優(yōu)選候選值。在音高估計(jì)值設(shè)置步驟628或632的任一個(gè)之后,控制傳到更新歷史步驟670,然后在步驟672退出。返回到最后條件分支步驟620,如果不滿足“在穩(wěn)定軌跡上”條件,則控制傳到步驟640,其中測(cè)試連續(xù)音高條件。如果前一幀屬于至少2幀長(zhǎng)的連續(xù)音高軌跡,則認(rèn)為滿足該條件。如果滿足連續(xù)音高條件,則在步驟642,將F0ref參考值設(shè)成對(duì)前一幀估計(jì)的值,并且在步驟644執(zhí)行類2候選值搜索。如果找到類2候選值,則在步驟646選擇它作為優(yōu)選候選值,并且在步驟648施加“查找附近最佳者”過程,并且在步驟650將音高估計(jì)值設(shè)成優(yōu)選候選值,隨后是在步驟670更新歷史。否則,如果步驟640的連續(xù)音高條件測(cè)試失敗,則控制流到步驟660。在步驟660,順序地掃描候選值,直到找到類3的候選值,或者測(cè)試了所有候選值為止。如果與候選值得分相關(guān)聯(lián)的CS和SS得分滿足下面條件,則候選值被定義為類3(CS>C3或者SS>S3)(類3條件)其中C3=0.85,S3=0.82。如果在步驟662沒有找到類3候選值,則在步驟668將音高估計(jì)值設(shè)成表示清音幀。否則,在步驟664選擇類3候選值作為優(yōu)選候選值,并且施加“查找附近最佳者”過程。然后,在步驟666,將音高估計(jì)值設(shè)成優(yōu)選候選值。在音高估計(jì)值設(shè)置步驟668或666的任一個(gè)之后,控制傳到在步驟670更新歷史。在步驟670,將與前一幀相關(guān)聯(lián)的音高估計(jì)值設(shè)成新的音高估計(jì)值,并且相應(yīng)地更新所有歷史信息?,F(xiàn)在將描述相關(guān)電路510的操作(參見圖5)。相關(guān)電路在輸入端獲得·下采樣擴(kuò)展幀s(n),n=1、2、...、LDEF,其中LDEF=floor(2*MaxPitch/DSF)是除以下采樣因數(shù)并且經(jīng)過向下取整舍入的濾波擴(kuò)展幀長(zhǎng)度;·對(duì)應(yīng)于音高候選值的(一般而言非整數(shù))滯后值的列表{Ti}。相關(guān)電路510為對(duì)應(yīng)于滯后值的音高候選值產(chǎn)生相關(guān)值(相關(guān)得分CS)的列表。使用幀樣本的子集來(lái)計(jì)算每個(gè)相關(guān)值。子集中的樣本數(shù)取決于滯后值。該子集通過最大化由其表示的信號(hào)的能量來(lái)選擇。計(jì)算非整數(shù)滯后Ti的上下兩個(gè)整數(shù)滯后即floor(Ti)和ceil(Ti)的相關(guān)值。然后,使用在Y.Medan、E.Yair和D.Chazan,″Superresolutionpitchdeterminationofspeechsignals″,IEEETrans.Acouts.,SpeechandSignalProcessing,vol.39,pp.40-48,Jan.1991.中提出的插值技術(shù)來(lái)近似Ti滯后的相關(guān)?,F(xiàn)在參考圖7和8,其組成了示出與相關(guān)電路510相關(guān)的操作的流程圖。還參考圖9和10。在初始化步驟702,將表示最后整數(shù)滯后的內(nèi)部變量ITlast設(shè)成0。在步驟704,以升序?qū)λ休斎霚笾颠M(jìn)行排序。在步驟706,將當(dāng)前滯后T設(shè)成第一滯后。在插值準(zhǔn)備步驟708,計(jì)算整數(shù)滯后IT=ceil(T)和插值因數(shù)α=IT-T。在步驟710,將整數(shù)滯后值IT與最后整數(shù)滯后ITlast進(jìn)行比較。如果這些值相同,則控制流到插值步驟720。否則,在步驟711,確定樣本子集以便用于相關(guān)得分計(jì)算。子集由一個(gè)(簡(jiǎn)單子集)或者兩個(gè)(復(fù)合子集)參數(shù)對(duì)(OS,LS)指定。將整數(shù)滯后IT與預(yù)定義的窗口長(zhǎng)度LW=round((75/DSF)*(SF/8000))進(jìn)行比較。如果整數(shù)滯后IT小于或等于LW,則如參照?qǐng)D9進(jìn)一步所述確定簡(jiǎn)單子集。在該步驟僅僅使用下采樣擴(kuò)展幀的LDF=LF/DSF個(gè)最后樣本,其中LF是以樣本為單位的幀時(shí)長(zhǎng)。也就是,不使用歷史。在由下采樣擴(kuò)展幀的最后LDF個(gè)樣本組成的窗口的開始處定位(LW+IT)個(gè)樣本長(zhǎng)的片斷。計(jì)算片斷能量(平方值之和)。然后,將該片斷向下采樣擴(kuò)展幀的末尾移動(dòng)一個(gè)樣本,并且計(jì)算與移動(dòng)后的片斷相關(guān)聯(lián)的能量。該處理繼續(xù)直到該片斷的最后樣本到達(dá)下采樣擴(kuò)展幀的末尾為止。選擇具有最高能量的片斷的位置oo=argmaxLDEF-LDF≤m≤LDEF-LW-ITΣi=0LW+IT-1s(m+i)2]]>子集參數(shù)被設(shè)為OS=o、LS=LW。否則,如果整數(shù)滯后IT大于LW,則如參照?qǐng)D10進(jìn)一步描述的那樣,在步驟716確定子集。在這種情況下要被使用的下采樣擴(kuò)展幀的一部分取決于IT值。具體地說(shuō),使用NS=max(LDF,2*IT)個(gè)最后樣本,從而意味著歷史僅僅用于足夠長(zhǎng)的滯后值。分別在偏移量m1=(LDEF-NS/2-IT)和m2=(LDEF-NS/2)處從幀提取均具有長(zhǎng)度IT-1的兩個(gè)相鄰段Seg1和Seg2。每個(gè)段被認(rèn)為是表示周期信號(hào)的循環(huán)緩沖區(qū)。首先,在Seg1段的開頭處定位LW個(gè)樣本長(zhǎng)的片段1。類似地,在Seg2的開頭處定位LW個(gè)樣本長(zhǎng)的片斷2。計(jì)算片斷能量之和。然后,將片斷向右(向段的末尾)(同時(shí))移動(dòng)一個(gè)樣本,并且計(jì)算與移動(dòng)后的片斷對(duì)應(yīng)的能量之和。即使在一個(gè)片斷到達(dá)其段內(nèi)的最右位置之后,該處理還繼續(xù),并且把偏移操作當(dāng)作循環(huán)操作。也就是,將片斷分裂成兩個(gè)部分,左部分位于段的開頭處,并且右部分位于段的末尾處,如圖10所示。當(dāng)片斷移動(dòng)時(shí),其左部分長(zhǎng)度減小,并且左部分長(zhǎng)度增大。選擇最大能量位置oo=argmax0≤m≤IT[Σi=0LW-1Seg1((m+i)modIT)2+Σi=0LW-1Seg2((m+i)modIT)2]]]>存在兩種可能性。1)偏移o足夠小,具體地說(shuō),o<IT-LW。在這種情況下,定義簡(jiǎn)單子集并且將其參數(shù)設(shè)成OS=o+m1,LS=LW。2)偏移o大,o>=IT-LW,使得每個(gè)子集圍著循環(huán)緩沖區(qū)的邊緣環(huán)繞。在這種情況下,定義復(fù)合子集(OSl=o+ml,LS1=IT-o)和(OS2=m1,LS2=LW-IT+o)。返回到圖8,在步驟712,該流程發(fā)生分支。如果確定了簡(jiǎn)單子集,則控制傳到步驟713,否則并行執(zhí)行步驟714和715。三個(gè)處理步驟(713、714、715)的每一個(gè)實(shí)現(xiàn)下述相同的累積(accumulation)過程。該過程的輸入是子集參數(shù)(OS,LS)。定義三個(gè)向量,其中每一個(gè)具有長(zhǎng)度LS。X={x(i)=s(OS+i-l)},X1={x1(i)=s(OS+i)},Y={y(i)=s(OS+IT+i-l)},其中,i=1,2,...,LS。然后,計(jì)算每個(gè)向量的平方范數(shù)(X,X)、(X1,X1)和(Y,Y)以及每個(gè)向量對(duì)的內(nèi)積(X,X1)、(X,Y)和(X1,Y)。另外,對(duì)每個(gè)向量SX、SX1、SY計(jì)算所有坐標(biāo)(coordinate)之和。在確定了復(fù)合子集的情況下,在步驟714,對(duì)(OS1,LS1)子集施加累積過程,并且在步驟715,對(duì)(OS2,LS2)子集施加該過程。然后,在步驟716,相加由累積過程產(chǎn)生的對(duì)應(yīng)值。在步驟717,如下修改平方范數(shù)和內(nèi)積(X,X)=(X,X)-SX2/LW(Xl,X1)=(X1,X1)-SX12/LW(Y,Y)=(Y,Y)-SY2/LW(X,X1)=(X,X1)-SX.SX1/LW(X,Y)=(X,Y)-SX.SY/LW(X,Xl)=(X,Xl)-SX.SX1/LW存儲(chǔ)修改后的平方范數(shù)和內(nèi)積,以便在處理下一個(gè)候選滯后值時(shí)有可能使用。將整數(shù)滯后IT保存為最后整數(shù)滯后。在步驟720,如下計(jì)算相關(guān)得分。D=(X,Y)·((1-α)2·(X,Y)+2·(1-α)·α·(X,X1)+α2·(X1,X1))]]>如果D為正,則CS=((X,Y)+α(X1,Y))/D,否則CS=0。然后,控制流到測(cè)試步驟722,其中進(jìn)行檢查以便發(fā)現(xiàn)是否處理了最后滯后。如果答案為是,則在步驟724,該處理停止。否則,控制流回到步驟706,其中選擇下一個(gè)滯后作為當(dāng)前滯后,以便處理。本發(fā)明可以在圖1的客戶端106、108或者服務(wù)器102中采用硬件、軟件、或者硬件和軟件的組合來(lái)實(shí)現(xiàn)。如圖5、6、7、8、9和10所述,根據(jù)本發(fā)明優(yōu)選實(shí)施例的系統(tǒng)可以在一個(gè)計(jì)算機(jī)系統(tǒng)中以集中方式實(shí)現(xiàn),或者以不同單元分散在若干互連的計(jì)算機(jī)系統(tǒng)之間的分布方式實(shí)現(xiàn)。任何種類的計(jì)算機(jī)系統(tǒng)-或者被適配成執(zhí)行這里描述的方法的其它設(shè)備-是適合的。典型的硬件和軟件組合可以是具有計(jì)算機(jī)程序的通用計(jì)算機(jī)系統(tǒng),當(dāng)被裝載和執(zhí)行時(shí),該計(jì)算機(jī)程序控制計(jì)算機(jī)系統(tǒng),使得它執(zhí)行這里描述的方法。本發(fā)明的實(shí)施例還可以被嵌入在(客戶端106和108以及服務(wù)器102內(nèi)的)計(jì)算機(jī)程序產(chǎn)品中,該計(jì)算機(jī)程序產(chǎn)品包括使得能夠?qū)崿F(xiàn)這里描述的方法的所有特性,并且當(dāng)被裝載在計(jì)算機(jī)系統(tǒng)中時(shí),能夠執(zhí)行這些方法。在本發(fā)明中使用的計(jì)算機(jī)程序裝置或計(jì)算機(jī)程序表示采用任何語(yǔ)言、代碼或表示法的一組指令的任何表達(dá),其中該組指令旨在使具有信息處理能力的系統(tǒng)直接地或者在下面操作的任一個(gè)或兩者之后執(zhí)行特定功能a)轉(zhuǎn)換成另一種語(yǔ)言、代碼或表示法;以及b)以不同的材料形式再現(xiàn)。計(jì)算機(jī)系統(tǒng)可以包括一個(gè)或多個(gè)計(jì)算機(jī)以及至少計(jì)算機(jī)可讀介質(zhì)等等,從而允許計(jì)算機(jī)系統(tǒng)從計(jì)算機(jī)可讀介質(zhì)讀取數(shù)據(jù)、指令、消息或消息包、以及其它計(jì)算機(jī)可讀信息。計(jì)算機(jī)可讀介質(zhì)可以包括非易失性存儲(chǔ)器如ROM、閃存、盤驅(qū)動(dòng)器存儲(chǔ)器、CD-ROM和其它永久性存儲(chǔ)裝置。另外,計(jì)算機(jī)可讀介質(zhì)可以包括例如易失性存儲(chǔ)裝置如RAM、緩沖器、高速緩沖存儲(chǔ)器和網(wǎng)絡(luò)電路。此外,計(jì)算機(jī)可讀介質(zhì)可以包括暫態(tài)介質(zhì)中的計(jì)算機(jī)可讀信息,其中暫態(tài)介質(zhì)例如為網(wǎng)絡(luò)鏈路和/或網(wǎng)絡(luò)接口,包括有線網(wǎng)絡(luò)或無(wú)線網(wǎng)絡(luò),其允許計(jì)算機(jī)系統(tǒng)讀取這樣的計(jì)算機(jī)可讀信息。圖11是有用于實(shí)現(xiàn)本發(fā)明實(shí)施例的計(jì)算機(jī)系統(tǒng)的方框圖。圖11的計(jì)算機(jī)系統(tǒng)是客戶端106和108以及服務(wù)器102的更詳細(xì)表示。圖11的計(jì)算機(jī)系統(tǒng)包括一個(gè)或多個(gè)處理器,例如處理器1004。處理器1004連接到通信基礎(chǔ)設(shè)施1002(例如,通信總線、跨接條(cross-overbar)或網(wǎng)絡(luò))。各種軟件實(shí)施例是按照該示例性計(jì)算機(jī)系統(tǒng)來(lái)描述的。在閱讀本描述之后,如何使用其它計(jì)算機(jī)系統(tǒng)和/或計(jì)算機(jī)體系結(jié)構(gòu)來(lái)實(shí)現(xiàn)本發(fā)明對(duì)于相關(guān)
技術(shù)領(lǐng)域:
的普通技術(shù)人員將會(huì)變得清楚。該計(jì)算機(jī)系統(tǒng)可以包括顯示接口1008,其轉(zhuǎn)發(fā)來(lái)自通信基礎(chǔ)設(shè)施1002(或者來(lái)自未示出的幀緩沖器)的圖形、文本和其它數(shù)據(jù),以便顯示在顯示單元1010上。該計(jì)算機(jī)系統(tǒng)還包括主存儲(chǔ)器1006、優(yōu)選地是隨機(jī)存取存儲(chǔ)器(RAM),并且還可以包括次級(jí)存儲(chǔ)器1012。次級(jí)存儲(chǔ)器1012可以包括例如硬盤驅(qū)動(dòng)器1014和/或可移動(dòng)存儲(chǔ)驅(qū)動(dòng)器1016,其中可移動(dòng)存儲(chǔ)驅(qū)動(dòng)器1016代表軟盤驅(qū)動(dòng)器、磁帶驅(qū)動(dòng)器、光盤驅(qū)動(dòng)器等。可移動(dòng)存儲(chǔ)驅(qū)動(dòng)器1016以對(duì)于本領(lǐng)域的普通技術(shù)人員是公知的方式從可移動(dòng)存儲(chǔ)單元1018讀取或者向其寫入。可移動(dòng)存儲(chǔ)單元1018代表軟盤、磁帶、光盤等,其由可移動(dòng)存儲(chǔ)驅(qū)動(dòng)器1016讀取或?qū)懭?。?yīng)當(dāng)理解,可移動(dòng)存儲(chǔ)單元1018包括其中存儲(chǔ)了計(jì)算機(jī)軟件和/或數(shù)據(jù)的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)。在可選實(shí)施例中,次級(jí)存儲(chǔ)器1012可以包括用于允許將計(jì)算機(jī)程序或其它指令裝載到計(jì)算機(jī)系統(tǒng)中的其它類似裝置。這些裝置可以例如包括可移動(dòng)存儲(chǔ)單元1022以及接口1020。其例子可以包括程序匣(cartridge)和匣接口(如在視頻游戲設(shè)備中找到的那樣)、可移動(dòng)存儲(chǔ)器芯片(例如,EPROM或PROM)和關(guān)聯(lián)插座(socket),以及允許將軟件和數(shù)據(jù)從可移動(dòng)存儲(chǔ)單元1022傳輸?shù)接?jì)算機(jī)系統(tǒng)的其它可移動(dòng)存儲(chǔ)單元1022和接口1020。該計(jì)算機(jī)系統(tǒng)還可以包括通信接口1024。通信接口1024允許在計(jì)算機(jī)系統(tǒng)和外部設(shè)備之間傳輸軟件和數(shù)據(jù)。通信接口1024的例子可以包括調(diào)制解調(diào)器、網(wǎng)絡(luò)接口(如以太網(wǎng)卡)、通信端口、PCMCIA插槽和卡等。通過通信接口1024傳輸?shù)能浖蛿?shù)據(jù)采取可以例如是電子、電磁、光的信號(hào)或者能夠由通信接口1024接收的其它信號(hào)的形式。通過通信路徑(即信道)1026將這些信號(hào)提供給通信接口1024。該信道1026運(yùn)載信號(hào),并且可以使用線路或電纜、光纖、電話線、蜂窩電話鏈路、RF鏈路和/或其它通信信道來(lái)實(shí)現(xiàn)。在本文檔中,術(shù)語(yǔ)“計(jì)算機(jī)程序介質(zhì)”、“計(jì)算機(jī)可用介質(zhì)”、“機(jī)器可讀介質(zhì)”和“計(jì)算機(jī)可讀介質(zhì)”用來(lái)統(tǒng)稱諸如主存儲(chǔ)器1006和次級(jí)存儲(chǔ)器1012、可移動(dòng)存儲(chǔ)驅(qū)動(dòng)器1016、安裝在硬盤驅(qū)動(dòng)器1014中的硬盤的介質(zhì)、以及信號(hào)。這些計(jì)算機(jī)程序產(chǎn)品是用于向計(jì)算機(jī)系統(tǒng)提供軟件的裝置。計(jì)算機(jī)可讀介質(zhì)允許計(jì)算機(jī)系統(tǒng)從計(jì)算機(jī)可讀介質(zhì)讀取數(shù)據(jù)、指令、消息或消息包以及其它計(jì)算機(jī)可讀信息。計(jì)算機(jī)可讀介質(zhì)例如可以包括非易失性存儲(chǔ)器如軟盤、ROM、閃存、盤驅(qū)動(dòng)器存儲(chǔ)器、CD-ROM和其它永久性存儲(chǔ)裝置。例如,它有用于在計(jì)算機(jī)系統(tǒng)之間傳輸諸如數(shù)據(jù)和計(jì)算機(jī)指令的信息。此外,計(jì)算機(jī)可讀介質(zhì)可以包括暫態(tài)介質(zhì)中的計(jì)算機(jī)可讀信息,其中暫態(tài)介質(zhì)例如為網(wǎng)絡(luò)鏈路和/或網(wǎng)絡(luò)接口,包括有線網(wǎng)絡(luò)或無(wú)線網(wǎng)絡(luò),其允許計(jì)算機(jī)讀取這樣的計(jì)算機(jī)可讀信息。計(jì)算機(jī)程序(也被稱作計(jì)算機(jī)控制邏輯)被存儲(chǔ)在主存儲(chǔ)器1006和/或次級(jí)存儲(chǔ)器1012中。還可以通過通信接口1024接收計(jì)算機(jī)程序。當(dāng)被執(zhí)行時(shí),這些計(jì)算機(jī)程序使得計(jì)算機(jī)系統(tǒng)能夠執(zhí)行如這里所討論的本發(fā)明的特性。具體地說(shuō),當(dāng)被執(zhí)行時(shí),這些計(jì)算機(jī)程序使得處理器1004能夠執(zhí)行計(jì)算機(jī)系統(tǒng)的特性。從而,這些計(jì)算機(jī)程序代表計(jì)算機(jī)系統(tǒng)的控制器。該用于從語(yǔ)音信號(hào)提取音高信息的新穎系統(tǒng)和相關(guān)方法提供了用于處理例如用于語(yǔ)音識(shí)別系統(tǒng)或語(yǔ)音編碼系統(tǒng)的音高信息的顯著優(yōu)點(diǎn)。分布式語(yǔ)音識(shí)別系統(tǒng)將尤其受益于本發(fā)明的新穎系統(tǒng)和音高估計(jì)方法。由于分布式語(yǔ)音識(shí)別前端設(shè)備如便攜式無(wú)線設(shè)備、蜂窩電路或雙向無(wú)線電設(shè)備典型地具有有限的計(jì)算資源、有限的處理能力并且由電池供電,因此這些類型的設(shè)備將特別受益于如上面討論的本發(fā)明的優(yōu)選實(shí)施例。雖然公開了本發(fā)明的特定實(shí)施例,但是本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,在不脫離本發(fā)明的精神和范圍的情況下可以對(duì)特定實(shí)施例進(jìn)行改變。因此,本發(fā)明的范圍不應(yīng)當(dāng)局限于這些特定實(shí)施例。此外,所附權(quán)利要求旨在涵蓋本發(fā)明的范圍內(nèi)的所有這些應(yīng)用、變型和實(shí)施例。權(quán)利要求1.一種方法,包括對(duì)語(yǔ)音信號(hào)進(jìn)行采樣;將采樣語(yǔ)音信號(hào)劃分成重疊幀;使用頻域分析從幀提取第一音高信息;從第一音高信息提供至少一個(gè)音高候選值,其中每一個(gè)音高候選值與頻譜得分相結(jié)合,所述至少一個(gè)音高候選值中的每一個(gè)表示該幀的可能音高估計(jì)值;使用時(shí)域分析從該幀提取第二音高信息;從第二音高信息提供所述至少一個(gè)音高候選值的相關(guān)得分;以及選擇所述至少一個(gè)音高候選值中的一個(gè)來(lái)表示該幀的音高估計(jì)值。2.如權(quán)利要求1所述的方法,其中選擇包括選擇所述至少一個(gè)音高候選值中具有頻譜得分和相關(guān)得分的最佳組合的一個(gè)音高候選值,由此指示具有與該幀的音高相匹配的最佳可能性的一個(gè)音高候選值。3.如權(quán)利要求2所述的方法,其中選擇包括計(jì)算所述至少一個(gè)音高候選值的每一個(gè)的可能音高估計(jì)值與前一幀的選定音高估計(jì)值之間的匹配度,選擇所述至少一個(gè)音高候選值中具有頻譜得分、相關(guān)得分和匹配度的最佳組合的一個(gè)音高候選值,由此指示具有與該幀的音高相匹配的最佳可能性的一個(gè)音高候選值。4.如權(quán)利要求1所述的方法,其中所述至少一個(gè)音高候選值包括不多于六個(gè)音高候選值,其表示該幀的不多于六個(gè)的可能音高估計(jì)值。5.如權(quán)利要求1所述的方法,其中所述至少一個(gè)音高候選值的頻譜得分表示音高值與在該幀的頻譜中找到的頻譜峰值的兼容度。6.如權(quán)利要求1所述的方法,其中使用時(shí)域分析從該幀提取第二音高信息包括將該幀與前一幀組合在一起成為擴(kuò)展幀;以及通過對(duì)擴(kuò)展幀進(jìn)行低通濾波和下采樣來(lái)計(jì)算下采樣擴(kuò)展幀。7.如權(quán)利要求1所述的方法,其中提供相關(guān)得分包括計(jì)算下采樣擴(kuò)展幀的兩個(gè)片斷之間的互相關(guān)。8.如權(quán)利要求7所述的方法,其中所述兩個(gè)片斷具有預(yù)定長(zhǎng)度,并且彼此相對(duì)延遲與所述至少一個(gè)音高候選值中的每一個(gè)對(duì)應(yīng)的滯后值。9.如權(quán)利要求8所述的方法,其中下采樣擴(kuò)展幀內(nèi)的所述兩個(gè)片斷的位置通過最大化所述片斷的總能量來(lái)選擇。10.如權(quán)利要求1所述的方法,還包括選擇采樣語(yǔ)音信號(hào)的多個(gè)幀的多個(gè)音高估計(jì)值;以及對(duì)采樣語(yǔ)音信號(hào)的表示進(jìn)行編碼,該表示包括所述多個(gè)音高估計(jì)值。11.如權(quán)利要求10所述的方法,其中采樣語(yǔ)音信號(hào)的編碼表示用于分布式語(yǔ)音識(shí)別系統(tǒng)中。12.一種分布式語(yǔ)音識(shí)別系統(tǒng),包括分布式語(yǔ)音識(shí)別前端,用于提取語(yǔ)音信號(hào)特征,該分布式語(yǔ)音識(shí)別前端包括存儲(chǔ)器;處理器,可通信地與該存儲(chǔ)器耦接;以及音高提取處理器,可通信地與該存儲(chǔ)器和該處理器耦接,用于通過以下操作從語(yǔ)音信號(hào)提取音高信息對(duì)語(yǔ)音信號(hào)進(jìn)行采樣;將采樣語(yǔ)音信號(hào)劃分成重疊幀;使用頻域分析從幀提取第一音高信息;從第一音高信息提供至少一個(gè)音高候選值,其中每一個(gè)音高候選值與頻譜得分相結(jié)合,所述至少一個(gè)音高候選值中的每一個(gè)表示該幀的可能音高估計(jì)值;使用時(shí)域分析從該幀提取第二音高信息;從第二音高信息提供所述至少一個(gè)音高候選值的相關(guān)得分;以及選擇所述至少一個(gè)音高候選值中的一個(gè)來(lái)表示該幀的音高估計(jì)值。13.如權(quán)利要求12所述的分布式語(yǔ)音識(shí)別系統(tǒng),其中音高提取處理器選擇包括選擇所述至少一個(gè)音高候選值中具有頻譜得分和相關(guān)得分的最佳組合的一個(gè)音高候選值,由此指示具有與該幀的音高相匹配的最佳可能性的一個(gè)音高候選值。14.如權(quán)利要求13所述的分布式語(yǔ)音識(shí)別系統(tǒng),其中音高提取處理器選擇包括計(jì)算所述至少一個(gè)音高候選值的每一個(gè)的可能音高估計(jì)值與前一幀的選定音高估計(jì)值之間的匹配度,選擇所述至少一個(gè)音高候選值中具有頻譜得分、相關(guān)得分和匹配度的最佳組合的一個(gè)音高候選值,由此指示具有與該幀的音高相匹配的最佳可能性的一個(gè)音高候選值。15.如權(quán)利要求12所述的分布式語(yǔ)音識(shí)別系統(tǒng),其中所述至少一個(gè)音高候選值包括不多于六個(gè)音高候選值,其表示該幀的不多于六個(gè)的可能音高估計(jì)值。16.如權(quán)利要求12所述的分布式語(yǔ)音識(shí)別系統(tǒng),其中所述至少一個(gè)音高候選值的頻譜得分表示音高值與在該幀的頻譜中找到的頻譜峰值的兼容度。17.如權(quán)利要求12所述的分布式語(yǔ)音識(shí)別系統(tǒng),其中音高提取處理器使用時(shí)域分析從該幀提取第二音高信息包括將該幀與前一幀組合在一起成為擴(kuò)展幀;以及通過對(duì)擴(kuò)展幀進(jìn)行低通濾波和下采樣來(lái)計(jì)算下采樣擴(kuò)展幀。18.如權(quán)利要求12所述的分布式語(yǔ)音識(shí)別系統(tǒng),其中音高提取處理器提供相關(guān)得分包括計(jì)算下采樣擴(kuò)展幀的兩個(gè)片斷之間的互相關(guān)。19.如權(quán)利要求18所述的分布式語(yǔ)音識(shí)別系統(tǒng),其中所述兩個(gè)片斷具有預(yù)定長(zhǎng)度,并且彼此相對(duì)延遲與所述至少一個(gè)音高候選值中的每一個(gè)對(duì)應(yīng)的滯后值。20.如權(quán)利要求19所述的分布式語(yǔ)音識(shí)別系統(tǒng),其中下采樣擴(kuò)展幀內(nèi)的所述兩個(gè)片斷的位置通過最大化所述片斷的總能量來(lái)選擇。21.如權(quán)利要求12所述的分布式語(yǔ)音識(shí)別系統(tǒng),其中音高提取處理器還選擇采樣語(yǔ)音信號(hào)的多個(gè)幀的多個(gè)音高估計(jì)值;以及對(duì)采樣語(yǔ)音信號(hào)的表示進(jìn)行編碼,該表示包括所述多個(gè)音高估計(jì)值。22.一種計(jì)算機(jī)可讀介質(zhì),包括用于語(yǔ)音處理系統(tǒng)的計(jì)算機(jī)指令,這些計(jì)算機(jī)指令包括用于以下操作的指令對(duì)語(yǔ)音信號(hào)進(jìn)行采樣;將采樣語(yǔ)音信號(hào)劃分成重疊幀;使用頻域分析從幀提取第一音高信息;從第一音高信息提供至少一個(gè)音高候選值,其中每一個(gè)音高候選值與頻譜得分相結(jié)合,所述至少一個(gè)音高候選值中的每一個(gè)表示該幀的可能音高估計(jì)值;使用時(shí)域分析從該幀提取第二音高信息;從第二音高信息提供所述至少一個(gè)音高候選值的相關(guān)得分;以及選擇所述至少一個(gè)音高候選值中的一個(gè)來(lái)表示該幀的音高估計(jì)值。23.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其中選擇包括選擇所述至少一個(gè)音高候選值中具有頻譜得分和相關(guān)得分的最佳組合的一個(gè)音高候選值,由此指示具有與該幀的音高相匹配的最佳可能性的一個(gè)音高候選值。24.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其中選擇包括計(jì)算所述至少一個(gè)音高候選值的每一個(gè)的可能音高估計(jì)值與前一幀的選定音高估計(jì)值之間的匹配度,選擇所述至少一個(gè)音高候選值中具有頻譜得分、相關(guān)得分和匹配度的最佳組合的一個(gè)音高候選值,由此指示具有與該幀的音高相匹配的最佳可能性的一個(gè)音高候選值。25.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其中所述至少一個(gè)音高候選值的頻譜得分表示音高值與在該幀的頻譜中找到的頻譜峰值的兼容度。26.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其中使用時(shí)域分析從該幀提取第二音高信息包括將該幀與前一幀組合在一起成為擴(kuò)展幀;以及通過對(duì)擴(kuò)展幀進(jìn)行低通濾波和下采樣來(lái)計(jì)算下采樣擴(kuò)展幀。27.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其中提供相關(guān)得分包括計(jì)算下采樣擴(kuò)展幀的兩個(gè)片斷之間的互相關(guān)。28.如權(quán)利要求27所述的計(jì)算機(jī)可讀介質(zhì),其中所述兩個(gè)片斷具有預(yù)定長(zhǎng)度,并且彼此相對(duì)延遲與所述至少一個(gè)音高候選值中的每一個(gè)對(duì)應(yīng)的滯后值。29.如權(quán)利要求22所述的計(jì)算機(jī)可讀介質(zhì),其中這些計(jì)算機(jī)指令還包括用于以下操作的指令選擇采樣語(yǔ)音信號(hào)的多個(gè)幀的多個(gè)音高估計(jì)值;以及對(duì)采樣語(yǔ)音信號(hào)的表示進(jìn)行編碼,該表示包括所述多個(gè)音高估計(jì)值。30.如權(quán)利要求29所述的計(jì)算機(jī)可讀介質(zhì),其中采樣語(yǔ)音信號(hào)的編碼表示用于分布式語(yǔ)音識(shí)別系統(tǒng)中。全文摘要本發(fā)明公開一種系統(tǒng)、計(jì)算機(jī)可讀介質(zhì)和方法,用于對(duì)語(yǔ)音信號(hào)進(jìn)行采樣;將采樣語(yǔ)音信號(hào)劃分成重疊幀;使用頻域分析從幀提取第一音高信息;從第一音高信息提供至少一個(gè)音高候選值,其中每一個(gè)音高候選值與頻譜得分相結(jié)合,所述至少一個(gè)音高候選值中的每一個(gè)表示該幀的可能音高估計(jì)值;使用時(shí)域分析從該幀提取第二音高信息;從第二音高信息提供所述至少一個(gè)音高候選值的相關(guān)得分;以及選擇所述至少一個(gè)音高候選值中的一個(gè)來(lái)表示該幀的音高估計(jì)值。該系統(tǒng)、計(jì)算機(jī)可讀介質(zhì)和方法適于語(yǔ)音編碼和分布式語(yǔ)音識(shí)別。文檔編號(hào)G10L11/00GK1826632SQ200480008861公開日2006年8月30日申請(qǐng)日期2004年3月31日優(yōu)先權(quán)日2003年3月31日發(fā)明者騰卡斯·V.·拉瑪巴德拉恩,亞歷山大·索里恩申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司,摩托羅拉公司