两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于混淆網(wǎng)絡(luò)的語音解碼方法

文檔序號(hào):2821781閱讀:275來源:國知局
專利名稱:一種基于混淆網(wǎng)絡(luò)的語音解碼方法
技術(shù)領(lǐng)域
本發(fā)明屬于語音識(shí)別領(lǐng)域,具體的說,涉及到一種基于混淆網(wǎng)絡(luò)的語音解碼方法。
背景技術(shù)
解碼過程,也就是通常所說的識(shí)別過程,是語音識(shí)別系統(tǒng)的重要組成部分。它的功能是在給定聲學(xué)模型和語言模型的條件下,對(duì)于輸入的聲學(xué)特征矢量序列,從一定的搜索空間中自動(dòng)搜尋出最優(yōu)的匹配詞串,最終將語音信號(hào)轉(zhuǎn)換成了文字信息。
圖1是一種公知的語音識(shí)別系統(tǒng)結(jié)構(gòu)圖。如圖所示,特征提取模塊對(duì)輸入語音信號(hào)進(jìn)行分幀處理,通常幀長為20ms,幀移為10ms;常用的特征有MFCC特征、LPC特征和PLP特征。經(jīng)特征提取后,語音信號(hào)轉(zhuǎn)換成了特征矢量序列。利用聲學(xué)模型和語言模型,解碼模塊對(duì)特征矢量序列構(gòu)成的搜索空間進(jìn)行匹配搜索,得到識(shí)別結(jié)果。常用的搜索算法有深度優(yōu)先的幀同步Viterbi-Beam搜索算法和寬度優(yōu)先的A*搜索算法。解碼模塊所用的聲學(xué)模型是對(duì)發(fā)音單元建模后統(tǒng)計(jì)得到的,它描述了發(fā)音的物理特性。三音子模型是目前常用的聲學(xué)模型。音素是發(fā)音的基本構(gòu)成單元。而三音子(TRIPHONE)是一種上下文相關(guān)的音素。與單個(gè)音素(單音子)相比,它可以描述上下文不同時(shí)音素的發(fā)音變異情況。語言模型是從含有大量文本的語料庫中統(tǒng)計(jì)得到的,體現(xiàn)了語言的統(tǒng)計(jì)特性。N元文法模型(N=2或3)是目前最常用的語言模型。
在圖1所示的識(shí)別系統(tǒng)中,采用的是一遍解碼(One-Pass)。為了進(jìn)一步提高語音識(shí)別系統(tǒng)的識(shí)別性能,一些系統(tǒng)采用多遍解碼(Multi-Pass)的識(shí)別策略。公知的語音識(shí)別多遍解碼系統(tǒng)結(jié)構(gòu)圖如圖2所示,它的基本思想是首先用較簡單的信息排除最不可能的情況,縮小搜索空間;然后逐步利用復(fù)雜的信息進(jìn)行精確搜索。后一遍解碼在前一遍解碼后的搜索空間上,利用更多的信息源(例如更精細(xì)的聲學(xué)模型和語言模型)和更精密的搜索策略,得到更優(yōu)的識(shí)別結(jié)果。如果在一遍解碼系統(tǒng)中,將所有信息源都加入到解碼過程中,那么巨大的搜索空間和計(jì)算量將使得計(jì)算機(jī)無法承受該搜索任務(wù)。多遍解碼策略即充分利用了多種信息源,又使得實(shí)際操作可行。
所謂多遍解碼的中間結(jié)果,指的是前一遍解碼的輸出,同時(shí)它也是后一遍解碼的輸入。該中間結(jié)果構(gòu)成了后一遍解碼的搜索空間。中間結(jié)果按類型一般可分為1)前N個(gè)概率得分最高的句子(N-Best lists);2)詞格(Word Lattice)。詞格是一種有向圖,也稱為詞圖。詞格中的節(jié)點(diǎn)為可能的詞,詞間的連接關(guān)系構(gòu)成節(jié)點(diǎn)間的連線。實(shí)際上,N-Best句子本身也是從詞格中產(chǎn)生的。相對(duì)N-Best句子而言,詞格對(duì)于信息的組織更為有效,由詞格生成的搜索空間大,包含的潛在句子數(shù)目更多。
另外一種類似多遍解碼的方法為ROVER。該方法綜合多個(gè)識(shí)別系統(tǒng)的識(shí)別結(jié)果,以一種投票表決的方式,從中挑選出最終的結(jié)果。ROVER方法雖然不需要嚴(yán)格意義上的多遍解碼過程,但是建立多個(gè)識(shí)別系統(tǒng)也不是一件簡單容易的事情。
目前已有的多遍解碼語音識(shí)別系統(tǒng),因?yàn)樵谒阉鬟^程中采用了更加復(fù)雜和精細(xì)的聲學(xué)模型和語言模型,所以提高了識(shí)別性能。但另一方面,獲得復(fù)雜精細(xì)的模型本身并不是一件容易的事情。除此之外,目前已有的多遍解碼系統(tǒng)采用的是級(jí)聯(lián)結(jié)構(gòu),這使得前一遍解碼中出現(xiàn)的錯(cuò)誤在以后的解碼中永遠(yuǎn)得不到修正。每一遍解碼后,都確定了詞與詞之間的連接關(guān)系。因?yàn)楹竺娴慕獯a是在前一遍解碼生成的搜索空間上進(jìn)行的,所以相互無連接的詞永遠(yuǎn)也不可能再形成連接關(guān)系。然而某些詞間的無連接狀況,可能是由于Viterbi搜索中由于Beam寬度大小,或聲學(xué)模型和語言模型的描述不夠準(zhǔn)確造成的。同時(shí),由于Viterbi-Beam搜索自身的特點(diǎn),其中間結(jié)果中包含了一些的僅僅是起止時(shí)間點(diǎn)稍有不同而內(nèi)容完全相同的詞。而語音識(shí)別系統(tǒng)所關(guān)心的只是識(shí)別出的文本信息,時(shí)間信息并不在考慮之中。這樣的詞的存在,并沒有為后面的處理增加信息量,卻將搜索空間加大了,即在某種程度上增加了搜索負(fù)擔(dān)。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,在多遍解碼的后期,在不利用更多信息的情況下(即不利用更精細(xì)復(fù)雜的聲學(xué)模型和語言模型),通過混淆網(wǎng)絡(luò)聚類技術(shù)降低解碼錯(cuò)誤率,提高解碼速率,從而提供一種基于混淆網(wǎng)絡(luò)的語音解碼方法。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于混淆網(wǎng)絡(luò)的解碼方法,包括步驟1)對(duì)輸入語音信號(hào)提取特征,得到特征矢量序列,利用聲學(xué)模型以及語言模型,對(duì)語音特征進(jìn)行深度優(yōu)先幀同步Viterbi-Beam搜索,輸出N-Best句子或者詞格;其特征在于,還包括如下步驟2)將N-Best句子或者詞格按照時(shí)間相似度算法和音素相似度算法進(jìn)行兩級(jí)聚類生成混淆網(wǎng)絡(luò);3)在該混淆網(wǎng)絡(luò)上以后驗(yàn)概率最大為準(zhǔn)則匹配搜索出最優(yōu)結(jié)果。
所述步驟2)中生成混淆網(wǎng)絡(luò)的過程,包括如下子步驟21)根據(jù)起止時(shí)間信息建立初始的混淆類,其中每一混淆類對(duì)應(yīng)的詞不僅詞號(hào)相同而且起止時(shí)間也相同;22)記錄各初始混淆類間的連接關(guān)系;23)對(duì)沒有連接關(guān)系且詞號(hào)相同的類進(jìn)行時(shí)間相似度聚類;24)對(duì)沒有連接關(guān)系且時(shí)間段上有重疊的類進(jìn)行音素相似度聚類;25)遍歷所有的混淆類,計(jì)算每一個(gè)詞的后驗(yàn)概率,得到最終的混淆網(wǎng)絡(luò)。
所述步驟23)中進(jìn)行時(shí)間相似度聚類的原則是遍歷所有的混淆類,找出與當(dāng)前類時(shí)間相似度最大的那個(gè)混淆類,并與當(dāng)前類合并為一個(gè)新的混淆類。
所述步驟24)中進(jìn)行音素相似度聚類的原則是遍歷所有的混淆類,找出與當(dāng)前類音素相似度最大的那個(gè)混淆類,并與當(dāng)前類合并為一個(gè)新的混淆類。
所述步驟25)中后驗(yàn)概率的計(jì)算采用前向后向算法。
所述步驟25)中,對(duì)于本類中所有詞的后驗(yàn)概率之和小于1的混淆類,為其增加一個(gè)“省略詞”,使得每個(gè)類中所有詞的后驗(yàn)概率之和為1。
所述步驟2)中,首先將步驟1)中的N-Best句子通過合并算法壓縮成有向網(wǎng)絡(luò)結(jié)構(gòu),然后再根據(jù)得到的有向網(wǎng)絡(luò)生成混淆網(wǎng)絡(luò)。
與現(xiàn)有的多遍解碼方法相比,本發(fā)明在第二遍解碼時(shí),不需要更精細(xì)復(fù)雜的聲學(xué)模型和語言模型,節(jié)約了運(yùn)算時(shí)間和內(nèi)存空間的耗用。同時(shí)也減輕了模型訓(xùn)練的任務(wù)量。本發(fā)明中依據(jù)時(shí)間相似度和音素相似度,從第一遍解碼的中間結(jié)果中生成了混淆網(wǎng)絡(luò)。對(duì)于那些由于第一遍解碼不夠準(zhǔn)確而導(dǎo)致的沒有連接關(guān)系的詞,有可能在混淆網(wǎng)絡(luò)中恢復(fù)其連接關(guān)系。這就克服了已有多遍解碼系統(tǒng)中解碼失誤無法修復(fù)的缺點(diǎn)。本發(fā)明在生成混淆網(wǎng)絡(luò)的過程中,對(duì)滿足時(shí)間相似度條件的詞進(jìn)行了聚類。由于Viterbi-Beam搜索固有的特性,第一遍搜索后產(chǎn)生的中間結(jié)果中存在很多起止時(shí)間稍有區(qū)別而內(nèi)容相同的詞。進(jìn)行了時(shí)間相似度聚類后,這些詞便都合成一類了。這樣就有效的縮減了網(wǎng)絡(luò),提高了解碼速率。


圖1為公知的語音識(shí)別系統(tǒng)結(jié)構(gòu)圖;圖2為公知的語音識(shí)別多遍解碼系統(tǒng)結(jié)構(gòu)圖;圖3為本發(fā)明提供的基于混淆網(wǎng)絡(luò)的語音解碼方法流程圖;圖4為本發(fā)明中NBest句子壓縮成網(wǎng)絡(luò)結(jié)構(gòu)的流程圖;圖5為一般網(wǎng)絡(luò)示意圖;圖6為本發(fā)明中初始的混淆類示意圖;圖7為本發(fā)明中時(shí)間相似度聚類后的混淆網(wǎng)絡(luò)示意圖;圖8為本發(fā)明中音素相似度聚類后的混淆網(wǎng)絡(luò)示意圖;圖9為本發(fā)明中最終的混淆網(wǎng)絡(luò)示意圖。
具體實(shí)施例方式
下面結(jié)合附圖與優(yōu)選實(shí)施例對(duì)本發(fā)明做進(jìn)一步的描述。
如圖3所示,本發(fā)明提供的基于混淆網(wǎng)絡(luò)的語音解碼方法包括如下步驟步驟101從輸入語音信號(hào)中提取特征矢量序列。
步驟102用Viterbi-Beam搜索算法對(duì)語音特征進(jìn)行第一次解碼,輸出N-Best句子或詞格,同時(shí)得出N-Best句子或詞格中每個(gè)詞的聲學(xué)層概率得分和語言層概率得分。
步驟103如果步驟102中輸出的中間結(jié)果為NBest句子,則用合并算法將其壓縮成有向網(wǎng)絡(luò)結(jié)構(gòu),該合并算法的流程如圖4所示,它是一種現(xiàn)有技術(shù),因此這里不再詳述。如果步驟102中輸出的中間結(jié)果為詞格,由于詞格本身也可看成是一種網(wǎng)絡(luò),因此直接進(jìn)入步驟104。
步驟104將前面有向網(wǎng)絡(luò)結(jié)構(gòu)用特定的數(shù)據(jù)結(jié)構(gòu)表示。即每一個(gè)詞存成一個(gè)Node節(jié)點(diǎn),該節(jié)點(diǎn)包含的信息有本節(jié)點(diǎn)序號(hào),本節(jié)點(diǎn)對(duì)應(yīng)的詞在詞典中的詞號(hào),本節(jié)點(diǎn)對(duì)應(yīng)的詞的起止時(shí)間,與該節(jié)點(diǎn)相鄰的所有后續(xù)節(jié)點(diǎn)的節(jié)點(diǎn)序號(hào)。
相鄰節(jié)點(diǎn)間的連接關(guān)系存成一個(gè)Link弧,該弧包含的信息有本弧的序號(hào),本弧對(duì)應(yīng)的起止Node節(jié)點(diǎn)序號(hào),本弧對(duì)應(yīng)的詞在詞典中的詞號(hào)(與本弧終止節(jié)點(diǎn)對(duì)應(yīng)的詞號(hào)相同),本弧對(duì)應(yīng)的詞的聲學(xué)層概率得分和語言層概率得分。
用上述的Node節(jié)點(diǎn)和Link弧就可以表示出整個(gè)有向網(wǎng)絡(luò)。
步驟105利用Link弧上詞的聲學(xué)層概率得分和語言層概率得分,在步驟104中形成的網(wǎng)絡(luò)上,用前向后向算法計(jì)算每條弧上的詞的后驗(yàn)概率,將計(jì)算結(jié)果儲(chǔ)存在相應(yīng)的弧上。每條弧上的詞的后驗(yàn)概率是通過該弧的所有路徑的概率之和比上該網(wǎng)絡(luò)中所有路徑概率之和。公式如下P(w:t∈[ts,te]|X)=ΣWsΣWeP(X|WS,w,We)P(Ws,w,We)P(X)]]>=ΣWsΣWeP(X|Ws,w,We)P(Ws,w,We)ΣWP(X|W)P(W)---(1)]]>=ΣWsΣWeP(X|Ws,w,We)P(Ws,w,We)ΣwΣWsΣWeP(X|Ws,w,We)P(Ws,w,We)]]>其中X代表語音特征序列w為起止時(shí)間為ts、te的詞;WswWe組成網(wǎng)絡(luò)中一條完整的路徑W;Ws為w所有可能的前續(xù)詞串,而We為w所有可能的后續(xù)詞串。上式的物理含義為已知特征序列X的前提下,在[ts,te]時(shí)間段產(chǎn)生詞w的概率。
前向后向算法為本領(lǐng)域技術(shù)人員公知的標(biāo)準(zhǔn)算法,因此本文中不再詳述。
步驟106遍歷所有的Link弧,根據(jù)起止時(shí)間信息建立初始的混淆類(ConfusionCluster)。所謂混淆類就是由解碼過程中不容易區(qū)分的詞組成的類。混淆類中的詞稱為混淆詞?;煜~相互間的鑒別性較差,在解碼過程中互為干擾。由這樣的混淆類組成的網(wǎng)絡(luò)便是混淆網(wǎng)絡(luò)?;煜悶長ink弧的一個(gè)集合。它所包含的信息有所含弧的序號(hào),所含詞的詞號(hào)(只記錄唯一的詞號(hào)),最大最小起止時(shí)間。初始混淆類由這樣一些弧組成它們對(duì)應(yīng)的詞不僅詞號(hào)相同而且起止時(shí)間也相同。在初始的混淆類中,每個(gè)類只含有一個(gè)詞號(hào)。
按照起止時(shí)間順序,將所有的初始混淆類進(jìn)行排序。記錄各初始混淆類間的連接關(guān)系,保存到二維數(shù)組order中。即若混淆類Ci(即第i個(gè)混淆類)的某個(gè)Link弧的終止Node節(jié)點(diǎn)為混淆類Cj中某個(gè)Link弧的起始Node節(jié)點(diǎn),則Ci與Cj是相連的order[i][j]=1。若Ci與Cj間有連接關(guān)系,且Cj與Ck相連,則認(rèn)為Ci與Ck也是相連的,只不過它們不是直接相連。
不存在連接關(guān)系的初始混淆類是潛在的可以聚類的對(duì)象。
步驟107進(jìn)行第一級(jí)聚類,即對(duì)詞號(hào)相同的類進(jìn)行時(shí)間相似度聚類。
對(duì)于每一個(gè)混淆類,找出與之沒有連接關(guān)系且對(duì)應(yīng)的詞號(hào)相同的所有混淆類。計(jì)算這些混淆類與本混淆類間的時(shí)間相似度,將相似度最大的那個(gè)混淆類與本混淆類合并為一個(gè)新的混淆類,并記錄新混淆類與其他混淆類間的連接關(guān)系。遍歷所有的混淆類,完成上面的過程。此時(shí)每個(gè)混淆類仍然只包含一個(gè)詞號(hào)。
其中時(shí)間相似度計(jì)算公式為SIM(Ci,Cj)=maxl1∈Cil2∈Cjoverlap(l1,l2)]]>l1,l2分別是混淆類Ci,Cj中的弧,overlap(l1,l2)是弧l1與l2對(duì)應(yīng)的詞的起止時(shí)間的重疊程度。
步驟108進(jìn)行第二級(jí)聚類,即音素相似度聚類。
遍歷所有的混淆類,對(duì)于每一個(gè)混淆類,找出與之沒有連接關(guān)系且時(shí)間段上有重疊的所有混淆類。計(jì)算該混淆類與所找到的混淆類間的詞對(duì)應(yīng)的音素相似度,將該混淆類與相似度最大的混淆類進(jìn)行合并,生成一個(gè)新的混淆類,并記錄新混淆類與其他所有混淆類間的連接關(guān)系。重復(fù)上面的過程,直至沒有可以合并的混淆類為止。此時(shí)混淆類所包含的詞號(hào)可能不止一個(gè)。
其中兩個(gè)詞間的音素相似度為SIM(Ci,Cj)=maxW1∈CiW2∈Cjsim(W1,W2)]]>W1、W2分別為混淆類Ci,Cj中包含的詞,通過詞號(hào)在詞典中查找得到。sim(W1,W2)為詞W1與W2對(duì)應(yīng)的音素串中相同音素的數(shù)目。
步驟109遍歷所有的混淆類,計(jì)算每一個(gè)詞的后驗(yàn)概率。詞的后驗(yàn)概率為所有包含該詞號(hào)的弧的后驗(yàn)概率之和。如果某個(gè)混淆類中所有詞的后驗(yàn)概率之和小于1,為了保持概率上的統(tǒng)一性完整性,為其增加一個(gè)“省略詞”(ellipsis),以使得每個(gè)類中所有詞的后驗(yàn)概率之和為1?!笆÷栽~”意味著該混淆類有可能被略過。此時(shí)的網(wǎng)絡(luò)便是最終的混淆網(wǎng)絡(luò)。
在最終的混淆網(wǎng)絡(luò)上,進(jìn)行最大后驗(yàn)概率搜索。即遍歷所有的混淆類,選擇其中后驗(yàn)概率最大的那些詞組成輸出的識(shí)別結(jié)果,如圖9所示。如果挑選出的詞為“省略詞”,則表明該混淆類中的其它有意義的詞沒有足夠的競(jìng)爭力,不會(huì)出現(xiàn)在識(shí)別結(jié)果中。
以上是本發(fā)明提供的基于混淆網(wǎng)絡(luò)的語音解碼方法的詳細(xì)步驟。
本發(fā)明首先利用三音子聲學(xué)模型以及三元語言模型,對(duì)語音特征進(jìn)行深度優(yōu)先幀同步Viterbi-Beam搜索,輸出N-Best句子或者詞格。與常用的多遍解碼方法不同的是,本方法不是在上次解碼得到的搜索空間上,用更精細(xì)復(fù)雜的聲學(xué)模型和語言模型進(jìn)行再次解碼。本方法并不需要更多的模型,而是重新規(guī)劃由上次解碼結(jié)果形成的搜索空間,利用時(shí)間相似度算法和音素相似度算法進(jìn)行聚類,生成混淆網(wǎng)絡(luò)。最后在混淆網(wǎng)絡(luò)上用最大后驗(yàn)概率搜索出識(shí)別結(jié)果。本發(fā)明充分利用了前次解碼結(jié)果中的信息,有效的提高了系統(tǒng)性能。同時(shí),本發(fā)明減輕了模型訓(xùn)練的任務(wù)量。所謂訓(xùn)練就是用統(tǒng)計(jì)的方法得到模型參數(shù)的過程。要訓(xùn)練更精細(xì)的模型,就需要更多的訓(xùn)練數(shù)據(jù)和更復(fù)雜的訓(xùn)練手段。本發(fā)明中依據(jù)時(shí)間相似度和音素相似度,從第一遍解碼的中間結(jié)果中生成了混淆網(wǎng)絡(luò)。對(duì)于那些由于第一遍解碼不夠準(zhǔn)確而導(dǎo)致的沒有連接關(guān)系的詞,有可能在混淆網(wǎng)絡(luò)中恢復(fù)其連接關(guān)系。這就克服了已有多遍解碼系統(tǒng)中解碼失誤無法修復(fù)的缺點(diǎn)。本發(fā)明在生成混淆網(wǎng)絡(luò)的過程中,對(duì)滿足時(shí)間相似度條件的詞進(jìn)行了聚類。由于Viterbi-Beam搜索固有的特性,第一遍搜索后產(chǎn)生的中間結(jié)果中存在很多起止時(shí)間稍有區(qū)別而內(nèi)容相同的詞。進(jìn)行了時(shí)間相似度聚類后,這些詞便都合成一類了。這樣就有效的縮減了網(wǎng)絡(luò),提高了解碼速率。
由于不需要更多的精密信息(或模型),本發(fā)明能夠?qū)崟r(shí)地完成第二遍搜索過程。實(shí)驗(yàn)中,通過混淆網(wǎng)絡(luò)最大后驗(yàn)搜索后,系統(tǒng)的識(shí)別錯(cuò)誤率可以從19.8%下降到18.6%,錯(cuò)誤率絕對(duì)下降了1.2%,相對(duì)下降了6.0%。
權(quán)利要求
1.一種基于混淆網(wǎng)絡(luò)的語音解碼方法,包括步驟1)對(duì)輸入語音信號(hào)提取特征,得到特征矢量序列,利用聲學(xué)模型以及語言模型,對(duì)語音特征進(jìn)行深度優(yōu)先幀同步Viterbi-Beam搜索,輸出N-Best句子或者詞格;其特征在于,還包括如下步驟2)將N-Best句子或者詞格按照時(shí)間相似度算法和音素相似度算法進(jìn)行兩級(jí)聚類生成混淆網(wǎng)絡(luò);3)在該混淆網(wǎng)絡(luò)上以后驗(yàn)概率最大為準(zhǔn)則匹配搜索出最優(yōu)結(jié)果。
2.按權(quán)利要求1所述的基于混淆網(wǎng)絡(luò)的語音解碼方法,其特征在于,所述步驟2)中生成混淆網(wǎng)絡(luò)的過程,包括如下子步驟21)根據(jù)起止時(shí)間信息建立初始的混淆類,其中每一混淆類對(duì)應(yīng)的詞不僅詞號(hào)相同而且起止時(shí)間也相同;22)記錄各初始混淆類間的連接關(guān)系;23)對(duì)沒有連接關(guān)系且詞號(hào)相同的類進(jìn)行時(shí)間相似度聚類;24)對(duì)沒有連接關(guān)系且時(shí)間段上有重疊的類進(jìn)行音素相似度聚類;25)遍歷所有的混淆類,計(jì)算每一個(gè)詞的后驗(yàn)概率,得到最終的混淆網(wǎng)絡(luò)。
3.按權(quán)利要求2所述的基于混淆網(wǎng)絡(luò)的語音解碼方法,其特征在于,所述步驟23)中進(jìn)行時(shí)間相似度聚類的原則是遍歷所有的混淆類,找出與當(dāng)前類時(shí)間相似度最大的那個(gè)混淆類,并與當(dāng)前類合并為一個(gè)新的混淆類。
4.按權(quán)利要求2所述的基于混淆網(wǎng)絡(luò)的語音解碼方法,其特征在于,所述步驟24)中進(jìn)行音素相似度聚類的原則是遍歷所有的混淆類,找出與當(dāng)前類音素相似度最大的那個(gè)混淆類,并與當(dāng)前類合并為一個(gè)新的混淆類。
5.按權(quán)利要求2所述的基于混淆網(wǎng)絡(luò)的語音解碼方法,其特征在于,所述步驟25)中后驗(yàn)概率的計(jì)算采用前向后向算法。
6.按權(quán)利要求2所述的基于混淆網(wǎng)絡(luò)的語音解碼方法,其特征在于,所述步驟25)中,對(duì)于本類中所有詞的后驗(yàn)概率之和小于1的混淆類,為其增加一個(gè)“省略詞”,使得每個(gè)類中所有詞的后驗(yàn)概率之和為1。
7.按權(quán)利要求1所述的基于混淆網(wǎng)絡(luò)的語音解碼方法,其特征在于,所述步驟2)中,首先將步驟1)中的N-Best句子通過合并算法壓縮成有向網(wǎng)絡(luò)結(jié)構(gòu),然后再根據(jù)得到的有向網(wǎng)絡(luò)生成混淆網(wǎng)絡(luò)。
全文摘要
本發(fā)明屬于語音識(shí)別領(lǐng)域,具體的說,涉及一種基于混淆網(wǎng)絡(luò)的語音解碼方法,包括步驟1)對(duì)語音特征進(jìn)行深度優(yōu)先幀同步Viterbi-Beam搜索,輸出N-Best句子或者詞格;2)將N-Best句子或者詞格按照時(shí)間相似度算法和音素相似度算法進(jìn)行兩級(jí)聚類生成混淆網(wǎng)絡(luò);3)在混淆網(wǎng)絡(luò)上以后驗(yàn)概率最大為準(zhǔn)則匹配搜索出最優(yōu)結(jié)果。與現(xiàn)有的多遍解碼方法相比,本發(fā)明在第二遍解碼時(shí),不需要更精細(xì)復(fù)雜的聲學(xué)模型和語言模型,有效的縮減了網(wǎng)絡(luò),提高了解碼速率;同時(shí)本發(fā)明還克服了現(xiàn)有多遍解碼系統(tǒng)中解碼失誤無法修復(fù)的缺點(diǎn)。
文檔編號(hào)G10L15/00GK1773606SQ20041009080
公開日2006年5月17日 申請(qǐng)日期2004年11月12日 優(yōu)先權(quán)日2004年11月12日
發(fā)明者呂萍, 顏永紅, 潘接林, 韓疆 申請(qǐng)人:中國科學(xué)院聲學(xué)研究所, 北京中科信利技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
简阳市| 宾阳县| 越西县| 安龙县| 平顶山市| 岑溪市| 蚌埠市| 延川县| 监利县| 凤城市| 新沂市| 长乐市| 巴林右旗| 滕州市| 禄丰县| 凉山| 湟中县| 资兴市| 保康县| 通河县| 浦江县| 当涂县| 庆阳市| 镇平县| 霍林郭勒市| 哈密市| 马关县| 贵南县| 闽清县| 大足县| 吐鲁番市| 望都县| 娄烦县| 锦州市| 林州市| 霞浦县| 靖宇县| 昌乐县| 高淳县| 尉犁县| 南木林县|