專利名稱:一種基于語音識別及語音分析的發(fā)音評估方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種發(fā)音評估方法,更具體地說,本發(fā)明涉及基于語音識別及語音分析的發(fā)音評估方法。
背景技術(shù):
“說”是語言學(xué)習(xí)中的一個重要環(huán)節(jié),市場上已有很多語言教學(xué)軟件,比如,英語學(xué)習(xí)軟件,這些軟件所采用的教學(xué)方式基本都是“錄音對比”,也就是說,他們只能提供學(xué)生發(fā)音以及教師示例發(fā)音的反復(fù)播放,讓學(xué)生自己聽著對比其中的不同蘭糾正發(fā)音。其實(shí),這樣的方式所能起到的教學(xué)效果非常有限,因?yàn)槿藗兺ǔ0l(fā)音不準(zhǔn),正是由于本身聽不出“準(zhǔn)確”與“不準(zhǔn)確”發(fā)音之間的區(qū)別。
目前,市場也出現(xiàn)了具有發(fā)音評估功能的英語學(xué)習(xí)軟件,但它們通常僅僅采用了語音識別技術(shù)來判斷用戶說了什么,只能給出一個籠統(tǒng)的評判,只能表明用戶這一句話念的好不好,而用戶所說的一句話中往往只是在某個或某幾個單詞上發(fā)音不準(zhǔn),這種只能對一句話的準(zhǔn)確與否進(jìn)行評估的方法不能精確地表明一句話中的各個單詞(字)念的好不好,讓用戶有針對性的進(jìn)行糾正,因而難以滿足實(shí)際的需求。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種基于語音識別及語音分析的發(fā)音評估方法,對輸入語音的分析和評判可以單詞或單字為單位,從而提高評估的精確性。
為了解決上述技術(shù)問題,本發(fā)明提供了一種基于語音識別及語音分析的發(fā)音評估方法,包括以下步驟(a)選取輸入的原始語音信號,采集并轉(zhuǎn)換為數(shù)字信號,然后進(jìn)行分幀處理;(b)提取語音幀的特征參數(shù);(c)利用語音識別引擎對該輸入語音進(jìn)行識別,得到每個單詞(如,對英文)或單字(如,對中文)的分段信息,并計算出每個單詞或單字的置信度;(d)根據(jù)每個單詞或單字的置信度,對該輸入語音中每個單詞或單字的發(fā)音真實(shí)度進(jìn)行評估。
進(jìn)一步地,為了在評估時同時計入原始語音時長、能量、基頻等與標(biāo)準(zhǔn)語音的差異,上述發(fā)音評估方法可具有以下特點(diǎn)所述步驟(b)中還計算出每個語音幀的能量和基頻,或者其中的一種,所述步驟(c)后還包括步驟(c1)將得到的語音幀能量、基頻和分段信息中的一種或任意組合,與對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息相比較,計算每個單詞或單字的相似度,在步驟(d)中與所述置信度一起加權(quán)計算每個單詞或單字的發(fā)音真實(shí)度。
進(jìn)一步地,上述發(fā)音評估方法可具有以下特點(diǎn)所述步驟(c)中還得到了每個音節(jié)的分段信息,所述步驟(c1)進(jìn)一步分為以下步驟(c11)根據(jù)每個音節(jié)所包含的語音幀數(shù)量得到音節(jié)的時長信息,將每個音節(jié)所包含所有語音幀的能量和基頻各自相加后除以語音幀的個數(shù)分別得到音節(jié)的基頻和能量信息;(c12)分別將每個單詞或單字包含的所有音節(jié)的時長、能量和基頻信息與對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息相比較,計算得到每個單詞或單字的時長、能量和基頻的差異值;(c13)根據(jù)所述各個差異值和相似度的計算公式算出每個單詞或單字的相似度。
進(jìn)一步地,上述發(fā)音評估方法可具有以下特點(diǎn)所述步驟(c11)中還根據(jù)每個單詞或單字包含所有音節(jié)的時長、基頻和能量累加得到每個單詞或單字的時長、基頻或能量,并與對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息相比較得到每個單詞或單字時長、能量和基頻的另一組差異值,所述步驟(c13)中計算每個單詞或單字的相似度時同時考慮了兩組差異值的影響。
進(jìn)一步地,上述發(fā)音評估方法可具有以下特點(diǎn)所述步驟(c12)中計算每個單詞或單字的時長、能量和基頻的差異值時,是分別將其包含所有音節(jié)的時長、能量和基頻與標(biāo)準(zhǔn)發(fā)音信息的差值平方后取均值得到的。
本發(fā)明要解決的技術(shù)問題是提供一種基于語音識別及語音分析的發(fā)音評估方法,對輸入語音的分析和評判可以音節(jié)為單位,從而提高評估的精確性。
為了解決上述技術(shù)問題,本發(fā)明提供了一種基于語音識別及語音分析的發(fā)音評估方法,包括以下步驟
(o)選取輸入的原始語音信號,采集并轉(zhuǎn)換為數(shù)字信號,然后進(jìn)行分幀處理;(p)對語音幀進(jìn)行特征參數(shù)的提取;(q)利用語音識別引擎對該輸入語音進(jìn)行識別,得到精確到每個音節(jié)的分段信息,并計算出每個音節(jié)的置信度;(r)根據(jù)每一音節(jié)的置信度,對該輸入語音中每一音節(jié)的發(fā)音真實(shí)度進(jìn)行評估。
進(jìn)一步地,為了在評估時同時計入原始語音時長、能量、基頻等與標(biāo)準(zhǔn)語音的差異,上述發(fā)音評估方法可具有以下特點(diǎn)所述步驟(p)中還計算出每個語音幀的能量和基頻,或者其中一種,所述步驟(q)后還包括步驟(q1)將得到的語音幀能量、基頻和分段信息中的一種或任意組合,與對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息相比較,計算每個音節(jié)的相似度,在步驟(r)中與所述置信度一起加權(quán)計算出每個音節(jié)的發(fā)音真實(shí)度。
進(jìn)一步地,上述發(fā)音評估方法可具有以下特點(diǎn)所述步驟(q1)進(jìn)一步分為以下步驟(q11)將每個音節(jié)所包含語音幀的時長、能量和基頻,或者進(jìn)一步計算出的該音節(jié)的時長、能量和基頻,與對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息相比較,得到每個音節(jié)時長、能量和基頻的差異值;(q12)根據(jù)每個音節(jié)的時長、能量和基頻的差異值,分別計算出該音節(jié)時長、能量和基頻的相似度或者計算出該音節(jié)同時考慮時長、能量和基頻差異值的總的相似度。
進(jìn)一步地,可以同時以音節(jié)和單詞(字)為單位進(jìn)行評估,即所述步驟(q)中還同時計算出輸入語音中每個單詞或單字的置信度;所述步驟(r)之后還包括步驟(s)根據(jù)每個單詞或單字的置信度,對該輸入語音中每個單詞或單字的發(fā)音真實(shí)度進(jìn)行評估。
進(jìn)一步地,上述發(fā)音評估方法可具有以下特點(diǎn)所述步驟(p)中還計算出每個語音幀的能量和基頻,或者其中一種,所述步驟(q)后還包括步驟(q1)將得到的語音幀能量、基頻和分段信息中的一種或任意組合,與對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息相比較,計算每個音節(jié)以及每個單詞或單字的相似度,所述步驟(r)中根據(jù)所述每個音節(jié)的相似度和置信度加權(quán)計算該音節(jié)的發(fā)音真實(shí)度,所述步驟(s)根據(jù)每個單詞或單字的相似度和置信度加權(quán)計算該單詞或單字的發(fā)音真實(shí)度。
本發(fā)明不需要用戶自行比對聲音,并且不是只用簡單的語音識別技術(shù)來判斷用戶說了什么,而是先利用語音識別技術(shù)對用戶的發(fā)音進(jìn)行準(zhǔn)確切分,精確到一句話中的每個字,每個音節(jié);然后,在利用發(fā)音的強(qiáng)度信息、頻率信息、韻律信息來精確分析用戶的發(fā)音同標(biāo)準(zhǔn)的發(fā)音有什么不同,最終告訴用戶(學(xué)習(xí)者)問題出在哪一個字、哪一個音節(jié),以及如何改進(jìn),可以大大提高發(fā)音評估的精確度和效果。
圖1是本發(fā)明實(shí)施例的發(fā)音評估方法的系統(tǒng)框圖;圖2是某個例句進(jìn)行識別分段后的結(jié)果示例圖;圖3是本發(fā)明第一實(shí)施例方法的流程圖;圖4是本發(fā)明第二實(shí)施例方法的流程圖。
具體實(shí)施例方式
下面結(jié)合附圖與具體實(shí)施方式
對本發(fā)明做進(jìn)一步詳細(xì)描述。
第一實(shí)施例圖1是本實(shí)施例發(fā)音評估方法的系統(tǒng)框圖,如圖所示,本實(shí)施例的發(fā)音評估系統(tǒng)包括語音特征提取模塊、語音識別及自動對齊規(guī)整模塊、信息融合分析模塊。原始語音輸入后,首先進(jìn)入語音特征提取模塊進(jìn)行特征提取,該特征提取過程是對原始語音信號進(jìn)行分幀處理并獲得每一幀的發(fā)音強(qiáng)度、發(fā)音時長、基頻曲線等特征的數(shù)據(jù)。然后對原始語音信號進(jìn)行MFCC變換,并進(jìn)入語音識別模塊,根據(jù)當(dāng)前學(xué)習(xí)內(nèi)容、標(biāo)準(zhǔn)語音模型對經(jīng)過MFCC變換后的語音信號進(jìn)行語音識別并自動對齊規(guī)整,匹配出可以精確到句中每個英文單詞或中文的一個單字的分段信息;再根據(jù)這些分段信息分別計算出每個字或者音節(jié)的置信度。最后進(jìn)入信息融合分析模塊,在該模塊中,綜合特征提取模塊中提取的發(fā)音強(qiáng)度、發(fā)音時長、基頻曲線等數(shù)據(jù)和語音識別模塊中獲得的分段信息、置信度等數(shù)據(jù),并對比學(xué)習(xí)內(nèi)容樣本庫進(jìn)行融合分析,得出對本次發(fā)音的最終評判,該評判精確到本次發(fā)音的每一個單詞或單字。
圖3是本實(shí)施例的流程圖,如圖所示,包括以下步驟步驟100,用戶讀出學(xué)習(xí)內(nèi)容中的一句話;步驟101,進(jìn)行原始語音信號采集,將每次用戶發(fā)音的模擬信號轉(zhuǎn)變成數(shù)字采樣信號;步驟102,將語音的數(shù)字信號進(jìn)行分幀處理,通常以25ms為一個分析幀的長度,每一幀分析完后,將分析幀向后移動10ms,再重復(fù)處理,直至所有信號處理完畢;步驟103,對每一幀語音信號分別計算出該幀的語音能量,MFCC參數(shù),以及基音頻率;步驟104,根據(jù)當(dāng)前的學(xué)習(xí)內(nèi)容,利用語音識別引擎對輸入語音進(jìn)行識別,得到針對這一句話的分段信息,本實(shí)施例是得到每個單詞或單字,以及每個單詞或字所包含音節(jié)的分段信息;圖2是對某個例句進(jìn)行識別分段后的結(jié)果示例圖。
步驟105,得到分段信息后,繼續(xù)計算出輸入語音中每個單詞或單字的置信度;上述步驟104和105中,分段信息及置信度的計算都采用專利申請“語音識別置信度評價方法和系統(tǒng)及應(yīng)用該方法的聽寫裝置(申請?zhí)?2148686.7)”中公開的算法,但也可以采用其它算法,本發(fā)明對此并不加以限制。
步驟106,根據(jù)得到的分段信息及每一幀的語音能量、基音頻率,計算輸入語音中每個詞或字的時長、能量和基頻;一個單詞或單字可能是由一個或多個連續(xù)的音節(jié)組成,本實(shí)施例是先計算每個音節(jié)的時長、能量和基頻,再根據(jù)每個詞或字中所包含的音節(jié)的上述信息得到每個詞或字的時長、能量和基頻。
音節(jié)的時長就是每個音節(jié)的發(fā)音長短,根據(jù)分段信息可直接得到,一幀語音相當(dāng)于10ms,每個音節(jié)包含的所有語音幀的個數(shù)就可以表示本音節(jié)的時長;音節(jié)的語音能量和基音頻率則通過將該音節(jié)的所有語音幀的語音能量和基音頻率累計后求平均值得到。將用戶原始語音每一幀上的能量記為eng(i)、基頻記為pitch(i)、時長記為dur(i),其中i表示幀序號;將某個音節(jié)上的能量記為eng(k)、基頻記為pitch(k)、時長記為dur(k),其中k表示音節(jié)的序號。則dur(k)等于音節(jié)k中包含的幀的個數(shù);能量eng(k)是將音節(jié)k所包含的各幀能量eng(i)相加,再除以該音節(jié)所包含的幀的個數(shù)dur(k)得到;基頻pitch(k)是將音節(jié)k內(nèi)各幀的基頻pitch(i)相加,再除以音節(jié)k的幀數(shù)dur(k)得到。
在本實(shí)施例中,每個單詞或單字的時長、能量和基頻均由其所包含的音節(jié)的時長、能量和基頻疊加得到。將句子中每個單詞或字的能量記為eng_w(j)、基頻記為pitch_w(j)、時長記為dur_w(j);其中j表示單詞或單字的序號,則時長dur_w(j)等于單詞或字j包含的所有音節(jié)的時長dur(k)的和;能量eng_w(j)等于單詞或字j包含的所有音節(jié)的能量eng(k)的和;基頻pitch_w(j)等于單詞或字j包含的所有音節(jié)的基頻pitch(k)的和。
步驟107,將得到的每一個詞或字的置信度、時長、能量和基頻信息與學(xué)習(xí)內(nèi)容樣本庫中對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息相比較,計算每個詞或字的發(fā)音真實(shí)度;本實(shí)施例的具體算法如下1)先找到學(xué)習(xí)內(nèi)容樣本庫中與本次輸入語音內(nèi)容對應(yīng)的發(fā)音例句,得到一組與算出的每一個音節(jié)以及每一詞(字)的時長、基頻、能量相對應(yīng)的“標(biāo)準(zhǔn)”時長、基頻和能量信息,分別記為dur0(k),eng0(k),pitch0(k)和dur_w0(j),eng_w0(j),pitch_w0(j)。該標(biāo)準(zhǔn)時長、基頻和能量信息可以預(yù)先保存,也可以根據(jù)標(biāo)準(zhǔn)語音庫的該例句進(jìn)行實(shí)時計算。
2)然后計算每個單詞或字j的時長、能量、基頻的差異值Δdur(j)=Σk(dur(k)-dur0(k))2/N for all syllable(k)∈word(j)]]>Δeng(j)=Σk(eng(k)-eng0(k))2/N for all syllable(k)∈word(j)]]>Δpitch(j)=Σk(pitch(k)-pitch0(k))2/N for all syllable(k)∈word(j)]]>其中N是屬于Word(j)的syllable(音節(jié))的個數(shù),Δdur(j),Δeng(j),Δpitch(j)分別為單個詞或字j的時長差異值,能量差異值,基頻差異值。
3)再對時長、能量、基頻差異值的信息進(jìn)行融合,計算這些信息的相似度參數(shù)a=w1·Δdur(j)+w2·Δeng(j)+w3·Δpitch(j)---(1)]]>參數(shù)b=0.5*w1·x+w2·y+w3·z---(2)]]>其中x=|dur_w0(j)-dur_w(j)|2;y=|eng_w0(j)-eng_w(j)|2;z=|pitch_w0(j)-pitch_w(j)|2。
打分函數(shù)為sigmo(x)=arctan(x-3.5)/π*100+50(3)將式(1)、(2)式的結(jié)果代入式(3)得到相似度score1=sigmo(-log(a+b)/2)其中w1,w2,w3表示對不同信息的權(quán)重,可以分別設(shè)置,如為0.5,0.3,0.2。
4)最后根據(jù)每個單詞或字的置信度和上面計算出來的相似度,計算得到每個單詞或字的發(fā)音真實(shí)度評分。
將得到的word(j)的置信度記為score2,那么,最終word(j)的發(fā)音真實(shí)度就是score1和score2的加權(quán)平均score=w1·score1+w2·score2兩者權(quán)重可以設(shè)為相同,即w1=w2=0.5。當(dāng)然也可以設(shè)為不同。
步驟108,計算整句話的真實(shí)度,等于句話中所有單詞或字的真實(shí)度score的平均值。
步驟109,根據(jù)以上計算結(jié)果對本次發(fā)音做出評判,將整句話的真實(shí)度、每個單詞或單字的真實(shí)度反饋給用戶。
第二實(shí)施例本實(shí)施例與第一實(shí)施例的主要區(qū)別在于,本實(shí)施例還進(jìn)行了音節(jié)的發(fā)音真實(shí)度評估,以更精確地指出用戶發(fā)音與標(biāo)準(zhǔn)發(fā)音的差異,另外,本實(shí)施例采用了不同的打分方法。
本實(shí)施例的的發(fā)音評估系統(tǒng)與第一實(shí)施例相同,其方法流程包括以下步驟步驟200,用戶讀出學(xué)習(xí)內(nèi)容中的一句話;步驟201,進(jìn)行原始語音信號采集,將每次用戶發(fā)音的模擬信號轉(zhuǎn)變成數(shù)字采樣信號;步驟202,將語音的數(shù)字信號進(jìn)行分幀處理,通常以25ms為一個分析幀的長度,每一幀分析完后,將分析幀向后移動10ms,再重復(fù)處理,直至所有信號處理完畢;步驟203,對每一幀語音信號分別計算出該幀的語音能量,MFCC參數(shù)(也可以是其他的特征參數(shù)),以及基音頻率;步驟204,根據(jù)當(dāng)前的學(xué)習(xí)內(nèi)容,利用語音識別引擎對輸入語音進(jìn)行識別,得到針對這一句話的每個單詞或單字,以及每個音節(jié)的分段信息;步驟205,得到分段信息后,計算出每個單詞或字,以及其所包含的每個音節(jié)的置信度;仍采用申請?zhí)枮?2148686.7的專利申請公開的算法;步驟206,將得到的每一幀的時長、能量和基頻信息dur(i),eng(i),pitch(i)與學(xué)習(xí)內(nèi)容樣本庫中該幀對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息dur0(i),eng0(i),pitch0(i)相比較,計算輸入語音中每個音節(jié)的時長、能量和基頻的相似度;
先計算音節(jié)k的時長差異值、能量差異值和基頻差異值Δdur(k),Δeng(k),Δpitch(k)Δdur(k)=Σi(dur(i)-dur0(i))2/N for all frame(i)∈syllable(k)]]>Δeng(k)=Σi(eng(i)-eng0(i))2/N for all frame(i)∈syllable(k)]]>Δpitch(k)=Σi(pitch(i)-pitch0(i))2/N for all frame(i)∈syllable(k)]]>其中N是屬于syllable(k)的frame(幀)的個數(shù)。然后分別計算時長、能量和基頻的相似度scorea=sigmo(-log(Δdur(k)+|dur0(k)-dur(k)|/2))]]>scoreb=sigmo(-log(Δeng(k)+|eng0(k)-eng(k)|/2))]]>scorea=sigmo(-log(Δpitch(k)+|pitch0(k)-pitch(k)|/2))]]>其中的sigmo(x)函數(shù)與第一實(shí)施例相同。
步驟207,計算每個詞或字中所包含的每個音節(jié)的發(fā)音真實(shí)度;是根據(jù)每一音節(jié)的置信度和時長、能量、基頻的相似度進(jìn)行加權(quán)平均score=w1·score1+w2·score2+w3·score3+w4·score4其中w1,w2,w3,w4表示對不同信息的權(quán)重,可以分別設(shè)為0.25,0.15,0.10,0.5;步驟208,計算出單個詞或字的真實(shí)度,單詞或單字的真實(shí)度按其包含的所有音節(jié)真實(shí)度的均值確定,也可以采用第一實(shí)施例的方法計算;步驟209,計算整句話的真實(shí)度,等于這句話中所有單詞或單字的真實(shí)度score的平均值;步驟210,根據(jù)以上計算結(jié)果對本次發(fā)音做出評判,將整句話以及每一音節(jié)的真實(shí)度反饋給用戶。
本發(fā)明在上述實(shí)施例的基礎(chǔ)上可以有很多的變換,例如對于每個詞或字的真實(shí)度是考慮了置信度、時長、基頻和能量四個信息,其中時長、基頻和能量也可以不考慮,或者考慮其中一種或其任意組合。
又如,對于單詞或單字,以及音節(jié)的真實(shí)度的具體計算方法上面舉出了兩種,但是這種算法可以很多變換,例如在第一實(shí)施例計算單詞或單字的時長、基頻和能量及其差異值時,不計算其所包含音節(jié)的時長、基頻和能量的差異值,而直接采用該單詞或單字所包含的幀來計算;相似度和最后真實(shí)度的計算方法可以有很多種,等等。
權(quán)利要求
1.一種基于語音識別及語音分析的發(fā)音評估方法,包括以下步驟(a)選取輸入的原始語音信號,采集并轉(zhuǎn)換為數(shù)字信號,然后進(jìn)行分幀處理;(b)提取語音幀的特征參數(shù);(c)利用語音識別引擎對該輸入語音進(jìn)行識別,得到每個單詞或單字的分段信息,并計算出每個單詞或單字的置信度;(d)根據(jù)每個單詞或單字的置信度,對該輸入語音中每個單詞或單字的發(fā)音真實(shí)度進(jìn)行評估。
2.如權(quán)利要求1所述的發(fā)音評估方法,其特征在于所述步驟(b)中還計算出每個語音幀的能量和基頻,或者其中的一種,所述步驟(c)后還包括步驟(c1)將得到的語音幀能量、基頻和分段信息中的一種或任意組合,與對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息相比較,計算每個單詞或單字的相似度,在步驟(d)中與所述置信度一起加權(quán)計算每個單詞或單字的發(fā)音真實(shí)度。
3.如權(quán)利要求2所述的發(fā)音評估方法,其特征在于,所述步驟(c)中還得到了每個音節(jié)的分段信息,所述步驟(c1)進(jìn)一步分為以下步驟(c11)根據(jù)每個音節(jié)所包含的語音幀數(shù)量得到音節(jié)的時長信息,將每個音節(jié)所包含所有語音幀的能量和基頻各自相加后除以語音幀的個數(shù)分別得到音節(jié)的基頻和能量信息;(c12)分別將每個單詞或單字包含的所有音節(jié)的時長、能量和基頻信息與對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息相比較,計算得到每個單詞或單字的時長、能量和基頻的差異值;(c13)根據(jù)所述各個差異值和相似度的計算公式算出每個單詞或單字的相似度。
4.如權(quán)利要求3所述的發(fā)音評估方法,其特征在于,所述步驟(c11)中還根據(jù)每個單詞或單字包含所有音節(jié)的時長、基頻和能量累加得到每個單詞或單字的時長、基頻或能量,并與對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息相比較得到每個單詞或單字時長、能量和基頻的另一組差異值,所述步驟(c13)中計算每個單詞或單字的相似度時同時考慮了兩組差異值的影響。
5.如權(quán)利要求2所述的發(fā)音評估方法,其特征在于,所述步驟(c12)中計算每個單詞或單字的時長、能量和基頻的差異值時,是分別將其包含所有音節(jié)的時長、能量和基頻與標(biāo)準(zhǔn)發(fā)音信息的差值平方后取均值得到的。
6.一種基于語音識別及語音分析的發(fā)音評估方法,包括以下步驟(o)選取輸入的原始語音信號,采集并轉(zhuǎn)換為數(shù)字信號,然后進(jìn)行分幀處理;(p)對語音幀進(jìn)行特征參數(shù)的提??;(q)利用語音識別引擎對該輸入語音進(jìn)行識別,得到精確到每個音節(jié)的分段信息,并計算出每個音節(jié)的置信度;(r)根據(jù)每一音節(jié)的置信度,對該輸入語音中每一音節(jié)的發(fā)音真實(shí)度進(jìn)行評估。
7.如權(quán)利要求6所述的發(fā)音評估方法,其特征在于所述步驟(p)中還計算出每個語音幀的能量和基頻,或者其中一種,所述步驟(q)后還包括步驟(q1)將得到的語音幀能量、基頻和分段信息中的一種或任意組合,與對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息相比較,計算每個音節(jié)的相似度,在步驟(r)中與所述置信度一起加權(quán)計算每個音節(jié)的發(fā)音真實(shí)度。
8.如權(quán)利要求7所述的發(fā)音評估方法,其特征在于所述步驟(q1)進(jìn)一步分為以下步驟(q11)將每個音節(jié)所包含語音幀的時長、能量和基頻,或者進(jìn)一步計算出的該音節(jié)的時長、能量和基頻,與對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息相比較,得到每個音節(jié)時長、能量和基頻的差異值;(q12)根據(jù)每個音節(jié)的時長、能量和基頻的差異值,分別計算出該音節(jié)時長、能量和基頻的相似度或者計算出該音節(jié)同時考慮時長、能量和基頻差異值的總的相似度。
9.如權(quán)利要求6所述的發(fā)音評估方法,其特征在于,所述步驟(q)中還同時計算出輸入語音中每個單詞或單字的置信度;所述步驟(r)之后還包括步驟(s)根據(jù)每個單詞或單字的置信度,對該輸入語音中每個單詞或單字的發(fā)音真實(shí)度進(jìn)行評估。
10.如權(quán)利要求9所述的發(fā)音評估方法,其特征在于,所述步驟(p)中還計算出每個語音幀的能量和基頻,或者其中一種,所述步驟(q)后還包括步驟(q1)將得到的語音幀能量、基頻和分段信息中的一種或任意組合,與對應(yīng)的標(biāo)準(zhǔn)發(fā)音信息相比較,計算每個音節(jié)以及每個單詞或單字的相似度,所述步驟(r)中根據(jù)所述每個音節(jié)的相似度和置信度加權(quán)計算該音節(jié)的發(fā)音真實(shí)度,所述步驟(s)中根據(jù)每個單詞或單字的相似度和置信度加權(quán)計算該單詞或單字的發(fā)音真實(shí)度。
全文摘要
本發(fā)明公開了一種基于語音識別及語音分析的發(fā)音評估方法,包括以下步驟選取輸入的原始語音信號,采集并轉(zhuǎn)換為數(shù)字信號,然后進(jìn)行分幀處理;提取語音幀的特征參數(shù);利用語音識別引擎對該輸入語音進(jìn)行識別,得到每個單詞(字)或/及音節(jié)的分段信息,并計算出每個單詞或單字的置信度;根據(jù)每個單詞(字)或/及音節(jié)的置信度,對該輸入語音中每個單詞(字)或/音節(jié)的發(fā)音真實(shí)度進(jìn)行評估。進(jìn)一步,可以同時計算出每一語音頻的時長、能量和頻率信息,并與標(biāo)準(zhǔn)發(fā)音庫對應(yīng)的信息相比較,計算出每個單詞(字)或/和音節(jié)的相似度,和置信度一起加權(quán)得到發(fā)音真實(shí)度。本發(fā)明可以評估的單位精確到每個字,每個音節(jié),大大提高發(fā)音評估的精確度和效果。
文檔編號G10L15/02GK1750121SQ20041007444
公開日2006年3月22日 申請日期2004年9月16日 優(yōu)先權(quán)日2004年9月16日
發(fā)明者劉建, 趙慶衛(wèi), 顏永紅, 邵健 申請人:北京中科信利技術(shù)有限公司, 中國科學(xué)院聲學(xué)研究所