一種構音識別方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種構音識別方法,包括:獲取樣本信號,對樣本信號進行濾波去噪后,將樣本信號通過A/D轉換量化為二進制的樣本信號,從二進制的樣本信號中提取包含語音的語音信號;提取語音信號中的聲學特征參數;選定與訓練聲學模型,根據各個聲學特征參數分別估算聲學模型的參數估計值,得到對應于最大似然值的最優(yōu)模型參數;構音識別,采集待識別信號,根據最優(yōu)模型參數計算待識別信號的各個聲學特征參數的概率值,得到識別結果。本發(fā)明構音識別方法不僅能夠準確識別語音中的內容,還能夠識別出單音節(jié)詞的具體音節(jié)組合及其聲調。本發(fā)明還公開了一種構音識別系統(tǒng)。
【專利說明】一種構音識別方法及其系統(tǒng)
【技術領域】
[0001] 本發(fā)明涉及言語識別,尤其設計一種構音識別方法及其系統(tǒng)。
【背景技術】
[0002] 構音是言語產生的基礎,通過構音器官(如,下頜、唇、舌、軟腭等)的協(xié)調運動產 生。構音運動產生的最小語音單位是音素,語音學定義了音素包括元音和輔音兩類。漢語 普通話的構音識別結果包括兩部分:音素組合成的音節(jié)和聲調。但是目前構音識別技術無 法準確識別由相同音節(jié)不同聲調組成的字音,而且并非以音素為單位進行識別,導致識別 結果并不適用于言語語言教育。
[0003] 為了克服現有技術中的無法準確識別語音中的內容無法準確識別由相同音節(jié)不 同聲調組成的字音,而且并非以音素為單位進行識別,導致識別結果并不適用于言語語言 教育的缺陷,提出了一種構音識別方法及其系統(tǒng)。
【發(fā)明內容】
[0004] 本發(fā)明提出了一種構音識別方法,包括如下步驟:獲取樣本信號,對所述樣本信號 進行濾波去噪后,將所述樣本信號通過A/D轉換量化為二進制的樣本信號,從所述二進制 的樣本信號中提取包含語音的語音信號;提取所述語音信號中的聲學特征參數,所述聲學 特征參數用于識別音節(jié)和音調;選定與訓練聲學模型,分別計算各個所述聲學特征參數在 隱馬爾可夫模型下的最大似然概率值,得到對應于所述最大似然值的最優(yōu)模型參數;構音 識別,采集待識別信號,根據所述最優(yōu)模型參數計算所述待識別信號的各個聲學特征參數 的概率值,得到識別結果。
[0005] 本發(fā)明提出的所述構音識別方法中,提取包含語音的語音信號的步驟包括:將所 述二進制的樣本信號截取為多個幀;計算至少一幀的短時自相關函數的平均值;根據所述 平均值計算用于判斷當前幀的短時過門限率;根據所述短時過門限率判斷所述當前幀是清 音或濁音;逐個判斷所有幀,直至獲得起始幀與終止幀時得到語音信號。
[0006] 本發(fā)明提出的所述構音識別方法中,所述短時自相關函數為:
[0007]
【權利要求】
1. 一種構音識別方法,其特征在于,包括如下步驟: 獲取樣本信號,對所述樣本信號進行濾波去噪后,將所述樣本信號通過A/D轉換量化 為二進制的樣本信號,從所述二進制的樣本信號中提取包含語音的語音信號; 提取所述語音信號中的聲學特征參數,所述聲學特征參數用于識別音節(jié)和音調; 選定與訓練聲學模型,分別計算各個所述聲學特征參數在隱馬爾可夫模型下的最大似 然概率值,得到對應于所述最大似然值的最優(yōu)模型參數; 構音識別,采集待識別信號,根據所述最優(yōu)模型參數計算所述待識別信號的各個聲學 特征參數的概率值,得到識別結果。
2. 如權利要求1所述的構音識別方法,其特征在于,提取包含語音的語音信號的步驟 包括: 將所述二進制的樣本信號截取為多個幀; 計算至少一幀的短時自相關函數的平均值; 根據所述平均值計算用于判斷當前幀的短時過門限率; 根據所述短時過門限率判斷所述當前幀是清音或濁音; 逐個判斷所有幀,直至獲得起始幀與終止幀時得到語音信號。
3. 如權利要求2所述的構音識別方法,其特征在于,所述短時自相關函數為:
式中,k表示最大延遲點數,Rn(k)表示短時自相關函數,xn表示語音信號的采樣點,m 表示采樣點的序號,X' n表示語音信號的三電平量化信號,N表示語音信號采樣點的個數。
4. 如權利要求2所述的構音識別方法,其特征在于,所述短時過門限率為:
1, x>0 其中,sgn⑴={ 式中,zn表示短時過門限率,T表示設定的門限值,為正數,xn表示語音信號的采樣點, m表示采樣點的序號,N表示語音信號采樣點的個數,η表示語音幀的序號。
5. 如權利要求1所述的構音識別方法,其特征在于,提取所述語音信號后進一步包括: 加重所述語音信號中的高頻分量; 利用窗函數對所述語音信號進行加窗操作。
6. 如權利要求1所述的構音識別方法,其特征在于,所述聲學特征參數包括Mel倒譜系 數及其一階差分結果和二階差分結果,所述Mel倒譜系數及其一階差分結果和二階差分結 果的計算步驟包括: 通過快速傅立葉變換計算所述語音信號的功率譜; 利用Mel濾波器計算所述功率譜得到Mel頻譜; 通過離散余弦變換計算所述Mel頻譜得到Mel倒頻譜系數; 逐次對所述Mel倒頻譜系數進行以時間的差分運算,得到一階差分結果與二階差分結 果。
7. 如權利要求1所述的構音識別方法,其特征在于,所述聲學特征參數包括短時對數 能量,所述短時對數能量如以下公式表示:
式中,sn表不語音信號離散序列,N表不米樣點的總個數,η表不米樣點序號。
8. 如權利要求1所述的構音識別方法,其特征在于,得到所述最優(yōu)模型參數的步驟包 括: 計算所述聲學特征參數的均值與協(xié)方差; 將聲學模型的初始均值與協(xié)方差替換為所述聲學特征參數的均值與協(xié)方差; 估算所述聲學模型的模型參數,得到參數估計值; 將所述參數估計值替換所述聲學模型中的參數,分別計算各個所述聲學特征參數在隱 馬爾可夫模型下的最大似然概率值,得到對應于所述最大似然值的最優(yōu)模型參數。
9. 如權利要求1所述的構音識別方法,其特征在于,所述參數估計值是根據 Baum-Welch算法估算得到的。
10. 如權利要求1所述的構音識別方法,其特征在于,所述識別結果的計算步驟包括: 將所述待識別信號進行劃分,得到多個詞語組成的詞序列; 提取當前詞語的多個聲學特征參數; 根據所述最優(yōu)模型參數以隱馬爾可夫模型分別計算每個所述聲學特征參數的概率值, 以所述概率值最大的聲學特征參數作為所述詞語的識別結果; 依次計算對所述待識別信號中每個詞語的識別結果,得到所待述識別信號的識別結 果。
11. 如權利要求1所述的構音識別方法,其特征在于,得到所述識別結果之后進一步包 括: 將所述識別結果與事先設定的目標音對比,得到所述待識別信號中存在構音障礙的聲 母、韻母和聲調。
12. -種構音識別系統(tǒng),其特征在于,包括 語音采集裝置,其用于采集樣本信號與待識別信號; 語音處理裝置,其用于對所述樣本信號與待識別信號進行數據轉換與預處理,并分別 提取所述樣本信號與所述待識別信號的聲學特征參數; 構音識別裝置,其用于根據所述樣本信號的聲學特征參數訓練聲學模型得到最優(yōu)模型 參數,根據所述最優(yōu)模型參數計算所述待識別信號的聲學特征參數,得到識別結果。
13. 如權利要求12所述的構音識別系統(tǒng),其特征在于,所述構音識別裝置進一步用于 對所述識別結果進行判斷,判斷所述待識別信號中存在構音障礙的聲母、韻母和聲調。
【文檔編號】G10L15/08GK104123934SQ201410353819
【公開日】2014年10月29日 申請日期:2014年7月23日 優(yōu)先權日:2014年7月23日
【發(fā)明者】黃昭鳴, 周林燦, 李寧 申請人:泰億格電子(上海)有限公司