本發(fā)明涉及語音識別領域,尤其涉及的是,一種河南方言語音識別系統(tǒng)。
背景技術:
語音是人人交互中最常見的方式,也是最直接和最有效的方式之一。在現(xiàn)代社會,計算機的出現(xiàn)與普及使得人類的生活狀態(tài)發(fā)生改變,人們越來越習慣借助計算機完成各種日常事務。我們希望和機器交流時就像和人類交流一樣的便捷,計算機不僅能夠“聽見”人類的語音,并且能夠“聽懂”語音的意思。讓計算機聽懂語音的人機交互方式就是語音識別。
我國幅員遼闊,人口眾多,各個地區(qū)都有自己的方言。方言與普通話之間、方言與方言之間聲調(diào)、發(fā)音等方式差異很大。要求每個地區(qū)的人都說一口流利的普通話是不現(xiàn)實的,而且,國家在推廣普通話的同時也在加大保護方言的力度。無論是現(xiàn)在還是未來,方言的交流都是必不可少的。因此針對方言的語音識別系統(tǒng)的研究是非常有必要,而且有較高的實用價值。目前國內(nèi)的語音識別產(chǎn)品基本上都是識別普通話,但是河南方言與普通話差異很大。因此,現(xiàn)有技術存在缺陷,需要改進。
技術實現(xiàn)要素:
本發(fā)明所要解決的技術問題是提供一種新型的河南方言語音識別系統(tǒng)。
為實現(xiàn)上述目的,本發(fā)明所采用了下述的技術方案:一種河南方言語音識別系統(tǒng),包括語音獲取設備、語音識別設備及語音判定設備,所述語音獲取設備接收用戶輸入河南方言的語音指令,并將收到的語音指令傳輸至所述語音識別設備;
所述語音識別設備包括語音提取單元和特征壓縮單元,所述語音提取單元根據(jù)收到的語音指令提取河南方言的短時音頻特征,從短時音頻特征提取過零率、基頻和美爾倒譜系數(shù)特征;所述特征壓縮單元根據(jù)提取的過零率、基頻和美爾倒譜系數(shù)特征從語音指令中找出相互間相似度滿足預設條件的音頻幀特征,并將找出的音頻幀特征傳輸至所述語音判定設備;
所述語音判定設備包括語音判定部分和語音輸出部分,所述語音判定部分利用隱馬爾科夫模型從音頻幀特征中選擇一個或多個最優(yōu)候選識別特征,并將一個或多個最優(yōu)候選識別特征傳輸至語音輸出部分,由語音輸出部分將一個或多個最優(yōu)候選識別特征輸出;
所述語音獲取設備包括語音獲取單元和噪聲過濾單元,所述語音獲取單元采集環(huán)境數(shù)據(jù),接收用戶輸入的河南方言的語音指令;由噪聲過濾單元將語音獲取單元采集的語音指令消除噪聲后,將無噪音頻信號發(fā)送至語音識別設備。
優(yōu)選的,所述的河南方言語音識別系統(tǒng)中,所述語音判定設備的語音判定部分包括語音判定單元、模型訓練單元和對比單元,所述模型訓練單元預先訓練語音判定單元,所述模型訓練單元預先對語音信號的特征參數(shù)進行提取,通過隱馬爾科夫模型對所提取的語音信號特征參數(shù)進行模型訓練,建立語音信號的數(shù)據(jù)庫;
所述語音判定單元將經(jīng)過隱馬爾科夫訓練的音頻幀特征參數(shù)與數(shù)據(jù)庫匹配,由對比單元進行比較,最終得到一個或多個最優(yōu)候選識別特征。
優(yōu)選的,所述的河南方言語音識別系統(tǒng)中,所述語音識別設備還包括方言語種識別部分,所述方言語種識別部分包括方言語音提取單元、音素識別單元、對比單元和方言語種模型訓練單元,通過方言語種模型訓練單元對區(qū)域方言語音信號特征參數(shù)進行模型訓練,建立區(qū)域方言語種數(shù)據(jù)庫;
所述方言語音提取單元根據(jù)收到的語音指令提取河南方言的短時聲學特征;所述音素識別單元從短時聲學特征獲得音素序列;所述對比單元根據(jù)獲得的音素序列和區(qū)域方言語種數(shù)據(jù)庫的參數(shù)信息對比,找出滿足預設條件的方言種類。
優(yōu)選的,所述的河南方言語音識別系統(tǒng)中,所述語音獲取單元包括至少兩個拾音頭,至少兩個拾音頭對稱設置于語音獲取設備。
優(yōu)選的,所述的河南方言語音識別系統(tǒng)中,所述音獲取設備設有無線通訊單元,所述音獲取設備通過無線通訊單元接入網(wǎng)絡與語音識別設備連接。
優(yōu)選的,所述的河南方言語音識別系統(tǒng)中,所述拾音頭包括彈性體和接音盒,彈性體內(nèi)設有空腔,空腔內(nèi)放有由鋁基板粘合成的殼體,彈性體與殼體之前還設有多根輔助彈性體樹形的彈簧。
優(yōu)選的,所述的河南方言語音識別系統(tǒng)中,所述殼體內(nèi)放有麥克風組件,所述麥克風組件的正面上可拆卸設有多根導熱柱和一個導聲管,導聲管與麥克風組件正面上的聲道觸點相通,上述多根導熱柱和一個導聲管均伸出彈性體外,所述接音盒設置在彈性體的外部且與麥克風組件之間電連接,所述導熱柱上套有冷卻圈,冷卻圈內(nèi)裝有冷卻液。
相對于現(xiàn)有技術的有益效果是,采用上述方案,本發(fā)明提出的河南方言語音識別系統(tǒng)提高了運行效率和識別效果,具有很好的市場應用價值。
附圖說明
圖1為本發(fā)明的一個實施例的框架圖。
具體實施方式
為了便于理解本發(fā)明,下面結合附圖和具體實施例,對本發(fā)明進行更詳細的說明。附圖中給出了本發(fā)明的較佳的實施例。但是,本發(fā)明可以以許多不同的形式來實現(xiàn),并不限于本說明書所描述的實施例。相反地,提供這些實施例的目的是使對本發(fā)明的公開內(nèi)容的理解更加透徹全面。
需要說明的是,當元件被稱為“固定于”另一個元件,它可以直接在另一個元件上或者也可以存在居中的元件。當一個元件被認為是“連接”另一個元件,它可以是直接連接到另一個元件或者可能同時存在居中元件。本說明書所使用的術語“對稱”、“水平的”、“左”、“右”以及類似的表述只是為了說明的目的。
除非另有定義,本說明書所使用的所有的技術和科學術語與屬于本發(fā)明的技術領域的技術人員通常理解的含義相同。本說明書中在本發(fā)明的說明書中所使用的術語只是為了描述具體的實施例的目的,不是用于限制本發(fā)明。
如圖1所示,本發(fā)明的一個實施例是,該河南方言語音識別系統(tǒng),包括語音獲取設備11、語音識別設備10及語音判定設備9,所述語音獲取設備11接收用戶輸入河南方言的語音指令,并將收到的語音指令傳輸至所述語音識別設備10;
所述語音識別設備10包括語音提取單元5和特征壓縮單元6,所述語音提取單元5根據(jù)收到的語音指令提取河南方言的短時音頻特征,從短時音頻特征提取過零率、基頻和美爾倒譜系數(shù)特征;所述特征壓縮單元6根據(jù)提取的過零率、基頻和美爾倒譜系數(shù)特征從語音指令中找出相互間相似度滿足預設條件的音頻幀特征,并將找出的音頻幀特征傳輸至所述語音判定設備;
所述語音判定設備包括語音判定部分7和語音輸出部分8,所述語音判定部分7利用隱馬爾科夫模型從音頻幀特征中選擇一個或多個最優(yōu)候選識別特征,并將一個或多個最優(yōu)候選識別特征傳輸至語音輸出部分,由語音輸出部分8將一個或多個最優(yōu)候選識別特征輸出;
所述語音獲取設備11包括語音獲取單元1和噪聲過濾單元2,所述語音獲取單元1采集環(huán)境數(shù)據(jù),接收用戶輸入的河南方言的語音指令;由噪聲過濾單元2將語音獲取單元采集的語音指令消除噪聲后,將無噪音頻信號發(fā)送至語音識別設備。優(yōu)選的,語音獲取設備為用戶的智能手機。
優(yōu)選的,所述語音判定設備的語音判定部分包括語音判定單元、模型訓練單元和對比單元,所述模型訓練單元預先訓練語音判定單元,所述模型訓練單元預先對語音信號的特征參數(shù)進行提取,通過隱馬爾科夫模型對所提取的語音信號特征參數(shù)進行模型訓練,建立語音信號的數(shù)據(jù)庫;
所述語音判定單元將經(jīng)過隱馬爾科夫訓練的音頻幀特征參數(shù)與數(shù)據(jù)庫匹配,由對比單元進行比較,最終得到一個或多個最優(yōu)候選識別特征。
優(yōu)選的,所述語音識別設備還包括方言語種識別部分4,所述方言語種識別部分4包括方言語音提取單元、音素識別單元、對比單元和方言語種模型訓練單元,通過方言語種模型訓練單元對區(qū)域方言語音信號特征參數(shù)進行模型訓練,建立區(qū)域方言語種數(shù)據(jù)庫;
所述方言語音提取單元根據(jù)收到的語音指令提取河南方言的短時聲學特征;所述音素識別單元從短時聲學特征獲得音素序列;所述對比單元根據(jù)獲得的音素序列和區(qū)域方言語種數(shù)據(jù)庫的參數(shù)信息對比,找出滿足預設條件的方言種類。
優(yōu)選的,所述語音獲取單元包括至少兩個拾音頭,至少兩個拾音頭對稱設置于語音獲取設備。優(yōu)選的,所述音獲取設備11設有無線通訊單元3,所述音獲取設備通過無線通訊單元3接入網(wǎng)絡與語音識別設備連接。優(yōu)選的,所述拾音頭包括彈性體和接音盒,彈性體內(nèi)設有空腔,空腔內(nèi)放有由鋁基板粘合成的殼體,彈性體與殼體之前還設有多根輔助彈性體樹形的彈簧。優(yōu)選的,所述殼體內(nèi)放有麥克風組件,所述麥克風組件的正面上可拆卸設有多根導熱柱和一個導聲管,導聲管與麥克風組件正面上的聲道觸點相通,上述多根導熱柱和一個導聲管均伸出彈性體外,所述接音盒設置在彈性體的外部且與麥克風組件之間電連接,所述導熱柱上套有冷卻圈,冷卻圈內(nèi)裝有冷卻液。該設計新穎,可以根據(jù)不同手機殼體大小更改麥克風自身的容積,且能快速散去麥克風內(nèi)部組件工作時產(chǎn)生的熱量,具有廣泛的市場前景。
本實施例中提出的河南方言為依照賀巍《中原官話分區(qū)》一書中所劃分的區(qū)域內(nèi)語言。本實施例中提出的河南方言語音識別系統(tǒng),先通過語音獲取設備的拾音頭采集用戶輸入河南方言的語音指令,由噪聲過濾單元將語音獲取單元采集的語音指令消除噪聲后,將無噪音頻信號通過無線通訊單元接入網(wǎng)絡傳入語音識別設備;方言語音提取單元根據(jù)收到的語音指令提取河南方言的短時聲學特征;音素識別單元從短時聲學特征獲得音素序列;對比單元根據(jù)獲得的音素序列和區(qū)域方言語種數(shù)據(jù)庫的參數(shù)信息對比,找出滿足預設條件的方言種類;語音提取單元根據(jù)收到的語音指令結合滿足預設條件的方言種類,提取河南方言的短時音頻特征,并從短時音頻特征提取過零率、基頻和美爾倒譜系數(shù)特征;特征壓縮單元根據(jù)提取的過零率、基頻和美爾倒譜系數(shù)特征從語音指令中找出相互間相似度滿足預設條件的音頻幀特征,并將找出的音頻幀特征傳輸至語音判定設備;由語音判定設備的語音判定部分利用隱馬爾科夫模型從音頻幀特征中選擇一個或多個最優(yōu)候選識別特征,并將一個或多個最優(yōu)候選識別特征傳輸至語音輸出部分,語音輸出部分將一個或多個最優(yōu)候選識別特征反饋至語音獲取設備。
需要說明的是,上述各技術特征繼續(xù)相互組合,形成未在上面列舉的各種實施例,均視為本發(fā)明說明書記載的范圍;并且,對本領域普通技術人員來說,可以根據(jù)上述說明加以改進或變換,而所有這些改進和變換都應屬于本發(fā)明所附權利要求的保護范圍。