專利名稱:噪聲環(huán)境下語(yǔ)音控制指令產(chǎn)生裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語(yǔ)音控制指令產(chǎn)生裝置,尤其是一種在噪聲環(huán)境下使用的語(yǔ)音控制指令產(chǎn)生裝置。
目前現(xiàn)有的技術(shù)中,利用語(yǔ)音識(shí)別技術(shù)實(shí)現(xiàn)人的自然語(yǔ)言與機(jī)器對(duì)話,即人機(jī)對(duì)話,使機(jī)器能聽(tīng)懂人的語(yǔ)音指令并且去執(zhí)行人所發(fā)出的指令,已有一定的進(jìn)展。例如,美國(guó)國(guó)際商業(yè)機(jī)器公司申請(qǐng)的美國(guó)專利US050950,美國(guó)摩托羅拉公司申請(qǐng)的美國(guó)專利US08/254,844,美國(guó)電報(bào)電話公司申請(qǐng)的美國(guó)專利US352251,其主要特征是采用通過(guò)空氣傳導(dǎo)的受話器作為語(yǔ)音識(shí)別裝置的人的語(yǔ)音的接受器,將接受到的語(yǔ)音在語(yǔ)音識(shí)別裝置或計(jì)算機(jī)中進(jìn)行識(shí)別。語(yǔ)音識(shí)別的重要指標(biāo)是人的語(yǔ)音的正確識(shí)別率,由于在相當(dāng)多的使用環(huán)境中除了人發(fā)出的語(yǔ)音之外,存在有環(huán)境噪聲,這種噪聲混雜于指令發(fā)出人的語(yǔ)音之中,使正確識(shí)別率大大降低,甚至出現(xiàn)錯(cuò)誤識(shí)別,這就限制了利用語(yǔ)音識(shí)別技術(shù)正確產(chǎn)生控制指令,實(shí)現(xiàn)人機(jī)對(duì)話,在許多實(shí)際場(chǎng)所的應(yīng)用。
本發(fā)明的目的是提供一種在噪聲環(huán)境下使用的正確識(shí)別率高的語(yǔ)音識(shí)別技術(shù)的語(yǔ)音控制指令產(chǎn)生裝置。
本發(fā)明由模數(shù)和數(shù)模轉(zhuǎn)換器、液晶顯示器、電源、揚(yáng)聲器、語(yǔ)音識(shí)別器等部件組成,其特征是在模數(shù)和數(shù)模轉(zhuǎn)換器上通過(guò)濾波器連接一個(gè)喉頭送話器,語(yǔ)音識(shí)別器則以數(shù)字信號(hào)處理器為核心,連接閃速存儲(chǔ)器(Ⅰ)、(Ⅱ)、組合邏輯器、編碼器、驅(qū)動(dòng)器、看門(mén)狗電路組成,模數(shù)和數(shù)模轉(zhuǎn)換器與數(shù)字信號(hào)處理器的串行口連接,驅(qū)動(dòng)器將閃速存儲(chǔ)器(Ⅱ)與數(shù)字信號(hào)處理器連接在一起,組合邏輯器分別與閃速存儲(chǔ)器(Ⅰ)、(Ⅱ)、數(shù)字信號(hào)處理器連接,并由組合邏輯器通過(guò)執(zhí)行電路輸出控制信號(hào)。
本發(fā)明由于其語(yǔ)音信號(hào)是由喉頭送話器通過(guò)濾波器輸入的,并且利用數(shù)字信號(hào)處理器為語(yǔ)音識(shí)別器的核心對(duì)語(yǔ)音命令信號(hào)進(jìn)行識(shí)別,然后發(fā)出相應(yīng)的控制信號(hào),而喉頭送話器不同于一般的利用空氣傳導(dǎo)的聲音傳感器(如麥克風(fēng)),它必須緊貼發(fā)命令者的喉部,說(shuō)話時(shí)聲帶發(fā)生振動(dòng),喉頭送話器中的碳膜發(fā)生形變,使其電阻發(fā)生變化,從而使其兩端的電壓發(fā)生變化,于是振動(dòng)信號(hào)轉(zhuǎn)化為電信號(hào),即語(yǔ)音信號(hào)??諝庵袀鲗?dǎo)的聲波無(wú)法使喉頭送話器中的碳膜發(fā)生形變,所以喉頭送話器感受不到空氣傳導(dǎo)的聲音,具有很強(qiáng)的抗干擾能力,可在強(qiáng)噪聲環(huán)境下獲取命令發(fā)出者的語(yǔ)音信號(hào),而濾波器可對(duì)喉頭送話器獲得的語(yǔ)音信號(hào)進(jìn)行放大和低通濾波,防止頻率混疊,數(shù)字信號(hào)處理器則保證語(yǔ)音識(shí)別算法和語(yǔ)音壓縮解壓縮等算法的順利實(shí)現(xiàn)。
下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
圖1是本發(fā)明語(yǔ)音控制指令發(fā)生裝置的原理圖;圖2是本發(fā)明語(yǔ)音控制指令發(fā)生裝置的電路圖;圖3為語(yǔ)音控制指令發(fā)生裝置軟件總控流程圖;圖4為語(yǔ)音控制指令發(fā)生裝置軟件中識(shí)別模塊(rec_mode)流程圖;圖5為語(yǔ)音控制指令發(fā)生裝置軟件中管理模塊(manage_mode)流程圖;圖6為語(yǔ)音控制指令發(fā)生裝置軟件中訓(xùn)練模塊(train_mode)流程圖;本發(fā)明語(yǔ)音控制指令發(fā)生裝置的硬件實(shí)現(xiàn)方案,由圖1和圖2來(lái)說(shuō)明。圖1中系統(tǒng)各功能塊說(shuō)明如下數(shù)字信號(hào)處理芯片(DSP)1采用ADSP2181,時(shí)鐘16.67M,33MIPS,一個(gè)指令周期為30ns;內(nèi)部含16K字?jǐn)?shù)據(jù)存儲(chǔ)器和16K字程序存儲(chǔ)器,用于算法的實(shí)現(xiàn)和接口的控制,ADSP2181還可用ADSP2186來(lái)代替。閃速存儲(chǔ)器(Ⅰ)2采用AT29C020,用于存儲(chǔ)程序代碼和初始化數(shù)據(jù);閃速存儲(chǔ)器(Ⅱ)3采用AT29C020,用于存儲(chǔ)語(yǔ)音命令樣本;模數(shù)數(shù)模轉(zhuǎn)換器4采用AD73311,16位D/A和A/D,內(nèi)含增益控制;其作用是將喉頭送話器獲得的模擬語(yǔ)音進(jìn)行A/D變換,然后把數(shù)字化的語(yǔ)音信號(hào)送入DSP芯片進(jìn)行處理,還把數(shù)字語(yǔ)音信號(hào)進(jìn)行D/A變換,還原為模擬的語(yǔ)音信號(hào),通過(guò)語(yǔ)音功率放大器和喇叭還原為聲音。此外可通過(guò)采用高于所需采樣頻率的頻率進(jìn)行采樣,配合DSP運(yùn)用升降采樣技術(shù),提高輸入語(yǔ)音信號(hào)的信噪比和系統(tǒng)的識(shí)別率;看門(mén)狗電路5采用MAX705,對(duì)ADSP2181的運(yùn)行進(jìn)行監(jiān)視,有問(wèn)題時(shí)發(fā)出WDG信號(hào);組合邏輯6用可編程邏輯器件實(shí)現(xiàn),通過(guò)對(duì)數(shù)據(jù)和地址及其他ADSP2181的輸出信號(hào)譯碼產(chǎn)生控制信號(hào);編碼器7用MC14419實(shí)現(xiàn)16-4編碼器,把16個(gè)鍵進(jìn)行編碼(4位碼);LCD顯示器816×2點(diǎn)陣顯示模塊;用于顯示提示語(yǔ)及有關(guān)信息;濾波器9對(duì)喉頭送話器11信號(hào)進(jìn)行預(yù)處理,用運(yùn)算放大器來(lái)實(shí)現(xiàn),實(shí)現(xiàn)對(duì)弱語(yǔ)音信號(hào)的放大和濾波,并實(shí)現(xiàn)喉頭送話器和AD73311之間的阻抗匹配,防止語(yǔ)音基線的漂移;執(zhí)行電路10根據(jù)DSP發(fā)出的語(yǔ)音命令的譯碼結(jié)果,實(shí)現(xiàn)對(duì)外部對(duì)象的控制。喉頭送話器11語(yǔ)音傳感器,把發(fā)命令者的聲帶振動(dòng)信號(hào)轉(zhuǎn)化為電信號(hào),即模擬語(yǔ)音信號(hào)。
圖2是本發(fā)明語(yǔ)音控制指令發(fā)生裝置的具體連接電路圖,執(zhí)行電路因不同控制對(duì)象而不同,由使用者視具體情況另行設(shè)計(jì)。圖2中U01為ADSP2181,即數(shù)字信號(hào)處理片;U02為AT29C020為閃速存儲(chǔ)器(Ⅰ)2,用于存儲(chǔ)程序代碼和初始化數(shù)據(jù),閃速存儲(chǔ)器(Ⅱ)3不在圖上,它可單獨(dú)做成樣本卡,通過(guò)J04與系統(tǒng)連接;U03為GAL16V8,是可編程邏輯器件,通過(guò)對(duì)ADSP2181部分信號(hào)的譯碼實(shí)現(xiàn)對(duì)兩片閃速存儲(chǔ)器的控制;U04,MAX705,為看門(mén)狗芯片,上電時(shí)產(chǎn)生系統(tǒng)復(fù)位信號(hào)RESET,系統(tǒng)有問(wèn)題時(shí)還能產(chǎn)生監(jiān)視信號(hào)WDG;U05為AD73311,是模數(shù)/數(shù)模轉(zhuǎn)換器4,它把由J052或J053送入的由喉頭送話器11獲得的模擬語(yǔ)音信號(hào)數(shù)字化,然后通過(guò)DR信號(hào)線送入ADSP2181的串行口,它還可把從ADSP2181輸出的串行數(shù)據(jù)從DT信號(hào)線接收進(jìn)來(lái),然后進(jìn)行D/A變換,通過(guò)U12,MC34119,的放大之后通過(guò)J051連接到喇叭還原為聲音;U06-U09為驅(qū)動(dòng)芯片,完成ADSP2181和閃速存儲(chǔ)器(Ⅱ)3之間的地址和數(shù)據(jù)線的驅(qū)動(dòng);U10為MC34119,是編碼器7,對(duì)4×4鍵盤(pán)進(jìn)行編碼,然后通過(guò)PF4-PF7輸入到ADSP2181中;U11,MC7805,為穩(wěn)壓芯片;此外J03為鍵盤(pán)與系統(tǒng)的連接口,J02為系統(tǒng)與液晶顯示器8的接口,J01為系統(tǒng)與仿真器的接口。
本發(fā)明語(yǔ)音控制指令發(fā)生裝置的軟件實(shí)現(xiàn)方法用圖3-圖6說(shuō)明。本發(fā)明裝置可采用不同的語(yǔ)音識(shí)別算法和語(yǔ)音壓縮算法,可由使用本發(fā)明者選用?,F(xiàn)結(jié)合圖3-圖6說(shuō)明本發(fā)明語(yǔ)音控制指令發(fā)生裝置的工作過(guò)程。
圖3是語(yǔ)音控制指令發(fā)生裝置的軟件總控流程圖。由圖3可見(jiàn),軟件分為三個(gè)模塊(1)識(shí)別模塊rec_mode(2)管理模塊manage_mode(3)訓(xùn)練模塊train_mode。當(dāng)本裝置上電啟動(dòng)后,處于模式選擇狀態(tài),等待用戶的鍵盤(pán)輸入,然后進(jìn)入所選的狀態(tài)。
圖4為語(yǔ)音識(shí)別模塊(rec_mode)流程圖,該模塊實(shí)現(xiàn)對(duì)喉頭送話器輸入的語(yǔ)音信號(hào)進(jìn)行識(shí)別,然后把識(shí)別的結(jié)果(對(duì)應(yīng)該語(yǔ)音命令的編碼)輸出到組合邏輯電路,然后去控制外部控制對(duì)象。由圖可見(jiàn),語(yǔ)音識(shí)別的過(guò)程首先進(jìn)行語(yǔ)音檢測(cè),判斷是否有語(yǔ)音輸入;若有則對(duì)該語(yǔ)音進(jìn)行特征提取,即提取輸入語(yǔ)音的MFCC參數(shù);參數(shù)提取后進(jìn)行參數(shù)比較,即把輸入語(yǔ)音的特征參數(shù)與存儲(chǔ)在閃存中的語(yǔ)音命令的特征參數(shù)(即模板)進(jìn)行比較,確定是否與其中的某個(gè)模板匹配,這里有兩種情況,第一種情況是完全匹配,則被匹配的模板即為輸入的語(yǔ)音命令,這時(shí)候匹配模板對(duì)應(yīng)的編碼即為輸入語(yǔ)音命令的編碼,通過(guò)數(shù)據(jù)線輸入到組合邏輯,然后去控制外部對(duì)象;第二種情況是不完全匹配,這時(shí)候找到三個(gè)最接近的語(yǔ)音命令模板,并把它們的語(yǔ)音分別回放,讓使用者判斷,若其中有一個(gè)是輸入的語(yǔ)音命令,則由用戶確認(rèn)后,把其語(yǔ)音編碼通過(guò)數(shù)據(jù)線輸入到組合邏輯,然后去控制外部對(duì)象;若三個(gè)都不是輸入的語(yǔ)音命令,則提示讓用戶從新輸入一次語(yǔ)音命令,重復(fù)上述的語(yǔ)音識(shí)別過(guò)程,直到識(shí)別出結(jié)果。
圖5為管理模塊(manage_mode)流程圖,該模塊實(shí)現(xiàn)管理功能,包括命令模板的錄入,查找,刪除,系統(tǒng)詞錄入修改和回放,鍵盤(pán)的管理等。
圖6為訓(xùn)練模塊(train_mode)流程圖,該模塊建立語(yǔ)音命令的模板并實(shí)現(xiàn)模板的存儲(chǔ)。語(yǔ)音命令訓(xùn)練的過(guò)程首先是語(yǔ)音檢測(cè),即判斷是否有語(yǔ)音輸入;判斷到有語(yǔ)音輸入后,對(duì)該語(yǔ)音進(jìn)行兩方面的處理,一是提取該語(yǔ)音的特征,即計(jì)算其MFCC參數(shù),二是對(duì)該語(yǔ)音數(shù)據(jù)進(jìn)行壓縮編碼;然后把已記錄的語(yǔ)音回放讓用戶判斷,若用戶鍵入信息表示不滿意語(yǔ)音命令的質(zhì)量,則重復(fù)以上操作,若用戶鍵入信息表示滿意語(yǔ)音命令的質(zhì)量,則提示用戶鍵入語(yǔ)音命令的編碼,然后把輸入的語(yǔ)音命令的特征參數(shù)(即模板)和壓縮后的語(yǔ)音命令及其編碼存入閃速存儲(chǔ)器中,這時(shí)候完成了一次訓(xùn)練的操作。
本發(fā)明在使用時(shí),將喉頭送話器11固定或貼在發(fā)出指令者的喉頭附近位置,用于接受指令發(fā)出者發(fā)出的指令,每個(gè)指令通常為一個(gè)詞組,多個(gè)指令為多個(gè)詞組。濾波器9接受由喉頭送話器11輸出的模擬語(yǔ)音指令信號(hào),經(jīng)濾波器9預(yù)處理后,將處理后的模擬語(yǔ)音指令信號(hào)輸入到模數(shù)轉(zhuǎn)換器,形成數(shù)字語(yǔ)音指令信號(hào)。數(shù)字語(yǔ)音指令信號(hào)輸入至數(shù)字信號(hào)處理器1,以數(shù)字信號(hào)處理器1為核心組成的語(yǔ)音識(shí)別器,識(shí)別語(yǔ)音指令信號(hào),形成控制指令,控制指令將輸出到預(yù)定的被控設(shè)備。其中,閃速存儲(chǔ)器(Ⅰ)2用于存儲(chǔ)程序代碼和初始化數(shù)據(jù);閃速存儲(chǔ)器(Ⅱ)3用于存儲(chǔ)經(jīng)過(guò)訓(xùn)練學(xué)習(xí)的語(yǔ)音指令樣本;驅(qū)動(dòng)器完成數(shù)字信號(hào)處理器1與閃速存儲(chǔ)器(Ⅱ)3之間的聯(lián)結(jié);組合邏輯器6用于對(duì)地址和數(shù)字信號(hào)處理器1輸出信號(hào)的譯碼并產(chǎn)生控制信號(hào)。液晶顯示器8用于使用過(guò)程中必要的提示語(yǔ)。電源為本裝置供電。對(duì)一般使用場(chǎng)所語(yǔ)音指令條數(shù)在50條之內(nèi),但本發(fā)明語(yǔ)音指令條數(shù)的最大容量為200條。本裝置供多人使用時(shí),可以將閃速存儲(chǔ)器(Ⅱ)3存儲(chǔ)的語(yǔ)音樣本更換,或每人對(duì)應(yīng)一個(gè)閃速存儲(chǔ)器(Ⅱ)3制作成語(yǔ)音樣板卡,做成活動(dòng)插接形式。
本發(fā)明由于采用喉頭送話器作為指令發(fā)出者發(fā)出語(yǔ)音指令的受話器,直接接受指令發(fā)出者發(fā)出指令時(shí)的聲帶振動(dòng)語(yǔ)音信號(hào),避免了語(yǔ)音在空氣傳導(dǎo)時(shí)混入使用環(huán)境中存在的噪聲,從而避免了由于環(huán)境噪聲混入帶來(lái)的正確識(shí)別率下降或帶來(lái)指令的錯(cuò)誤識(shí)別,降低了對(duì)于使用環(huán)境的要求。本發(fā)明將適用于公共場(chǎng)所、車間、工地、海陸空的運(yùn)載工具(車、船、飛機(jī)等)中實(shí)行用人的自然語(yǔ)音發(fā)出指令使機(jī)器按指令運(yùn)作,以語(yǔ)音指令代替人的手工操作;對(duì)于殘疾人(喪失說(shuō)話能力者除外)在不便于手工操作時(shí)可使用本發(fā)明裝置;可用于智能玩具中讓玩具按人的語(yǔ)音指令動(dòng)作;可用于人與機(jī)器人的對(duì)話,使機(jī)器人按人的語(yǔ)音指令動(dòng)作;以及在不存在噪聲環(huán)境下可使用本發(fā)明語(yǔ)音控制指令產(chǎn)生裝置。
權(quán)利要求
1.一種噪聲環(huán)境下語(yǔ)音控制指令產(chǎn)生裝置,包括有模數(shù)和數(shù)模轉(zhuǎn)換器4、液晶顯示器8、電源、揚(yáng)聲器、語(yǔ)音識(shí)別器等部件,其特征是在模數(shù)和數(shù)模轉(zhuǎn)換器4上通過(guò)一濾波器9連接一個(gè)喉頭送話器11,語(yǔ)音識(shí)別器則以數(shù)字信號(hào)處理器1為核心,連接閃速存儲(chǔ)器(Ⅰ)2、(Ⅱ)3、組合邏輯器6、編碼器7、驅(qū)動(dòng)器、看門(mén)狗電路5組成,模數(shù)和數(shù)模轉(zhuǎn)換器4與數(shù)字信號(hào)處理器1的串行口連接,驅(qū)動(dòng)器將閃速存儲(chǔ)器(Ⅱ)3與數(shù)字信號(hào)處理器連接在一起,組合邏輯器6分別與閃速存儲(chǔ)器(Ⅰ)2、(Ⅱ)3、數(shù)字信號(hào)處理器1連接,組合邏輯器6通過(guò)執(zhí)行電路10與受控設(shè)備連接。
全文摘要
本發(fā)明是一種噪聲環(huán)境下語(yǔ)音控制指令產(chǎn)生裝置,包括有模數(shù)和數(shù)模轉(zhuǎn)換器、液晶顯示器、電源、揚(yáng)聲器、語(yǔ)音識(shí)別器等部件,其特征是在模數(shù)和數(shù)模轉(zhuǎn)換器上通過(guò)一濾波器連接一個(gè)喉頭送話器,語(yǔ)音識(shí)別器則以數(shù)字信號(hào)處理器為核心,連接閃速存儲(chǔ)器(Ⅰ)、(Ⅱ)、組合邏輯器、編碼器、驅(qū)動(dòng)器、看門(mén)狗電路組成,適用于強(qiáng)噪聲環(huán)境。
文檔編號(hào)G10L21/02GK1235320SQ9911610
公開(kāi)日1999年11月17日 申請(qǐng)日期1999年3月31日 優(yōu)先權(quán)日1999年3月31日
發(fā)明者張有為, 張歆奕, 何強(qiáng) 申請(qǐng)人:五邑大學(xué)