專利名稱:語音識(shí)別系統(tǒng)以及方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于一種語音識(shí)別系統(tǒng)以及方法,特別是關(guān)于一種應(yīng)用于數(shù)據(jù)處理裝置的語音識(shí)別系統(tǒng)與方法。
背景技術(shù):
隨著電子信息產(chǎn)業(yè)發(fā)展的日新月異,各種功能強(qiáng)大且價(jià)格低廉的消費(fèi)性電子信息產(chǎn)品紛紛問世。例如,為了能進(jìn)一步與使用外語的人進(jìn)行溝通,大量具有語言學(xué)習(xí)功能的數(shù)據(jù)處理裝置如雨后春筍一般出現(xiàn)在消費(fèi)市場中。通過如計(jì)算機(jī)或電子辭典等數(shù)據(jù)處理裝置進(jìn)行語言學(xué)習(xí)的過程中,如何能夠提供給學(xué)習(xí)者幾乎與真人相同的學(xué)習(xí)環(huán)境,達(dá)到無須通過與真人的互動(dòng),僅通過與該數(shù)據(jù)處理裝置間的互動(dòng)即可達(dá)到語文學(xué)習(xí)的功效,已成為研發(fā)者必須面對(duì)的問題。
臺(tái)灣公告第308666號(hào)專利是一種「智能型漢語語音學(xué)習(xí)系統(tǒng)及其方法」,是通過機(jī)器先檢測使用者輸入的學(xué)習(xí)例句語音信號(hào)的特征參數(shù),再經(jīng)過辨認(rèn)輸入的學(xué)習(xí)例句的語音及計(jì)算的辨認(rèn)結(jié)果與學(xué)習(xí)例句比較的符合率的辨認(rèn)裝置,以及通過使用者學(xué)習(xí)例句的語音以訓(xùn)練使用者的語音模型并更新其中數(shù)據(jù)的訓(xùn)練裝置。經(jīng)過一組學(xué)習(xí)例句的訓(xùn)練后,該使用者的語音模型幾乎已涵蓋所有本身的語音特性,使在正式上線使用時(shí),能有效的根據(jù)該語音模型內(nèi)的語音特性辨認(rèn)使用者的輸入信號(hào)。
上述語音學(xué)習(xí)與識(shí)別系統(tǒng)及方法是現(xiàn)今語音識(shí)別系統(tǒng)常用的技術(shù)。然而它卻存在著相當(dāng)大的缺點(diǎn),也就是使用者必須先根據(jù)接近預(yù)定的標(biāo)準(zhǔn)速度與音量朗讀例句,借以建立使用者的語音特征,降低系統(tǒng)識(shí)別錯(cuò)誤的機(jī)會(huì),同時(shí)養(yǎng)成用清晰穩(wěn)定的朗讀方式輸入語音的習(xí)慣。這種語音特征建立及識(shí)別的方式要求使用者遷就機(jī)器的識(shí)別習(xí)慣,不但欠缺人性化,對(duì)于反應(yīng)較慢的使用者來說,則必須反復(fù)多次的嘗試才能求得較佳的識(shí)別效果。此外,若使用者變更則必須重新建立使用者特征否則無法進(jìn)行識(shí)別。
總而言之,現(xiàn)有的語言識(shí)別至今仍存在兩個(gè)主要的問題,一方面是學(xué)習(xí)者無法自行決定取樣的頻率,換言之,即無法自行決定音頻分辨率的高低,高分辨率固然可以讓學(xué)習(xí)者學(xué)習(xí)到更準(zhǔn)確的發(fā)音,但相對(duì)的也會(huì)造成辨別成功率降低的困擾。另一方面現(xiàn)行的語言學(xué)習(xí)系統(tǒng)中的語言識(shí)別功能,并無法供學(xué)習(xí)者根據(jù)自身的需求做聲音的播放速度以及播放頻率的改變,欠缺個(gè)性化的語音識(shí)別功能,無法讓學(xué)習(xí)者在接近自身發(fā)音特性的環(huán)境下做語言的學(xué)習(xí),對(duì)于學(xué)習(xí)效率提高而言是一種阻礙。
綜上所述,如何能夠提供一種更具有使用者個(gè)性化的語音識(shí)別系統(tǒng)以及方法,成為目前急待解決的課題。
發(fā)明內(nèi)容
為克服上述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的主要目的在于提供一種可根據(jù)需求設(shè)定音頻取樣頻率的語音識(shí)別系統(tǒng)以及方法。
本發(fā)明的另一目的在于提供一種可根據(jù)需求設(shè)定語音播放速度與頻率的語音識(shí)別系統(tǒng)以及方法。
為達(dá)以上所述及其它目的,本發(fā)明的語音識(shí)別系統(tǒng)包括存儲(chǔ)單元,用于儲(chǔ)存至少包括原聲音頻、錄入音頻以及識(shí)別標(biāo)準(zhǔn)等數(shù)據(jù);取樣頻率設(shè)定模塊,用于依據(jù)預(yù)設(shè)的數(shù)值設(shè)定原聲音頻與錄入音頻取樣頻率值;音頻聲波信號(hào)轉(zhuǎn)換模塊,用于將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào);分析模塊,用于分析該原聲音頻與錄入音頻取樣頻率的最大音量值;計(jì)算模塊,用于分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值;判斷模塊,用于根據(jù)該識(shí)別標(biāo)準(zhǔn)比較該原聲音頻與錄入音頻絕對(duì)值以決定識(shí)別的結(jié)果;以及音頻處理模塊,設(shè)定語音播放的速度與頻率等音頻特性。
通過該語音識(shí)別系統(tǒng)執(zhí)行語音識(shí)別的方法是提供存儲(chǔ)單元,用于儲(chǔ)存至少包括原聲音頻、錄入音頻以及識(shí)別標(biāo)準(zhǔn)數(shù)據(jù);提供音頻處理模塊,設(shè)定語音播放的速度與頻率等音頻特性;提供取樣頻率設(shè)定模塊,用于依據(jù)預(yù)設(shè)的數(shù)值設(shè)定原聲音頻與錄入音頻取樣頻率值;提供音頻聲波信號(hào)轉(zhuǎn)換模塊,用于將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào);提供分析模塊,用于分析該原聲音頻與錄入音頻取樣頻率的最大音量值;提供計(jì)算模塊,用于分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值;以及提供判斷模塊,用于依據(jù)該識(shí)別標(biāo)準(zhǔn),比較該原聲音頻與錄入音頻絕對(duì)值以決定識(shí)別的結(jié)果。
與現(xiàn)有的語音識(shí)別技術(shù)比較,本發(fā)明的語音識(shí)別系統(tǒng)以及方法可根據(jù)需求設(shè)定音頻取樣頻率,還可根據(jù)需求設(shè)定語音播放的速度與頻率,讓學(xué)習(xí)者在接近自身發(fā)音特性的環(huán)境下進(jìn)行語言的學(xué)習(xí),能夠有效提高語言學(xué)習(xí)的效率。
圖1是本發(fā)明的語音識(shí)別系統(tǒng)的基本結(jié)構(gòu)圖;以及圖2是本發(fā)明的語音識(shí)別的流程圖。
具體實(shí)施例方式
實(shí)施例以下通過特定的具體實(shí)施例說明本發(fā)明的實(shí)施方式。
圖1是本發(fā)明的語音識(shí)別系統(tǒng)1的基本結(jié)構(gòu)圖,該系統(tǒng)包括存儲(chǔ)單元11、取樣頻率設(shè)定模塊12、音頻聲波信號(hào)轉(zhuǎn)換模塊13、分析模塊14、計(jì)算模塊15、判斷模塊16以及音頻處理模塊17。
在本實(shí)施例中,本發(fā)明的語音識(shí)別系統(tǒng)1應(yīng)用在個(gè)人計(jì)算機(jī)2中,特別是用于提供該個(gè)人計(jì)算機(jī)2語言發(fā)音學(xué)習(xí)的功能。此外,該個(gè)人計(jì)算機(jī)2包括用于輸入音頻數(shù)據(jù)的輸入單元22,例如是麥克風(fēng)。此外,該個(gè)人計(jì)算機(jī)2實(shí)際上還包括其它用于執(zhí)行數(shù)據(jù)運(yùn)算的軟、硬及/或韌體,為突出本案的技術(shù)特征,僅顯示與本發(fā)明的語音識(shí)別系統(tǒng)1以及方法相關(guān)部分。此外,該個(gè)人計(jì)算機(jī)2也可換成如電子辭典、個(gè)人數(shù)字助理、移動(dòng)電話等支持語音輸出入功能的數(shù)據(jù)處理裝置。
該存儲(chǔ)單元11用于儲(chǔ)存至少包括原聲音頻、錄入音頻以及預(yù)設(shè)識(shí)別標(biāo)準(zhǔn)等數(shù)據(jù)。在本實(shí)施例中,該存儲(chǔ)單元11是硬盤裝置。除了用于儲(chǔ)存該原聲音頻、錄入音頻以及識(shí)別標(biāo)準(zhǔn)等數(shù)據(jù)外,還可用于儲(chǔ)存該個(gè)人計(jì)算機(jī)2在執(zhí)行本發(fā)明的語音識(shí)別系統(tǒng)1時(shí)產(chǎn)生的數(shù)據(jù)。
該取樣頻率設(shè)定模塊12用于根據(jù)預(yù)設(shè)的數(shù)值,設(shè)定原聲音頻與錄入音頻取樣頻率值。由于將模擬音頻信號(hào)轉(zhuǎn)換為數(shù)字音頻信號(hào)的過程中必須先確定取樣頻率,作為模擬音頻轉(zhuǎn)換為數(shù)字音頻的過程中每秒取樣次數(shù)的依據(jù)。
一般來說,聲音播出時(shí)的品質(zhì)通常只能達(dá)到取樣頻率的一半,因此須采取雙倍取樣率才能將原音準(zhǔn)確重現(xiàn)。正常情況下,一般人的聽力極限約為20KHz,所以高品質(zhì)的取樣應(yīng)為其兩倍以上,當(dāng)聲音來源為音樂時(shí),由于它所橫跨的頻率變化極為寬廣,通常以44.1KHz的頻率為CD音樂取樣率的標(biāo)準(zhǔn);但是若以語音為主,由于人說話的語音大約為10KHz,因此加倍采樣,只取22KHz即可。取樣率越高,所記錄下來的音質(zhì)就越清晰;當(dāng)然,越高的取樣所記錄下來的數(shù)據(jù)就會(huì)越大。在本實(shí)施例中,本發(fā)明的語音識(shí)別系統(tǒng)1用于語音識(shí)別,所以取樣頻率可以是22KHz。其中,關(guān)于取樣分辨率的部分則可根據(jù)使用者的需求設(shè)定八位、十六位或更高,然由于取樣分辨率與本發(fā)明的技術(shù)內(nèi)容無直接關(guān)聯(lián),所以不予贅述。
該音頻聲波信號(hào)轉(zhuǎn)換模塊13用于根據(jù)該取樣頻率設(shè)定模塊12所設(shè)定的取樣頻率值,將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào)。在本實(shí)施例中,該音頻聲波信號(hào)轉(zhuǎn)換模塊13利用個(gè)人計(jì)算機(jī)上常用的數(shù)字聲音文件(digital audio file)格式「.WAV」。在將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào)的過程中,可依據(jù)該取樣頻率設(shè)定模塊12設(shè)定的不同的取樣頻率(44kHz、22kHz或11kHz)與位數(shù)(8位或16位)及單聲/立體聲等。需特別說明,該音頻聲波信號(hào)轉(zhuǎn)換模塊13也可利用其它的音頻聲波信號(hào)轉(zhuǎn)換格式,如「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」或「.mat」等格式。
該分析模塊14用于分析該原聲音頻與錄入音頻取樣頻率的最大音量值。由于模擬音頻信號(hào)在進(jìn)入該個(gè)人計(jì)算機(jī)2前是一種連續(xù)性的信號(hào),所謂的連續(xù)性號(hào)是指時(shí)間上的連續(xù),通過該輸入單元22將模擬音頻信號(hào)傳到該個(gè)人計(jì)算機(jī)2中,也就是數(shù)字化的過程。原來連續(xù)性的模擬音頻信號(hào),經(jīng)過數(shù)字化的處理后,變成一種不連續(xù)的信號(hào),這些轉(zhuǎn)換后的聲波信號(hào)只在某些固定的時(shí)間刻度上有值,該分析模塊14即是用于分析該時(shí)間刻度上的值。在本實(shí)施例中,該時(shí)間刻度上的值可以是伏特(volt)或分貝(decibel;dB)。
該計(jì)算模塊15用于分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值。在本實(shí)施例中,該絕對(duì)值的計(jì)算是依據(jù)該原聲音頻與錄入音頻的每一時(shí)間刻度上的值,也就是將每一時(shí)間刻度除以該時(shí)間刻度上的伏特或分貝值作為該絕對(duì)值。
該判斷模塊16用于依據(jù)該識(shí)別標(biāo)準(zhǔn),比較該原聲音頻與錄入音頻絕對(duì)值以決定識(shí)別的結(jié)果。在本實(shí)施例中,該識(shí)別標(biāo)準(zhǔn)可例如是比較該計(jì)算模塊15計(jì)算出的原聲音頻每一時(shí)間刻度的絕對(duì)值以及錄入音頻每一時(shí)間刻度的絕對(duì)值的相似程度,更具體來說,是以該原聲音頻絕對(duì)值與錄入音頻絕對(duì)值的差值,除以該原聲音頻的絕對(duì)值并求其相似度百分比。接著,進(jìn)一步在求出所有時(shí)間刻度的相似度百分比后,再求出所有時(shí)間刻度相似度百分比的總平均值。若本發(fā)明的語音識(shí)別系統(tǒng)1是應(yīng)用在語言學(xué)習(xí)軟件的發(fā)音準(zhǔn)確度鑒別功能中,則該總平均值則可作為鑒別的依據(jù)。
該音頻處理模塊17用于設(shè)定語音播放速度與頻率等音頻特性。在本實(shí)施例中,該音頻處理模塊17可通過諸如時(shí)序變化的方式,加快或放慢該原聲音頻數(shù)據(jù)的速度,借以符合不同使用者的說話速度。另一方面,該原聲音頻音調(diào)的高低與振動(dòng)的快慢成正比,若在相同時(shí)間內(nèi)振動(dòng)較快者則其頻率較高,音調(diào)也會(huì)相對(duì)提高。因此,通過變更該原聲音頻數(shù)據(jù)的頻率即可變更該原聲音頻數(shù)據(jù)的音調(diào),例如趨近于女聲或男聲,同樣的可符合不同使用者的說話音調(diào)。
請(qǐng)參閱圖2,它是本發(fā)明的語音識(shí)別方法步驟的流程圖。
在步驟S201中,提供存儲(chǔ)單元11以儲(chǔ)存至少包括原聲音頻、錄入音頻以及預(yù)設(shè)識(shí)別標(biāo)準(zhǔn)等數(shù)據(jù)。接著進(jìn)行步驟S202。
在步驟S202中,該音頻處理模塊17用于設(shè)定語音播放的速度與頻率等音頻特性。在本實(shí)施例中,該音頻處理模塊17可通過諸如時(shí)序變化的方式,加快或放慢該原聲音頻數(shù)據(jù)的速度。另一方面,還可變更該原聲音頻數(shù)據(jù)的頻率即可變更該原聲音頻數(shù)據(jù)的音調(diào)。接著進(jìn)行步驟S203。
在步驟S203中,提供取樣頻率設(shè)定模塊12,依據(jù)預(yù)設(shè)的數(shù)值設(shè)定原聲音頻與錄入音頻取樣頻率值。在本實(shí)施例中,本發(fā)明的語音識(shí)別系統(tǒng)1是用于語音識(shí)別,所以取樣頻率可取22KHz。接著進(jìn)行步驟S204。
在步驟S204中,提供音頻聲波信號(hào)轉(zhuǎn)換模塊13,依據(jù)該取樣頻率設(shè)定模塊12所設(shè)定的取樣頻率值,將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào)。在本實(shí)施例中,該音頻聲波信號(hào)轉(zhuǎn)換模塊13是利用個(gè)人計(jì)算機(jī)上常用的數(shù)字聲音文件格式「.WAV」。接著進(jìn)行步驟S205。
在步驟S205中,提供該分析模塊14,分析該原聲音頻與錄入音頻取樣頻率的最大音量值。在本實(shí)施例中,該時(shí)間刻度上的值可以是伏特(volt)或分貝(decibel;dB)。接著進(jìn)行步驟S206。
在步驟S206中,提供該計(jì)算模塊15,分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值。在本實(shí)施例中,該絕對(duì)值的計(jì)算是依據(jù)該原聲音頻與錄入音頻的每一時(shí)間刻度上的值,也就是將每一時(shí)間刻度除以該時(shí)間刻度上的伏特或分貝值作為該絕對(duì)值。接著進(jìn)行步驟S207。
在步驟S207中,提供該判斷模塊16,依據(jù)該識(shí)別標(biāo)準(zhǔn)比較該原聲音頻與錄入音頻絕對(duì)值決定識(shí)別的結(jié)果。在本實(shí)施例中,該識(shí)別標(biāo)準(zhǔn)可例如是比較該計(jì)算模塊15所計(jì)算出的原聲音頻每一時(shí)間刻度的絕對(duì)值以及錄入音頻每一時(shí)間刻度的絕對(duì)值的相似程度,具體來說,即是以該原聲音頻絕對(duì)值與錄入音頻絕對(duì)值的差值除以該原聲音頻的絕對(duì)值并求其相似度百分比。接著,進(jìn)一步在求出所有時(shí)間刻度的相似度百分比后,再求出所有時(shí)間刻度相似度百分比的總平均值。
綜上所述,本發(fā)明的語音識(shí)別系統(tǒng)以及方法除了可根據(jù)需求設(shè)定音頻取樣頻率外,還可根據(jù)需求設(shè)定語音播放的速度與頻率。讓學(xué)習(xí)者在接近自身發(fā)音特性的環(huán)境下進(jìn)行語言學(xué)習(xí),進(jìn)而有效提高語言學(xué)習(xí)的效率。
權(quán)利要求
1.一種語音識(shí)別系統(tǒng),應(yīng)用在數(shù)據(jù)處理裝置中,其特征在于,該系統(tǒng)包括存儲(chǔ)單元,用于儲(chǔ)存至少包括原聲音頻、錄入音頻以及識(shí)別標(biāo)準(zhǔn)等數(shù)據(jù);取樣頻率設(shè)定模塊,用于依據(jù)預(yù)設(shè)的數(shù)值設(shè)定原聲音頻與錄入音頻取樣頻率值;音頻聲波信號(hào)轉(zhuǎn)換模塊,用于將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào);分析模塊,用于分析該原聲音頻與錄入音頻取樣頻率的最大音量值;計(jì)算模塊,用于分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值;判斷模塊,用于根據(jù)該識(shí)別標(biāo)準(zhǔn)比較該原聲音頻與錄入音頻絕對(duì)值以決定識(shí)別的結(jié)果;以及音頻處理模塊,設(shè)定語音播放的速度與頻率等音頻特性。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,該取樣頻率是44.1KHz及22KHz其中之一。
3.如權(quán)利要求1所述的系統(tǒng),其特征在于,該音頻聲波信號(hào)轉(zhuǎn)換模塊的音頻聲波信號(hào)轉(zhuǎn)換格式是「.wav」、「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」或「.mat」文件格式中的一種格式。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,該音量值是聲波信號(hào)時(shí)間刻度上的值是伏特及分貝其中之一。
5.如權(quán)利要求1所述的系統(tǒng),其特征在于,該絕對(duì)值的計(jì)算是依據(jù)該原聲音頻與錄入音頻的每一時(shí)間刻度上的值。
6.如權(quán)利要求1所述的系統(tǒng),其特征在于,該識(shí)別標(biāo)準(zhǔn)是比較該計(jì)算模塊計(jì)算出的原聲音頻每一時(shí)間刻度的絕對(duì)值以及錄入音頻每一時(shí)間刻度的絕對(duì)值的相似程度。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,該絕對(duì)值的相似程度是以該原聲音頻絕對(duì)值與錄入音頻絕對(duì)值的差值除以該原聲音頻的絕對(duì)值后所得到的值。
8.如權(quán)利要求6所述的系統(tǒng),其特征在于,該判斷模塊在求出所有時(shí)間刻度的相似程度后,再求出所有時(shí)間刻度相似程度的總平均值。
9.如權(quán)利要求1所述的系統(tǒng),其特征在于,該音頻處理模塊是通過時(shí)序變化的方式,調(diào)整該原聲音頻數(shù)據(jù)的速度。
10.如權(quán)利要求1所述的系統(tǒng),其特征在于,該音頻處理模塊是通過變更該原聲音頻數(shù)據(jù)的頻率來變更該原聲音頻數(shù)據(jù)的音調(diào)。
11.一種語音識(shí)別方法,應(yīng)用在數(shù)據(jù)處理裝置中,其特征在于,該方法包括提供存儲(chǔ)單元,用于儲(chǔ)存至少包括原聲音頻、錄入音頻以及識(shí)別標(biāo)準(zhǔn)數(shù)據(jù);提供音頻處理模塊,設(shè)定語音播放的速度與頻率等音頻特性;提供取樣頻率設(shè)定模塊,用于依據(jù)預(yù)設(shè)的數(shù)值設(shè)定原聲音頻與錄入音頻取樣頻率值;提供音頻聲波信號(hào)轉(zhuǎn)換模塊,用于將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào);提供分析模塊,用于分析該原聲音頻與錄入音頻取樣頻率的最大音量值;提供計(jì)算模塊,用于分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值;以及提供判斷模塊,用于依據(jù)該識(shí)別標(biāo)準(zhǔn),比較該原聲音頻與錄入音頻絕對(duì)值以決定識(shí)別的結(jié)果。
12.如權(quán)利要求11所述的方法,其特征在于,該取樣頻率是44.1KHz及22KHz其中之一。
13.如權(quán)利要求11所述的方法,其特征在于,該音頻聲波信號(hào)轉(zhuǎn)換模塊的音頻聲波信號(hào)轉(zhuǎn)換格式是「.wav」、「.au」、「.snd」、「.voc」、「.aiff」、「.afc」、「.iff」或「.mat」文件格式中的一種格式。
14.如權(quán)利要求11所述的方法,其特征在于,該音量值是聲波信號(hào)時(shí)間刻度上的值是伏特及分貝其中之一。
15.如權(quán)利要求11所述的方法,其特征在于,該絕對(duì)值的計(jì)算是依據(jù)該原聲音頻與錄入音頻的每一時(shí)間刻度上的值。
16.如權(quán)利要求11所述的方法,其特征在于,該識(shí)別標(biāo)準(zhǔn)是比較該計(jì)算模塊所計(jì)算出的原聲音頻每一時(shí)間刻度的絕對(duì)值以及錄入音頻每一時(shí)間刻度的絕對(duì)值的相似程度。
17.如權(quán)利要求16所述的方法,其特征在于,該絕對(duì)值的相似程度是以該原聲音頻絕對(duì)值與錄入音頻絕對(duì)值的差值除以該原聲音頻的絕對(duì)值后所得到的值。
18.如權(quán)利要求16所述的方法,其特征在于,該判斷模塊在求出所有時(shí)間刻度的相似程度后,再求出所有時(shí)間刻度相似程度的總平均值。
19.如權(quán)利要求11所述的方法,其特征在于,該音頻處理模塊是通過時(shí)序變化的方式,調(diào)整該原聲音頻數(shù)據(jù)的速度。
20.如權(quán)利要求11所述的方法,其特征在于,該音頻處理模塊是通過變更該原聲音頻數(shù)據(jù)的頻率來變更該原聲音頻數(shù)據(jù)的音調(diào)。
全文摘要
一種語音識(shí)別系統(tǒng)以及方法,應(yīng)用在數(shù)據(jù)處理裝置中,該系統(tǒng)包括存儲(chǔ)單元、取樣頻率設(shè)定模塊、音頻聲波信號(hào)轉(zhuǎn)換模塊、分析模塊、計(jì)算模塊、判斷模塊以及音頻處理模塊;本發(fā)明主要通過存儲(chǔ)單元將原聲音頻與錄入音頻儲(chǔ)存,接著根據(jù)預(yù)設(shè)的數(shù)值設(shè)定取樣頻率值,分別將該原聲音頻與錄入音頻轉(zhuǎn)換為聲波信號(hào)并分析取樣頻率的最大音量值后,分別計(jì)算出該原聲音頻與錄入音頻的絕對(duì)值,再通過比較該原聲音頻與錄入音頻絕對(duì)值以決定識(shí)別的結(jié)果;通過該語音識(shí)別系統(tǒng)以及方法,可根據(jù)使用者的特性調(diào)整音頻,提高語音識(shí)別的準(zhǔn)確度,還可根據(jù)需求設(shè)定語音播放的速度與頻率。
文檔編號(hào)G10L15/10GK1770263SQ20041008713
公開日2006年5月10日 申請(qǐng)日期2004年11月1日 優(yōu)先權(quán)日2004年11月1日
發(fā)明者邵曉慧, 邱全成 申請(qǐng)人:英業(yè)達(dá)股份有限公司